論文の概要: Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16654v1
- Date: Tue, 17 Mar 2026 15:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.369874
- Title: Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
- Title(参考訳): Omanic: 大規模言語モデルにおけるマルチホップ推論の段階的評価に向けて
- Authors: Xiaojie Gu, Sherry T. Tong, Aosong Feng, Sophia Simeng Han, Jinghui Lu, Yingjian Chen, Yusuke Iwasawa, Yutaka Matsuo, Chanjun Park, Rex Ying, Irene Li,
- Abstract要約: OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。
10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
- 参考スコア(独自算出の注目度): 60.418191092851636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-focused large language models (LLMs) have advanced in many NLP tasks, yet their evaluation remains challenging: final answers alone do not expose the intermediate reasoning steps, making it difficult to determine whether a model truly reasons correctly and where failures occur, while existing multi-hop QA benchmarks lack step-level annotations for diagnosing reasoning failures. To address this gap, we propose Omanic, an open-domain multi-hop QA resource that provides decomposed sub-questions and intermediate answers as structural annotations for analyzing reasoning processes. It contains 10,296 machine-generated training examples (OmanicSynth) and 967 expert-reviewed human-annotated evaluation examples (OmanicBench). Systematic evaluations show that state-of-the-art LLMs achieve only 73.11% multiple-choice accuracy on OmanicBench, confirming its high difficulty. Stepwise analysis reveals that CoT's performance hinges on factual completeness, with its gains diminishing under knowledge gaps and errors amplifying in later hops. Additionally, supervised fine-tuning on OmanicSynth brings substantial transfer gains (7.41 average points) across six reasoning and math benchmarks, validating the dataset's quality and further supporting the effectiveness of OmanicSynth as supervision for reasoning-capability transfer. We release the data at https://huggingface.co/datasets/li-lab/Omanic and the code at https://github.com/XiaojieGu/Omanic.
- Abstract(参考訳): 最終的な答えだけでは中間的推論ステップを公開せず、モデルが真の理由と障害発生場所を判断することが困難であるのに対して、既存のマルチホップQAベンチマークでは、推論失敗を診断するための段階レベルのアノテーションが欠如している。
このギャップに対処するため,提案するオープンドメインマルチホップQAリソースであるOmanicを提案する。
10,296の機械生成トレーニング例(OmanicSynth)と967の専門家レビューによる人手による評価例(OmanicBench)が含まれている。
システム評価では、最先端のLCMはOmanicBench上で73.11%の多重選択精度しか達成せず、高い難しさが確認されている。
ステップワイズ分析により、CoTのパフォーマンスは事実の完全性に依存しており、知識のギャップやエラーによって利益が減少し、後続のホップが増幅されることが明らかになった。
さらに、OmanicSynthの教師付き微調整は、6つの推論と数学のベンチマークでかなりの転送ゲイン(7.41平均点)をもたらし、データセットの品質を検証し、推論能力の転送の監督としてOmanicSynthの有効性をさらに支援している。
データはhttps://huggingface.co/datasets/li-lab/Omanicで、コードはhttps://github.com/XiaojieGu/Omanicでリリースします。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。
SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文 参考訳(メタデータ) (2025-03-08T13:40:10Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。
マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:47:38Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。