論文の概要: Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games
- arxiv url: http://arxiv.org/abs/2606.00103v1
- Date: Tue, 26 May 2026 09:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.897939
- Title: Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games
- Title(参考訳): 大規模言語モデルにおける対話型推論の評価:実行可能ゲームを用いた階層型ベンチマーク
- Authors: Mingyuan Fan, Weiguang Han, Daixin Wang, Cen Chen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 本稿では,推論を積極的証拠獲得と信条更新として扱う,推論評価のための多ターン対話型フレームワークを提案する。
フレームワークを474の実行可能なゲームのベンチマークとしてインスタンス化し、それぞれ5つの難易度に対応する5つの固定構成探索空間で評価する。
その結果、ベンチマークは高い差別性を示し、成功率だけでなく相互作用効率にも大きな違いが明らかとなった。
- 参考スコア(独自算出の注目度): 20.896576101848655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a multi-turn interactive framework for reasoning evaluation that treats reasoning as active evidence acquisition and belief updating. Wherein, LLMs receive only the task rules, must issue targeted queries to a hidden environment, integrate partial observations over time, and decide when to submit a final answer. Beyond standard success rate and interaction efficiency, we evaluate contextual robustness under controlled contextual perturbations, and metacognitive adaptation through counterfactual revision and necessity judgment. We instantiate the framework as a benchmark of 474 executable games, each evaluated under five fixed configuration search spaces corresponding to five difficulty levels, and evaluate a broad set of frontier LLMs. Results show that the benchmark is highly discriminative, exposing large differences not only in success rate but also in interaction efficiency. Moreover, we empirically show that contextual perturbations cause moderate but consistent declines, whereas counterfactual revision and necessity judgment lead to much larger drops.
- Abstract(参考訳): 本稿では,推論を積極的証拠獲得と信条更新として扱う,推論評価のための多ターン対話型フレームワークを提案する。
LLMはタスクルールのみを受け取り、ターゲットクエリを隠れた環境に発行し、時間とともに部分的な観察を統合し、最終的な回答をいつ提出するかを決定する必要がある。
標準的な成功率と相互作用効率の他に、制御された文脈摂動下での文脈的堅牢性や、反現実的修正と必然的判断によるメタ認知的適応を評価する。
フレームワークを474の実行可能なゲームのベンチマークとしてインスタンス化し、それぞれ5つの難易度に対応する5つの固定構成探索空間で評価し、フロンティアLLMの広いセットを評価する。
その結果、ベンチマークは高い差別性を示し、成功率だけでなく相互作用効率にも大きな違いが明らかとなった。
さらに,文脈的摂動が中等度ではあるが一貫した低下を引き起こすことを実証的に示した。
関連論文リスト
- Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling [35.945096782147864]
MLLMの裁判官は、視覚的証拠がテキストの手がかりと矛盾する場合、知覚的に正しい答えに対して、もっともらしい物語に報いる傾向がある。
本稿では,最小限に編集された反事実応答を構成するPerceptually Perturbed Judgmentデータセットを提案する。
我々は、構造化GRPOベースの報酬とバッチレベルの目標を組み合わせた統一的なトレーニングフレームワークを開発し、明示的なペアワイドラベルを使わずにコヒーレントなグローバルオーダを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:59:46Z) - Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions [9.09574893699647]
大規模言語モデル(LLM)は、しばしばそれらの値に基づいて評価されるが、それらが確実にそれらのアクションに変換されるわけではない。
この研究では、このギャップは明示的な推論の下でも持続すると主張し、"擬似議論(Pseudo-Deliberation)"と呼ばれるより深い障害モードを明らかにします。
本稿では,提案する値と生成された対話の一致を測定するためのフレームワークであるVALDIを紹介する。
論文 参考訳(メタデータ) (2026-05-11T02:32:53Z) - MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T07:34:54Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [15.19714327680248]
チェックリストに基づく評価フレームワークであるCheckEvalを導入する。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。