論文の概要: Cascaded Information Disclosure for Generalized Evaluation of Problem Solving Capabilities
- arxiv url: http://arxiv.org/abs/2507.23776v1
- Date: Thu, 31 Jul 2025 17:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.221381
- Title: Cascaded Information Disclosure for Generalized Evaluation of Problem Solving Capabilities
- Title(参考訳): 問題解決能力の一般化評価のためのケースド情報開示
- Authors: Yunxiang Yan, Tomohiro Sawada, Kartik Goyal,
- Abstract要約: Emphcascaded questionの開示に基づく包括的で一般化可能なフレームワークを提案する。
このアプローチは、各ステージが質問に関する部分的な情報を明らかにすることで、段階的にモデル応答を収集する。
多様な推論と知識に富んだQAデータセットに基づいて,この振る舞いを実証的に検証する。
- 参考スコア(独自算出の注目度): 4.8986761253231945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While question-answering~(QA) benchmark performance is an automatic and scalable method to compare LLMs, it is an indirect method of evaluating their underlying problem-solving capabilities. Therefore, we propose a holistic and generalizable framework based on \emph{cascaded question disclosure} that provides a more accurate estimate of the models' problem-solving capabilities while maintaining the scalability and automation. This approach collects model responses in a stagewise manner with each stage revealing partial information about the question designed to elicit generalized reasoning in LLMs. We find that our approach not only provides a better comparison between LLMs, but also induces better intermediate traces in models compared to the standard QA paradigm. We empirically verify this behavior on diverse reasoning and knowledge-heavy QA datasets by comparing LLMs of varying sizes and families. Our approach narrows the performance gap observed in the standard QA evaluation settings, indicating that the prevalent indirect QA paradigm of evaluation overestimates the differences in performance between models. We further validate our findings by extensive ablation studies.
- Abstract(参考訳): QAベンチマークはLLMを自動的かつスケーラブルに比較する手法であるが,その根底にある問題解決能力を評価する間接的手法である。
そこで本研究では,スケーラビリティと自動化を維持しつつ,モデルの問題解決能力をより正確に推定する,emph{cascaded question revealsure}に基づく包括的で一般化可能なフレームワークを提案する。
このアプローチは、LLMにおける一般化推論を導き出すために設計された質問に関する部分的な情報を明らかにする段階的に、モデル応答を段階的に収集する。
提案手法は, LLMの比較だけでなく, 標準QAパラダイムと比較して, モデル中の中間トレースの精度も向上する。
異なるサイズと家族のLLMを比較することで、多様な推論と知識に富んだQAデータセット上で、この挙動を実証的に検証する。
提案手法は, 標準QA評価設定における性能差を狭め, モデル間の性能差を過大評価していることを示す。
広範囲なアブレーション研究により,この知見をさらに検証した。
関連論文リスト
- ZEBRA: Leveraging Model-Behavioral Knowledge for Zero-Annotation Preference Dataset Construction [2.970904425631548]
ZEBRAは、モデル行動知識を活用することにより、嗜好データを構成するモデルビヘイビアワイドゼロアノテーションフレームワークである。
ZEBRAは、元のモデルの品質と類似性を評価し、完全にインスタンスレベルのアノテーションをバイパスすることで、レスポンスペアをバイナライズする。
論文 参考訳(メタデータ) (2025-02-26T01:36:40Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。
本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。
TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文 参考訳(メタデータ) (2024-10-20T16:21:25Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。