論文の概要: Thinking in a Crowd: How Auxiliary Information Shapes LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.18163v1
- Date: Wed, 17 Sep 2025 06:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.439524
- Title: Thinking in a Crowd: How Auxiliary Information Shapes LLM Reasoning
- Title(参考訳): 集団で考える:補助的な情報がどのようにLCM推論を形作るか
- Authors: Haodong Zhao, Chenyan Zhao, Yansi Li, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: 本稿では,Large Language Models (LLMs) の推論過程における補助情報の影響について検討する。
我々はSciAuxというSciQAから派生した新しいデータセットを導入し、これらの種類の情報に対してモデルの堅牢性を体系的にテストする。
モデルの「思考モード」は両刃の剣です。
- 参考スコア(独自算出の注目度): 22.49618553262681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of Large Language Models (LLMs) to reason is fundamental to their application in complex, knowledge-intensive domains. In real-world scenarios, LLMs are often augmented with external information that can be helpful, irrelevant, or even misleading. This paper investigates the causal impact of such auxiliary information on the reasoning process of LLMs with explicit step-by-step thinking capabilities. We introduce SciAux, a new dataset derived from ScienceQA, to systematically test the robustness of the model against these types of information. Our findings reveal a critical vulnerability: the model's deliberative "thinking mode" is a double-edged sword. While helpful context improves accuracy, misleading information causes a catastrophic drop in performance, which is amplified by the thinking process. Instead of conferring robustness, thinking reinforces the degree of error when provided with misinformation. This highlights that the challenge is not merely to make models "think", but to endow them with the critical faculty to evaluate the information upon which their reasoning is based. The SciAux dataset is available at https://huggingface.co/datasets/billhdzhao/SciAux.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、複雑な知識集約的な領域におけるそれらの応用に基本的である。
現実のシナリオでは、LLMは、しばしば、助け、無関係、あるいは誤解を招く可能性のある外部情報で拡張される。
本稿では,これらの補助情報が明示的なステップバイステップ思考能力を有するLCMの推論過程に与える影響について検討する。
我々はSciAuxというSciQAから派生した新しいデータセットを導入し、これらの種類の情報に対してモデルの堅牢性を体系的にテストする。
モデルの「思考モード」は両刃の剣です。
有用なコンテキストでは精度が向上するが、誤解を招く情報は、思考プロセスによって増幅される破滅的な性能低下を引き起こす。
堅牢性を与える代わりに、思考は誤った情報を提供する際にエラーの度合いを補強する。
これは、単にモデルを「考え」させるだけでなく、彼らの推論がどの情報に基づいているかを評価するために、批判的な教員にモデルを与えるのが課題であることを強調している。
SciAuxデータセットはhttps://huggingface.co/datasets/billhdzhao/SciAuxで入手できる。
関連論文リスト
- Generating Grounded Responses to Counter Misinformation via Learning Efficient Fine-Grained Critiques [9.514892000592912]
MisMitiFactは、ファクトグラウンドの反レスポンスを大規模に生成するための効率的なフレームワークである。
我々は,手軽なファクトチェックサイトから得られたデータに基づいて訓練された軽量できめ細かな批判モデルを開発する。
フィードバック生成スループットは5倍に向上し、コスト効率が高く、大規模な誤情報低減に非常に適している。
論文 参考訳(メタデータ) (2025-06-06T09:46:09Z) - Unraveling Misinformation Propagation in LLM Reasoning [22.21135267544835]
大規模言語モデルの推論過程において,誤情報がどのように伝播するかを示す。
推論過程の早い段階で事実訂正を適用することは、誤情報伝達を効果的に減少させる。
我々の研究は誤情報伝達を緩和するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-24T06:45:45Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。