論文の概要: A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models
- arxiv url: http://arxiv.org/abs/2505.23945v1
- Date: Thu, 29 May 2025 18:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.631588
- Title: A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models
- Title(参考訳): 大規模(視覚)言語モデルのバイアスと連鎖性についての一考察
- Authors: Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi,
- Abstract要約: 思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
- 参考スコア(独自算出の注目度): 53.18562650350898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-thought (CoT) reasoning enhances performance of large language models, but questions remain about whether these reasoning traces faithfully reflect the internal processes of the model. We present the first comprehensive study of CoT faithfulness in large vision-language models (LVLMs), investigating how both text-based and previously unexplored image-based biases affect reasoning and bias articulation. Our work introduces a novel, fine-grained evaluation pipeline for categorizing bias articulation patterns, enabling significantly more precise analysis of CoT reasoning than previous methods. This framework reveals critical distinctions in how models process and respond to different types of biases, providing new insights into LVLM CoT faithfulness. Our findings reveal that subtle image-based biases are rarely articulated compared to explicit text-based ones, even in models specialized for reasoning. Additionally, many models exhibit a previously unidentified phenomenon we term ``inconsistent'' reasoning - correctly reasoning before abruptly changing answers, serving as a potential canary for detecting biased reasoning from unfaithful CoTs. We then apply the same evaluation pipeline to revisit CoT faithfulness in LLMs across various levels of implicit cues. Our findings reveal that current language-only reasoning models continue to struggle with articulating cues that are not overtly stated.
- Abstract(参考訳): 思考の連鎖(CoT)推論は、大きな言語モデルの性能を高めるが、これらの推論トレースがモデルの内部過程を忠実に反映しているかどうかについては疑問が残る。
大規模視覚言語モデル(LVLM)におけるCoT忠実度に関する最初の包括的研究を行い、テキストベースと以前に探索された画像ベースバイアスの両方が推論と偏見の明瞭さにどのように影響するかを考察した。
本研究は, 偏差調音パターンを分類し, 従来手法よりもCoT推論の高精度な解析を可能にするための, 新たなきめ細かな評価パイプラインを提案する。
このフレームワークは、モデルがどのように様々な種類のバイアスに反応し、どのように処理するかにおいて重要な違いを明らかにし、LVLM CoTの忠実性に対する新たな洞察を提供する。
この結果から,画像に基づく微妙な偏見は,推論に特化しているモデルにおいても,明示的なテキストベースの偏見よりも明瞭に表現されることは稀であることがわかった。
さらに、多くのモデルは、'inconsistent'推論('inconsistent'推論)という言葉で、突然の答え変更の前に正しく推論し、不信なCoTから偏りのある推論を検出するための潜在的なカナリアとして機能する。
次に,LLMにおけるCoT忠実度を様々なレベルの暗黙的手がかりで再検討するために,同じ評価パイプラインを適用した。
以上の結果から,現在の言語のみの推論モデルは,過度に述べられていない明瞭な手がかりに苦慮し続けていることが明らかとなった。
関連論文リスト
- The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。
我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。