論文の概要: Existing LLMs Are Not Self-Consistent For Simple Tasks
- arxiv url: http://arxiv.org/abs/2506.18781v1
- Date: Mon, 23 Jun 2025 15:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.065397
- Title: Existing LLMs Are Not Self-Consistent For Simple Tasks
- Title(参考訳): 既存のLLMは単純なタスクには自己整合性がない
- Authors: Zhenru Lin, Jiawen Tao, Yang Yuan, Andrew Chi-Chih Yao,
- Abstract要約: 大きな言語モデル(LLM)はますます強力になってきていますが、その決定が透明性を維持し、信頼できるものには自己整合性が必要です。
我々の研究によると、単純なタスクでも、すべての小さなモデルは非常に一貫性がなく、DeepSeek-R1やGPT-o4-miniのような最先端モデルでさえ完全に自己整合ではない。
これらの矛盾を定量化し緩和するために、不整合指標を導入し、2つの自動化手法を提案する。
- 参考スコア(独自算出の注目度): 7.739770200435214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have grown increasingly powerful, yet ensuring their decisions remain transparent and trustworthy requires self-consistency -- no contradictions in their internal reasoning. Our study reveals that even on simple tasks, such as comparing points on a line or a plane, or reasoning in a family tree, all smaller models are highly inconsistent, and even state-of-the-art models like DeepSeek-R1 and GPT-o4-mini are not fully self-consistent. To quantify and mitigate these inconsistencies, we introduce inconsistency metrics and propose two automated methods -- a graph-based and an energy-based approach. While these fixes provide partial improvements, they also highlight the complexity and importance of self-consistency in building more reliable and interpretable AI. The code and data are available at https://github.com/scorpio-nova/llm-self-consistency.
- Abstract(参考訳): 大きな言語モデル(LLM)はますます強力になってきていますが、その決定が透明で信頼性の高いままであることを保証するには、自己一貫性が必要です。
本研究では,線や平面上の点の比較や家系樹の推論といった単純な作業においても,すべての小さなモデルは非常に一貫性がなく,DeepSeek-R1 や GPT-o4-mini のような最先端モデルでさえ完全自己整合ではないことを明らかにした。
これらの矛盾を定量化し緩和するために、不整合メトリクスを導入し、グラフベースとエネルギーベースという2つの自動化手法を提案する。
これらの修正は部分的な改善を提供するが、より信頼性が高く解釈可能なAIを構築する上での自己整合性の複雑さと重要性を強調している。
コードとデータはhttps://github.com/scorpio-nova/llm-self-consistency.comで公開されている。
関連論文リスト
- CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification [1.5095869543963976]
大規模言語モデル(LLM)は、自信はあるが不正確または無関係な情報を生成する。
幻覚は、複雑でオープンなタスクへの応用において重要な限界である。
本研究では,CoT(Chain-of- Thought)とRAG(Research-augmented Generation)を組み合わせることで幻覚を抑える方法について検討する。
論文 参考訳(メタデータ) (2025-05-13T23:57:02Z) - Introducing Verification Task of Set Consistency with Set-Consistency Energy Networks [4.545178162750511]
自然言語推論の拡張である集合整合性検証(NLI)の課題について紹介する。
提案するSC-Energy(Set-Consistency Energy Network)は,コントラスト・ロス・フレームワークを用いて文集合間の互換性を学習する新しいモデルである。
我々のアプローチは、矛盾を効率的に検証し、論理的矛盾の原因となる特定の言明をピンポイントするだけでなく、既存の手法を著しく上回る。
論文 参考訳(メタデータ) (2025-03-12T05:11:11Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Mirror-Consistency: Harnessing Inconsistency in Majority Voting [54.30719306011487]
本稿では,標準的な自己整合性アプローチの強化であるミラー・一貫性について述べる。
Mirror-Consistencyは「反射鏡」を自己組織化復号プロセスに組み込む。
ミラー一貫性は自己整合性と比較して,推理精度と信頼性校正の両面において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-07T03:41:08Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Beyond Accuracy: Evaluating Self-Consistency of Code Large Language
Models with IdentityChain [28.71742839604069]
本稿では、コード大言語モデル(Code LLM)の自己整合性を定義する。
次に、モデルの自己整合性と従来の精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。
論文 参考訳(メタデータ) (2023-10-21T16:14:56Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。