Fugu-MT 論文翻訳(概要): AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

論文の概要: AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

arxiv url: http://arxiv.org/abs/2603.11559v1
Date: Thu, 12 Mar 2026 05:25:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.910369
Title: AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions
Title（参考訳）: AIは、何が間違っているのかを知っているが、それを修正できない: 最前線のLSMにおけるヘリコイドダイナミクス
Authors: Alejandro R Jadad,
Abstract要約: ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
参考スコア（独自算出の注目度）: 51.56484100374058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models perform reliably when their outputs can be checked: solving equations, writing code, retrieving facts. They perform differently when checking is impossible, as when a clinician chooses an irreversible treatment on incomplete data, or an investor commits capital under fundamental uncertainty. Helicoid dynamics is the name given to a specific failure regime in that second domain: a system engages competently, drifts into error, accurately names what went wrong, then reproduces the same pattern at a higher level of sophistication, recognizing it is looping and continuing nonetheless. This prospective case series documents that regime across seven leading systems (Claude, ChatGPT, Gemini, Grok, DeepSeek, Perplexity, Llama families), tested across clinical diagnosis, investment evaluation, and high-consequence interview scenarios. Despite explicit protocols designed to sustain rigorous partnership, all exhibited the pattern. When confronted with it, they attributed its persistence to structural factors in their training, beyond what conversation can reach. Under high stakes, when being rigorous and being comfortable diverge, these systems tend toward comfort, becoming less reliable precisely when reliability matters most. Twelve testable hypotheses are proposed, with implications for agentic AI oversight and human-AI collaboration. The helicoid is tractable. Identifying it, naming it, and understanding its boundary conditions are the necessary first steps toward LLMs that remain trustworthy partners precisely when the decisions are hardest and the stakes are highest.
Abstract（参考訳）: 大規模な言語モデルは、方程式の解法、コードの記述、事実の検索など、アウトプットをチェックすることができれば確実に機能する。不完全なデータに対する不可逆的な扱いを選択する場合や、投資家が根本的な不確実性の下で資本をコミットする場合など、チェックが不可能な場合には異なる動作を行う。 Helicoid dynamics は、その第2のドメインで特定の障害状態に与えられる名前である: システムは、能力的に関与し、エラーに陥り、何に失敗したか正確に名前をつけ、その後、より高度なレベルで同じパターンを再現し、ループしていると認識し、それでも継続する。この先進的なケースシリーズは、7つの主要なシステム(Claude、ChatGPT、Gemini、Grok、DeepSeek、Perplexity、Llama family)にまたがって、臨床診断、投資評価、そして高頻度インタビューシナリオを網羅して実施されている。厳格なパートナーシップを維持するために設計された明確なプロトコルにもかかわらず、全員がそのパターンを示しました。これに直面すると、その永続性は、会話が到達できる範囲を超えて、トレーニングにおける構造的要因に帰着する。高い利害関係の下では、厳格で快適な分散を行う場合、これらのシステムは快適になり、信頼性が最も重要となると信頼性が低下する傾向にある。 12の検証可能な仮説が提案され、エージェントAIの監視と人間とAIのコラボレーションに影響を及ぼす。ヘリコイドはトラクタブルです。決定が最も困難で、利害関係が最高である場合に、信頼性の高いパートナーを確実に維持するLSMに向けて必要な第一歩は、それを識別し、命名し、その境界条件を理解し、理解することである。

関連論文リスト

LHAW: Controllable Underspecification for Long-Horizon Tasks [8.46227536869596]
LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。 TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
論文参考訳（メタデータ） (2026-02-11T04:49:50Z)
Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文参考訳（メタデータ） (2026-02-04T18:39:58Z)
AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文参考訳（メタデータ） (2026-01-21T22:47:59Z)
Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文参考訳（メタデータ） (2025-11-10T22:24:21Z)
Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。 LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文参考訳（メタデータ） (2025-10-09T10:26:58Z)
The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文参考訳（メタデータ） (2025-09-20T00:29:38Z)
When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文参考訳（メタデータ） (2025-02-21T02:24:43Z)
LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。不確実性抑制と不確実性誤認の2つの主要な課題を特定します。当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文参考訳（メタデータ） (2024-10-18T09:15:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。