論文の概要: Cognitive Loop via In-Situ Optimization: Self-Adaptive Reasoning for Science
- arxiv url: http://arxiv.org/abs/2508.02789v1
- Date: Mon, 04 Aug 2025 18:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.628098
- Title: Cognitive Loop via In-Situ Optimization: Self-Adaptive Reasoning for Science
- Title(参考訳): その場最適化による認知ループ:科学のための自己適応推論
- Authors: Newman Cheng, Gordon Broadbent, William Chappell,
- Abstract要約: In-situ Optimization (Clio) による認知ループと呼ばれる推論過程を深く正確に制御できる代替手法を提案する。
Clioは、大きな言語モデルによって、問題にアプローチする方法を自己形成し、自信が低いときに行動に適応し、最終的に科学者に最終的な信念や答えを与える。
さらなる訓練がなければ、OpenAIのGPT-4.1 with CLIOは、HumanityのLast Exam(HLE)に関するテキストベースの生物学と医学の質問において、22.37%の精度が得られる。
- 参考スコア(独自算出の注目度): 1.309289689673624
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The capacity for artificial intelligence (AI) to formulate, evolve, and test altered thought patterns under dynamic conditions indicates advanced cognition that is crucial for scientific discovery. The existing AI development landscape falls into two categories: 1) frameworks over non-reasoning models that natively incorporate opinions on how humans think, and 2) reasoning models that abstract precise control of the reasoning intuition away from end users. While powerful, for scientists to maximize utility of AI in scientific discovery, they not only require accuracy and transparency in reasoning, but also steerability. Hence, we introduce an alternative approach that enables deep and precise control over the reasoning process called: a cognitive loop via in-situ optimization (CLIO). CLIO enables large language models (LLMs) to self-formulate ways of approaching a problem, adapt behavior when self-confidence is low, and ultimately provide scientists with a final belief or answer. Through CLIO's open design, scientists can observe uncertainty levels, understand how final belief states are formulated using graph structures, and interject corrections. Without any further post-training, OpenAI's GPT-4.1 with CLIO yields an accuracy of 22.37\% in text-based biology and medicine questions on Humanity's Last Exam (HLE). This yields a 13.82\% net or 161.64\% relative increase when compared to the base GPT-4.1 model and surpasses OpenAI's o3 performance in high and low reasoning effort modes. We further discovered that oscillations within internal uncertainty measures are key in determining the accuracy of CLIO's results, revealing how its open design and internal mechanisms can provide insight and control into scientific decision-making processes.
- Abstract(参考訳): 動的条件下で変化した思考パターンを定式化し、進化させ、テストする人工知能(AI)の能力は、科学的発見に不可欠な高度な認知を示す。
既存のAI開発状況は、以下の2つのカテゴリに分類される。
1)人間がどのように考えるか、その考え方を自然に取り入れた非理性モデルに関する枠組み
2 エンドユーザーから推論直感を正確に制御する推論モデル。
科学者が科学的発見においてAIの有用性を最大化するためには、推論の正確さと透明性だけでなく、操縦性も必要だ。
そこで本研究では,CLIO(in-situ optimization)による認知ループと呼ばれる,推論過程の深層的かつ正確な制御を可能にする方法を提案する。
CLIOは、大きな言語モデル(LLM)が、問題にアプローチする方法を自己形成し、自信が低いときに行動に適応し、最終的に科学者に最終的な信念や答えを与える。
CLIOのオープンデザインを通じて、科学者は不確実性レベルを観察し、最終的な信念状態がグラフ構造を用いてどのように定式化されているかを理解し、修正をインタージェクトすることができる。
さらなる訓練がなければ、OpenAIのGPT-4.1 with CLIOはテキストベースの生物学とHLE(Humanity's Last Exam)に関する医学の質問において22.37\%の精度が得られる。
これにより、GPT-4.1モデルと比較して13.82.%のネットまたは161.64.%の相対的な増加が得られ、OpenAIのo3性能を高低理性化の取り組みモードで上回っている。
さらに、CLIOの結果の正確性を決定する上で、内部の不確実性対策の振動が重要であることを発見し、そのオープンデザインと内部メカニズムが科学的意思決定プロセスの洞察と制御にどのように役立つかを明らかにした。
関連論文リスト
- Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.19195693735487]
知的科学研究所(ISL)のパラダイムを提案する。
ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。
このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-24T13:31:44Z) - PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration [9.640689981816852]
自動科学的発見のための情報理論フレームワークである textttPiFlow を紹介する。
提案手法は,曲線下面積の73.55%増加を反映して,発見効率を著しく向上させる。
全体として、textttPiFlowはPlug-and-Playメソッドとして機能し、高度に効率的な自動科学的発見における新しいパラダイムシフトを確立する。
論文 参考訳(メタデータ) (2025-05-21T03:09:39Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Bridging Social Psychology and LLM Reasoning: Conflict-Aware Meta-Review Generation via Cognitive Alignment [35.82355113500509]
大規模言語モデル(LLM)は、原稿批評の自動化において有望であることを示す。
既存の方法は、異なる意見の中で矛盾する視点を扱うのに失敗する。
本稿では,LLMを適応的な科学的調停器に変換する2プロセスアーキテクチャであるCognitive Alignment Framework(CAF)を提案する。
論文 参考訳(メタデータ) (2025-03-18T04:13:11Z) - Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究
我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。
我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文 参考訳(メタデータ) (2024-10-21T06:22:51Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance [0.0]
本研究は,国際コーチング連盟 ICF 試験の文脈において,人間のメタ認知に対する大規模言語モデルのメタ認知能力について検討した。
混合手法を用いて,ヒトと5種類の高度なLDMのメタ認知能力を評価した。
以上の結果から,LLMはすべてのメタ認知的指標,特に過信率の低下において,人間よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-05-07T22:15:12Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - The Future of Fundamental Science Led by Generative Closed-Loop
Artificial Intelligence [67.70415658080121]
機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。
AIは、科学的な実践とモデル発見のための高品質なデータの大規模なデータセットへのアクセスがより困難であるため、基礎科学にはあまり貢献していない。
ここでは、科学的な発見に対するAI駆動、自動化、クローズドループアプローチの側面を調査し、調査する。
論文 参考訳(メタデータ) (2023-07-09T21:16:56Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z) - Deceptive AI Explanations: Creation and Detection [3.197020142231916]
我々は、AIモデルを用いて、偽りの説明を作成し、検出する方法について検討する。
実験的な評価として,GradCAMによるテキスト分類と説明の変更に着目した。
被験者200名を対象に, 偽装説明がユーザに与える影響について検討した。
論文 参考訳(メタデータ) (2020-01-21T16:41:22Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。