論文の概要: Reflection-Bench: Evaluating Epistemic Agency in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.16270v2
- Date: Fri, 30 May 2025 05:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.257601
- Title: Reflection-Bench: Evaluating Epistemic Agency in Large Language Models
- Title(参考訳): Reflection-Bench:大規模言語モデルにおけるてんかんの評価
- Authors: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang,
- Abstract要約: 疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
- 参考スコア(独自算出の注目度): 10.801745760525838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With large language models (LLMs) increasingly deployed as cognitive engines for AI agents, the reliability and effectiveness critically hinge on their intrinsic epistemic agency, which remains understudied. Epistemic agency, the ability to flexibly construct, adapt, and monitor beliefs about dynamic environments, represents a base-model-level capacity independent of specific tools, modules, or applications. We characterize the holistic process underlying epistemic agency, which unfolds in seven interrelated dimensions: prediction, decision-making, perception, memory, counterfactual thinking, belief updating, and meta-reflection. Correspondingly, we propose Reflection-Bench, a cognitive-psychology-inspired benchmark consisting of seven tasks with long-term relevance and minimization of data leakage. Through a comprehensive evaluation of 16 models using three prompting strategies, we identify a clear three-tier performance hierarchy and significant limitations of current LLMs, particularly in meta-reflection capabilities. While state-of-the-art LLMs demonstrate rudimentary signs of epistemic agency, our findings suggest several promising research directions, including enhancing core cognitive functions, improving cross-functional coordination, and developing adaptive processing mechanisms. Our code and data are available at https://github.com/AI45Lab/ReflectionBench.
- Abstract(参考訳): 大規模言語モデル(LLM)がAIエージェントの認知エンジンとしてますます普及するにつれ、その信頼性と有効性は内因性てんかんのエージェンシーに批判的にヒンジされ、現在も研究が続けられている。
エピステミックエージェンシーは、動的環境に関する信念を柔軟に構築し、適応し、監視する能力を持ち、特定のツール、モジュール、アプリケーションに依存しないベースモデルレベルの能力を表す。
我々は, 認識, 意思決定, 知覚, 記憶, 反現実的思考, 信念の更新, メタリフレクションという, 関係する7つの次元に展開する総合的過程を特徴付ける。
これに対応して、リフレクション・ベンチ(Reflection-Bench)という、認知心理学にインスパイアされた7つのタスクからなるベンチマークを提案する。
3つのプロンプト戦略を用いた16モデルの包括的評価により、特にメタリフレクション能力において、3階層のパフォーマンス階層と現在のLLMの重大な制限を明確化する。
現状のLSMは, 先天的な症状を示すが, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の発達など, 有望な研究の方向性が示唆された。
私たちのコードとデータはhttps://github.com/AI45Lab/ReflectionBench.comで公開されています。
関連論文リスト
- Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。
我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-02-07T15:27:34Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Reflective Artificial Intelligence [2.7412662946127755]
人間の心が以前この活動に持ち込んだであろう多くの重要な性質は、AIには全く欠落している。
人間がタスクにもたらす中核的な特徴は、リフレクションである。
しかし、この能力は、現在の主流AIには全く欠落している。
本稿では、リフレクティブAIがどのようなものになるかを尋ねる。
論文 参考訳(メタデータ) (2023-01-25T20:50:26Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。
本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。
本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文 参考訳(メタデータ) (2022-01-02T01:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。