Fugu-MT 論文翻訳(概要): Reflection-Bench: Evaluating Epistemic Agency in Large Language Models

論文の概要: Reflection-Bench: Evaluating Epistemic Agency in Large Language Models

arxiv url: http://arxiv.org/abs/2410.16270v2
Date: Fri, 30 May 2025 05:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 15:03:33.257601
Title: Reflection-Bench: Evaluating Epistemic Agency in Large Language Models
Title（参考訳）: Reflection-Bench:大規模言語モデルにおけるてんかんの評価
Authors: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang,
Abstract要約: 疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
参考スコア（独自算出の注目度）: 10.801745760525838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With large language models (LLMs) increasingly deployed as cognitive engines for AI agents, the reliability and effectiveness critically hinge on their intrinsic epistemic agency, which remains understudied. Epistemic agency, the ability to flexibly construct, adapt, and monitor beliefs about dynamic environments, represents a base-model-level capacity independent of specific tools, modules, or applications. We characterize the holistic process underlying epistemic agency, which unfolds in seven interrelated dimensions: prediction, decision-making, perception, memory, counterfactual thinking, belief updating, and meta-reflection. Correspondingly, we propose Reflection-Bench, a cognitive-psychology-inspired benchmark consisting of seven tasks with long-term relevance and minimization of data leakage. Through a comprehensive evaluation of 16 models using three prompting strategies, we identify a clear three-tier performance hierarchy and significant limitations of current LLMs, particularly in meta-reflection capabilities. While state-of-the-art LLMs demonstrate rudimentary signs of epistemic agency, our findings suggest several promising research directions, including enhancing core cognitive functions, improving cross-functional coordination, and developing adaptive processing mechanisms. Our code and data are available at https://github.com/AI45Lab/ReflectionBench.
Abstract（参考訳）: 大規模言語モデル(LLM)がAIエージェントの認知エンジンとしてますます普及するにつれ、その信頼性と有効性は内因性てんかんのエージェンシーに批判的にヒンジされ、現在も研究が続けられている。エピステミックエージェンシーは、動的環境に関する信念を柔軟に構築し、適応し、監視する能力を持ち、特定のツール、モジュール、アプリケーションに依存しないベースモデルレベルの能力を表す。我々は, 認識, 意思決定, 知覚, 記憶, 反現実的思考, 信念の更新, メタリフレクションという, 関係する7つの次元に展開する総合的過程を特徴付ける。これに対応して、リフレクション・ベンチ(Reflection-Bench)という、認知心理学にインスパイアされた7つのタスクからなるベンチマークを提案する。 3つのプロンプト戦略を用いた16モデルの包括的評価により、特にメタリフレクション能力において、3階層のパフォーマンス階層と現在のLLMの重大な制限を明確化する。現状のLSMは, 先天的な症状を示すが, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の発達など, 有望な研究の方向性が示唆された。私たちのコードとデータはhttps://github.com/AI45Lab/ReflectionBench.comで公開されています。

関連論文リスト

Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文参考訳（メタデータ） (2026-01-18T18:58:23Z)
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。 CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。 CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-11-24T02:02:29Z)
A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文参考訳（メタデータ） (2025-10-13T04:07:01Z)
Reimagining Agent-based Modeling with Large Language Model Agents via Shachi [16.625794969005966]
大規模言語モデル(LLM)によるマルチエージェントシステムにおける創発的行動の研究は重要な研究課題である。エージェントのポリシーをコア認知コンポーネントに分解する形式的方法論とモジュラーフレームワークであるShachiを紹介する。提案手法を総合的な10タスクベンチマークで検証し,新しい科学的探究を通じてその能力を実証する。
論文参考訳（メタデータ） (2025-09-26T04:38:59Z)
From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing [5.7613138934999455]
大規模言語モデル(LLM)は、浸透テストの自動化や強化にますます使用されているが、その有効性とアタックフェーズ間の信頼性は未定である。本稿では, 単一エージェントからモジュール設計まで, 現実的な浸透試験シナリオにおける複数のLCMエージェントの包括的評価を行う。
論文参考訳（メタデータ） (2025-09-16T21:51:59Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence [87.08051686357206]
大きな言語モデル(LLM)は強力な能力を示しているが、基本的に静的である。 LLMはますますオープンでインタラクティブな環境にデプロイされているため、この静的な性質は重要なボトルネックとなっている。この調査は、自己進化エージェントの体系的で包括的なレビューを初めて提供する。
論文参考訳（メタデータ） (2025-07-28T17:59:05Z)
Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文参考訳（メタデータ） (2025-05-30T08:46:23Z)
Review of Case-Based Reasoning for LLM Agents: Theoretical Foundations, Architectural Components, and Cognitive Integration [0.0]
ケースベース推論(CBR)は、過去の経験を参照することによって、新しい問題を解決する戦略である。本稿では、過去の経験を参照して新しい問題を解決する戦略であるケースベース推論(CBR)を大規模言語モデルに組み込む方法について考察する。
論文参考訳（メタデータ） (2025-04-09T14:51:02Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文参考訳（メタデータ） (2025-03-27T12:50:17Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文参考訳（メタデータ） (2025-02-07T15:27:34Z)
Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文参考訳（メタデータ） (2024-12-18T12:20:04Z)
Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。 AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文参考訳（メタデータ） (2024-11-04T18:10:10Z)
Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-10-24T08:20:10Z)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。 2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。 3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Large Language Models Understand and Can be Enhanced by Emotional Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。 EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-07-14T00:57:12Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。 OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文参考訳（メタデータ） (2023-05-23T09:36:51Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Reflective Artificial Intelligence [2.7412662946127755]
人間の心が以前この活動に持ち込んだであろう多くの重要な性質は、AIには全く欠落している。人間がタスクにもたらす中核的な特徴は、リフレクションである。しかし、この能力は、現在の主流AIには全く欠落している。本稿では、リフレクティブAIがどのようなものになるかを尋ねる。
論文参考訳（メタデータ） (2023-01-25T20:50:26Z)
Beyond Interpretable Benchmarks: Contextual Learning through Cognitive and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文参考訳（メタデータ） (2022-12-04T08:30:04Z)
Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文参考訳（メタデータ） (2022-01-02T01:43:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。