論文の概要: Reflection-Bench: probing AI intelligence with reflection
- arxiv url: http://arxiv.org/abs/2410.16270v1
- Date: Mon, 21 Oct 2024 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:31.622790
- Title: Reflection-Bench: probing AI intelligence with reflection
- Title(参考訳): Reflection-Bench:リフレクションによるAIインテリジェンスの調査
- Authors: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang,
- Abstract要約: 反射は、知的システムの世界との相互作用の根幹である。
大規模言語モデル(LLM)のインテリジェンスに関する議論に対処するため,リフレクション・ベンチを提案する。
我々は,OpenAI o1, GPT-4, Claude 3.5 Sonnetなど13の著名なLLMの性能評価を行った。
- 参考スコア(独自算出の注目度): 10.801745760525838
- License:
- Abstract: The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems' interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.
- Abstract(参考訳): 思いがけない結果、リフレクションに反応して信念や行動に適応する能力は、インテリジェントシステムと世界との相互作用の基礎となる。
認知科学の観点からは、これは人間とAIシステムの両方に適用可能な知性のコア原則として機能する。
大規模言語モデル(LLM)のインテリジェンスに関する議論に対処するため、リフレクション・ベンチ(Reflection-Bench)を提案する。これは、認識、記憶、信念の更新、意思決定、予測、反事実的思考、メタリフレクションを含む、リフレクションに不可欠なコア認知機能にまたがる7つのタスクからなる総合的なベンチマークである。
我々は,OpenAI o1, GPT-4, Claude 3.5 Sonnetなど13の著名なLLMの性能評価を行った。
以上の結果から,現在のLLMには良好な反射能力が欠けていることが示唆された。
これらの結果の根本原因について考察し,今後の研究への道筋を示唆する。
結論として、Reflection-Benchは、環境と確実に対話できるAIを開発するための評価ツールとインスピレーションの両方を提供する。
私たちのデータとコードはhttps://github.com/YabYum/ReflectionBench.comで公開されています。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Reflective Artificial Intelligence [2.7412662946127755]
人間の心が以前この活動に持ち込んだであろう多くの重要な性質は、AIには全く欠落している。
人間がタスクにもたらす中核的な特徴は、リフレクションである。
しかし、この能力は、現在の主流AIには全く欠落している。
本稿では、リフレクティブAIがどのようなものになるかを尋ねる。
論文 参考訳(メタデータ) (2023-01-25T20:50:26Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。
本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。
本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文 参考訳(メタデータ) (2022-01-02T01:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。