Fugu-MT 論文翻訳(概要): Towards Rationality in Language and Multimodal Agents: A Survey

論文の概要: Towards Rationality in Language and Multimodal Agents: A Survey

arxiv url: http://arxiv.org/abs/2406.00252v4
Date: Tue, 15 Oct 2024 20:11:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.13639
Title: Towards Rationality in Language and Multimodal Agents: A Survey
Title（参考訳）: 言語とマルチモーダルエージェントの連帯性に向けて:調査
Authors: Bowen Jiang, Yangxinyu Xie, Xiaomeng Wang, Yuan Yuan, Zhuoqun Hao, Xinyi Bai, Weijie J. Su, Camillo J. Taylor, Tanwi Mallick,
Abstract要約: 合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。近年,マルチモーダルシステムやマルチエージェントシステムへの取り組みが進んでいる。
参考スコア（独自算出の注目度）: 23.451887560567602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rationality is the quality of being guided by reason, characterized by decision-making that aligns with evidence and logical principles. It plays a crucial role in reliable problem-solving by ensuring well-grounded and consistent solutions. While large language models (LLMs) have made significant progress in generating human-like text, they still exhibit limitations such as bounded knowledge space and inconsistent outputs. In response, recent efforts have shifted toward developing multimodal and multi-agent systems, as well as integrating modules like external tools, programming codes, symbolic reasoners, utility function, and conformal risk controls rather than relying solely on a single LLM for decision-making. This paper surveys the state-of-the-art advancements in language and multimodal agents, evaluates how they contribute to make intelligent agents more rational, and identifies open challenges and future research directions. We maintain an open repository at https://github.com/bowen-upenn/Agent_Rationality.
Abstract（参考訳）: 合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。確実で一貫したソリューションを確保することによって、信頼性の高い問題解決において重要な役割を果たす。大規模言語モデル(LLM)は、人間のようなテキストを生成する上で大きな進歩を遂げてきたが、それでも有界な知識空間や一貫性のない出力のような制限が残っている。これに対し、近年の取り組みは、外部ツール、プログラミングコード、シンボリック推論、ユーティリティ関数、コンフォメーションリスクコントロールといったモジュールの統合だけでなく、マルチモーダルシステムやマルチエージェントシステムの開発にも向けられている。本稿では、言語とマルチモーダルエージェントの最先端を調査し、それらが知的エージェントをより合理的にするためにどのように貢献するかを評価し、オープンな課題と今後の研究方向性を明らかにする。私たちはhttps://github.com/bowen-upenn/Agent_Rationality.comにオープンリポジトリを保持しています。

関連論文リスト

MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models [15.860796863065737]
本稿では,多段階独立識別(MIND)推論フレームワークを提案する。ヒューマンライクな認知能力を持つMLLMの「Understand -> Rethink -> Correct」を支援するように設計されている。受動的模倣に基づく推論から活発な差別的推論へのパラダイム進化を達成する。
論文参考訳（メタデータ） (2025-12-05T08:41:44Z)
Thinker: Training LLMs in Hierarchical Thinking for Deep Search via Multi-Turn Interaction [57.67217258741752]
Thinkerはマルチターンインタラクションによるディープ検索のための階層的思考モデルである。複素問題を独立に解ける部分確率に分解する。サブプロブレム間の依存関係は、これらの論理関数を介してパラメータとして渡される。
論文参考訳（メタデータ） (2025-11-11T07:48:45Z)
Real-Time Reasoning Agents in Evolving Environments [52.21796134114843]
進化する環境におけるエージェントに対する新しい問題定式化としてリアルタイム推論を導入する。我々の研究は、実用的なエージェントを開発するための重要なテストベッドとしてリアルタイム推論を確立している。
論文参考訳（メタデータ） (2025-11-07T00:51:02Z)
Is the `Agent' Paradigm a Limiting Framework for Next-Generation Intelligent Systems? [0.0]
エージェント」の概念は人工知能(AI)の研究を深く形作っている。本稿では,エージェント中心パラダイムの必要性と最適性を再評価する。
論文参考訳（メタデータ） (2025-09-13T16:11:27Z)
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文参考訳（メタデータ） (2025-05-08T03:35:23Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
From System 1 to System 2: A Survey of Reasoning Large Language Models [72.99519859756602]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。 OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-02-24T18:50:52Z)
When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文参考訳（メタデータ） (2025-02-21T02:24:43Z)
Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research [7.4327380079414676]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。本フレームワークでは,論理的関係を追跡するための構造化知識グラフを構築するMind Mapエージェントを導入している。 PhDレベルの科学的推論(GPQA)とドメイン固有の深層研究タスクの評価は、我々のアプローチが既存のモデルを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-02-07T04:08:46Z)
Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文参考訳（メタデータ） (2024-06-26T00:00:45Z)
Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文参考訳（メタデータ） (2024-01-30T03:51:44Z)
Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文参考訳（メタデータ） (2024-01-07T09:08:24Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。 LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文参考訳（メタデータ） (2023-11-20T14:30:55Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks [6.51301154858045]
大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。
論文参考訳（メタデータ） (2023-11-09T01:04:44Z)
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文参考訳（メタデータ） (2023-10-06T17:55:11Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Cognitive Architectures for Language Agents [44.89258267600489]
言語エージェントのための認知アーキテクチャ(CoALA)を提案する。 CoALAはモジュラーメモリコンポーネントを備えた言語エージェント、内部メモリと外部環境と相互作用する構造化されたアクションスペース、アクションを選択するための一般的な意思決定プロセスを記述する。我々は、CoALAを使用して、振り返りによる調査と、最近の多くの作業の組織化を行い、より有能なエージェントに対する行動可能な方向を前向きに特定します。
論文参考訳（メタデータ） (2023-09-05T17:56:20Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Automated Machine Learning, Bounded Rationality, and Rational Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文参考訳（メタデータ） (2021-09-10T09:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。