Fugu-MT 論文翻訳(概要): Towards Uncertainty-Aware Language Agent

論文の概要: Towards Uncertainty-Aware Language Agent

arxiv url: http://arxiv.org/abs/2401.14016v2
Date: Thu, 8 Feb 2024 03:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 18:22:31.324065
Title: Towards Uncertainty-Aware Language Agent
Title（参考訳）: 不確実性認識言語エージェントに向けて
Authors: Jiuzhou Han and Wray Buntine and Ehsan Shareghi
Abstract要約: 不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。我々の実験では、UALAは、外部世界への依存度を著しく低くしながら、パフォーマンスを大幅に改善することを示した。
参考スコア（独自算出の注目度）: 11.49422399721136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Language Agents have achieved promising success by placing Large Language Models at the core of a more versatile design that dynamically interacts with the external world, the existing approaches neglect the notion of uncertainty during these interactions. We present the Uncertainty-Aware Language Agent (UALA), a framework that orchestrates the interaction between the agent and the external world using uncertainty quantification. Compared with other well-known counterparts like ReAct, our extensive experiments across 3 representative tasks (HotpotQA, StrategyQA, MMLU) and various LLM sizes demonstrate that UALA brings a significant improvement of performance, while having a substantially lower reliance on the external world (i.e., reduced number of tool calls and tokens). Our analyses provide various insights including the great potential of UALA compared with agent fine-tuning, and underscore the unreliability of verbalised confidence of LLMs as a proxy for uncertainty.
Abstract（参考訳）: 言語エージェントは、外界と動的に相互作用するより汎用的な設計の中核に大規模言語モデルを置くことで、有望な成功を収めてきたが、既存のアプローチはこれらの相互作用の間に不確実性の概念を無視している。不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。 ReActのような他のよく知られたものと比較して、我々の3つの代表的なタスク(HotpotQA、StrategyQA、MMLU)と様々なLLMサイズにわたる広範な実験は、UALAがパフォーマンスを大幅に改善する一方で、外部世界(ツールコールやトークンの削減など)への依存が著しく低いことを示している。本分析は, エージェント微調整と比較して, UALA の大きな可能性を含む様々な知見を提供し, 不確実性の指標として, LLM の言語的信頼の信頼性の欠如を浮き彫りにした。

関連論文リスト

An Adversary-Resistant Multi-Agent LLM System via Credibility Scoring [8.779871128906787]
信頼性スコアリングに基づく汎用・対向抵抗型マルチエージェントLCMフレームワークを提案する。私たちのシステムは、チームのアウトプットを集約するときに使用される信頼性スコアを関連付けています。
論文参考訳（メタデータ） (2025-05-30T05:57:37Z)
A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.23228612512848]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T08:42:05Z)
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文参考訳（メタデータ） (2025-03-11T11:18:53Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Uncertainty Quantification of Large Language Models through Multi-Dimensional Responses [4.505944978127014]
セマンティック・ナレッジ・アウェア・類似性分析を統合した多次元UQフレームワークを提案する。このアプローチは、意味と知識の両方の次元から重なり合う情報を分離し、意味のバリエーションと事実の一貫性の両方をキャプチャする。実験により,本手法は不確かさを識別する既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-02-24T04:05:08Z)
On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文参考訳（メタデータ） (2024-12-19T11:10:36Z)
Positive Experience Reflection for Agents in Interactive Text Environments [9.982616173090264]
Sweet&Sourは、ポジティブな経験と管理された記憶を取り入れた新しいアプローチで、意思決定時にエージェントが利用できるコンテキストを豊かにする。包括的分析は、クローズドおよびオープンソース両方のLCMにまたがっており、エージェント性能改善におけるSweet&Sourの有効性を実証している。
論文参考訳（メタデータ） (2024-11-04T16:15:28Z)
MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-10-16T11:46:55Z)
DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文参考訳（メタデータ） (2024-07-08T22:15:01Z)
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-02-21T08:20:06Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.04373033082948]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文参考訳（メタデータ） (2023-12-04T11:53:56Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。