Fugu-MT 論文翻訳(概要): Towards Uncertainty-Aware Language Agent

論文の概要: Towards Uncertainty-Aware Language Agent

arxiv url: http://arxiv.org/abs/2401.14016v1
Date: Thu, 25 Jan 2024 08:48:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:36:03.158957
Title: Towards Uncertainty-Aware Language Agent
Title（参考訳）: 不確実性認識言語エージェントに向けて
Authors: Jiuzhou Han and Wray Buntine and Ehsan Shareghi
Abstract要約: 不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。実験の結果,UALAは外界への依存度を著しく低くしながら,性能を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 11.49422399721136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Language Agents have achieved promising success by placing Large Language Models at the core of a more versatile design that dynamically interacts with the external world, the existing approaches neglect the notion of uncertainty during these interactions. We present the Uncertainty-Aware Language Agent (UALA), a framework that orchestrates the interaction between the agent and the external world using uncertainty quantification. Compared with other well-known counterparts like ReAct, our extensive experiments across 3 representative tasks (HotpotQA, StrategyQA, MMLU) and various LLM sizes demonstrates that UALA brings a significant improvement of performance, while having a substantially lower reliance on the external world (i.e., reduced number of tool calls and tokens). Our analyses provide various insights including the great potential of UALA compared with agent fine-tuning, and underscoring the unreliably of verbalised confidence of LLMs as a proxy for uncertainty.
Abstract（参考訳）: 言語エージェントは、外界と動的に相互作用するより汎用的な設計の中核に大規模言語モデルを置くことで、有望な成功を収めてきたが、既存のアプローチはこれらの相互作用の間に不確実性の概念を無視している。不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。 ReActのような他のよく知られたものと比較して、我々の3つの代表的なタスク(HotpotQA、StrategyQA、MMLU)と様々なLLMサイズにわたる広範な実験は、UALAがパフォーマンスを大幅に改善する一方で、外部世界(ツールコールやトークンの削減など)への依存が著しく低いことを示している。本分析は, エージェント微調整と比較して, UALA の大きな可能性や, 不確実性の指標として, LLM の信頼性に欠ける信頼感を裏付ける様々な知見を提供する。

関連論文リスト

Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction [0.0]
大きな言語モデル(LLM)は、ユーザが拡張された混合トピックの会話を行う現実世界のアプリケーションに、ますます多くデプロイされている。我々は,3つの代表課題を通じて,会話の信頼性を体系的に評価する。我々は信頼性の大幅な低下、特により小さなモデルについて観察する。
論文参考訳（メタデータ） (2026-03-02T03:59:40Z)
Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents [72.26774492844167]
大規模言語モデル(LLM)に対する不確実性定量化(UQ)は、日常的なLLMアプリケーションの安全ガードレールの鍵となるビルディングブロックである。本稿では,既存のUQ設定の幅広いクラスを仮定したエージェントUQの汎用的な定式化について述べる。エージェントの軌道上での再現可能な不確実性を明示的にモデル化する,新しい視点,条件付き不確実性低減プロセスを提案する。
論文参考訳（メタデータ） (2026-02-04T21:47:40Z)
Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文参考訳（メタデータ） (2025-12-03T00:11:05Z)
Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。 11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文参考訳（メタデータ） (2025-10-05T02:18:23Z)
Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文参考訳（メタデータ） (2025-09-29T02:34:30Z)
Breaking the Trade-Off Between Faithfulness and Expressiveness for Large Language Models [14.166203096918247]
外部知識の接地応答は、大規模言語モデルにおける幻覚を緩和するための効果的な戦略である。現在のLLMは、忠実さと表現性を同時に維持しながら、シームレスに知識を統合するのに苦労している。本稿では,外部知識を伴わずに出力確率を動的に統合する新しい手法である協調復号法を提案する。
論文参考訳（メタデータ） (2025-08-26T03:48:05Z)
An Adversary-Resistant Multi-Agent LLM System via Credibility Scoring [8.779871128906787]
信頼性スコアリングに基づく汎用・対向抵抗型マルチエージェントLCMフレームワークを提案する。私たちのシステムは、チームのアウトプットを集約するときに使用される信頼性スコアを関連付けています。
論文参考訳（メタデータ） (2025-05-30T05:57:37Z)
A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.23228612512848]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T08:42:05Z)
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文参考訳（メタデータ） (2025-03-11T11:18:53Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Uncertainty Quantification of Large Language Models through Multi-Dimensional Responses [4.505944978127014]
セマンティック・ナレッジ・アウェア・類似性分析を統合した多次元UQフレームワークを提案する。このアプローチは、意味と知識の両方の次元から重なり合う情報を分離し、意味のバリエーションと事実の一貫性の両方をキャプチャする。実験により,本手法は不確かさを識別する既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-02-24T04:05:08Z)
On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文参考訳（メタデータ） (2024-12-19T11:10:36Z)
Positive Experience Reflection for Agents in Interactive Text Environments [9.982616173090264]
Sweet&Sourは、ポジティブな経験と管理された記憶を取り入れた新しいアプローチで、意思決定時にエージェントが利用できるコンテキストを豊かにする。包括的分析は、クローズドおよびオープンソース両方のLCMにまたがっており、エージェント性能改善におけるSweet&Sourの有効性を実証している。
論文参考訳（メタデータ） (2024-11-04T16:15:28Z)
MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-10-16T11:46:55Z)
DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文参考訳（メタデータ） (2024-07-08T22:15:01Z)
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-02-21T08:20:06Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.04373033082948]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文参考訳（メタデータ） (2023-12-04T11:53:56Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。