Fugu-MT 論文翻訳(概要): Evaluating Language-Model Agents on Realistic Autonomous Tasks

論文の概要: Evaluating Language-Model Agents on Realistic Autonomous Tasks

arxiv url: http://arxiv.org/abs/2312.11671v2
Date: Thu, 4 Jan 2024 18:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 16:56:39.936682
Title: Evaluating Language-Model Agents on Realistic Autonomous Tasks
Title（参考訳）: 現実的自律課題における言語モデルエージェントの評価
Authors: Megan Kinniment, Lucas Jun Koba Sato, Haoxing Du, Brian Goodrich, Max Hasin, Lawrence Chan, Luke Harold Miles, Tao R. Lin, Hjalmar Wijk, Joel Burget, Aaron Ho, Elizabeth Barnes and Paul Christiano
Abstract要約: 本報告では,言語モデルエージェントが資源を取得し,自分自身のコピーを作成し,野生で遭遇する新たな課題に適応する能力について検討する。 ARAの能力は広範かつ予測しにくい結果をもたらす可能性があると我々は信じている。システムがARAを使えるようになると、システムの能力にバウンダリを置くことがかなり難しくなります。
参考スコア（独自算出の注目度）: 3.2859441839446832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we explore the ability of language model agents to acquire resources, create copies of themselves, and adapt to novel challenges they encounter in the wild. We refer to this cluster of capabilities as "autonomous replication and adaptation" or ARA. We believe that systems capable of ARA could have wide-reaching and hard-to-anticipate consequences, and that measuring and forecasting ARA may be useful for informing measures around security, monitoring, and alignment. Additionally, once a system is capable of ARA, placing bounds on a system's capabilities may become significantly more difficult. We construct four simple example agents that combine language models with tools that allow them to take actions in the world. We then evaluate these agents on 12 tasks relevant to ARA. We find that these language model agents can only complete the easiest tasks from this list, although they make some progress on the more challenging tasks. Unfortunately, these evaluations are not adequate to rule out the possibility that near-future agents will be capable of ARA. In particular, we do not think that these evaluations provide good assurance that the ``next generation'' of language models (e.g. 100x effective compute scaleup on existing models) will not yield agents capable of ARA, unless intermediate evaluations are performed during pretraining. Relatedly, we expect that fine-tuning of the existing models could produce substantially more competent agents, even if the fine-tuning is not directly targeted at ARA.
Abstract（参考訳）: 本報告では,言語モデルエージェントがリソースを取得し,自己のコピーを作成し,野生で遭遇する新たな課題に適応する能力について検討する。この機能のクラスタを "自己複製と適応" あるいは ARA と呼んでいる。セキュリティ,監視,アライメントに関して,ARAを計測し,予測することは,セキュリティ,監視,アライメントに関する指標を示す上で有用である,と我々は考えている。さらに、システムがARAを使えるようになると、システムの能力にバウンダリを置くことがかなり難しくなります。我々は、言語モデルと、世界で行動を起こすためのツールを組み合わせた、単純な4つのサンプルエージェントを構築します。次に、これらのエージェントをARAに関連する12のタスクで評価する。これらの言語モデルエージェントは、このリストから最も簡単なタスクしか完了できないが、より困難なタスクについては前進している。残念ながら、これらの評価は、近未来のエージェントがARAを実現できる可能性を排除するには不十分である。特に、これらの評価が言語モデルの‘next generation’’(例えば、既存のモデルにおける100倍の効率的な計算スケールアップ)が、事前訓練中に中間評価を行わない限り、ARAが可能なエージェントを得られないことを保証できるとは考えていない。関連して、既存のモデルの微調整がARAを直接対象としていない場合でも、より有能なエージェントを生み出すことが期待されている。

関連論文リスト

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments [14.079091139464175]
この研究は、エージェントスキルプロセスの形式的な数学的定義を導入し、その後、様々な大きさの言語モデルの体系的な評価を行った。その結果、小型モデルは信頼性の高いスキル選択に苦しむ一方で、中程度のサイズのSLM(約12B～30B)はエージェントスキルアプローチから大きく恩恵を受けることがわかった。
論文参考訳（メタデータ） (2026-02-18T17:52:17Z)
Arabic Prompts with English Tools: A Benchmark [0.20524609401792393]
本稿では,アラビア語における大規模言語モデル(LLM)のツールコールとエージェント機能を評価するための最初のベンチマークを紹介する。ツールコールの精度は、ツール記述自体がアラビア語であれ英語であれ、平均で5～10%低下する。これらの重要な課題に光を当てることで、このベンチマークは、アラビア語話者のためのより信頼性が高く言語的に公平なAIエージェントの開発を促進することを目的としている。
論文参考訳（メタデータ） (2026-01-08T16:47:09Z)
Small Language Models are the Future of Agentic AI [24.712103135486984]
スモールランゲージモデル(SLM)は十分に強力であり、本質的にはより適しており、エージェントシステムにおける多くの呼び出しに対して経済的である。本稿では,エージェントシステムにおけるSLM導入の潜在的な障壁について論じ,汎用LLM-to-SLMエージェント変換アルゴリズムの概要を述べる。
論文参考訳（メタデータ） (2025-06-02T18:35:16Z)
MAPS: A Multilingual Benchmark for Global Agent Performance and Security [8.275240552134338]
多様な言語やタスクにまたがるエージェントAIシステムを評価するためのベンチマークスイートであるMAPSを提案する。それぞれのデータセットを10の多様な言語に変換し、805のユニークなタスクと8,855の言語固有のインスタンスを生成します。我々は、英語から他の言語に移行する際に、パフォーマンスとセキュリティの両面で一貫した劣化を観察する。
論文参考訳（メタデータ） (2025-05-21T18:42:00Z)
Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-10-16T08:24:09Z)
Coalitions of Large Language Models Increase the Robustness of AI Agents [3.216132991084434]
大規模言語モデル(LLM)は、私たちがデジタルシステムと対話する方法を根本的に変えました。 LLMは強力で、いくつかの創発的な特性を示すことができるが、AIエージェントによって実行されるすべてのサブタスクでうまく機能するのに苦労する。個別のサブタスクで特別性能を示す事前訓練されたLLMの連立系が,単一モデルエージェントの性能に適合するかどうかを評価する。
論文参考訳（メタデータ） (2024-08-02T16:37:44Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。 DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2024-06-11T09:09:37Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
KwaiAgents: Generalized Information-seeking Agent System with Large Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。 LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文参考訳（メタデータ） (2023-12-08T08:11:11Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。