論文の概要: Aviary: training language agents on challenging scientific tasks
- arxiv url: http://arxiv.org/abs/2412.21154v1
- Date: Mon, 30 Dec 2024 18:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:50.199757
- Title: Aviary: training language agents on challenging scientific tasks
- Title(参考訳): Aviary: 科学的課題に対する言語エージェントの訓練
- Authors: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Manu Ponnapati, Albert Bou, Jon Laurent, Ori Kabeli, Geemi Wellawatte, Sam Cox, Samuel G. Rodriques, Andrew D. White,
- Abstract要約: 言語エージェントのためのマルコフ体育館であるAviaryを紹介する。
エージェントを言語に基づく部分的に観察可能な意思決定プロセスを解決する政策として定式化する。
我々は,オープンソースの非フロンティアLSMが支援する言語エージェントが,最大100倍の推論コストで複数のタスクにおいて,フロンティアLSMエージェントと人間専門家の双方をマッチングし,超えることを示した。
- 参考スコア(独自算出の注目度): 3.166958237958637
- License:
- Abstract: Solving complex real-world tasks requires cycles of actions and observations. This is particularly true in science, where tasks require many cycles of analysis, tool use, and experimentation. Language agents are promising for automating intellectual tasks in science because they can interact with tools via natural language or code. Yet their flexibility creates conceptual and practical challenges for software implementations, since agents may comprise non-standard components such as internal reasoning, planning, tool usage, as well as the inherent stochasticity of temperature-sampled language models. Here, we introduce Aviary, an extensible gymnasium for language agents. We formalize agents as policies solving language-grounded partially observable Markov decision processes, which we term language decision processes. We then implement five environments, including three challenging scientific environments: (1) manipulating DNA constructs for molecular cloning, (2) answering research questions by accessing scientific literature, and (3) engineering protein stability. These environments were selected for their focus on multi-step reasoning and their relevance to contemporary biology research. Finally, with online training and scaling inference-time compute, we show that language agents backed by open-source, non-frontier LLMs can match and exceed both frontier LLM agents and human experts on multiple tasks at up to 100x lower inference cost.
- Abstract(参考訳): 複雑な現実世界のタスクを解くには、行動と観察のサイクルが必要である。
これは科学において特に当てはまり、タスクは分析、ツールの使用、実験の多くのサイクルを必要とする。
言語エージェントは、自然言語やコードを介してツールと対話できるため、科学における知的タスクを自動化することを約束している。
しかし、その柔軟性は、内部推論、計画、ツールの使用、および温度サンプル言語モデル固有の確率性のような非標準コンポーネントを構成するため、ソフトウェア実装において概念的で実践的な課題を生み出します。
ここでは、言語エージェントのための拡張可能な体育館であるAviaryを紹介する。
エージェントは言語に基づく部分観測可能なマルコフ決定プロセスの解法として定式化され、言語決定プロセス(Language decision process)と呼ばれる。
次に, 分子クローニングのためのDNA構造操作, 科学的文献へのアクセスによる研究課題への回答, 工学的タンパク質安定性の3つの課題を含む5つの環境を実装した。
これらの環境は、多段階推論と現代の生物学研究との関係に焦点をあてて選ばれた。
最後に、オンライントレーニングとスケーリング推論時間計算により、オープンソースの非フロンティアLSMが支援する言語エージェントが、最大100倍の推論コストで、フロンティアLSMエージェントと人間専門家の両方をマッチングし、超えることを示した。
関連論文リスト
- Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning [67.26776442697184]
我々はHuskyを紹介した。Huskyは総合的でオープンソースの言語エージェントで、統一されたアクション空間について推論することを学ぶ。
ハスキーは、(1)与えられたタスクを解決するために次のアクションを生成すること、2)エキスパートモデルを使用してアクションを実行すること、の2つの段階を繰り返す。
実験の結果,Huskyは14の評価データセットで先行言語エージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T17:07:25Z) - Language Evolution with Deep Learning [49.879239655532324]
計算モデリングは言語の出現の研究において重要な役割を担っている。
構造化言語の出現を誘発する可能性のある条件と学習プロセスをシミュレートすることを目的としている。
この章では、最近機械学習の分野に革命をもたらした別の種類の計算モデル、ディープ・ラーニング・モデルについて論じる。
論文 参考訳(メタデータ) (2024-03-18T16:52:54Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Cognitive Architectures for Language Agents [44.89258267600489]
言語エージェントのための認知アーキテクチャ(CoALA)を提案する。
CoALAはモジュラーメモリコンポーネントを備えた言語エージェント、内部メモリと外部環境と相互作用する構造化されたアクションスペース、アクションを選択するための一般的な意思決定プロセスを記述する。
我々は、CoALAを使用して、振り返りによる調査と、最近の多くの作業の組織化を行い、より有能なエージェントに対する行動可能な方向を前向きに特定します。
論文 参考訳(メタデータ) (2023-09-05T17:56:20Z) - Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding [66.30648042100123]
自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。
広範かつスケーラブルなデータ収集ツールを開発しました。
対話型基底言語理解のための最初のデータセットを収集した。
論文 参考訳(メタデータ) (2022-11-12T02:36:32Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - A Practical Guide to Studying Emergent Communication through Grounded
Language Games [0.0]
本稿では,Babelソフトウェアシステムを拡張した高レベルロボットインタフェースを提案する。
これは、先進的な基底言語ゲーム実験の実行に関わる各サブタスクを扱うフレキシブルなモジュールを提供するツールキットを初めて提示する。
論文 参考訳(メタデータ) (2020-04-20T11:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。