論文の概要: Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale
- arxiv url: http://arxiv.org/abs/2409.15637v1
- Date: Tue, 24 Sep 2024 00:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 11:32:56.012188
- Title: Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale
- Title(参考訳): Synatra: 間接的知識をデジタルエージェントの直接実証に変換する
- Authors: Tianyue Ou, Frank F. Xu, Aman Madaan, Jiarui Liu, Robert Lo, Abishek Sridhar, Sudipta Sengupta, Dan Roth, Graham Neubig, Shuyan Zhou,
- Abstract要約: LLMは、デジタル環境と対話し、特定の目的を完遂する自律エージェントとして機能する。
デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、正確性はまだ十分ではない。
我々は、この間接的な知識を大規模に直接監督するアプローチであるSynatraを提案する。
- 参考スコア(独自算出の注目度): 97.21851531607811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs can now act as autonomous agents that interact with digital environments and complete specific objectives (e.g., arranging an online meeting). However, accuracy is still far from satisfactory, partly due to a lack of large-scale, direct demonstrations for digital tasks. Obtaining supervised data from humans is costly, and automatic data collection through exploration or reinforcement learning relies on complex environmental and content setup, resulting in datasets that lack comprehensive coverage of various scenarios. On the other hand, there is abundant knowledge that may indirectly assist task completion, such as online tutorials that were created for human consumption. In this work, we present Synatra, an approach that effectively transforms this indirect knowledge into direct supervision at scale. We define different types of indirect knowledge, and carefully study the available sources to obtain it, methods to encode the structure of direct demonstrations, and finally methods to transform indirect knowledge into direct demonstrations. We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web. In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.
- Abstract(参考訳): LLMは、デジタル環境と対話し、特定の目的(オンラインミーティングのアレンジなど)を完遂する自律エージェントとして機能する。
しかし、デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、精度はまだ十分ではない。
人間から教師付きデータを取得するのはコストがかかり、探索や強化学習による自動データ収集は複雑な環境とコンテンツの設定に依存しているため、さまざまなシナリオの包括的カバレッジに欠けるデータセットが生成される。
一方、人的消費のために作成されたオンラインチュートリアルなど、間接的にタスク完了を支援する知識は豊富である。
本稿では,この間接的な知識を大規模に管理する手法であるSynatraを紹介する。
我々は,様々な間接的知識のタイプを定義し,それを得るために利用可能な情報源を慎重に研究し,直接的デモンストレーションの構造を符号化する手法,そして最後に間接的知識を直接的デモンストレーションに変換する手法について述べる。
生成したエージェントがWebベースの3つのタスクベンチマークであるMind2Web、MiniWoB++、WebArenaで、またWebArenaとMind2WebでGPT-3.5を越えていることを示す。
また, 人工演示はヒトのデモンストレーション費用の3%(それぞれ0.031ドル)に過ぎなかったが, 限られたドメインから収集したヒトのデモと同等の数の人工演示よりも有効であることが示唆された。
関連論文リスト
- Information-driven Affordance Discovery for Efficient Robotic Manipulation [14.863105174430087]
環境との双方向な相互作用はこの問題を軽減することができると我々は主張する。
我々は,本手法の理論的正当性を提供し,シミュレーションと実世界の課題の両方において,そのアプローチを実証的に検証する。
IDAをダブした本手法は,複数のアクションプリミティブに対する視覚的アベイランスの効率的な発見を可能にする。
論文 参考訳(メタデータ) (2024-05-06T21:25:51Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。