論文の概要: diff History for Neural Language Agents
- arxiv url: http://arxiv.org/abs/2312.07540v2
- Date: Wed, 14 Feb 2024 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:55:26.672855
- Title: diff History for Neural Language Agents
- Title(参考訳): 神経言語エージェントのdiff履歴
- Authors: Ulyana Piterbarg, Lerrel Pinto, Rob Fergus
- Abstract要約: これらの問題に対するシンプルで効果的なソリューションである差分履歴を導入します。
The Unix diff command on continuous text observed in the interaction histories used to prompt LM policy, we can be abstract away redundant information。
意思決定のために長い水平推論を必要とする未解決のビデオゲームであるNetHackでは、diff履歴を調整したLMがニューラルエージェントの最先端のパフォーマンスにマッチする。
- 参考スコア(独自算出の注目度): 37.24009814390211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Language Models (LMs) offer an exciting solution for general-purpose
embodied control. However, a key technical issue arises when using an LM-based
controller: environment observations must be converted to text, which coupled
with history, results in long and verbose textual prompts. As a result, prior
work in LM agents is limited to restricted domains with small observation size
as well as minimal needs for interaction history or instruction tuning. In this
paper, we introduce diff history, a simple and highly effective solution to
these issues. By applying the Unix diff command on consecutive text
observations in the interaction histories used to prompt LM policies, we can
both abstract away redundant information and focus the content of textual
inputs on the salient changes in the environment. On NetHack, an unsolved video
game that requires long-horizon reasoning for decision-making, LMs tuned with
diff history match state-of-the-art performance for neural agents while needing
1800x fewer training examples compared to prior work. Even on the simpler
BabyAI-Text environment with concise text observations, we find that although
diff history increases the length of prompts, the representation it provides
offers a 25% improvement in the efficiency of low-sample instruction tuning.
Further, we show that diff history scales favorably across different tuning
dataset sizes. We open-source our code and data to
https://diffhistory.github.io.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、汎用的なエンボディドコントロールのためのエキサイティングなソリューションを提供する。
しかし、LMベースのコントローラを使用する場合、重要な技術的な問題が発生する。環境観測はテキストに変換しなければならない。
その結果、lmエージェントの事前作業は、相互作用履歴や命令チューニングに対する最小限のニーズだけでなく、観察サイズが小さい制限されたドメインに限定される。
本稿では,これらの問題に対する単純かつ効果的な解決法であるdiff historyを提案する。
unix diffコマンドを連続したテキスト観察に適用することにより、lmポリシーを促すのに使用される対話履歴を抽象化し、テキスト入力の内容が環境の厳格な変化に焦点を合わせることができる。
意思決定のための長期的推論を必要とする未解決のビデオゲームであるNetHackでは、diff履歴をチューニングしたLMが、ニューラルエージェントの最先端のパフォーマンスと一致し、以前の作業よりも1800倍少ないトレーニング例を必要とする。
簡単なテキスト観察を伴う単純なbabyai-text環境であっても、差分履歴はプロンプトの長さを増加させるが、その表現は低サンプル命令チューニングの効率を25%向上させる。
さらに,異なるチューニングデータセットサイズにまたがってdiff履歴が好適にスケールすることを示す。
コードとデータをhttps://diffhistory.github.ioにオープンソースとして公開しています。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting [11.306772273707253]
大規模言語モデル(LLM)は、ストーリーテリングや電子メール生成といった創造的なタスクにおいて、印象的な機能を示している。
我々は,命令チューニングと強化学習のための新しい戦略を開発し,文間書き直し作業のためのLLMの整合性を向上する。
OpenRewriteEvalは、自然言語命令で表現される多種多様な書き換えタイプをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2023-05-25T03:26:26Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Go Forth and Prosper: Language Modeling with Ancient Textual History [54.99143450580711]
我々は、lmが将来のテキストを予測するのに役立つ古代史からスパンを選択する補助機能を学ぶ。
選択されたテキストスパンはLMのコンテキストウィンドウに直接コピーされ、予測の少ないスパンを置き換える。
ウィキペディアの記事の難易度は7%、科学論文の難易度は12%減少しています。
論文 参考訳(メタデータ) (2021-04-18T06:57:30Z) - Universal Natural Language Processing with Limited Annotations: Try
Few-shot Textual Entailment as a Start [125.23550801424328]
Universal Few-shot Textual Entailment (UFO-Entail)
universal Few-shot Textual Entailment (UFO-Entail)を紹介する。
我々は、このフレームワークにより、事前訓練されたエンターテイメントモデルが、数ショット設定で新しいエンターテイメントドメインでうまく機能できることを実証する。
論文 参考訳(メタデータ) (2020-10-06T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。