論文の概要: LLF-Bench: Benchmark for Interactive Learning from Language Feedback
- arxiv url: http://arxiv.org/abs/2312.06853v1
- Date: Mon, 11 Dec 2023 21:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:12:40.644240
- Title: LLF-Bench: Benchmark for Interactive Learning from Language Feedback
- Title(参考訳): LLF-Bench: 言語フィードバックからの対話型学習のためのベンチマーク
- Authors: Ching-An Cheng, Andrey Kolobov, Dipendra Misra, Allen Nie, Adith
Swaminathan
- Abstract要約: 我々は、自然言語のフィードバックと指示から対話的に学習するAIエージェントの能力を評価するために、新しいベンチマークLLF-Benchを導入する。
LLF-Benchは、ユーザの推薦、詩の執筆、ナビゲーション、ロボット制御を含む、シーケンシャルな意思決定タスクのコレクションである。
タスクがエージェントに馴染みがなく、エージェントがさまざまな言語化に対して堅牢であることを保証するために、いくつかのランダム化手法を実装している。
- 参考スコア(独自算出の注目度): 29.438241409867317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new benchmark, LLF-Bench (Learning from Language Feedback
Benchmark; pronounced as "elf-bench"), to evaluate the ability of AI agents to
interactively learn from natural language feedback and instructions. Learning
from language feedback (LLF) is essential for people, largely because the rich
information this feedback provides can help a learner avoid much of trial and
error and thereby speed up the learning process. Large Language Models (LLMs)
have recently enabled AI agents to comprehend natural language -- and hence AI
agents can potentially benefit from language feedback during learning like
humans do. But existing interactive benchmarks do not assess this crucial
capability: they either use numeric reward feedback or require no learning at
all (only planning or information retrieval). LLF-Bench is designed to fill
this omission. LLF-Bench is a diverse collection of sequential decision-making
tasks that includes user recommendation, poem writing, navigation, and robot
control. The objective of an agent is to interactively solve these tasks based
on their natural-language instructions and the feedback received after taking
actions. Crucially, to ensure that the agent actually "learns" from the
feedback, LLF-Bench implements several randomization techniques (such as
paraphrasing and environment randomization) to ensure that the task isn't
familiar to the agent and that the agent is robust to various verbalizations.
In addition, LLF-Bench provides a unified OpenAI Gym interface for all its
tasks and allows the users to easily configure the information the feedback
conveys (among suggestion, explanation, and instantaneous performance) to study
how agents respond to different types of feedback. Together, these features
make LLF-Bench a unique research platform for developing and testing LLF
agents.
- Abstract(参考訳): 我々は,aiエージェントが自然言語からのフィードバックや指示から対話的に学習する能力を評価するために,新しいベンチマークであるllf-bench(learning from language feedback benchmark; elf-bench)を導入する。
言語フィードバック(LLF)からの学習は、主に、このフィードバックが提供する豊富な情報が、学習者が試行錯誤の多くを回避し、学習プロセスのスピードアップに役立つため、人々にとって不可欠である。
大規模言語モデル(LLM)は、最近、AIエージェントが自然言語を理解することを可能にした。
しかし、既存のインタラクティブなベンチマークは、この重要な能力を評価していない: 数値的な報酬フィードバックを使うか、(計画や情報検索のみ)学習を全く必要としない。
LLF-Benchはこの省略を埋めるように設計されている。
LLF-Benchは、ユーザの推薦、詩の執筆、ナビゲーション、ロボット制御を含む、シーケンシャルな意思決定タスクのコレクションである。
エージェントの目的は、自然言語の指示と行動後のフィードバックに基づいて、これらのタスクを対話的に解決することである。
重要なことに、エージェントがフィードバックから実際に「学習する」ことを保証するため、LLF-Benchは、タスクがエージェントに馴染みがなく、エージェントが様々な言語化に対して堅牢であることを保証するために、いくつかのランダム化手法(パラフレーズや環境ランダム化など)を実装している。
さらに、LLF-Benchは、すべてのタスクに対して統一されたOpenAI Gymインターフェースを提供し、フィードバックが伝達する情報(提案、説明、即時的なパフォーマンス)を簡単に設定して、エージェントが異なるタイプのフィードバックにどのように反応するかを研究することができる。
これらの機能により、LLF-BenchはLLFエージェントの開発とテストのためのユニークな研究プラットフォームとなる。
関連論文リスト
- Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。
タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。
本稿では,強化学習における言語入力の種類について検討する。
論文 参考訳(メタデータ) (2024-10-31T17:59:52Z) - What You Need is What You Get: Theory of Mind for an LLM-Based Code Understanding Assistant [0.0]
開発者のコード理解を支援するために、多くのツールがLLM(Large Language Models)を使用している。
本研究では,LLMをベースとした対話型アシスタントの設計を行った。
コード理解の初心者を支援するためにLLMベースの会話アシスタントを開発したり改善したりしたい研究者やツールビルダーに洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T14:08:15Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations [26.340786701393768]
対話の形で説明を提供する解釈可能性ツールは,ユーザの理解を高める上で有効であることを示す。
しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。
ユーザがその振る舞いについて,最先端の大規模言語モデル(LLM)とチャットできる,アクセスしやすいツールを提案する。
論文 参考訳(メタデータ) (2024-01-23T09:11:07Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。