論文の概要: Retrospective Learning from Interactions
- arxiv url: http://arxiv.org/abs/2410.13852v1
- Date: Thu, 17 Oct 2024 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:16.128503
- Title: Retrospective Learning from Interactions
- Title(参考訳): インタラクションからのふりかえり学習
- Authors: Zizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi,
- Abstract要約: 大規模言語モデルとユーザ間のマルチターンインタラクションには、暗黙のフィードバック信号が自然に含まれている。
このような信号は言語の比較的制約のある部分空間を占めており、LLMは実際のタスクで失敗してもそれらを識別することができる。
本稿では,過去のインタラクションにおいて,レトロスペクションを通じてそのような信号から学習するReSpectを紹介する。
- 参考スコア(独自算出の注目度): 18.5871047885934
- License:
- Abstract: Multi-turn interactions between large language models (LLMs) and users naturally include implicit feedback signals. If an LLM responds in an unexpected way to an instruction, the user is likely to signal it by rephrasing the request, expressing frustration, or pivoting to an alternative task. Such signals are task-independent and occupy a relatively constrained subspace of language, allowing the LLM to identify them even if it fails on the actual task. This creates an avenue for continually learning from interactions without additional annotations. We introduce ReSpect, a method to learn from such signals in past interactions via retrospection. We deploy ReSpect in a new multimodal interaction scenario, where humans instruct an LLM to solve an abstract reasoning task with a combinatorial solution space. Through thousands of interactions with humans, we show how ReSpect gradually improves task completion rate from 31% to 82%, all without any external annotation.
- Abstract(参考訳): 大規模言語モデル(LLM)とユーザ間のマルチターンインタラクションには、暗黙のフィードバック信号が自然に含まれている。
LLMが命令に予期せぬ方法で応答した場合、ユーザはリクエストをリフレッシュしたり、フラストレーションを表現したり、別のタスクにピボットしたりすることで、それを信号する可能性が高い。
このような信号はタスク非依存であり、言語の比較的制約された部分空間を占有しているため、LLMは実際のタスクで失敗してもそれらを特定することができる。
これにより、追加のアノテーションなしで対話から継続的に学習する道が開かれる。
本稿では,過去のインタラクションにおいて,レトロスペクションを通じてそのような信号から学習するReSpectを紹介する。
我々はReSpectを新しいマルチモーダル相互作用シナリオに展開し、人間はLLMに抽象推論タスクを組合せ解空間で解くように指示する。
何千もの人間とのインタラクションを通じて、ReSpectは外部アノテーションなしでタスク完了率を31%から82%に徐々に改善することを示す。
関連論文リスト
- Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Item-Language Model for Conversational Recommendation [10.256524103913666]
ユーザインタラクション信号をエンコードするテキスト整列アイテム表現を生成するために,ILM(Item-Language Model)を提案する。
項目エンコーダにおける言語アライメントの重要性とユーザインタラクション知識の両立を実証する広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-05T01:35:50Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Large Language Model (LLM) as a System of Multiple Expert Agents: An
Approach to solve the Abstraction and Reasoning Corpus (ARC) Challenge [20.802440121949072]
我々はLarge Language Models (LLMs) を用いたARCチャレンジの解決を試みる。
入力画像を複数の適切なテキストベース抽象空間に変換する。
次に、LLMの連想力を利用して、入出力関係を導出する。
論文 参考訳(メタデータ) (2023-10-08T12:37:28Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。