論文の概要: Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models
- arxiv url: http://arxiv.org/abs/2409.14247v2
- Date: Fri, 4 Oct 2024 08:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:37:15.875712
- Title: Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models
- Title(参考訳): ブロックワールドにおける修復: マルチモーダル言語モデルによるユーザ訂正処理のための新しいベンチマーク
- Authors: Javier Chiyah-Garcia, Alessandro Suglia, Arash Eshghi,
- Abstract要約: 命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。
現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。
以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
- 参考スコア(独自算出の注目度): 48.42142115255159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In dialogue, the addressee may initially misunderstand the speaker and respond erroneously, often prompting the speaker to correct the misunderstanding in the next turn with a Third Position Repair (TPR). The ability to process and respond appropriately to such repair sequences is thus crucial in conversational AI systems. In this paper, we first collect, analyse, and publicly release BlockWorld-Repairs: a dataset of multi-modal TPR sequences in an instruction-following manipulation task that is, by design, rife with referential ambiguity. We employ this dataset to evaluate several state-of-the-art Vision and Language Models (VLM) across multiple settings, focusing on their capability to process and accurately respond to TPRs and thus recover from miscommunication. We find that, compared to humans, all models significantly underperform in this task. We then show that VLMs can benefit from specialised losses targeting relevant tokens during fine-tuning, achieving better performance and generalising better to new scenarios. Our results suggest that these models are not yet ready to be deployed in multi-modal collaborative settings where repairs are common, and highlight the need to design training regimes and objectives that facilitate learning from interaction. Our code and data are available at www.github.com/JChiyah/blockworld-repairs
- Abstract(参考訳): 対話では、ディレクタはまず話者を誤解し、誤って応答し、しばしば第3の位置修正(TPR)で次のターンで誤解を修正するように促す。
このような修復シーケンスを適切に処理し、応答する能力は、会話型AIシステムにおいて重要である。
本稿では,まずBlockWorld-Repairsを設計・分析・公開し,指示追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットについて述べる。
このデータセットを用いて、複数の設定にまたがって複数の最先端のビジョン・アンド・言語モデル(VLM)を評価し、TPRを処理し、正確に応答し、それによって誤通信から回復する能力に焦点を当てる。
このタスクでは、人間に比べて、すべてのモデルの性能が著しく劣っていることが分かりました。
次に、VLMは、微調整中に関連するトークンをターゲットとした特別な損失の恩恵を受けることができ、パフォーマンスが向上し、新しいシナリオに最適化できることを示す。
これらのモデルは、修復が一般的であるマルチモーダルな協調環境において、まだ展開する準備が整っていないことを示唆し、インタラクションからの学習を容易にするトレーニング体制や目的を設計する必要性を強調した。
私たちのコードとデータはwww.github.com/JChiyah/blockworld-repairsで利用可能です。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - Can Feedback Enhance Semantic Grounding in Large Vision-Language Models? [61.899791071654654]
本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:59:04Z) - Multimodal Speech Recognition for Language-Guided Embodied Agents [5.464988285536847]
視覚的コンテキストを考慮したマルチモーダルASRモデルの訓練を行い,音声命令の書き起こしにおける誤りを低減する。
マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:41:48Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。