論文の概要: Multi-Modal Open-Domain Dialogue
- arxiv url: http://arxiv.org/abs/2010.01082v1
- Date: Fri, 2 Oct 2020 16:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:31:45.602965
- Title: Multi-Modal Open-Domain Dialogue
- Title(参考訳): マルチモーダルオープンドメイン対話
- Authors: Kurt Shuster, Eric Michael Smith, Da Ju, Jason Weston
- Abstract要約: オープンドメインの会話エージェントにおける最近の研究は、大規模なスケーリングによって、モデルエンゲージネスと人文性メトリクスの大幅な改善が達成できることを実証している。
我々は、最先端のオープンドメイン対話エージェントと最先端のビジョンモデルからのコンポーネントの組み合わせについて検討する。
提案手法は,マルチモーダル対話において,既存モデルよりも優れた性能を示すと同時に,先行モデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 28.69395893943413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in open-domain conversational agents has demonstrated that
significant improvements in model engagingness and humanness metrics can be
achieved via massive scaling in both pre-training data and model size
(Adiwardana et al., 2020; Roller et al., 2020). However, if we want to build
agents with human-like abilities, we must expand beyond handling just text. A
particularly important topic is the ability to see images and communicate about
what is perceived. With the goal of engaging humans in multi-modal dialogue, we
investigate combining components from state-of-the-art open-domain dialogue
agents with those from state-of-the-art vision models. We study incorporating
different image fusion schemes and domain-adaptive pre-training and fine-tuning
strategies, and show that our best resulting model outperforms strong existing
models in multi-modal dialogue while simultaneously performing as well as its
predecessor (text-only) BlenderBot (Roller et al., 2020) in text-based
conversation. We additionally investigate and incorporate safety components in
our final model, and show that such efforts do not diminish model performance
with respect to engagingness metrics.
- Abstract(参考訳): オープンドメインの会話エージェントにおける最近の研究は、事前学習データとモデルサイズの両方の大規模スケーリング(Adiwardana et al., 2020; Roller et al., 2020)によって、モデルエンゲージメントと人文性メトリクスの大幅な改善が達成できることを実証している。
しかし、人間のような能力を持つエージェントを作りたいなら、テキストのみを扱うことを超えて拡張する必要がある。
特に重要なトピックは、画像を見て、知覚されているものについてコミュニケーションする能力である。
マルチモーダル対話を目的とし、最先端のオープンドメイン対話エージェントからのコンポーネントと最先端のビジョンモデルからのコンポーネントを組み合わせることを検討する。
我々は,異なる画像融合方式とドメイン適応型事前学習および微調整戦略を取り入れて検討し,最も優れた結果を得たモデルは,テキストベースの会話において,先行する(テキストのみ)BlenderBot(Roller et al., 2020)だけでなく,マルチモーダル対話における強力な既存モデルよりも優れていることを示す。
さらに安全要素を最終モデルに組み込んで検討し、そのような取り組みが、エンゲージメントメトリクスに関してモデルパフォーマンスを損なうことはないことを示します。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.878276985702685]
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文 参考訳(メタデータ) (2024-06-20T06:56:19Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - TOD-Flow: Modeling the Structure of Task-Oriented Dialogues [77.15457469745364]
ダイアログを付加した対話データからTOD-Flowグラフを推定する手法を提案する。
推定されたTOD-Flowグラフは、任意の対話モデルと容易に統合することができ、予測性能、透明性、制御性を改善することができる。
論文 参考訳(メタデータ) (2023-12-07T20:06:23Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。