Fugu-MT 論文翻訳(概要): Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation

論文の概要: Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation

arxiv url: http://arxiv.org/abs/2210.12460v1
Date: Sat, 22 Oct 2022 14:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 16:19:15.094755
Title: Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation
Title（参考訳）: ビデオ・グラウンド対話生成のためのマルチモーダル意味グラフの協調推論
Authors: Xueliang Zhao, Yuxuan Wang, Chongyang Tao, Chenshuo Wang and Dongyan Zhao
Abstract要約: 本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
参考スコア（独自算出の注目度）: 53.87485260058957
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study video-grounded dialogue generation, where a response is generated based on the dialogue context and the associated video. The primary challenges of this task lie in (1) the difficulty of integrating video data into pre-trained language models (PLMs) which presents obstacles to exploiting the power of large-scale pre-training; and (2) the necessity of taking into account the complementarity of various modalities throughout the reasoning process. Although having made remarkable progress in video-grounded dialogue generation, existing methods still fall short when it comes to integrating with PLMs in a way that allows information from different modalities to complement each other. To alleviate these issues, we first propose extracting pertinent information from videos and turning it into reasoning paths that are acceptable to PLMs. Additionally, we propose a multi-agent reinforcement learning method to collaboratively perform reasoning on different modalities (i.e., video and dialogue context). Empirical experiment results on two public datasets indicate that the proposed model can significantly outperform state-of-the-art models by large margins on both automatic and human evaluations.
Abstract（参考訳）: 本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)大規模事前学習の力を利用するための障害を提示する事前学習言語モデル(PLM)にビデオデータを統合することの難しさ,(2)推論過程を通じて様々なモダリティの相補性を考慮することの必要性である。ビデオ・グラウンドによる対話生成は目覚ましい進歩を遂げているが、plmとの統合に関しては、異なるモダリティからの情報を相互補完する手法として、既存の手法が不足している。これらの問題を緩和するために,まずビデオから関連する情報を抽出し,plmに許容される推論経路に変換することを提案する。さらに,異なるモーダル(ビデオと対話のコンテキスト)の推論を協調的に行うマルチエージェント強化学習手法を提案する。 2つの公開データセットにおける実験結果から,提案手法は,自動評価と人間評価の両方において,最先端モデルを大幅に上回ることができることが示された。

関連論文リスト

STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文参考訳（メタデータ） (2024-06-05T16:09:01Z)
Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文参考訳（メタデータ） (2023-05-24T14:06:27Z)
$C^3$: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文参考訳（メタデータ） (2021-06-16T16:05:27Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。