論文の概要: SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic
Representation Space
- arxiv url: http://arxiv.org/abs/2008.00397v2
- Date: Wed, 27 Apr 2022 14:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:21:04.466886
- Title: SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic
Representation Space
- Title(参考訳): seqdialn:統合視覚言語表現空間におけるシーケンシャルビジュアルダイアログネットワーク
- Authors: Liu Yang
- Abstract要約: 情報フローとして視覚対話を定式化し、各情報を単一の対話ラウンドの視覚言語的共同表現で符号化する。
推論には2つの逐次ダイアログネットワーク(SeqDialN)を提案する。第1は情報伝達(IP)にLSTM、第2は多段階推論(MR)に改良型トランスフォーマを使用する。
In VisDial v1.0 test-std data, our best single generative SeqDialN achieves 62.54% NDCG and 48.63% MRR; our ensemble generative SeqDialN achieves 63.78% NDCG and 49.98% MRR
- 参考スコア(独自算出の注目度): 8.659667696467395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we formulate a visual dialog as an information flow in which
each piece of information is encoded with the joint visual-linguistic
representation of a single dialog round. Based on this formulation, we consider
the visual dialog task as a sequence problem consisting of ordered
visual-linguistic vectors. For featurization, we use a Dense Symmetric
Co-Attention network as a lightweight vison-language joint representation
generator to fuse multimodal features (i.e., image and text), yielding better
computation and data efficiencies. For inference, we propose two Sequential
Dialog Networks (SeqDialN): the first uses LSTM for information propagation
(IP) and the second uses a modified Transformer for multi-step reasoning (MR).
Our architecture separates the complexity of multimodal feature fusion from
that of inference, which allows simpler design of the inference engine. IP
based SeqDialN is our baseline with a simple 2-layer LSTM design that achieves
decent performance. MR based SeqDialN, on the other hand, recurrently refines
the semantic question/history representations through the self-attention stack
of Transformer and produces promising results on the visual dialog task. On
VisDial v1.0 test-std dataset, our best single generative SeqDialN achieves
62.54% NDCG and 48.63% MRR; our ensemble generative SeqDialN achieves 63.78%
NDCG and 49.98% MRR, which set a new state-of-the-art generative visual dialog
model. We fine-tune discriminative SeqDialN with dense annotations and boost
the performance up to 72.41% NDCG and 55.11% MRR. In this work, we discuss the
extensive experiments we have conducted to demonstrate the effectiveness of our
model components. We also provide visualization for the reasoning process from
the relevant conversation rounds and discuss our fine-tuning methods. Our code
is available at https://github.com/xiaoxiaoheimei/SeqDialN
- Abstract(参考訳): 本研究では,情報の流れとして視覚対話を定式化し,各情報を単一の対話ラウンドの視覚言語的共同表現で符号化する。
この定式化に基づき,視覚対話タスクを順序付き視覚言語ベクトルからなるシーケンス問題と考える。
実現のために,多モード特徴(画像とテキスト)を融合する軽量vison言語結合表現生成器として,高密度対称コアテンションネットワークを用いることにより,より優れた計算とデータ効率を実現する。
本稿では,2つの逐次ダイアログネットワーク (SeqDialN) を提案する。第1に情報伝達 (IP) にLSTM,第2に多段階推論 (MR) に改良型トランスフォーマを用いる。
我々のアーキテクチャは、マルチモーダルな特徴融合の複雑さと推論の複雑さを分離し、推論エンジンをシンプルに設計することができる。
IPベースのSeqDialNは、単純な2層LSTM設計で、優れたパフォーマンスを実現するベースラインです。
一方、MRベースのSeqDialNは、Transformerの自己アテンションスタックを通じて意味論/ヒストリー表現を繰り返し洗練し、ビジュアルダイアログタスクで有望な結果を生成する。
visdial v1.0 テスト-std データセットでは、最良の単一生成型 seqdialn は 62.54% ndcg と 48.63% の mrr を達成し、アンサンブル生成型 seqdialn は 63.78% ndcg と 49.98% のmrr を達成し、新しい最先端生成型ビジュアルダイアログモデルを設定した。
濃密なアノテーションで識別するSeqDialNを微調整し、72.41% NDCG と 55.11% MRR に性能を向上する。
本稿では,モデルコンポーネントの有効性を実証するために実施した広範囲な実験について論じる。
また、関連する会話ラウンドからの推論プロセスの可視化を行い、微調整手法について議論する。
私たちのコードはhttps://github.com/xiaoxiaoheimei/SeqDialNで利用可能です。
関連論文リスト
- SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion [20.016192628108158]
視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワーク,SimVGを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:36:19Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Enhancing Transformer RNNs with Multiple Temporal Perspectives [18.884124657093405]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。