論文の概要: SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic
Representation Space
- arxiv url: http://arxiv.org/abs/2008.00397v2
- Date: Wed, 27 Apr 2022 14:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:21:04.466886
- Title: SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic
Representation Space
- Title(参考訳): seqdialn:統合視覚言語表現空間におけるシーケンシャルビジュアルダイアログネットワーク
- Authors: Liu Yang
- Abstract要約: 情報フローとして視覚対話を定式化し、各情報を単一の対話ラウンドの視覚言語的共同表現で符号化する。
推論には2つの逐次ダイアログネットワーク(SeqDialN)を提案する。第1は情報伝達(IP)にLSTM、第2は多段階推論(MR)に改良型トランスフォーマを使用する。
In VisDial v1.0 test-std data, our best single generative SeqDialN achieves 62.54% NDCG and 48.63% MRR; our ensemble generative SeqDialN achieves 63.78% NDCG and 49.98% MRR
- 参考スコア(独自算出の注目度): 8.659667696467395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we formulate a visual dialog as an information flow in which
each piece of information is encoded with the joint visual-linguistic
representation of a single dialog round. Based on this formulation, we consider
the visual dialog task as a sequence problem consisting of ordered
visual-linguistic vectors. For featurization, we use a Dense Symmetric
Co-Attention network as a lightweight vison-language joint representation
generator to fuse multimodal features (i.e., image and text), yielding better
computation and data efficiencies. For inference, we propose two Sequential
Dialog Networks (SeqDialN): the first uses LSTM for information propagation
(IP) and the second uses a modified Transformer for multi-step reasoning (MR).
Our architecture separates the complexity of multimodal feature fusion from
that of inference, which allows simpler design of the inference engine. IP
based SeqDialN is our baseline with a simple 2-layer LSTM design that achieves
decent performance. MR based SeqDialN, on the other hand, recurrently refines
the semantic question/history representations through the self-attention stack
of Transformer and produces promising results on the visual dialog task. On
VisDial v1.0 test-std dataset, our best single generative SeqDialN achieves
62.54% NDCG and 48.63% MRR; our ensemble generative SeqDialN achieves 63.78%
NDCG and 49.98% MRR, which set a new state-of-the-art generative visual dialog
model. We fine-tune discriminative SeqDialN with dense annotations and boost
the performance up to 72.41% NDCG and 55.11% MRR. In this work, we discuss the
extensive experiments we have conducted to demonstrate the effectiveness of our
model components. We also provide visualization for the reasoning process from
the relevant conversation rounds and discuss our fine-tuning methods. Our code
is available at https://github.com/xiaoxiaoheimei/SeqDialN
- Abstract(参考訳): 本研究では,情報の流れとして視覚対話を定式化し,各情報を単一の対話ラウンドの視覚言語的共同表現で符号化する。
この定式化に基づき,視覚対話タスクを順序付き視覚言語ベクトルからなるシーケンス問題と考える。
実現のために,多モード特徴(画像とテキスト)を融合する軽量vison言語結合表現生成器として,高密度対称コアテンションネットワークを用いることにより,より優れた計算とデータ効率を実現する。
本稿では,2つの逐次ダイアログネットワーク (SeqDialN) を提案する。第1に情報伝達 (IP) にLSTM,第2に多段階推論 (MR) に改良型トランスフォーマを用いる。
我々のアーキテクチャは、マルチモーダルな特徴融合の複雑さと推論の複雑さを分離し、推論エンジンをシンプルに設計することができる。
IPベースのSeqDialNは、単純な2層LSTM設計で、優れたパフォーマンスを実現するベースラインです。
一方、MRベースのSeqDialNは、Transformerの自己アテンションスタックを通じて意味論/ヒストリー表現を繰り返し洗練し、ビジュアルダイアログタスクで有望な結果を生成する。
visdial v1.0 テスト-std データセットでは、最良の単一生成型 seqdialn は 62.54% ndcg と 48.63% の mrr を達成し、アンサンブル生成型 seqdialn は 63.78% ndcg と 49.98% のmrr を達成し、新しい最先端生成型ビジュアルダイアログモデルを設定した。
濃密なアノテーションで識別するSeqDialNを微調整し、72.41% NDCG と 55.11% MRR に性能を向上する。
本稿では,モデルコンポーネントの有効性を実証するために実施した広範囲な実験について論じる。
また、関連する会話ラウンドからの推論プロセスの可視化を行い、微調整手法について議論する。
私たちのコードはhttps://github.com/xiaoxiaoheimei/SeqDialNで利用可能です。
関連論文リスト
- Enhancing Transformer RNNs with Multiple Temporal Perspectives [21.223863644467777]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - The Dialog Must Go On: Improving Visual Dialog via Generative
Self-Training [26.92268637926518]
Generative Self-Training (GST) は、視覚的な対話のための半教師付き学習手法である。
GSTは、Web上のラベルなし画像に関する合成ダイアログを生成する。
GSTはトレーニングデータの量をVisDialの桁に拡大する。
論文 参考訳(メタデータ) (2022-05-25T05:40:00Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。