論文の概要: Adaptive Transformers for Learning Multimodal Representations
- arxiv url: http://arxiv.org/abs/2005.07486v3
- Date: Wed, 8 Jul 2020 12:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:24:26.380288
- Title: Adaptive Transformers for Learning Multimodal Representations
- Title(参考訳): マルチモーダル表現学習のための適応トランスフォーマー
- Authors: Prajjwal Bhargava
- Abstract要約: 我々は適応的アプローチを拡張して、モデル解釈可能性と計算効率についてより深く学ぶ。
本研究では,視覚や言語タスクの注意機構がいかに拡張されているかを理解するために,注意範囲,スパース,構造化されたドロップアウト手法について検討する。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The usage of transformers has grown from learning about language semantics to
forming meaningful visiolinguistic representations. These architectures are
often over-parametrized, requiring large amounts of computation. In this work,
we extend adaptive approaches to learn more about model interpretability and
computational efficiency. Specifically, we study attention spans, sparse, and
structured dropout methods to help understand how their attention mechanism
extends for vision and language tasks. We further show that these approaches
can help us learn more about how the network perceives the complexity of input
sequences, sparsity preferences for different modalities, and other related
phenomena.
- Abstract(参考訳): トランスフォーマーの使用は、言語意味論の学習から有意義なビシオ言語表現の形成へと成長してきた。
これらのアーキテクチャはしばしば過度にパラメータ化され、大量の計算を必要とする。
本研究では,モデル解釈性と計算効率についてより深く学ぶために適応的アプローチを拡張する。
具体的には,注意スパン,スパース,構造化ドロップアウトの手法について検討し,視覚や言語タスクに対する注意のメカニズムがどのように広がるかを理解するのに役立つ。
さらに,これらの手法は,ネットワークが入力シーケンスの複雑さ,異なるモダリティに対するスパーシティ・プレファレンス,その他の関連する現象をどのように知覚するかを知る上で有用であることを示す。
関連論文リスト
- Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。
トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。
我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-10T12:18:42Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Dodrio: Exploring Transformer Models with Interactive Visualization [10.603327364971559]
Dodrioは、NLP研究者や実践者が言語知識を持つトランスベースのモデルにおける注意メカニズムを分析するのに役立つオープンソースのインタラクティブビジュアライゼーションツールです。
注意重みと言語知識の視覚的比較を容易にするために、dodrioはより長い入力テキストで注意重みを表すために異なるグラフ視覚化技術を適用する。
論文 参考訳(メタデータ) (2021-03-26T17:39:37Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Incidental Supervision: Moving beyond Supervised Learning [72.4859717204905]
本稿では、監視ボトルネックを軽減するために設計された学習パラダイムについて述べる。
それは、テキストから様々なレベルの意味表現を誘導することに関連する、複数の問題の文脈におけるそれらの利点を説明する。
論文 参考訳(メタデータ) (2020-05-25T18:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。