論文の概要: Modulating Bottom-Up and Top-Down Visual Processing via
Language-Conditional Filters
- arxiv url: http://arxiv.org/abs/2003.12739v3
- Date: Thu, 23 Jun 2022 14:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:20:23.522229
- Title: Modulating Bottom-Up and Top-Down Visual Processing via
Language-Conditional Filters
- Title(参考訳): 言語条件フィルタによるボトムアップ・トップダウン視覚処理の変調
- Authors: \.Ilker Kesen, Ozan Arkan Can, Erkut Erdem, Aykut Erdem, Deniz Yuret
- Abstract要約: ハイレベルな視覚的特徴に対して視覚的注意を向けるために、トップダウンで言語を使うという一般的な実践は、最適ではないかもしれない、と我々は主張する。
U-Netベースのモデルを提案し、2つの言語ビジョンの高次予測タスクについて実験を行う。
実験の結果,トップダウンの注意に加えて,ボトムアップの視覚処理のために言語を用いてフィルタを制御することで,両方のタスクにおいてより良い結果が得られ,競争性能が達成されることがわかった。
- 参考スコア(独自算出の注目度): 14.599459355506204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to best integrate linguistic and perceptual processing in multi-modal
tasks that involve language and vision is an important open problem. In this
work, we argue that the common practice of using language in a top-down manner,
to direct visual attention over high-level visual features, may not be optimal.
We hypothesize that the use of language to also condition the bottom-up
processing from pixels to high-level features can provide benefits to the
overall performance. To support our claim, we propose a U-Net-based model and
perform experiments on two language-vision dense-prediction tasks: referring
expression segmentation and language-guided image colorization. We compare
results where either one or both of the top-down and bottom-up visual branches
are conditioned on language. Our experiments reveal that using language to
control the filters for bottom-up visual processing in addition to top-down
attention leads to better results on both tasks and achieves competitive
performance. Our linguistic analysis suggests that bottom-up conditioning
improves segmentation of objects especially when input text refers to low-level
visual concepts. Code is available at https://github.com/ilkerkesen/bvpr.
- Abstract(参考訳): 言語と視覚を含むマルチモーダルタスクにおいて、言語処理と知覚処理を最もうまく統合する方法は、重要なオープン問題である。
本研究では,ハイレベルな視覚的特徴に対して視覚的注意を向ける上で,トップダウン方式で言語を使用するという一般的な実践は最適ではない,と論じる。
画素から高レベル機能へのボトムアップ処理を条件とする言語の使用は、全体的なパフォーマンスに利益をもたらすと仮定する。
そこで我々は,U-Netに基づくモデルを提案し,表現セグメント化と言語誘導画像のカラー化という2つの言語ビジョン高密度予測タスクの実験を行った。
トップダウンとボトムアップの両方の視覚枝が言語で条件付けされている結果と比較する。
実験の結果,トップダウンの注意に加えて,ボトムアップ・ビジュアル・プロセッシングのためのフィルタの制御に言語を用いることで,両タスクの精度が向上し,競争性能が向上することがわかった。
ボトムアップ・コンディショニングは、特に入力テキストが低レベルの視覚概念を参照する場合に、オブジェクトのセグメンテーションを改善することを示唆する。
コードはhttps://github.com/ilkerkesen/bvprで入手できる。
関連論文リスト
- VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。