論文の概要: Vision and Language: from Visual Perception to Content Creation
- arxiv url: http://arxiv.org/abs/1912.11872v1
- Date: Thu, 26 Dec 2019 14:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:09:33.809137
- Title: Vision and Language: from Visual Perception to Content Creation
- Title(参考訳): 視覚と言語: 視覚的知覚からコンテンツ創造へ
- Authors: Tao Mei, Wei Zhang, Ting Yao
- Abstract要約: 言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
- 参考スコア(独自算出の注目度): 100.36776435627962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and language are two fundamental capabilities of human intelligence.
Humans routinely perform tasks through the interactions between vision and
language, supporting the uniquely human capacity to talk about what they see or
hallucinate a picture on a natural-language description. The valid question of
how language interacts with vision motivates us researchers to expand the
horizons of computer vision area. In particular, "vision to language" is
probably one of the most popular topics in the past five years, with a
significant growth in both volume of publications and extensive applications,
e.g., captioning, visual question answering, visual dialog, language
navigation, etc. Such tasks boost visual perception with more comprehensive
understanding and diverse linguistic representations. Going beyond the
progresses made in "vision to language," language can also contribute to vision
understanding and offer new possibilities of visual content creation, i.e.,
"language to vision." The process performs as a prism through which to create
visual content conditioning on the language inputs. This paper reviews the
recent advances along these two dimensions: "vision to language" and "language
to vision." More concretely, the former mainly focuses on the development of
image/video captioning, as well as typical encoder-decoder structures and
benchmarks, while the latter summarizes the technologies of visual content
creation. The real-world deployment or services of vision and language are
elaborated as well.
- Abstract(参考訳): 視覚と言語は人間の知能の2つの基本的な能力である。
人間は視覚と言語の間の相互作用を通じて日常的にタスクを実行し、自然言語記述で何を見たか、あるいは絵を幻想するユニークな人間の能力をサポートする。
言語が視覚とどのように相互作用するかという有効な質問は、コンピュータビジョン領域の地平線を広げるために研究者を動機付けます。
特に、「言語へのビジョン」は、おそらく過去5年間で最も人気のあるトピックの1つであり、出版物の量と、キャプション、視覚的質問応答、視覚的対話、言語ナビゲーションなどの広範囲のアプリケーションの両方で顕著に伸びている。
このようなタスクは、より包括的な理解と多様な言語表現によって視覚認知を促進する。
言語へのビジョン」の進歩を超えて、言語は視覚理解に寄与し、視覚コンテンツの作成の新たな可能性、すなわち「言語から言語への」可能性を提供する。
このプロセスはプリズムとして機能し、言語入力に基づいて視覚コンテンツ条件を作成する。
本稿では,この2つの側面,すなわち「言語へのビジョン」と「視覚への言語」の最近の進歩を概観する。
より具体的には、前者は画像/ビデオキャプションの開発と、典型的なエンコーダ-デコーダ構造とベンチマークに焦点を当て、後者はビジュアルコンテンツ作成の技術を要約している。
現実のデプロイメントやビジョンや言語のサービスについても詳しく説明されている。
関連論文リスト
- Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives [38.758137801255714]
人間は環境を理解するために複数の感覚を使う。視覚と言語は、私たちの思考を簡単に伝え、周りの世界を知覚できるため、最も重要な感覚の2つだ。
ビデオ言語ペアは、我々の言語媒体と視覚環境の両方を時間的ダイナミクスで模倣できるので、ヒューマンライクな感覚でビデオ言語理解システムを構築することには、多くの関心が寄せられている。
論文 参考訳(メタデータ) (2024-06-09T02:36:28Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Using Left and Right Brains Together: Towards Vision and Language
Planning [95.47128850991815]
本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-16T09:46:20Z) - Analyzing the Roles of Language and Vision in Learning from Limited Data [31.895396236504993]
我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。
すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
論文 参考訳(メタデータ) (2024-02-15T22:19:41Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。