論文の概要: Goal-driven text descriptions for images
- arxiv url: http://arxiv.org/abs/2108.12575v1
- Date: Sat, 28 Aug 2021 05:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 15:00:42.334038
- Title: Goal-driven text descriptions for images
- Title(参考訳): 画像のためのゴール駆動テキスト記述
- Authors: Ruotian Luo
- Abstract要約: この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
- 参考スコア(独自算出の注目度): 7.059848512713061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A big part of achieving Artificial General Intelligence(AGI) is to build a
machine that can see and listen like humans. Much work has focused on designing
models for image classification, video classification, object detection, pose
estimation, speech recognition, etc., and has achieved significant progress in
recent years thanks to deep learning. However, understanding the world is not
enough. An AI agent also needs to know how to talk, especially how to
communicate with a human. While perception (vision, for example) is more common
across animal species, the use of complicated language is unique to humans and
is one of the most important aspects of intelligence.
In this thesis, we focus on generating textual output given visual input. In
Chapter 3, we focus on generating the referring expression, a text description
for an object in the image so that a receiver can infer which object is being
described. We use a comprehension machine to directly guide the generated
referring expressions to be more discriminative. In Chapter 4, we introduce a
method that encourages discriminability in image caption generation. We show
that more discriminative captioning models generate more descriptive captions.
In Chapter 5, we study how training objectives and sampling methods affect the
models' ability to generate diverse captions. We find that a popular captioning
training strategy will be detrimental to the diversity of generated captions.
In Chapter 6, we propose a model that can control the length of generated
captions. By changing the desired length, one can influence the style and
descriptiveness of the captions. Finally, in Chapter 7, we rank/generate
informative image tags according to their information utility. The proposed
method better matches what humans think are the most important tags for the
images.
- Abstract(参考訳): AI(Artificial General Intelligence, AGI)の達成の大きな要因は、人間のように見聞きできるマシンを作ることだ。
画像分類、映像分類、物体検出、ポーズ推定、音声認識等のためのモデルの設計に多くの研究が集中しており、近年はディープラーニングによって大きな進歩を遂げている。
しかし、世界を理解するだけでは十分ではない。
AIエージェントは、会話の仕方、特に人間とのコミュニケーションの仕方を知る必要がある。
知覚(視覚など)は動物種の間で一般的であるが、複雑な言語の使用は人間特有のものであり、知性の最も重要な側面の1つである。
本論文では,視覚入力によるテキスト出力の生成に焦点をあてる。
第3章では、画像中のオブジェクトの参照表現、テキスト記述を生成し、受信者がどのオブジェクトが記述されているかを推測できるようにする。
我々は,生成した参照表現がより識別的になるように,理解機械を用いて直接ガイドする。
第4章では,画像キャプション生成における識別性を促進する手法を提案する。
識別的キャプションモデルがより記述的キャプションを生成することを示す。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
一般的な字幕学習戦略は,字幕生成の多様性を損なうことが判明した。
第6章では,生成キャプションの長さを制御できるモデルを提案する。
所望の長さを変えることで、キャプションのスタイルや記述性に影響を与えることができる。
最後に,第7章では,情報の有用性に応じて情報タグをランク付け・生成する。
提案手法は、画像の最も重要なタグである人間の考えに合致する。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文 参考訳(メタデータ) (2022-09-21T16:14:15Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文 参考訳(メタデータ) (2021-08-05T18:41:34Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。