論文の概要: Robust Image Captioning
- arxiv url: http://arxiv.org/abs/2012.09732v1
- Date: Sun, 6 Dec 2020 00:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:55:43.417801
- Title: Robust Image Captioning
- Title(参考訳): ロバストな画像キャプション
- Authors: Daniel Yarnell, Xian Wang
- Abstract要約: 本研究では, 対向的ロバストカットアルゴリズムを用いて, 対象関係を利用する。
本研究は,画像キャプションのための提案手法の有望な性能を示す。
- 参考スコア(独自算出の注目度): 3.20603058999901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated captioning of photos is a mission that incorporates the
difficulties of photo analysis and text generation. One essential feature of
captioning is the concept of attention: how to determine what to specify and in
which sequence. In this study, we leverage the Object Relation using
adversarial robust cut algorithm, that grows upon this method by specifically
embedding knowledge about the spatial association between input data through
graph representation. Our experimental study represent the promising
performance of our proposed method for image captioning.
- Abstract(参考訳): 写真の自動キャプションは、写真分析とテキスト生成の難しさを組み込んだミッションである。
キャプションの基本的な特徴の1つは注意の概念である:何をどのシーケンスで指定するかを決定する方法。
本研究では,入力データ間の空間関係に関する知識をグラフ表現に組み込むことにより,対象関係を逆ロバストカットアルゴリズムを用いて活用する。
本研究は,画像キャプションのための提案手法の有望な性能を示す。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z) - Comprehensive Image Captioning via Scene Graph Decomposition [51.660090468384375]
本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題に対処する。
我々の手法の核となるのは、シーングラフをサブグラフの集合に分解することである。
我々は,重要な部分グラフを選択し,選択した各サブグラフを1つのターゲット文にデコードするディープモデルを設計する。
論文 参考訳(メタデータ) (2020-07-23T00:59:21Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。