Fugu-MT 論文翻訳(概要): Who's Waldo? Linking People Across Text and Images

論文の概要: Who's Waldo? Linking People Across Text and Images

arxiv url: http://arxiv.org/abs/2108.07253v1
Date: Mon, 16 Aug 2021 17:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-17 15:31:22.118485
Title: Who's Waldo? Linking People Across Text and Images
Title（参考訳）: ウォルドって誰? テキストと画像で人々をつなぐ
Authors: Claire Yuqing Cui, Apoorv Khandelwal, Yoav Artzi, Noah Snavely, Hadar Averbuch-Elor
Abstract要約: 人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
参考スコア（独自算出の注目度）: 56.40556801773923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a task and benchmark dataset for person-centric visual grounding, the problem of linking between people named in a caption and people pictured in an image. In contrast to prior work in visual grounding, which is predominantly object-based, our new task masks out the names of people in captions in order to encourage methods trained on such image-caption pairs to focus on contextual cues (such as rich interactions between multiple people), rather than learning associations between names and appearances. To facilitate this task, we introduce a new dataset, Who's Waldo, mined automatically from image-caption data on Wikimedia Commons. We propose a Transformer-based method that outperforms several strong baselines on this task, and are releasing our data to the research community to spur work on contextual models that consider both vision and language.
Abstract（参考訳）: 本稿では,人物中心の視覚接地のためのタスクとベンチマークデータセットと,キャプションで名付けられた人と画像に写っている人とをリンクする問題を提案する。主にオブジェクトベースである視覚グラウンディングの以前の作業とは対照的に,新たなタスクでは,キャプション内の人物の名前をマスクして,このようなイメージキャプチャペアでトレーニングされた手法を,名前と外観の関連を学習するよりも,コンテキスト的な手がかり(複数人間のリッチなインタラクションなど)に集中させる。この作業を容易にするために、Wikimedia Commonsの画像キャプチャデータから自動的にマイニングされる新しいデータセット、Who's Waldoを導入する。本稿では,この課題に対する強力なベースラインを克服するトランスフォーマーベースの手法を提案し,研究コミュニティにデータを公開し,視覚と言語の両方を考慮した文脈モデルの開発を加速させている。

関連論文リスト

Learning Complex Non-Rigid Image Edits from Multimodal Conditioning [18.500715348636582]
我々は、与えられた人間(具体的には人の1つのイメージ)を新しいシーンに挿入することに集中する。安定拡散の上に構築された本手法は,テキストとポーズを高度に制御し,自然な画像を生成する。身元保存は「夢中」の場面、特に人と物体が相互作用する場面において、より困難な課題であることを示す。
論文参考訳（メタデータ） (2024-12-13T15:41:08Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。より優れた名前埋め込みを学習するための顔命名モジュールを提案する。私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文参考訳（メタデータ） (2023-08-16T12:39:39Z)
Learning Human-Human Interactions in Images from Weak Textual Supervision [15.71242350678679]
静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
論文参考訳（メタデータ） (2023-04-27T11:32:48Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文参考訳（メタデータ） (2022-03-30T21:35:53Z)
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文参考訳（メタデータ） (2020-04-13T19:18:10Z)
Captioning Images Taken by People Who Are Blind [25.263950448575923]
VizWiz-Captionsは盲人から生まれた39,000以上の画像で構成されており、それぞれに5つのキャプションがある。このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。
論文参考訳（メタデータ） (2020-02-20T04:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。