論文の概要: There is a Time and Place for Reasoning Beyond the Image
- arxiv url: http://arxiv.org/abs/2203.00758v1
- Date: Tue, 1 Mar 2022 21:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:29:38.765976
- Title: There is a Time and Place for Reasoning Beyond the Image
- Title(参考訳): イメージを超えて推論する時間と場所があります
- Authors: Xingyu Fu, Ben Zhou, Ishaan Preetam Chandratreya, Carl Vondrick, Dan
Roth
- Abstract要約: 画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
- 参考スコア(独自算出の注目度): 63.96498435923328
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Images are often more significant than only the pixels to human eyes, as we
can infer, associate, and reason with contextual information from other sources
to establish a more complete picture. For example, in Figure 1, we can find a
way to identify the news articles related to the picture through segment-wise
understandings on the signs, the buildings, the crowds, and more. This tells us
the time when and the location where the image is taken, which will help us in
subsequent tasks, such as evidence retrieval for criminal activities, automatic
storyline construction, and upper-stream processing such as image clustering.
In this work, we formulate this problem and introduce TARA: a dataset with 16k
images with their associated news, time and location automatically extracted
from New York Times (NYT), and an additional 61k examples as distant
supervision from WIT. On top of the extractions, we present a crowdsourced
subset in which images are believed to be feasible to find their
spatio-temporal information for evaluation purpose. We show that there exists a
70% gap between a state-of-the-art joint model and human performance, which is
slightly filled by our proposed model that uses segment-wise reasoning,
motivating higher-level vision-language joint models that can conduct
open-ended reasoning with world knowledge.
- Abstract(参考訳): イメージは、人間の目のピクセルのみよりも重要であり、より完全な画像を確立するために、他のソースからのコンテキスト情報と推論、関連付け、推論することができる。
例えば、図1では、看板、建物、群衆などについてのセグメント的な理解を通じて、写真に関連するニュース記事を特定する方法を見つけることができます。
これは、犯罪行為の証拠検索、自動ストーリーライン構築、画像クラスタリングのような上流処理といった後続のタスクにおいて、画像が撮影された時間と場所を教えてくれる。
本稿では,ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース,時間,位置のデータセットと,WITから離れた監視対象として追加の61k例を紹介する。
抽出に加えて,評価目的の時空間情報を見つけるために,画像が実現可能であると考えられるクラウドソーシング部分集合を提案する。
現状のジョイントモデルと人間のパフォーマンスの間には70%のギャップがあることを示し,世界知識でオープンエンド推論を行うことのできる高レベル視覚言語ジョイントモデルを動機づけたセグメントワイド推論を用いたモデルを提案する。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Deep Image Deblurring: A Survey [165.32391279761006]
低レベルのコンピュータビジョンにおいて、デブロアリングは古典的な問題であり、ぼやけた入力画像からシャープなイメージを復元することを目的としている。
近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらした。
論文 参考訳(メタデータ) (2022-01-26T01:31:30Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。