論文の概要: COFAR: Commonsense and Factual Reasoning in Image Search
- arxiv url: http://arxiv.org/abs/2210.08554v1
- Date: Sun, 16 Oct 2022 14:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:20:16.514241
- Title: COFAR: Commonsense and Factual Reasoning in Image Search
- Title(参考訳): COFAR:画像検索におけるコモンセンスとFactual Reasoning
- Authors: Prajwal Gatti, Abhirama Subramanyam Penamakuri, Revant Teotia, Anand
Mishra, Shubhashis Sengupta, Roshni Ramnani
- Abstract要約: 現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかなもの以上の画像を解釈できる能力である。
我々は、画像内の名前付き視覚的エンティティを百科事典知識のゲートウェイとして扱う、知識検索拡張マルチモーダルトランス(KRAMT)という統合されたフレームワークを提案する。
この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索を実行するために使用される。
- 参考スコア(独自算出の注目度): 2.6354148238224697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One characteristic that makes humans superior to modern artificially
intelligent models is the ability to interpret images beyond what is visually
apparent. Consider the following two natural language search queries - (i) "a
queue of customers patiently waiting to buy ice cream" and (ii) "a queue of
tourists going to see a famous Mughal architecture in India." Interpreting
these queries requires one to reason with (i) Commonsense such as interpreting
people as customers or tourists, actions as waiting to buy or going to see; and
(ii) Fact or world knowledge associated with named visual entities, for
example, whether the store in the image sells ice cream or whether the landmark
in the image is a Mughal architecture located in India. Such reasoning goes
beyond just visual recognition. To enable both commonsense and factual
reasoning in the image search, we present a unified framework, namely Knowledge
Retrieval-Augmented Multimodal Transformer (KRAMT), that treats the named
visual entities in an image as a gateway to encyclopedic knowledge and
leverages them along with natural language query to ground relevant knowledge.
Further, KRAMT seamlessly integrates visual content and grounded knowledge to
learn alignment between images and search queries. This unified framework is
then used to perform image search requiring commonsense and factual reasoning.
The retrieval performance of KRAMT is evaluated and compared with related
approaches on a new dataset we introduce - namely COFAR. We make our code and
dataset available at https://vl2g.github.io/projects/cofar
- Abstract(参考訳): 現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかな以上の画像を解釈する能力である。
以下の2つの自然言語検索クエリを考える。
(i)「アイスクリームの購入を辛抱強く待っている客の行列」及び
(ii)「インドで有名なムガル建築を見に行く観光客の列」
これらのクエリを解釈するには
一 消費者を顧客又は観光客と解釈し、購入を待ち、又は見に行く行為をすること。
(ii)画像中の店舗がアイスクリームを販売しているか、画像のランドマークがインドにあるムガル建築であるかなど、名前付き視覚実体に関連する事実又は世界知識。
このような推論は単なる視覚的認識に留まらない。
画像検索におけるコモンセンスと事実推論の両方を可能にするため,画像内の名前付きビジュアルエンティティを百科事典的知識のゲートウェイとして扱い,自然言語クエリと併用して関連する知識を基盤とした統合フレームワークKRAMT(Knowledge Retrieval-Augmented Multimodal Transformer)を提案する。
さらに、KRAMTは視覚コンテンツと接地知識をシームレスに統合し、画像と検索クエリ間のアライメントを学習する。
この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索に使用される。
KRAMTの検索性能を評価し,新しいデータセット,すなわちCOFARの関連手法と比較した。
コードとデータセットはhttps://vl2g.github.io/projects/cofarで利用可能です。
関連論文リスト
- An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-28T17:59:20Z) - Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images [63.629345688220496]
ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z) - Image Translation via Fine-grained Knowledge Transfer [36.898373109689814]
本稿では,知識検索と伝達による画像翻訳を実現する,解釈可能な知識ベース画像翻訳フレームワークを提案する。
詳細は、プラグインアンドプレイとモデルに依存しない汎用知識ライブラリを構築し、タスク固有のスタイル、トーン、テクスチャパターンなどを覚えている。
論文 参考訳(メタデータ) (2020-12-21T09:18:48Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - Beyond Language: Learning Commonsense from Images for Reasoning [78.33934895163736]
本稿では,限られた原文や高価に構築された知識ベースの代わりに,画像からコモンセンスを学習するための新しいアプローチを提案する。
私たちのモチベーションは、画像が1000ワードの価値があるという事実から来ています。
論文 参考訳(メタデータ) (2020-10-10T13:47:13Z) - Adaptive Semantic-Visual Tree for Hierarchical Embeddings [67.01307058209709]
本稿では,商品カテゴリのアーキテクチャを記述するために,階層型適応型セマンティックビジュアルツリーを提案する。
この木は、異なる意味レベルと同じ意味クラス内の視覚的類似度を同時に評価する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学習する。
論文 参考訳(メタデータ) (2020-03-08T03:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。