論文の概要: QR-CLIP: Introducing Explicit Open-World Knowledge for Location and Time
Reasoning
- arxiv url: http://arxiv.org/abs/2302.00952v1
- Date: Thu, 2 Feb 2023 08:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:48:32.967731
- Title: QR-CLIP: Introducing Explicit Open-World Knowledge for Location and Time
Reasoning
- Title(参考訳): QR-CLIP: 位置と時間推論のための明示的なオープンワールド知識の導入
- Authors: Weimin Shi, Mingchen Zhuge, Zhong Zhou, Dehong Gao, Deng-Ping Fan
- Abstract要約: 我々は、セグメンテーションや分類といった基本的なタスクを実行するのではなく、どこで、いつ画像が撮られたかを予測するように機械に教える。
実験ではQR-CLIPの有効性が示され、各タスクにおける前のSOTAを平均約10%上回っている。
この研究は、位置と時間的推論の技術的基盤を築き、オープンワールドの知識を効果的に導入することがタスクのパナセアの一つであることを示唆している。
- 参考スコア(独自算出の注目度): 27.432109139179527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Daily images may convey abstract meanings that require us to memorize and
infer profound information from them. To encourage such human-like reasoning,
in this work, we teach machines to predict where and when it was taken rather
than performing basic tasks like traditional segmentation or classification.
Inspired by Horn's QR theory, we designed a novel QR-CLIP model consisting of
two components: 1) the Quantity module first retrospects more open-world
knowledge as the candidate language inputs; 2) the Relevance module carefully
estimates vision and language cues and infers the location and time.
Experiments show our QR-CLIP's effectiveness, and it outperforms the previous
SOTA on each task by an average of about 10% and 130% relative lift in terms of
location and time reasoning. This study lays a technical foundation for
location and time reasoning and suggests that effectively introducing
open-world knowledge is one of the panaceas for the tasks.
- Abstract(参考訳): 日々のイメージは、私たちが記憶し、それらから深い情報を推測する必要がある抽象的な意味を伝える。
このような人間的な推論を促進するために、我々は機械に従来のセグメンテーションや分類といった基本的なタスクではなく、いつ、どこで、いつ取られたかを予測するように教える。
Horn氏のQR理論に触発されて、2つのコンポーネントからなる新しいQR-CLIPモデルを設計した。
1)Quantityモジュールは,まず,候補言語の入力として,よりオープンワールドな知識を振り返る。
2) 関連モジュールは,視覚と言語手がかりを慎重に推定し,位置と時刻を推定する。
実験によりQR-CLIPの有効性が示され、各タスクにおける以前のSOTAを、位置と時間的推論の観点から平均約10%と130%の相対的なリフトで上回ります。
本研究は,位置情報と時間的推論の技術的基礎を築いており,オープンワールド知識の効果的な導入が課題のパナセの1つであることを示唆する。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Asking for Knowledge: Training RL Agents to Query External Knowledge
Using Language [121.56329458876655]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。
本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (2022-05-12T14:20:31Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。