論文の概要: The Abduction of Sherlock Holmes: A Dataset for Visual Abductive
Reasoning
- arxiv url: http://arxiv.org/abs/2202.04800v1
- Date: Thu, 10 Feb 2022 02:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 14:44:59.676458
- Title: The Abduction of Sherlock Holmes: A Dataset for Visual Abductive
Reasoning
- Title(参考訳): シャーロック・ホームズの廃止:視覚的帰納的推論のためのデータセット
- Authors: Jack Hessel and Jena D. Hwang and Jae Sung Park and Rowan Zellers and
Chandra Bhagavatula and Anna Rohrbach and Kate Saenko and Yejin Choi
- Abstract要約: 人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。
本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。
- 参考スコア(独自算出の注目度): 113.25016899663191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have remarkable capacity to reason abductively and hypothesize about
what lies beyond the literal content of an image. By identifying concrete
visual clues scattered throughout a scene, we almost can't help but draw
probable inferences beyond the literal scene based on our everyday experience
and knowledge about the world. For example, if we see a "20 mph" sign alongside
a road, we might assume the street sits in a residential area (rather than on a
highway), even if no houses are pictured. Can machines perform similar visual
reasoning?
We present Sherlock, an annotated corpus of 103K images for testing machine
capacity for abductive reasoning beyond literal image contents. We adopt a
free-viewing paradigm: participants first observe and identify salient clues
within images (e.g., objects, actions) and then provide a plausible inference
about the scene, given the clue. In total, we collect 363K (clue, inference)
pairs, which form a first-of-its-kind abductive visual reasoning dataset. Using
our corpus, we test three complementary axes of abductive reasoning. We
evaluate the capacity of models to: i) retrieve relevant inferences from a
large candidate corpus; ii) localize evidence for inferences via bounding
boxes, and iii) compare plausible inferences to match human judgments on a
newly-collected diagnostic corpus of 19K Likert-scale judgments. While we find
that fine-tuning CLIP-RN50x64 with a multitask objective outperforms strong
baselines, significant headroom exists between model performance and human
agreement. We provide analysis that points towards future work.
- Abstract(参考訳): 人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。
シーン全体に散らばっている具体的な視覚的手がかりを特定することで、私たちの日々の経験や世界に関する知識に基づいて、リテラルシーンを超えて推測するのはほとんど役に立たない。
例えば、道路の脇に「時速20マイル」の標識があるなら、その通りが住宅地(高速道路ではなく)にあると仮定できる。
機械は類似の視覚的推論を実行できるか?
本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。
参加者はまず、画像内の健全な手がかり(例えば、オブジェクト、アクション)を観察し、次に、その手がかりを考慮すれば、そのシーンに関する妥当な推論を提供する。
合計すると、363kペア(clue, inference)を収集し、最初のitsの帰納的推論データセットを形成します。
コーパスを用いて3つの相補的な推論軸をテストした。
モデルの能力を評価します
一 大きな候補コーパスから関連推論を取得すること。
二 結束箱による推論の証拠の局所化、及び
三 可算推論を比較して、新たに収集した19KLikert尺度の診断コーパスに人的判断を適合させる。
マルチタスクを目標とする微調整CLIP-RN50x64は,強いベースラインよりも優れているが,モデル性能と人的合意との間には顕著なヘッドルームが存在する。
我々は将来の仕事に向けて分析を行う。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - Prediction of Scene Plausibility [11.641785968519114]
可塑性は、物理的性質の項と、機能的および典型的な配置の項の両方で定義することができる。
合成画像のデータセットを構築し, 可視・可視の両方のシーンを合成する。
妥当性を認識し理解するタスクにおいて,様々な視覚モデルの成功を検証した。
論文 参考訳(メタデータ) (2022-12-02T22:22:16Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - What does it mean to represent? Mental representations as falsifiable
memory patterns [8.430851504111585]
我々は、因果的および遠隔的アプローチは表現の十分な説明を提供していないと論じる。
我々は、どの表現が世界の推論された潜在構造に対応するかという選択肢をスケッチする。
これらの構造は客観的に特定の特性を持つと考えられており、予期せぬ事象の計画、予測、検出を可能にしている。
論文 参考訳(メタデータ) (2022-03-06T12:52:42Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and
Execution [97.50813120600026]
時空間推論は人工知能(AI)の課題である
最近の研究は、この種の抽象的推論タスクに焦点を当てている -- Raven's Progressive Matrices (RPM)
ニューロシンボリックな確率的アブダクションと実行学習者(PrAE)を提案する。
論文 参考訳(メタデータ) (2021-03-26T02:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。