論文の概要: Divide and Conquer: Answering Questions with Object Factorization and
Compositional Reasoning
- arxiv url: http://arxiv.org/abs/2303.10482v1
- Date: Sat, 18 Mar 2023 19:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:58:33.279274
- Title: Divide and Conquer: Answering Questions with Object Factorization and
Compositional Reasoning
- Title(参考訳): 分割と克服: 物的因子化と構成的推論による質問に答える
- Authors: Shi Chen and Qi Zhao
- Abstract要約: 本稿では,基本的対象分解法とニューラルモジュールネットワークからなる統合フレームワークを提案する。
本手法は, 対象物の特徴に基づいて分解し, 幅広い対象物を表すプロトタイプを自動的に導出する。
これらのプロトタイプにより、提案するネットワークは、共通意味空間上でオブジェクトの類似性を測定することによって、オブジェクトを関連付ける。
トレーニング中の可利用性に関わらず、多様なオブジェクトで質問に答えることができ、偏りのある質問応答分布の問題を克服することができる。
- 参考スコア(独自算出の注目度): 30.392986232906107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans have the innate capability to answer diverse questions, which is
rooted in the natural ability to correlate different concepts based on their
semantic relationships and decompose difficult problems into sub-tasks. On the
contrary, existing visual reasoning methods assume training samples that
capture every possible object and reasoning problem, and rely on black-boxed
models that commonly exploit statistical priors. They have yet to develop the
capability to address novel objects or spurious biases in real-world scenarios,
and also fall short of interpreting the rationales behind their decisions.
Inspired by humans' reasoning of the visual world, we tackle the aforementioned
challenges from a compositional perspective, and propose an integral framework
consisting of a principled object factorization method and a novel neural
module network. Our factorization method decomposes objects based on their key
characteristics, and automatically derives prototypes that represent a wide
range of objects. With these prototypes encoding important semantics, the
proposed network then correlates objects by measuring their similarity on a
common semantic space and makes decisions with a compositional reasoning
process. It is capable of answering questions with diverse objects regardless
of their availability during training, and overcoming the issues of biased
question-answer distributions. In addition to the enhanced generalizability,
our framework also provides an interpretable interface for understanding the
decision-making process of models. Our code is available at
https://github.com/szzexpoi/POEM.
- Abstract(参考訳): 人間は、様々な質問に答える能力を持っているが、それは、その意味的関係に基づいて異なる概念を相関させ、難しい問題をサブタスクに分解する自然の能力に根ざしている。
それとは対照的に、既存のビジュアル推論手法では、可能なすべてのオブジェクトと推論問題をキャプチャするトレーニングサンプルを想定しており、統計的に優先するブラックボックスモデルに依存している。
彼らはまだ、現実のシナリオにおいて、新しいオブジェクトや刺激的なバイアスに対処する能力を開発しておらず、また、彼らの決定の背後にある理屈を解釈できない。
視覚世界に対する人間の推論に触発されて、上記の課題を構成論的観点から取り上げ、原理的対象分解法と新しいニューラルモジュールネットワークからなる統合フレームワークを提案する。
提案手法は,その主要特性に基づいてオブジェクトを分解し,多種多様なオブジェクトを表すプロトタイプを自動的に導出する。
重要な意味論を符号化するこれらのプロトタイプを用いて、提案するネットワークは、共通意味論空間上でそれらの類似性を測定し、構成的推論プロセスで決定する。
トレーニング中の可用性に関係なく、さまざまなオブジェクトで質問に答えることができ、バイアスのある質問応答分布の問題を克服することができる。
一般化性の向上に加えて,本フレームワークはモデルの意思決定プロセスを理解するための解釈可能なインターフェースも提供する。
私たちのコードはhttps://github.com/szzexpoi/POEM.comで利用可能です。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。
本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Even-if Explanations: Formal Foundations, Priorities and Complexity [18.126159829450028]
線形モデルとツリーモデルの両方がニューラルネットワークよりも厳密に解釈可能であることを示す。
ユーザが好みに基づいて説明をパーソナライズすることのできる、嗜好に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T11:38:58Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - CURI: A Benchmark for Productive Concept Learning Under Uncertainty [33.83721664338612]
我々は、新しい数ショットメタラーニングベンチマーク、コンポジション推論を不確実性の下で導入する(CURI)。
CURIは、疎結合、生産的一般化、学習操作、変数バインディングなどの抽象的な理解を含む、生産的および体系的な一般化の異なる側面を評価します。
また、モデルに依存しない「構成性ギャップ」を定義し、それぞれの軸に沿って分布外分布を一般化することの難しさを評価する。
論文 参考訳(メタデータ) (2020-10-06T16:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。