論文の概要: What's in the Box? Reasoning about Unseen Objects from Multimodal Cues
- arxiv url: http://arxiv.org/abs/2506.14212v1
- Date: Tue, 17 Jun 2025 06:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.35253
- Title: What's in the Box? Reasoning about Unseen Objects from Multimodal Cues
- Title(参考訳): 箱の中に何があるのか? マルチモーダルクイズから見えない物体について
- Authors: Lance Ying, Daniel Xu, Alicia Zhang, Katherine M. Collins, Max H. Siegel, Joshua B. Tenenbaum,
- Abstract要約: 本稿では,ニューラルネットワークを用いてオープンなマルチモーダル入力を解析するニューロシンボリックモデルを提案する。
本研究では,本モデルが人間の判断と強く相関していることを示し,一方,不定形アブレーションモデルと大規模マルチモーダルニューラルモデルベースラインは相関性に乏しいことを示した。
- 参考スコア(独自算出の注目度): 40.60416987522961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People regularly make inferences about objects in the world that they cannot see by flexibly integrating information from multiple sources: auditory and visual cues, language, and our prior beliefs and knowledge about the scene. How are we able to so flexibly integrate many sources of information to make sense of the world around us, even if we have no direct knowledge? In this work, we propose a neurosymbolic model that uses neural networks to parse open-ended multimodal inputs and then applies a Bayesian model to integrate different sources of information to evaluate different hypotheses. We evaluate our model with a novel object guessing game called ``What's in the Box?'' where humans and models watch a video clip of an experimenter shaking boxes and then try to guess the objects inside the boxes. Through a human experiment, we show that our model correlates strongly with human judgments, whereas unimodal ablated models and large multimodal neural model baselines show poor correlation.
- Abstract(参考訳): 人々は、複数の情報源から情報(聴覚と視覚の手がかり、言語、そしてシーンに関する私たちの以前の信念と知識)を柔軟に統合することで、見ることができない世界のオブジェクトに関する推論を定期的に行います。
たとえ直接的な知識がなくても、どのようにして多くの情報ソースを柔軟に統合して、周囲の世界を理解することができるのか?
本研究では,ニューラルネットワークを用いてオープンなマルチモーダル入力を解析し,ベイズモデルを用いて異なる情報ソースを統合し,異なる仮説を評価するニューロシンボリックモデルを提案する。
我々は,実験者が箱を揺らしている映像を人間やモデルが視聴し,箱の中の物体を推測する,'What's in the Box?'という,新しいオブジェクト推測ゲームを用いて,我々のモデルを評価した。
人間の実験を通して、我々のモデルは人間の判断と強く相関していることを示し、一方、不定形短縮モデルと大規模マルチモーダルニューラルモデルベースラインは相関性に乏しいことを示す。
関連論文リスト
- Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models? [5.412335160966597]
計算言語学における一般的な仮定は、マルチモーダルモデルによって学習されたテキスト表現が言語のみのモデルよりも豊かで人間的なものであるということである。
コントラッシブなマルチモーダルモデルからの単語表現と、それらが情報を取得する範囲における言語のみの表現を比較した。
その結果,言語のみのモデルは両面でマルチモーダルモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-01T16:28:38Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。