Fugu-MT 論文翻訳(概要): Premise-based Multimodal Reasoning: A Human-like Cognitive Process

論文の概要: Premise-based Multimodal Reasoning: A Human-like Cognitive Process

arxiv url: http://arxiv.org/abs/2105.07122v1
Date: Sat, 15 May 2021 03:25:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-18 14:53:08.002639
Title: Premise-based Multimodal Reasoning: A Human-like Cognitive Process
Title（参考訳）: 前提に基づくマルチモーダル推論:人間のような認知過程
Authors: Qingxiu Dong, Ziwei Qin, Heming Xia, Tian Feng, Shoujie Tong, Haoran Meng, Lin Xu, Tianyu Liu, Zuifang Sui, Weidong Zhan, Sujian Li and Zhongyu Wei
Abstract要約: 前提に基づくマルチモーダル推論(PMR)は、背景情報の深い理解を確立した後、参加モデルに推論を要求します。提案されたPMRは、人間のような深い推論に光を当てるのに役立つと信じています。
参考スコア（独自算出の注目度）: 28.38581274528838
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning is one of the major challenges of Human-like AI and has recently attracted intensive attention from natural language processing (NLP) researchers. However, cross-modal reasoning needs further research. For cross-modal reasoning, we observe that most methods fall into shallow feature matching without in-depth human-like reasoning.The reason lies in that existing cross-modal tasks directly ask questions for a image. However, human reasoning in real scenes is often made under specific background information, a process that is studied by the ABC theory in social psychology. We propose a shared task named "Premise-based Multimodal Reasoning" (PMR), which requires participating models to reason after establishing a profound understanding of background information. We believe that the proposed PMR would contribute to and help shed a light on human-like in-depth reasoning.
Abstract（参考訳）: 推論はヒューマンライクなAIの主要な課題の1つであり、最近自然言語処理(NLP)研究者から注目を集めている。しかし、クロスモーダル推論はさらなる研究が必要である。クロスモーダル推論では、ほとんどの手法が、人間のような深い推論をすることなく、浅い特徴マッチングに陥ることを観察し、その理由は、既存のクロスモーダルタスクが画像に対して直接質問することにある。しかし、実際の場面における人間の推論はしばしば特定の背景情報に基づいて行われ、社会心理学におけるabc理論によって研究されている。我々は,背景情報の深い理解を確立した後,参加モデルに推論を要求できる「前提ベースマルチモーダル推論(pmr)」という共有タスクを提案する。提案されたPMRは、人間のような深い推論に光を当てるのに役立つと信じています。

関連論文リスト

A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文参考訳（メタデータ） (2025-07-08T17:29:07Z)
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文参考訳（メタデータ） (2025-05-16T11:41:19Z)
DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs [54.4857963044859]
本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
論文参考訳（メタデータ） (2025-05-11T16:39:58Z)
The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文参考訳（メタデータ） (2025-01-03T09:04:45Z)
COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。提案手法は,膨大な因果クエリ作成を容易にする。
論文参考訳（メタデータ） (2024-11-29T06:37:13Z)
Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文参考訳（メタデータ） (2024-06-19T18:24:31Z)
Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries [91.70689724416698]
本稿では,3つの情報源から自然発生の13.5Kの質問を集めたQuriosityを紹介する。分析の結果,データセットに因果的疑問(最大42%)が存在することが明らかとなった。
論文参考訳（メタデータ） (2024-05-30T17:55:28Z)
PHAnToM: Persona-based Prompting Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
我々は,ロールプレイングの促進が理論・オブ・ミンド(ToM)推論能力にどのように影響するかを実証的に評価した。本稿では、推論タスクの複雑さの固有のばらつきを超えて、社会的に動機づけられた相違が原因で、パフォーマンスの違いが発生するメカニズムを提案する。
論文参考訳（メタデータ） (2024-03-04T17:34:34Z)
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [60.244412212130264]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文参考訳（メタデータ） (2023-08-23T04:59:21Z)
Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文参考訳（メタデータ） (2023-08-21T22:40:36Z)
In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。 PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文参考訳（メタデータ） (2023-05-28T04:22:26Z)
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文参考訳（メタデータ） (2022-10-07T23:48:50Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)
Humans are not Boltzmann Distributions: Challenges and Opportunities for Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文参考訳（メタデータ） (2022-06-27T13:58:51Z)
Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文参考訳（メタデータ） (2021-06-12T17:06:13Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。