論文の概要: CALM: Contextual Analog Logic with Multimodality
- arxiv url: http://arxiv.org/abs/2506.14936v1
- Date: Tue, 17 Jun 2025 19:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.466453
- Title: CALM: Contextual Analog Logic with Multimodality
- Title(参考訳): CALM:マルチモーダリティを備えたコンテキストアナログ論理
- Authors: Maxwell J. Jacobson, Corey J. Maley, Yexiang Xue,
- Abstract要約: マルチモーダル付き文脈アナログ論理(CALM)を導入する。
CALMは、シンボリック推論とニューラルジェネレーションを結合する。
これにより、システムは実世界のマルチモーダルデータに基づいてコンテキストに敏感な決定を下すことができる。
- 参考スコア(独自算出の注目度): 9.763339269757227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Contextual Analog Logic with Multimodality (CALM). CALM unites symbolic reasoning with neural generation, enabling systems to make context-sensitive decisions grounded in real-world multi-modal data. Background: Classic bivalent logic systems cannot capture the nuance of human decision-making. They also require human grounding in multi-modal environments, which can be ad-hoc, rigid, and brittle. Neural networks are good at extracting rich contextual information from multi-modal data, but lack interpretable structures for reasoning. Objectives: CALM aims to bridge the gap between logic and neural perception, creating an analog logic that can reason over multi-modal inputs. Without this integration, AI systems remain either brittle or unstructured, unable to generalize robustly to real-world tasks. In CALM, symbolic predicates evaluate to analog truth values computed by neural networks and constrained search. Methods: CALM represents each predicate using a domain tree, which iteratively refines its analog truth value when the contextual groundings of its entities are determined. The iterative refinement is predicted by neural networks capable of capturing multi-modal information and is filtered through a symbolic reasoning module to ensure constraint satisfaction. Results: In fill-in-the-blank object placement tasks, CALM achieved 92.2% accuracy, outperforming classical logic (86.3%) and LLM (59.4%) baselines. It also demonstrated spatial heatmap generation aligned with logical constraints and delicate human preferences, as shown by a human study. Conclusions: CALM demonstrates the potential to reason with logic structure while aligning with preferences in multi-modal environments. It lays the foundation for next-gen AI systems that require the precision and interpretation of logic and the multimodal information processing of neural networks.
- Abstract(参考訳): 本稿では,マルチモーダリティを伴うコンテキストアナログ論理(CALM)を紹介する。
CALMはシンボリック推論とニューラルジェネレーションを結合し、システムは実世界のマルチモーダルデータに基づいてコンテキストに敏感な決定を下すことができる。
背景:古典的な二価論理系は人間の意思決定のニュアンスを捉えることができない。
また、マルチモーダル環境での人間の接地も必要で、これはアドホックで硬く、脆くすることができる。
ニューラルネットワークは、マルチモーダルデータからリッチなコンテキスト情報を抽出するのに長けているが、推論のための解釈可能な構造は欠如している。
目的: CALMは、論理と神経知覚のギャップを埋めることを目的としており、マルチモーダル入力を推論できるアナログロジックを作成する。
この統合がなければ、AIシステムは不安定または非構造化のままであり、現実世界のタスクに堅牢に一般化することができない。
CALMでは、シンボリック述語はニューラルネットワークと制約付き探索によって計算されたアナログ真理値を評価する。
方法: CALMは、各述語をドメインツリーを用いて表現し、その実体の文脈的根拠が決定されると、そのアナログ真理値を反復的に洗練する。
反復改善は、マルチモーダル情報をキャプチャ可能なニューラルネットワークによって予測され、シンボリック推論モジュールを介してフィルタリングされ、制約満足度が保証される。
結果: ブランクのオブジェクト配置タスクにおいて、CALMは92.2%の精度を達成し、古典論理 (86.3%) と LLM (59.4%) のベースラインを上回りました。
また、人間の研究で示されているように、論理的制約と繊細な人間の嗜好に整合した空間熱マップの生成を実証した。
結論: CALMはマルチモーダル環境での嗜好と整合しながら論理構造を推論する可能性を実証する。
それは、論理の精度と解釈とニューラルネットワークのマルチモーダル情報処理を必要とする次世代AIシステムの基盤を築いている。
関連論文リスト
- LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Learning Interpretable Differentiable Logic Networks [3.8064485653035987]
解釈可能な微分可能論理ネットワーク(DLN)を学習するための新しい手法を提案する。
我々はこれらのネットワークを、入力の双対化、二項論理演算、ニューロン間の接続を通じて、個々の成分の軟化と差別化によって訓練する。
20の分類タスクの実験結果は、従来のNNと同等かそれ以上の精度で、微分可能な論理ネットワークが達成可能であることを示している。
論文 参考訳(メタデータ) (2024-07-04T21:58:26Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Interpretable Multimodal Misinformation Detection with Logic Reasoning [40.851213962307206]
本稿では,多モーダル誤情報検出のための論理モデルを提案する。
本稿では,意味のある論理節の自動生成と評価を容易にするニューラル表現を用いた記号論理要素のパラメータ化を行う。
3つの公開データセットの結果は、我々のモデルの有効性と汎用性を示している。
論文 参考訳(メタデータ) (2023-05-10T08:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。