論文の概要: Augmented Vision-Language Models: A Systematic Review
- arxiv url: http://arxiv.org/abs/2507.22933v1
- Date: Thu, 24 Jul 2025 16:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.307905
- Title: Augmented Vision-Language Models: A Systematic Review
- Title(参考訳): Augmented Vision-Language Models: システムレビュー
- Authors: Anthony C Davis, Burhan Sadiq, Tianmin Shu, Chien-Ming Huang,
- Abstract要約: 視覚言語機械学習モデルの最近の進歩は、自然言語の使用と視覚シーンの理解に異常な能力を示している。
1つの有望な解決策は、ニューラルネットワークと外部のシンボル情報システムを統合することである。
この体系的な文献レビューは、外部の記号情報システムと対話することで視覚的言語理解を改善する手法を分類することを目的としている。
- 参考スコア(独自算出の注目度): 10.23232941159244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual-language machine learning models have demonstrated exceptional ability to use natural language and understand visual scenes by training on large, unstructured datasets. However, this training paradigm cannot produce interpretable explanations for its outputs, requires retraining to integrate new information, is highly resource-intensive, and struggles with certain forms of logical reasoning. One promising solution involves integrating neural networks with external symbolic information systems, forming neural symbolic systems that can enhance reasoning and memory abilities. These neural symbolic systems provide more interpretable explanations to their outputs and the capacity to assimilate new information without extensive retraining. Utilizing powerful pre-trained Vision-Language Models (VLMs) as the core neural component, augmented by external systems, offers a pragmatic approach to realizing the benefits of neural-symbolic integration. This systematic literature review aims to categorize techniques through which visual-language understanding can be improved by interacting with external symbolic information systems.
- Abstract(参考訳): 視覚言語機械学習モデルの最近の進歩は、大規模で構造化されていないデータセットをトレーニングすることによって、自然言語を使用し、視覚的なシーンを理解するという、例外的な能力を示している。
しかし、この訓練パラダイムは、その出力に対する解釈可能な説明を生成することができず、新しい情報を統合するために再訓練を必要とし、非常に資源集約的で、ある種の論理的推論に苦しむ。
1つの有望な解決策は、ニューラルネットワークを外部のシンボル情報システムに統合することであり、推論とメモリ能力を高めるニューラルネットワークのシンボルシステムを形成することである。
これらのニューラルシンボリックシステムは、その出力についてより解釈可能な説明を提供し、広範囲なリトレーニングなしに新しい情報を同化する能力を提供する。
強力なトレーニング済みのビジョンランゲージモデル(VLM)を、外部システムによって強化されたコアニューラルコンポーネントとして活用することで、ニューラルシンボリック統合のメリットを実現するための実践的なアプローチを提供する。
この体系的な文献レビューは、外部の記号情報システムと対話することで視覚的言語理解を改善する手法を分類することを目的としている。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Neural-Symbolic Reasoning over Knowledge Graphs: A Survey from a Query Perspective [55.79507207292647]
知識グラフ推論は、データマイニング、人工知能、Web、社会科学など、さまざまな分野において重要である。
ニューラルAIの台頭は、深層学習の頑健さと象徴的推論の精度を融合させることで、大きな進歩を見せている。
大規模言語モデル(LLM)の出現により、知識グラフ推論の新しいフロンティアが開かれた。
論文 参考訳(メタデータ) (2024-11-30T18:54:08Z) - A short Survey: Exploring knowledge graph-based neural-symbolic system from application perspective [0.0]
AIシステムにおけるヒューマンライクな推論と解釈可能性の実現は、依然として大きな課題である。
ニューラルネットワークをシンボリックシステムと統合するNeural-Symbolicパラダイムは、より解釈可能なAIへの有望な経路を提供する。
本稿では,知識グラフに基づくニューラルシンボリック統合の最近の進歩について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:40:50Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - Neuro-Symbolic Learning of Answer Set Programs from Raw Data [54.56905063752427]
Neuro-Symbolic AIは、シンボリックテクニックの解釈可能性と、生データから学ぶ深層学習の能力を組み合わせることを目的としている。
本稿では,ニューラルネットワークを用いて生データから潜在概念を抽出するNSIL(Neuro-Symbolic Inductive Learner)を提案する。
NSILは表現力のある知識を学習し、計算的に複雑な問題を解き、精度とデータ効率の観点から最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-25T12:41:59Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Neural-Symbolic Integration for Interactive Learning and Conceptual
Grounding [1.14219428942199]
本稿では,抽象概念の説明と対話型学習のためのニューラルシンボリック統合を提案する。
ユーザとのインタラクションは、ニューラルモデルのリビジョンを確認または拒否する。
このアプローチはLogic NetworkフレームワークとConcept Activation Vectorsを使って説明され、Conal Neural Networkに適用される。
論文 参考訳(メタデータ) (2021-12-22T11:24:48Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Neurosymbolic AI for Situated Language Understanding [13.249453757295083]
我々は,これらの学習課題に対する解法として,計算位置定位法が有効であると主張している。
我々のモデルは、古典的なAIの考えをニューロシンボリックインテリジェンス(英語版)の枠組みに再組み入れている。
我々は、さまざまなAI学習課題に対して、位置情報が多様なデータと複数のレベルのモデリングを提供する方法について論じる。
論文 参考訳(メタデータ) (2020-12-05T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。