論文の概要: Gyan: An Explainable Neuro-Symbolic Language Model
- arxiv url: http://arxiv.org/abs/2605.04759v2
- Date: Wed, 13 May 2026 10:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.76386
- Title: Gyan: An Explainable Neuro-Symbolic Language Model
- Title(参考訳): Gyan: 説明可能なニューロシンボリック言語モデル
- Authors: Venkat Srinivasan, Vishaal Jatav, Anushka Chandrababu, Geetika Sharma,
- Abstract要約: 本稿では,新しい非トランスフォーマーアーキテクチャに基づく説明可能な言語モデルについて述べる。
Gyanは、広く引用されている3つのデータセットでのSOTAパフォーマンスと、2つのプロプライエタリなデータセットでの優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.5530256787204328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer based pre-trained large language models have become ubiquitous. There is increasing evidence to suggest that even with large scale pre-training, these models do not capture complete compositional context and certainly not, the full human analogous context. Besides, by the very nature of the architecture, these models hallucinate, are difficult to maintain, are not easily interpretable and require enormous compute resources for training and inference. Here, we describe Gyan, an explainable language model based on a novel non-transformer architecture, without any of these limitations. Gyan achieves SOTA performance on 3 widely cited data sets and superior performance on two proprietary data sets. The novel architecture decouples the language model from knowledge acquisition and representation. The model draws on rhetorical structure theory, semantic role theory and knowledge-based computational linguistics. Gyan's meaning representation structure captures the complete compositional context and attempts to mimic humans by expanding the context to a 'world model'. AI model adoption critically depends on trust and transparency especially in mission critical use cases. Collectively, our results demonstrate that it is possible to create models which are trustable and reliable for mission critical tasks. We believe our work has tremendous potential for guiding the development of transparent and trusted architectures for language models.
- Abstract(参考訳): トランスフォーマーベースの事前訓練された大きな言語モデルがユビキタスになった。
大規模な事前学習であっても、これらのモデルは完全な構成的文脈を捉えておらず、完全な人間の類似した文脈を捉えていないことを示す証拠が増えている。
さらに、アーキテクチャの本質的には、これらのモデルは幻覚的であり、メンテナンスが困難であり、容易に解釈できず、トレーニングや推論に膨大な計算資源を必要とする。
本稿では,新しい非トランスフォーマーアーキテクチャに基づく説明可能な言語モデルであるGyanについて述べる。
Gyanは、広く引用されている3つのデータセットでのSOTAパフォーマンスと、2つのプロプライエタリなデータセットでの優れたパフォーマンスを達成する。
新たなアーキテクチャは、言語モデルを知識獲得と表現から切り離す。
このモデルは、修辞構造理論、意味的役割理論、知識に基づく計算言語学に基づく。
ジャンの意味表現構造は完全な構成的文脈を捉え、文脈を「世界モデル」に拡張することで人間を模倣しようとする。
AIモデルの採用は、特にミッションクリティカルなユースケースにおいて、信頼と透明性に依存します。
総合的な結果から,ミッションクリティカルなタスクに対して信頼性と信頼性を持つモデルを作成することが可能であることが示唆された。
私たちの研究は、言語モデルのための透明で信頼性の高いアーキテクチャの開発を導く大きな可能性を秘めています。
関連論文リスト
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Contextualized word senses: from attention to compositionality [0.10878040851637999]
本稿では,文脈感覚を符号化する透過的,解釈可能,言語的に動機づけられた戦略を提案する。
特に依存関係や選択選好やパラダイムクラスといった意味概念に注意が向けられる。
論文 参考訳(メタデータ) (2023-12-01T16:04:00Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Multi-Sense Language Modelling [19.396806939258806]
我々は,次の単語を予測できるだけでなく,文脈における意味を予測できる言語モデルを提案する。
この高い予測粒度は、補助的な記述のようなエンドタスクに有用である。
感覚予測には,定義や単語感覚の例を符号化したグラフ注意ネットワークを利用する。
論文 参考訳(メタデータ) (2020-12-10T16:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。