論文の概要: CARMA: Enhanced Compositionality in LLMs via Advanced Regularisation and Mutual Information Alignment
- arxiv url: http://arxiv.org/abs/2502.11066v1
- Date: Sun, 16 Feb 2025 10:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:02.209899
- Title: CARMA: Enhanced Compositionality in LLMs via Advanced Regularisation and Mutual Information Alignment
- Title(参考訳): CARMA: 高度正規化と相互情報アライメントによるLCMの構成性の向上
- Authors: Nura Aljaafari, Danilo S. Carvalho, André Freitas,
- Abstract要約: 我々は,大規模言語モデルにおける構成的推論の安定性と堅牢性を高めるために,CARMAを提案する。
CARMAは、特徴の断片化を軽減するために、相互情報の規則化と階層的安定性の制約を用いる。
その結果, CARMAは微調整によって生じる変動を低減し, トークン表現を安定化し, 構成的推論を改善した。
- 参考スコア(独自算出の注目度): 10.777646083061395
- License:
- Abstract: Large language models (LLMs) struggle with compositional generalisation, limiting their ability to systematically combine learned components to interpret novel inputs. While architectural modifications, fine-tuning, and data augmentation improve compositionality, they often have limited adaptability, face scalability constraints, or yield diminishing returns on real data. To address this, we propose CARMA, an intervention that enhances the stability and robustness of compositional reasoning in LLMs while preserving fine-tuned performance. CARMA employs mutual information regularisation and layer-wise stability constraints to mitigate feature fragmentation, ensuring structured representations persist across and within layers. We evaluate CARMA on inverse dictionary modelling and sentiment classification, measuring its impact on semantic consistency, performance stability, and robustness to lexical perturbations. Results show that CARMA reduces the variability introduced by fine-tuning, stabilises token representations, and improves compositional reasoning. While its effectiveness varies across architectures, CARMA's key strength lies in reinforcing learned structures rather than introducing new capabilities, making it a scalable auxiliary method. These findings suggest that integrating CARMA with fine-tuning can improve compositional generalisation while maintaining task-specific performance in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は構成的一般化に苦慮し、学習されたコンポーネントを体系的に組み合わせて新しい入力を解釈する能力を制限する。
アーキテクチャの変更、微調整、データ拡張により構成性が向上する一方で、適応性やスケーラビリティの制約に直面することや、実際のデータに対するリターンの低下を生じることが少なくない。
そこで本研究では, 微調整性能を維持しつつ, LLMにおける構成的推論の安定性と堅牢性を高める介入であるCARMAを提案する。
CARMAは、相互情報の規則化と層単位での安定性の制約を利用して、特徴の断片化を緩和し、階層間および層内における構造的表現を保証する。
我々は、逆辞書モデリングと感情分類におけるCARMAの評価を行い、その意味的一貫性、性能安定性、語彙摂動に対する頑健性への影響を測定した。
その結果, CARMAは微調整によって生じる変動を低減し, トークン表現を安定化し, 構成的推論を改善した。
有効性はアーキテクチャによって異なるが、CARMAの重要な強みは、新しい機能を導入するのではなく、学習した構造を強化することである。
これらの結果から, CARMAと微調整を組み合わせることで, LLMにおけるタスク固有性能を維持しつつ, 構成の一般化が向上することが示唆された。
関連論文リスト
- Exploring Contextual Flux in Large Language Models: A Novel Approach to Self-Modulating Semantic Networks [0.0]
自己変調機構は言語モデル内で動的適応機能を導入する。
コンテキスト適応戦略は、拡張シーケンスにわたるトークン埋め込み軌跡に影響を与える。
自己規制は、生成の柔軟性を維持しながら、テキスト生成の一貫性を高める。
適応的な埋め込み更新はコヒーレンスの特定の側面を改善するが、その影響はモデルのキャパシティと入力の複雑さに及ばない。
論文 参考訳(メタデータ) (2025-02-16T01:08:19Z) - Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文 参考訳(メタデータ) (2025-02-13T04:01:54Z) - Hierarchical Contextual Manifold Alignment for Structuring Latent Representations in Large Language Models [7.798982346197703]
潜在トークン表現の組織化は、言語モデルの安定性、一般化、文脈整合性を決定する上で重要な役割を果たす。
コアモデル重みを変化させることなくトークン埋め込みに階層的アライメント手法を導入した。
実験により, 希少なトークン検索, 逆方向, 長距離依存性追跡の改善が示された。
論文 参考訳(メタデータ) (2025-02-06T04:01:27Z) - Context-Preserving Gradient Modulation for Large Language Models: A Novel Approach to Semantic Consistency in Long-Form Text Generation [0.19791587637442667]
文脈的関連性に応じてパラメータ更新を動的に調整する新しい変調勾配法が導入された。
提案手法は,計算オーバーヘッドを著しく抑えることなく,モデル生成物語の安定性を向上させる。
論文 参考訳(メタデータ) (2025-02-05T22:13:06Z) - InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。
我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。
InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文 参考訳(メタデータ) (2025-02-04T10:51:20Z) - Structural Embedding Projection for Contextual Large Language Model Inference [0.0]
構造化埋め込み変換は、言語モデル推論の効率性と一貫性を高めるための有望なアプローチを提供する。
構造埋め込み射影 (Structure Embedding Projection, SEP) の数学的定式化により、埋め込み空間は構造化された文脈関係を捉えることができる。
語彙の多様性に対するSEPの影響は、埋め込み修飾がモデルの語彙使用に影響を与えることを示唆している。
論文 参考訳(メタデータ) (2025-01-31T00:46:21Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs [101.51435599249234]
大規模言語モデル (LLM) が用いた, 正確な記憶と文脈内推論効果を定義し, 定量化するための公理系を提案する。
具体的には,公理系により,記憶効果を基礎記憶効果とカオス記憶効果に分類することができる。
実験により, 暗記効果と文脈内推論効果の明確な乱れが, LLMによって符号化された詳細な推論パターンの簡易な検証を可能にした。
論文 参考訳(メタデータ) (2024-05-20T08:51:03Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。