Fugu-MT 論文翻訳(概要): CARMA: Enhanced Compositionality in LLMs via Advanced Regularisation and Mutual Information Alignment

論文の概要: CARMA: Enhanced Compositionality in LLMs via Advanced Regularisation and Mutual Information Alignment

arxiv url: http://arxiv.org/abs/2502.11066v1
Date: Sun, 16 Feb 2025 10:18:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.820779
Title: CARMA: Enhanced Compositionality in LLMs via Advanced Regularisation and Mutual Information Alignment
Title（参考訳）: CARMA: 高度正規化と相互情報アライメントによるLCMの構成性の向上
Authors: Nura Aljaafari, Danilo S. Carvalho, André Freitas,
Abstract要約: 我々は,大規模言語モデルにおける構成的推論の安定性と堅牢性を高めるために,CARMAを提案する。 CARMAは、特徴の断片化を軽減するために、相互情報の規則化と階層的安定性の制約を用いる。その結果, CARMAは微調整によって生じる変動を低減し, トークン表現を安定化し, 構成的推論を改善した。
参考スコア（独自算出の注目度）: 10.777646083061395
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) struggle with compositional generalisation, limiting their ability to systematically combine learned components to interpret novel inputs. While architectural modifications, fine-tuning, and data augmentation improve compositionality, they often have limited adaptability, face scalability constraints, or yield diminishing returns on real data. To address this, we propose CARMA, an intervention that enhances the stability and robustness of compositional reasoning in LLMs while preserving fine-tuned performance. CARMA employs mutual information regularisation and layer-wise stability constraints to mitigate feature fragmentation, ensuring structured representations persist across and within layers. We evaluate CARMA on inverse dictionary modelling and sentiment classification, measuring its impact on semantic consistency, performance stability, and robustness to lexical perturbations. Results show that CARMA reduces the variability introduced by fine-tuning, stabilises token representations, and improves compositional reasoning. While its effectiveness varies across architectures, CARMA's key strength lies in reinforcing learned structures rather than introducing new capabilities, making it a scalable auxiliary method. These findings suggest that integrating CARMA with fine-tuning can improve compositional generalisation while maintaining task-specific performance in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は構成的一般化に苦慮し、学習されたコンポーネントを体系的に組み合わせて新しい入力を解釈する能力を制限する。アーキテクチャの変更、微調整、データ拡張により構成性が向上する一方で、適応性やスケーラビリティの制約に直面することや、実際のデータに対するリターンの低下を生じることが少なくない。そこで本研究では, 微調整性能を維持しつつ, LLMにおける構成的推論の安定性と堅牢性を高める介入であるCARMAを提案する。 CARMAは、相互情報の規則化と層単位での安定性の制約を利用して、特徴の断片化を緩和し、階層間および層内における構造的表現を保証する。我々は、逆辞書モデリングと感情分類におけるCARMAの評価を行い、その意味的一貫性、性能安定性、語彙摂動に対する頑健性への影響を測定した。その結果, CARMAは微調整によって生じる変動を低減し, トークン表現を安定化し, 構成的推論を改善した。有効性はアーキテクチャによって異なるが、CARMAの重要な強みは、新しい機能を導入するのではなく、学習した構造を強化することである。これらの結果から, CARMAと微調整を組み合わせることで, LLMにおけるタスク固有性能を維持しつつ, 構成の一般化が向上することが示唆された。

関連論文リスト

Learning-to-Context Slope: Evaluating In-Context Learning Effectiveness Beyond Performance Illusions [42.80928434779115]
In-context Learning (ICL) は,大規模言語モデルの性能向上に有効な手法として登場した。現在の評価手法は、信頼性の低下、属性の低下、データ不足のシナリオにおける非現実性に悩まされている。学習ゲインと文脈関連性の間の傾きをモデル化し,ICLの有効性を定量化する新しい指標であるLCSを提案する。
論文参考訳（メタデータ） (2025-06-29T08:55:37Z)
Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文参考訳（メタデータ） (2025-05-29T13:35:48Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文参考訳（メタデータ） (2025-02-25T03:03:35Z)
Exploring Contextual Flux in Large Language Models: A Novel Approach to Self-Modulating Semantic Networks [0.0]
自己変調機構は言語モデル内で動的適応機能を導入する。コンテキスト適応戦略は、拡張シーケンスにわたるトークン埋め込み軌跡に影響を与える。自己規制は、生成の柔軟性を維持しながら、テキスト生成の一貫性を高める。適応的な埋め込み更新はコヒーレンスの特定の側面を改善するが、その影響はモデルのキャパシティと入力の複雑さに及ばない。
論文参考訳（メタデータ） (2025-02-16T01:08:19Z)
Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文参考訳（メタデータ） (2025-02-13T04:01:54Z)
Hierarchical Contextual Manifold Alignment for Structuring Latent Representations in Large Language Models [7.798982346197703]
潜在トークン表現の組織化は、言語モデルの安定性、一般化、文脈整合性を決定する上で重要な役割を果たす。コアモデル重みを変化させることなくトークン埋め込みに階層的アライメント手法を導入した。実験により, 希少なトークン検索, 逆方向, 長距離依存性追跡の改善が示された。
論文参考訳（メタデータ） (2025-02-06T04:01:27Z)
Context-Preserving Gradient Modulation for Large Language Models: A Novel Approach to Semantic Consistency in Long-Form Text Generation [0.19791587637442667]
文脈的関連性に応じてパラメータ更新を動的に調整する新しい変調勾配法が導入された。提案手法は,計算オーバーヘッドを著しく抑えることなく,モデル生成物語の安定性を向上させる。
論文参考訳（メタデータ） (2025-02-05T22:13:06Z)
InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。 InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文参考訳（メタデータ） (2025-02-04T10:51:20Z)
Structural Embedding Projection for Contextual Large Language Model Inference [0.0]
構造化埋め込み変換は、言語モデル推論の効率性と一貫性を高めるための有望なアプローチを提供する。構造埋め込み射影 (Structure Embedding Projection, SEP) の数学的定式化により、埋め込み空間は構造化された文脈関係を捉えることができる。語彙の多様性に対するSEPの影響は、埋め込み修飾がモデルの語彙使用に影響を与えることを示唆している。
論文参考訳（メタデータ） (2025-01-31T00:46:21Z)
Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。 LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs [101.51435599249234]
大規模言語モデル (LLM) が用いた, 正確な記憶と文脈内推論効果を定義し, 定量化するための公理系を提案する。具体的には,公理系により,記憶効果を基礎記憶効果とカオス記憶効果に分類することができる。実験により, 暗記効果と文脈内推論効果の明確な乱れが, LLMによって符号化された詳細な推論パターンの簡易な検証を可能にした。
論文参考訳（メタデータ） (2024-05-20T08:51:03Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。