論文の概要: No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models
- arxiv url: http://arxiv.org/abs/2410.19217v1
- Date: Thu, 24 Oct 2024 23:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:17.547168
- Title: No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models
- Title(参考訳): No Free Lunch:非幻覚的生成モデル学習の基礎的限界
- Authors: Changlong Wu, Ananth Grama, Wojciech Szpankowski,
- Abstract要約: 我々は,非ハロゲン化生成モデルの学習可能性を分析する理論的枠組みを開発する。
学習プロセスに実際の事実と整合した帰納的バイアスを組み込むことが重要であることを示す。
- 参考スコア(独自算出の注目度): 14.535583931446807
- License:
- Abstract: Generative models have shown impressive capabilities in synthesizing high-quality outputs across various domains. However, a persistent challenge is the occurrence of "hallucinations", where the model produces outputs that are plausible but invalid. While empirical strategies have been explored to mitigate this issue, a rigorous theoretical understanding remains elusive. In this paper, we develop a theoretical framework to analyze the learnability of non-hallucinating generative models from a learning-theoretic perspective. Our results reveal that non-hallucinating learning is statistically impossible when relying solely on the training dataset, even for a hypothesis class of size two and when the entire training set is truthful. To overcome these limitations, we show that incorporating inductive biases aligned with the actual facts into the learning process is essential. We provide a systematic approach to achieve this by restricting the facts set to a concept class of finite VC-dimension and demonstrate its effectiveness under various learning paradigms. Although our findings are primarily conceptual, they represent a first step towards a principled approach to addressing hallucinations in learning generative models.
- Abstract(参考訳): 生成モデルは、様々な領域にわたる高品質な出力を合成する素晴らしい能力を示している。
しかし、永続的な課題は「ハロシン化」の発生であり、モデルが妥当だが無効な出力を生成する。
この問題を軽減するための実証的な戦略が検討されているが、厳密な理論的理解はいまだ解明されていない。
本稿では,非ハロゲン化生成モデルの学習可能性に関する理論的枠組みを学習理論の観点から分析する。
この結果から,学習データセットのみに依存する場合,サイズ2の仮説クラスやトレーニングセット全体が真である場合においても,非幻覚学習は統計的に不可能であることが判明した。
これらの制約を克服するためには、学習プロセスに実際の事実に沿った帰納的バイアスを組み込むことが不可欠であることを示す。
我々は,有限VC次元の概念クラスに設定された事実を制限し,その効果を様々な学習パラダイムの下で示すことによって,これを実現するための体系的なアプローチを提案する。
本研究は, 主に概念的だが, 生成モデル学習における幻覚に対処する原理的アプローチへの第一歩である。
関連論文リスト
- LLMs Will Always Hallucinate, and We Need to Live With This [1.3810901729134184]
この研究は、言語モデルにおける幻覚は時折エラーであるだけでなく、これらのシステムの必然的な特徴であると主張している。
したがって、アーキテクチャの改善、データセットの強化、ファクトチェックメカニズムを通じてそれらを取り除くことは不可能である。
論文 参考訳(メタデータ) (2024-09-09T16:01:58Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Learn to Accumulate Evidence from All Training Samples: Theory and
Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。
既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。
我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文 参考訳(メタデータ) (2023-06-19T18:27:12Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。
モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文 参考訳(メタデータ) (2022-11-27T01:53:29Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Contrastive Learning Inverts the Data Generating Process [36.30995987986073]
一般に使用されるインフォアンスファミリーに属する目標で訓練されたフィードフォワードモデルは、観測データの基底となる生成モデルを暗黙的に反転させることを学習する。
本理論は, コントラスト学習, 生成モデル, 非線形独立成分分析の基本的な関係を明らかにする。
論文 参考訳(メタデータ) (2021-02-17T16:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。