論文の概要: Theory of Hallucinations based on Equivariance
- arxiv url: http://arxiv.org/abs/2312.14504v2
- Date: Thu, 4 Jan 2024 02:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:41:40.979684
- Title: Theory of Hallucinations based on Equivariance
- Title(参考訳): 等分散に基づく幻覚の理論
- Authors: Hisaichi Shibata
- Abstract要約: 現代の大きな言語モデルにおける幻覚は、しばしば現実世界の社会関係の誤解に起因する。
ある種の同変言語モデルは、これらの関係を学習し理解するのに適していると提案する。
言語モデルのための幻覚尺度を作成するために,特殊なクロスエントロピー誤差関数を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to acquire knowledge for creating very large language models
that are immune to hallucinations. Hallucinations in contemporary large
language models are often attributed to a misunderstanding of real-world social
relationships. Therefore, I hypothesize that very large language models capable
of thoroughly grasping all these relationships will be free from
hallucinations. Additionally, I propose that certain types of equivariant
language models are adept at learning and understanding these relationships.
Building on this, I have developed a specialized cross-entropy error function
to create a hallucination scale for language models, which measures their
extent of equivariance acquisition. Utilizing this scale, I tested language
models for their ability to acquire character-level equivariance. In
particular, I introduce and employ a novel technique based on T5 (Text To Text
Transfer Transformer) that efficiently understands permuted input texts without
the need for explicit dictionaries to convert token IDs (integers) to texts
(strings). This T5 model demonstrated a moderate ability to acquire
character-level equivariance. Additionally, I discovered scale laws that can
aid in developing hallucination-free language models at the character level.
This methodology can be extended to assess equivariance acquisition at the word
level, paving the way for very large language models that can comprehensively
understand relationships and, consequently, avoid hallucinations.
- Abstract(参考訳): 本研究の目的は,幻覚に免疫を持つ非常に大きな言語モデルを作成するための知識を得ることである。
現代の大きな言語モデルにおける幻覚は、しばしば現実世界の社会関係の誤解に起因する。
したがって、これらすべての関係を徹底的に把握できる非常に大きな言語モデルは幻覚から解放されると仮定します。
さらに,これらの関係を学習し理解する上で,ある種の同変言語モデルを提案する。
これに基づいて,言語モデルに対する幻覚尺度を作成するための,特殊なクロスエントロピー誤差関数を開発した。
このスケールを利用して、キャラクタレベルの等価性を得るために言語モデルをテストしました。
特に,T5(Text To Text Transfer Transformer)に基づく新しい手法を導入して採用する。これは,トークンID(整数)をテキスト(文字列)に変換するための明示的な辞書を必要とせずに,置換された入力テキストを効率的に理解する手法である。
このT5モデルは、文字レベルの等式を取得する適度な能力を示した。
さらに、文字レベルで幻覚のない言語モデルを開発するのに役立つスケール法則も発見しました。
この手法は、単語レベルでの等価な獲得を評価するために拡張され、関係を包括的に理解し、幻覚を避けることができる非常に大きな言語モデルへの道を開くことができる。
関連論文リスト
- Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-29T10:50:03Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z) - Language Model Crossover: Variation through Few-Shot Prompting [12.163260331803786]
本稿では,言語モデルが進化的クロスオーバーに類似した知的変動演算子を自然に実現できるという知見を追求する。
本稿では、バイナリビット文字列、文、方程式、テキスト・ツー・イメージプロンプト、Pythonコードの進化を通じて、言語モデルのクロスオーバーの汎用性を明らかにする。
論文 参考訳(メタデータ) (2023-02-23T17:12:34Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。