Fugu-MT 論文翻訳(概要): Theory of Hallucinations based on Equivariance

論文の概要: Theory of Hallucinations based on Equivariance

arxiv url: http://arxiv.org/abs/2312.14504v1
Date: Fri, 22 Dec 2023 08:08:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 15:55:48.710763
Title: Theory of Hallucinations based on Equivariance
Title（参考訳）: 等分散に基づく幻覚の理論
Authors: Hisaichi Shibata
Abstract要約: 言語モデルにおける不等式が幻覚に繋がる可能性を示唆する新しい理論を提案する。私は、キャラクターレベルの置換暗号である「ダンスマン」と呼ばれるおもちゃモデルを開発した。本稿では,T5(Text To Text Transfer Transformer)モデルに基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Equivariance is an important feature in machine learning, including language models. It ensures that any sequences of phrases with the same meanings are interpreted consistently. For example, the sentence 'There is a cat on the table' should be interpreted by language models as it is, regardless of variations in its token-level expression. Building on this insight, I propose a new theory suggesting that insufficient equivariance in language models can lead to hallucinations. According to this theory, which is both intuitive and novel, language models trained on relatively small datasets tend to misinterpret input texts and/or generate incorrect texts (i.e., hallucinations). To test this theory, I developed a toy model known as 'dancing men', which is a character-level substitution cipher. Additionally, I propose a novel technique based on the T5 (Text To Text Transfer Transformer) model to efficiently decipher these codes without relying on frequency analysis. I have found that this T5 model can almost completely solve the cipher, demonstrating its ability to acquire equivariance in this frame. This method could be scaled up to word-level and sentence-level substitution ciphers, analogous to large language models without tokenizers or dictionaries. This scalability makes it suitable for investigating the proposed link between inadequate equivariance acquisition and the emergence of hallucinations.
Abstract（参考訳）: 等分散は、言語モデルを含む機械学習において重要な特徴である。同じ意味の句列が一貫して解釈されることを保証する。例えば、"There is a cat on the table"という文は、トークンレベルの表現のバリエーションに関係なく、言語モデルによって解釈されるべきである。この知見に基づいて,言語モデルの等分散性の不足が幻覚に繋がる可能性を示唆する新しい理論を提案する。この理論によれば、比較的小さなデータセットで訓練された言語モデルは、入力テキストを誤解釈したり、誤ったテキスト(すなわち幻覚)を生成する傾向がある。この理論をテストするために、私はキャラクターレベルの置換暗号である「dancing men」として知られる玩具モデルを開発した。さらに,T5(Text To Text Transfer Transformer)モデルに基づく新しい手法を提案する。私は、このT5モデルは暗号をほぼ完全に解き、このフレームで同値を得る能力を示した。この方法は、トークンや辞書を使わずに、大きな言語モデルに類似した、単語レベルおよび文レベルの置換暗号にスケールできる。このスケーラビリティは、不適切な同値獲得と幻覚の出現の間の関係を調査するのに適している。

関連論文リスト

Fast and Accurate Contextual Knowledge Extraction Using Cascading Language Model Chains and Candidate Answers [0.0]
本稿では,Language Model Chain (LMC)アルゴリズムを提案し,実装し,適用する。この場合、与えられたプロンプトに対する言語モデルの応答は、それが可能な答えの集合に存在する場合にのみ正しい。われわれは, LMC アルゴリズムを用いて, 生年月日を医療資料から抽出した。
論文参考訳（メタデータ） (2025-07-21T14:31:16Z)
Ask a Local: Detecting Hallucinations With Specialized Model Divergence [0.16874375111244325]
本研究では,大規模言語モデルに対する新しい幻覚検出手法であるAsk a Localを紹介する。提案手法は,言語特化モデルのパープレキシティ分布のばらつきを計算し,ハロゲン化の可能性のあるスパンを同定する。そこで本研究では,14言語にまたがる人間による質問応答データセットについて,一貫した性能を示す。
論文参考訳（メタデータ） (2025-06-03T20:00:49Z)
Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文参考訳（メタデータ） (2024-10-29T10:50:03Z)
A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文参考訳（メタデータ） (2023-07-26T18:58:53Z)
Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文参考訳（メタデータ） (2023-03-28T16:17:59Z)
Language Model Crossover: Variation through Few-Shot Prompting [12.163260331803786]
本稿では,言語モデルが進化的クロスオーバーに類似した知的変動演算子を自然に実現できるという知見を追求する。本稿では、バイナリビット文字列、文、方程式、テキスト・ツー・イメージプロンプト、Pythonコードの進化を通じて、言語モデルのクロスオーバーの汎用性を明らかにする。
論文参考訳（メタデータ） (2023-02-23T17:12:34Z)
Reducing Hallucinations in Neural Machine Translation with Feature Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文参考訳（メタデータ） (2022-11-17T20:33:56Z)
Learning an Artificial Language for Knowledge-Sharing in Multilingual Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文参考訳（メタデータ） (2022-11-02T17:14:42Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文参考訳（メタデータ） (2022-04-26T23:42:22Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。