論文の概要: Controlled Hallucinations: Learning to Generate Faithfully from Noisy
Data
- arxiv url: http://arxiv.org/abs/2010.05873v1
- Date: Mon, 12 Oct 2020 17:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:59:07.603476
- Title: Controlled Hallucinations: Learning to Generate Faithfully from Noisy
Data
- Title(参考訳): 制御幻覚:ノイズデータから忠実に生成する学習
- Authors: Katja Filippova
- Abstract要約: 本稿では,このような幻覚を生成テキストの制御可能な側面として扱う手法を提案する。
特にノイズの多いデータセットであるWikiBio corpusでは,自動評価と人的評価の両方において,この手法の有効性を実証している。
- 参考スコア(独自算出の注目度): 1.0914300987810126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural text generation (data- or text-to-text) demonstrates remarkable
performance when training data is abundant which for many applications is not
the case. To collect a large corpus of parallel data, heuristic rules are often
used but they inevitably let noise into the data, such as phrases in the output
which cannot be explained by the input. Consequently, models pick up on the
noise and may hallucinate--generate fluent but unsupported text. Our
contribution is a simple but powerful technique to treat such hallucinations as
a controllable aspect of the generated text, without dismissing any input and
without modifying the model architecture. On the WikiBio corpus (Lebret et al.,
2016), a particularly noisy dataset, we demonstrate the efficacy of the
technique both in an automatic and in a human evaluation.
- Abstract(参考訳): ニューラルテキスト生成(データまたはテキスト・トゥ・テキスト)は、トレーニングデータが豊富である場合に顕著なパフォーマンスを示し、多くのアプリケーションではそうではない。
並列データの大規模なコーパス収集には、しばしばヒューリスティックなルールが使用されるが、入力によって説明できない出力のフレーズなど、必然的にデータにノイズを与える。
その結果、モデルがノイズを拾い上げ、生成するがサポートされないテキストを幻覚させる可能性がある。
我々の貢献は、そのような幻覚を、入力を排除せず、モデルアーキテクチャを変更することなく、生成したテキストの制御可能な側面として扱う、単純だが強力な技術である。
特にノイズの多いデータセットであるWikiBio corpus(Lebret et al., 2016)では,自動評価と人的評価の両方において,この手法の有効性を実証している。
関連論文リスト
- Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data [4.636499986218049]
マルチモーダル言語モデルは、その出力に幻覚を示し、信頼性を制限できる。
本稿では, 崩壊した地盤データを作成することにより, これらのモデルのサンプル効率を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T20:11:00Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。