論文の概要: A Continuum of Generation Tasks for Investigating Length Bias and
Degenerate Repetition
- arxiv url: http://arxiv.org/abs/2210.10817v1
- Date: Wed, 19 Oct 2022 18:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:30:53.814174
- Title: A Continuum of Generation Tasks for Investigating Length Bias and
Degenerate Repetition
- Title(参考訳): 長さバイアスと縮退繰り返しを調べるための生成課題の連続
- Authors: Darcey Riley, David Chiang
- Abstract要約: 言語モデルは様々な退化した振る舞いに悩まされる。
機械翻訳(MT)は長さバイアスを示し、ストーリー生成のようなタスクは過剰な繰り返しを示す。
最近の研究は、タスク制約性の違いを理由としているが、この主張の証拠は、常に多くの相反する変数を巻き込んできた。
- 参考スコア(独自算出の注目度): 23.585042971798067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models suffer from various degenerate behaviors. These differ
between tasks: machine translation (MT) exhibits length bias, while tasks like
story generation exhibit excessive repetition. Recent work has attributed the
difference to task constrainedness, but evidence for this claim has always
involved many confounding variables. To study this question directly, we
introduce a new experimental framework that allows us to smoothly vary task
constrainedness, from MT at one end to fully open-ended generation at the
other, while keeping all other aspects fixed. We find that: (1) repetition
decreases smoothly with constrainedness, explaining the difference in
repetition across tasks; (2) length bias surprisingly also decreases with
constrainedness, suggesting some other cause for the difference in length bias;
(3) across the board, these problems affect the mode, not the whole
distribution; (4) the differences cannot be attributed to a change in the
entropy of the distribution, since another method of changing the entropy,
label smoothing, does not produce the same effect.
- Abstract(参考訳): 言語モデルは様々な退化行動に苦しむ。
機械翻訳(MT)は長さバイアスを示し、ストーリー生成のようなタスクは過剰な繰り返しを示す。
最近の研究では、この違いはタスク制約性に起因しているが、この主張の証拠は常に多くの共起変数に関係している。
この問題を直接研究するため,我々は,mtから完全開放型世代まで,他のすべての側面を固定しながら,タスクの制約性を円滑に変化させることができる新しい実験フレームワークを導入する。
We find that: (1) repetition decreases smoothly with constrainedness, explaining the difference in repetition across tasks; (2) length bias surprisingly also decreases with constrainedness, suggesting some other cause for the difference in length bias; (3) across the board, these problems affect the mode, not the whole distribution; (4) the differences cannot be attributed to a change in the entropy of the distribution, since another method of changing the entropy, label smoothing, does not produce the same effect.
関連論文リスト
- Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - How catastrophic can catastrophic forgetting be in linear regression? [30.702863017223457]
モデルがその後のタスクのトレーニング後に、以前のタスクの本当のラベルをどれだけ忘れているかを分析する。
線形設定における連続学習と他の2つの研究領域の関連性を確立する。
論文 参考訳(メタデータ) (2022-05-19T14:28:40Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - PROMPT WAYWARDNESS: The Curious Case of Discretized Interpretation of
Continuous Prompts [99.03864962014431]
目標タスクの微調整連続プロンプトは、フルモデルの微調整に代わるコンパクトな代替品として登場した。
実際には、連続的なプロンプトによって解決されたタスクと、最も近い隣人との間の「方向」の挙動を観察する。
論文 参考訳(メタデータ) (2021-12-15T18:55:05Z) - Understanding Generalization in Adversarial Training via the
Bias-Variance Decomposition [39.108491135488286]
テストのリスクをバイアスと分散コンポーネントに分解します。
バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。
一般化ギャップに対する一般的な説明は、代わりに分散が単調であることを予測している。
論文 参考訳(メタデータ) (2021-03-17T23:30:00Z) - Removing Bias in Multi-modal Classifiers: Regularization by Maximizing
Functional Entropies [88.0813215220342]
いくつかのモダリティは、他のものよりも分類結果に容易に寄与することができる。
機能的エントロピーと機能的フィッシャー情報とを結合した対数ソボレフの不等式に基づく手法を開発した。
VQA-CPv2 と SocialIQ の2つの挑戦的マルチモーダルデータセットに対して,より均一にモダリティを活用しながら,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-10-21T07:40:33Z) - What Should Not Be Contrastive in Contrastive Learning [110.14159883496859]
本稿では,タスク依存不変性に関する事前知識を必要としない,対照的な学習フレームワークを提案する。
我々のモデルは、異なる埋め込み空間を構築することで、視覚表現の様々な要因や不変要素を捉えることを学習する。
我々は、共有バックボーンを持つマルチヘッドネットワークを使用し、各オーグメンテーションにまたがる情報をキャプチャし、ダウンストリームタスクにおけるすべてのベースラインより優れている。
論文 参考訳(メタデータ) (2020-08-13T03:02:32Z) - Generalized Entropy Regularization or: There's Nothing Special about
Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。
モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。
我々は,他のエントロピー正規化手法の使用を推奨する。
論文 参考訳(メタデータ) (2020-05-02T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。