論文の概要: XFBoost: Improving Text Generation with Controllable Decoders
- arxiv url: http://arxiv.org/abs/2202.08124v1
- Date: Wed, 16 Feb 2022 15:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:56:38.073272
- Title: XFBoost: Improving Text Generation with Controllable Decoders
- Title(参考訳): XFBoost: 制御可能なデコーダによるテキスト生成の改善
- Authors: Xiangyu Peng, Michael Sollami
- Abstract要約: 変換器をベースとした自然言語モデルにおけるマルチモーダル条件は、製品記述生成のタスクにおいて最先端の性能を示す。
近年のアプローチでは、1つ以上の画像やその他のテキストメタデータに言語モデルを適用して、eコマースストアの製品を記述する上で、ほぼ人間に近いパフォーマンスを実現する。
本稿では,不正確な低品質推論の問題に対処する,Extract-Finetune-Boost (XFBoost) と呼ばれる制御可能な言語生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal conditionality in transformer-based natural language models has
demonstrated state-of-the-art performance in the task of product description
generation. Recent approaches condition a language model on one or more images
and other textual metadata to achieve near-human performance for describing
products from e-commerce stores. However, generated descriptions may exhibit
degrees of inaccuracy or even contradictory claims relative to the inputs of a
given product. In this paper, we propose a controllable language generation
framework called Extract-Finetune-Boost (XFBoost), which addresses the problem
of inaccurate low-quality inference. By using visual semantic attributes as
constraints at the decoding stage of the generation process and finetuning the
language model with policy gradient techniques, the XFBoost framework is found
to produce significantly more descriptive text with higher image relevancy,
outperforming baselines and lowering the frequency of factually inaccurate
descriptions. We further demonstrate the application of XFBoost to online
learning wherein human-in-the-loop critics improve language models with active
feedback.
- Abstract(参考訳): 変換器に基づく自然言語モデルにおけるマルチモーダル条件は、製品記述生成のタスクにおいて最先端の性能を示す。
近年のアプローチでは、1つ以上の画像やその他のテキストメタデータに言語モデルを適用して、eコマースストアの製品を記述するためのほぼ人間に近いパフォーマンスを実現する。
しかし、生成された記述は、与えられた積の入力に対して不正確または矛盾するクレームの程度を示すことができる。
本稿では,不正確な低品質推論の問題に対処する,Extract-Finetune-Boost (XFBoost) と呼ばれる制御可能な言語生成フレームワークを提案する。
XFBoostフレームワークは,生成プロセスの復号段階における制約として視覚的セマンティック属性を使用し,言語モデルをポリシー勾配の手法で微調整することにより,画像の関連性を高め,ベースラインを上回り,事実的に不正確な記述の頻度を低くする。
さらに,オンライン学習へのXFBoostの適用を実証し,アクティブなフィードバックによる言語モデルの改善について論じる。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Multimodal Conditionality for Natural Language Generation [0.0]
MAnTiSは、トランスフォーマーベースの自然言語生成モデルにおけるマルチモーダル条件に対する一般的なアプローチである。
我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。
論文 参考訳(メタデータ) (2021-09-02T22:06:07Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。