論文の概要: XFBoost: Improving Text Generation with Controllable Decoders
- arxiv url: http://arxiv.org/abs/2202.08124v1
- Date: Wed, 16 Feb 2022 15:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:56:38.073272
- Title: XFBoost: Improving Text Generation with Controllable Decoders
- Title(参考訳): XFBoost: 制御可能なデコーダによるテキスト生成の改善
- Authors: Xiangyu Peng, Michael Sollami
- Abstract要約: 変換器をベースとした自然言語モデルにおけるマルチモーダル条件は、製品記述生成のタスクにおいて最先端の性能を示す。
近年のアプローチでは、1つ以上の画像やその他のテキストメタデータに言語モデルを適用して、eコマースストアの製品を記述する上で、ほぼ人間に近いパフォーマンスを実現する。
本稿では,不正確な低品質推論の問題に対処する,Extract-Finetune-Boost (XFBoost) と呼ばれる制御可能な言語生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal conditionality in transformer-based natural language models has
demonstrated state-of-the-art performance in the task of product description
generation. Recent approaches condition a language model on one or more images
and other textual metadata to achieve near-human performance for describing
products from e-commerce stores. However, generated descriptions may exhibit
degrees of inaccuracy or even contradictory claims relative to the inputs of a
given product. In this paper, we propose a controllable language generation
framework called Extract-Finetune-Boost (XFBoost), which addresses the problem
of inaccurate low-quality inference. By using visual semantic attributes as
constraints at the decoding stage of the generation process and finetuning the
language model with policy gradient techniques, the XFBoost framework is found
to produce significantly more descriptive text with higher image relevancy,
outperforming baselines and lowering the frequency of factually inaccurate
descriptions. We further demonstrate the application of XFBoost to online
learning wherein human-in-the-loop critics improve language models with active
feedback.
- Abstract(参考訳): 変換器に基づく自然言語モデルにおけるマルチモーダル条件は、製品記述生成のタスクにおいて最先端の性能を示す。
近年のアプローチでは、1つ以上の画像やその他のテキストメタデータに言語モデルを適用して、eコマースストアの製品を記述するためのほぼ人間に近いパフォーマンスを実現する。
しかし、生成された記述は、与えられた積の入力に対して不正確または矛盾するクレームの程度を示すことができる。
本稿では,不正確な低品質推論の問題に対処する,Extract-Finetune-Boost (XFBoost) と呼ばれる制御可能な言語生成フレームワークを提案する。
XFBoostフレームワークは,生成プロセスの復号段階における制約として視覚的セマンティック属性を使用し,言語モデルをポリシー勾配の手法で微調整することにより,画像の関連性を高め,ベースラインを上回り,事実的に不正確な記述の頻度を低くする。
さらに,オンライン学習へのXFBoostの適用を実証し,アクティブなフィードバックによる言語モデルの改善について論じる。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Multimodal Conditionality for Natural Language Generation [0.0]
MAnTiSは、トランスフォーマーベースの自然言語生成モデルにおけるマルチモーダル条件に対する一般的なアプローチである。
我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。
論文 参考訳(メタデータ) (2021-09-02T22:06:07Z) - Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。
このアプローチは、一貫性と正しい語彙に依存している。
人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文 参考訳(メタデータ) (2021-04-16T16:37:13Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。