論文の概要: TextMachina: Seamless Generation of Machine-Generated Text Datasets
- arxiv url: http://arxiv.org/abs/2401.03946v2
- Date: Fri, 12 Apr 2024 09:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:16:06.768909
- Title: TextMachina: Seamless Generation of Machine-Generated Text Datasets
- Title(参考訳): TextMachina: マシン生成テキストデータセットのシームレス生成
- Authors: Areg Mikael Sarvazyan, José Ángel González, Marc Franco-Salvador,
- Abstract要約: TextMachinaは、高品質でバイアスのないデータセットの作成を支援するために設計されたPythonフレームワークである。
MGTデータセット構築の固有の複雑さを抽象化する、ユーザフレンドリなパイプラインを提供する。
TextMachinaが生成したデータセットの品質は、以前の研究で評価されている。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have led to high-quality Machine-Generated Text (MGT), giving rise to countless new use cases and applications. However, easy access to LLMs is posing new challenges due to misuse. To address malicious usage, researchers have released datasets to effectively train models on MGT-related tasks. Similar strategies are used to compile these datasets, but no tool currently unifies them. In this scenario, we introduce TextMachina, a modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, mixcase, or boundary detection. It provides a user-friendly pipeline that abstracts away the inherent intricacies of building MGT datasets, such as LLM integrations, prompt templating, and bias mitigation. The quality of the datasets generated by TextMachina has been assessed in previous works, including shared tasks where more than one hundred teams trained robust MGT detectors.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、高品質なMachine-Generated Text(MGT)を生み出し、多数の新しいユースケースやアプリケーションを生み出している。
しかし、LLMへのアクセスが簡単であることは、誤用による新たな課題となっている。
悪意のある使用に対処するため、研究者はMGT関連のタスクでモデルを効果的にトレーニングするデータセットをリリースした。
同様の戦略でこれらのデータセットをコンパイルするが、現在ツールがそれらを統一することはない。
このシナリオでは、モジュール化された拡張可能なPythonフレームワークであるTextMachinaを導入し、高品質でバイアスのないデータセットの作成を支援し、検出、属性、ミックスケース、境界検出などのMGT関連タスクのための堅牢なモデルを構築する。
LLM統合、迅速なテンプレート化、バイアス軽減など、MGTデータセット構築の固有の複雑さを抽象化する、ユーザフレンドリなパイプラインを提供する。
TextMachinaが生成したデータセットの品質は、100以上のチームが堅牢なMGT検出器をトレーニングしたタスクの共有を含む、これまでの研究で評価されてきた。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - A Lightweight Multi Aspect Controlled Text Generation Solution For Large Language Models [12.572046828830699]
大規模言語モデル(LLM)は、命令のチューニングで顕著な能力を示す。
目標タスクの高品質なチューニングデータがない場合には、理想的なタスクを達成できない。
論文 参考訳(メタデータ) (2024-10-18T03:32:00Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。