論文の概要: SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- arxiv url: http://arxiv.org/abs/2404.08078v1
- Date: Thu, 11 Apr 2024 18:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:34:33.661529
- Title: SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- Title(参考訳): SQBC:オンライン政治討論におけるスタンス検出のためのLCM生成合成データを用いたアクティブラーニング
- Authors: Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling,
- Abstract要約: オンライン政治討論における姿勢検出エージェントの訓練と改善にLLM生成合成データを活用する2つの方法を提案する。
まず,簡単な微調整データセットを合成データで拡張することで,姿勢検出モデルの性能を向上できることを示す。
第2に,クエリ・バイ・コミティ(Query-by-Comittee)アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 1.1624569521079426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stance detection is an important task for many applications that analyse or support online political discussions. Common approaches include fine-tuning transformer based models. However, these models require a large amount of labelled data, which might not be available. In this work, we present two different ways to leverage LLM-generated synthetic data to train and improve stance detection agents for online political discussions: first, we show that augmenting a small fine-tuning dataset with synthetic data can improve the performance of the stance detection model. Second, we propose a new active learning method called SQBC based on the "Query-by-Comittee" approach. The key idea is to use LLM-generated synthetic data as an oracle to identify the most informative unlabelled samples, that are selected for manual labelling. Comprehensive experiments show that both ideas can improve the stance detection performance. Curiously, we observed that fine-tuning on actively selected samples can exceed the performance of using the full dataset.
- Abstract(参考訳): スタンス検出は、オンライン政治議論を分析し、支援する多くのアプリケーションにとって重要なタスクである。
一般的なアプローチとしては、微調整変換器ベースのモデルがある。
しかし、これらのモデルは大量のラベル付きデータを必要とするが、利用できないかもしれない。
本研究では,LLM生成合成データを活用したオンライン政治議論のための姿勢検出エージェントの訓練と改善のための2つの方法を提案する。
次に,「クエリ・バイ・コミティ」アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
鍵となるアイデアは、LLM生成合成データを託宣として使用して、手動ラベリングのために選択された最も情報に富まないサンプルを特定することである。
総合的な実験により、両方のアイデアが姿勢検出性能を向上させることが示されている。
実際に,活発に選択されたサンプルの微調整が,全データセットの使用性能を上回ることが判明した。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治議論において、合成データを利用して姿勢検出エージェントを訓練し、改善する方法を示す。
我々はMistral-7Bモデルにより、特定の議論のための合成データを生成する。
本研究は,合成データと非ラベルデータセットの最も情報性の高いサンプルを組み合わせることによる影響について検討する。
論文 参考訳(メタデータ) (2024-06-18T10:36:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。