論文の概要: SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- arxiv url: http://arxiv.org/abs/2404.08078v1
- Date: Thu, 11 Apr 2024 18:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:34:33.661529
- Title: SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- Title(参考訳): SQBC:オンライン政治討論におけるスタンス検出のためのLCM生成合成データを用いたアクティブラーニング
- Authors: Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling,
- Abstract要約: オンライン政治討論における姿勢検出エージェントの訓練と改善にLLM生成合成データを活用する2つの方法を提案する。
まず,簡単な微調整データセットを合成データで拡張することで,姿勢検出モデルの性能を向上できることを示す。
第2に,クエリ・バイ・コミティ(Query-by-Comittee)アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 1.1624569521079426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stance detection is an important task for many applications that analyse or support online political discussions. Common approaches include fine-tuning transformer based models. However, these models require a large amount of labelled data, which might not be available. In this work, we present two different ways to leverage LLM-generated synthetic data to train and improve stance detection agents for online political discussions: first, we show that augmenting a small fine-tuning dataset with synthetic data can improve the performance of the stance detection model. Second, we propose a new active learning method called SQBC based on the "Query-by-Comittee" approach. The key idea is to use LLM-generated synthetic data as an oracle to identify the most informative unlabelled samples, that are selected for manual labelling. Comprehensive experiments show that both ideas can improve the stance detection performance. Curiously, we observed that fine-tuning on actively selected samples can exceed the performance of using the full dataset.
- Abstract(参考訳): スタンス検出は、オンライン政治議論を分析し、支援する多くのアプリケーションにとって重要なタスクである。
一般的なアプローチとしては、微調整変換器ベースのモデルがある。
しかし、これらのモデルは大量のラベル付きデータを必要とするが、利用できないかもしれない。
本研究では,LLM生成合成データを活用したオンライン政治議論のための姿勢検出エージェントの訓練と改善のための2つの方法を提案する。
次に,「クエリ・バイ・コミティ」アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
鍵となるアイデアは、LLM生成合成データを託宣として使用して、手動ラベリングのために選択された最も情報に富まないサンプルを特定することである。
総合的な実験により、両方のアイデアが姿勢検出性能を向上させることが示されている。
実際に,活発に選択されたサンプルの微調整が,全データセットの使用性能を上回ることが判明した。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Active Learning with Combinatorial Coverage [0.0]
アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。
現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。
これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。
本稿では,これらの課題を克服するために,カバレッジを活用した能動的学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:43:23Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Validation of Simulation-Based Testing: Bypassing Domain Shift with
Label-to-Image Synthesis [9.531148049378672]
本稿では,異なる転送可能性尺度とともに生成ラベル-画像合成モデルからなる新しいフレームワークを提案する。
シーンを駆動するセマンティックセグメンテーションタスクにおいて,本手法を実証的に検証する。
後者は実生活と合成テストを区別できるが、前者は自動車と歩行者の両方で0.7の驚くほど強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-06-10T07:23:58Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Message Passing Adaptive Resonance Theory for Online Active
Semi-supervised Learning [30.19936050747407]
オンラインのアクティブ半教師あり学習のためのメッセージパッシング適応共振理論(MPART)を提案する。
MPARTはラベルのないデータのクラスを推論し、トポロジグラフ上のノード間のメッセージパッシングを通じて情報的および代表的サンプルを選択する。
我々は,MPARTがオンラインのアクティブ学習環境において,競合モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-02T14:14:42Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。