論文の概要: Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference
- arxiv url: http://arxiv.org/abs/2410.08289v1
- Date: Thu, 10 Oct 2024 18:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:33:48.050537
- Title: Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference
- Title(参考訳): 合成選好による強化学習による自動質問の難易度向上
- Authors: William Thorne, Ambrose Robinson, Bohua Peng, Chenghua Lin, Diana Maynard,
- Abstract要約: 本研究は,(1)PPOと合成データを用いた質問の難易度向上手法,(2)人的評価を含む手法の有効性の実証的証拠,(3)詳細な誤り分析と創発現象の研究に寄与する。
- 参考スコア(独自算出の注目度): 11.31451429456241
- License:
- Abstract: As the cultural heritage sector increasingly adopts technologies like Retrieval-Augmented Generation (RAG) to provide more personalised search experiences and enable conversations with collections data, the demand for specialised evaluation datasets has grown. While end-to-end system testing is essential, it's equally important to assess individual components. We target the final, answering task, which is well-suited to Machine Reading Comprehension (MRC). Although existing MRC datasets address general domains, they lack the specificity needed for cultural heritage information. Unfortunately, the manual creation of such datasets is prohibitively expensive for most heritage institutions. This paper presents a cost-effective approach for generating domain-specific MRC datasets with increased difficulty using Reinforcement Learning from Human Feedback (RLHF) from synthetic preference data. Our method leverages the performance of existing question-answering models on a subset of SQuAD to create a difficulty metric, assuming that more challenging questions are answered correctly less frequently. This research contributes: (1) A methodology for increasing question difficulty using PPO and synthetic data; (2) Empirical evidence of the method's effectiveness, including human evaluation; (3) An in-depth error analysis and study of emergent phenomena; and (4) An open-source codebase and set of three llama-2-chat adapters for reproducibility and adaptation.
- Abstract(参考訳): 文化遺産部門は、よりパーソナライズされた検索体験を提供し、コレクションデータとの会話を可能にするために、レトリーバル拡張世代(RAG)のような技術を採用するようになり、特別評価データセットの需要が高まっている。
エンドツーエンドのシステムテストは不可欠ですが、個々のコンポーネントを評価することは同じように重要です。
最終回答タスクは,Machine Reading Comprehension (MRC) に適している。
既存のMRCデータセットは一般的なドメインに対処するが、文化遺産情報に必要な特異性は欠如している。
残念ながら、このようなデータセットを手作業で作成することは、ほとんどの遺産機関にとって違法に高価である。
本稿では、RLHF(Reinforcement Learning from Human Feedback)を用いた合成選好データから、ドメイン固有のMRCデータセットを生成するためのコスト効率のよいアプローチを提案する。
提案手法は,SQuADのサブセット上での既存の質問応答モデルの性能を利用して,より難しい質問がより少ない頻度で答えられることを前提として,難解な尺度を作成する。
本研究は,(1)PPOと合成データを用いた質問の難易度向上手法,(2)人体評価を含む手法の有効性の実証的証拠,(3)深度誤差解析と創発現象の研究,(4)オープンソースコードベースと3つのラマ-2-チャットアダプタの再現性と適応のためのセットについて提案する。
関連論文リスト
- Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
AVQA(Audio-Visual Question Answering)は、複雑なマルチモーダル推論タスクである。
現在のアプローチでは、データセットのバイアスを過度に学習する傾向があり、結果として堅牢性が低下する。
本稿では,公開データセットのテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,新しいデータセットであるtextitMUSIC-AVQA-Rを提案する。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Training Data Augmentation for Deep Learning Radio Frequency Systems [1.1199585259018459]
この研究は、トレーニング中に使用されるデータに焦点を当てている。
一般に、検査されたデータ型はそれぞれ、最終アプリケーションに有用なコントリビューションを持っている。
キャプチャーデータの利点にもかかわらず、ライブコレクションから生じる困難さとコストは、ピークパフォーマンスを達成するのに必要なデータ量を非現実的にすることが多い。
論文 参考訳(メタデータ) (2020-10-01T02:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。