論文の概要: DualReward: A Dynamic Reinforcement Learning Framework for Cloze Tests Distractor Generation
- arxiv url: http://arxiv.org/abs/2507.11875v1
- Date: Wed, 16 Jul 2025 03:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.213404
- Title: DualReward: A Dynamic Reinforcement Learning Framework for Cloze Tests Distractor Generation
- Title(参考訳): DualReward: クローンテストディトラクタ生成のための動的強化学習フレームワーク
- Authors: Tianyou Huang, Xinglu Chen, Jingshen Zhang, Xinying Qiu, Ruiying Niu,
- Abstract要約: DualRewardは、クローゼテストにおける自動イントラクタ生成のための新しい強化学習フレームワークである。
文レベル (CLOTH-F) と文レベル (MCQ) のクローゼテストデータセットについて検討した。
- 参考スコア(独自算出の注目度): 0.4660328753262075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces DualReward, a novel reinforcement learning framework for automatic distractor generation in cloze tests. Unlike conventional approaches that rely primarily on supervised learning or static generative models, our method employs a dual reward structure with adaptive scaling that differentiates between human-created gold standard distractors and model-generated candidates. The framework dynamically adjusts reward signal intensity based on model performance and confidence. We evaluate our approach on both passage-level (CLOTH-F) and sentence-level (MCQ) cloze test datasets, demonstrating consistent improvements over state-of-the-art baselines. Experimental results show that our adaptive reward scaling mechanism provides modest but consistent benefits on homogeneous datasets (CLOTH-F) and more substantial improvements (3.48-3.86% in P@1) on diverse, cross-domain data (MCQ), suggesting its particular effectiveness for handling varied question types and domains. Our work offers a flexible framework that effectively balances learning from reliable human examples while exploring novel, high-quality distractors for automated test generation.
- Abstract(参考訳): 本稿では,クローゼテストにおける自動イントラクタ生成のための新しい強化学習フレームワークであるDualRewardを紹介する。
教師付き学習や静的生成モデルに主に依存する従来の手法とは異なり,本手法では,人為的なゴールド標準トラクタとモデル生成候補を区別した適応スケーリングを備えた二重報酬構造を用いる。
このフレームワークはモデル性能と信頼性に基づいて報酬信号強度を動的に調整する。
我々は,パスレベル(CLOTH-F)と文レベル(MCQ)のクローゼテストデータセットに対するアプローチを評価し,最先端のベースラインに対する一貫した改善を示す。
実験の結果,適応型報酬スケーリング機構は同種データセット(CLOTH-F)に適度に一貫した利点をもたらし,多種多様なドメイン間データ(MCQ)に対してより実質的な改善(3.48-3.86%)をもたらすことが示された。
当社の作業は柔軟なフレームワークを提供し、信頼性の高い人間の例からの学習を効果的にバランスさせながら、自動テスト生成のための新しい高品質なイントラクタを探索します。
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [38.09248570129455]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Robust Asymmetric Heterogeneous Federated Learning with Corrupted Clients [60.22876915395139]
本稿では、異種・データ破損クライアントをモデルとした頑健な連立学習課題について検討する。
データ破損は、ランダムノイズ、圧縮アーティファクト、現実のデプロイメントにおける環境条件などの要因によって避けられない。
本稿では,これらの問題に対処する新しいロバスト非対称不均一なフェデレート学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T09:52:04Z) - Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [20.307151769610087]
連続的テスト時間適応(CTTA)は、目標ドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望な手法として登場した。
我々は3つのコアコンポーネントを特徴とするAMRODについて,CTTAシナリオにおける検出モデルに対するこれらの課題に対処する。
我々は,AMRODが既存の方法よりも優れている4つのCTTAオブジェクト検出タスクにおいて,AMRODの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts [12.818400676159953]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Enhancing Plasticity for First Session Adaptation Continual Learning [20.62749699589017]
クラスインクリメンタルラーニング(PLASTIC)における塑性強化テスト時間適応の導入
PLASTICはモデル安定性を維持しながら可塑性をCILに再蓄積する。
従来型と最先端のPTMベースのCILアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2023-10-17T13:06:39Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。