論文の概要: STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction
- arxiv url: http://arxiv.org/abs/2604.09737v1
- Date: Thu, 09 Apr 2026 21:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.643165
- Title: STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction
- Title(参考訳): STaR-DRO: Group-Robust構造予測のためのステートフルTsallis再重み付け
- Authors: Samah Fodeh, Ganesh Puthiaraju, Elyas Irankhah, Linhai Ma, Srivani Talakokkul, Afshan Khan, Sreeraj Ramachandran, Jordan Alpert, Sarah Schellhorn,
- Abstract要約: 制御可能な推論と堅牢な微調整のための2部フレームワークを提案する。
まず、フォーマットのドリフト、ラベルの曖昧さ、エビデンス幻覚、メタデータ条件の混乱に対処するためのタスクに依存しないプロンプト戦略を導入する。
第2に,グループ不均一性のステートフルなロバスト最適化手法STaR-DROを導入する。
- 参考スコア(独自算出の注目度): 0.20165644958637055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured prediction requires models to generate ontology-constrained labels, grounded evidence, and valid structure under ambiguity, label skew, and heterogeneous group difficulty. We present a two-part framework for controllable inference and robust fine-tuning. First, we introduce a task-agnostic prompting strategy that combines XML-based instruction structure, disambiguation rules, verification-style reasoning, schema constraints, and self-validation to address format drift, label ambiguity, evidence hallucination, and metadata-conditioned confusion in in-context structured generation. Second, we introduce STaR-DRO, a stateful robust optimization method for group heterogeneity. It combines Tsallis mirror descent with momentum-smoothed, centered group-loss signals and bounded excess-only multipliers so that only persistently hard groups above a neutral baseline are upweighted, concentrating learning where it is most needed while avoiding volatile, dense exponentiated-gradient reweighting and unnecessary loss from downweighting easier groups. We evaluate the combined framework on EPPC Miner, a benchmark for extracting hierarchical labels and evidence spans from patient-provider secure messages. Prompt engineering improves zero-shot by +15.44 average F1 across Code, Sub-code, and Span over four Llama models. Building on supervised fine-tuning, STaR-DRO further improves the hardest semantic decisions: on Llama-3.3-70B-Instruct, Code F1 rises from 79.24 to 81.47 and Sub-code F1 from 67.78 to 69.30, while preserving Span performance and reducing group-wise validation cross-entropy by up to 29.6% on the most difficult clinical categories. Because these rare and difficult groups correspond to clinically consequential communication behaviors, these gains are not merely statistical improvements: they directly strengthen communication mining reliability for patient-centered care analysis.
- Abstract(参考訳): 構造予測には、オントロジーに制約されたラベル、根拠付き証拠、曖昧さ、ラベルスキュー、不均一なグループ難易度の下で有効な構造を生成するモデルが必要である。
制御可能な推論と堅牢な微調整のための2部フレームワークを提案する。
まず、XMLベースの命令構造、曖昧化ルール、検証スタイルの推論、スキーマ制約、そしてフォーマットのドリフト、ラベルのあいまいさ、エビデンス幻覚、メタデータ条件の混乱に対処するための自己検証を組み合わせたタスク依存型プロンプト戦略を導入する。
第2に,グループ不均一性のステートフルなロバスト最適化手法STaR-DROを導入する。
Tsallisミラーの降下と、運動量平滑で中心的なグループロス信号と有界な過剰な乗算器を組み合わせることで、中性基底線の上の永続的にハードなグループだけが重み付けされ、不安定で高密度な指数の漸進的再重み付けを回避しつつ、より容易なグループから不要な損失を回避しながら、最も必要となる学習に集中する。
EPPC Minerは,患者に安全なメッセージから階層的なラベルとエビデンスを抽出するベンチマークである。
プロンプトエンジニアリングは、4つのLlamaモデルでコード、サブコード、スパンの平均F1を+15.44ゼロショットで改善する。
Llama-3.3-70B-インストラクションでは、コードF1は79.24から81.47に上昇し、サブコードF1は67.78から69.30に上昇し、Spanのパフォーマンスを保ち、グループ検証のクロスエントロピーを最大29.6%削減した。
これらの稀で困難なグループは臨床的に連続したコミュニケーション行動に対応しているため、これらの利益は単なる統計的改善ではなく、患者中心のケア分析におけるコミュニケーションマイニングの信頼性を直接的に強化する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation [6.329891529118214]
我々はグループワイド整合性問題として即時感度を再構成する。
本研究では,6つのゼロショット・クロスデータセットタスクにおいて,Diceを平均2.16ポイント改善することを示す。
論文 参考訳(メタデータ) (2026-03-06T15:34:08Z) - Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning [45.86058898829962]
Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
論文 参考訳(メタデータ) (2026-01-27T07:10:41Z) - Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis [20.77940776708036]
ペアワイズな順序学習フレームワークは、比較から学ぶことで相対的な順序を捉える。
彼らは全ての比較に均一な重要性を割り当て、ハード・ツー・ランクのサンプルに適応的に焦点をあてることに失敗した。
本稿では,グループ相対的政策最適化の理念を取り入れた二段階群ランク付け・フレームワークを提案する。
GRCFは、コア回帰ベンチマークで最先端のパフォーマンスを達成すると同時に、分類タスクにおいて強力な一般化性を示す。
論文 参考訳(メタデータ) (2026-01-14T16:26:44Z) - Mitigating Clever Hans Strategies in Image Classifiers through Generating Counterexamples [15.618934546058277]
群分布ロバストネス法は、明示的な群ラベルを重みの低い群に頼っている。
本稿では, 種々の偽物を生成するフレームワークCFKDを提案する。
CFKDの有効性を5つのデータセットにまたがって示す。
論文 参考訳(メタデータ) (2025-10-20T13:22:57Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。