論文の概要: Task Expansion and Cross Refinement for Open-World Conditional Modeling
- arxiv url: http://arxiv.org/abs/2603.13308v1
- Date: Tue, 03 Mar 2026 21:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.290792
- Title: Task Expansion and Cross Refinement for Open-World Conditional Modeling
- Title(参考訳): オープンワールド条件モデリングのためのタスク拡張とクロスリファインメント
- Authors: Shreyas Bhat Brahmavar, Qiyang Liu, Yang Li, Junier Oliva,
- Abstract要約: オープンワールド条件モデリング(OCM)は、異種データセット間の任意の条件クエリに応答するために単一のモデルを必要とする。
本稿では,セマンティックデータコンテキストの構造化と改善を通じて,効果的なタスクカバレッジを拡大する半教師付きフレームワークであるタスク拡張・クロスリファインメント(TEXR)を提案する。
TEXRは、複数のOCMバックボーンに対して、ゼロ、少数、多ショットのパフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 8.07056661530259
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-world conditional modeling (OCM), requires a single model to answer arbitrary conditional queries across heterogeneous datasets, where observed variables and targets vary and arise from a vast open-ended task universe. Because any finite collection of real-world datasets covers only a small fraction of this space, we propose Task Expansion and Cross Refinement (TEXR), a semi-supervised framework that enlarges effective task coverage through structured synthesis and refinement of semantic data contexts. TEXR first generates diverse uninstantiated dataset schemas and weakly instantiates them via structured probabilistic generators guided by large language models. It then performs cross-model refinement by training on disjoint data partitions and revising synthetic values across splits to reduce confirmation bias and improve pseudo-value quality. The refined synthetic datasets are aggregated with real data to train a unified conditional model. Across heterogeneous tabular benchmarks, TEXR consistently improves zero-, few-, and many-shot performance for multiple OCM backbones, demonstrating that structured task expansion and cross refinement enhance open-world conditional modeling.
- Abstract(参考訳): オープンワールド・コンディショナル・モデリング(OCM)は、観測された変数やターゲットが変化し、広大なオープンエンドタスク・ユニバースから生じる異種データセット全体にわたる任意の条件クエリに応答するために単一のモデルを必要とする。
実世界のデータセットの有限コレクションは、この空間のごく一部しかカバーしていないため、構造化された合成とセマンティックデータコンテキストの洗練を通じて効率的なタスクカバレッジを拡大する半教師付きフレームワークであるタスク拡張・クロスリファインメント(TEXR)を提案する。
TEXRはまず、多様な未確立データセットスキーマを生成し、大きな言語モデルでガイドされた構造化確率的生成器を介して弱いインスタンス化を行う。
次に、解離したデータパーティションをトレーニングし、スプリット間で合成値を修正して、確認バイアスを低減し、擬似値品質を改善することで、クロスモデルの改良を行う。
洗練された合成データセットは実データで集約され、統一された条件付きモデルを訓練する。
不均一な表型ベンチマーク全体にわたって、TEXRは、複数のOCMバックボーンに対するゼロ、少数、多ショットのパフォーマンスを一貫して改善し、構造化されたタスク拡張とクロスリファインメントによりオープンワールド条件付きモデリングが向上することを示した。
関連論文リスト
- Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Amortized Inference of Causal Models via Conditional Fixed-Point Iterations [17.427722515310606]
本研究では,異なるSCMからサンプリングした複数のデータセットに対して,単一モデルをトレーニングすることにより,構造因果モデル(SCM)の補正推定を提案する。
まず、まず、データセット埋め込みのアモータイズ学習にトランスフォーマーベースのアーキテクチャを使用し、次にFixed-Point Approach(FiP)を拡張して、データセット埋め込みに条件付きSCMを推論する。
副産物として,本手法はパラメータを更新することなく,新しいSCMから観測データや介入データを生成することができる。
論文 参考訳(メタデータ) (2024-10-08T15:31:33Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。