Fugu-MT 論文翻訳(概要): Data-Driven Offline Decision-Making via Invariant Representation Learning

論文の概要: Data-Driven Offline Decision-Making via Invariant Representation Learning

arxiv url: http://arxiv.org/abs/2211.11349v1
Date: Mon, 21 Nov 2022 11:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 18:28:53.903064
Title: Data-Driven Offline Decision-Making via Invariant Representation Learning
Title（参考訳）: 不変表現学習によるオフライン意思決定
Authors: Han Qi, Yi Su, Aviral Kumar, Sergey Levine
Abstract要約: オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
参考スコア（独自算出の注目度）: 97.49309949598505
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The goal in offline data-driven decision-making is synthesize decisions that optimize a black-box utility function, using a previously-collected static dataset, with no active interaction. These problems appear in many forms: offline reinforcement learning (RL), where we must produce actions that optimize the long-term reward, bandits from logged data, where the goal is to determine the correct arm, and offline model-based optimization (MBO) problems, where we must find the optimal design provided access to only a static dataset. A key challenge in all these settings is distributional shift: when we optimize with respect to the input into a model trained from offline data, it is easy to produce an out-of-distribution (OOD) input that appears erroneously good. In contrast to prior approaches that utilize pessimism or conservatism to tackle this problem, in this paper, we formulate offline data-driven decision-making as domain adaptation, where the goal is to make accurate predictions for the value of optimized decisions ("target domain"), when training only on the dataset ("source domain"). This perspective leads to invariant objective models (IOM), our approach for addressing distributional shift by enforcing invariance between the learned representations of the training dataset and optimized decisions. In IOM, if the optimized decisions are too different from the training dataset, the representation will be forced to lose much of the information that distinguishes good designs from bad ones, making all choices seem mediocre. Critically, when the optimizer is aware of this representational tradeoff, it should choose not to stray too far from the training distribution, leading to a natural trade-off between distributional shift and learning performance.
Abstract（参考訳）: オフラインデータ駆動意思決定の目標は、事前にコンパイルされた静的データセットを使用してブラックボックスユーティリティ関数を最適化する決定を、アクティブなインタラクションなしで合成することだ。これらの問題は、オフライン強化学習(RL)、長期報酬を最適化するアクション、ログデータからの盗聴、正しいアームを決定することを目的として、オフラインモデルベース最適化(MBO)問題、静的データセットにのみアクセス可能な最適な設計を見つける必要がある。オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。本稿では、ペシミズムや保守主義を利用してこの問題に取り組む従来のアプローチとは対照的に、オフラインのデータ駆動意思決定をドメイン適応として定式化し、データセット(ソースドメイン)上でのみトレーニングする場合に最適化された決定(ターゲットドメイン)の価値を正確に予測することを目的としている。この視点は、トレーニングデータセットの学習された表現と最適化された決定の間の不変性を強制することで、分散シフトに対処するための不変客観モデル(IOM)につながる。 IOMでは、最適化された決定がトレーニングデータセットとあまりにも異なる場合、よい設計と悪い設計を区別する多くの情報を失うことを余儀なくされ、すべての選択は平凡に見えます。重要なことは、オプティマイザがこの表現的トレードオフを認識している場合、トレーニング分布から遠く離れないことを選択し、分散シフトと学習性能の自然なトレードオフにつながる。

関連論文リスト

Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文参考訳（メタデータ） (2025-07-16T13:33:31Z)
Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文参考訳（メタデータ） (2025-05-19T10:40:30Z)
OPO: Making Decision-Focused Data Acquisition Decisions [0.0]
本稿では,文脈最適化問題における変数のデータ取得決定のためのモデルを提案する。本研究では, 線形目的関数を学習することにより, 厳密な制約でデータ取得問題を解く。そこで本研究では,様々な学習モダリティを伴って問題を緩和し,多変量最適化アプローチがランダム検索戦略より優れていることを示す。
論文参考訳（メタデータ） (2025-04-21T12:41:35Z)
Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making [5.755427480127593]
本研究では,選択に適用されるデータ値を逐次決定問題として再定義可能であることを示す。本稿では,学習された二部グラフを代理ユーティリティモデルとして用いた効率的な近似手法を提案する。
論文参考訳（メタデータ） (2025-02-06T23:03:10Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文参考訳（メタデータ） (2024-07-05T12:05:37Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-08T22:33:14Z)
Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文参考訳（メタデータ） (2023-06-16T07:07:58Z)
Building Resilience to Out-of-Distribution Visual Data via Input Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文参考訳（メタデータ） (2022-11-29T14:06:35Z)
Careful! Training Relevance is Real [0.7742297876120561]
我々は、トレーニングの妥当性を強制するために設計された制約を提案する。提案した制約を加えることで,ソリューションの品質が大幅に向上することを示す。
論文参考訳（メタデータ） (2022-01-12T11:54:31Z)
Conservative Objective Models for Effective Offline Model-Based Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。 COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文参考訳（メタデータ） (2021-07-14T17:55:28Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)
Model Inversion Networks for Model-Based Optimization [110.24531801773392]
スコアから入力への逆写像を学習するモデル反転ネットワーク(MIN)を提案する。 MINは高次元の入力空間にスケールでき、コンテキスト最適化と非コンテキスト最適化の両方にオフラインログデータを利用する。我々は,ベイズ最適化の文献から,画像やタンパク質の設計に対する高次元モデルベース最適化問題,ログデータからのコンテキスト的帯域最適化といったタスクのMINを評価した。
論文参考訳（メタデータ） (2019-12-31T18:06:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。