Fugu-MT 論文翻訳(概要): Contextual Information-Directed Sampling

論文の概要: Contextual Information-Directed Sampling

arxiv url: http://arxiv.org/abs/2205.10895v1
Date: Sun, 22 May 2022 18:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-29 19:37:57.443916
Title: Contextual Information-Directed Sampling
Title（参考訳）: コンテキスト情報指向サンプリング
Authors: Botao Hao, Tor Lattimore, Chao Qin
Abstract要約: 情報指向サンプリング(IDS)は近年,データ効率向上学習アルゴリズムとしての可能性を示している。我々は,2つの文脈的帯域幅問題(グラフフィードバック付きコンテキスト的帯域幅と疎線形コンテキスト的帯域幅)を通してIDS設計について検討する。条件付きIDSよりもコンテキスト型IDSの利点を実証し,文脈分布を考慮することの重要性を強調した。
参考スコア（独自算出の注目度）: 35.72522680827013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Information-directed sampling (IDS) has recently demonstrated its potential as a data-efficient reinforcement learning algorithm. However, it is still unclear what is the right form of information ratio to optimize when contextual information is available. We investigate the IDS design through two contextual bandit problems: contextual bandits with graph feedback and sparse linear contextual bandits. We provably demonstrate the advantage of contextual IDS over conditional IDS and emphasize the importance of considering the context distribution. The main message is that an intelligent agent should invest more on the actions that are beneficial for the future unseen contexts while the conditional IDS can be myopic. We further propose a computationally-efficient version of contextual IDS based on Actor-Critic and evaluate it empirically on a neural network contextual bandit.
Abstract（参考訳）: 情報指向サンプリング(IDS)は近年,データ効率向上学習アルゴリズムとしての可能性を示している。しかし, 文脈情報の提供時期を最適化する上で, 情報比の適切な形式が何かはいまだ不明である。 2つの文脈的バンディット問題(グラフフィードバックを伴う文脈的バンディットとスパースな線形文脈的バンディット)を通してids設計を検討する。条件付きIDSよりもコンテキスト型IDSの利点を実証し,文脈分布を考慮することの重要性を強調した。主なメッセージは、知的エージェントは、条件付きidが近視的でありながら、将来の目に見えないコンテキストに有益であるアクションにもっと投資すべきである。さらに,Actor-Criticに基づく文脈IDSの計算効率の良いバージョンを提案し,ニューラルネットワークの文脈帯域で実証的に評価する。

関連論文リスト

What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation [35.62323084880028]
我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
論文参考訳（メタデータ） (2026-02-12T02:51:59Z)
On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。 Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文参考訳（メタデータ） (2024-09-05T09:10:38Z)
Enhancing AI-based Generation of Software Exploits with Contextual Information [9.327315119028809]
この研究では、実際のシェルコードからなるデータセットを使用して、さまざまなシナリオでモデルを評価する。実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。モデルは不要なコンテキストをフィルタリングし、攻撃的なセキュリティコードの生成において高いレベルの精度を維持する能力を示している。
論文参考訳（メタデータ） (2024-08-05T11:52:34Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
LLMs-augmented Contextual Bandit [7.578368459974475]
本稿では,大規模言語モデル (LLM) と文脈的バンディットフレームワークとの新たな統合を提案する。合成データセットに関する予備的な結果は、このアプローチの可能性を示している。
論文参考訳（メタデータ） (2023-11-03T23:12:57Z)
On the Powerfulness of Textual Outlier Exposure for Visual OoD Detection [41.277221429527515]
外周露光は、トレーニング中のOoDデータの低信頼予測を促進する追加の損失をもたらす。本稿では、画像領域における実または仮想のオフレイラをテキスト等価物に置き換えることによるテキストアウトレイラの利用の利点について検討する。本実験は, 大規模OoDベンチマークおよびハードOoDベンチマークにおいて, テキストアウトレーヤの生成により, 競合性能が向上することを示した。
論文参考訳（メタデータ） (2023-10-25T09:19:45Z)
Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文参考訳（メタデータ） (2023-09-25T06:22:28Z)
Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文参考訳（メタデータ） (2022-10-15T21:52:39Z)
Out of Context: A New Clue for Context Modeling of Aspect-based Sentiment Analysis [54.735400754548635]
ABSAは、与えられた側面に関してレビューで表現された感情を予測することを目的としている。与えられたアスペクトは、コンテキストモデリングプロセスにおけるコンテキストからの新たなヒントと見なされるべきである。異なるバックボーンに基づいて複数のアスペクト認識コンテキストエンコーダを設計する。
論文参考訳（メタデータ） (2021-06-21T02:26:03Z)
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。 GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2020-03-27T09:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。