このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211023となっている論文です。

PDF登録状況(公開日: 20211023)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 超現実的決定 [全文訳有]

Surreal Decisions ( http://arxiv.org/abs/2111.00862v1 )

ライセンス: CC BY 4.0
Eddy Keming Chen and Daniel Rubio(参考訳) 期待された効用理論は有限領域において実りがありエレガントな理論を証明しているが、それを無限の値に一般化しようとする試みは多くのパラドックスをもたらした。 本稿では、ジョン・コンウェイの超現実数の利用が、超有限決定論の強固な数学的基礎となることを議論する。 そのため、超現実表現定理を証明し、超現実決定理論が無限値の場合においても支配的推論を尊重することを示す。 そして我々は、我々の理論を、文学におけるより残酷な決定問題の一つ、パスカルのワーガー(Pascal's Wager)に当てはめる。 賭けの分析は我々の理論の長所と長所を示す。 そのために、我々は2つの反対、混合戦略と多神の分析を行った。 超現実的効用と確率の枠組みで2つの異議を定式化した後、本理論は(1)純粋パスカル戦略がすべての混合戦略を上回り、(2)パスカル決定問題において何をすべきかは、その信頼度関数がどのようなものであるかに依存すると正しく予測する。 我々の分析は、パスカルのワーガーは数学的に一貫性があるが、それが与えるものは提供していないことを示唆しており、神論やその代替に自信があるかどうかに関わらず、人々が宗教的生活を導くべきだという合理的に説得力のある議論である。

Although expected utility theory has proven a fruitful and elegant theory in the finite realm, attempts to generalize it to infinite values have resulted in many paradoxes. In this paper, we argue that the use of John Conway's surreal numbers shall provide a firm mathematical foundation for transfinite decision theory. To that end, we prove a surreal representation theorem and show that our surreal decision theory respects dominance reasoning even in the case of infinite values. We then bring our theory to bear on one of the more venerable decision problems in the literature: Pascal's Wager. Analyzing the wager showcases our theory's virtues and advantages. To that end, we analyze two objections against the wager: Mixed Strategies and Many Gods. After formulating the two objections in the framework of surreal utilities and probabilities, our theory correctly predicts that (1) the pure Pascalian strategy beats all mixed strategies, and (2) what one should do in a Pascalian decision problem depends on what one's credence function is like. Our analysis therefore suggests that although Pascal's Wager is mathematically coherent, it does not deliver what it purports to, a rationally compelling argument that people should lead a religious life regardless of how confident they are in theism and its alternatives.
翻訳日:2021-11-07 13:35:18 公開日:2021-10-23
# (参考訳) 副詞を用いたパラメタライズドスキルのガイドライン検索 [全文訳有]

Guided Policy Search for Parameterized Skills using Adverbs ( http://arxiv.org/abs/2110.15799v1 )

ライセンス: CC BY 4.0
Benjamin A. Spiegel and George Konidaris(参考訳) そこで本研究では,adverb-skillグラウンドによるスキルパラメータの調整にadverb句を使用する手法を提案する。 これらの根拠により、エージェントは、従来のローカルポリシー検索方法と同様の方法で、人間が提供した副詞フィードバックを使用して、スキルポリシーを直接更新することができる。 本手法は,環境からの報酬が高められず,人間の言語フィードバックが得られない場合に,これらのポリシー検索手法の代替として利用できることを示す。 2つの実験において,近代的な政策探索手法によるサンプル効率の向上を実証した。

We present a method for using adverb phrases to adjust skill parameters via learned adverb-skill groundings. These groundings allow an agent to use adverb feedback provided by a human to directly update a skill policy, in a manner similar to traditional local policy search methods. We show that our method can be used as a drop-in replacement for these policy search methods when dense reward from the environment is not available but human language feedback is. We demonstrate improved sample efficiency over modern policy search methods in two experiments.
翻訳日:2021-11-07 13:12:04 公開日:2021-10-23
# (参考訳) ConformalLayers: 連想層を持つ非線形シーケンシャルニューラルネットワーク [全文訳有]

ConformalLayers: A non-linear sequential neural network with associative layers ( http://arxiv.org/abs/2110.12108v1 )

ライセンス: CC BY 4.0
Eduardo Vera Sousa and Leandro A. F. Fernandes and Cristina Nader Vasconcelos(参考訳) 畳み込みニューラルネットワーク(CNN)は広く応用されている。 しかし、CNNが大きくなるにつれて、算術演算やメモリフットプリントも増加する。 さらに、典型的な非線形活性化関数は、連続層によって符号化された操作の連想性を許容せず、それらを組み合わせることで中間ステップの単純化を防ぐ。 本稿では,cnnの逐次層間結合性を実現する新しい活性化関数を提案する。 我々の活性化関数は非線形であるが、ユークリッド幾何学の共形モデルにおける線形演算の列で表すことができる。 この領域では、畳み込み、平均プーリング、ドロップアウトのような操作は線形のままである。 ネットワークの深さによらず,すべての「コンフォーマル層」を結合し,推論コストを一定に抑えるために,アソナティビティを利用する。

Convolutional Neural Networks (CNNs) have been widely applied. But as the CNNs grow, the number of arithmetic operations and memory footprint also increase. Furthermore, typical non-linear activation functions do not allow associativity of the operations encoded by consecutive layers, preventing the simplification of intermediate steps by combining them. We present a new activation function that allows associativity between sequential layers of CNNs. Even though our activation function is non-linear, it can be represented by a sequence of linear operations in the conformal model for Euclidean geometry. In this domain, operations like, but not limited to, convolution, average pooling, and dropout remain linear. We take advantage of associativity to combine all the "conformal layers" and make the cost of inference constant regardless of the depth of the network.
翻訳日:2021-11-01 00:29:36 公開日:2021-10-23
# (参考訳) 複雑ネットワーク構築のための高次尺度と最適化手法による高次分類の改善 [全文訳有]

Improve High Level Classification with a More Sensitive metric and Optimization approach for Complex Network Building ( http://arxiv.org/abs/2110.12111v1 )

ライセンス: CC BY 4.0
Josimar Chire(参考訳) 複雑なネットワークは、内部的な関係を見つけ、データセット内のクラス構造を表現するのに良いアプローチであり、それらをハイレベルな分類に利用します。 以前の研究では、k-nearestの隣人が利用可能なサンプルをすべて考慮して、それぞれの複雑なネットワークを構築する。 本稿では,各クラスに属するサンプルのみを考慮した複雑ネットワークの作成について紹介する。 そして、メトリックを使用して複雑なネットワークの構造を解析し、性能を改善するための最適化アプローチを示す。 クロスバリデーションプロセスを考慮して実験を行い、グリッド探索と遺伝的アルゴリズムを用いて最適化を行い、その結果を最大10%改善することができる。

Complex Networks are a good approach to find internal relationships and represent the structure of classes in a dataset then they are used for High Level Classification. Previous works use K-Nearest Neighbors to build each Complex Network considering all the available samples. This paper introduces a different creation of Complex Networks, considering only sample which belongs to each class. And metric is used to analyze the structure of Complex Networks, besides an optimization approach to improve the performance is presented. Experiments are executed considering a cross validation process, the optimization approach is performed using grid search and Genetic Algorithm, this process can improve the results up to 10%.
翻訳日:2021-11-01 00:03:10 公開日:2021-10-23
# (参考訳) 光場画像超解像のための高密度デュアルアテンションネットワーク [全文訳有]

Dense Dual-Attention Network for Light Field Image Super-Resolution ( http://arxiv.org/abs/2110.12114v1 )

ライセンス: CC BY 4.0
Yu Mo, Yingqian Wang, Chao Xiao, Jungang Yang, Wei An(参考訳) 光フィールド(lf)画像は、角情報と空間情報の両方が利用可能なため、画像スーパーレゾリューション(sr)の性能を向上させるために使用できる。 LF画像SRの異なる視点から特有の情報を組み込むことは困難である。 また、ネットワークの深さが大きくなるにつれて、前層からの長期情報も弱められる。 本稿では,LF画像SRのための高密度二重アテンションネットワークを提案する。 具体的には,異なる視点にまたがる識別的特徴を適応的に捉えるビューアテンションモジュールと,チャネルアテンションモジュールをデザインし,すべてのチャンネルにまたがる情報に選択的に集中する。 これら2つのモジュールは2つの分岐に供給され、階層的特徴の適応融合と有効な情報の蒸留のために鎖構造に別々に積み上げられる。 一方、密接な接続は多レベル情報を完全に活用するために使用される。 広範にわたる実験により,sr性能を改善するために,ビューとチャネル間の情報収集を行うことができる。 比較の結果,公開データセットにおける最先端手法よりも優れた手法が得られた。

Light field (LF) images can be used to improve the performance of image super-resolution (SR) because both angular and spatial information is available. It is challenging to incorporate distinctive information from different views for LF image SR. Moreover, the long-term information from the previous layers can be weakened as the depth of network increases. In this paper, we propose a dense dual-attention network for LF image SR. Specifically, we design a view attention module to adaptively capture discriminative features across different views and a channel attention module to selectively focus on informative information across all channels. These two modules are fed to two branches and stacked separately in a chain structure for adaptive fusion of hierarchical features and distillation of valid information. Meanwhile, a dense connection is used to fully exploit multi-level information. Extensive experiments demonstrate that our dense dual-attention mechanism can capture informative information across views and channels to improve SR performance. Comparative results show the advantage of our method over state-of-the-art methods on public datasets.
翻訳日:2021-10-31 23:58:19 公開日:2021-10-23
# (参考訳) Riemannian Fixed-rank Matrix Optimizationにおける埋め込みおよび定性的ジオメトリーの幾何学的接続について

On Geometric Connections of Embedded and Quotient Geometries in Riemannian Fixed-rank Matrix Optimization ( http://arxiv.org/abs/2110.12121v1 )

ライセンス: CC BY-SA 4.0
Yuetian Luo and Xudong Li and Anru R. Zhang(参考訳) 本稿では,リーマン最適化問題のランドスケープ接続を,埋め込みおよび商幾何学の下で確立するための一般的な手順を提案する。 一般手順を固定ランク正半定値(PSD)および一般行列最適化に適用することにより、多様体上の各点における2つの測度の下で正確なリーマン勾配接続とリーマン一階定常点(FOSP)におけるリーマン・ヘッセンのスペクトル間のサンドイッチ不等式を確立する。 これらの結果は直ちにリーマンフォップの集合上の同値であり、リーマン二階定常点 (sosps) であり、埋め込み幾何学と商幾何学の下で固定階行列最適化の厳密な鞍である。 我々の知る限り、これは固定ランク行列最適化のための埋め込みと商ジオメトリーの間の最初の幾何学的ランドスケープ接続であり、これらの2つのジオメトリーがリーマン最適化でどのように接続されているかを示す具体的な例である。 また,ランドスケープ接続に対するリーマン計量と商構造の影響についても考察した。 また、ある特定のリーマン計量を持つ2つの幾何学の下で固定ランク行列最適化のためのアルゴリズム接続も観測する。 異なるリーマン計量に対する統一的な処理や、商幾何学の下での新しい水平空間表現など、多くの新しいアイデアや技術要素が開発され、結果を得た。 本研究の結果は、異なるリーマン幾何学の下でのリーマン最適化の幾何学的関係の理解を深め、文献における未解問題に対する新たな理論的洞察を与える。

In this paper, we propose a general procedure for establishing the landscape connections of a Riemannian optimization problem under the embedded and quotient geometries. By applying the general procedure to the fixed-rank positive semidefinite (PSD) and general matrix optimization, we establish an exact Riemannian gradient connection under two geometries at every point on the manifold and sandwich inequalities between the spectra of Riemannian Hessians at Riemannian first-order stationary points (FOSPs). These results immediately imply an equivalence on the sets of Riemannian FOSPs, Riemannian second-order stationary points (SOSPs) and strict saddles of fixed-rank matrix optimization under the embedded and the quotient geometries. To the best of our knowledge, this is the first geometric landscape connection between the embedded and the quotient geometries for fixed-rank matrix optimization and it provides a concrete example on how these two geometries are connected in Riemannian optimization. In addition, the effects of the Riemannian metric and quotient structure on the landscape connection are discussed. We also observe an algorithmic connection for fixed-rank matrix optimization under two geometries with some specific Riemannian metrics. A number of novel ideas and technical ingredients including a unified treatment for different Riemannian metrics and new horizontal space representations under quotient geometries are developed to obtain our results. The results in this paper deepen our understanding of geometric connections of Riemannian optimization under different Riemannian geometries and provide a few new theoretical insights to unanswered questions in the literature.
翻訳日:2021-10-31 23:35:22 公開日:2021-10-23
# (参考訳) 視聴覚サーマルデータを用いたマルチモーダル人物検証の検討 [全文訳有]

A Study of Multimodal Person Verification Using Audio-Visual-Thermal Data ( http://arxiv.org/abs/2110.12136v1 )

ライセンス: CC BY 4.0
Madina Abdrakhmanova, Saniya Abushakimova, Yerbolat Khassanov, and Huseyin Atakan Varol(参考訳) 本稿では,音声,視覚,サーマルモダリティを用いたマルチモーダル人物認証へのアプローチについて検討する。 音声と視覚のモダリティの組み合わせはすでに、堅牢な人物認証に有効であることが示されている。 この観点から,熱画像の補足によるモダリティ数の増加効果について検討する。 特に,最先端のディープラーニングアーキテクチャを用いて,一様,二様,三様の検証システムを実装し,その性能をクリーンでノイズの多い条件下で比較した。 また,単純なスコア平均化とソフトアテンション機構に基づいて,2つの一般的なフュージョンアプローチを比較した。 SpeechFaces データセットで行った実験は, 単モーダルシステムと双モーダルシステムの両方に対して, トリモーダル検証システムの優位性を示すものである。 実験の再現性を実現し、マルチモーダルな人物認証の研究を容易にするために、コード、トレーニング済みモデル、プリプロセス済みデータセットをgithubリポジトリから自由に利用できるようにしました。

In this paper, we study an approach to multimodal person verification using audio, visual, and thermal modalities. The combination of audio and visual modalities has already been shown to be effective for robust person verification. From this perspective, we investigate the impact of further increasing the number of modalities by supplementing thermal images. In particular, we implemented unimodal, bimodal, and trimodal verification systems using the state-of-the-art deep learning architectures and compared their performance under clean and noisy conditions. We also compared two popular fusion approaches based on simple score averaging and soft attention mechanism. The experiment conducted on the SpeakingFaces dataset demonstrates the superiority of the trimodal verification system over both unimodal and bimodal systems. To enable the reproducibility of the experiment and facilitate research into multimodal person verification, we make our code, pretrained models and preprocessed dataset freely available in our GitHub repository.
翻訳日:2021-10-31 23:33:53 公開日:2021-10-23
# (参考訳) 動的グラフ上のイベント検出 [全文訳有]

Event Detection on Dynamic Graphs ( http://arxiv.org/abs/2110.12148v1 )

ライセンス: CC BY 4.0
Mert Kosan, Arlei Silva, Sourav Medya, Brian Uzzi, Ambuj Singh(参考訳) イベント検出は、グラフ分析アプリケーションにおけるタイムリーな意思決定にとって重要なタスクである。 グラフの深層学習への最近の進歩にもかかわらず、動的グラフ上のイベント検出は、既存のアーキテクチャに特別な課題をもたらす。 実生活の出来事はグラフの正常な振る舞いの突然の逸脱としばしば関連づけられる。 しかし、動的ノード埋め込みの既存のアプローチでは、イベントに関連するグラフレベルのダイナミクスをキャプチャできない。 本稿では,動的グラフ上でのイベント検出のための簡易かつ斬新なディープラーニングモデルDyGEDを提案する。 DyGEDはグラフマクロ力学、すなわちグラフレベルの表現列とラベル付きイベントの間の相関関係を学習する。 さらに,アプリケーション固有のノードと時間的重要性を効果的に考慮するために,構造的・時間的自己注意機構を組み合わせる。 代表的なデータセットを用いた実験評価では、DyGEDは競合するソリューションよりも、イベント検出精度が最大8.5%向上し、上位の選択肢よりもスケーラブルであることが示されている。 また,本モデルの重要な特徴を示すケーススタディも提示する。

Event detection is a critical task for timely decision-making in graph analytics applications. Despite the recent progress towards deep learning on graphs, event detection on dynamic graphs presents particular challenges to existing architectures. Real-life events are often associated with sudden deviations of the normal behavior of the graph. However, existing approaches for dynamic node embedding are unable to capture the graph-level dynamics related to events. In this paper, we propose DyGED, a simple yet novel deep learning model for event detection on dynamic graphs. DyGED learns correlations between the graph macro dynamics -- i.e. a sequence of graph-level representations -- and labeled events. Moreover, our approach combines structural and temporal self-attention mechanisms to account for application-specific node and time importances effectively. Our experimental evaluation, using a representative set of datasets, demonstrates that DyGED outperforms competing solutions in terms of event detection accuracy by up to 8.5% while being more scalable than the top alternatives. We also present case studies illustrating key features of our model.
翻訳日:2021-10-31 23:24:19 公開日:2021-10-23
# (参考訳) 部分観察可能なマルチアームバンディットに対するトンプソンサンプリングの解析 [全文訳有]

Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits ( http://arxiv.org/abs/2110.12175v1 )

ライセンス: CC BY 4.0
Hongju Park, Mohamad Kazem Shirani Faradonbeh(参考訳) コンテキスト・マルチアーム・バンディット(Contextual multi-armed bandits)は、個々の情報に関連する逐次的意思決定のための強化学習における古典的なモデルである。 トンプソンサンプリング(Thompson Smpling)は、未知のパラメータに関するデータ駆動確率論的信念のサンプルを用いて、制御アクションを選択する。 この計算速度の速いアルゴリズムでは、フルコンテキスト観測の下で性能解析が利用可能である。 しかし、文脈が完全に観察されない問題についてはほとんど知られていない。 本稿では,部分観測可能なマルチアームバンディットのためのトンプソンサンプリングアルゴリズムを提案し,理論的性能保証を確立する。 技術的には、提示されたポリシーの後悔は時間と腕の数で対数的にスケールし、次元と線形にスケールする。 さらに,未知パラメータの学習率を確立し,実測的な数値解析を行う。

Contextual multi-armed bandits are classical models in reinforcement learning for sequential decision-making associated with individual information. A widely-used policy for bandits is Thompson Sampling, where samples from a data-driven probabilistic belief about unknown parameters are used to select the control actions. For this computationally fast algorithm, performance analyses are available under full context-observations . However, little is known for problems that contexts are not fully observed. We propose a Thompson Sampling algorithm for partially observable contextual multi-armed bandits, and establish theoretical performance guarantees. Technically, we show that the regret of the presented policy scales logarithmically with time and the number of arms, and linearly with the dimension. Further, we establish rates of learning unknown parameters, and provide illustrative numerical analyses.
翻訳日:2021-10-31 23:08:22 公開日:2021-10-23
# (参考訳) 弱教師付き正規化を用いたグループ異方表現学習 [全文訳有]

Group-disentangled Representation Learning with Weakly-Supervised Regularization ( http://arxiv.org/abs/2110.12185v1 )

ライセンス: CC BY-SA 4.0
Linh Tran, Amir Hosein Khasahmadi, Aditya Sanghi, Saeid Asgari(参考訳) データの変化の要因を明らかにするための解釈可能かつ人間制御可能な表現の学習は、表現学習における重要な課題である。 弱監督因子群に対する群差表現の学習について検討した。 この課題に対処する既存の手法は、共有群の観測を平均化することによって、近似後部を制約するだけである。 結果として、共通のバリエーションを持つ観測は異なる潜伏表現に符号化され、乱れを解消し下流タスクに一般化する能力が減少する。 従来の研究とは対照的に、一貫した非絡み合った表現を強制するために、共有潜在表現にまたがる単純で効果的なKL発散型正規化であるGroupVAEを提案する。 我々は徹底的な評価を行い、グループVAEがグループ・アンタングルメントを著しく改善することを示す。 さらに, グループ差分表現は, 公平な分類や, 再構築, 分類, 移動学習といった3次元形状関連タスクなど, 下流タスクにおいて改善され, 教師あり手法と競合することを示す。

Learning interpretable and human-controllable representations that uncover factors of variation in data remains an ongoing key challenge in representation learning. We investigate learning group-disentangled representations for groups of factors with weak supervision. Existing techniques to address this challenge merely constrain the approximate posterior by averaging over observations of a shared group. As a result, observations with a common set of variations are encoded to distinct latent representations, reducing their capacity to disentangle and generalize to downstream tasks. In contrast to previous works, we propose GroupVAE, a simple yet effective Kullback-Leibler (KL) divergence-based regularization across shared latent representations to enforce consistent and disentangled representations. We conduct a thorough evaluation and demonstrate that our GroupVAE significantly improves group disentanglement. Further, we demonstrate that learning group-disentangled representations improve upon downstream tasks, including fair classification and 3D shape-related tasks such as reconstruction, classification, and transfer learning, and is competitive to supervised methods.
翻訳日:2021-10-31 22:32:41 公開日:2021-10-23
# (参考訳) PROMPT:算数最小化による$\ell_{p}=ノルム線形回帰の並列反復アルゴリズムと半教師付きグラフ学習への応用 [全文訳有]

PROMPT: Parallel Iterative Algorithm for $\ell_{p}$ norm linear regression via Majorization Minimization with an application to semi-supervised graph learning ( http://arxiv.org/abs/2110.12190v1 )

ライセンス: CC BY 4.0
R.Jyothi and P.Babu(参考訳) 本稿では,スパースリカバリ,データクラスタリング,半教師付き学習など,いくつかの応用が可能な標準線形回帰法である$\ell_{p}$の問題を考察する。 凸であるにもかかわらず、問題は閉形式解を楽しまない。 最先端のアルゴリズムは反復的であるが、収束問題、すなわち、p>3で分岐するか、最適解への収束がアルゴリズムの初期化に敏感である。 また、これらのアルゴリズムは$p$の任意の値に対して一般化できない。 本稿では,数量化最小化の原理に基づく数量化最小化 (prompt) による$\ell_{p}$ノルム回帰のための並列反復アルゴリズムを提案し,提案アルゴリズムが単調であり,任意の値が$p$である問題の最適解に収束することを示す。 提案アルゴリズムは回帰変数の各要素を並列に更新することも可能であり、この時代のデータ爆発の一般的なシナリオである大規模データを効率的に処理するのに役立つ。 次に,提案アルゴリズムは,グラフに基づく半教師付き学習問題にも適用可能であることを示す。 数値シミュレーションにより,提案アルゴリズムは任意のランダム初期化に対して最適解に収束し,収束速度の点で最先端のアルゴリズムよりも優れていることを示す。 また,グラフに基づく半教師付き学習問題に対して,シミュレーションおよび実データを用いて提案アルゴリズムの性能を評価する。

In this paper, we consider the problem of $\ell_{p}$ norm linear regression, which has several applications such as in sparse recovery, data clustering, and semi-supervised learning. The problem, even though convex, does not enjoy a closed-form solution. The state-of-the-art algorithms are iterative but suffer from convergence issues, i.e., they either diverge for p>3 or the convergence to the optimal solution is sensitive to the initialization of the algorithm. Also, these algorithms are not generalizable to every possible value of $p$. In this paper, we propose an iterative algorithm : Parallel IteRative AlgOrithM for $\ell_{P}$ norm regression via MajorizaTion Minimization (PROMPT) based on the principle of Majorization Minimization and prove that the proposed algorithm is monotonic and converges to the optimal solution of the problem for any value of $p$. The proposed algorithm can also parallelly update each element of the regression variable, which helps to handle large scale data efficiently, a common scenario in this era of data explosion. Subsequently, we show that the proposed algorithm can also be applied for the graph based semi-supervised learning problem. We show through numerical simulations that the proposed algorithm converges to the optimal solution for any random initialization and also performs better than the state-of-the-art algorithms in terms of speed of convergence. We also evaluate the performance of the proposed algorithm using simulated and real data for the graph based semi-supervised learning problem.
翻訳日:2021-10-31 22:09:54 公開日:2021-10-23
# (参考訳) スペインの法律言語モデルとコーポラ [全文訳有]

Spanish Legalese Language Model and Corpora ( http://arxiv.org/abs/2110.12201v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\' ;e, Aitor Gonzalez-Agirre, Marta Villegas(参考訳) 英語の言語モデルには、その世界的関連性に応じて数多く存在する。 しかし、スペイン語では、たとえ広く話されている言語であっても、小さすぎて一般的すぎるようなスペイン語のモデルはほとんどない。 法的スラングは、語彙、意味論、フレーズ理解において非常に複雑であるため、独自のスペイン語の変種と考えることができる。 この作業のために、異なるソースから法的ドメインコーパスを収集し、モデルを生成し、スペインの一般的なドメインタスクに対して評価しました。 モデルはこれらのタスクに合理的な結果をもたらす。

There are many Language Models for the English language according to its worldwide relevance. However, for the Spanish language, even if it is a widely spoken language, there are very few Spanish Language Models which result to be small and too general. Legal slang could be think of a Spanish variant on its own as it is very complicated in vocabulary, semantics and phrase understanding. For this work we gathered legal-domain corpora from different sources, generated a model and evaluated against Spanish general domain tasks. The model provides reasonable results in those tasks.
翻訳日:2021-10-31 21:51:47 公開日:2021-10-23
# (参考訳) 合成サンプルを付加した希少クラスに対するドメイン適応 [全文訳有]

Domain Adaptation for Rare Classes Augmented with Synthetic Samples ( http://arxiv.org/abs/2110.12216v1 )

ライセンス: CC BY 4.0
Tuhin Das, Robert-Jan Bruintjes, Attila Lengyel, Jan van Gemert, Sara Beery(参考訳) 不均衡データセットにおける希少なクラスに対する低い分類性能を緩和するため、未表現クラスを合成サンプルで増強することが考えられる。 ドメイン適応は、実サンプルと合成サンプルの間のドメインの相違を減らすために分類器に組み込むことができる。 ドメイン適応は、完全に合成されたソースドメインと実際のターゲットドメインに一般的に適用されるが、単一のレアクラスのみを模擬サンプルで拡張した場合に、ドメイン適応がどのように適用できるかを考察する。 テストベッドとして,稀なシカクラスを持つカメラトラップ動物データセットを用いて,合成鹿サンプルを付加した。 DeerDANN(Domain-Adve rsarial Neural Network:DANN)とDeerCoRAL(Deep Corral)アーキテクチャ(Deep Corral)に基づくDeerCoRAL(DeerCoral) の2つの新しい手法に既存のドメイン適応手法を適用した。 実験の結果、シカダンはシカの分類精度が24.0%で、基準値と比較して22.4%向上していることがわかった。 さらに、これらの高い精度を達成するためには、ベースラインで使用される合成サンプルは10k未満である。 ディアコラルは最小の合成サンプル(2k鹿)を必要とし、次いでディアDANN (8k鹿)が続く。

To alleviate lower classification performance on rare classes in imbalanced datasets, a possible solution is to augment the underrepresented classes with synthetic samples. Domain adaptation can be incorporated in a classifier to decrease the domain discrepancy between real and synthetic samples. While domain adaptation is generally applied on completely synthetic source domains and real target domains, we explore how domain adaptation can be applied when only a single rare class is augmented with simulated samples. As a testbed, we use a camera trap animal dataset with a rare deer class, which is augmented with synthetic deer samples. We adapt existing domain adaptation methods to two new methods for the single rare class setting: DeerDANN, based on the Domain-Adversarial Neural Network (DANN), and DeerCORAL, based on deep correlation alignment (Deep CORAL) architectures. Experiments show that DeerDANN has the highest improvement in deer classification accuracy of 24.0% versus 22.4% improvement of DeerCORAL when compared to the baseline. Further, both methods require fewer than 10k synthetic samples, as used by the baseline, to achieve these higher accuracies. DeerCORAL requires the least number of synthetic samples (2k deer), followed by DeerDANN (8k deer).
翻訳日:2021-10-31 21:46:35 公開日:2021-10-23
# (参考訳) パワーロー優先と目標を持つガウス過程回帰の学習曲線

Learning curves for Gaussian process regression with power-law priors and targets ( http://arxiv.org/abs/2110.12231v1 )

ライセンス: CC BY 4.0
Hui Jin, Pradeep Kr. Banerjee, Guido Mont\'ufar(参考訳) ガウス過程回帰(GPR)のための学習曲線のパワー・ロー漸近について検討する。 先行関数の固有スペクトルが$\alpha$で崩壊し、対象関数の固有展開係数が$\beta$で崩壊すると、一般化誤差は$\tilde o(n^{\max\{\frac{1}{\alpha}-1, \frac{1-2\beta}{\alpha}\}})$として振る舞うが、これは$n$入力サンプルの引き出しよりも高い確率で表される。 同様の仮定で、カーネルリッジ回帰(KRR)の一般化誤差は同じ漸近性を持つことを示す。 無限に広いニューラルネットワークは、いくつかのケースでパワーロースペクトルを持つことが知られている神経接核(neural tangent kernel, ntk)に関してkrrと関連付けられる。 したがって、この手法は無限大のニューラルネットワークの一般化誤差の研究に応用できる。 我々は,その理論を実証する玩具実験を行う。

We study the power-law asymptotics of learning curves for Gaussian process regression (GPR). When the eigenspectrum of the prior decays with rate $\alpha$ and the eigenexpansion coefficients of the target function decay with rate $\beta$, we show that the generalization error behaves as $\tilde O(n^{\max\{\frac{1}{\alpha}-1, \frac{1-2\beta}{\alpha}\}})$ with high probability over the draw of $n$ input samples. Under similar assumptions, we show that the generalization error of kernel ridge regression (KRR) has the same asymptotics. Infinitely wide neural networks can be related to KRR with respect to the neural tangent kernel (NTK), which in several cases is known to have a power-law spectrum. Hence our methods can be applied to study the generalization error of infinitely wide neural networks. We present toy experiments demonstrating the theory.
翻訳日:2021-10-31 21:29:37 公開日:2021-10-23
# (参考訳) 深部畳み込みネットワークにおけるパラメトリック変分線形ユニット(PVLU) [全文訳有]

Parametric Variational Linear Units (PVLUs) in Deep Convolutional Networks ( http://arxiv.org/abs/2110.12246v1 )

ライセンス: CC BY 4.0
Aarush Gupta and Shikhar Ahuja(参考訳) Rectified Linear Unitは現在、ディープ畳み込みニューラルネットワークにおける最先端のアクティベーション機能である。 ReLUの致死性ニューロン問題に対処するために,ReLUにトレーニング可能な係数を持つ正弦波関数を加えるパラメトリック変分線形ユニット(PVLU)を提案する。 PVLUは、実領域全体にわたる非線形性や非ゼロ勾配を導入するとともに、転送学習の文脈で実装されたモデル一般化とロバスト性を高めることができる。 単純な非トランスファーシーケンシャルCNNでは、PVLUはReLUと比較してデータ拡張なしで16.3%と11.3%の相対誤差を減少させた。 PVLUは、転送学習問題でもテストされている。 VGG-16 と VGG-19 は、それぞれ CIFAR-10 で相対誤差を 9.5% と 10.7% に減らした。 ガウスフィルタCIFAR-10画像のトレーニングでは、VGGモデルにも同様の改良が加えられている。 PVLUの微調整により、CIFAR-10とCIFAR-100の両方の最先端ResNetモデルにおいて、相対誤差を10%以上削減できる。

The Rectified Linear Unit is currently a state-of-the-art activation function in deep convolutional neural networks. To combat ReLU's dying neuron problem, we propose the Parametric Variational Linear Unit (PVLU), which adds a sinusoidal function with trainable coefficients to ReLU. Along with introducing nonlinearity and non-zero gradients across the entire real domain, PVLU allows for increased model generalization and robustness when implemented in the context of transfer learning. On a simple, non-transfer sequential CNN, PVLU led to relative error decrease of 16.3% and 11.3% without and with data augmentation, relative to ReLU. PVLU is also tested on transfer learning problems. The VGG-16 and VGG-19 models experience relative error reductions of 9.5% and 10.7% on CIFAR-10, respectively, after the substitution of ReLU with PVLU. When training on Gaussian-filtered CIFAR-10 images, similar improvements are noted for the VGG models. Most notably, PVLU fine tuning allows for relative error reductions up to and exceeding 10% on near state-of-the-art ResNet models for both CIFAR-10 and CIFAR-100.
翻訳日:2021-10-31 21:28:13 公開日:2021-10-23
# (参考訳) game of gradients: フェデレーション学習における無関係なクライアントの軽減 [全文訳有]

Game of Gradients: Mitigating Irrelevant Clients in Federated Learning ( http://arxiv.org/abs/2110.12257v1 )

ライセンス: CC BY 4.0
Lokesh Nagalapatti, Ramasuri Narayanam(参考訳) フェデレーション・ラーニング(fl)のパラダイムは、中央サーバのオーケストレーションの下で機械学習モデルの協調トレーニングに参加する複数のクライアントを扱う。 この設定では、各クライアントのデータは自分自身にプライベートであり、他のクライアントやサーバに転送できない。 近年、FLパラダイムは研究コミュニティから大きな関心を集めているが、中央サーバの学習目標である関連するクライアントを選択するという問題は未調査である。 これらの問題をFederated Relevant Client Selection (FRCS)と呼ぶ。 サーバは各クライアントが保持するデータの性質を明示的に制御していないため、関連するクライアントを選択する問題はfl設定において著しく複雑である。 本稿では、重要かつ関連するfrcs問題vizを解決し、関連するデータを持つクライアントを選択し、特定のターゲットラベルに関連するデータを有するクライアントを検出し、個々のクライアントの腐敗したデータサンプルを補正する。 上記のfrcs問題に対処するための原理的アプローチに従い,協調ゲーム理論からshapley値の概念を用いた新しい連合学習法を開発した。 この目的に向けて,クライアントが共有する勾配を考慮した協調ゲームを提案する。 このゲームを用いてクライアントのshapley値を計算し、s-fedavg(s-fedavg)アルゴリズムにより、サーバが関連するクライアントを高い確率で選択できるようにする。 S-FedAvgはFRCS問題に対処する特定のアルゴリズムの設計において重要であることがわかった。 S-FedAvgは,教師付きフェデレーション学習環境において,ベースラインよりも優れた性能を示すため,画像分類と音声認識タスクの徹底的な実証分析を行った。

The paradigm of Federated learning (FL) deals with multiple clients participating in collaborative training of a machine learning model under the orchestration of a central server. In this setup, each client's data is private to itself and is not transferable to other clients or the server. Though FL paradigm has received significant interest recently from the research community, the problem of selecting the relevant clients w.r.t. the central server's learning objective is under-explored. We refer to these problems as Federated Relevant Client Selection (FRCS). Because the server doesn't have explicit control over the nature of data possessed by each client, the problem of selecting relevant clients is significantly complex in FL settings. In this paper, we resolve important and related FRCS problems viz., selecting clients with relevant data, detecting clients that possess data relevant to a particular target label, and rectifying corrupted data samples of individual clients. We follow a principled approach to address the above FRCS problems and develop a new federated learning method using the Shapley value concept from cooperative game theory. Towards this end, we propose a cooperative game involving the gradients shared by the clients. Using this game, we compute Shapley values of clients and then present Shapley value based Federated Averaging (S-FedAvg) algorithm that empowers the server to select relevant clients with high probability. S-FedAvg turns out to be critical in designing specific algorithms to address the FRCS problems. We finally conduct a thorough empirical analysis on image classification and speech recognition tasks to show the superior performance of S-FedAvg than the baselines in the context of supervised federated learning settings.
翻訳日:2021-10-31 21:20:58 公開日:2021-10-23
# (参考訳) espiownage:監視技術を用いたスチールパンドラムストライクのトランジェント追跡 [全文訳有]

espiownage: Tracking Transients in Steelpan Drum Strikes Using Surveillance Technology ( http://arxiv.org/abs/2110.12261v1 )

ライセンス: CC BY 4.0
Scott H. Hawley, Andrew C. Morrison, and Grant S. Morgan(参考訳) 電子スペックルパターン干渉法(ESPI)により照明されたカリブ海製スチールパンドラムの高速映像の特徴を有意に追跡する能力の向上について述べる。 これは、オブジェクト検出とイメージセグメンテーションのための最新のコンピュータビジョンライブラリの使用と、このアプリケーションのシステムのトレーニングに使用されていたデータセットのクリーニングによって実現されている。 従来の測定値の10%以上の改善に加えて、このプロジェクトで注目されるのは、オブジェクト検出によって得られたものと同等の干渉率を得るドラム表面全体に対するセグメンテーション・レグレッション・マップの導入と、このプロジェクトを18日間のタイムスケールで実施可能な、迅速な反復のためのデータクリーニング・アンド・モデルトレーニングフィードバックループをコーディネートするためのアクセラレーションワークフローの導入である。

We present an improvement in the ability to meaningfully track features in high speed videos of Caribbean steelpan drums illuminated by Electronic Speckle Pattern Interferometry (ESPI). This is achieved through the use of up-to-date computer vision libraries for object detection and image segmentation as well as a significant effort toward cleaning the dataset previously used to train systems for this application. Besides improvements on previous metric scores by 10% or more, noteworthy in this project are the introduction of a segmentation-regress ion map for the entire drum surface yielding interference fringe counts comparable to those obtained via object detection, as well as the accelerated workflow for coordinating the data-cleaning-and-mo del-training feedback loop for rapid iteration allowing this project to be conducted on a timescale of only 18 days.
翻訳日:2021-10-31 21:05:54 公開日:2021-10-23
# (参考訳) Self-Validation: 単一インスタンスのDeep Generative Priorsの早期停止 [全文訳有]

Self-Validation: Early Stopping for Single-Instance Deep Generative Priors ( http://arxiv.org/abs/2110.12271v1 )

ライセンス: CC BY 4.0
Taihui Li, Zhong Zhuang, Hengyue Liang, Le Peng, Hengkang Wang, Ju Sun(参考訳) 近年の研究では、訓練データなしに多数の画像再構成(IR)タスクを解く際に、深層生成モデルの驚くべき効果が示されている。 我々はこれらのモデル、例えばdeep image priorやdeep decoderをsingle-instance deep generative priors(sidgps)と呼ぶ。 しかし、その成功はしばしば適切な早期停止(es)にかかっており、これは概ねアドホックな方法で扱われてきた。 本稿では,SIDGPをIRに適用する際のESの原理化手法を提案する。 特に,本手法は協調訓練と自己検証に基づいており,本手法は深層オートエンコーダによって監視され,歴史的再構成画像を用いてオンラインにトレーニングされ,常に復元品質の検証に使用される。 実験では,いくつかのir問題と異なるsidgpsを用いて,近ピーク性能を確実に検出し,良好なes点を信号する。 私たちのコードはhttps://sun-umn.gith ub.io/Self-Validatio n/で利用可能です。

Recent works have shown the surprising effectiveness of deep generative models in solving numerous image reconstruction (IR) tasks, even without training data. We call these models, such as deep image prior and deep decoder, collectively as single-instance deep generative priors (SIDGPs). The successes, however, often hinge on appropriate early stopping (ES), which by far has largely been handled in an ad-hoc manner. In this paper, we propose the first principled method for ES when applying SIDGPs to IR, taking advantage of the typical bell trend of the reconstruction quality. In particular, our method is based on collaborative training and self-validation: the primal reconstruction process is monitored by a deep autoencoder, which is trained online with the historic reconstructed images and used to validate the reconstruction quality constantly. Experimentally, on several IR problems and different SIDGPs, our self-validation method is able to reliably detect near-peak performance and signal good ES points. Our code is available at https://sun-umn.gith ub.io/Self-Validatio n/.
翻訳日:2021-10-31 20:57:58 公開日:2021-10-23
# (参考訳) 計量空間におけるRLの粗粒平滑化 [全文訳有]

Coarse-Grained Smoothness for RL in Metric Spaces ( http://arxiv.org/abs/2110.12276v1 )

ライセンス: CC BY 4.0
Omer Gottesman, Kavosh Asadi, Cameron Allen, Sam Lobel, George Konidaris, Michael Littman(参考訳) 連続状態-作用空間における原則的意思決定はいくつかの仮定なしでは不可能である。 一般的なアプローチは、Q-函数のリプシッツ連続性を仮定することである。 残念なことに、このプロパティは多くの典型的なドメインで保持できません。 我々は,リプシッツ連続性の概念を一般化し,より広く適用でき,Q-函数のより厳密な境界を計算し,学習の改善につながるような,より粗い滑らかさの定義を提案する。 我々は,新しい滑らか性定義の理論的解析を行い,連続領域における制御と探索に与える影響と影響について論じる。

Principled decision-making in continuous state--action spaces is impossible without some assumptions. A common approach is to assume Lipschitz continuity of the Q-function. We show that, unfortunately, this property fails to hold in many typical domains. We propose a new coarse-grained smoothness definition that generalizes the notion of Lipschitz continuity, is more widely applicable, and allows us to compute significantly tighter bounds on Q-functions, leading to improved learning. We provide a theoretical analysis of our new smoothness definition, and discuss its implications and impact on control and exploration in continuous domains.
翻訳日:2021-10-31 20:37:41 公開日:2021-10-23
# (参考訳) 経路署名領域に基づく時系列の因果発見 [全文訳有]

Path Signature Area-Based Causal Discovery in Coupled Time Series ( http://arxiv.org/abs/2110.12288v1 )

ライセンス: CC BY 4.0
Will Glad and Thomas Woolf(参考訳) 結合力学系は自然界でしばしば観察されるが、しばしばシステムに関する追加のドメイン知識なしでは因果構造についてよく理解されていない。 特に、制御された実験、例えば気候変数の時系列を行えない力学系の観測時系列データを分析する場合、特徴が相互にどのように影響するかを判断することは困難である。 グレンジャー因果関係、収束クロスマッピング、pcmciのような因果グラフ構造学習アプローチなど、データから因果関係を回復する多くのテクニックがある。 経路シグネチャとその関連署名領域は、特にアルゴリズム因果発見に対するモデルフリーでデータ駆動のアプローチを示す際に、因果関係の動的システムの解析にアプローチする新しい方法を提供する。 本稿では,因果発見におけるパスシグネチャの利用について検討し,二つの変数間の符号付き領域の大きさの意義を分析するための信頼シーケンスの適用を提案する。 これらの信頼シーケンス領域はサンプリング長が大きくなると収束し、時系列の時間シフトバージョン間でペアで署名された領域を解析することにより、ラグ/リード因果関係の存在を特定するのに役立つ。 このアプローチは、2つの時系列の間に存在する因果関係の信頼性を定義する新しい方法を提供し、最終的に1つの時系列が別の時系列を引き起こすかどうかを定義するための仮説テストのフレームワークを提供するかもしれない。

Coupled dynamical systems are frequently observed in nature, but often not well understood in terms of their causal structure without additional domain knowledge about the system. Especially when analyzing observational time series data of dynamical systems where it is not possible to conduct controlled experiments, for example time series of climate variables, it can be challenging to determine how features causally influence each other. There are many techniques available to recover causal relationships from data, such as Granger causality, convergent cross mapping, and causal graph structure learning approaches such as PCMCI. Path signatures and their associated signed areas provide a new way to approach the analysis of causally linked dynamical systems, particularly in informing a model-free, data-driven approach to algorithmic causal discovery. With this paper, we explore the use of path signatures in causal discovery and propose the application of confidence sequences to analyze the significance of the magnitude of the signed area between two variables. These confidence sequence regions converge with greater sampling length, and in conjunction with analyzing pairwise signed areas across time-shifted versions of the time series, can help identify the presence of lag/lead causal relationships. This approach provides a new way to define the confidence of a causal link existing between two time series, and ultimately may provide a framework for hypothesis testing to define whether one time series causes another
翻訳日:2021-10-31 20:04:02 公開日:2021-10-23
# (参考訳) ロバスト性向上のための層ワイズ対応量子化最適化 [全文訳有]

A Layer-wise Adversarial-aware Quantization Optimization for Improving Robustness ( http://arxiv.org/abs/2110.12308v1 )

ライセンス: CC BY 4.0
Chang Song, Riya Ranjan, Hai Li(参考訳) ニューラルネットワークは、より高いエネルギーと計算コストで精度を高めている。 量子化後、コストは大幅に削減され、量子化モデルは許容される精度の損失に対してよりハードウェアフレンドリーである。 一方で、近年の研究では、ニューラルネットワークは敵の攻撃に対して脆弱であり、ニューラルネットワークモデルの頑健性は、敵のトレーニングのような防御方法によってのみ改善できることが示されている。 本研究では、逆学習ニューラルネットワークが、通常のモデルよりも量子化損失に対して脆弱であることを示す。 逆数と量子化の損失を同時に最小化し、量子化モデルを堅牢化するために、ニューラルネットワークの最適な量子化パラメータ設定を選択するために、Lipschitz定数を用いた層ワイド逆数認識量子化法を提案する。 理論的には損失を導出し、計量選択の一貫性を証明する。 実験の結果, 量子化逆学習ニューラルネットワークのロバスト性は, 効果的かつ効率的に向上できることがわかった。

Neural networks are getting better accuracy with higher energy and computational cost. After quantization, the cost can be greatly saved, and the quantized models are more hardware friendly with acceptable accuracy loss. On the other hand, recent research has found that neural networks are vulnerable to adversarial attacks, and the robustness of a neural network model can only be improved with defense methods, such as adversarial training. In this work, we find that adversarially-traine d neural networks are more vulnerable to quantization loss than plain models. To minimize both the adversarial and the quantization losses simultaneously and to make the quantized model robust, we propose a layer-wise adversarial-aware quantization method, using the Lipschitz constant to choose the best quantization parameter settings for a neural network. We theoretically derive the losses and prove the consistency of our metric selection. The experiment results show that our method can effectively and efficiently improve the robustness of quantized adversarially-traine d neural networks.
翻訳日:2021-10-31 19:49:50 公開日:2021-10-23
# (参考訳) カウントと丸いデータ回帰のための共役前処理 [全文訳有]

Conjugate priors for count and rounded data regression ( http://arxiv.org/abs/2110.12316v1 )

ライセンス: CC BY 4.0
Daniel R. Kowal(参考訳) 離散データは豊富であり、カウントや丸いデータとしてしばしば発生する。 しかし、線形回帰モデルでも共役前駆と閉形式後尾は一般的に利用できないため、後進推論には近似やマルコフ連鎖モンテカルロが必要となる。 広範囲のカウントおよびラウンドドデータ回帰モデルに対して、閉形式後部推論を可能にする共役先行モデルを導入する。 鍵後方関数と予測関数は解析的あるいは直接モンテカルロシミュレーションによって計算可能である。 重要なことは、予測分布はデータの支持と一致させるために離散的であり、複数の共変量に対して共同で評価またはシミュレーションすることができる。 これらのツールは、線形回帰、基底展開による非線形モデル、モデルと変数選択に広く有用である。 複数のシミュレーション研究は、計算、予測モデリング、および既存の代替品に対する選択において大きな利点を示している。

Discrete data are abundant and often arise as counts or rounded data. However, even for linear regression models, conjugate priors and closed-form posteriors are typically unavailable, thereby necessitating approximations or Markov chain Monte Carlo for posterior inference. For a broad class of count and rounded data regression models, we introduce conjugate priors that enable closed-form posterior inference. Key posterior and predictive functionals are computable analytically or via direct Monte Carlo simulation. Crucially, the predictive distributions are discrete to match the support of the data and can be evaluated or simulated jointly across multiple covariate values. These tools are broadly useful for linear regression, nonlinear models via basis expansions, and model and variable selection. Multiple simulation studies demonstrate significant advantages in computing, predictive modeling, and selection relative to existing alternatives.
翻訳日:2021-10-31 19:35:45 公開日:2021-10-23
# 神経進化アルゴリズムによるCovid-19流行の最適非医薬品介入政策

Optimal non-pharmaceutical intervention policy for Covid-19 epidemic via neuroevolution algorithm ( http://arxiv.org/abs/2110.13633v1 )

ライセンス: Link先を確認
Arash Saeidpour and Pejman Rohani(参考訳) 新型コロナウイルス(covid-19)のパンデミックに対する国民の反応は、ビジネス・アズ・ユートラルから完全な閉鎖まで、国によって大きく変化した。 ウイルス感染サイクルを乱し、医療システムが圧倒されるのを防ぐための政策は、経済的な負担と全く同時に行われた。 我々は、非薬剤感染症介入の相対的人・経済・医療費を構成する介入政策モデルを開発し、神経進化アルゴリズムを用いて最適な戦略に到達した。 提案モデルでは, 医療システムの負担を最大容量未満に抑えるために, 接触率の最小化が求められている。 このような政策は、流行の初期段階におけるコントロール力の急激な増加を招き、感染がピークに近づくにつれ、その後10週間で着実に増加し、人口が集団免疫に近づくにつれて、コントロール力は徐々に減少していくことが判明した。 また, このモデルが, 人口の進行史全体にアクセスすることなく, 流行の異なる段階において, 効果的な適応的介入政策を提供できることを示す。 本研究は、早期介入対策の実施の重要性を強調し、医療システムに余分な負担をかけることなく、流行の経済的影響を最小限に抑えるための適応介入政策の洞察を提供する。

National responses to the Covid-19 pandemic varied markedly across countries, from business-as-usual to complete shutdowns. Policies aimed at disrupting the viral transmission cycle and preventing the healthcare system from being overwhelmed, simultaneously exact an economic toll. We developed a intervention policy model that comprised the relative human, economic and healthcare costs of non-pharmaceutical epidemic intervention and arrived at the optimal strategy using the neuroevolution algorithm. The proposed model finds the minimum required reduction in contact rates to maintain the burden on the healthcare system below the maximum capacity. We find that such a policy renders a sharp increase in the control strength at the early stages of the epidemic, followed by a steady increase in the subsequent ten weeks as the epidemic approaches its peak, and finally control strength is gradually decreased as the population moves towards herd immunity. We have also shown how such a model can provide an efficient adaptive intervention policy at different stages of the epidemic without having access to the entire history of its progression in the population. This work emphasizes the importance of imposing intervention measures early and provides insights into adaptive intervention policies to minimize the economic impacts of the epidemic without putting an extra burden on the healthcare system.
翻訳日:2021-10-27 16:31:53 公開日:2021-10-23
# マルチタスク深層強化学習のための完全分散アクタクリティカルアーキテクチャ

Fully Distributed Actor-Critic Architecture for Multitask Deep Reinforcement Learning ( http://arxiv.org/abs/2110.12306v1 )

ライセンス: Link先を確認
Sergio Valcarcel Macua, Ian Davies, Aleksi Tukiainen, Enrique Munoz de Cote(参考訳) マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。 学習プロセスの間、エージェントは自分の価値とポリシーパラメータを隣人に伝え、中央のステーションを必要とせずにエージェントのネットワークを通して情報を拡散する。 各エージェントは、ローカルタスクからのみデータにアクセスすることができるが、タスクの集合全体に対してうまく機能する共通のポリシーを学ぶことを目指している。 エージェントごとの計算コストと通信コストはエージェントの全体数ではなく近隣の数に依存するため、アーキテクチャはスケーラブルである。 我々はDiff-DACを双対性理論から導出し、アクター・クリティック・フレームワークに新たな洞察を与え、実際に双対性上昇法の例であることを示す。 我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。 より制限的な仮定については、この共通政策が元の問題の近似の静止点であることも証明する。 共通連続制御ベンチマークのマルチタスク拡張に関する数値的な結果は、Diff-DACが学習を安定化し、従来のアーキテクチャよりも高い性能とより優れた一般化特性をもたらす正規化効果を有することを示している。

We propose a fully distributed actor-critic architecture, named Diff-DAC, with application to multitask reinforcement learning (MRL). During the learning process, agents communicate their value and policy parameters to their neighbours, diffusing the information across a network of agents with no need for a central station. Each agent can only access data from its local task, but aims to learn a common policy that performs well for the whole set of tasks. The architecture is scalable, since the computational and communication cost per agent depends on the number of neighbours rather than the overall number of agents. We derive Diff-DAC from duality theory and provide novel insights into the actor-critic framework, showing that it is actually an instance of the dual ascent method. We prove almost sure convergence of Diff-DAC to a common policy under general assumptions that hold even for deep-neural network approximations. For more restrictive assumptions, we also prove that this common policy is a stationary point of an approximation of the original problem. Numerical results on multitask extensions of common continuous control benchmarks demonstrate that Diff-DAC stabilises learning and has a regularising effect that induces higher performance and better generalisation properties than previous architectures.
翻訳日:2021-10-26 18:49:03 公開日:2021-10-23
# 効率的なインスタンス検索のための信頼度を考慮したアクティブフィードバック

Confidence-Aware Active Feedback for Efficient Instance Search ( http://arxiv.org/abs/2110.12255v1 )

ライセンス: Link先を確認
Yue Zhang, Chao Liang, Longxiang Jiang(参考訳) 関連性フィードバックは、不完全なランキング結果をさらに洗練させるために、インスタンス検索(INS)タスクで広く使われているが、しばしば相互作用効率が低い。 アクティブラーニング(AL)技術は、分類タスクにおけるアノテーション効率の向上に成功している。 しかし、insタスクにおける無関係なサンプルの多様性とクラス不均衡を考慮すると、既存のal法は、常にins問題の最も適切なフィードバック候補を選択することはできない。 さらに、対話型INSシナリオに適用するには計算が複雑すぎることが多い。 以上の課題に対処するために,最も価値の高いフィードバック候補を効率よく選択し,再ランク付け性能を向上させることのできる信頼性対応アクティブフィードバック(CAAF)手法を提案する。 具体的には、自己ペース学習における明示的なサンプル難易度モデルに着想を得て、各ラベル付きサンプルのランク付け信頼度を評価するためにペアワイズ多様体ランキングロスを用い、信頼度重み付き多様体ランキング問題としてinsプロセスを定式化する。 さらに,条件付きQP問題からクローズドフォーム式への制約を緩和する近似最適化手法を導入し,INSの初期ランキングリストにあるトップKサンプルのみを選択し,CAAFが短時間で大規模INSタスクを処理できるようにする。 画像およびビデオのinsタスクに関する広範囲な実験により,提案手法の有効性が示された。 特にCAAFは、TRECVID 2021の大規模ビデオINS評価において、第1位を記録した。

Relevance feedback is widely used in instance search (INS) tasks to further refine imperfect ranking results, but it often comes with low interaction efficiency. Active learning (AL) technique has achieved great success in improving annotation efficiency in classification tasks. However, considering irrelevant samples' diversity and class imbalance in INS tasks, existing AL methods cannot always select the most suitable feedback candidates for INS problems. In addition, they are often too computationally complex to be applied in interactive INS scenario. To address the above problems, we propose a confidence-aware active feedback (CAAF) method that can efficiently select the most valuable feedback candidates to improve the re-ranking performance. Specifically, inspired by the explicit sample difficulty modeling in self-paced learning, we utilize a pairwise manifold ranking loss to evaluate the ranking confidence of each unlabeled sample, and formulate the INS process as a confidence-weighted manifold ranking problem. Furthermore, we introduce an approximate optimization scheme to simplify the solution from QP problems with constraints to closed-form expressions, and selects only the top-K samples in the initial ranking list for INS, so that CAAF is able to handle large-scale INS tasks in a short period of time. Extensive experiments on both image and video INS tasks demonstrate the effectiveness of the proposed CAAF method. In particular, CAAF outperforms the first-place record in the public large-scale video INS evaluation of TRECVID 2021.
翻訳日:2021-10-26 18:22:09 公開日:2021-10-23
# 線形不等式制約を受ける非観測成分モデルのパラメータ推定について

On Parameter Estimation in Unobserved Components Models subject to Linear Inequality Constraints ( http://arxiv.org/abs/2110.12149v1 )

ライセンス: Link先を確認
Abhishek K. Umrawal, Joshua C.C. Chan(参考訳) 本稿では,多変量ガウス密度を用いた非標準密度近似法を提案する。 このような非標準密度は、通常、パラメータの不等式制約を含む未観測成分モデルに対する後続サンプルを開発しながら生じる。 例えば、chat et al. (2016) は確率的傾向の線形不等式制約を持つトレンドインフレーションの新しいモデルを提案する。 本稿では,提案手法を実装し,既存の近似値と比較する。 提案手法は, 最終トレンド推定における既存近似法と同程度に有効であり, サンプル効率の面では高い利得が得られる。

We propose a new quadratic-programmin g-based method of approximating a nonstandard density using a multivariate Gaussian density. Such nonstandard densities usually arise while developing posterior samplers for unobserved components models involving inequality constraints on the parameters. For instance, Chat et al. (2016) propose a new model of trend inflation with linear inequality constraints on the stochastic trend. We implement the proposed new method for this model and compare it to the existing approximation. We observe that the proposed new method works as good as the existing approximation in terms of the final trend estimates while achieving greater gains in terms of sample efficiency.
翻訳日:2021-10-26 18:19:13 公開日:2021-10-23
# ニューラルネットワーク対マトリックスベクトル化協調フィルタリングの再考:理論的展望

Rethinking Neural vs. Matrix-Factorization Collaborative Filtering: the Theoretical Perspectives ( http://arxiv.org/abs/2110.12141v1 )

ライセンス: Link先を確認
Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) Rendleらによる最近の研究は経験的観察に基づいており、行列分解協調フィルタリング(MCF)はニューラルコラボレーティブフィルタリング(NCF)と好意的に比較し、類似性関数としてフィードフォワードニューラルネットワークよりもドット積の方が優れていると推測している。 本稿では,以下の質問に答えることで,この比較を厳格に解決する。 1.各モデルの限定表現性とは何か 2. 現実的な勾配勾配下降の下で、各最適化経路が収束する解 3. インダクティブ・トランスダクティブ・ラーニング・セッティングの下でモデルをどのように一般化するか。 本結果は,カーネル化予測器として過パラメータNCFとMCFの類似表現性を強調し,最適化経路の関係を明らかにする。 さらに, MCF と NCF は, 直接的および帰納的協調フィルタリング設定において, 特定のトレードオフと比較を経験する。 最後に,新しい一般化結果を示すことで,モデル評価における被曝バイアスを補正する重要な役割を明らかにする。 以上の結果から,前述した矛盾のいくつかを説明し,このトピックに対するさらなる洞察を得るため,合成および実データ実験を行う。

The recent work by Rendle et al. (2020), based on empirical observations, argues that matrix-factorization collaborative filtering (MCF) compares favorably to neural collaborative filtering (NCF), and conjectures the dot product's superiority over the feed-forward neural network as similarity function. In this paper, we address the comparison rigorously by answering the following questions: 1. what is the limiting expressivity of each model; 2. under the practical gradient descent, to which solution does each optimization path converge; 3. how would the models generalize under the inductive and transductive learning setting. Our results highlight the similar expressivity for the overparameterized NCF and MCF as kernelized predictors, and reveal the relation between their optimization paths. We further show their different generalization behaviors, where MCF and NCF experience specific tradeoff and comparison in the transductive and inductive collaborative filtering setting. Lastly, by showing a novel generalization result, we reveal the critical role of correcting exposure bias for model evaluation in the inductive setting. Our results explain some of the previously observed conflicts, and we provide synthetic and real-data experiments to shed further insights to this topic.
翻訳日:2021-10-26 17:37:37 公開日:2021-10-23
# ユーザ独立型ヒューマンアクティビティ認識のためのadversarial deep feature extraction network

Adversarial Deep Feature Extraction Network for User Independent Human Activity Recognition ( http://arxiv.org/abs/2110.12163v1 )

ライセンス: Link先を確認
Sungho Suh, Vitor Fortes Rey, Paul Lukowicz(参考訳) ユーザ依存は、特にウェアラブルセンサーを使用する場合、人間のアクティビティ認識(har)において最も難しい一般的な問題の1つです。 これは、異なる人々が最も単純なアクションを実行する方法の巨大な変動のためです。 さらに、詳細なセンサーのフィクスチャや配置は、人によっても、同じユーザーのために異なるタイミングでも異なる。 理論的には、この問題は十分大きなデータセットによって解決できる。 しかし、複雑なアクティビティセットの全多様性をキャプチャするデータセットは、ほとんど実践できない。 代わりに、ユーザー間で不変な機能にフォーカスするモデルが必要である。 この目的のために,人間活動認識のための最大平均不一致(MMD)正則化を用いた対向的対象非依存特徴抽出法を提案する。 提案モデルは,複数の対象データセットから対象非依存の埋め込み特徴表現を学習し,対象対象に一般化することができる。 提案するネットワークは,MDDを用いた逆エンコーダ・デコーダ構造に基づいて,複数の主題にまたがるデータ分散を実現する。 実験の結果,提案手法は4つの実世界のデータセットに対して最先端の手法より優れるだけでなく,対象の一般化を効果的に改善することがわかった。 本研究では,ユーザに依存しない性能を著しく向上し,結果のばらつきを低減できることを示す。

User dependence remains one of the most difficult general problems in Human Activity Recognition (HAR), in particular when using wearable sensors. This is due to the huge variability of the way different people execute even the simplest actions. In addition, detailed sensor fixtures and placement will be different for different people or even at different times for the same users. In theory, the problem can be solved by a large enough data set. However, recording data sets that capture the entire diversity of complex activity sets is seldom practicable. Instead, models are needed that focus on features that are invariant across users. To this end, we present an adversarial subject-independent feature extraction method with the maximum mean discrepancy (MMD) regularization for human activity recognition. The proposed model is capable of learning a subject-independent embedding feature representation from multiple subjects datasets and generalizing it to unseen target subjects. The proposed network is based on the adversarial encoder-decoder structure with the MMD realign the data distribution over multiple subjects. Experimental results show that the proposed method not only outperforms state-of-the-art methods over the four real-world datasets but also improves the subject generalization effectively. We evaluate the method on well-known public data sets showing that it significantly improves user-independent performance and reduces variance in results.
翻訳日:2021-10-26 17:37:14 公開日:2021-10-23
# ディープラーニングのためのスケーラブルなスマートフォンクラスタ

Scalable Smartphone Cluster for Deep Learning ( http://arxiv.org/abs/2110.12172v1 )

ライセンス: Link先を確認
Byunggook Na, Jaehee Jang, Seongsik Park, Seijoon Kim, Joonoo Kim, Moon Sik Jeong, Kwang Choon Kim, Seon Heo, Yoonsang Kim, Sungroh Yoon(参考訳) スマートフォン上のさまざまなディープラーニングアプリケーションは急速に増加しているが、ディープニューラルネットワーク(dnn)のトレーニングには、単一のスマートフォンで実行するには計算負荷が大きすぎる。 スマートフォンと無線ネットワークを接続し、それを用いた並列計算をサポートするポータブルクラスタは、この問題を解決するための潜在的アプローチである。 しかし, 無線通信の制限により, 最大30台までのクラスタサイズが制限された。 このような小規模クラスタはdnnをスクラッチからトレーニングする計算能力に不足している。 本稿では,ポータビリティをなくして計算効率を向上させることで,ディープラーニングトレーニングを可能にするスケーラブルなスマートフォンクラスタを提案する。 クラスタは138のgalaxy s10+デバイスをイーサネットを使った有線ネットワークに接続する。 我々は,ディープラーニングライブラリCaffeに基づくDNNの大規模バッチ同期訓練を実装した。 スマートフォンクラスタは、ResNet-50のトレーニング時にP100の90%、MobileNet-v1のトレーニング時にV100の約43倍のスピードアップを達成した。

Various deep learning applications on smartphones have been rapidly rising, but training deep neural networks (DNNs) has too large computational burden to be executed on a single smartphone. A portable cluster, which connects smartphones with a wireless network and supports parallel computation using them, can be a potential approach to resolve the issue. However, by our findings, the limitations of wireless communication restrict the cluster size to up to 30 smartphones. Such small-scale clusters have insufficient computational power to train DNNs from scratch. In this paper, we propose a scalable smartphone cluster enabling deep learning training by removing the portability to increase its computational efficiency. The cluster connects 138 Galaxy S10+ devices with a wired network using Ethernet. We implemented large-batch synchronous training of DNNs based on Caffe, a deep learning library. The smartphone cluster yielded 90% of the speed of a P100 when training ResNet-50, and approximately 43x speed-up of a V100 when training MobileNet-v1.
翻訳日:2021-10-26 17:36:54 公開日:2021-10-23
# 時空間グラフ補完散乱ネットワーク

Spatio-Temporal Graph Complementary Scattering Networks ( http://arxiv.org/abs/2110.12150v1 )

ライセンス: Link先を確認
Zida Cheng, Siheng Chen, Ya Zhang(参考訳) 時空間グラフ信号解析は、手/体のポーズ認識を含む、幅広い応用に多大な影響を与える。 効率的な分析を実現するために,時空間グラフ畳み込みネットワーク(ST-GCN)は強力な学習能力を活用して経験的成功を達成しているが,これらの手法には大量の高品質な学習データが必要であり,理論的な解釈が欠如している。 この問題に対処するために、時空間グラフ散乱変換(ST-GST)が理論的に解釈可能なフレームワークとして提案されたが、この手法の実証的な性能は完全な数学的設計によって制約されている。 両面の利点を生かして,時空間グラフ散乱変換とニューラルネットワークを有機的に組み合わせた新たな補完機構を提案し,時空間グラフ補完散乱ネットワーク(ST-GCSN)を提案する。 本質的には、数学的に設計されたグラフウェーブレットをプルーニング技術で活用し、主要な情報をカバーし、学習可能なネットワークを使用して補完的な情報をキャプチャする。 ハンドポーズ動作認識実験の結果,ST-GCSNはST-GCNとST-GSTの両方に優れていた。

Spatio-temporal graph signal analysis has a significant impact on a wide range of applications, including hand/body pose action recognition. To achieve effective analysis, spatio-temporal graph convolutional networks (ST-GCN) leverage the powerful learning ability to achieve great empirical successes; however, those methods need a huge amount of high-quality training data and lack theoretical interpretation. To address this issue, the spatio-temporal graph scattering transform (ST-GST) was proposed to put forth a theoretically interpretable framework; however, the empirical performance of this approach is constrainted by the fully mathematical design. To benefit from both sides, this work proposes a novel complementary mechanism to organically combine the spatio-temporal graph scattering transform and neural networks, resulting in the proposed spatio-temporal graph complementary scattering networks (ST-GCSN). The essence is to leverage the mathematically designed graph wavelets with pruning techniques to cover major information and use trainable networks to capture complementary information. The empirical experiments on hand pose action recognition show that the proposed ST-GCSN outperforms both ST-GCN and ST-GST.
翻訳日:2021-10-26 17:13:30 公開日:2021-10-23
# グラフ最適化と相乗的サイクルを用いた動詞分割・識別・局在化

Vertebrae segmentation, identification and localization using a graph optimization and a synergistic cycle ( http://arxiv.org/abs/2110.12177v1 )

ライセンス: Link先を確認
Di Meng, Eslam Mohammed, Edmond Boyer, Sergi Pujades(参考訳) 本稿では,CT画像における脊椎の分割,同定,局在について考察する。 これら3つのタスクは関連していますが、それらが一緒に取り組まれると積み重なる特定の問題に直面します。 例えば、類似した形状の隣接する椎骨は、複雑な、あるいは病理形態を持つ椎骨と識別を混乱させ、セグメンテーションに影響を及ぼす。 その結果、3つのタスクは、ラベル付け(ローカライゼーションと識別)やセグメンテーションのみ、あるいはグローバルに扱われる場合にはシーケンシャル戦略など、独立してアプローチされる傾向にある。 しかし、逐次的なメソッドは、前のモジュールのミスから回復できないため、エラーを蓄積する傾向がある。 本研究では,これら3つのタスクを結合し,それらの相互依存性を活用することを提案する。 この目的のために,3つのタスク間のコヒーレンスを強制する活発なサイクルを提案する。 このようなサイクル内でタスクは相互運用され、グローバル一貫性基準が満たされるまで反復される。 我々の実験は、VerSe20チャレンジベンチマークの最先端技術である解剖学的コヒーレントな結果を用いて、この戦略を検証した。 私たちのコードとモデルは、https://gitlab.inria .fr/spine/vertebrae_ segmentationで研究目的で公開されています。

This paper considers the segmentation, identification and localization of vertebrae in CT images. Although these three tasks are related, they face specific problems that add up when they are addressed together. For example neighboring vertebrae with similar shapes perturb the identification and vertebrae with complex or even pathological morphologies impact the segmentation. Consequently, the three tasks tend to be approached independently, e.g. labelling (localization and identification) or segmenting only, or, when treated globally, a sequential strategy is used. Sequential methods however are prone to accumulate errors as they are not able to recover from mistakes of the previous module. In this work, we propose to combine all three tasks and leverage their interdependence: locations ease the segmentation, the segmentations in turn improve the locations and they all contribute and benefit from the identification task. To this purpose we propose a virtuous cycle to enforce coherence between the three tasks. Within such a cycle, the tasks interoperate and are iterated until a global consistency criterion is satisfied. Our experiments validate this strategy with anatomically coherent results that outperform the state of the art on the VerSe20 challenge benchmark. Our code and model are openly available for research purposes at https://gitlab.inria .fr/spine/vertebrae_ segmentation.
翻訳日:2021-10-26 17:13:09 公開日:2021-10-23
# ES-ImageNet: ニューラルネットワークをスパイクするイベントストリーム分類データセット

ES-ImageNet: A Million Event-Stream Classification Dataset for Spiking Neural Networks ( http://arxiv.org/abs/2110.12211v1 )

ライセンス: Link先を確認
Yihan Lin, Wei Ding, Shaohua Qiang, Lei Deng, Guoqi Li(参考訳) イベント駆動アルゴリズム、特にスパイキングニューラルネットワーク(SNN)では、ニューロモルフィックな視覚処理の継続的な改善を実現するため、より困難なイベントストリームデータセットが必要である。 しかし、ESデータセットの作成は、ダイナミックビジョンセンサー(DVS)のようなニューロモルフィックカメラにおいて、時間と費用のかかる作業であることが知られている。 本研究では,人気のあるコンピュータビジョンデータセットであるilsvrc2012をイベントストリーム(es)バージョンに変換し,約1,300,000フレームベースの画像から1000カテゴリのesサンプルを生成する,全方位離散勾配(odg)と呼ばれる高速かつ効果的なアルゴリズムを提案する。 そこで我々は,es-imagenetというes-datasetを提案する。es-imagenetは,現在,他のニューロモルフィック分類データセットよりも数十倍大きく,ソフトウェアによって完全に生成される。 ODGアルゴリズムは、異なる方向の離散勾配情報で局所的な値変化を発生させるイメージモーションを実装し、Edge-Integralとともに、フレームベースの画像をイベントストリームに変換する低コストで高速な方法を提供する。 さらに、ES-ImageNetの統計データを複数の方法で分析し、有名なディープニューラルネットワークアルゴリズムとスパイクニューラルネットワークアルゴリズムの両方を用いてデータセットのパフォーマンスベンチマークも提供する。 この研究は、SNNとニューロモルフィックビジョンのための新しい大規模ベンチマークデータセットを提供すると信じている。

With event-driven algorithms, especially the spiking neural networks (SNNs), achieving continuous improvement in neuromorphic vision processing, a more challenging event-stream-dataset is urgently needed. However, it is well known that creating an ES-dataset is a time-consuming and costly task with neuromorphic cameras like dynamic vision sensors (DVS). In this work, we propose a fast and effective algorithm termed Omnidirectional Discrete Gradient (ODG) to convert the popular computer vision dataset ILSVRC2012 into its event-stream (ES) version, generating about 1,300,000 frame-based images into ES-samples in 1000 categories. In this way, we propose an ES-dataset called ES-ImageNet, which is dozens of times larger than other neuromorphic classification datasets at present and completely generated by the software. The ODG algorithm implements an image motion to generate local value changes with discrete gradient information in different directions, providing a low-cost and high-speed way for converting frame-based images into event streams, along with Edge-Integral to reconstruct the high-quality images from event streams. Furthermore, we analyze the statistics of the ES-ImageNet in multiple ways, and a performance benchmark of the dataset is also provided using both famous deep neural network algorithms and spiking neural network algorithms. We believe that this work shall provide a new large-scale benchmark dataset for SNNs and neuromorphic vision.
翻訳日:2021-10-26 17:12:49 公開日:2021-10-23
# 医用画像中の添加物の「ワンショット」低減

"One-Shot" Reduction of Additive Artifacts in Medical Images ( http://arxiv.org/abs/2110.12274v1 )

ライセンス: Link先を確認
Yu-Jen Chen, Yen-Jung Chang, Shao-Cheng Wen, Yiyu Shi, Xiaowei Xu, Tsung-Yi Ho, Meiping Huang, Haiyun Yuan, Jian Zhuang(参考訳) 医療画像には、スキャン設定、マシンコンディション、患者の特性、周囲の環境など多くの要因に依存する、パターンや混合物の異なるさまざまな種類のアーティファクトが含まれている可能性がある。 しかしながら、既存のディープラーニングに基づくアーティファクト削減方法は、特定の所定のアーティファクトタイプとパターンを持つトレーニングセットによって制限される。 そのため、臨床応用は限られている。 本稿では,深層学習のパワーを生かしたワンショット医用画像アーティファクトリダクション(OSAR)について,事前訓練された汎用ネットワークを使わずに紹介する。 具体的には,テスト時に入力画像から合成したデータを用いて,軽量画像固有アーティファクト削減ネットワークを訓練する。 以前の大規模なトレーニングデータセットを必要とせずに、OSARは既存のデータセットにない様々な付加的なアーティファクトを含む、ほとんどすべての医療画像を扱うことができる。 また,CTとMRIを車両として用いて,試験時間を短くすることで,最先端の工芸品を質的かつ定量的に削減できることを示す。

Medical images may contain various types of artifacts with different patterns and mixtures, which depend on many factors such as scan setting, machine condition, patients' characteristics, surrounding environment, etc. However, existing deep-learning-based artifact reduction methods are restricted by their training set with specific predetermined artifact types and patterns. As such, they have limited clinical adoption. In this paper, we introduce One-Shot medical image Artifact Reduction (OSAR), which exploits the power of deep learning but without using pre-trained general networks. Specifically, we train a light-weight image-specific artifact reduction network using data synthesized from the input image at test-time. Without requiring any prior large training data set, OSAR can work with almost any medical images that contain varying additive artifacts which are not in any existing data sets. In addition, Computed Tomography (CT) and Magnetic Resonance Imaging (MRI) are used as vehicles and show that the proposed method can reduce artifacts better than state-of-the-art both qualitatively and quantitatively using shorter test time.
翻訳日:2021-10-26 17:12:21 公開日:2021-10-23
# 深部畳み込みニューラルネットを用いた多発臓器癌周囲浸潤の検出

Perineural Invasion Detection in Multiple Organ Cancer Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2110.12283v1 )

ライセンス: Link先を確認
Ramin Nateghi, Fattaneh Pourakpour(参考訳) 悪性腫瘍細胞による神経周囲浸潤 (PNI) は, 様々な癌における予後不良の独立した指標として報告されている。 ガラススライド上の小神経におけるpniの評価は労働集約的課題である。 本研究では,畳み込みニューラルネットワーク(cnn)を用いて,大腸癌,前立腺癌,膵癌における会陰浸潤を検出するアルゴリズムを提案する。

Perineural invasion (PNI) by malignant tumor cells has been reported as an independent indicator of poor prognosis in various cancers. Assessment of PNI in small nerves on glass slides is a labor-intensive task. In this study, we propose an algorithm to detect the perineural invasions in colon, prostate, and pancreas cancers based on a convolutional neural network (CNN).
翻訳日:2021-10-26 17:12:03 公開日:2021-10-23
# GPSトラジェクトリにおけるマルチタスクリカレントニューラルネットワークの同時推論と目的推定

Multi-task Recurrent Neural Networks to Simultaneously Infer Mode and Purpose in GPS Trajectories ( http://arxiv.org/abs/2110.12113v1 )

ライセンス: Link先を確認
Ali Yazdizadeh, Arash Kalatian, Zachary Patterson, Bilal Farooq(参考訳) マルチタスク学習は強力な推論手法として仮定され、特に複数のタスクの間にかなりの相関関係があり、ユニークなフレームワークでそれらを予測することで予測結果が向上する可能性がある。 本研究は,スマートフォンによる旅行調査の一環として収集したスマートフォン旅行調査データから,複数のシングルタスクモデルを用いて,マルチタスク学習者との比較を行った。 GPSトラジェクトリデータと社会デコグラフィーおよび目的地関連特性を多入力ニューラルネットワークフレームワークに入力し、モードと目的の2つの出力を予測する。 逐次GPSトラジェクトリによって供給されるリカレントニューラルネットワーク(RNN)をデプロイした。 社会デモグラフィーと目的地関連特性を処理するために、マルチインプットマルチアウトプット・フレームワークにおいて、異なる埋め込み層と密度層を持つ別のニューラルネットワークがRNN層と並列に使用される。 結果は、モードと目的を独立に分類するシングルタスク学習者と比較される。 また,Long-Short Term Memory (LSTM), Gated Recurrent Units (GRU), Bi-directional Gated Recurrent Units (Bi-GRU) などのRNNアプローチについても検討した。 最良のマルチタスク学習者は、モードと目的を84.33%、78.28%で分類できるBi-GRUモデルであり、一方、移動モードを推論する最も優れたシングルタスク学習者は、F1の86.50%、F1の77.38%に達した最高のシングルタスクBi-GRUの目的検出モデルであった。 マルチタスク学習は,マルチタスク学習者よりも高い性能を仮定するが,本研究の結果はそのような仮定は持たず,GPSトラジェクトリデータからのモードとトリップ目的推論の文脈では,マルチタスク学習アプローチはシングルタスク学習者に対して大きな優位性をもたらすものではない。

Multi-task learning is assumed as a powerful inference method, specifically, where there is a considerable correlation between multiple tasks, predicting them in an unique framework may enhance prediction results. This research challenges this assumption by developing several single-task models to compare their results against multi-task learners to infer mode and purpose of trip from smartphone travel survey data collected as part of a smartphone-based travel survey. GPS trajectory data along with socio-demographics and destination-related characteristics are fed into a multi-input neural network framework to predict two outputs; mode and purpose. We deployed Recurrent Neural Networks (RNN) that are fed by sequential GPS trajectories. To process the socio-demographics and destination-related characteristics, another neural network, with different embedding and dense layers is used in parallel with RNN layers in a multi-input multi-output framework. The results are compared against the single-task learners that classify mode and purpose independently. We also investigate different RNN approaches such as Long-Short Term Memory (LSTM), Gated Recurrent Units (GRU) and Bi-directional Gated Recurrent Units (Bi-GRU). The best multi-task learner was a Bi-GRU model able to classify mode and purpose with an F1-measures of 84.33% and 78.28%, while the best single-task learner to infer mode of transport was a GRU model that achieved an F1-measure of 86.50%, and the best single-task Bi-GRU purpose detection model that reached an F1-measure of 77.38%. While there's an assumption of higher performance of multi-task over sing-task learners, the results of this study does not hold such an assumption and shows, in the context of mode and trip purpose inference from GPS trajectory data, a multi-task learning approach does not bring any considerable advantage over single-task learners.
翻訳日:2021-10-26 16:33:58 公開日:2021-10-23
# 消滅する腕を持つ数え切れない腕のバンディット

The Countable-armed Bandit with Vanishing Arms ( http://arxiv.org/abs/2110.12118v1 )

ライセンス: Link先を確認
Anand Kalvit and Assaf Zeevi(参考訳) 数え切れないほど多くの腕を持つバンディット問題を有限個の「型」に分け、それぞれにユニークな平均的な報酬を特徴付ける。 非定常分布(non-stationary distribution)は、武器の集団における各腕型の相対的な存在量を支配しており、いわゆる「アーム貯水池」(arm-reservoir)である。 この非定常性は、貯水池から時間とともに「最適」の腕が漏れる確率的原因であり、これは「破壊的腕」現象と呼ばれ、貯水池に時間的変動(潜在的に「内在的」、政策依存的)な分布をもたらす。 目的は、予想される累積的後悔の最小化である。 我々は,最適アームの臨界消滅率の観点から,サブ線形後悔の達成に必要な,十分な条件を特徴付ける。 また,サブリニアな後悔が統計的に達成可能な場合,長ラン平均最適である2つの貯水池分布楕円型アルゴリズムについても検討した。 定常バンドイットの定式化とは対照的に,我々の設定における後悔は,UTB vis-`a-vis などの適応探索に基づくアルゴリズムの下では相当なインフレーションを被る可能性がある。

We consider a bandit problem with countably many arms, partitioned into finitely many "types," each characterized by a unique mean reward. A "non-stationary" distribution governs the relative abundance of each arm-type in the population of arms, aka the "arm-reservoir." This non-stationarity is attributable to a probabilistic leakage of "optimal" arms from the reservoir over time, which we refer to as the "vanishing arms" phenomenon; this induces a time-varying (potentially "endogenous," policy-dependent) distribution over the reservoir. The objective is minimization of the expected cumulative regret. We characterize necessary and sufficient conditions for achievability of sub-linear regret in terms of a critical vanishing rate of optimal arms. We also discuss two reservoir distribution-oblivio us algorithms that are long-run-average optimal whenever sub-linear regret is statistically achievable. Numerical experiments highlight a distinctive characteristic of this problem related to ex ante knowledge of the "gap" parameter (the difference between the top two mean rewards): in contrast to the stationary bandit formulation, regret in our setting may suffer substantial inflation under adaptive exploration-based (gap-oblivious) algorithms such as UCB vis-`a-vis their non-adaptive forced exploration-based (gap-aware) counterparts like ETC.
翻訳日:2021-10-26 16:33:24 公開日:2021-10-23
# 代理的相互情報最大化によるドメイン適応

Domain Adaptation via Maximizing Surrogate Mutual Information ( http://arxiv.org/abs/2110.12184v1 )

ライセンス: Link先を確認
Haiteng Zhao, Chang Ma, Qinyu Chen, Zhihong Deng(参考訳) 転送学習において重要なトピックであるunsupervised domain adaptation(uda)は、ソースドメインからラベル付きデータにアクセスして、ターゲットドメインからラベル付きデータを予測することを目的としている。 本研究では,SIDA (Surrogate Mutual Information Maximization Domain Adaptation) と呼ばれる理論的保証のある新しいフレームワークを提案する。 具体的には、SIDAは特徴間の相互情報(MI)を最大化する。 フレームワークでは、サブロゲートジョイント分布が、ラベルなしのターゲットドメインの基底となるジョイント分布をモデル化する。 提案手法の理論的解析は, ターゲット領域のリスクをMIと代理分布バイアスに限定することでSIDAを検証する。 実験により,本手法は標準的なUDAタスクの非教師なし適応手法に匹敵することがわかった。

Unsupervised domain adaptation (UDA), which is an important topic in transfer learning, aims to predict unlabeled data from target domain with access to labeled data from the source domain. In this work, we propose a novel framework called SIDA (Surrogate Mutual Information Maximization Domain Adaptation) with strong theoretical guarantees. To be specific, SIDA implements adaptation by maximizing mutual information (MI) between features. In the framework, a surrogate joint distribution models the underlying joint distribution of the unlabeled target domain. Our theoretical analysis validates SIDA by bounding the expected risk on target domain with MI and surrogate distribution bias. Experiments show that our approach is comparable with state-of-the-art unsupervised adaptation methods on standard UDA tasks.
翻訳日:2021-10-26 16:32:43 公開日:2021-10-23
# AFEC: 継続的な学習における否定的伝達のアクティブ・フォーミング

AFEC: Active Forgetting of Negative Transfer in Continual Learning ( http://arxiv.org/abs/2110.12187v1 )

ライセンス: Link先を確認
Liyuan Wang, Mingtian Zhang, Zhongfan Jia, Qian Li, Chenglong Bao, Kaisheng Ma, Jun Zhu, Yi Zhong(参考訳) 継続的学習は、動的データ分布からタスクのシーケンスを学ぶことを目的としている。 古いトレーニングサンプルにアクセスできないと、古いタスクから新しいタスクへの知識の転送は決定が難しくなり、正か負かのどちらかになる可能性がある。 もし古い知識が新しいタスク、すなわち前方の知識伝達が負の学習に干渉した場合、古いタスクを正確に記憶することは干渉をさらに悪化させ、継続的な学習のパフォーマンスを低下させる。 対照的に、生物学的ニューラルネットワークは、学習トリガーによるシナプス拡大とシナプス収束を調節することで、新しい経験の学習と矛盾する古い知識を積極的に忘れることができる。 生物の能動的忘れをきっかけに,新たな課題の学習を制限し,継続的な学習に役立てる古い知識を積極的に忘れることを提案する。 ベイズ連続学習の枠組みの下で, シナプス拡張収束(AFEC)を用いたアクティブフォーッティングという新しい手法を開発した。 提案手法はパラメータを動的に拡張し,新しいタスクを学習し,それを選択的に結合する。 我々は、CIFAR-10回帰タスク、視覚分類タスク、アタリ強化タスクなど、さまざまな連続学習ベンチマークにおいてAFECを広範囲に評価し、AFECは、新しいタスクの学習を効果的に改善し、プラグアンドプレイ方式で最先端のパフォーマンスを達成する。

Continual learning aims to learn a sequence of tasks from dynamic data distributions. Without accessing to the old training samples, knowledge transfer from the old tasks to each new task is difficult to determine, which might be either positive or negative. If the old knowledge interferes with the learning of a new task, i.e., the forward knowledge transfer is negative, then precisely remembering the old tasks will further aggravate the interference, thus decreasing the performance of continual learning. By contrast, biological neural networks can actively forget the old knowledge that conflicts with the learning of a new experience, through regulating the learning-triggered synaptic expansion and synaptic convergence. Inspired by the biological active forgetting, we propose to actively forget the old knowledge that limits the learning of new tasks to benefit continual learning. Under the framework of Bayesian continual learning, we develop a novel approach named Active Forgetting with synaptic Expansion-Convergenc e (AFEC). Our method dynamically expands parameters to learn each new task and then selectively combines them, which is formally consistent with the underlying mechanism of biological active forgetting. We extensively evaluate AFEC on a variety of continual learning benchmarks, including CIFAR-10 regression tasks, visual classification tasks and Atari reinforcement tasks, where AFEC effectively improves the learning of new tasks and achieves the state-of-the-art performance in a plug-and-play way.
翻訳日:2021-10-26 16:32:30 公開日:2021-10-23
# 探究可能な一般化策を求めて

In Search of Probeable Generalization Measures ( http://arxiv.org/abs/2110.12259v1 )

ライセンス: Link先を確認
Jonathan Jaegerman, Khalil Damouni, Mahdi S. Hosseini, Konstantinos N. Plataniotis(参考訳) 深層ニューラルネットワークの一般化行動を理解することは、モデル一般化能力を定量化する一般化「説明可能性」尺度の開発と評価など、多くの研究の創出を促した最近の関心事である。 一般化測度は、個々の層を探索する特定の種類の一般化測度を必要とするが、強力な層ワイドモデルチューニングおよび最適化アルゴリズムの開発にも有用であることが証明されている。 本研究の目的は,探索可能な一般化手法の無視されたサブトピックを探究し,さらなる研究の基盤を築き,新しいモデルチューニングと最適化アルゴリズムの開発を促すことである。 評価と比較を行い,モデルの変動,データセットの複雑度,トレーニングハイパーパラメータ,トレーニングステージをまたいだ有効性と堅牢性を示す。 我々はまた、一般化尺度、モデルチューニングアルゴリズム、最適化アルゴリズムをテストするために、訓練されたモデルとパフォーマンスメトリクスの新しいデータセットGenProbを紹介した。

Understanding the generalization behaviour of deep neural networks is a topic of recent interest that has driven the production of many studies, notably the development and evaluation of generalization "explainability" measures that quantify model generalization ability. Generalization measures have also proven useful in the development of powerful layer-wise model tuning and optimization algorithms, though these algorithms require specific kinds of generalization measures which can probe individual layers. The purpose of this paper is to explore the neglected subtopic of probeable generalization measures; to establish firm ground for further investigations, and to inspire and guide the development of novel model tuning and optimization algorithms. We evaluate and compare measures, demonstrating effectiveness and robustness across model variations, dataset complexities, training hyperparameters, and training stages. We also introduce a new dataset of trained models and performance metrics, GenProb, for testing generalization measures, model tuning algorithms and optimization algorithms.
翻訳日:2021-10-26 16:32:04 公開日:2021-10-23
# Federated Multiple Label Hashing (FedMLH): 極端分類課題におけるコミュニケーション効率のよいフェデレーション学習

Federated Multiple Label Hashing (FedMLH): Communication Efficient Federated Learning on Extreme Classification Tasks ( http://arxiv.org/abs/2110.12292v1 )

ライセンス: Link先を確認
Zhenwei Dai, Chen Dun, Yuxin Tang, Anastasios Kyrillidis, Anshumali Shrivastava(参考訳) フェデレーション学習は、多くのローカルデバイスが、ローカルデータを共有せずに、ディープラーニングモデルを共同でトレーニングすることを可能にする。 現在、連合トレーニングスキームのほとんどは、局所モデルのパラメータを平均することでグローバルモデルを学ぶ。 しかしながら、これらのトレーニングスキームの多くは、完全なローカルモデルパラメータの送信によって生じる、高い通信コストに苦しむ。 さらに、モデルパラメータの直接平均化は、異なるデバイス上のクラス不均衡な非IDデータのために、大幅な性能劣化をもたらす。 特に、極端な分類を含む実生活連帯学習タスクでは、(1)モデルのサイズが出力クラス数に比例して増加するため、コミュニケーションが主要なボトルネックとなり、(2)極端な分類(ユーザの推薦など)は、通常、異なるデバイス上で非常に不均衡なクラスと異種データを持つ。 そこで本研究では,fedmlh(federated multiple label hashing)を提案する。fedmlh(federated multiple label hashing)は,通信コスト(最大18.75倍)とモデルサイズ(最大3.40倍削減)を同時に削減し,高い精度(最大35.5%の相対精度向上)と,最大5.5倍の収束率(最大5.5倍増加)を達成する。

Federated learning enables many local devices to train a deep learning model jointly without sharing the local data. Currently, most of federated training schemes learns a global model by averaging the parameters of local models. However, most of these training schemes suffer from high communication cost resulted from transmitting full local model parameters. Moreover, directly averaging model parameters leads to a significant performance degradation, due to the class-imbalanced non-iid data on different devices. Especially for the real life federated learning tasks involving extreme classification, (1) communication becomes the main bottleneck since the model size increases proportionally to the number of output classes; (2) extreme classification (such as user recommendation) normally have extremely imbalanced classes and heterogeneous data on different devices. To overcome this problem, we propose federated multiple label hashing (FedMLH), which leverages label hashing to simultaneously reduce the model size (up to 3.40X decrease) with communication cost (up to 18.75X decrease) and achieves significant better accuracy (up to 35.5%} relative accuracy improvement) and faster convergence rate (up to 5.5X increase) for free on the federated extreme classification tasks compared to federated average algorithm.
翻訳日:2021-10-26 16:31:49 公開日:2021-10-23
# 高精度ブラインド画像超解像のためのスペクトル-カーネル変換

Spectrum-to-Kernel Translation for Accurate Blind Image Super-Resolution ( http://arxiv.org/abs/2110.12151v1 )

ライセンス: Link先を確認
Guangpin Tao, Xiaozhong Ji, Wenzhuo Wang, Shuo Chen, Chuming Lin, Yun Cao, Tong Lu, Donghao Luo, Ying Tai(参考訳) 深層学習に基づく超解法 (SR) 法は、ぼやけたカーネルが知られている非盲検環境下で有望な性能を示した。 しかし、異なる実用用途における低解像度(LR)画像のぼやけたカーネルは通常不明である。 トレーニングイメージの劣化プロセスが実際のイメージから逸脱すると、パフォーマンスが大幅に低下する可能性がある。 本稿では,任意のぼかしカーネルで劣化したlr画像の周波数領域での正確なカーネル推定を行うブラインドsrフレームワークを提案する。 最善の知識として、これは周波数領域でぼかし核推定を行う最初のディープラーニング手法である。 具体的には,まず,周波数領域における特徴表現が空間領域よりもぼやけたカーネル再構成に寄与することを示す。 次に、様々な形態の一般的なぼやけたカーネルを推定するために、Spectrum-to-Kernel (S$2$K) ネットワークを提案する。 条件付きgan(cgan)とsr指向最適化目標を組み合わせて,劣化した画像のスペクトルから未知のカーネルへのエンドツーエンド変換を学習する。 合成画像と実世界画像の両方に対する広範囲な実験により,提案手法がボケカーネル推定誤差を十分に低減し,ブラインド設定下で効果的に動作し,平均1.39db,0.48dbのcomom blind sr設定(gaussian kernels)で2\times$および4.4\times$をそれぞれ達成できることが証明された。

Deep-learning based Super-Resolution (SR) methods have exhibited promising performance under non-blind setting where blur kernel is known. However, blur kernels of Low-Resolution (LR) images in different practical applications are usually unknown. It may lead to significant performance drop when degradation process of training images deviates from that of real images. In this paper, we propose a novel blind SR framework to super-resolve LR images degraded by arbitrary blur kernel with accurate kernel estimation in frequency domain. To our best knowledge, this is the first deep learning method which conducts blur kernel estimation in frequency domain. Specifically, we first demonstrate that feature representation in frequency domain is more conducive for blur kernel reconstruction than in spatial domain. Next, we present a Spectrum-to-Kernel (S$2$K) network to estimate general blur kernels in diverse forms. We use a Conditional GAN (CGAN) combined with SR-oriented optimization target to learn the end-to-end translation from degraded images' spectra to unknown kernels. Extensive experiments on both synthetic and real-world images demonstrate that our proposed method sufficiently reduces blur kernel estimation error, thus enables the off-the-shelf non-blind SR methods to work under blind setting effectively, and achieves superior performance over state-of-the-art blind SR methods, averagely by 1.39dB, 0.48dB on commom blind SR setting (with Gaussian kernels) for scales $2\times$ and $4\times$, respectively.
翻訳日:2021-10-26 16:05:19 公開日:2021-10-23
# RPT++: シームズビジュアルトラッキングのためのカスタマイズされた特徴表現

RPT++: Customized Feature Representation for Siamese Visual Tracking ( http://arxiv.org/abs/2110.12194v1 )

ライセンス: Link先を確認
Ziang Ma, Haitao Zhang, Linyuan Wang and Jun Yin(参考訳) 近年,視覚的トラッキングの特徴的表現の顕著な進歩が見られたが,分類と回帰タスクの特徴的不整合の問題は概ね見過ごされている。 特徴抽出のアプローチは、これらの2つのタスクをほとんどの先進的トラッカーで区別しない。 視覚的トラッキングの性能向上は,有意な領域から抽出した特徴がより認識可能な視覚的パターンを識別し,境界付近の特徴が目標状態の正確な推定に寄与するため,制限されていると論じる。 タスク固有の視覚パターンを捉えるために、極性プールと極性プールという2つのカスタマイズされた特徴抽出器を提案する。 極性プーリングは、より強力な分類のために意味キーポイントから収集された情報を豊かにする役割を担い、一方極端なプーリングは、正確な目標状態推定のためにオブジェクト境界の明確な視覚的パターンを促進する。 本稿では,タスク固有の特徴表現の有効性を,最近の進行トラッカーRTPに組み込むことで示す。 いくつかのベンチマークにおいて、当社のカスタム機能ベースのRTT(RPT++)は、TB-100、VOT2018、VOT2019、GOT-10k、TrackingNet、LaSOT上での新たな最先端のパフォーマンスを実現している。

While recent years have witnessed remarkable progress in the feature representation of visual tracking, the problem of feature misalignment between the classification and regression tasks is largely overlooked. The approaches of feature extraction make no difference for these two tasks in most of advanced trackers. We argue that the performance gain of visual tracking is limited since features extracted from the salient area provide more recognizable visual patterns for classification, while these around the boundaries contribute to accurately estimating the target state. We address this problem by proposing two customized feature extractors, named polar pooling and extreme pooling to capture task-specific visual patterns. Polar pooling plays the role of enriching information collected from the semantic keypoints for stronger classification, while extreme pooling facilitates explicit visual patterns of the object boundary for accurate target state estimation. We demonstrate the effectiveness of the task-specific feature representation by integrating it into the recent and advanced tracker RPT. Extensive experiments on several benchmarks show that our Customized Features based RPT (RPT++) achieves new state-of-the-art performances on OTB-100, VOT2018, VOT2019, GOT-10k, TrackingNet and LaSOT.
翻訳日:2021-10-26 16:04:50 公開日:2021-10-23
# 高速クラウド登録のためのカスケード特徴抽出

Cascading Feature Extraction for Fast Point Cloud Registration ( http://arxiv.org/abs/2110.12204v1 )

ライセンス: Link先を確認
Yoichiro Hisadome, Yusuke Matsui(参考訳) カスケード特徴抽出による3次元点雲の登録を高速化する手法を提案する。 深い特徴を用いた特徴抽出と登録を反復的に行うことにより, 精度の高い現在の手法を実現する。 しかし、反復的な特徴抽出には時間がかかる。 提案手法は,カスケード浅層を用いた計算コストを大幅に削減する。 私たちの考えは、最終精度に必ずしも寄与しない冗長な計算を省くことです。 提案手法は精度を損なうことなく既存の手法よりも約3倍高速である。

We propose a method for speeding up a 3D point cloud registration through a cascading feature extraction. The current approach with the highest accuracy is realized by iteratively executing feature extraction and registration using deep features. However, iterative feature extraction takes time. Our proposed method significantly reduces the computational cost using cascading shallow layers. Our idea is to omit redundant computations that do not always contribute to the final accuracy. The proposed approach is approximately three times faster than the existing methods without a loss of accuracy.
翻訳日:2021-10-26 16:04:23 公開日:2021-10-23
# セマンティックセグメンテーションのためのマルチドメインインクリメンタル学習

Multi-Domain Incremental Learning for Semantic Segmentation ( http://arxiv.org/abs/2110.12205v1 )

ライセンス: Link先を確認
Prachi Garg, Rohit Saluja, Vineeth N Balasubramanian, Chetan Arora, Anbumani Subramanian, C.V. Jawahar(参考訳) セマンティクスセグメンテーションのためのマルチドメイン学習における最近の取り組み : ユニバーサル・ジョイント・モデルによる複数地理的データセットの学習の試み 3つの人気のある道路シーンセグメンテーションデータセット上で連続的に行われる単純な微調整実験は、既存のセグメンテーションフレームワークが、視覚的に異なる一連の地理的領域で漸進的に学習できないことを示す。 新しいドメインを学ぶとき、モデルは破滅的に以前に学んだ知識を忘れる。 本研究では,セマンティクスセグメンテーションのためのマルチドメインインクリメンタル学習の問題を提案する。 特定の地理的領域で訓練されたモデルを考えると、目標は (i)新しい地理的領域を段階的に学習する。 (二)旧領でのパフォーマンスを維持しながら。 (iii) 前のドメインのデータセットがアクセスできないことを考える。 我々は,すべての領域に存在する同質な意味的特徴を捉えるために,普遍的に共有されたドメイン不変パラメータを割り当てる動的アーキテクチャを提案する。 この新しい最適化戦略は,古い知識の保持(安定性)と新しい知識の獲得(可塑性)のバランスの確保に役立つ。 提案手法は,ドイツの道路(都市景観),米国(bdd100k),インド(idd)からの実世界の運転シーンに関連する領域インクリメンタルな設定において有効であることを示す。

Recent efforts in multi-domain learning for semantic segmentation attempt to learn multiple geographical datasets in a universal, joint model. A simple fine-tuning experiment performed sequentially on three popular road scene segmentation datasets demonstrates that existing segmentation frameworks fail at incrementally learning on a series of visually disparate geographical domains. When learning a new domain, the model catastrophically forgets previously learned knowledge. In this work, we pose the problem of multi-domain incremental learning for semantic segmentation. Given a model trained on a particular geographical domain, the goal is to (i) incrementally learn a new geographical domain, (ii) while retaining performance on the old domain, (iii) given that the previous domain's dataset is not accessible. We propose a dynamic architecture that assigns universally shared, domain-invariant parameters to capture homogeneous semantic features present in all domains, while dedicated domain-specific parameters learn the statistics of each domain. Our novel optimization strategy helps achieve a good balance between retention of old knowledge (stability) and acquiring new knowledge (plasticity). We demonstrate the effectiveness of our proposed solution on domain incremental settings pertaining to real-world driving scenes from roads of Germany (Cityscapes), the United States (BDD100k), and India (IDD).
翻訳日:2021-10-26 16:04:16 公開日:2021-10-23
# MaskSplit: ショットセマンティックセマンティックセグメンテーションのための自己教師型メタラーニング

MaskSplit: Self-supervised Meta-learning for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2110.12207v1 )

ライセンス: Link先を確認
Mustafa Sercan Amac, Ahmet Sencan, Orhun Bugra Baran, Nazli Ikizler-Cinbis, Ramazan Gokberk Cinbis(参考訳) 他のマイナショット学習問題と同様に、マイナショットセグメンテーションは、特にセグメンテーションタスクでコストがかかる手動アノテーションの必要性を最小限にすることを目的としている。 数ショット設定によって、新しいテストクラスのコストが削減されるが、トレーニングデータに注釈をつける必要がある。 このニーズを緩和するために,少人数セグメンテーションモデル学習のための自己教師あり学習手法を提案する。 まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。 次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。 実験の結果,提案手法が有望な成果を出し,自己指導型トレーニングの可能性を強調した。 私たちの知る限りでは、これは自然画像上の教師なしの少数ショットセグメンテーション問題に対処する最初の作品です。

Just like other few-shot learning problems, few-shot segmentation aims to minimize the need for manual annotation, which is particularly costly in segmentation tasks. Even though the few-shot setting reduces this cost for novel test classes, there is still a need to annotate the training data. To alleviate this need, we propose a self-supervised training approach for learning few-shot segmentation models. We first use unsupervised saliency estimation to obtain pseudo-masks on images. We then train a simple prototype based model over different splits of pseudo masks and augmentations of images. Our extensive experiments show that the proposed approach achieves promising results, highlighting the potential of self-supervised training. To the best of our knowledge this is the first work that addresses unsupervised few-shot segmentation problem on natural images.
翻訳日:2021-10-26 16:03:53 公開日:2021-10-23
# 生成型adversarial networkを用いた顔スケッチと写真翻訳

Face sketch to photo translation using generative adversarial networks ( http://arxiv.org/abs/2110.12290v1 )

ライセンス: Link先を確認
Nastaran Moradzadeh Farid, Maryam Saeedi Fard, Ahmad Nickabadi(参考訳) 顔のスケッチを写実的な顔に翻訳することは、法執行機関やデジタルエンタテインメント業界など、多くのアプリケーションで興味深い重要なタスクである。 この課題の最も重要な課題の1つは、スケッチの色彩の欠如や、スケッチの皮膚組織の詳細など、スケッチと実際のイメージの間に固有の違いがある。 逆生成モデルが出現すると、スケッチから画像への合成のために多くの手法が提案されている。 しかし、これらのモデルはまだトレーニングに必要なペアデータの多さ、画像の解像度の低さ、生成された画像の非現実的な外観といった制限に苦しめられている。 本稿では,入力された顔のスケッチを,ペアのデータセットを必要とせずにカラフルな写真に変換する手法を提案する。 そこで我々は,事前学習した顔写真生成モデルを用いて高品質の自然顔写真を合成し,入力スケッチへの忠実性を維持するための最適化手法を用いる。 入力スケッチから抽出した顔特徴を顔生成モデルの潜在空間内のベクトルにマッピングするためにネットワークを訓練する。 また,様々な最適化基準について検討し,提案したモデルと最先端モデルのモデルとを定量的に定性的に比較した。 提案モデルでは,SSIM指数で0.655,97.59%のランク-1顔認識率で生成画像の品質が向上した。

Translating face sketches to photo-realistic faces is an interesting and essential task in many applications like law enforcement and the digital entertainment industry. One of the most important challenges of this task is the inherent differences between the sketch and the real image such as the lack of color and details of the skin tissue in the sketch. With the advent of adversarial generative models, an increasing number of methods have been proposed for sketch-to-image synthesis. However, these models still suffer from limitations such as the large number of paired data required for training, the low resolution of the produced images, or the unrealistic appearance of the generated images. In this paper, we propose a method for converting an input facial sketch to a colorful photo without the need for any paired dataset. To do so, we use a pre-trained face photo generating model to synthesize high-quality natural face photos and employ an optimization procedure to keep high-fidelity to the input sketch. We train a network to map the facial features extracted from the input sketch to a vector in the latent space of the face generating model. Also, we study different optimization criteria and compare the results of the proposed model with those of the state-of-the-art models quantitatively and qualitatively. The proposed model achieved 0.655 in the SSIM index and 97.59% rank-1 face recognition rate with higher quality of the produced images.
翻訳日:2021-10-26 16:03:39 公開日:2021-10-23
# PhoMT:ベトナム語機械翻訳のための高品質で大規模ベンチマークデータセット

PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation ( http://arxiv.org/abs/2110.12199v1 )

ライセンス: Link先を確認
Long Doan, Linh The Nguyen, Nguyen Luong Tran, Thai Hoang, Dat Quoc Nguyen(参考訳) ベトナム語機械翻訳コーパスIWSLT15よりも2.9万対大きい3200万文対の高品質で大規模なベトナム英語並列データセットを提案する。 我々は, ニューラルネットワークと, 有名な自動翻訳エンジンをデータセット上で比較し, 自動評価と人的評価の両方において, トレーニング済みのシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することで, 最高の性能が得られることを示す。 私たちの知る限りでは、これは最初の大規模なベトナム英語機械翻訳研究である。 我々の公開データセットと研究が、ベトナム語と英語の機械翻訳に関する将来の研究および応用の出発点になることを期待している。

We introduce a high-quality and large-scale Vietnamese-English parallel dataset of 3.02M sentence pairs, which is 2.9M pairs larger than the benchmark Vietnamese-English machine translation corpus IWSLT15. We conduct experiments comparing strong neural baselines and well-known automatic translation engines on our dataset and find that in both automatic and human evaluations: the best performance is obtained by fine-tuning the pre-trained sequence-to-sequence denoising auto-encoder mBART. To our best knowledge, this is the first large-scale Vietnamese-English machine translation study. We hope our publicly available dataset and study can serve as a starting point for future research and applications on Vietnamese-English machine translation.
翻訳日:2021-10-26 15:44:15 公開日:2021-10-23
# pastrie: reddit international englishのsupersenseタグでアノテートされた前置詞のコーパス

PASTRIE: A Corpus of Prepositions Annotated with Supersense Tags in Reddit International English ( http://arxiv.org/abs/2110.12243v1 )

ライセンス: Link先を確認
Michael Kranzlein, Emma Manning, Siyao Peng, Shira Wein, Aryaman Arora, Bradford Salen, Nathan Schneider(参考訳) 提案するPrepositions Annotated with Supersense Tags in Reddit International English(PASTRIE) corpusは、4つのL1話者(英語、フランス語、ドイツ語、スペイン語)の想定話者からの英語データの手動注釈付きPreposition Supersenseを含む新しいデータセットである。 アノテーションは包括的で、サンプル内のすべての前置型とトークンをカバーする。 コーパスとともに,L1sに含まれる分布パターンの解析を行い,L1sがL2の前置詞選択に与える影響について考察する。

We present the Prepositions Annotated with Supersense Tags in Reddit International English ("PASTRIE") corpus, a new dataset containing manually annotated preposition supersenses of English data from presumed speakers of four L1s: English, French, German, and Spanish. The annotations are comprehensive, covering all preposition types and tokens in the sample. Along with the corpus, we provide analysis of distributional patterns across the included L1s and a discussion of the influence of L1s on L2 preposition choice.
翻訳日:2021-10-26 15:44:01 公開日:2021-10-23
# MTGLS:限定スーパービジョンによるマルチタスクゲーズ推定

MTGLS: Multi-Task Gaze Estimation with Limited Supervision ( http://arxiv.org/abs/2110.12100v1 )

ライセンス: Link先を確認
Shreya Ghosh, Munawar Hayat, Abhinav Dhall, Jarrod Knibbe(参考訳) 大規模ラベル付きデータの非可用性のため、深いCNNであっても、ロバストな視線推定は難しい作業である。 さらに、注視アノテーションは時間を要するプロセスであり、特別なハードウェア設定を必要とする。 MTGLS:Limited Supervisionを用いたマルチタスク・ゲイズ推定フレームワークを提案する。 MTGLSは、市販の顔画像解析モデルから知識を抽出し、3つの補助信号で導かれる人間の目の特徴表現を学習する。 (a)局所的な顔のランドマークによって定義される瞳孔の視線(即ち疑似ガゼ) b) オイラー角による頭部の配置,及び (c)眼斑の向き(左右の目) 監視信号の固有ノイズを克服するため、mtglsはさらにノイズ分布モデリング手法を取り入れている。 実験の結果,MTGLS は,一連のデータセットで常に良好に機能する高度に一般化された表現を学習していることがわかった。 提案するフレームワークはCAVEの教師なしの最先端(6.43%)と、Gaze360(6.59%)データセットの教師なしの最先端メソッドよりも優れています。

Robust gaze estimation is a challenging task, even for deep CNNs, due to the non-availability of large-scale labeled data. Moreover, gaze annotation is a time-consuming process and requires specialized hardware setups. We propose MTGLS: a Multi-Task Gaze estimation framework with Limited Supervision, which leverages abundantly available non-annotated facial image data. MTGLS distills knowledge from off-the-shelf facial image analysis models, and learns strong feature representations of human eyes, guided by three complementary auxiliary signals: (a) the line of sight of the pupil (i.e. pseudo-gaze) defined by the localized facial landmarks, (b) the head-pose given by Euler angles, and (c) the orientation of the eye patch (left/right eye). To overcome inherent noise in the supervisory signals, MTGLS further incorporates a noise distribution modelling approach. Our experimental results show that MTGLS learns highly generalized representations which consistently perform well on a range of datasets. Our proposed framework outperforms the unsupervised state-of-the-art on CAVE (by 6.43%) and even supervised state-of-the-art methods on Gaze360 (by 6.59%) datasets.
翻訳日:2021-10-26 15:40:53 公開日:2021-10-23
# RCNet:オブジェクト検出のためのリバース機能ピラミッドとクロススケールシフトネットワーク

RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object Detection ( http://arxiv.org/abs/2110.12130v1 )

ライセンス: Link先を確認
Zhuofan Zong, Qianggang Cao, Biao Leng(参考訳) 特徴ピラミッドネットワーク(FPN)は、既存の高度なオブジェクト検出フレームワークにおけるマルチスケール機能融合に広く利用されている。 多くの先行研究が双方向特徴融合のための様々な構造を開発しており、いずれも検出性能を効果的に向上させることが示されている。 これらの複雑なネットワーク構造では,機能ピラミッドを一定の順序で積み重ねる必要があり,パイプラインが長くなり,推論速度が低下する。 また,隣接ピラミッドレベルの特徴のみを局所的融合演算により逐次的にマージするため,非隣接レベルの意味論は特徴ピラミッドで希釈される。 これらの課題に対処するため,RevFP(Reverse Feature Pyramid)とCSN(Cross-scale Shift Network)からなるRCNetというアーキテクチャを提案する。 RevFPは、局所的な双方向特徴融合を利用して、双方向ピラミッド推論パイプラインを簡素化する。 csnは隣接レベルと非隣接レベルの両方に表現を直接伝達し、マルチスケールな特徴をより相互に関連付ける。 MS COCOデータセットの大規模な実験は、RCNetが微妙な計算オーバーヘッドを持つ1段と2段の両方の検出器に対して、一貫して大幅な改善をもたらすことを示した。 特にRetinaNetは、FPNを我々の提案したモデルに置き換えることで、ベースラインよりも3.7ポイント高い40.2 APに強化される。 COCOテストデブでは、RCNetはシングルスケールの50.5 APで非常に競争力のある性能を達成できる。 コードは利用可能になる。

Feature pyramid networks (FPN) are widely exploited for multi-scale feature fusion in existing advanced object detection frameworks. Numerous previous works have developed various structures for bidirectional feature fusion, all of which are shown to improve the detection performance effectively. We observe that these complicated network structures require feature pyramids to be stacked in a fixed order, which introduces longer pipelines and reduces the inference speed. Moreover, semantics from non-adjacent levels are diluted in the feature pyramid since only features at adjacent pyramid levels are merged by the local fusion operation in a sequence manner. To address these issues, we propose a novel architecture named RCNet, which consists of Reverse Feature Pyramid (RevFP) and Cross-scale Shift Network (CSN). RevFP utilizes local bidirectional feature fusion to simplify the bidirectional pyramid inference pipeline. CSN directly propagates representations to both adjacent and non-adjacent levels to enable multi-scale features more correlative. Extensive experiments on the MS COCO dataset demonstrate RCNet can consistently bring significant improvements over both one-stage and two-stage detectors with subtle extra computational overhead. In particular, RetinaNet is boosted to 40.2 AP, which is 3.7 points higher than baseline, by replacing FPN with our proposed model. On COCO test-dev, RCNet can achieve very competitive performance with a single-model single-scale 50.5 AP. Codes will be made available.
翻訳日:2021-10-26 15:40:31 公開日:2021-10-23
# 動的ミラーDescent MPCを用いたモデルフリーオフポリシーRLのためのポリシー探索

Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy RL ( http://arxiv.org/abs/2110.12239v1 )

ライセンス: Link先を確認
Soumya Rani Samineni(参考訳) 強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアプローチを組み合わせて、Mf-RLの漸近性能とMb-RLの高サンプリング効率の両面から長所を得る。 これらの研究に触発されて,mf-rlのオフポリシー手法とmb-trajectory最適化のためのオンライン学習を統合する階層的フレームワークを提案する。 特に2つのループが提案され、このループは動的ミラーDescent based Model Predictive Control (DMD-MPC) を内部ループとして使用して最適な動作列を得る。 これらの作用は、外ループMf-RLを著しく加速するために使用される。 我々の定式化は、広く知られたMb-Mfアプローチを含む、MPCベースのポリシーと目的のクラスに対して汎用的であることを示す。 このフレームワークに基づいて、オフポリシーRLのサンプル効率を高めるための2つのアルゴリズムと、オンライン適応のためのエンドツーエンドRLアルゴリズムをガイドする2つのアルゴリズムを定義する。 そこで我々は,2つの新しいアルゴリズムを紹介した。内部ループのエリート分数法であるDynamic-Mirror Descent Model Predictive RL(DeMoRL)と,外部ループのオフポリシーRLであるSoft Actor-Critic(SAC)と,Augmented Random Search(ARS)を用いてトレーニングされた線形ポリシーをガイドする階層的フレームワークであるDynamic-Mirror Descent Model Predictive Layer(DeMo Layer)である。 本実験では,提案するデモrlの収束速度が向上し,ベンチマークmf-mb法と比較して優れた性能が得られた。 DeMo層は古典的なカートポールでテストされ、リニアポリシーを使って訓練されたカスタムメイドのクアドルペッドが使用された。

Recent works in Reinforcement Learning (RL) combine model-free (Mf)-RL algorithms with model-based (Mb)-RL approaches to get the best from both: asymptotic performance of Mf-RL and high sample-efficiency of Mb-RL. Inspired by these works, we propose a hierarchical framework that integrates online learning for the Mb-trajectory optimization with off-policy methods for the Mf-RL. In particular, two loops are proposed, where the Dynamic Mirror Descent based Model Predictive Control (DMD-MPC) is used as the inner loop to obtain an optimal sequence of actions. These actions are in turn used to significantly accelerate the outer loop Mf-RL. We show that our formulation is generic for a broad class of MPC based policies and objectives, and includes some of the well-known Mb-Mf approaches. Based on the framework we define two algorithms to increase sample efficiency of Off Policy RL and to guide end to end RL algorithms for online adaption respectively. Thus we finally introduce two novel algorithms: Dynamic-Mirror Descent Model Predictive RL(DeMoRL), which uses the method of elite fractions for the inner loop and Soft Actor-Critic (SAC) as the off-policy RL for the outer loop and Dynamic-Mirror Descent Model Predictive Layer(DeMo Layer), a special case of the hierarchical framework which guides linear policies trained using Augmented Random Search(ARS). Our experiments show faster convergence of the proposed DeMo RL, and better or equal performance compared to other Mf-Mb approaches on benchmark MuJoCo control tasks. The DeMo Layer was tested on classical Cartpole and custom-built Quadruped trained using Linear Policy.
翻訳日:2021-10-26 15:14:39 公開日:2021-10-23
# 機械学習が最大確率推定を無視できない理由

Why Machine Learning Cannot Ignore Maximum Likelihood Estimation ( http://arxiv.org/abs/2110.12112v1 )

ライセンス: Link先を確認
Mark J. van der Laan and Sherri Rose(参考訳) 分野としての機械学習の成長は、統計を含む分野全体の関心と出版物の増加とともに加速している。 必要な厳密さを実証する開発のために、この膨大な文献をどのように解析すればよいのか? 統計的推論を可能にする基礎理論を取り入れている写本はいくつありますか。 どのような進歩が、実際に最もインパクトをもたらすのか? これらのクエリに対して多くの回答を提示できる。 ここでは,予測関数や条件密度などの関数パラメータの最大値推定を機械学習が統合する,という本質的な考え方を述べる。

The growth of machine learning as a field has been accelerating with increasing interest and publications across fields, including statistics, but predominantly in computer science. How can we parse this vast literature for developments that exemplify the necessary rigor? How many of these manuscripts incorporate foundational theory to allow for statistical inference? Which advances have the greatest potential for impact in practice? One could posit many answers to these queries. Here, we assert that one essential idea is for machine learning to integrate maximum likelihood for estimation of functional parameters, such as prediction functions and conditional densities.
翻訳日:2021-10-26 15:11:33 公開日:2021-10-23
# 深層学習における認識的不確かさの定量化

Quantifying Epistemic Uncertainty in Deep Learning ( http://arxiv.org/abs/2110.12122v1 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam and Haofeng Zhang(参考訳) 不確かさの定量化は、機械学習の信頼性と堅牢性の中核にある。 不確実性は2つの異なるタイプで構成されており、しばしばアレテータ型と認識的不確実性と呼ばれる。 本稿では,深層学習における認識の不確実性に関する系統的研究を行う。 我々は、特に手続き的変動(訓練手順から)とデータ変動(訓練データから)を含む、異なる認識的不確実性の源を厳格に区別する。 我々は,このフレームワークを用いて,手続き変動を低減し,深層アンサンブルが予測をいかに強化するかを説明する。 また,よく訓練されたニューラルネットワークの疫学的不確実性を推定する2つの手法を提案する。 影響関数は、現代のニューラルネットワークによって破られた凸性仮定をバイパスする神経接核の理論に由来する。 もうひとつは、最小限の再トレーニング作業を実行しながら、影響関数の計算に費やしたグラム行列の反転を回避したバッチ処理である。 本稿では,従来の統計的手法を深層学習の推論に適用することの難しさについて論じる。

Uncertainty quantification is at the core of the reliability and robustness of machine learning. It is well-known that uncertainty consists of two different types, often referred to as aleatoric and epistemic uncertainties. In this paper, we provide a systematic study on the epistemic uncertainty in deep supervised learning. We rigorously distinguish different sources of epistemic uncertainty, including in particular procedural variability (from the training procedure) and data variability (from the training data). We use our framework to explain how deep ensemble enhances prediction by reducing procedural variability. We also propose two approaches to estimate epistemic uncertainty for a well-trained neural network in practice. One uses influence function derived from the theory of neural tangent kernel that bypasses the convexity assumption violated by modern neural networks. Another uses batching that bypasses the time-consuming Gram matrix inversion in the influence function calculation, while expending minimal re-training effort. We discuss how both approaches overcome some difficulties in applying classical statistical methods to the inference on deep learning.
翻訳日:2021-10-26 15:11:24 公開日:2021-10-23
# D-Optimal Online Experiment Design for Recommender Selectionに向けて

Towards the D-Optimal Online Experiment Design for Recommender Selection ( http://arxiv.org/abs/2110.12132v1 )

ライセンス: Link先を確認
Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) オンライン探索-探索を通して最適な推奨者を選択することは、従来のA/Bテストが遅くてコストがかかり、オフライン評価が歴史データの偏りを招きやすいという注目を集めている。 ユーザとレコメンデーションの両方が、報酬に有益なコンテキスト機能を持っているため、最適なオンライン実験を見つけることは簡単ではない。 この問題は、マルチアームのバンディットのレンズを通して形式化できるが、一般的な方法論がケース固有の構造、特に我々が研究しているeコマースのレコメンデーションを考慮しないため、既存のソリューションは満足できない。 このギャップを埋めるために、我々は古典統計学の文献から得られた \emph{d-optimal design} を利用して、探究中に得られる情報を最大限に活用し、オンライン推論の現代的なインフラといかにシームレスに適合するかを明らかにする。 最適な設計の有効性を示すために,公開コードと再現性のためのデータを用いた半合成シミュレーション研究を行う。 次に、Walmart.comのデプロイメント例を使って、提案手法の実践的洞察と有効性を十分に説明します。

Selecting the optimal recommender via online exploration-exploita tion is catching increasing attention where the traditional A/B testing can be slow and costly, and offline evaluations are prone to the bias of history data. Finding the optimal online experiment is nontrivial since both the users and displayed recommendations carry contextual features that are informative to the reward. While the problem can be formalized via the lens of multi-armed bandits, the existing solutions are found less satisfactorily because the general methodologies do not account for the case-specific structures, particularly for the e-commerce recommendation we study. To fill in the gap, we leverage the \emph{D-optimal design} from the classical statistics literature to achieve the maximum information gain during exploration, and reveal how it fits seamlessly with the modern infrastructure of online inference. To demonstrate the effectiveness of the optimal designs, we provide semi-synthetic simulation studies with published code and data for reproducibility purposes. We then use our deployment example on Walmart.com to fully illustrate the practical insights and effectiveness of the proposed methods.
翻訳日:2021-10-26 15:11:05 公開日:2021-10-23
# 戦略的複製に対するマルチアームバンディットアルゴリズム

Multi-armed Bandit Algorithm against Strategic Replication ( http://arxiv.org/abs/2110.12160v1 )

ライセンス: Link先を確認
Suho Shin, Seungjoon Lee, Jungseul Ok(参考訳) 我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。 エージェントは戦略的により多くの武器を複製して提出し、バンディットアルゴリズムの探索と探索のバランスを悪用することでより多くの報酬をもたらす可能性がある。 解析の結果、標準アルゴリズムは複製防止に失敗し、t$で線形後悔に苦しむことが明らかとなった。 我々は,複製のモチベーションを低下させ,少量の累積的後悔を実現するbanditアルゴリズムの設計を目指している。 我々は、いかなる平衡の下でも$O(\ln T)$-regretを持つ複製耐性の階層的 UCB (H-UCB) を考案する。 さらに,不注意を再現する不合理なエージェントを用いた現実的なシナリオにおいても,サブリニアな後悔を伴うRobust Hierarchical UCB (RH-UCB)を提案する。 数値実験により理論的結果を検証する。

We consider a multi-armed bandit problem in which a set of arms is registered by each agent, and the agent receives reward when its arm is selected. An agent might strategically submit more arms with replications, which can bring more reward by abusing the bandit algorithm's exploration-exploita tion balance. Our analysis reveals that a standard algorithm indeed fails at preventing replication and suffers from linear regret in time $T$. We aim to design a bandit algorithm which demotivates replications and also achieves a small cumulative regret. We devise Hierarchical UCB (H-UCB) of replication-proof, which has $O(\ln T)$-regret under any equilibrium. We further propose Robust Hierarchical UCB (RH-UCB) which has a sublinear regret even in a realistic scenario with irrational agents replicating careless. We verify our theoretical findings through numerical experiments.
翻訳日:2021-10-26 15:10:43 公開日:2021-10-23
# 確率帯域フィードバックを用いたベクトル最適化

Vector Optimization with Stochastic Bandit Feedback ( http://arxiv.org/abs/2110.12311v1 )

ライセンス: Link先を確認
\c{C}a\u{g}{\i}n Ararat, Cem Tekin(参考訳) 我々は,最高のアーム識別問題をベクトル値の報酬に拡張する確率的バンディットフィードバックを用いたベクトル最適化問題を導入する。 多次元平均報酬ベクトルを持つ$K$の設計を、多面的順序付けコーン$C$に従って部分的に順序付けする。 これは多目的最適化においてパレート集合の概念を一般化し、意思決定者の好みの異なる集合を$C$でエンコードすることを可能にする。 先行研究と異なり、方向のない被覆とギャップの概念に基づいてパレート集合の近似を定義する。 本研究では,各設計の評価が平均報酬ベクトルのノイズ観測をもたらす設定について検討する。 サブガウス雑音仮定の下では, 設計評価の最小値を持つ(\epsilon,\delta$)-P ACパレートセットを同定することを目的とした, (\epsilon,\delta$)-P AC設定において, na\ の除去アルゴリズムのサンプル複雑性について検討する。 特に,経験的報酬ベクトルの偏差に関する円錐依存性の幾何学的条件を,パレートフロントを正確に近似できる平均値から同定する。 理論的な結果を検証する実験を行い、$c$とサンプリング予算がpareto集合にどのように影響するかを説明し、返却された$\epsilon,\delta$)-p ac pareto集合と識別の成功を示す。

We introduce vector optimization problems with stochastic bandit feedback, which extends the best arm identification problem to vector-valued rewards. We consider $K$ designs, with multi-dimensional mean reward vectors, which are partially ordered according to a polyhedral ordering cone $C$. This generalizes the concept of Pareto set in multi-objective optimization and allows different sets of preferences of decision-makers to be encoded by $C$. Different than prior work, we define approximations of the Pareto set based on direction-free covering and gap notions. We study the setting where an evaluation of each design yields a noisy observation of the mean reward vector. Under subgaussian noise assumption, we investigate the sample complexity of the na\"ive elimination algorithm in an ($\epsilon,\delta$)- PAC setting, where the goal is to identify an ($\epsilon,\delta$)- PAC Pareto set with the minimum number of design evaluations. In particular, we identify cone-dependent geometric conditions on the deviations of empirical reward vectors from their mean under which the Pareto front can be approximated accurately. We run experiments to verify our theoretical results and illustrate how $C$ and sampling budget affect the Pareto set, returned ($\epsilon,\delta$)- PAC Pareto set and the success of identification.
翻訳日:2021-10-26 15:10:27 公開日:2021-10-23
# 頭頸部CT像におけるオルガン・アット・リスクのための2次元形状誘導セグメンテーションネットワーク

Dual Shape Guided Segmentation Network for Organs-at-Risk in Head and Neck CT Images ( http://arxiv.org/abs/2110.12192v1 )

ライセンス: Link先を確認
Shuai Wang, Theodore Yanagihara, Bhishamjit Chera, Colette Shen, Pew-Thian Yap, Jun Lian(参考訳) 頭頸部CT画像におけるOAR(Organs-at-risk)の正確なセグメンテーションは,頭頸部癌患者の放射線治療において重要なステップである。 しかし、多くのOARのマニュアル記述は、専門家の腫瘍学者にとっても時間と労力がかかる。 さらに,手動によるデライン化の結果は,高いイントラ・イントラ・バリアビリティの影響を受ける。 そこで本研究では,頭頸部ct画像中の9つの重要なオールを自動的に区分けする2つの形状誘導ネットワーク(dsgnet)を提案する。 ct画像におけるオールの形状変化と不明瞭な境界に対処するため,臓器特異的な一方的逆距離マップ(uidm)を用いてオルガン形状を表現し,セグメンテーション特徴を共有することにより,セグメンテーション予測に追従した直接形状指導と,セグメンテーション特徴の共有による形状指導の2つの視点からセグメンテーションタスクを誘導する。 直接形状指導では、セグメンテーション予測は真のラベルマスクによって監督されるだけでなく、ラベル空間から距離空間への単純かつ効果的なエンコーダ・デコーダマッピングによって実装される真のuidmによっても監視される。 ワイドシェイプガイドでは,共有特徴マップを最適化することによりセグメンテーションを容易にするためにUIDMが使用される。 提案手法の有効性と効率を正当化するために, 異なるボランティアの計699枚の画像を用いた頭頸部CTデータセットを構築し, その他の最先端手法との比較を行った。 9つの重要なOARに対して0.842のDice similarity Coefficient(DSC)の総合値は、デライン化品質の改善と時間的コストの削減に大きな可能性を示している。

The accurate segmentation of organs-at-risk (OARs) in head and neck CT images is a critical step for radiation therapy of head and neck cancer patients. However, manual delineation for numerous OARs is time-consuming and laborious, even for expert oncologists. Moreover, manual delineation results are susceptible to high intra- and inter-variability. To this end, we propose a novel dual shape guided network (DSGnet) to automatically delineate nine important OARs in head and neck CT images. To deal with the large shape variation and unclear boundary of OARs in CT images, we represent the organ shape using an organ-specific unilateral inverse-distance map (UIDM) and guide the segmentation task from two different perspectives: direct shape guidance by following the segmentation prediction and across shape guidance by sharing the segmentation feature. In the direct shape guidance, the segmentation prediction is not only supervised by the true label mask, but also by the true UIDM, which is implemented through a simple yet effective encoder-decoder mapping from the label space to the distance space. In the across shape guidance, UIDM is used to facilitate the segmentation by optimizing the shared feature maps. For the experiments, we build a large head and neck CT dataset with a total of 699 images from different volunteers, and conduct comprehensive experiments and comparisons with other state-of-the-art methods to justify the effectiveness and efficiency of our proposed method. The overall Dice Similarity Coefficient (DSC) value of 0.842 across the nine important OARs demonstrates great potential applications in improving the delineation quality and reducing the time cost.
翻訳日:2021-10-26 15:08:46 公開日:2021-10-23
# ISIC 2017データセットを用いた皮膚癌分類のための軽量ディープラーニングアーキテクチャのベンチマーク

Benchmarking of Lightweight Deep Learning Architectures for Skin Cancer Classification using ISIC 2017 Dataset ( http://arxiv.org/abs/2110.12270v1 )

ライセンス: Link先を確認
Abdurrahim Yilmaz, Mucahit Kalebasi, Yegor Samoylenko, Mehmet Erhan Guvenilir, Huseyin Uvet(参考訳) 皮膚がんは致命的ながんの1つであり、世界でも一般的である。 最近、皮膚がんに罹患する人の数が急増している。 そのため、深層学習による皮膚がん分類に関する研究は日々増えている。 この領域での作業の成長のために、ISIC(International Skin Imaging Collaboration)組織が設立され、オープンデータセットアーカイブを作成した。 この研究は、isic 2017 challengeの画像から得られたものである。 皮膚がんの画像は前処理され、データは拡張された。 その後、これらの画像は転写学習と微調整アプローチで訓練され、この方法で深層学習モデルが作成された。 3つの異なるモバイルディープラーニングモデルと3つの異なるバッチサイズ値がそれぞれ決定され、合計9つのモデルが作成された。 これらのモデルの中で、NASNetMobileモデルは16バッチサイズで最高の結果を得た。 このモデルの精度値は82.00%、精度は81.77%、F1スコア値は0.8038である。 本手法では,パラメータの少ないモバイルディープラーニングモデルをベンチマークし,モデルの結果を比較する。

Skin cancer is one of the deadly types of cancer and is common in the world. Recently, there has been a huge jump in the rate of people getting skin cancer. For this reason, the number of studies on skin cancer classification with deep learning are increasing day by day. For the growth of work in this area, the International Skin Imaging Collaboration (ISIC) organization was established and they created an open dataset archive. In this study, images were taken from ISIC 2017 Challenge. The skin cancer images taken were preprocessed and data augmented. Later, these images were trained with transfer learning and fine-tuning approach and deep learning models were created in this way. 3 different mobile deep learning models and 3 different batch size values were determined for each, and a total of 9 models were created. Among these models, the NASNetMobile model with 16 batch size got the best result. The accuracy value of this model is 82.00%, the precision value is 81.77% and the F1 score value is 0.8038. Our method is to benchmark mobile deep learning models which have few parameters and compare the results of the models.
翻訳日:2021-10-26 15:08:16 公開日:2021-10-23
# 分類誤差推定のための一般化された置換

Generalized Resubstitution for Classification Error Estimation ( http://arxiv.org/abs/2110.12285v1 )

ライセンス: Link先を確認
Parisa Ghane and Ulisses Braga-Neto(参考訳) 経験的尺度に基づく一般化された置換分類器誤差推定器のファミリーを提案する。 これらのエラー推定器は計算効率が高く、分類器の再訓練を必要としない。 プレーン再置換誤差推定器は標準経験的尺度の選択に対応する。 その他の経験的尺度の選択は、強化された後確率、ガウス過程、ベイズ誤差推定器につながり、さらに、強化後確率誤差推定器を一般化再置換推定器の新しいファミリーとして提案する。 2クラスの場合、対応する一般化経験尺度が標準経験尺度に均一に収束し、分類規則が有限VC次元を持つ場合、特徴とラベルの分布にかかわらず、一般化再置換推定器は一貫して漸近的に不偏であることを示す。 一般化された置換推定器は通常、そのバイアスと分散を制御するために調整できる過度パラメータを持ち、柔軟性が増す。 汎用再置換誤差推定器の有限サンプル性能を評価する合成データに基づく各種分類規則を用いた数値実験 さらに、LeNet-5畳み込みニューラルネットワークとMNISTデータセットを用いた画像分類実験の結果、コンピュータビジョンのためのディープラーニングにおけるこの種のエラー推定装置の可能性を示した。

We propose the family of generalized resubstitution classifier error estimators based on empirical measures. These error estimators are computationally efficient and do not require re-training of classifiers. The plain resubstitution error estimator corresponds to choosing the standard empirical measure. Other choices of empirical measure lead to bolstered, posterior-probabilit y, Gaussian-process, and Bayesian error estimators; in addition, we propose bolstered posterior-probabilit y error estimators as a new family of generalized resubstitution estimators. In the two-class case, we show that a generalized resubstitution estimator is consistent and asymptotically unbiased, regardless of the distribution of the features and label, if the corresponding generalized empirical measure converges uniformly to the standard empirical measure and the classification rule has a finite VC dimension. A generalized resubstitution estimator typically has hyperparameters that can be tuned to control its bias and variance, which adds flexibility. Numerical experiments with various classification rules trained on synthetic data assess the thefinite-sample performance of several representative generalized resubstitution error estimators. In addition, results of an image classification experiment using the LeNet-5 convolutional neural network and the MNIST data set demonstrate the potential of this class of error estimators in deep learning for computer vision.
翻訳日:2021-10-26 14:44:04 公開日:2021-10-23
# ラベル雑音下でのロバストな微分可能なアーキテクチャ探索に向けて

Towards a Robust Differentiable Architecture Search under Label Noise ( http://arxiv.org/abs/2110.12197v1 )

ライセンス: Link先を確認
Christian Simon, Piotr Koniusz, Lars Petersson, Yan Han, Mehrtash Harandi(参考訳) Neural Architecture Search (NAS)は、堅牢なニューラルアーキテクチャを設計するゲームチェンジャーである。 NASによって設計されたアーキテクチャは、精度、サイズ、メモリフットプリント、FLOPの点で、最高の手動ネットワーク設計よりも優れるか、競合する。 とはいえ、これまでの研究では、高品質なデータをきれいにするためのNASアルゴリズムの開発に重点を置いていた。 本稿では、微分可能なNASアルゴリズムに着目し、クラスラベルがうるさい場合、バニラNASアルゴリズムが性能損失に悩まされることを示す。 この問題に対処するために,我々は情報ボトルネックの原理をレギュラライザとして利用する。 これにより、学習過程に含まれるノイズ注入操作を開発し、ノイズサンプルからネットワークを学習するのを防ぐことができる。 実験結果から, ノイズ注入動作は, データがクリーンであればnasアルゴリズムの性能を低下させることはないことがわかった。 対照的に、データにノイズがある場合、我々のアルゴリズムが学習したアーキテクチャは、ラベルノイズの存在下で学習するための高度なメカニズムを備えたアルゴリズムよりも快適に優れている。 ノイズラベルの存在下で機能するように設計された多くのアルゴリズムとは対照的に,ノイズの性質とその特性に関する事前知識は,アルゴリズムに必要ではない。

Neural Architecture Search (NAS) is the game changer in designing robust neural architectures. Architectures designed by NAS outperform or compete with the best manual network designs in terms of accuracy, size, memory footprint and FLOPs. That said, previous studies focus on developing NAS algorithms for clean high quality data, a restrictive and somewhat unrealistic assumption. In this paper, focusing on the differentiable NAS algorithms, we show that vanilla NAS algorithms suffer from a performance loss if class labels are noisy. To combat this issue, we make use of the principle of information bottleneck as a regularizer. This leads us to develop a noise injecting operation that is included during the learning process, preventing the network from learning from noisy samples. Our empirical evaluations show that the noise injecting operation does not degrade the performance of the NAS algorithm if the data is indeed clean. In contrast, if the data is noisy, the architecture learned by our algorithm comfortably outperforms algorithms specifically equipped with sophisticated mechanisms to learn in the presence of label noise. In contrast to many algorithms designed to work in the presence of noisy labels, prior knowledge about the properties of the noise and its characteristics are not required for our algorithm.
翻訳日:2021-10-26 14:39:01 公開日:2021-10-23
# ヒンディー語とマラティ語におけるヘイトと攻撃的発話検出

Hate and Offensive Speech Detection in Hindi and Marathi ( http://arxiv.org/abs/2110.12200v1 )

ライセンス: Link先を確認
Abhishek Velankar, Hrushikesh Patil, Amol Gore, Shubham Salunke, Raviraj Joshi(参考訳) 感性分析はテキストデータの極性を決定する最も基本的なNLPタスクである。 多言語テキストの分野でもかなりの量の作業が行われている。 特にヒンディー語やマラティー語のようなインドの言語では、データの入手が不十分なため、憎しみや攻撃的な音声検出は困難に直面している。 本研究はヒンディー語とマラティ語のテキストにおけるヘイトと攻撃的発話の検出について検討する。 この問題は,美術深層学習の手法を用いてテキスト分類タスクとして定式化される。 我々は,CNN,LSTM,多言語BERT,IndicBERT,単言語RoBERTaなど,さまざまなディープラーニングアーキテクチャについて検討する。 CNNとLSTMに基づく基本モデルは、高速テキストワード埋め込みで拡張されている。 これらのアルゴリズムを比較するために、hasoc 2021 hindiとmarathi hate speechデータセットを使用する。 marathiデータセットはバイナリラベルからなり、hindiデータセットはバイナリとよりきめの細かいラベルで構成される。 我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。 さらに、通常のハイパーパラメータチューニングでは、基本モデルは細粒度ヒンディーデータセット上のBERTベースのモデルよりも優れている。

Sentiment analysis is the most basic NLP task to determine the polarity of text data. There has been a significant amount of work in the area of multilingual text as well. Still hate and offensive speech detection faces a challenge due to inadequate availability of data, especially for Indian languages like Hindi and Marathi. In this work, we consider hate and offensive speech detection in Hindi and Marathi texts. The problem is formulated as a text classification task using the state of the art deep learning approaches. We explore different deep learning architectures like CNN, LSTM, and variations of BERT like multilingual BERT, IndicBERT, and monolingual RoBERTa. The basic models based on CNN and LSTM are augmented with fast text word embeddings. We use the HASOC 2021 Hindi and Marathi hate speech datasets to compare these algorithms. The Marathi dataset consists of binary labels and the Hindi dataset consists of binary as well as more-fine grained labels. We show that the transformer-based models perform the best and even the basic models along with FastText embeddings give a competitive performance. Moreover, with normal hyper-parameter tuning, the basic models perform better than BERT-based models on the fine-grained Hindi dataset.
翻訳日:2021-10-26 14:11:05 公開日:2021-10-23
# Gumbel Sinkhorn Network が学習したグラフ強化学習潜時置換の展望

Foresight of Graph Reinforcement Learning Latent Permutations Learnt by Gumbel Sinkhorn Network ( http://arxiv.org/abs/2110.12144v1 )

ライセンス: Link先を確認
Tianqi Shen, Hong Zhang, Ding Yuan, Jiaping Xiao, Yifan Yang(参考訳) エージェント間の相互の相互作用を理解するために,グラフニューラルネットワークと組み合わされた強化学習アルゴリズムが提案されている。 しかし、複雑でダイナミックなマルチエージェント環境は、グラフトポロジー構造だけでなく、エージェントの出現、消失、移動による構造の進化過程を包括的に表すことのできる、より創発的なグラフニューラルネットワークを必要とする。 そこで,本研究では,グラフアテンションネットワークがマルチエージェント環境の基盤となるグラフトポロジ構造を高度に表現し,潜在置換を学習することにより,ガムベルシンクホーンネットワークの助けを借りてグラフの動的トポロジ構造に適応できるガムベルシンクホーングラフアテンション強化学習を提案する。 シミュレーションの結果,提案手法がペッティングズーのマルチエージェント環境における既存手法よりも潜時変分学習の方が優れていることを示す。

Vital importance has necessity to be attached to cooperation in multi-agent environments, as a result of which some reinforcement learning algorithms combined with graph neural networks have been proposed to understand the mutual interplay between agents. However, highly complicated and dynamic multi-agent environments require more ingenious graph neural networks, which can comprehensively represent not only the graph topology structure but also evolution process of the structure due to agents emerging, disappearing and moving. To tackle these difficulties, we propose Gumbel Sinkhorn graph attention reinforcement learning, where a graph attention network highly represents the underlying graph topology structure of the multi-agent environment, and can adapt to the dynamic topology structure of graph better with the help of Gumbel Sinkhorn network by learning latent permutations. Empirically, simulation results show how our proposed graph reinforcement learning methodology outperforms existing methods in the PettingZoo multi-agent environment by learning latent permutations.
翻訳日:2021-10-26 14:08:51 公開日:2021-10-23
# マップインダクション:構成空間サブマップ学習による新しい環境の効率的な探索

Map Induction: Compositional spatial submap learning for efficient exploration in novel environments ( http://arxiv.org/abs/2110.12301v1 )

ライセンス: Link先を確認
Sugandha Sharma, Aidan Curtis, Marta Kryven, Josh Tenenbaum, Ila Fiete(参考訳) 人間は専門家の探検家です。 この効率を支える計算認知メカニズムを理解することは、人間の心の研究を進め、より効率的な探索アルゴリズムを可能にする。 先行研究した空間から収集した空間情報を用いて観測されていない空間の構造を推定することにより、人間が効率的に新しい環境を探索することを仮定する。 この認知過程は、強い空間的優先を持つ不確かさを明示的に理由づける階層ベイズ的枠組みにおけるプログラム誘導を用いて計算的にモデル化することができる。 本研究では,新しい行動地図誘導タスクを用いて,非帰納的モデルよりも人間の探索行動を説明し,現実的な空間ナビゲーション領域に適用した場合に,最先端の計画アルゴリズムより優れていることを示す。

Humans are expert explorers. Understanding the computational cognitive mechanisms that support this efficiency can advance the study of the human mind and enable more efficient exploration algorithms. We hypothesize that humans explore new environments efficiently by inferring the structure of unobserved spaces using spatial information collected from previously explored spaces. This cognitive process can be modeled computationally using program induction in a Hierarchical Bayesian framework that explicitly reasons about uncertainty with strong spatial priors. Using a new behavioral Map Induction Task, we demonstrate that this computational framework explains human exploration behavior better than non-inductive models and outperforms state-of-the-art planning algorithms when applied to a realistic spatial navigation domain.
翻訳日:2021-10-26 14:08:31 公開日:2021-10-23
# 視覚認識のための注意駆動階層型マルチスケール表現

An attention-driven hierarchical multi-scale representation for visual recognition ( http://arxiv.org/abs/2110.12178v1 )

ライセンス: Link先を確認
Zachary Wharton, Ardhendu Behera and Asish Bera(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。 これは主に、画像を小さな部分に分割し、複数の局所的な特徴を抽出し、意思決定のために高度に表現力のある表現を構築するために構成する能力に起因している。 しかし、コンボリューション操作は、固定サイズのウィンドウで動作するため、画素間の任意の関係のような長距離依存関係をキャプチャできない。 したがって、微妙な変化(例えば細粒度の視覚認識)を判別するのには適さない。 そこで本提案手法では,多層階層領域間の関係性を確立することにより,情報を集約するグラフ畳み込みネットワーク(gcns)を探索することにより,高レベルな長距離依存性を捉える。 これらの領域はより小さい(近視)からより大きな(遠視)まで構成され、領域間の依存性は、ある領域の近傍を強調するためにグラフ構造によって導かれる革新的な注意主導のメッセージ伝達によってモデル化される。 本手法は, きめ細かな視覚的分類問題の解決に極めて有効である。 これは最先端の3つを上回り、他の2つのデータセットで非常に競争力がある。

Convolutional Neural Networks (CNNs) have revolutionized the understanding of visual content. This is mainly due to their ability to break down an image into smaller pieces, extract multi-scale localized features and compose them to construct highly expressive representations for decision making. However, the convolution operation is unable to capture long-range dependencies such as arbitrary relations between pixels since it operates on a fixed-size window. Therefore, it may not be suitable for discriminating subtle changes (e.g. fine-grained visual recognition). To this end, our proposed method captures the high-level long-range dependencies by exploring Graph Convolutional Networks (GCNs), which aggregate information by establishing relationships among multi-scale hierarchical regions. These regions consist of smaller (closer look) to larger (far look), and the dependency between regions is modeled by an innovative attention-driven message propagation, guided by the graph structure to emphasize the neighborhoods of a given region. Our approach is simple yet extremely effective in solving both the fine-grained and generic visual classification problems. It outperforms the state-of-the-arts with a significant margin on three and is very competitive on other two datasets.
翻訳日:2021-10-26 13:40:48 公開日:2021-10-23
# MisMatch: 整合性に基づく半監督型医用画像セグメンテーションに注意して予測的信念を変えることを学ぶ

MisMatch: Learning to Change Predictive Confidences with Attention for Consistency-Based, Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2110.12179v1 )

ライセンス: Link先を確認
Mou-Cheng Xu, Yu-Kun Zhou, Chen Jin, Stefano B. Blumberg, Frederick J. Wilson, Marius De Groot, Neil P. Oxtoby, Daniel C. Alexander and Joseph Jacob(参考訳) ラベルの欠如は、画像分類とセグメンテーションのための深層学習に基づく方法、特に医用イメージングのような応用における基本的な制約の1つである。 semi-supervised learning (ssl) はラベルcarcityの課題に対処するための有望な方法である。 最先端のSSLメソッドでは、一貫性の正則化を利用して、予測信頼性の摂動に不変な非競合予測を学習する。 しかし、このようなSSLアプローチは、サブ最適かもしれない手作りの拡張技術に依存している。 本稿では,新しい一貫性に基づく半教師付きセグメンテーション手法であるミスマッチを提案する。 MisMatchは、自信を増減してペアの予測を自動生成する。 MisMatchはエンコーダと2つのデコーダで構成される。 ある復号器は、不正なデータに基づいて関心領域(RoI)の正の注意を学習し、RoIの高い信頼度予測を生成する。 他方の復号器は、同じ不正なデータに基づいてRoIの負の注意を学習し、低い信頼度予測を生成する。 次に、デコーダのペア付き予測間で整合正則化を適用する。 評価のために,まずCTを用いた肺血管分割作業においてクロスバリデーションを行い,全ラベルの6.25%しか使用していない場合,MisMatchは統計的に最先端の半教師法より優れていることを示す。 さらに、全ラベルの6.25%を使用したミスマッチのパフォーマンスは、利用可能なすべてのラベルを使用する最先端のメソッドに匹敵する。 第2の実験では、MisMatchはMRIベースの脳腫瘍セグメンテーションタスクにおいて最先端の手法より優れている。

The lack of labels is one of the fundamental constraints in deep learning based methods for image classification and segmentation, especially in applications such as medical imaging. Semi-supervised learning (SSL) is a promising method to address the challenge of labels carcity. The state-of-the-art SSL methods utilise consistency regularisation to learn unlabelled predictions which are invariant to perturbations on the prediction confidence. However, such SSL approaches rely on hand-crafted augmentation techniques which could be sub-optimal. In this paper, we propose MisMatch, a novel consistency based semi-supervised segmentation method. MisMatch automatically learns to produce paired predictions with increasedand decreased confidences. MisMatch consists of an encoder and two decoders. One decoder learns positive attention for regions of interest (RoI) on unlabelled data thereby generating higher confidence predictions of RoI. The other decoder learns negative attention for RoI on the same unlabelled data thereby generating lower confidence predictions. We then apply a consistency regularisation between the paired predictions of the decoders. For evaluation, we first perform extensive cross-validation on a CT-based pulmonary vessel segmentation task and show that MisMatch statistically outperforms state-of-the-art semi-supervised methods when only 6.25% of the total labels are used. Furthermore MisMatch performance using 6.25% ofthe total labels is comparable to state-of-the-art methodsthat utilise all available labels. In a second experiment, MisMatch outperforms state-of-the-art methods on an MRI-based brain tumour segmentation task.
翻訳日:2021-10-26 13:40:29 公開日:2021-10-23
# Attend and Guide (AG-Net): キーポイント駆動型画像認識のためのDeep Network

Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep Network for Image Recognition ( http://arxiv.org/abs/2110.12183v1 )

ライセンス: Link先を確認
Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis and Ardhendu Behera(参考訳) 本稿では,静止画像における視覚認識のための新しいキーポイントに基づく注意機構を提案する。 特徴クラスを持つ画像を認識するディープ畳み込みニューラルネットワーク(CNN)は大きな成功を収めているが、粒度の細かい変化を識別する性能は同じレベルではない。 そこで我々は,新しい注意機構を用いて微細な変化をリンクする意味のある特徴を学習する,エンドツーエンドCNNモデルを提案する。 意味領域(srs)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵となる。 検出されたキーポイントを所定の画像にグループ化することで、これらのSRを自動的に識別する。 画像認識におけるこれらのSRの `usefulness'' は、与えられたタスクに最も関係のある画像の一部に焦点を当てた革新的な注意機構を用いて測定される。 このフレームワークは、従来のきめ細かい画像認識タスクに適用され、学習と予測のために手動の注釈付き領域(例えば、体の部分やオブジェクトのバウンディングボックスなど)を必要としない。 さらに、提案するキーポイント駆動注意機構を既存のcnnモデルに容易に統合することができる。 このフレームワークは6つの多様なベンチマークデータセットで評価される。 このモデルは、Distracted Driver V1 (Acc: 3.39%)、Distracted Driver V2 (Acc: 6.58%)、Stanford-40 Actions (mAP: 2.15%)、People Playing Musical Instruments (mAP: 16.05%)、Food-101 (Acc: 6.30%)、Caltech-256 (Acc: 2.59%)のデータセットを使用して、最先端のアプローチよりも優れている。

This paper presents a novel keypoints-based attention mechanism for visual recognition in still images. Deep Convolutional Neural Networks (CNNs) for recognizing images with distinctive classes have shown great success, but their performance in discriminating fine-grained changes is not at the same level. We address this by proposing an end-to-end CNN model, which learns meaningful features linking fine-grained changes using our novel attention mechanism. It captures the spatial structures in images by identifying semantic regions (SRs) and their spatial distributions, and is proved to be the key to modelling subtle changes in images. We automatically identify these SRs by grouping the detected keypoints in a given image. The ``usefulness'' of these SRs for image recognition is measured using our innovative attentional mechanism focusing on parts of the image that are most relevant to a given task. This framework applies to traditional and fine-grained image recognition tasks and does not require manually annotated regions (e.g. bounding-box of body parts, objects, etc.) for learning and prediction. Moreover, the proposed keypoints-driven attention mechanism can be easily integrated into the existing CNN models. The framework is evaluated on six diverse benchmark datasets. The model outperforms the state-of-the-art approaches by a considerable margin using Distracted Driver V1 (Acc: 3.39%), Distracted Driver V2 (Acc: 6.58%), Stanford-40 Actions (mAP: 2.15%), People Playing Musical Instruments (mAP: 16.05%), Food-101 (Acc: 6.30%) and Caltech-256 (Acc: 2.59%) datasets.
翻訳日:2021-10-26 13:40:05 公開日:2021-10-23
# 雑音比損失関数の信号

Signal to Noise Ratio Loss Function ( http://arxiv.org/abs/2110.12275v1 )

ライセンス: Link先を確認
Ali Ghobadzadeh and Amir Lashkari(参考訳) 本研究は,クロスエントロピー損失によって見過される情報源を活用し,分類問題を対象とした新たな損失関数を提案する。 まず、与えられた区間におけるランダム変数の確率について、最も厳密な上界と下界の連続を導出する。 第二に、データの確率密度関数(pdf)の形が与えられるパラメトリック分類問題に対する真の正の確率に対して下限が提案されている。 未知の最適関数を求める閉形式は、真の正の確率を最大化するために導かれる。 最後に、データのpdfが未知の場合、提案した境界を適用して、真正の確率の下位境界と偽正の確率の上限を求め、境界を組み合わせて与えられる損失関数を用いてそれらを最適化する。 その結果,損失関数は信号対雑音比の対数内および対数内における関数であることがわかった。 分類問題の利点を示すための提案を実証的に評価する。

This work proposes a new loss function targeting classification problems, utilizing a source of information overlooked by cross entropy loss. First, we derive a series of the tightest upper and lower bounds for the probability of a random variable in a given interval. Second, a lower bound is proposed for the probability of a true positive for a parametric classification problem, where the form of probability density function (pdf) of data is given. A closed form for finding the optimal function of unknowns is derived to maximize the probability of true positives. Finally, for the case that the pdf of data is unknown, we apply the proposed boundaries to find the lower bound of the probability of true positives and upper bound of the probability of false positives and optimize them using a loss function which is given by combining the boundaries. We demonstrate that the resultant loss function is a function of the signal to noise ratio both within and across logits. We empirically evaluate our proposals to show their benefit for classification problems.
翻訳日:2021-10-26 13:39:30 公開日:2021-10-23
# 階層的少数ショット生成モデル

Hierarchical Few-Shot Generative Models ( http://arxiv.org/abs/2110.12279v1 )

ライセンス: Link先を確認
Giorgio Giannone, Ole Winther(参考訳) 少数の生成モデルは、限られた例のみを観察することで、分布からデータを生成することができるべきである。 わずかなショット学習では、モデルは、異なるアルファベットの文字の集合や異なる型オブジェクトのイメージの集合など、いくつかの基本的な特性を共有する異なるディストリビューションの多くのセットからのデータに基づいて訓練される。 本研究では,神経統計学を完全階層的アプローチに拡張した潜在変数法について検討した。 提案手法は, 反復データサンプリング, 確率ベースモデル比較, 分布一般化による適応自由化に拡張する。 以上の結果から,階層的な定式化は,小データ構造における集合内の内在的変動をよりよく捉えることが示唆された。 この作業により、潜伏変数アプローチを数ショット学習に一般化し、現在の最先端の深層生成モデルと容易に対応可能な定式化による大規模数ショット生成に向けて一歩前進する。

A few-shot generative model should be able to generate data from a distribution by only observing a limited set of examples. In few-shot learning the model is trained on data from many sets from different distributions sharing some underlying properties such as sets of characters from different alphabets or sets of images of different type objects. We study a latent variables approach that extends the Neural Statistician to a fully hierarchical approach with an attention-based point to set-level aggregation. We extend the previous work to iterative data sampling, likelihood-based model comparison, and adaptation-free out of distribution generalization. Our results show that the hierarchical formulation better captures the intrinsic variability within the sets in the small data regime. With this work we generalize deep latent variable approaches to few-shot learning, taking a step towards large-scale few-shot generation with a formulation that readily can work with current state-of-the-art deep generative models.
翻訳日:2021-10-26 13:24:38 公開日:2021-10-23
# (参考訳) 確率部分微分方程式のオンライン制御のための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Online Control of Stochastic Partial Differential Equations ( http://arxiv.org/abs/2110.11265v2 )

ライセンス: CC BY 4.0
Erfan Pirmorad, Faraz Khoshbakhtian, Farnam Mansouri, Amir-massoud Farahmand(参考訳) 物理科学、生命科学、金融など多くの分野において、制御アプローチは微分方程式によって支配される複雑な力学系において望ましい目標を達成するために用いられる。 本研究では,確率偏微分方程式(spde)を強化学習問題として制御する問題を定式化する。 本稿では,高次元状態動作空間を有するspdシステムのオンライン制御のための,深い決定論的ポリシー勾配法を用いた学習に基づく分散制御手法を提案する。 本研究では, 確率バーガー方程式の制御問題に対して, 無限大領域における乱流を記述する手法の性能を検証した。

In many areas, such as the physical sciences, life sciences, and finance, control approaches are used to achieve a desired goal in complex dynamical systems governed by differential equations. In this work we formulate the problem of controlling stochastic partial differential equations (SPDE) as a reinforcement learning problem. We present a learning-based, distributed control approach for online control of a system of SPDEs with high dimensional state-action space using deep deterministic policy gradient method. We tested the performance of our method on the problem of controlling the stochastic Burgers' equation, describing a turbulent fluid flow in an infinitely large domain.
翻訳日:2021-10-26 13:07:42 公開日:2021-10-23
# 前向きSDE理論を用いたSchr\"odinger Bridgeの模擬訓練

Likelihood Training of Schr\"odinger Bridge using Forward-Backward SDEs Theory ( http://arxiv.org/abs/2110.11291v2 )

ライセンス: Link先を確認
Tianrong Chen, Guan-Horng Liu, Evangelos A. Theodorou(参考訳) Schr\"odinger Bridge (SB) は、Scored-based Generative Model (SGM) と比較して、その数学的柔軟性のために、深い生成モデルにおいて注目を集めている最適な輸送問題である。 しかし、SBの最適化原理が、しばしばパラメータ化されたログライクな目的の構築に依存する深層生成モデルの近代的な訓練と関係しているかどうかは不明である。 本研究では,SBの最適条件を一組のSDEに変換する確率的最適制御に現れる数学的方法論である,前方確率微分方程式理論に基づくSBモデルの確率的トレーニングのための新しい計算フレームワークを提案する。 重要なことに、これらのSDEはSBの潜在的目的を構築するために使用することができ、驚くべきことに、SGMの目的を特別なケースとして一般化することができる。 これにより、現代の生成訓練技術の応用を損なうことなく、sbの最適性を継承する新しい最適化原理が導かれるとともに、mnist、celeba、cifar10上の現実的な画像を生成するのに匹敵する結果が得られることを示した。

Schr\"odinger Bridge (SB) is an optimal transport problem that has received increasing attention in deep generative modeling for its mathematical flexibility compared to the Scored-based Generative Model (SGM). However, it remains unclear whether the optimization principle of SB relates to the modern training of deep generative models, which often rely on constructing parameterized log-likelihood objectives.This raises questions on the suitability of SB models as a principled alternative for generative applications. In this work, we present a novel computational framework for likelihood training of SB models grounded on Forward-Backward Stochastic Differential Equations Theory -- a mathematical methodology appeared in stochastic optimal control that transforms the optimality condition of SB into a set of SDEs. Crucially, these SDEs can be used to construct the likelihood objectives for SB that, surprisingly, generalizes the ones for SGM as special cases. This leads to a new optimization principle that inherits the same SB optimality yet without losing applications of modern generative training techniques, and we show that the resulting training algorithm achieves comparable results on generating realistic images on MNIST, CelebA, and CIFAR10.
翻訳日:2021-10-26 11:41:16 公開日:2021-10-23