このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211126となっている論文です。

PDF登録状況(公開日: 20211126)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 多変量時系列データに対する相関型特徴集合選択 [全文訳有]

Correlation Based Feature Subset Selection for Multivariate Time-Series Data ( http://arxiv.org/abs/2112.03705v1 )

ライセンス: CC BY 4.0
Bahavathy Kathirgamanathan, Padraig Cunningham(参考訳) 多変量時系列データのストリーム内の相関は、通常、特定のデータマイニングタスクに必要な機能のごく一部のみであることを意味する。 本稿では,1つの特徴分類器出力の相関パターンに基づいて特徴集合選択を行う時系列データ(msts)に対して,メリットスコアと呼ばれる手法を提案する。 機能サブセットを'良い'機能サブセットを選択する基盤として使用する機能サブセットにメリットスコアを割り当てます。 提案手法は,UEA多変量時系列アーカイブのデータセットを用いて評価し,特徴部分選択のためのWrapperアプローチと比較する。 MSTSは特徴部分集合の選択に有効であることが示されており、特にデータ還元技術として有効である。 mstsは、適切な機能サブセットを選択する際のラッパー戦略よりも計算効率が良く、いくつかの大きなデータセットでは100倍以上高速であり、分類精度も良好である。

Correlations in streams of multivariate time series data means that typically, only a small subset of the features are required for a given data mining task. In this paper, we propose a technique which we call Merit Score for Time-Series data (MSTS) that does feature subset selection based on the correlation patterns of single feature classifier outputs. We assign a Merit Score to the feature subsets which is used as the basis for selecting 'good' feature subsets. The proposed technique is evaluated on datasets from the UEA multivariate time series archive and is compared against a Wrapper approach for feature subset selection. MSTS is shown to be effective for feature subset selection and is in particular effective as a data reduction technique. MSTS is shown here to be computationally more efficient than the Wrapper strategy in selecting a suitable feature subset, being more than 100 times faster for some larger datasets while also maintaining a good classification accuracy.
翻訳日:2021-12-12 17:37:13 公開日:2021-11-26
# メモリベース損失予測モデルを用いたイベント抽出のためのアクティブラーニング

Active Learning for Event Extraction with Memory-based Loss Prediction Model ( http://arxiv.org/abs/2112.03073v1 )

ライセンス: Link先を確認
Shirong Shen and Zhen Li and Guilin Qi(参考訳) イベント抽出(EE)は多くの産業アプリケーションシナリオにおいて重要な役割を担い、高品質のEEメソッドは教師付き学習モデルのトレーニングに大量の手動アノテーションデータを必要とする。 しかし、特にドメインイベントのアノテーションにおいて、アノテーションデータを取得するコストは非常に高く、対応するドメインから専門家が参加する必要がある。 そこで、イベントアノテーションのコストを削減するためにアクティブラーニング(AL)技術を導入しました。 しかし、既存のalメソッドには2つの大きな問題があり、イベント抽出にはあまり役に立たない。 第一に、既存のプールベースの選択戦略は、計算コストとサンプル有効性の観点から制限がある。 第2に、既存のサンプルの重要性の評価は、ローカルなサンプル情報の使用を欠いている。 本稿では,eeのための新しい深層al法を提案する。 バッチベースの選択戦略とメモリベース損失予測モデル(MBLP)を提案し,ラベルのないサンプルを効率的に選択する。 選択過程において,局所情報を用いてサンプル重要度を評価するために,内部外サンプル損失ランキング法を用いる。 最後に,MBLPモデルをトレーニングするための遅延学習戦略を提案する。 3つのドメインデータセットで広範な実験が行われ、この手法は他の最先端メソッドよりも優れています。

Event extraction (EE) plays an important role in many industrial application scenarios, and high-quality EE methods require a large amount of manual annotation data to train supervised learning models. However, the cost of obtaining annotation data is very high, especially for annotation of domain events, which requires the participation of experts from corresponding domain. So we introduce active learning (AL) technology to reduce the cost of event annotation. But the existing AL methods have two main problems, which make them not well used for event extraction. Firstly, the existing pool-based selection strategies have limitations in terms of computational cost and sample validity. Secondly, the existing evaluation of sample importance lacks the use of local sample information. In this paper, we present a novel deep AL method for EE. We propose a batch-based selection strategy and a Memory-Based Loss Prediction model (MBLP) to select unlabeled samples efficiently. During the selection process, we use an internal-external sample loss ranking method to evaluate the sample importance by using local information. Finally, we propose a delayed training strategy to train the MBLP model. Extensive experiments are performed on three domain datasets, and our method outperforms other state-of-the-art methods.
翻訳日:2021-12-12 15:19:15 公開日:2021-11-26
# (参考訳) 論理回路の表現学習 [全文訳有]

Representation Learning of Logic Circuits ( http://arxiv.org/abs/2111.14616v1 )

ライセンス: CC BY 4.0
Min Li, Sadaf Khan, Zhengyuan Shi, Naixing Wang, Yu Huang, Qiang Xu(参考訳) 近年,電子設計自動化(EDA)分野におけるディープラーニング(DL)技術の適用が話題となっている。 既存のソリューションの多くは、特定のEDA問題を解決するためによく開発されたDLモデルを適用している。 有望な結果を示す一方で、すべての問題に注意深いモデルチューニングが必要です。 サーキットの汎用的で効果的なニューラル表現をどうやって得るか?」に関する基本的な質問は、まだ答えられていない。 この作業では、この問題を解決するための第一歩を踏み出します。 回路の論理関数と構造情報を各ゲート上のベクトルとして効果的に埋め込む新しい表現学習ソリューションである \textit{deepgate} を提案する。 具体的には、信号確率をdeepgateの監督タスクとして用いるために、回路を統一およびインバータグラフ形式に変換することを提案する。 次に,信号確率予測の学習プリエントとして,実用回路における強い帰納的バイアスを用いた新しいグラフニューラルネットワークを提案する。 実験結果はDeepGateの有効性と一般化能力を示す。

Applying deep learning (DL) techniques in the electronic design automation (EDA) field has become a trending topic in recent years. Most existing solutions apply well-developed DL models to solve specific EDA problems. While demonstrating promising results, they require careful model tuning for every problem. The fundamental question on \textit{"How to obtain a general and effective neural representation of circuits?"} has not been answered yet. In this work, we take the first step towards solving this problem. We propose \textit{DeepGate}, a novel representation learning solution that effectively embeds both logic function and structural information of a circuit as vectors on each gate. Specifically, we propose transforming circuits into unified and-inverter graph format for learning and using signal probabilities as the supervision task in DeepGate. We then introduce a novel graph neural network that uses strong inductive biases in practical circuits as learning priors for signal probability prediction. Our experimental results show the efficacy and generalization capability of DeepGate.
翻訳日:2021-12-04 20:09:12 公開日:2021-11-26
# (参考訳) 機械学習:スパムメールの学習、汚染、学習 [全文訳有]

Machine Unlearning: Learning, Polluting, and Unlearning for Spam Email ( http://arxiv.org/abs/2111.14609v1 )

ライセンス: CC BY 4.0
Nishchal Parne, Kyathi Puppaala, Nithish Bhupathi and Ripon Patgiri(参考訳) セキュリティのための機械学習は、この文脈で研究されている。 複数のスパムメール検出方法があり、それぞれ異なるアルゴリズムを用いて望ましくないスパムメールを検出する。 しかし、これらのモデルは攻撃に弱い。 多くの攻撃者は、様々な方法でモデルにトレーニングされたデータを汚染することでモデルを悪用する。 そのため、このような状況で不十分に振る舞うためには、モデルが再トレーニングする必要なしに、汚染されたデータを簡単に解き放たなければなりません。 過去にモデルにトレーニングされた大量のデータがすでに存在するため、少量の汚染されたデータを除去するためにのみ、再度トレーニングする必要があるため、ほとんどのケースではリトレーニングは現実的ではありません。 この問題は、すべてのスパム検出モデルのためのアンラーニングフレームワークを開発することで解決できる。 本研究では,未学習モジュールを,ナイーブベイ,決定木,ランダムフォレストアルゴリズムに基づくスパム検出モデルに統合する。 再訓練による未学習の利点を評価するため、3つのスパム検出モデルを汚染し、攻撃者の位置を取り、モデルの脆弱性を証明することで悪用する。 モデルに対する汚染の影響を示す各ケースにおいて、精度の低下と真の陽性率を示す。 そして、未学習のモジュールをモデルに統合し、汚染されたデータを未学習にする。 また、学習時間と再トレーニング時間は、すべてのモデルで異なる汚染データサイズと比較される。 分析の結果,再学習よりも学習がはるかに優れていることがわかった。 その結果,アンラーニングは高速で,実装が容易で,使いやすく,効果的であることが判明した。

Machine unlearning for security is studied in this context. Several spam email detection methods exist, each of which employs a different algorithm to detect undesired spam emails. But these models are vulnerable to attacks. Many attackers exploit the model by polluting the data, which are trained to the model in various ways. So to act deftly in such situations model needs to readily unlearn the polluted data without the need for retraining. Retraining is impractical in most cases as there is already a massive amount of data trained to the model in the past, which needs to be trained again just for removing a small amount of polluted data, which is often significantly less than 1%. This problem can be solved by developing unlearning frameworks for all spam detection models. In this research, unlearning module is integrated into spam detection models that are based on Naive Bayes, Decision trees, and Random Forests algorithms. To assess the benefits of unlearning over retraining, three spam detection models are polluted and exploited by taking attackers' positions and proving models' vulnerability. Reduction in accuracy and true positive rates are shown in each case showing the effect of pollution on models. Then unlearning modules are integrated into the models, and polluted data is unlearned; on testing the models after unlearning, restoration of performance is seen. Also, unlearning and retraining times are compared with different pollution data sizes on all models. On analyzing the findings, it can be concluded that unlearning is considerably superior to retraining. Results show that unlearning is fast, easy to implement, easy to use, and effective.
翻訳日:2021-12-04 19:55:26 公開日:2021-11-26
# (参考訳) 機械学習における構造強化と発見

Enforcing and Discovering Structure in Machine Learning ( http://arxiv.org/abs/2111.13693v1 )

ライセンス: CC BY 4.0
Francesco Locatello(参考訳) 世界は無数の方法で構成されている。 事前の信念、自然制約、因果構造など、学習アルゴリズムの解に対応する構造的性質を強制することは慎重である。 そうすることで、より速く、より正確で、より柔軟なモデルに変換され、現実世界への影響に直接関係する可能性がある。 本論文では,学習アルゴリズムの解の構造化に係わる2つの異なる研究領域について考察する。

The world is structured in countless ways. It may be prudent to enforce corresponding structural properties to a learning algorithm's solution, such as incorporating prior beliefs, natural constraints, or causal structures. Doing so may translate to faster, more accurate, and more flexible models, which may directly relate to real-world impact. In this dissertation, we consider two different research areas that concern structuring a learning algorithm's solution: when the structure is known and when it has to be discovered.
翻訳日:2021-12-04 19:37:06 公開日:2021-11-26
# (参考訳) 米国郡ネットワークを用いたsars-cov-2の普及 [全文訳有]

SARS-CoV-2 Dissemination using a Network of the United States Counties ( http://arxiv.org/abs/2111.13723v1 )

ライセンス: CC BY 4.0
Patrick Urrutia and David Wren and Chrysafis Vogiatzis and Ruriko Yoshida(参考訳) 2020年から2021年にかけて、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)の感染が世界の人口で急増している。 SARS-CoV-2と同様の方法で拡散する他の病気の拡散を減らすことは、社会的距離や隔離など、資源や潜在的人口管理対策を効果的に管理しようとする公衆衛生当局にとって最重要である。 アメリカ合衆国の郡ネットワーク構造を分析することで、潜在的に高い感染領域をモデル化し、予測することができる。 郡役人は標的となる情報、準備訓練、およびこれらの地域でのテストを増やすことができる。 これらのアプローチは、地域化地域に対して適切な対策を提供する可能性があるが、米国全体にとって不十分である。 我々は、米国国勢調査局のCenter for Disease Control and Preventionとネットワーク隣接構造から、新型コロナウイルス感染症2019(COVID-19)感染と死亡を収集することで、この問題を解決する。 一般化ネットワーク自己回帰(GNAR)時系列モデルは、ネットワーク化されたデータセットの効率的な学習アルゴリズムとして提案されている。 この研究は、ネットワークサイエンスとオペレーションの研究技術を融合させ、合衆国のネットワーク構造全体で新型コロナウイルスの症例、死亡者、および現在の生存者を不平等にモデル化する。

During 2020 and 2021, severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) transmission has been increasing amongst the world's population at an alarming rate. Reducing the spread of SARS-CoV-2 and other diseases that are spread in similar manners is paramount for public health officials as they seek to effectively manage resources and potential population control measures such as social distancing and quarantines. By analyzing the United States' county network structure, one can model and interdict potential higher infection areas. County officials can provide targeted information, preparedness training, as well as increase testing in these areas. While these approaches may provide adequate countermeasures for localized areas, they are inadequate for the holistic United States. We solve this problem by collecting coronavirus disease 2019 (COVID-19) infections and deaths from the Center for Disease Control and Prevention and a network adjacency structure from the United States Census Bureau. Generalized network autoregressive (GNAR) time series models have been proposed as an efficient learning algorithm for networked datasets. This work fuses network science and operations research techniques to univariately model COVID-19 cases, deaths, and current survivors across the United States' county network structure.
翻訳日:2021-12-04 19:35:55 公開日:2021-11-26
# (参考訳) AIと世界全体のベンチマーク [全文訳有]

AI and the Everything in the Whole Wide World Benchmark ( http://arxiv.org/abs/2111.15366v1 )

ライセンス: CC BY 4.0
Inioluwa Deborah Raji, Emily M. Bender, Amandalynne Paullada, Emily Denton, Alex Hanna(参考訳) AIのさまざまなサブフィールドにまたがって、影響力のあるベンチマークの小さなコレクションを評価する傾向があります。 これらのベンチマークは、フレキシブルで一般化可能なAIシステムへの道の根本的マイルストーンとしてしばしば見なされる、さまざまな一般的な問題に対するスタンドインとして動作する。 これらのベンチマークにおける最先端のパフォーマンスは、これらの長期的な目標への進歩を示すものとして広く理解されている。 本稿では,これらのベンチマークの限界について検討し,機能的に「汎用的」な進捗対策として,フレーミングにおける構成上の妥当性を明らかにする。

There is a tendency across different subfields in AI to valorize a small collection of influential benchmarks. These benchmarks operate as stand-ins for a range of anointed common problems that are frequently framed as foundational milestones on the path towards flexible and generalizable AI systems. State-of-the-art performance on these benchmarks is widely understood as indicative of progress towards these long-term goals. In this position paper, we explore the limits of such benchmarks in order to reveal the construct validity issues in their framing as the functionally "general" broad measures of progress they are set up to be.
翻訳日:2021-12-04 19:19:14 公開日:2021-11-26
# (参考訳) 変分量子アルゴリズムのためのansatzの効率的なアーキテクチャを目指して [全文訳有]

Towards Efficient Ansatz Architecture for Variational Quantum Algorithms ( http://arxiv.org/abs/2111.13730v1 )

ライセンス: CC BY 4.0
Anbang Wu, Gushu Li, Yuke Wang, Boyuan Feng, Yufei Ding, Yuan Xie(参考訳) 変分量子アルゴリズムは、短期雑音量子コンピュータにおける量子コンピューティングの利点を実証することが期待される。 しかし、そのような変分量子アルゴリズムの訓練は、アルゴリズムのサイズが大きくなるにつれて勾配が消える。 従来の作業では、現実的な量子ハードウェアにおける避けられないノイズ効果によって引き起こされる勾配の消失には対処できない。 本稿では,このような騒音による勾配の解消を緩和する新しい学習手法を提案する。 まず,縮小部分空間にトレースレスオブザーバブルを用いることにより,勾配が著しく向上する新しいコスト関数を導入する。 次に、新しいコスト関数からの勾配で原コスト関数を最適化することにより、同じ最小値に到達できることを証明する。 実験により,本手法は各種タスクの変動量子アルゴリズムに極めて有効であることが示された。

Variational quantum algorithms are expected to demonstrate the advantage of quantum computing on near-term noisy quantum computers. However, training such variational quantum algorithms suffers from gradient vanishing as the size of the algorithm increases. Previous work cannot handle the gradient vanishing induced by the inevitable noise effects on realistic quantum hardware. In this paper, we propose a novel training scheme to mitigate such noise-induced gradient vanishing. We first introduce a new cost function of which the gradients are significantly augmented by employing traceless observables in truncated subspace. We then prove that the same minimum can be reached by optimizing the original cost function with the gradients from the new cost function. Experiments show that our new training scheme is highly effective for major variational quantum algorithms of various tasks.
翻訳日:2021-12-04 18:52:34 公開日:2021-11-26
# (参考訳) 多層カーネルマシンにおける教師なしMKL [全文訳有]

Unsupervised MKL in Multi-layer Kernel Machines ( http://arxiv.org/abs/2111.13769v1 )

ライセンス: CC BY 4.0
Akhil Meethal and Asharaf S and Sumitra S(参考訳) 多層カーネルマシン(MKM)を用いたカーネルベースのディープラーニングは、Y.Cho と L.K. Saul が \cite{saul} で提案した。 mkmsでは、1つのカーネル(arc-cosine kernel)のみをカーネルpcaベースの特徴抽出に使用した。 我々は,教師なし学習戦略に従って多数のカーネルの凸結合を行うことで,各層に複数のカーネルを使用することを提案する。 MNISTデータセットの画像背景にランダムノイズを付加して生成したtextit{mnist-back-rand}, \textit{mnist-back-image}, \textit{mnist-rot-back-image }データセットに関する実証的研究を行った。 実験の結果,mkmsにおけるmklの使用は生データの表現性が向上し,分類性能が向上した。

Kernel based Deep Learning using multi-layer kernel machines(MKMs) was proposed by Y.Cho and L.K. Saul in \cite{saul}. In MKMs they used only one kernel(arc-cosine kernel) at a layer for the kernel PCA-based feature extraction. We propose to use multiple kernels in each layer by taking a convex combination of many kernels following an unsupervised learning strategy. Empirical study is conducted on \textit{mnist-back-rand}, \textit{mnist-back-image} and \textit{mnist-rot-back-image } datasets generated by adding random noise in the image background of MNIST dataset. Experimental results indicate that using MKL in MKMs earns a better representation of the raw data and improves the classifier performance.
翻訳日:2021-12-04 18:01:59 公開日:2021-11-26
# (参考訳) PommermanにおけるMCTSの高速な進化的適応 [全文訳有]

A Fast Evolutionary adaptation for MCTS in Pommerman ( http://arxiv.org/abs/2111.13770v1 )

ライセンス: CC BY 4.0
Harsh Panwar, Saswata Chatterjee, Wil Dube(参考訳) 人工知能(Artificial Intelligence)は、ゲームと融合することで、研究と分野の進歩に理想的な構造を作る。 マルチエージェントゲームはエージェントごとに複数のコントロールを持ち、検索の複雑さを高めながら大量のデータを生成する。 したがって, 解を見つけ, インテリジェントなエージェントを作成するためには, 高度な探索手法が必要である。 本稿では,進化的algorthims (ea) と monte carlo tree search (mcts) からアイデアを借用し,pommerman のゲームをプレイする,進化的モンテカルロ木探索 (femcts) エージェントを提案する。 ローリング・ホライズン進化アルゴリズム (rhea) を高い可観測性設定で大幅に上回り、ほとんどのゲーム種に対するmctとほぼ同等の性能を発揮する。

Artificial Intelligence, when amalgamated with games makes the ideal structure for research and advancing the field. Multi-agent games have multiple controls for each agent which generates huge amounts of data while increasing search complexity. Thus, we need advanced search methods to find a solution and create an artificially intelligent agent. In this paper, we propose our novel Evolutionary Monte Carlo Tree Search (FEMCTS) agent which borrows ideas from Evolutionary Algorthims (EA) and Monte Carlo Tree Search (MCTS) to play the game of Pommerman. It outperforms Rolling Horizon Evolutionary Algorithm (RHEA) significantly in high observability settings and performs almost as well as MCTS for most game seeds, outperforming it in some cases.
翻訳日:2021-12-04 17:51:19 公開日:2021-11-26
# 自動チューニングGPUカーネルのベイズ最適化

Bayesian Optimization for auto-tuning GPU kernels ( http://arxiv.org/abs/2111.14991v1 )

ライセンス: Link先を確認
Floris-Jan Willemsen, Rob van Nieuwpoort, Ben van Werkhoven(参考訳) チューニング可能なgpuカーネルの最適なパラメータ設定を見つけることは、自動化された場合でも、大きな検索スペースに対して非自明な作業である。 これは非凸探索空間上の最適化タスクとなり、未知導関数を持つ高コストな評価関数を使用する。 これらの特徴はベイズ最適化の候補となり、この問題にはこれまで適用されていない。 しかし,この問題に対するベイズ最適化の適用は困難である。 不正な構成を含む粗末で離散的で制約のある検索空間をどう扱うかを示す。 本稿では,新しい文脈分散探索係数と,拡張性の向上した新たな獲得関数と,情報獲得関数選択機構を導入する。 種々のテストケースにおけるベイズ最適化実装の性能を、ケルネルタナーの既存の検索戦略や他のベイズ最適化実装と比較することにより、我々の検索戦略がより広く、一貫して他の検索戦略より優れていることを示す。

Finding optimal parameter configurations for tunable GPU kernels is a non-trivial exercise for large search spaces, even when automated. This poses an optimization task on a non-convex search space, using an expensive to evaluate function with unknown derivative. These characteristics make a good candidate for Bayesian Optimization, which has not been applied to this problem before. However, the application of Bayesian Optimization to this problem is challenging. We demonstrate how to deal with the rough, discrete, constrained search spaces, containing invalid configurations. We introduce a novel contextual variance exploration factor, as well as new acquisition functions with improved scalability, combined with an informed acquisition function selection mechanism. By comparing the performance of our Bayesian Optimization implementation on various test cases to the existing search strategies in Kernel Tuner, as well as other Bayesian Optimization implementations, we demonstrate that our search strategies generalize well and consistently outperform other search strategies by a wide margin.
翻訳日:2021-12-01 16:51:20 公開日:2021-11-26
# TEGDetector:トランザクションの振る舞いを進化させるフィッシング検出器

TEGDetector: A Phishing Detector that Knows Evolving Transaction Behaviors ( http://arxiv.org/abs/2111.15446v1 )

ライセンス: Link先を確認
Jinyin Chen, Haiyang Xiong, Dunjie Zhang, Zhenguang Liu and Jiajing Wu(参考訳) 近年、フィッシング詐欺はブロックチェーンに大きな脅威をもたらしている。 フィッシング検出器は、フィッシングアドレスを探索する取り組みを指示する。 ほとんどの検出器は、ランダムウォーキングや静的サブグラフの構築によって、ターゲットアドレスのトランザクション動作の特徴を抽出する。 ランダムウォーキング法は通常、サンプリングシーケンスの長さが限られているため構造情報を見逃すが、静的サブグラフ法では、進化するトランザクションの振る舞いにある時間的特徴を無視する傾向がある。 さらに重要なのは、悪意のあるユーザーが意図的にフィッシング行為を隠すと、パフォーマンスが著しく低下することです。 これらの課題に対処するために、トランザクション進化グラフ(tegs)から進化する振る舞いの特徴を学ぶ動的グラフ分類器であるtegdetectorを提案する。 まず、トランザクションシリーズを複数のタイムスライスにキャストし、ターゲットアドレスのトランザクション動作を異なる期間にキャプチャします。 そして,不審なアドレスの探索空間を狭める高速な非パラメトリックフィッシング検出器を提供する。 最後に、TEGDetectorは、進化するトランザクションの振る舞いの完全な特徴づけに向けて、空間的および時間的進化の両方を考慮する。 さらに、TEGDetectorは適応学習時間係数を利用して異なる期間に異なる注意を払っており、いくつかの新しい洞察を与えている。 大規模なEthereumトランザクションデータセットに関する大規模な実験により、提案手法が最先端検出性能を達成することを示す。

Recently, phishing scams have posed a significant threat to blockchains. Phishing detectors direct their efforts in hunting phishing addresses. Most of the detectors extract target addresses' transaction behavior features by random walking or constructing static subgraphs. The random walking methods,unfortunatel y, usually miss structural information due to limited sampling sequence length, while the static subgraph methods tend to ignore temporal features lying in the evolving transaction behaviors. More importantly, their performance undergoes severe degradation when the malicious users intentionally hide phishing behaviors. To address these challenges, we propose TEGDetector, a dynamic graph classifier that learns the evolving behavior features from transaction evolution graphs (TEGs). First, we cast the transaction series into multiple time slices, capturing the target address's transaction behaviors in different periods. Then, we provide a fast non-parametric phishing detector to narrow down the search space of suspicious addresses. Finally, TEGDetector considers both the spatial and temporal evolutions towards a complete characterization of the evolving transaction behaviors. Moreover, TEGDetector utilizes adaptively learnt time coefficient to pay distinct attention to different periods, which provides several novel insights. Extensive experiments on the large-scale Ethereum transaction dataset demonstrate that the proposed method achieves state-of-the-art detection performance.
翻訳日:2021-12-01 15:50:22 公開日:2021-11-26
# AIに基づく自然シーンテキスト編集

Natural Scene Text Editing Based on AI ( http://arxiv.org/abs/2111.15475v1 )

ライセンス: Link先を確認
Yujie Zhang(参考訳) 記録された状況では、テキスト情報はシーンの解釈と意思決定に不可欠である。 画像に直接テキストを編集できる機能には、誤り訂正、テキスト復元、画像再利用性など、多くの利点がある。 本研究は,文字レベルと桁レベルの画像テキストの変更方法を示す。 デジタル画像のエンコードと復号化,およびソース文字のフォントスタイルを学習し,対象文字に転送する,2部構成の文字桁ネットワーク(LDN)を考案した。 この方法では、画像の上位文字、下位文字、桁を更新できる。

In a recorded situation, textual information is crucial for scene interpretation and decision making. The ability to edit text directly on images has a number of advantages, including error correction, text restoration, and image reusability. This research shows how to change image text at the letter and digits level. I devised a two-part letters-digits network (LDN) to encode and decode digital images, as well as learn and transfer the font style of the source characters to the target characters. This method allows you to update the uppercase letters, lowercase letters and digits in the picture.
翻訳日:2021-12-01 15:19:59 公開日:2021-11-26
# 2体マイクロレンズシステムにおけるユビキタス統一

A Ubiquitous Unifying Degeneracy in 2-body Microlensing Systems ( http://arxiv.org/abs/2111.13696v1 )

ライセンス: Link先を確認
Keming Zhang, B. Scott Gaudi, Joshua S. Bloom(参考訳) 惑星系による重力マイクロレンズは、太陽系外惑星の性質に固有の位置を与えることができるが、そのような2体マイクロレンズ現象の観測は、しばしば複数の異なる物理的構成(いわゆるモデル退化)で説明できる。 異種遺伝学の固有の起源と外生起源の理解は、現象学的解釈の基礎となる。 ここでは, 高速機械学習に基づく推論フレームワークを用いて, 従来知られていた近距離および内周方向の縮退を統一し, 共振コースティックスに一般化し, 再解析を行い, 2倍の縮退解を持つ惑星事象においてユビキタスに分布する新しい縮退機構を新たに発見する。 重要なのは、一般的に報告されている広範囲の縮退は、実際には発生せず、むしろオフセット縮退の遷移点と見なされるべきであることを示唆している。 マイクロレンズ縮退の研究は, 主に縮退したコースティックスの研究であるが, 縮退したコースティックスが必ずしも縮退した事象を生じさせるわけではないことを示し, 後者の場合, 震源位置での倍率の研究がより重要となる。 この発見は、惑星のマイクロレンズ現象の退化を解釈する方法を根本的に変え、これまで認識されていた2体レンズの数学におけるより深い対称性を示唆し、新しい世代のマイクロレンズ調査のデータに徐々に現れていくであろう。

While gravitational microlensing by planetary systems can provide unique vistas on the properties of exoplanets, observations of such 2-body microlensing events can often be explained with multiple and distinct physical configurations, so-called model degeneracies. An understanding of the intrinsic and exogenous origins of different classes of degeneracy provides a foundation for phenomenological interpretation. Here, leveraging a fast machine-learning based inference framework, we present the discovery of a new regime of degeneracy--the offset degeneracy--which unifies the previously known close-wide and inner-outer degeneracies, generalises to resonant caustics, and upon reanalysis, is ubiquitous in previously published planetary events with 2-fold degenerate solutions. Importantly, our discovery suggests that the commonly reported close-wide degeneracy essentially never arises in actual events and should, instead, be more suitably viewed as a transition point of the offset degeneracy. While previous studies of microlensing degeneracies are largely studies of degenerate caustics, our discovery demonstrates that degenerate caustics do not necessarily result in degenerate events, which for the latter it is more relevant to study magnifications at the location of the source. This discovery fundamentally changes the way in which degeneracies in planetary microlensing events should be interpreted, suggests a deeper symmetry in the mathematics of 2-body lenses than has previously been recognised, and will increasingly manifest itself in data from new generations of microlensing surveys.
翻訳日:2021-11-30 18:59:33 公開日:2021-11-26
# 動的ネットワーク支援D2D支援コード分散学習

Dynamic Network-Assisted D2D-Aided Coded Distributed Learning ( http://arxiv.org/abs/2111.14789v1 )

ライセンス: Link先を確認
Nikita Zeulin, Olga Galinina, Nageen Himayat, Sergey Andreev, Robert W. Heath Jr(参考訳) 今日では、さまざまな機械学習(ML)アプリケーションが、無線ネットワークの端で連続的なデータ処理とリアルタイムなデータ分析を提供している。 分散MLソリューションは資源の不均一性、特にいわゆるストラグラー効果によって深刻な課題を抱えている。 この問題に対処するため,プライバシリークを特徴付けるとともに,デバイス間のロードバランシングを実現する新しいデバイス・ツー・デバイス支援符号化学習法(D2D-CFL)を設計した。 提案手法は,データ(時間依存学習モデル,データの到着強度の変動),デバイス(各種計算資源とトレーニングデータのボリューム),デプロイメント(分散位置とD2Dグラフ接続)などのシステムダイナミクスをキャプチャする。 最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。 結果として生じる最適化問題は、全トレーニング時間を改善する準最適圧縮パラメータを提供する。 提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。

Today, various machine learning (ML) applications offer continuous data processing and real-time data analytics at the edge of a wireless network. Distributed ML solutions are seriously challenged by resource heterogeneity, in particular, the so-called straggler effect. To address this issue, we design a novel device-to-device (D2D)-aided coded federated learning method (D2D-CFL) for load balancing across devices while characterizing privacy leakage. The proposed solution captures system dynamics, including data (time-dependent learning model, varied intensity of data arrivals), device (diverse computational resources and volume of training data), and deployment (varied locations and D2D graph connectivity). We derive an optimal compression rate for achieving minimum processing time and establish its connection with the convergence time. The resulting optimization problem provides suboptimal compression parameters, which improve the total training time. Our proposed method is beneficial for real-time collaborative applications, where the users continuously generate training data.
翻訳日:2021-11-30 18:30:26 公開日:2021-11-26
# WiFiによるマルチタスクセンシング

WiFi-based Multi-task Sensing ( http://arxiv.org/abs/2111.14619v1 )

ライセンス: Link先を確認
Xie Zhang, Chengpei Tang, Yasong An, Kang Yin(参考訳) 近年、WiFiによるセンシングが大きな注目を集めている。 その根拠は、人間が引き起こす信号のゆらぎは、wi-fiのチャネル状態情報から抽出できる人間の行動の情報を担っていることである。 それでもこれまでの研究は主に、ジェスチャー認識、屋内ローカライゼーション、ユーザ識別など、シングルタスクセンシング(sts)に重点を置いている。 ジェスチャーによるゆらぎは身体の特徴やユーザの位置と強く結びついているので,身振り認識,屋内位置認識,ユーザ識別タスクを同時に行うWiFiベースのマルチタスクセンシングモデル(Wimuse)を提案する。 しかし、これらのタスクは異なる難易度(すなわち不均衡問題)を持ち、タスク固有の情報(すなわち不一致問題)を必要とする。 これらの課題に対処するため,Wimuseでは知識蒸留技術とタスク特異的残留アダプタが採用されている。 まず、タスク毎にSTSモデルをトレーニングします。 そして、不均衡問題を解決するために、Wimuseの抽出された共通機能はSTSモデルの対応する特徴に近づくことを奨励する。 さらに、各タスクに対して、タスク固有残差適応器を適用して、共通特徴と融合したタスク固有補償特徴を抽出し、不一致問題に対処する。 3つの公開データセットを包括的に実験した結果,wimuseは85.20%,98.39%,98.725 %の精度で,ジェスチャ認識,屋内ローカライズ,ユーザ識別の作業において,最先端のパフォーマンスを実現していることが示唆された。

WiFi-based sensing has aroused immense attention over recent years. The rationale is that the signal fluctuations caused by humans carry the information of human behavior which can be extracted from the channel state information of WiFi. Still, the prior studies mainly focus on single-task sensing (STS), e.g., gesture recognition, indoor localization, user identification. Since the fluctuations caused by gestures are highly coupling with body features and the user's location, we propose a WiFi-based multi-task sensing model (Wimuse) to perform gesture recognition, indoor localization, and user identification tasks simultaneously. However, these tasks have different difficulty levels (i.e., imbalance issue) and need task-specific information (i.e., discrepancy issue). To address these issues, the knowledge distillation technique and task-specific residual adaptor are adopted in Wimuse. We first train the STS model for each task. Then, for solving the imbalance issue, the extracted common feature in Wimuse is encouraged to get close to the counterpart features of the STS models. Further, for each task, a task-specific residual adaptor is applied to extract the task-specific compensation feature which is fused with the common feature to address the discrepancy issue. We conduct comprehensive experiments on three public datasets and evaluation suggests that Wimuse achieves state-of-the-art performance with the average accuracy of 85.20%, 98.39%, and 98.725% on the joint task of gesture recognition, indoor localization, and user identification, respectively.
翻訳日:2021-11-30 18:14:17 公開日:2021-11-26
# ドメイン一般化アルゴリズムの故障モード

Failure Modes of Domain Generalization Algorithms ( http://arxiv.org/abs/2111.13733v1 )

ライセンス: Link先を確認
Tigran Galstyan, Hrayr Harutyunyan, Hrant Khachatrian, Greg Ver Steeg, Aram Galstyan(参考訳) ドメイン一般化アルゴリズムは、複数のドメインからのトレーニングデータを使用して、見えないドメインによく一般化するモデルを学ぶ。 最近提案されたベンチマークでは、既存のアルゴリズムのほとんどは単純なベースラインを上回りませんが、確立された評価手法は、パフォーマンスの低下に寄与する様々な要因の影響を明らかにすることができません。 本稿では,誤りを一般化の異なる側面を捉えたコンポーネントに分解することを可能にする,ドメイン一般化アルゴリズムの評価フレームワークを提案する。 ドメイン不変表現学習の考え方に基づくアルゴリズムの普及に触発されて、評価フレームワークを拡張し、不変性を達成するための様々なタイプの障害を捕捉する。 一般化誤差の最大の寄与要因は,手法,データセット,正規化強度,トレーニング長など多岐にわたる。 ドメイン不変表現の学習戦略に関連する2つの問題を考察する。 色付きMNISTでは、ほとんどのドメイン一般化アルゴリズムは、トレーニングドメインにのみドメイン不変性に達するため失敗する。 camelyon-17 では、ドメイン不変性は見当たらないドメインの表現の品質を劣化させる。 我々は、リッチな表現の上に分類器をチューニングすることに集中することが有望な方向であると仮定する。

Domain generalization algorithms use training data from multiple domains to learn models that generalize well to unseen domains. While recently proposed benchmarks demonstrate that most of the existing algorithms do not outperform simple baselines, the established evaluation methods fail to expose the impact of various factors that contribute to the poor performance. In this paper we propose an evaluation framework for domain generalization algorithms that allows decomposition of the error into components capturing distinct aspects of generalization. Inspired by the prevalence of algorithms based on the idea of domain-invariant representation learning, we extend the evaluation framework to capture various types of failures in achieving invariance. We show that the largest contributor to the generalization error varies across methods, datasets, regularization strengths and even training lengths. We observe two problems associated with the strategy of learning domain-invariant representations. On Colored MNIST, most domain generalization algorithms fail because they reach domain-invariance only on the training domains. On Camelyon-17, domain-invariance degrades the quality of representations on unseen domains. We hypothesize that focusing instead on tuning the classifier on top of a rich representation can be a promising direction.
翻訳日:2021-11-30 17:31:06 公開日:2021-11-26
# ハンドハンドシェイクの入射値:ハンドヘルド多フレーム神経深部微細化

The Implicit Values of A Good Hand Shake: Handheld Multi-Frame Neural Depth Refinement ( http://arxiv.org/abs/2111.13738v1 )

ライセンス: Link先を確認
Ilya Chugunov, Yuxuan Zhang, Zhihao Xia, Cecilia Zhang, Jiawen Chen, and Felix Heide(参考訳) 現代のスマートフォンは、60〜Hzで連続的にマルチメガピクセルのRGB画像をストリーミングでき、高品質な3Dポーズ情報と低解像度のLiDAR駆動深度推定と同期する。 写真撮影中、カメラマンの手の自然な不安定さは、カメラのポーズにミリスケールのバリエーションをもたらし、rgbと深さを円形のバッファーで捉えることができる。 本研究では,これらの測定値の束から,高密度のマイクロベースラインパララックスキューとkilopixel lidar深度を組み合わせることで,高忠実度深度マップを蒸留する方法について検討する。 撮影者の自然な手振れによって追跡される経路に沿った連続座標における測光的および幾何学的一貫性のある深さ推定を出力するために、テスト時間最適化手法を採用し、座標mlpを訓練する。 提案手法は,'ポイント・アンド・シュート'のテーブル上撮影に高解像度の奥行き推定をもたらすとともに,ボタン押す以上のハードウェア,人工手動作,ユーザインタラクションを必要としない。

Modern smartphones can continuously stream multi-megapixel RGB images at 60~Hz, synchronized with high-quality 3D pose information and low-resolution LiDAR-driven depth estimates. During a snapshot photograph, the natural unsteadiness of the photographer's hands offers millimeter-scale variation in camera pose, which we can capture along with RGB and depth in a circular buffer. In this work we explore how, from a bundle of these measurements acquired during viewfinding, we can combine dense micro-baseline parallax cues with kilopixel LiDAR depth to distill a high-fidelity depth map. We take a test-time optimization approach and train a coordinate MLP to output photometrically and geometrically consistent depth estimates at the continuous coordinates along the path traced by the photographer's natural hand shake. The proposed method brings high-resolution depth estimates to 'point-and-shoot' ; tabletop photography and requires no additional hardware, artificial hand motion, or user interaction beyond the press of a button.
翻訳日:2021-11-30 17:13:59 公開日:2021-11-26
# BCH-NLP at BioCreative VII Track 3: トランスフォーマーネットワークとマルチタスク学習を用いたツイート中の薬物検出

BCH-NLP at BioCreative VII Track 3: medications detection in tweets using transformer networks and multi-task learning ( http://arxiv.org/abs/2111.13726v1 )

ライセンス: Link先を確認
Dongfang Xu, Shan Chen, Timothy Miller(参考訳) 本稿では,bicreative vii track 3 - automatic extraction of drug names in tweets(ツイート中の薬名の自動抽出)に参加し,テキスト分類とシーケンスラベリングを共同で学習するマルチタスク学習モデルを実装した。 我々のベストシステムは80.4の厳格なF1を達成し、全参加者の平均スコアよりも1位と10ポイント以上高かった。 分析の結果,アンサンブル手法,マルチタスク学習,データ拡張がすべて,ツイート中の薬物検出に有用であることが判明した。

In this paper, we present our work participating in the BioCreative VII Track 3 - automatic extraction of medication names in tweets, where we implemented a multi-task learning model that is jointly trained on text classification and sequence labelling. Our best system run achieved a strict F1 of 80.4, ranking first and more than 10 points higher than the average score of all participants. Our analyses show that the ensemble technique, multi-task learning, and data augmentation are all beneficial for medication detection in tweets.
翻訳日:2021-11-30 15:19:58 公開日:2021-11-26
# Cyclic Graph Attentive Match Encoder (CGAME): OD推定のための新しいニューラルネットワーク

Cyclic Graph Attentive Match Encoder (CGAME): A Novel Neural Network For OD Estimation ( http://arxiv.org/abs/2111.14625v1 )

ライセンス: Link先を確認
Guanzhou Li, Yujing He, Jianping Wu(参考訳) 知的交通システム(ITS)時代における交通管理と交通シミュレーションにおいて,原位置推定が重要な役割を担っている。 それにもかかわらず、以前のモデルベースのモデルは未決定の課題に直面しており、追加の仮定と余分なデータに対する必死の要求が存在する。 ディープラーニングは、確率分布変換による入力と結果を接続するための理想的なデータベース手法を提供する。 OD推定へのディープラーニングの適用に関する関連する研究は、特に動的空間時間空間から不均一グラフへの表現空間を越えたデータ変換における課題のために限られている。 そこで本研究では,2層アテンション機構を備えた新しいグラフマッチング方式であるC-GAME(Cyclic Graph Attentive Matching Encoder)を提案する。 基礎となる特徴空間における効果的な情報交換を実現し、空間間の結合関係を確立する。 提案モデルは実験で最先端の成果を達成し,将来的な雇用において空間横断的なタスクを推論するための新しい枠組みを提供する。

Origin-Destination Estimation plays an important role in traffic management and traffic simulation in the era of Intelligent Transportation System (ITS). Nevertheless, previous model-based models face the under-determined challenge, thus desperate demand for additional assumptions and extra data exists. Deep learning provides an ideal data-based method for connecting inputs and results by probabilistic distribution transformation. While relevant researches of applying deep learning into OD estimation are limited due to the challenges lying in data transformation across representation space, especially from dynamic spatial-temporal space to heterogeneous graph in this issue. To address it, we propose Cyclic Graph Attentive Matching Encoder (C-GAME) based on a novel Graph Matcher with double-layer attention mechanism. It realizes effective information exchange in underlying feature space and establishes coupling relationship across spaces. The proposed model achieves state-of-the-art results in experiments, and offers a novel framework for inference task across spaces in prospective employments.
翻訳日:2021-11-30 15:17:04 公開日:2021-11-26
# EBM学習のための粒子動力学

Particle Dynamics for Learning EBMs ( http://arxiv.org/abs/2111.13772v1 )

ライセンス: Link先を確認
Kirill Neklyudov, Priyank Jaini, Max Welling(参考訳) エネルギーベースのモデリングは教師なし学習に有望なアプローチであり、単一のモデルから多くの下流アプリケーションを生み出す。 コントラッシブアプローチ(contrastive approach)"でエネルギーベースのモデルを学ぶことの難しさは、各イテレーションで現在のエネルギー関数からサンプルを生成することである。 このサブルーチンを安価に達成するために多くの進歩がなされている。 しかしながら、これらのサンプリングパラダイムはMCMCが現在のモデルをターゲットにしており、真のエネルギー分布からサンプルを生成するには無限に長い鎖を必要とする。 本稿では,これらのサンプルを取得し,現行モデルからの粗MCMCサンプリングを回避するための代替手法を提案する。 我々はモデリング分布の進化を観察することでこれを達成している。 (i)エネルギー関数の進化、 (ii)あるベクトル場に沿ったこの分布からのサンプルの進化。 その後、この時間依存ベクトル場を導出し、この場に続く粒子は電流密度モデルとしておおむね分布する。 これにより、粒子の進化と学習手順によって規定されるエネルギー関数の進化とを一致させる。 重要な点は,モンテカルロサンプリングと異なり,電流分布を有限時間で一致させることである。 最後に,MCMCに基づく学習手法と比較し,その効果を実証的に示す。

Energy-based modeling is a promising approach to unsupervised learning, which yields many downstream applications from a single model. The main difficulty in learning energy-based models with the "contrastive approaches" is the generation of samples from the current energy function at each iteration. Many advances have been made to accomplish this subroutine cheaply. Nevertheless, all such sampling paradigms run MCMC targeting the current model, which requires infinitely long chains to generate samples from the true energy distribution and is problematic in practice. This paper proposes an alternative approach to getting these samples and avoiding crude MCMC sampling from the current model. We accomplish this by viewing the evolution of the modeling distribution as (i) the evolution of the energy function, and (ii) the evolution of the samples from this distribution along some vector field. We subsequently derive this time-dependent vector field such that the particles following this field are approximately distributed as the current density model. Thereby we match the evolution of the particles with the evolution of the energy function prescribed by the learning procedure. Importantly, unlike Monte Carlo sampling, our method targets to match the current distribution in a finite time. Finally, we demonstrate its effectiveness empirically compared to MCMC-based learning methods.
翻訳日:2021-11-30 15:16:47 公開日:2021-11-26
# (参考訳) 制限情報フローによる非教師付き画像翻訳

Disentangled Unsupervised Image Translation via Restricted Information Flow ( http://arxiv.org/abs/2111.13279v1 )

ライセンス: CC BY 4.0
Ben Usman, Dina Bashkirova, Kate Saenko(参考訳) unsupervised image-to-image translation methodは、2つのドメイン間で共有される構造を維持しながら、あるドメインからの画像を別のドメインから妥当な例にマッピングすることを目的としている。 多対多の設定では、生成された画像のドメイン固有の属性を決定するために、対象領域からの追加のガイダンス例が使用される。 属性アノテーションがない場合、メソッドはトレーニング中にデータから各ドメインに固有の要素を推測する必要がある。 多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードし、問題のスコープを厳しく制限した。 本稿では,そのような帰納的アーキテクチャバイアスに依存しない新しい手法を提案し,翻訳の正直な損失とドメイン固有の埋め込み能力に対するペナルティを用いて,情報の流れを制約することで,データからどの属性がドメイン固有であるかを推定する。 提案手法は,多種多様なドメイン固有属性と共有属性にまたがる2つの合成データセットと1つの自然データセットにおいて,一貫して高い操作精度を実現する。

Unsupervised image-to-image translation methods aim to map images from one domain into plausible examples from another domain while preserving structures shared across two domains. In the many-to-many setting, an additional guidance example from the target domain is used to determine domain-specific attributes of the generated image. In the absence of attribute annotations, methods have to infer which factors are specific to each domain from data during training. Many state-of-art methods hard-code the desired shared-vs-specific split into their architecture, severely restricting the scope of the problem. In this paper, we propose a new method that does not rely on such inductive architectural biases, and infers which attributes are domain-specific from data by constraining information flow through the network using translation honesty losses and a penalty on the capacity of domain-specific embedding. We show that the proposed method achieves consistently high manipulation accuracy across two synthetic and one natural dataset spanning a wide variety of domain-specific and shared attributes.
翻訳日:2021-11-30 02:03:03 公開日:2021-11-26
# (参考訳) セマンティックセグメンテーションのための効率的な自己センブルフレームワーク [全文訳有]

Efficient Self-Ensemble Framework for Semantic Segmentation ( http://arxiv.org/abs/2111.13280v1 )

ライセンス: CC BY 4.0
Walid Bousselham, Guillaume Thibault, Lucas Pagano, Archana Machireddy, Joe Gray, Young Hwan Chang, Xubo Song(参考訳) 予測の組み立ては個々の予測を別々に行うよりも優れていることが知られている。 しかし、重い計算資源を必要とするタスクに対しては、‘textit{e.g.} semantic segmentation, create a mblemble of learners that need be trained to be tractable. そこで本研究では,アンサンブル方式による性能向上を活用し,従来のヘビートレーニングコストを回避しつつ,セマンティクスセグメンテーションを向上させることを提案する。 当社のself-ensembleフレームワークは,機能ピラミッドネットワークメソッドが生成するマルチスケール機能を活用して,独立したデコーダを供給し,単一モデル内にアンサンブルを作成する。 アンサンブルと同様、最終的な予測は各学習者が行った予測の集約である。 従来の作品とは対照的に,我々のモデルはエンド・ツー・エンドの訓練が可能であり,従来のアンサンブルの多段階トレーニングを緩和する。 私たちのセルフアンサンブルフレームワークは,セマンティックセグメンテーションのためのADE20K,Pascal Context,COCO-Stuff-1 0Kといったベンチマークデータセット上で,現在の最先端技術よりも優れています。 コードはgithub.com/WalBouss/ SenFormerで入手できる。

Ensemble of predictions is known to perform better than individual predictions taken separately. However, for tasks that require heavy computational resources, \textit{e.g.} semantic segmentation, creating an ensemble of learners that needs to be trained separately is hardly tractable. In this work, we propose to leverage the performance boost offered by ensemble methods to enhance the semantic segmentation, while avoiding the traditional heavy training cost of the ensemble. Our self-ensemble framework takes advantage of the multi-scale features set produced by feature pyramid network methods to feed independent decoders, thus creating an ensemble within a single model. Similar to the ensemble, the final prediction is the aggregation of the prediction made by each learner. In contrast to previous works, our model can be trained end-to-end, alleviating the traditional cumbersome multi-stage training of ensembles. Our self-ensemble framework outperforms the current state-of-the-art on the benchmark datasets ADE20K, Pascal Context and COCO-Stuff-10K for semantic segmentation and is competitive on Cityscapes. Code will be available at github.com/WalBouss/ SenFormer.
翻訳日:2021-11-30 02:01:33 公開日:2021-11-26
# (参考訳) KNAS:グリーンニューラルアーキテクチャ検索 [全文訳有]

KNAS: Green Neural Architecture Search ( http://arxiv.org/abs/2111.13293v1 )

ライセンス: CC BY 4.0
Jingjing Xu, Liang Zhao, Junyang Lin, Rundong Gao, Xu Sun, Hongxia Yang(参考訳) 多くの既存のニューラルアーキテクチャサーチ(NAS)ソリューションは、膨大な計算を必要とするアーキテクチャ評価のための下流トレーニングに依存している。 これらの計算が大きな炭素フットプリントをもたらすことを考慮し、グリーン(環境に優しい)NASソリューションを学習せずに評価することを目的とする。 直感的には、アーキテクチャ自体によって引き起こされる勾配は、収束と一般化の結果を直接決定する。 勾配は、ランダム初期化ネットワークを評価するために下流トレーニングの粗粒度プロキシとして使用できる。 この仮説を支持するために, 理論解析を行い, 学習損失や検証性能と良好な相関関係を持つ実用的な勾配核を求める。 本仮説では,新しいカーネルベースのアーキテクチャ探索手法KNASを提案する。 実験により、KNASは画像分類タスクにおける「列車試験」パラダイムよりも桁違いに高速な競合結果が得られることが示された。 さらに、検索コストが非常に低いため、幅広い応用が可能となる。 検索されたネットワークは、2つのテキスト分類タスクで強力なベースラインであるRoBERTAよりも優れています。 コードは \url{https://github.com/j ingjing-nlp/knas} で入手できる。

Many existing neural architecture search (NAS) solutions rely on downstream training for architecture evaluation, which takes enormous computations. Considering that these computations bring a large carbon footprint, this paper aims to explore a green (namely environmental-friend ly) NAS solution that evaluates architectures without training. Intuitively, gradients, induced by the architecture itself, directly decide the convergence and generalization results. It motivates us to propose the gradient kernel hypothesis: Gradients can be used as a coarse-grained proxy of downstream training to evaluate random-initialized networks. To support the hypothesis, we conduct a theoretical analysis and find a practical gradient kernel that has good correlations with training loss and validation performance. According to this hypothesis, we propose a new kernel based architecture search approach KNAS. Experiments show that KNAS achieves competitive results with orders of magnitude faster than "train-then-test" ; paradigms on image classification tasks. Furthermore, the extremely low search cost enables its wide applications. The searched network also outperforms strong baseline RoBERTA-large on two text classification tasks. Codes are available at \url{https://github.com/J ingjing-NLP/KNAS} .
翻訳日:2021-11-30 01:43:10 公開日:2021-11-26
# (参考訳) 3次元形状解析のためのメディアルスペクトル座標 [全文訳有]

Medial Spectral Coordinates for 3D Shape Analysis ( http://arxiv.org/abs/2111.13295v1 )

ライセンス: CC BY 4.0
Morteza Rezanejad, Mohammad Khodadad, Hamidreza Mahyar, Herve Lombaert, Michael Gruninger, Dirk B. Walther, Kaleem Siddiqi(参考訳) 近年、表面メッシュ、ボクセル化内部、あるいは表面点雲で表される3dオブジェクトの形状解析において、我々のコミュニティに対する関心が再燃している。 この関心は、rgbdカメラの可用性の高まりと、自律運転、医療画像、ロボット工学へのコンピュータビジョンの応用によって刺激されている。 これらの設定において、スペクトル座標は、等尺変換に質的に不変な方法で局所的および大域的形状特性を組み込むことができるため、形状表現の公約を示す。 しかし、驚くべきことに、そのような座標は一般的には局所的な表面位置情報や微分情報のみと見なされている。 本稿では,スペクトル座標をメディアル情報(オブジェクト幅)に適合させることにより,スペクトル座標を豊かにすることを提案する。 鍵となるアイデアは、隣接行列の重みを通して、中間球を共有する表面点を組み合わせることである。 我々は、このアイデアとそれを計算するアルゴリズムを用いてスペクトル機能を開発する。 対象の幅と中間結合の組み入れは, 対象分類, 対象部分分割, 表面点対応に関する実験で示されているように, 直接的な利点がある。

In recent years there has been a resurgence of interest in our community in the shape analysis of 3D objects represented by surface meshes, their voxelized interiors, or surface point clouds. In part, this interest has been stimulated by the increased availability of RGBD cameras, and by applications of computer vision to autonomous driving, medical imaging, and robotics. In these settings, spectral coordinates have shown promise for shape representation due to their ability to incorporate both local and global shape properties in a manner that is qualitatively invariant to isometric transformations. Yet, surprisingly, such coordinates have thus far typically considered only local surface positional or derivative information. In the present article, we propose to equip spectral coordinates with medial (object width) information, so as to enrich them. The key idea is to couple surface points that share a medial ball, via the weights of the adjacency matrix. We develop a spectral feature using this idea, and the algorithms to compute it. The incorporation of object width and medial coupling has direct benefits, as illustrated by our experiments on object classification, object part segmentation, and surface point correspondence.
翻訳日:2021-11-30 01:24:14 公開日:2021-11-26
# (参考訳) ニューラルネットワークにおける連続学習のための潜在空間型メモリリプレイ [全文訳有]

Latent Space based Memory Replay for Continual Learning in Artificial Neural Networks ( http://arxiv.org/abs/2111.13297v1 )

ライセンス: CC BY 4.0
Haitz S\'aez de Oc\'ariz Borde(参考訳) メモリリプレイは、以前の知識と破滅的に干渉することなく、新しいタスクを継続的に学習する生物学的脳における学習の鍵となるかもしれない。 一方、ニューラルネットワークは破滅的な忘れ込みに悩まされており、最近トレーニングされたタスクでのみうまく機能する傾向があります。 本研究では,ニューラルネットワークを用いた分類のための潜在空間型メモリリプレイの応用について検討する。 圧縮された潜在空間バージョンに、元のデータのごく一部だけを格納することで、従来のタスクの優れたパフォーマンスを維持できる。

Memory replay may be key to learning in biological brains, which manage to learn new tasks continually without catastrophically interfering with previous knowledge. On the other hand, artificial neural networks suffer from catastrophic forgetting and tend to only perform well on tasks that they were recently trained on. In this work we explore the application of latent space based memory replay for classification using artificial neural networks. We are able to preserve good performance in previous tasks by storing only a small percentage of the original data in a compressed latent space version.
翻訳日:2021-11-30 01:10:22 公開日:2021-11-26
# (参考訳) 人物画像生成のための自己教師付き相関マイニングネットワーク [全文訳有]

Self-supervised Correlation Mining Network for Person Image Generation ( http://arxiv.org/abs/2111.13307v1 )

ライセンス: CC0 1.0
Zijian Wang, Xingqun Qi, Kun Yua, Muyi Sun(参考訳) 人物画像生成は、トレーニングに不整合データペアを必要とするソースイメージに対して、非剛性変形を行うことを目的としている。 近年, 自己再建のための不整合表現を融合させることにより, 自己管理手法は, この課題における大きな展望を表現している。 しかし, この手法は, 絡み合った特徴間の空間的相関をうまく利用できない。 本稿では,DSE(Decomposed Style Encoder)とCMM(Reference Mining Module)という2つのコラボレーティブモジュールを統合した,特徴空間のソースコードを再構成する自己監督型相関マイニングネットワーク(SCM-Net)を提案する。 具体的には、DSEはまず、機能レベルで不整合ペアを生成する。 そして、CMMは特徴再構成のための空間相関場を確立する。 最終的に、翻訳モジュールは再配置された特徴を現実的な結果に変換する。 一方,クロススケールポーズ変換の忠実度を向上させるため,半体から全体生成までの合理的な身体構造を維持するために,グラフベースの身体構造保持損失(BSR損失)を提案する。 DeepFashionデータセット上で行った大規模な実験は、他の教師なしおよび教師なしのアプローチと比較して、我々の手法の優位性を示している。 また, 顔生成結果の満足度は, 他の変形課題における本手法の汎用性を示す。

Person image generation aims to perform non-rigid deformation on source images, which generally requires unaligned data pairs for training. Recently, self-supervised methods express great prospects in this task by merging the disentangled representations for self-reconstruction. However, such methods fail to exploit the spatial correlation between the disentangled features. In this paper, we propose a Self-supervised Correlation Mining Network (SCM-Net) to rearrange the source images in the feature space, in which two collaborative modules are integrated, Decomposed Style Encoder (DSE) and Correlation Mining Module (CMM). Specifically, the DSE first creates unaligned pairs at the feature level. Then, the CMM establishes the spatial correlation field for feature rearrangement. Eventually, a translation module transforms the rearranged features to realistic results. Meanwhile, for improving the fidelity of cross-scale pose transformation, we propose a graph based Body Structure Retaining Loss (BSR Loss) to preserve reasonable body structures on half body to full body generation. Extensive experiments conducted on DeepFashion dataset demonstrate the superiority of our method compared with other supervised and unsupervised approaches. Furthermore, satisfactory results on face generation show the versatility of our method in other deformation tasks.
翻訳日:2021-11-30 01:02:57 公開日:2021-11-26
# (参考訳) 2次元セグメンテーションプリミティブを用いたデータ強化3次元セマンティックシーン補完

Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors ( http://arxiv.org/abs/2111.13309v1 )

ライセンス: CC BY 4.0
Aloisio Dourado, Frederico Guth and Teofilo de Campos(参考訳) セマンティック・シーン・コンプリート(ssc)は、ロボティクスからアシストコンピューティングまで、多くの実用的な応用を伴うコンピュータビジョンの課題である。 その目標は、シーンの視野における3次元幾何学と、閉鎖領域を含むボクセルのセマンティックラベルを推論することである。 本研究では,RGB-D画像の奥行き成分から構造データを,バイモーダル2Dセグメンテーションネットワークからのセマンティックプリミティブにシームレスに融合する,軽量なマルチモーダル3DディープCNNであるSPAwNを提案する。 この分野で重要な課題は、現在の3D CNNをトレーニングするのに十分な大きさの、完全にラベル付けされた現実世界の3Dデータセットがないことである。 2次元コンピュータビジョンタスクでは、cnnの一般化能力を向上させるために多くのデータ拡張戦略が提案されている。 しかし、これらのアプローチは、SSCソリューションのRGB-D入力および出力ボリュームに直接適用することはできない。 本稿では,マルチモーダルsscネットワークに適用可能な3次元データ拡張戦略について紹介する。 我々は包括的かつ再現可能なアブレーション研究で貢献を検証した。 私たちのソリューションは、同じレベルの複雑さを持つ以前の作業に一貫して勝ります。

Semantic scene completion (SSC) is a challenging Computer Vision task with many practical applications, from robotics to assistive computing. Its goal is to infer the 3D geometry in a field of view of a scene and the semantic labels of voxels, including occluded regions. In this work, we present SPAwN, a novel lightweight multimodal 3D deep CNN that seamlessly fuses structural data from the depth component of RGB-D images with semantic priors from a bimodal 2D segmentation network. A crucial difficulty in this field is the lack of fully labeled real-world 3D datasets which are large enough to train the current data-hungry deep 3D CNNs. In 2D computer vision tasks, many data augmentation strategies have been proposed to improve the generalization ability of CNNs. However those approaches cannot be directly applied to the RGB-D input and output volume of SSC solutions. In this paper, we introduce the use of a 3D data augmentation strategy that can be applied to multimodal SSC networks. We validate our contributions with a comprehensive and reproducible ablation study. Our solution consistently surpasses previous works with a similar level of complexity.
翻訳日:2021-11-30 00:51:22 公開日:2021-11-26
# (参考訳) Blaschke Product Neural Networks (BPNN): メロモルフィック関数の位相検索のための物理拡散ニューラルネットワーク [全文訳有]

Blaschke Product Neural Networks (BPNN): A Physics-Infused Neural Network for Phase Retrieval of Meromorphic Functions ( http://arxiv.org/abs/2111.13311v1 )

ライセンス: CC BY 4.0
Juncheng Dong, Simiao Ren, Yang Deng, Omar Khatib, Jordan Malof, Mohammadreza Soltani, Willie Padilla, Vahid Tarokh(参考訳) 多くの物理系は一般あるいは偏微分方程式によって記述され、その解は複素領域の正則あるいは正則函数によって与えられる。 多くの場合、これらの関数の大きさは、その位相のコヒーレントな測定がしばしば高価であるため、純粋に想像上のjw軸上の様々な点で観察される。 しかし、できるだけの規模から失われた位相を回収することが望ましい。 そこで本研究では,Blaschke生成物に基づく物理拡散深層ニューラルネットワークによる位相探索を提案する。 我々は,Blaschke Product Neural Network (BPNN) を用いて,Blaschkeの積の有理関数の係数を入力として,ヘルソン理論とSarason理論に着想を得た。 結果として生じる有理関数は位相探索に使用される。 BPNNと従来のディープニューラルネットワーク(NN)を、合成と現代の両方の現実世界の問題(例えば、データ収集にかなりの専門知識と時間を要するメタマテリアル)を含む相検索問題で比較する。 各位相探索問題において、異なるサイズとハイパーパラメータ設定の従来のNNの集団と比較する。 ハイパーパラメーター検索がなくても、BPNNはデータシナリオが乏しいため、最適化NNの人口を一貫して上回ります。 この結果は, 材料科学の新たな領域において重要な問題である, メタマテリアルの屈折率の計算に応用できる。

Numerous physical systems are described by ordinary or partial differential equations whose solutions are given by holomorphic or meromorphic functions in the complex domain. In many cases, only the magnitude of these functions are observed on various points on the purely imaginary jw-axis since coherent measurement of their phases is often expensive. However, it is desirable to retrieve the lost phases from the magnitudes when possible. To this end, we propose a physics-infused deep neural network based on the Blaschke products for phase retrieval. Inspired by the Helson and Sarason Theorem, we recover coefficients of a rational function of Blaschke products using a Blaschke Product Neural Network (BPNN), based upon the magnitude observations as input. The resulting rational function is then used for phase retrieval. We compare the BPNN to conventional deep neural networks (NNs) on several phase retrieval problems, comprising both synthetic and contemporary real-world problems (e.g., metamaterials for which data collection requires substantial expertise and is time consuming). On each phase retrieval problem, we compare against a population of conventional NNs of varying size and hyperparameter settings. Even without any hyper-parameter search, we find that BPNNs consistently outperform the population of optimized NNs in scarce data scenarios, and do so despite being much smaller models. The results can in turn be applied to calculate the refractive index of metamaterials, which is an important problem in emerging areas of material science.
翻訳日:2021-11-30 00:50:26 公開日:2021-11-26
# (参考訳) Amercing: 動的タイムワープのための直感的でエレガントで効果的な制約 [全文訳有]

Amercing: An Intuitive, Elegant and Effective Constraint for Dynamic Time Warping ( http://arxiv.org/abs/2111.13314v1 )

ライセンス: CC BY 4.0
Matthieu Herrmann, Geoffrey I. Webb(参考訳) Dynamic Time Warping (DTW) およびその制約付き (CDTW) および重み付き (WDTW) 変種 (WDTW) は、幅広い用途の時系列距離である。 級数間の非線形アライメントのコストを最小化する。 CDTWとWDTWは、DTWがアライメントを許容しすぎるため導入された。 しかし、CDTWは粗いステップ関数を使用し、ウィンドウ内で制約のない柔軟性を実現する。 wdtwの乗法重みは、導入される摂動量の直接関数ではなく、整列された経路に沿った点間の距離に相対する。 本稿では, 直感的かつ直感的なDTW変種であるAmerced Dynamic Time Warping (ADTW) について述べる。 CDTWやWDTWと同様に、ADTWはワープの量を制限する。 しかし、反りの量に対する突然の不連続と乗法的なペナルティの限界の両方を避けることができる。 我々はADTWを正式に導入し、その特性の一部を証明し、パラメータ化について議論する。 単純な例として,直観的な結果を達成するためにパラメータ化する方法を示し,標準時系列分類ベンチマークでその有用性を示す。 C++でデモアプリケーションを提供します。

Dynamic Time Warping (DTW), and its constrained (CDTW) and weighted (WDTW) variants, are time series distances with a wide range of applications. They minimize the cost of non-linear alignments between series. CDTW and WDTW have been introduced because DTW is too permissive in its alignments. However, CDTW uses a crude step function, allowing unconstrained flexibility within the window, and none beyond it. WDTW's multiplicative weight is relative to the distances between aligned points along a warped path, rather than being a direct function of the amount of warping that is introduced. In this paper, we introduce Amerced Dynamic Time Warping (ADTW), a new, intuitive, DTW variant that penalizes the act of warping by a fixed additive cost. Like CDTW and WDTW, ADTW constrains the amount of warping. However, it avoids both abrupt discontinuities in the amount of warping allowed and the limitations of a multiplicative penalty. We formally introduce ADTW, prove some of its properties, and discuss its parameterization. We show on a simple example how it can be parameterized to achieve an intuitive outcome, and demonstrate its usefulness on a standard time series classification benchmark. We provide a demonstration application in C++.
翻訳日:2021-11-30 00:32:24 公開日:2021-11-26
# (参考訳) 軌道予測のための階層型運動エンコーダデコーダネットワーク [全文訳有]

Hierarchical Motion Encoder-Decoder Network for Trajectory Forecasting ( http://arxiv.org/abs/2111.13324v1 )

ライセンス: CC BY 4.0
Qifan Xue, Shengyi Li, Xuanpeng Li, Jingwen Zhao, and Weigong Zhang(参考訳) 軌道予測は知的車両や社会ロボットの分野で重要な役割を果たしている。 最近の研究は、空間的社会的影響や時間的動きの注意をモデル化することに焦点を当てているが、動きの性質、すなわち動きの傾向や運転意図を無視している。 本稿では,車両軌道予測のための文脈自由な階層型運動エンコーダデコーダネットワーク(HMNet)を提案する。 HMNetはまず、動きの階層的な違いを推論し、動きの傾向や運転意図の表現率が高い物理的に適合したパターンを符号化する。 そして、ゴール(エンドポイント)組込みデコーダは、位置速度加速関連パターンに応じて階層的にマルチモーダル予測を構成する。 また,社会的相互作用を表現するために,特定の動作特性を考慮に入れた修正型ソーシャルプーリングモジュールを提案する。 HMNetは正確で、単調で、マルチモーダルで、物理的に社会に準拠する予測を可能にする。 NGSIM,HighD,Interact ionという3つの公共軌道予測データセットの実験により,我々のモデルが定量的かつ定性的に最先端の性能を達成することを示す。 コードについては、https://github.com/x uedashuai/HMNet.comで公開します。

Trajectory forecasting plays a pivotal role in the field of intelligent vehicles or social robots. Recent works focus on modeling spatial social impacts or temporal motion attentions, but neglect inherent properties of motions, i.e. moving trends and driving intentions. This paper proposes a context-free Hierarchical Motion Encoder-Decoder Network (HMNet) for vehicle trajectory prediction. HMNet first infers the hierarchical difference on motions to encode physically compliant patterns with high expressivity of moving trends and driving intentions. Then, a goal (endpoint)-embedded decoder hierarchically constructs multimodal predictions depending on the location-velocity-ac celeration-related patterns. Besides, we present a modified social pooling module which considers certain motion properties to represent social interactions. HMNet enables to make the accurate, unimodal/multimodal and physically-socially- compliant prediction. Experiments on three public trajectory prediction datasets, i.e. NGSIM, HighD and Interaction show that our model achieves the state-of-the-art performance both quantitatively and qualitatively. We will release our code here: https://github.com/x uedashuai/HMNet.
翻訳日:2021-11-30 00:18:50 公開日:2021-11-26
# (参考訳) SGD下の深部ニューラルネットワークにおける暗黙のデータ駆動規則化

Implicit Data-Driven Regularization in Deep Neural Networks under SGD ( http://arxiv.org/abs/2111.13331v1 )

ライセンス: CC BY-SA 4.0
Xuran Meng, Jianfeng Yao(参考訳) 深層学習の成功を説明するために多くの研究努力が注がれている。 確率行列理論(rmt)はこの目的への新たな方法を提供する: 確率的勾配降下アルゴリズムに関して、重み行列やヘッセン行列のような訓練された深層ニューラルネットワーク(dnn)に関与する大きなランダム行列のスペクトル解析。 本稿では,様々なモジュール(層,ネットワーク,データセットなど)の重み行列に関する広範囲な実験を行い,スペクトルの進化を分析する。 その結果,これらのスペクトルは,Mal\v{c}enko-Pasturスペクトル(MP),Mal\v{c}enko-Pasturスペクトル(MPB),Heaved tailed spectrum(HT)の3種類に分類されることがわかった。 さらに、これらの検出されたスペクトルは、dnnの正則化度に直接接続される。 正規化の度合いは、dnnに供給されるデータの品質、すなわちデータ駆動正規化に依存する。 これらの結果は、ガウス合成データと実データ(MNISTとCIFAR10)を用いて、いくつかのNNで検証されている。 最後に、スペクトル型と正規化度との接続を用いて、テストデータなしでNNが高度に正規化されている場合のスペクトル基準を提案し、早期停止手順を構築する。 このような早期停止DNNは、同等の一般化能力を維持しながら、不要な余分なトレーニングを避ける。

Much research effort has been devoted to explaining the success of deep learning. Random Matrix Theory (RMT) provides an emerging way to this end: spectral analysis of large random matrices involved in a trained deep neural network (DNN) such as weight matrices or Hessian matrices with respect to the stochastic gradient descent algorithm. In this paper, we conduct extensive experiments on weight matrices in different modules, e.g., layers, networks and data sets, to analyze the evolution of their spectra. We find that these spectra can be classified into three main types: Mar\v{c}enko-Pastur spectrum (MP), Mar\v{c}enko-Pastur spectrum with few bleeding outliers (MPB), and Heavy tailed spectrum (HT). Moreover, these discovered spectra are directly connected to the degree of regularization in the DNN. We argue that the degree of regularization depends on the quality of data fed to the DNN, namely Data-Driven Regularization. These findings are validated in several NNs, using Gaussian synthetic data and real data sets (MNIST and CIFAR10). Finally, we propose a spectral criterion and construct an early stopping procedure when the NN is found highly regularized without test data by using the connection between the spectra types and the degrees of regularization. Such early stopped DNNs avoid unnecessary extra training while preserving a much comparable generalization ability.
翻訳日:2021-11-29 23:59:08 公開日:2021-11-26
# (参考訳) 進化的学習を用いたテスト容易性を考慮した低電力制御器の設計 [全文訳有]

Testability-Aware Low Power Controller Design with Evolutionary Learning ( http://arxiv.org/abs/2111.13332v1 )

ライセンス: CC BY 4.0
Min Li, Zhengyuan Shi, Zezhong Wang, Weiwei Zhang, Yu Huang, Qiang Xu(参考訳) xornetベースの低電力コントローラは、スキャンベースのテストで回路遷移を減らす一般的な技術である。 しかし、既存のソリューションはスキャンチェーン制御のためにXORNetを均等に構築しており、設計指導なしに最適化されたサブソリューションをもたらす可能性がある。 本稿では,進化的学習を伴う新しいテスト容易性を考慮した低消費電力制御器を提案する。 提案した遺伝的アルゴリズム(GA)から生成されたXORNetは、スキャンチェーンの使用状況に応じて適応制御が可能であり、これにより、XORNet符号化能力が大幅に向上し、ATPGによる障害ケースの数が少なくなり、テストデータ量も減少する。 実験の結果,同じ制御ビットの下では,GA誘導XORNetの設計により,最大2.11%の故障カバレッジが向上することが示された。 提案されたGA誘導XORNetは、制御ビット数を減らし、テスト時間が平均で20.78%減少し、テストカバレッジを犠牲にすることなく既存の設計と比較して47.09%まで減少した。

XORNet-based low power controller is a popular technique to reduce circuit transitions in scan-based testing. However, existing solutions construct the XORNet evenly for scan chain control, and it may result in sub-optimal solutions without any design guidance. In this paper, we propose a novel testability-aware low power controller with evolutionary learning. The XORNet generated from the proposed genetic algorithm (GA) enables adaptive control for scan chains according to their usages, thereby significantly improving XORNet encoding capacity, reducing the number of failure cases with ATPG and decreasing test data volume. Experimental results indicate that under the same control bits, our GA-guided XORNet design can improve the fault coverage by up to 2.11%. The proposed GA-guided XORNets also allows reducing the number of control bits, and the total testing time decreases by 20.78% on average and up to 47.09% compared to the existing design without sacrificing test coverage.
翻訳日:2021-11-29 23:57:55 公開日:2021-11-26
# (参考訳) ゼロショットニューラルネットワークによる効率的な物体検出バックボーンの再検討 [全文訳有]

Revisiting Efficient Object Detection Backbones from Zero-Shot Neural Architecture Search ( http://arxiv.org/abs/2111.13336v1 )

ライセンス: CC BY 4.0
Zhenhong Sun, Ming Lin, Xiuyu Sun, Zhiyu Tan and Rong Jin(参考訳) オブジェクト検出モデルでは、検出バックボーンは全体の推論コストの半分以上を消費する。 最近の研究は、Neural Architecture Search (NAS)の助けを借りてバックボーンアーキテクチャを最適化することで、このコストを削減しようとしている。 しかし、オブジェクト検出のための既存のnasメソッドは、数百から数千時間のgpu検索を必要とするため、高速な研究と開発では実用的ではない。 本研究では,この問題に対処する新しいゼロショットNAS法を提案する。 提案手法はZendDetと呼ばれ,ネットワークパラメータを訓練せずに効率的な検出バックボーンを自動設計し,アーキテクチャ設計コストをほぼゼロに削減し,最先端(SOTA)性能を実現する。 内部では、zendetは検出バックボーンの差分エントロピーを最大化し、同じ計算予算でオブジェクト検出のためのより良い特徴抽出器となる。 完全な自動設計のgpuデーの後、zendetは複数の検出ベンチマークデータセットでsoma検出バックボーンを革新し、人間の介入は少ない。 ResNet-50のバックボーンと比較すると、ZendDetは同じFLOP/パラメータを使用する場合、mAPでは+2.0%、同じmAPではNVIDIA V100では1.54倍高速である。 コードと事前訓練されたモデルは後にリリースされる。

In object detection models, the detection backbone consumes more than half of the overall inference cost. Recent researches attempt to reduce this cost by optimizing the backbone architecture with the help of Neural Architecture Search (NAS). However, existing NAS methods for object detection require hundreds to thousands of GPU hours of searching, making them impractical in fast-paced research and development. In this work, we propose a novel zero-shot NAS method to address this issue. The proposed method, named ZenDet, automatically designs efficient detection backbones without training network parameters, reducing the architecture design cost to nearly zero yet delivering the state-of-the-art (SOTA) performance. Under the hood, ZenDet maximizes the differential entropy of detection backbones, leading to a better feature extractor for object detection under the same computational budgets. After merely one GPU day of fully automatic design, ZenDet innovates SOTA detection backbones on multiple detection benchmark datasets with little human intervention. Comparing to ResNet-50 backbone, ZenDet is +2.0% better in mAP when using the same amount of FLOPs/parameters and is 1.54 times faster on NVIDIA V100 at the same mAP. Code and pre-trained models will be released later.
翻訳日:2021-11-29 23:39:57 公開日:2021-11-26
# (参考訳) ウイルス-ヒト蛋白質間相互作用の予測のためのマルチタスク伝達学習フレームワーク [全文訳有]

A multitask transfer learning framework for the prediction of virus-human protein-protein interactions ( http://arxiv.org/abs/2111.13346v1 )

ライセンス: CC BY 4.0
Thi Ngan Dong, Graham Brogden, Gisa Gerold, Megha Khosla(参考訳) ウイルス感染は世界中で重大な死亡と死亡を引き起こしている。 特定のウイルスとヒトのタンパク質の相互作用パターンを理解することは、ウイルス感染と病原性のメカニズムを明らかにする上で重要な役割を果たす。 これはウイルス関連疾患の予防と治療にさらに役立つ可能性がある。 しかし、ウイルスとヒトの細胞の間のタンパク質とタンパク質の相互作用を予測することは、ウイルスとヒトの相互作用に関するデータが少なく、ほとんどのウイルスの変異率も速いため、非常に困難である。 本研究では,約2400万のタンパク質配列情報と,ヒトのインタラクションームからのインタラクションパターンを活用し,小規模のトレーニングデータセットの問題を解決するマルチタスク転送学習手法を開発した。 手作りのタンパク質の特徴を使う代わりに、タンパク質配列の膨大な源から深層言語モデリングアプローチで学習した統計的に豊かなタンパク質表現を利用する。 また,ヒトタンパク質とタンパク質の相互作用を観察する確率を最大化するための新たな目的も採用している。 この追加のタスク目標は、レギュレータとして機能し、ウイルス-ヒトタンパク質-タンパク質相互作用予測モデルにドメイン知識を組み込むことができる。 提案手法は,13のベンチマークデータセットとSAR-CoV-2ウイルス受容体のケーススタディで競合した結果を得た。 実験の結果,提案モデルは,ウイルス-ヒト-細菌-ヒト-タンパク質相互作用予測タスクにおいて効果的に機能することが示された。 再現性と今後の研究のコードはhttps://git.l3s.uni- hannover.de/dong/mul titask-transfer.comで公開しています。

Viral infections are causing significant morbidity and mortality worldwide. Understanding the interaction patterns between a particular virus and human proteins plays a crucial role in unveiling the underlying mechanism of viral infection and pathogenesis. This could further help in the prevention and treatment of virus-related diseases. However, the task of predicting protein-protein interactions between a new virus and human cells is extremely challenging due to scarce data on virus-human interactions and fast mutation rates of most viruses. We developed a multitask transfer learning approach that exploits the information of around 24 million protein sequences and the interaction patterns from the human interactome to counter the problem of small training datasets. Instead of using hand-crafted protein features, we utilize statistically rich protein representations learned by a deep language modeling approach from a massive source of protein sequences. Additionally, we employ an additional objective which aims to maximize the probability of observing human protein-protein interactions. This additional task objective acts as a regularizer and also allows to incorporate domain knowledge to inform the virus-human protein-protein interaction prediction model. Our approach achieved competitive results on 13 benchmark datasets and the case study for the SAR-CoV-2 virus receptor. Experimental results show that our proposed model works effectively for both virus-human and bacteria-human protein-protein interaction prediction tasks. We share our code for reproducibility and future research at https://git.l3s.uni- hannover.de/dong/mul titask-transfer.
翻訳日:2021-11-29 23:19:12 公開日:2021-11-26
# (参考訳) マルチスケールグラフウェーブレット畳み込みネットワークを用いた幾何学的マルチモーダル深層学習 [全文訳有]

Geometric Multimodal Deep Learning with Multi-Scaled Graph Wavelet Convolutional Network ( http://arxiv.org/abs/2111.13361v1 )

ライセンス: CC BY 4.0
Maysam Behmanesh, Peyman Adibi, Mohammad Saeed Ehsani, Jocelyn Chanussot(参考訳) マルチモーダルデータは、異なる統計特性を持つ様々な領域のデータを統合することで、自然現象の相補的な情報を提供する。 マルチモーダルデータのモダリティ内およびモダリティ間情報の取得は,マルチモーダル学習法の基本的能力である。 幾何学的データ分析アプローチは、幾何学的基盤構造に基づいて、様々なモードでデータを暗黙的に表現することで、これらの機能を提供する。 また、多くの応用において、データは内在的な幾何学構造上で明示的に定義される。 非ユークリッド領域へのディープラーニング手法の一般化は、近年多くの研究で研究されている新しい研究分野である。 これらの一般的な手法の多くはユニモーダルデータのために開発されている。 本稿では,マルチモーダルなマルチスケールグラフウェーブレット畳み込みネットワーク(M-GWCN)をエンドツーエンドネットワークとして提案する。 M-GWCNは、マルチスケールグラフウェーブレット変換を適用して、各モダリティのグラフ領域における有用なローカライズ特性を提供し、様々なモダリティ間の相関を符号化する置換を学習することにより、モダリティ内表現を同時に見つける。 M-GWCNは、同じ数のデータを持つ同種モダリティや、モダリティ間の対応を示す事前知識に制限されない。 半教師付きノード分類実験は、3つの一般的なユニモーダルなグラフベースのデータセットと5つのマルチモーダル暗黙的なデータセットで行われている。 実験結果は,スペクトルグラフ領域畳み込みニューラルネットワークと最先端のマルチモーダル手法とを比較し,提案手法の優劣と有効性を示した。

Multimodal data provide complementary information of a natural phenomenon by integrating data from various domains with very different statistical properties. Capturing the intra-modality and cross-modality information of multimodal data is the essential capability of multimodal learning methods. The geometry-aware data analysis approaches provide these capabilities by implicitly representing data in various modalities based on their geometric underlying structures. Also, in many applications, data are explicitly defined on an intrinsic geometric structure. Generalizing deep learning methods to the non-Euclidean domains is an emerging research field, which has recently been investigated in many studies. Most of those popular methods are developed for unimodal data. In this paper, a multimodal multi-scaled graph wavelet convolutional network (M-GWCN) is proposed as an end-to-end network. M-GWCN simultaneously finds intra-modality representation by applying the multiscale graph wavelet transform to provide helpful localization properties in the graph domain of each modality, and cross-modality representation by learning permutations that encode correlations among various modalities. M-GWCN is not limited to either the homogeneous modalities with the same number of data, or any prior knowledge indicating correspondences between modalities. Several semi-supervised node classification experiments have been conducted on three popular unimodal explicit graph-based datasets and five multimodal implicit ones. The experimental results indicate the superiority and effectiveness of the proposed methods compared with both spectral graph domain convolutional neural networks and state-of-the-art multimodal methods.
翻訳日:2021-11-29 22:55:28 公開日:2021-11-26
# (参考訳) 機械と影響 [全文訳有]

Machines and Influence ( http://arxiv.org/abs/2111.13365v1 )

ライセンス: CC BY 4.0
Shashank Yadav(参考訳) 政策立案者は、今日のAI能力をどう見るか、そしてその能力の観点から社会がどこに立つかという、より広い課題に直面している。 本稿では、AIの能力を調査し、この問題に対処し、デジタル社会における政治的セキュリティの文脈でそれを探求する。 本稿では、aiの敵対的応用をフレーム化し、ナビゲートするために機械の影響のマトリックスを導入し、複雑な情報システムの一部としての現代のaiシステムの展開をより理解するために、情報管理のアイデアをさらに拡張する。 ネットワーク化された社会と政治システムにおける人間と機械の相互作用の包括的なレビューを提供することで、情報システムのより良い規制と管理がAIのリスクを最適に相殺し、これらのシステムが世界中の政策立案者や政治機関に提供しなければならない新興能力を活用することを提案します。 この長いエッセイが、これらのアイデアに関するさらなる議論と議論を活性化し、aiの未来を管理する上で有用な貢献となることを願っている。

Policymakers face a broader challenge of how to view AI capabilities today and where does society stand in terms of those capabilities. This paper surveys AI capabilities and tackles this very issue, exploring it in context of political security in digital societies. We introduce a Matrix of Machine Influence to frame and navigate the adversarial applications of AI, and further extend the ideas of Information Management to better understand contemporary AI systems deployment as part of a complex information system. Providing a comprehensive review of man-machine interactions in our networked society and political systems, we suggest that better regulation and management of information systems can more optimally offset the risks of AI and utilise the emerging capabilities which these systems have to offer to policymakers and political institutions across the world. Hopefully this long essay will actuate further debates and discussions over these ideas, and prove to be a useful contribution towards governing the future of AI.
翻訳日:2021-11-29 22:26:12 公開日:2021-11-26
# (参考訳) POEM: 効率的なポイントクラウド処理のための期待最大化に基づく1ビットポイントワイズ操作 [全文訳有]

POEM: 1-bit Point-wise Operations based on Expectation-Maximiza tion for Efficient Point Cloud Processing ( http://arxiv.org/abs/2111.13386v1 )

ライセンス: CC BY 4.0
Sheng Xu, Yanjing Li, Junhe Zhao, Baochang Zhang, Guodong Guo(参考訳) リアルタイムのポイントクラウド処理は、多くのコンピュータビジョンタスクには基本的だが、リソース制限のエッジデバイスでは計算の問題に悩まされている。 この問題に対処するために,効率的なポイントクラウド処理のために,xnor-net ベースのバイナリニューラルネットワーク (bnns) を実装したが,その性能はガウス分布重みと非リーナブルスケール係数という2つの主な欠点によりひどく苦しめられている。 本稿では,POEMに基づくポイントワイズ操作を,効率的なポイントクラウド処理のためにBNNに導入する。 EMアルゴリズムは、ロバストなバイモーダル分布に対する重みを効率的に制限することができる。 1ビット全接続層(Bi-FC)の表現能力を高めるために,学習可能なスケール因子を計算するために,よく設計された再構成損失を導出する。 大規模な実験によると、我々のPOEMは最先端のバイナリポイントクラウドネットワークを6.7%まで大きく上回っている。

Real-time point cloud processing is fundamental for lots of computer vision tasks, while still challenged by the computational problem on resource-limited edge devices. To address this issue, we implement XNOR-Net-based binary neural networks (BNNs) for an efficient point cloud processing, but its performance is severely suffered due to two main drawbacks, Gaussian-distributed weights and non-learnable scale factor. In this paper, we introduce point-wise operations based on Expectation-Maximiza tion (POEM) into BNNs for efficient point cloud processing. The EM algorithm can efficiently constrain weights for a robust bi-modal distribution. We lead a well-designed reconstruction loss to calculate learnable scale factors to enhance the representation capacity of 1-bit fully-connected (Bi-FC) layers. Extensive experiments demonstrate that our POEM surpasses existing the state-of-the-art binary point cloud networks by a significant margin, up to 6.7 %.
翻訳日:2021-11-29 21:58:46 公開日:2021-11-26
# (参考訳) KazNERD: Kazakhがエンティティ認識データセットを命名 [全文訳有]

KazNERD: Kazakh Named Entity Recognition Dataset ( http://arxiv.org/abs/2111.13419v1 )

ライセンス: CC BY 4.0
Rustem Yeshpanov, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 本稿では,カザフスタンのエンティティ認識のためのデータセットの開発について述べる。 データセットは、カザフ語で公開されている注釈付きコーパスと、単純だが厳格なルールと例を含むアノテーションガイドラインの必要性から構築された。 IOB2スキームに基づくデータセットアノテーションは、最初の著者の監督の下、2人のネイティブカザフ語話者によってテレビニューステキストで実施された。 得られたデータセットには、112,702文と、25のエンティティクラスのための136,333アノテーションが含まれている。 カザフの名前付きエンティティ認識を自動化する最先端の機械学習モデルも構築され、テストセットで正確に一致したf1-scoreは97.22%であった。 モデルをトレーニングするために使用される注釈付きデータセット、ガイドライン、コードは、https://github.com/I S2AI/KazNERDからCC BY 4.0ライセンスで無料でダウンロードできる。

We present the development of a dataset for Kazakh named entity recognition. The dataset was built as there is a clear need for publicly available annotated corpora in Kazakh, as well as annotation guidelines containing straightforward--but rigorous--rules and examples. The dataset annotation, based on the IOB2 scheme, was carried out on television news text by two native Kazakh speakers under the supervision of the first author. The resulting dataset contains 112,702 sentences and 136,333 annotations for 25 entity classes. State-of-the-art machine learning models to automatise Kazakh named entity recognition were also built, with the best-performing model achieving an exact match F1-score of 97.22% on the test set. The annotated dataset, guidelines, and codes used to train the models are freely available for download under the CC BY 4.0 licence from https://github.com/I S2AI/KazNERD.
翻訳日:2021-11-29 21:46:55 公開日:2021-11-26
# (参考訳) 自己注意型複数インスタンス学習とリカレントニューラルネットワークを組み合わせたH&E画像による前立腺癌再発予測に向けて [全文訳有]

Towards Explainable End-to-End Prostate Cancer Relapse Prediction from H&E Images Combining Self-Attention Multiple Instance Learning with a Recurrent Neural Network ( http://arxiv.org/abs/2111.13439v1 )

ライセンス: CC BY 4.0
Esther Dietrich, Patrick Fuhlert, Anne Ernst, Guido Sauter, Maximilian Lennartz, H. Siegfried Stiehl, Marina Zimmermann, Stefan Bonn(参考訳) 病理画像データの臨床的決定支援は主に、直感的な解釈性を提供するが、専門家のパフォーマンスによって拘束される強い教師付きアノテーションに焦点を当てている。 本稿では, がん再発予測ネットワーク (ecarenet) を提案し, 強いアノテーションを伴わないエンドツーエンド学習が最先端のパフォーマンスを提供するとともに, 注意機構によって解釈可能性を含めることができることを示す。 前立腺癌生存予測のユースケースでは,14,479画像と再発時間のみをアノテーションとして用い,検証セットで0.78の累積動的AUCに到達し,専門家の病理医と同等である(別検体で0.77のAUC)。 本モデルでは,患者1人当たりのリスクスコアとグループだけでなく,生存曲線も良好に評価する。 複数インスタンス学習層の注意重みを用いて,悪性パッチが良性パッチよりも予測に影響を与えることを示し,予測の直感的解釈を提供する。 私たちのコードはwww.github.com/imsb- uke/ecarenetで利用可能です。

Clinical decision support for histopathology image data mainly focuses on strongly supervised annotations, which offers intuitive interpretability, but is bound by expert performance. Here, we propose an explainable cancer relapse prediction network (eCaReNet) and show that end-to-end learning without strong annotations offers state-of-the-art performance while interpretability can be included through an attention mechanism. On the use case of prostate cancer survival prediction, using 14,479 images and only relapse times as annotations, we reach a cumulative dynamic AUC of 0.78 on a validation set, being on par with an expert pathologist (and an AUC of 0.77 on a separate test set). Our model is well-calibrated and outputs survival curves as well as a risk score and group per patient. Making use of the attention weights of a multiple instance learning layer, we show that malignant patches have a higher influence on the prediction than benign patches, thus offering an intuitive interpretation of the prediction. Our code is available at www.github.com/imsb- uke/ecarenet.
翻訳日:2021-11-29 21:27:14 公開日:2021-11-26
# (参考訳) TDAN:CNNにおける機能選択性向上のためのトップダウン注意ネットワーク [全文訳有]

TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in CNNs ( http://arxiv.org/abs/2111.13470v1 )

ライセンス: CC BY 4.0
Shantanu Jaiswal, Basura Fernando, Cheston Tan(参考訳) 畳み込みニューラルネットワーク(CNN)のアテンションモジュールは、複数のコンピュータビジョンタスクにおけるネットワークの性能を高める効果的な方法である。 多くの作品はチャネル、空間、セルフ・アテンションの適切なモデリングを通してより効果的なモジュールを構築することに重点を置いているが、それらは主にフィードフォワード方式で機能する。 したがって、アテンションメカニズムは単一の入力特徴アクティベーションの表現能力に強く依存し、トップダウン情報フローを通じて「何とどこに見えるか」を指定できる意味的にリッチな高レベルのアクティベーションを組み込むことの恩恵を受けることができる。 このようなフィードバック接続は霊長類の視覚野でも広く見られ、霊長類の視覚注意の重要な要素として神経科学者によって認識されている。 そこで,本研究では,トップダウンチャネルと空間変調を行うための「視覚検索光」を反復的に生成する軽量なトップダウンアテンションモジュールを提案し,計算ステップ毎により選択的な特徴アクティベーションを出力する。 実験の結果,cnnsにtdを統合するとimagenet-1k分類の性能が向上し,パラメータやメモリ効率が向上する一方,注目すべき注意モジュールを上回った。 さらに,提案モデルは推論中の入力解像度の変化に対してより頑健であり,明示的な監督なしに各計算ステップで個々のオブジェクトや特徴をローカライズすることで「注意を移す」ことを学ぶ。 この機能は、細粒度とマルチラベルの分類の改善に加えて、弱教師付きオブジェクトローカライゼーションにおけるResNet50の5%の改善をもたらす。

Attention modules for Convolutional Neural Networks (CNNs) are an effective method to enhance performance of networks on multiple computer-vision tasks. While many works focus on building more effective modules through appropriate modelling of channel-, spatial- and self-attention, they primarily operate in a feedfoward manner. Consequently, the attention mechanism strongly depends on the representational capacity of a single input feature activation, and can benefit from incorporation of semantically richer higher-level activations that can specify "what and where to look" through top-down information flow. Such feedback connections are also prevalent in the primate visual cortex and recognized by neuroscientists as a key component in primate visual attention. Accordingly, in this work, we propose a lightweight top-down (TD) attention module that iteratively generates a "visual searchlight" to perform top-down channel and spatial modulation of its inputs and consequently outputs more selective feature activations at each computation step. Our experiments indicate that integrating TD in CNNs enhances their performance on ImageNet-1k classification and outperforms prominent attention modules while being more parameter and memory efficient. Further, our models are more robust to changes in input resolution during inference and learn to "shift attention" by localizing individual objects or features at each computation step without any explicit supervision. This capability results in 5% improvement for ResNet50 on weakly-supervised object localization besides improvements in fine-grained and multi-label classification.
翻訳日:2021-11-29 21:02:58 公開日:2021-11-26
# (参考訳) すべての関係が等しくない:シーングラフ生成のための情報ラベルのマイニング [全文訳有]

Not All Relations are Equal: Mining Informative Labels for Scene Graph Generation ( http://arxiv.org/abs/2111.13517v1 )

ライセンス: CC BY 4.0
Arushi Goel, Basura Fernando, Frank Keller and Hakan Bilen(参考訳) シーングラフ生成(sgg: scene graph generation)は、オブジェクトのペア間のさまざまなインタラクションをキャプチャすることを目的としている。 既存のSGG法は、学習データに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論を得ることができない。 パークオンのような情報的関係ではなく「オン」のような一般的な空間構成を示す自明な関係について学ぶことは、この複雑な推論を強制せず、一般化を損なう。 そこで本研究では,関係ラベルを活用し,その情報に基づいてsggトレーニングのための新しい枠組みを提案する。 モデル非依存なトレーニング手順は,学習データ中の情報的サンプルが少ない情報的関係の欠如を招き,既存のアノテーションとともにラベルのsggモデルを訓練する。 この手法は最先端のsgg法と併用して有効に利用でき、標準のvisual genomeベンチマークで複数の測定基準で性能が大幅に向上する。 さらに,より困難なゼロショット設定において,未発見のトリプレットに対する大幅な改善が得られた。

Scene graph generation (SGG) aims to capture a wide variety of interactions between pairs of objects, which is essential for full scene understanding. Existing SGG methods trained on the entire set of relations fail to acquire complex reasoning about visual and textual correlations due to various biases in training data. Learning on trivial relations that indicate generic spatial configuration like 'on' instead of informative relations such as 'parked on' does not enforce this complex reasoning, harming generalization. To address this problem, we propose a novel framework for SGG training that exploits relation labels based on their informativeness. Our model-agnostic training procedure imputes missing informative relations for less informative samples in the training data and trains a SGG model on the imputed labels along with existing annotations. We show that this approach can successfully be used in conjunction with state-of-the-art SGG methods and improves their performance significantly in multiple metrics on the standard Visual Genome benchmark. Furthermore, we obtain considerable improvements for unseen triplets in a more challenging zero-shot setting.
翻訳日:2021-11-29 20:44:49 公開日:2021-11-26
# (参考訳) 生成エピソード記憶における意味的補完のモデル [全文訳有]

A model of semantic completion in generative episodic memory ( http://arxiv.org/abs/2111.13537v1 )

ライセンス: CC BY 4.0
Zahra Fayyaz, Aya Altamimi, Sen Cheng, Laurenz Wiskott(参考訳) 多くの異なる研究がエピソディックメモリは生成過程であることを示唆しているが、ほとんどの計算モデルはストレージビューを採用している。 本研究では,生成エピソディックメモリのための計算モデルを提案する。 海馬はエピソードの選択された側面を記憶の痕跡として保存し、取り出すという中心的な仮説に基づいている。 リコール時に、新皮質は、私たちがセマンティックコンプリートと呼ぶプロセスにおいて、一般的なセマンティック情報に基づいて、欠落した情報を合理的に埋める。 エピソードでは、コンテキストを表す異なる背景によって強化された数字のイメージ(MNIST)を使用します。 我々のモデルはVQ-VAEに基づいており、圧縮された潜在表現をインデックス行列の形で生成し、空間分解能を保っている。 注意がインデックスマトリックスの一部を選択し、他の部分が破棄されると仮定すると、これはエピソードの要点を表し、メモリトレースとして格納される。 コール時に欠落した部分はPixelCNNで埋められ、セマンティックコンプリートがモデル化され、完了したインデックスマトリックスはVQ-VAEによってフルイメージにデコードされる。 モデルは、スクラッチから可視画像を生成するまで、意味論的にもっともらしい方法で、メモリトレースの欠落部分を完了することができる。 インデックス行列の組合せにより、モデルは訓練されていない画像にうまく一般化される。 圧縮とセマンティクス補完は、メモリ要件の強力な削減とノイズに対する堅牢性に寄与する。 最後に、エピソード記憶実験をモデル化し、意味的に一致したコンテキストが常に不一致なコンテキストよりもうまくリコールされ、高い注意レベルが両方のケースにおけるメモリ精度を向上し、正しく記憶されていないコンテキストが完全に間違っているよりも、意味的に一致したコンテキストがより多く記憶されるように再現する。

Many different studies have suggested that episodic memory is a generative process, but most computational models adopt a storage view. In this work, we propose a computational model for generative episodic memory. It is based on the central hypothesis that the hippocampus stores and retrieves selected aspects of an episode as a memory trace, which is necessarily incomplete. At recall, the neocortex reasonably fills in the missing information based on general semantic information in a process we call semantic completion. As episodes we use images of digits (MNIST) augmented by different backgrounds representing context. Our model is based on a VQ-VAE which generates a compressed latent representation in form of an index matrix, which still has some spatial resolution. We assume that attention selects some part of the index matrix while others are discarded, this then represents the gist of the episode and is stored as a memory trace. At recall the missing parts are filled in by a PixelCNN, modeling semantic completion, and the completed index matrix is then decoded into a full image by the VQ-VAE. The model is able to complete missing parts of a memory trace in a semantically plausible way up to the point where it can generate plausible images from scratch. Due to the combinatorics in the index matrix, the model generalizes well to images not trained on. Compression as well as semantic completion contribute to a strong reduction in memory requirements and robustness to noise. Finally we also model an episodic memory experiment and can reproduce that semantically congruent contexts are always recalled better than incongruent ones, high attention levels improve memory accuracy in both cases, and contexts that are not remembered correctly are more often remembered semantically congruently than completely wrong.
翻訳日:2021-11-29 20:26:30 公開日:2021-11-26
# (参考訳) GeoNeRF:Geometry PriorsによるNeRFの一般化 [全文訳有]

GeoNeRF: Generalizing NeRF with Geometry Priors ( http://arxiv.org/abs/2111.13539v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Johari, Yann Lepoittevin, Fran\c{c}ois Fleuret(参考訳) ニューラルラジアンス場に基づく一般化可能なフォトリアリスティックな新規ビュー合成法GeoNeRFを提案する。 我々のアプローチは、幾何学的推論とレンダラーの2つの主要な段階で構成されている。 新しいビューを描画するために、geometry reasonerはまず、近くのソースビューごとにカスケードしたコストボリュームを構築する。 次に、トランスフォーマーベースのアテンション機構とカスケードされたコストボリュームを用いて、レンダラーは形状と外観を推定し、古典的なボリュームレンダリング技術を介して詳細画像をレンダリングする。 特にこのアーキテクチャは、一貫性のあるソースビューから情報を集めることで、洗練されたオクルージョン推論を可能にする。 さらに,本手法は単一シーンでの微調整が容易であり,計算コストの少ないシーンごとの最適化されたニューラルネットワークレンダリング手法と競合する結果が得られる。 実験によれば、geonerfは様々な合成データと実際のデータセットで最先端の汎用ニューラルネットワークレンダリングモデルを上回る。 最後に、幾何学的推論器に若干の修正を加えて、RGBD画像に適応する代替モデルを提案する。 このモデルは、深度センサーによってしばしば利用できる深度情報を直接活用する。 実装コードは公開される予定だ。

We present GeoNeRF, a generalizable photorealistic novel view synthesis method based on neural radiance fields. Our approach consists of two main stages: a geometry reasoner and a renderer. To render a novel view, the geometry reasoner first constructs cascaded cost volumes for each nearby source view. Then, using a Transformer-based attention mechanism and the cascaded cost volumes, the renderer infers geometry and appearance, and renders detailed images via classical volume rendering techniques. This architecture, in particular, allows sophisticated occlusion reasoning, gathering information from consistent source views. Moreover, our method can easily be fine-tuned on a single scene, and renders competitive results with per-scene optimized neural rendering methods with a fraction of computational cost. Experiments show that GeoNeRF outperforms state-of-the-art generalizable neural rendering models on various synthetic and real datasets. Lastly, with a slight modification to the geometry reasoner, we also propose an alternative model that adapts to RGBD images. This model directly exploits the depth information often available thanks to depth sensors. The implementation code will be publicly available.
翻訳日:2021-11-29 20:10:30 公開日:2021-11-26
# (参考訳) 架空のクラス表現を用いた差別的ゼロショット学習者の育成 [全文訳有]

Using Fictitious Class Representations to Boost Discriminative Zero-Shot Learners ( http://arxiv.org/abs/2111.13550v1 )

ライセンス: CC BY 4.0
Mohammed Dabbah, Ran El-yaniv(参考訳) 本研究では,識別ゼロショット学習に着目し,視覚クラスを学習中に動的に拡張し,付加的な虚構クラスを生成する機構を導入する。 これらの架空のクラスは、トレーニングセットに現れるが、新しく公開されたクラスには現れない属性相関のトレーニング中に定着するモデルの傾向を減少させる。 提案モデルは、ゼロショット学習フレームワークの2つの定式化、すなわち一般化ゼロショット学習(GZSL)と古典ゼロショット学習(CZSL)で検証される。 我々のモデルはCUBデータセットの最先端性能を改善し、他の一般的なデータセットであるAWA2とSUNに匹敵する結果を得る。 本手法の長所と短所について検討し, エンド・ツー・エンドゼロショットモデルのトレーニングにおいて, 破滅的忘れ込みの影響について検討した。

Focusing on discriminative zero-shot learning, in this work we introduce a novel mechanism that dynamically augments during training the set of seen classes to produce additional fictitious classes. These fictitious classes diminish the model's tendency to fixate during training on attribute correlations that appear in the training set but will not appear in newly exposed classes. The proposed model is tested within the two formulations of the zero-shot learning framework; namely, generalized zero-shot learning (GZSL) and classical zero-shot learning (CZSL). Our model improves the state-of-the-art performance on the CUB dataset and reaches comparable results on the other common datasets, AWA2 and SUN. We investigate the strengths and weaknesses of our method, including the effects of catastrophic forgetting when training an end-to-end zero-shot model.
翻訳日:2021-11-29 20:03:59 公開日:2021-11-26
# (参考訳) 画像処理と生物分散に基づくアジアの巨大ホルネット制御 [全文訳有]

Asian Giant Hornet Control based on Image Processing and Biological Dispersal ( http://arxiv.org/abs/2111.13562v1 )

ライセンス: CC BY 4.0
Changjie Lu, Shen Zheng, Hailu Qiu(参考訳) ワシントン州に出現したアジアの巨人ホーネット(agh)は、バイオインベーションの危険性があるようだ。 ワシントン州は、検出された昆虫の公開写真とビデオを収集し、さらなる調査を行っている。 本稿では,データ解析,統計学,離散数学,深層学習技術を用いてAGHの分析を行い,まずワシントン州における昆虫の地理的分布を可視化する。 次に,昆虫の個体群を年数と月数で調査し,第3に,aghの周期的分布を調べるためにウェーブレット解析を用いた。 第4に, 常微分方程式を適用し, 自然成長速度と反応速度の異なるAGH数を調べ, ポテンシャル伝搬係数を出力する。 次に,セルオートマトンと電位伝播係数を併用して,電位伝播の変化に伴う地理的拡散をシミュレートする。 モデルを更新するために,遅延微分方程式を用いて人間の介入をシミュレートする。 検出時間と提出時間との時間差を用いて,遅延時間に対する時間単位を決定する。 その後、SqueezeNetと呼ばれる軽量CNNを構築し、その分類性能を評価する。 次に,niqe,画像勾配,エントロピー,コントラスト,位相など,複数の非参照画像品質指標を関連付けて,誤分類の原因を判定した。 さらに,画像品質のみに基づいて正と負のサンプルを識別するランダムフォレスト分類器を構築した。 また、機能の重要性を示し、エラー分析を行う。 さらに,モデルのロバスト性を検証するために感度解析を行った。 最後に,モデルの強みと弱みを示し,結論を導出する。

The Asian giant hornet (AGH) appeared in Washington State appears to have a potential danger of bioinvasion. Washington State has collected public photos and videos of detected insects for verification and further investigation. In this paper, we analyze AGH using data analysis,statistics, discrete mathematics, and deep learning techniques to process the data to controlAGH spreading.First, we visualize the geographical distribution of insects in Washington State. Then we investigate insect populations to varying months of the year and different days of a month.Third, we employ wavelet analysis to examine the periodic spread of AGH. Fourth, we apply ordinary differential equations to examine AGH numbers at the different natural growthrate and reaction speed and output the potential propagation coefficient. Next, we leverage cellular automaton combined with the potential propagation coefficient to simulate the geographical spread under changing potential propagation. To update the model, we use delayed differential equations to simulate human intervention. We use the time difference between detection time and submission time to determine the unit of time to delay time. After that, we construct a lightweight CNN called SqueezeNet and assess its classification performance. We then relate several non-reference image quality metrics, including NIQE, image gradient, entropy, contrast, and TOPSIS to judge the cause of misclassification. Furthermore, we build a Random Forest classifier to identify positive and negative samples based on image qualities only. We also display the feature importance and conduct an error analysis. Besides, we present sensitivity analysis to verify the robustness of our models. Finally, we show the strengths and weaknesses of our model and derives the conclusions.
翻訳日:2021-11-29 19:50:54 公開日:2021-11-26
# (参考訳) VL-LTR:長期視覚認識のためのクラスワイド視覚言語表現学習 [全文訳有]

VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2111.13579v1 )

ライセンス: CC BY 4.0
Changyao Tian, Wenhai Wang, Xizhou Zhu, Xiaogang Wang, Jifeng Dai, Yu Qiao(参考訳) ディープラーニングベースのモデルは、現実世界で長期データを処理する際に困難に直面する。 既存のソリューションは通常、画像のモダリティに基づいたクラス不均衡問題に対処するために、いくつかのバランス戦略や転送学習を用いる。 本稿では,vl-ltrと呼ばれる視覚言語的ロングテール認識フレームワークを提案し,ロングテール認識(ltr)にテキストモダリティを導入することの利点について実証研究を行う。 既存のアプローチと比較して、提案したVL-LTRには以下の利点がある。 1) 画像から視覚表現を学習するだけでなく,インターネットから収集したノイズの多いクラスレベルのテキスト記述から対応する言語表現を学習する。 また,広範な実験を行い,広く使用されているltrベンチマークで最新性能をセットした。 特に,ImageNet-LTで77.2%の精度を達成し,従来の最良の手法を17ポイント以上上回り,完全なImageNetの性能訓練に近づいた。 コードは解放される。

Deep learning-based models encounter challenges when processing long-tailed data in the real world. Existing solutions usually employ some balancing strategies or transfer learning to deal with the class imbalance problem, based on the image modality. In this work, we present a visual-linguistic long-tailed recognition framework, termed VL-LTR, and conduct empirical studies on the benefits of introducing text modality for long-tailed recognition (LTR). Compared to existing approaches, the proposed VL-LTR has the following merits. (1) Our method can not only learn visual representation from images but also learn corresponding linguistic representation from noisy class-level text descriptions collected from the Internet; (2) Our method can effectively use the learned visual-linguistic representation to improve the visual recognition performance, especially for classes with fewer image samples. We also conduct extensive experiments and set the new state-of-the-art performance on widely-used LTR benchmarks. Notably, our method achieves 77.2% overall accuracy on ImageNet-LT, which significantly outperforms the previous best method by over 17 points, and is close to the prevailing performance training on the full ImageNet. Code shall be released.
翻訳日:2021-11-29 19:40:46 公開日:2021-11-26
# (参考訳) 関係抽出のための文書被覆予測 [全文訳有]

Predicting Document Coverage for Relation Extraction ( http://arxiv.org/abs/2111.13611v1 )

ライセンス: CC BY 4.0
Sneha Singhania, Simon Razniewski, Gerhard Weikum(参考訳) 本稿では,関係抽出のためのテキスト文書のカバレッジを予測するための新しいタスクを提案する。 カバレッジ予測は,大規模な入力コーパスを用いた知識ベース構築に適した文書の選択に有用である。 そこで本研究では、520のエンティティについて31,366の多様な文書のデータセットを提案する。 文書カバレッジと長さ,エンティティ参照頻度,Alexaランク,言語複雑性,情報検索スコアといった特徴の相関関係を分析する。 これらの特徴はそれぞれ、適度な予測力しか持たない。 TF-IDFのような統計モデルとBERTのような言語モデルを組み合わせた手法を用いる。 BERTとHERBを組み合わせたモデルでは、F1スコアが最大46%に達する。 kb構成とクレーム反論の2つのユースケースにおいて,カバレッジ予測の有用性を示す。

This paper presents a new task of predicting the coverage of a text document for relation extraction (RE): does the document contain many relational tuples for a given entity? Coverage predictions are useful in selecting the best documents for knowledge base construction with large input corpora. To study this problem, we present a dataset of 31,366 diverse documents for 520 entities. We analyze the correlation of document coverage with features like length, entity mention frequency, Alexa rank, language complexity and information retrieval scores. Each of these features has only moderate predictive power. We employ methods combining features with statistical models like TF-IDF and language models like BERT. The model combining features and BERT, HERB, achieves an F1 score of up to 46%. We demonstrate the utility of coverage predictions on two use cases: KB construction and claim refutation.
翻訳日:2021-11-29 19:12:48 公開日:2021-11-26
# (参考訳) gpuメモリの少ないspatialconfiguration -netを用いた高効率マルチオルガンセグメンテーション [全文訳有]

Efficient Multi-Organ Segmentation Using SpatialConfiguration -Net with Low GPU Memory Requirements ( http://arxiv.org/abs/2111.13630v1 )

ライセンス: CC BY-SA 4.0
Franz Thaler, Christian Payer, Horst Bischof, Darko Stern(参考訳) セマンティックセグメンテーション法は、多くの医療データセットでうまく機能するが、臨床実践において直接使用するためには設計されていないことが多い。 2つの主な関心事は、異なる視覚的外観を持つデータ、例えば異なるスキャナーで取得した画像、計算時間と必要なグラフィックス処理ユニット(GPU)メモリの効率性への一般化である。 本研究では,空間構成ネット(SCN)に基づく多臓器セグメンテーションモデルを用いて,ラベル付き臓器間の空間構成に関する事前知識を統合し,ネットワーク出力の急激な応答を解決する。 さらに,セグメンテーションモデルのアーキテクチャを改良し,メモリフットプリントを可能な限り削減した。 最後に、実行時間と必要なgpuメモリの両方を最適化する最小限の推論スクリプトを実装しました。

Even though many semantic segmentation methods exist that are able to perform well on many medical datasets, often, they are not designed for direct use in clinical practice. The two main concerns are generalization to unseen data with a different visual appearance, e.g., images acquired using a different scanner, and efficiency in terms of computation time and required Graphics Processing Unit (GPU) memory. In this work, we employ a multi-organ segmentation model based on the SpatialConfiguration -Net (SCN), which integrates prior knowledge of the spatial configuration among the labelled organs to resolve spurious responses in the network outputs. Furthermore, we modified the architecture of the segmentation model to reduce its memory footprint as much as possible without drastically impacting the quality of the predictions. Lastly, we implemented a minimal inference script for which we optimized both, execution time and required GPU memory.
翻訳日:2021-11-29 18:52:34 公開日:2021-11-26
# (参考訳) 空間騒音カリキュラム学習によるオブジェクトレベル事前学習 [全文訳有]

Contrastive Object-level Pre-training with Spatial Noise Curriculum Learning ( http://arxiv.org/abs/2111.13651v1 )

ライセンス: CC0 1.0
Chenhongyi Yang, Lichao Huang, Elliot J. Crowley(参考訳) 対照的な学習に基づく事前学習の目標は、大量のラベルのないデータを活用して、下流に容易に適応可能なモデルを作成することである。 現在のアプローチでは、アンカー画像、その画像の強化された対応する画像、その他の画像が与えられたとき、アンカーとアンカーの間の距離が小さく、アンカーと他の画像との間の距離が大きくなるような表現を生成する必要がある。 このアプローチには2つの大きな問題があります。 (i)画像レベルでの表現を対比することにより、インスタンスセグメンテーションのような下流のオブジェクトレベルのタスクに有益な、詳細なオブジェクト感性機能を生成することは困難である。 (ii)増補版を作るための増補戦略は固定されており、事前学習の後半段階では学習が効果的ではない。 本稿では,これらの問題に取り組むために,ccop(curricular contrastive object-level pre-training)を導入する。 (i)粗い対象領域の探索に選択的検索を使用し、それらを画像間オブジェクトレベルのコントラスト損失と画像内オブジェクトレベルの識別損失を事前学習対象に組み込む。 2) 学習前段階の後期においても, モデルが一貫して有用な学習信号を取得することができるように, 生成領域を適応的に増強するカリキュラム学習機構を提案する。 実験の結果,マルチオブジェクトシーン画像データセットを事前トレーニングする場合,複数のオブジェクトレベルのタスクに対して大きなマージンでmoco v2ベースラインを改善することができた。 コードはhttps://github.com/C henhongyiYang/CCOPで公開されている。

The goal of contrastive learning based pre-training is to leverage large quantities of unlabeled data to produce a model that can be readily adapted downstream. Current approaches revolve around solving an image discrimination task: given an anchor image, an augmented counterpart of that image, and some other images, the model must produce representations such that the distance between the anchor and its counterpart is small, and the distances between the anchor and the other images are large. There are two significant problems with this approach: (i) by contrasting representations at the image-level, it is hard to generate detailed object-sensitive features that are beneficial to downstream object-level tasks such as instance segmentation; (ii) the augmentation strategy of producing an augmented counterpart is fixed, making learning less effective at the later stages of pre-training. In this work, we introduce Curricular Contrastive Object-level Pre-training (CCOP) to tackle these problems: (i) we use selective search to find rough object regions and use them to build an inter-image object-level contrastive loss and an intra-image object-level discrimination loss into our pre-training objective; (ii) we present a curriculum learning mechanism that adaptively augments the generated regions, which allows the model to consistently acquire a useful learning signal, even in the later stages of pre-training. Our experiments show that our approach improves on the MoCo v2 baseline by a large margin on multiple object-level tasks when pre-training on multi-object scene image datasets. Code is available at https://github.com/C henhongyiYang/CCOP.
翻訳日:2021-11-29 18:38:38 公開日:2021-11-26
# ランダムリシャッフルSARAHは完全な勾配計算を必要としない

Random-reshuffled SARAH does not need a full gradient computations ( http://arxiv.org/abs/2111.13322v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Martin Tak\'a\v{c}(参考訳) 確率的再帰的勾配アルゴリズム(英: stochastic recursive gradient algorithm, sarah)は、確率的勾配降下(sgd)アルゴリズムの分散還元変種であり、時折目的関数の勾配を必要とする。 本稿では,完全な勾配計算の必要性を除去する。 これはランダムな再シャッフル戦略を使い、各エポックで得られる確率的勾配を集約することで達成される。 集計された確率勾配はサラアルゴリズムの完全な勾配の推定に役立っている。 本稿では,提案手法の理論的解析を行い,本手法の効率性を示す数値実験で論文をまとめる。

The StochAstic Recursive grAdient algoritHm (SARAH) algorithm is a variance reduced variant of the Stochastic Gradient Descent (SGD) algorithm that needs a gradient of the objective function from time to time. In this paper, we remove the necessity of a full gradient computation. This is achieved by using a randomized reshuffling strategy and aggregating stochastic gradients obtained in each epoch. The aggregated stochastic gradients serve as an estimate of a full gradient in the SARAH algorithm. We provide a theoretical analysis of the proposed approach and conclude the paper with numerical experiments that demonstrate the efficiency of this approach.
翻訳日:2021-11-29 18:24:00 公開日:2021-11-26
# 侵入検出のための残差付きグラフベースソリューション:修正E-GraphSAGEとE-ResGATアルゴリズム

Graph-based Solutions with Residuals for Intrusion Detection: the Modified E-GraphSAGE and E-ResGAT Algorithms ( http://arxiv.org/abs/2111.13597v1 )

ライセンス: Link先を確認
Liyan Chang and Paula Branco(参考訳) ますます高度なサイバー脅威が高まり、多くの課題が解決されていないサイバーセキュリティに注目が集まっている。 すなわち、侵入検出には、より堅牢で効果的で、より多くの情報を利用できる新しいアルゴリズムが必要である。 さらに、侵入検知タスクは、通常のトラフィックと悪意のあるトラフィックの極端な不均衡に関連する深刻な課題に直面している。 近年,サイバーセキュリティタスクにおけるネットワークトポロジをモデル化するために,グラフニューラルネットワーク(GNN)が最先端のパフォーマンスを達成した。 しかし、侵入検知問題に対処するためにGNNを用いた研究はごくわずかである。 また、注意機構を適用するなどの他の有望な道はまだ未検討のままである。 本稿では,既存のグラフアテンションネットワーク(GAT)とグラフアテンションネットワーク(GAT)に依存する2つの新しいグラフ検出ソリューション,E-GraphSAGEとE-ResGATalgorithmを提案する。 キーとなるアイデアは、利用可能なグラフ情報を活用した残差学習をGNNに統合することだ。 残余接続は、元の情報の保持とマイノリティクラスのパフォーマンス向上を目的として、上位クラスの不均衡に対処する戦略として追加される。 最近の4つの侵入検知データセットの広範な実験的評価は、特にマイノリティクラスの予測において、我々のアプローチの優れた性能を示している。

The high volume of increasingly sophisticated cyber threats is drawing growing attention to cybersecurity, where many challenges remain unresolved. Namely, for intrusion detection, new algorithms that are more robust, effective, and able to use more information are needed. Moreover, the intrusion detection task faces a serious challenge associated with the extreme class imbalance between normal and malicious traffics. Recently, graph-neural network (GNN) achieved state-of-the-art performance to model the network topology in cybersecurity tasks. However, only a few works exist using GNNs to tackle the intrusion detection problem. Besides, other promising avenues such as applying the attention mechanism are still under-explored. This paper presents two novel graph-based solutions for intrusion detection, the modified E-GraphSAGE, and E-ResGATalgorithms, which rely on the established GraphSAGE and graph attention network (GAT), respectively. The key idea is to integrate residual learning into the GNN leveraging the available graph information. Residual connections are added as a strategy to deal with the high-class imbalance, aiming at retaining the original information and improving the minority classes' performance. An extensive experimental evaluation of four recent intrusion detection datasets shows the excellent performance of our approaches, especially when predicting minority classes.
翻訳日:2021-11-29 18:23:47 公開日:2021-11-26
# 薄型借主の信用度評価のためのグラフデータの組み合わせについて

On the combination of graph data for assessing thin-file borrowers' creditworthiness ( http://arxiv.org/abs/2111.13666v1 )

ライセンス: Link先を確認
Ricardo Mu\~noz-Cancino, Cristi\'an Bravo, Sebasti\'an A. R\'ios, Manuel Gra\~na(参考訳) 薄いファイルの借り手は、信用履歴の欠如により信用度評価が不確実である顧客であり、多くの研究者は、グラフという形で借り手の関係と相互作用のネットワークを用いてこの問題に対処する。 ネットワークデータの取り込みは手作りの機能エンジニアリングによって伝統的に行われ、近年ではグラフニューラルネットワークが代替手段として登場したが、従来の手法のパフォーマンスよりも改善されていない。 本稿では,機能工学,グラフ埋め込み,グラフニューラルネットワークなど,複数のグラフ表現学習手法を組み合わせることで,信用スコアリングモデルを改善するフレームワークを提案する。 このアプローチでは、アウトプットを積み重ねて単一のスコアを生成しました。 我々は、このフレームワークを、ラテンアメリカの国民全体の関係と信用履歴を特徴付けるユニークなマルチソースデータセットを用いて検証し、個人と企業の両方をターゲットにした信用リスクモデル、応用、行動に適用した。 この結果から,グラフ表現学習法は補題として用いるべきであり,現在行われているような自己充足的手法として見るべきではない。 AUCとKSに関しては、従来の手法よりも優れた統計性能を向上する。 利回りがはるかに高いコーポレート融資では、非銀行企業の評価が単にその特徴を考慮できないことを確認している。 これらの企業がオーナー、サプライヤー、顧客、その他の企業と対話するビジネスエコシステムは、金融機関が信用度評価を強化するための新しい知識を提供する。 結果から、いつ、どのグループがグラフデータを使うのか、パフォーマンスにどのような影響があるのかがわかる。 彼らはまた、主に企業の銀行を支援するために、銀行の信用スコアリング問題に関するグラフデータの巨大な価値を示している。

The thin-file borrowers are customers for whom a creditworthiness assessment is uncertain due to their lack of credit history; many researchers have used borrowers' relationships and interactions networks in the form of graphs as an alternative data source to address this. Incorporating network data is traditionally made by hand-crafted feature engineering, and lately, the graph neural network has emerged as an alternative, but it still does not improve over the traditional method's performance. Here we introduce a framework to improve credit scoring models by blending several Graph Representation Learning methods: feature engineering, graph embeddings, and graph neural networks. We stacked their outputs to produce a single score in this approach. We validated this framework using a unique multi-source dataset that characterizes the relationships and credit history for the entire population of a Latin American country, applying it to credit risk models, application, and behavior, targeting both individuals and companies. Our results show that the graph representation learning methods should be used as complements, and these should not be seen as self-sufficient methods as is currently done. In terms of AUC and KS, we enhance the statistical performance, outperforming traditional methods. In Corporate lending, where the gain is much higher, it confirms that evaluating an unbanked company cannot solely consider its features. The business ecosystem where these firms interact with their owners, suppliers, customers, and other companies provides novel knowledge that enables financial institutions to enhance their creditworthiness assessment. Our results let us know when and which group to use graph data and what effects on performance to expect. They also show the enormous value of graph data on the unbanked credit scoring problem, principally to help companies' banking.
翻訳日:2021-11-29 18:21:26 公開日:2021-11-26
# 暗黒領域のNeRF:ノイズの多い原画像からの高ダイナミックレンジビュー合成

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images ( http://arxiv.org/abs/2111.13679v1 )

ライセンス: Link先を確認
Ben Mildenhall, Peter Hedman, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T. Barron(参考訳) neural radiance fields (nerf) は、ポーズ入力画像の集合から高品質の新しい視点合成のための技術である。 多くのビュー合成法と同様に、NeRFはトーンマップされた低ダイナミックレンジ(LDR)を入力として使用しており、これらの画像は細部をスムーズなカメラパイプラインによって処理され、生センサデータの単純なノイズ分布を歪めている。 シーンのフルダイナミックレンジを保ちながら、線形生画像を直接トレーニングするためにNeRFを変更する。 生成したNeRFからの生画像のレンダリングにより、新しいハイダイナミックレンジ(HDR)ビュー合成タスクを実行することができる。 カメラの視点を変えるだけでなく、フォーカス、露出、トネマッピングも操作できます。 単一生画像は後処理画像よりもかなりノイズが多いが,NRFは生ノイズのゼロ平均分布に対して非常に堅牢であることを示す。 多くのノイズの多い生の入力(25-200)に最適化されると、NeRFは、レンダリングされた新規ビューが専用シングルおよびマルチイメージの生のデノイザよりも優れたシーン表現を、同じ広いベースライン入力イメージ上で実行できるように生成する。 その結果,我々がrawnerfと呼ぶ手法は,暗さに近い極端にノイズの多い画像からシーンを再現することができる。

Neural Radiance Fields (NeRF) is a technique for high quality novel view synthesis from a collection of posed input images. Like most view synthesis methods, NeRF uses tonemapped low dynamic range (LDR) as input; these images have been processed by a lossy camera pipeline that smooths detail, clips highlights, and distorts the simple noise distribution of raw sensor data. We modify NeRF to instead train directly on linear raw images, preserving the scene's full dynamic range. By rendering raw output images from the resulting NeRF, we can perform novel high dynamic range (HDR) view synthesis tasks. In addition to changing the camera viewpoint, we can manipulate focus, exposure, and tonemapping after the fact. Although a single raw image appears significantly more noisy than a postprocessed one, we show that NeRF is highly robust to the zero-mean distribution of raw noise. When optimized over many noisy raw inputs (25-200), NeRF produces a scene representation so accurate that its rendered novel views outperform dedicated single and multi-image deep raw denoisers run on the same wide baseline input images. As a result, our method, which we call RawNeRF, can reconstruct scenes from extremely noisy images captured in near-darkness.
翻訳日:2021-11-29 18:20:14 公開日:2021-11-26
# 離散潜在空間における音楽の学習元認識表現

Learning source-aware representations of music in a discrete latent space ( http://arxiv.org/abs/2111.13321v1 )

ライセンス: Link先を確認
Jinsung Kim, Yeong-Seok Jeong, Woosung Choi, Jaehwa Chung, Soonyoung Jung(参考訳) 近年、音楽からの表現を可読化する方法としてニューラルネットワークに基づく手法が提案されているが、その手法は可読性ではなく、人間が編集できるものはほとんどない。 そこで本稿では,Vector-Quantized Variational Auto-Encoder(VQ-VAE) を用いた音源認識型音楽表現法を提案する。 我々はVQ-VAEをトレーニングし、入力混合物を離散ラテント空間の整数テンソルにエンコードし、人間がラテントベクトルをソース認識で操作できる分解構造を持つように設計する。 また, 離散空間内の潜在ベクトルを推定することで, ベースラインを生成することができることを示した。

In recent years, neural network based methods have been proposed as a method that cangenerate representations from music, but they are not human readable and hardly analyzable oreditable by a human. To address this issue, we propose a novel method to learn source-awarelatent representations of music through Vector-Quantized Variational Auto-Encoder(VQ-VAE) .We train our VQ-VAE to encode an input mixture into a tensor of integers in a discrete latentspace, and design them to have a decomposed structure which allows humans to manipulatethe latent vector in a source-aware manner. This paper also shows that we can generate basslines by estimating latent vectors in a discrete space.
翻訳日:2021-11-29 18:17:05 公開日:2021-11-26
# ログデータにおける異常の分類法

A Taxonomy of Anomalies in Log Data ( http://arxiv.org/abs/2111.13462v1 )

ライセンス: Link先を確認
Thorsten Wittkopp, Philipp Wiesner, Dominik Scheinert, Odej Kao(参考訳) ログデータの異常検出は、IT運用における人工知能領域のコアコンポーネントである。 しかし,既存手法の多さにより,特定のシステムに対して適切なアプローチを選択することは困難である。 様々な種類の異常、どのアルゴリズムが検出に適しているかをよりよく理解すれば、研究者やITオペレーターを支援するだろう。 異常の一般的な分類法は存在するが、この領域の特徴と特異性を指摘しながら、ログデータに特に適用されていない。 本稿では,異なる種類のログデータ異常に対する分類法を提案し,ラベル付きデータセットにおけるそのような異常を分析する手法を提案する。 サンダーバード、スピリット、bglの3つのベンチマークデータセットに分類法を適用し、5つの最先端の教師なし異常検出アルゴリズムを訓練し、異なる種類の異常検出におけるその性能を評価した。 その結果,最も一般的な異常型は予測が容易であることがわかった。 さらに、ディープラーニングベースのアプローチは、あらゆる異常なタイプにおいてデータマイニングベースのアプローチよりも優れています。

Log data anomaly detection is a core component in the area of artificial intelligence for IT operations. However, the large amount of existing methods makes it hard to choose the right approach for a specific system. A better understanding of different kinds of anomalies, and which algorithms are suitable for detecting them, would support researchers and IT operators. Although a common taxonomy for anomalies already exists, it has not yet been applied specifically to log data, pointing out the characteristics and peculiarities in this domain. In this paper, we present a taxonomy for different kinds of log data anomalies and introduce a method for analyzing such anomalies in labeled datasets. We applied our taxonomy to the three common benchmark datasets Thunderbird, Spirit, and BGL, and trained five state-of-the-art unsupervised anomaly detection algorithms to evaluate their performance in detecting different kinds of anomalies. Our results show, that the most common anomaly type is also the easiest to predict. Moreover, deep learning-based approaches outperform data mining-based approaches in all anomaly types, but especially when it comes to detecting contextual anomalies.
翻訳日:2021-11-29 18:16:52 公開日:2021-11-26
# telegramのダークサイドを明らかにする - 偽物、クローン、詐欺、陰謀運動

Uncovering the Dark Side of Telegram: Fakes, Clones, Scams, and Conspiracy Movements ( http://arxiv.org/abs/2111.13530v1 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini, Jie Wu(参考訳) Telegramは、世界でもっとも使われているインスタントメッセージングアプリの一つだ。 その成功の要因は、高いプライバシー保護とソーシャルネットワーク機能を提供することにある。チャンネルは、管理者だけが全購読者にメッセージを投稿し、ブロードキャストできる仮想ルームだ。 しかし、これらの特徴は境界線活動の出現に寄与し、オンラインソーシャルネットワークと共通するように、偽アカウントの存在感が強かった。 Telegramは、チャネルの認証済みおよび詐欺マークを導入して、これらの問題に対処し始めた。 残念ながら、問題は解決されるには程遠い。 本研究では,35,382の異なるチャネルと130,000,000以上のメッセージを収集し,テレグラムの大規模解析を行う。 我々は、テレグラムが認証または詐欺とマークするチャンネルを調査し、類似点と相違点を強調する。 そして、マークのないチャンネルに移動します。 ここでは、暗黒ウェブのプライバシー保護サービス(カード、違法成人の共有、著作権保護コンテンツなど)にも、悪名高い活動がいくつか見られる。 さらに、クローンとフェイクの2種類のチャンネルを特定し、分析する。 clonesは、他のチャンネルの正確なコンテンツを公開し、購読者を獲得し、サービスを宣伝するチャンネルだ。 その代わり、フェイクは有名人や有名サービスを偽装しようとするチャンネルだ。 偽物は、最も高度なユーザーでさえ識別しにくい。 フェイクチャネルを自動的に検出するために,86%の精度で識別可能な機械学習モデルを提案する。 最後に、Sabmykは、偽物やクローンを悪用してプラットフォーム上に急速に普及させた陰謀理論だ。

Telegram is one of the most used instant messaging apps worldwide. Some of its success lies in providing high privacy protection and social network features like the channels -- virtual rooms in which only the admins can post and broadcast messages to all its subscribers. However, these same features contributed to the emergence of borderline activities and, as is common with Online Social Networks, the heavy presence of fake accounts. Telegram started to address these issues by introducing the verified and scam marks for the channels. Unfortunately, the problem is far from being solved. In this work, we perform a large-scale analysis of Telegram by collecting 35,382 different channels and over 130,000,000 messages. We study the channels that Telegram marks as verified or scam, highlighting analogies and differences. Then, we move to the unmarked channels. Here, we find some of the infamous activities also present on privacy-preserving services of the Dark Web, such as carding, sharing of illegal adult and copyright protected content. In addition, we identify and analyze two other types of channels: the clones and the fakes. Clones are channels that publish the exact content of another channel to gain subscribers and promote services. Instead, fakes are channels that attempt to impersonate celebrities or well-known services. Fakes are hard to identify even by the most advanced users. To detect the fake channels automatically, we propose a machine learning model that is able to identify them with an accuracy of 86%. Lastly, we study Sabmyk, a conspiracy theory that exploited fakes and clones to spread quickly on the platform reaching over 1,000,000 users.
翻訳日:2021-11-29 18:16:32 公開日:2021-11-26
# 学習に基づく制御のためのリカレントニューラルネットワーク--最近の結果と今後の展開に向けて

On Recurrent Neural Networks for learning-based control: recent results and ideas for future developments ( http://arxiv.org/abs/2111.13557v1 )

ライセンス: Link先を確認
Fabio Bonassi, Marcello Farina, Jing Xie, Riccardo Scattolini(参考訳) 本稿では、制御設計におけるリカレントニューラルネットワーク(RNN)の可能性について論じ、分析することを目的とする。 RNNの主なファミリーはニューラル非線形自己回帰eXogenous(NNARX)、Echo State Networks(ESN)、Long Short Term Memory(LSTM)、Gated Recurrent Units(GRU)である。 ゴールは2つです。 まず、入出力安定度(iss)とインクリメンタル入出力安定度({\delta}iss)を満足するrnnのトレーニングに関する最近の結果について調査する。 第二に、制御にRNNが広く使われるのを妨げている問題、すなわちその堅牢性、検証可能性、解釈可能性について議論する。 前者の特性は、ネットワークのいわゆる一般化能力、すなわちその基盤となる実植物との一貫性に関係している。 後者は、RNNモデルとプラントの間に明確な正式な接続を提供する可能性に関連している。 この文脈では、ISS と {\delta}ISS が、RNN モデルの堅牢性と検証可能性への重要な一歩を示しているのに対し、解釈可能性の要求は、物理ベースのネットワークの使用への道筋を示している。 プラントモデルとしてRNNを用いたモデル予測コントローラの設計についても概説する。 最後に、論文の主な話題のいくつかはシミュレーション化学系で示される。

This paper aims to discuss and analyze the potentialities of Recurrent Neural Networks (RNN) in control design applications. The main families of RNN are considered, namely Neural Nonlinear AutoRegressive eXogenous, (NNARX), Echo State Networks (ESN), Long Short Term Memory (LSTM), and Gated Recurrent Units (GRU). The goal is twofold. Firstly, to survey recent results concerning the training of RNN that enjoy Input-to-State Stability (ISS) and Incremental Input-to-State Stability ({\delta}ISS) guarantees. Secondly, to discuss the issues that still hinder the widespread use of RNN for control, namely their robustness, verifiability, and interpretability. The former properties are related to the so-called generalization capabilities of the networks, i.e. their consistency with the underlying real plants, even in presence of unseen or perturbed input trajectories. The latter is instead related to the possibility of providing a clear formal connection between the RNN model and the plant. In this context, we illustrate how ISS and {\delta}ISS represent a significant step towards the robustness and verifiability of the RNN models, while the requirement of interpretability paves the way to the use of physics-based networks. The design of model predictive controllers with RNN as plant's model is also briefly discussed. Lastly, some of the main topics of the paper are illustrated on a simulated chemical system.
翻訳日:2021-11-29 18:16:08 公開日:2021-11-26
# ミリ波無線局用半教師付きt-SNE

Semi-supervised t-SNE for Millimeter-wave Wireless Localization ( http://arxiv.org/abs/2111.13573v1 )

ライセンス: Link先を確認
Junquan Deng, Wei Shi, Jian Hu, Xianlong Jiao(参考訳) マルチアンテナチャネル状態情報(CSI)に基づく分散基地局(BS)を用いた将来のミリ波無線ネットワークにおける移動局地化問題について考察する。 本研究では,高次元csiサンプルを2次元地理地図に直接埋め込むための半教師付きtdistributed stochastic neighbor embedded (st-sne)アルゴリズムを提案する。 シミュレーション都市屋外ミリ波無線ネットワークにおけるSt-SNEの性能評価を行った。 以上の結果から,St-SNEは,200*200m^2領域のラベル付きCSI試料の5%に対して6.8mの平均局在誤差が得られた。 St-SNEは複数のBS間で正確な同期を必要としない。

We consider the mobile localization problem in future millimeter-wave wireless networks with distributed Base Stations (BSs) based on multi-antenna channel state information (CSI). For this problem, we propose a Semi-supervised tdistributed Stochastic Neighbor Embedding (St-SNE) algorithm to directly embed the high-dimensional CSI samples into the 2D geographical map. We evaluate the performance of St-SNE in a simulated urban outdoor millimeter-wave radio access network. Our results show that St-SNE achieves a mean localization error of 6.8 m with only 5% of labeled CSI samples in a 200*200 m^2 area with a ray-tracing channel model. St-SNE does not require accurate synchronization among multiple BSs, and is promising for future large-scale millimeter-wave localization.
翻訳日:2021-11-29 18:15:41 公開日:2021-11-26
# ハードコンビネート最適化における非凍結変数に対する非平衡モンテカルロ

Nonequilibrium Monte Carlo for unfreezing variables in hard combinatorial optimization ( http://arxiv.org/abs/2111.13628v1 )

ライセンス: Link先を確認
Masoud Mohseni, Daniel Eppens, Johan Strumpfer, Raffaele Marino, Vasil Denchev, Alan K. Ho, Sergei V. Isakov, Sergio Boixo, Federico Ricci-Tersenghi, Hartmut Neven(参考訳) 離散変数に対して非常に複雑なコスト/エネルギー関数を最適化することは、様々な科学分野や産業にまたがる多くの開問題の中心である。 主な障害は、ハードインスタンスにおける変数の特定のサブセット間で多体効果が出現し、既知の確率的局所探索戦略において致命的な減速または集団凍結をもたらすことである。 指数計算の努力は一般にそのような変数を解凍し、構成空間の他の見えない領域を探索するために必要である。 ここでは,非局所非平衡モンテカルロ(NMC)アルゴリズムの量子インスパイアされたファミリーを導入し,コスト関数の重要なインスタンス単位の幾何学的特徴を効率的に学習できる適応的勾配のない戦略を開発した。 この情報は、様々な長さの変数をまとめて凍結する空間的不均一な熱ゆらぎを構築するために、オンザフライで使用される。 本アルゴリズムは,計算相転移近傍のk-SAT(ランダムk-satisfiability)と擬似アサインメント問題(QAP)の2つの最も困難な組合せ最適化問題に適用する。 我々は、特殊決定論的解法と一般確率論的解法の両方に対する顕著なスピードアップとロバスト性を観察した。 特に、ランダムな4-SATインスタンスの90%については、最も厳しい10%のインスタンスに対するソリューションの品質を大幅に改善したサーベイ・プロパゲーション(SP)と呼ばれる、最高の特殊決定論的アルゴリズムにはアクセスできない解を見つけます。 また,Adaptive Parallel Tempering (APT) と呼ばれる最先端の一般確率解法に対して,時間と解の2つの大域的改善を示す。

Optimizing highly complex cost/energy functions over discrete variables is at the heart of many open problems across different scientific disciplines and industries. A major obstacle is the emergence of many-body effects among certain subsets of variables in hard instances leading to critical slowing down or collective freezing for known stochastic local search strategies. An exponential computational effort is generally required to unfreeze such variables and explore other unseen regions of the configuration space. Here, we introduce a quantum-inspired family of nonlocal Nonequilibrium Monte Carlo (NMC) algorithms by developing an adaptive gradient-free strategy that can efficiently learn key instance-wise geometrical features of the cost function. That information is employed on-the-fly to construct spatially inhomogeneous thermal fluctuations for collectively unfreezing variables at various length scales, circumventing costly exploration versus exploitation trade-offs. We apply our algorithm to two of the most challenging combinatorial optimization problems: random k-satisfiability (k-SAT) near the computational phase transitions and Quadratic Assignment Problems (QAP). We observe significant speedup and robustness over both specialized deterministic solvers and generic stochastic solvers. In particular, for 90% of random 4-SAT instances we find solutions that are inaccessible for the best specialized deterministic algorithm known as Survey Propagation (SP) with an order of magnitude improvement in the quality of solutions for the hardest 10% instances. We also demonstrate two orders of magnitude improvement in time-to-solution over the state-of-the-art generic stochastic solver known as Adaptive Parallel Tempering (APT).
翻訳日:2021-11-29 18:14:43 公開日:2021-11-26
# 反応拡散グリオーマ成長モデルのための深層学習:完全なパーソナライズドモデルに向けて

Deep Learning for Reaction-Diffusion Glioma Growth Modelling: Towards a Fully Personalised Model? ( http://arxiv.org/abs/2111.13404v1 )

ライセンス: Link先を確認
Corentin Martens, Antonin Rovai, Daniele Bonatto, Thierry Metens, Olivier Debeir, Christine Decaestecker, Serge Goldman and Gaetan Van Simaeys(参考訳) 反応拡散モデルは、最も一般的な一次脳腫瘍であるグリオーマの成長を捉えるために何十年も提案されてきた。 しかし, 初期条件の推定やパラメータ値に関する厳しい制限により, 個人化ツールとしての臨床利用は抑制されている。 本研究では,深層畳み込みニューラルネットワーク(DCNN)を用いて,現場でよく発生する落とし穴に対処する能力について検討する。 6名の健常者による磁気共鳴(mr)データから得られた実脳測地線上の1200個の合成腫瘍に基づいて,dnnが1つの時点において2つのイメージング輪郭のみから全腫瘍密度分布を再構成する能力を示す。 予め抽出した画像の輪郭を付加することにより、モデルの個々の拡散率と拡散パラメータを正確に推定するDCNNの能力を実証する。 この知見から、後の時点における腫瘍細胞密度分布の時空間的変化は、最終的にこのモデルを用いて正確に捉えることができる。 真性グリオ芽腫患者のMRデータに対するアプローチの適用性について検討した。 このアプローチは,腫瘍予後および治療計画に対する反応拡散成長モデルの臨床応用の視点を開放する可能性がある。

Reaction-diffusion models have been proposed for decades to capture the growth of gliomas, the most common primary brain tumours. However, severe limitations regarding the estimation of the initial conditions and parameter values of such models have restrained their clinical use as a personalised tool. In this work, we investigate the ability of deep convolutional neural networks (DCNNs) to address the pitfalls commonly encountered in the field. Based on 1,200 synthetic tumours grown over real brain geometries derived from magnetic resonance (MR) data of 6 healthy subjects, we demonstrate the ability of DCNNs to reconstruct a whole tumour cell density distribution from only two imaging contours at a single time point. With an additional imaging contour extracted at a prior time point, we also demonstrate the ability of DCNNs to accurately estimate the individual diffusivity and proliferation parameters of the model. From this knowledge, the spatio-temporal evolution of the tumour cell density distribution at later time points can ultimately be precisely captured using the model. We finally show the applicability of our approach to MR data of a real glioblastoma patient. This approach may open the perspective of a clinical application of reaction-diffusion growth models for tumour prognosis and treatment planning.
翻訳日:2021-11-29 18:14:05 公開日:2021-11-26
# (参考訳) 低コスト・高効率マラリア検出に向けて [全文訳有]

Towards Low-Cost and Efficient Malaria Detection ( http://arxiv.org/abs/2111.13656v1 )

ライセンス: CC BY 4.0
Waqas Sultani1, Wajahat Nawaz, Syed Javed, Muhammad Sohail Danish, Asma Saadia, Mohsen Ali(参考訳) マラリアは致命的だが治療可能な病気であり、毎年数十万人の命がかかっている。 早期かつ正確な診断は、健康の複雑さを避けるのに不可欠であるが、高価な顕微鏡と訓練された専門家が血液中のスライドを分析するために利用できるかどうかにかかっている。 深層学習に基づく手法は、専門家の負担を軽減するだけでなく、低コスト顕微鏡の診断精度を向上させる可能性を秘めている。 しかし、これは適切なサイズのデータセットがないために妨げられる。 最も難しい側面の1つは、低コストの顕微鏡で低倍率でデータセットに注釈を付ける専門家の寛容さである。 本稿では,低倍率顕微鏡を用いたマラリア顕微鏡研究のためのデータセットを提案する。 2つの異なるコストスペクトルと複数の倍率で顕微鏡で収集した、マラリアに感染した複数の患者の血液中のスライドの画像から、大規模データセットを構築した。 高精度顕微鏡で高精細度に収集した画像の局所化と生命ステージ分類のタスクにマトリル細胞をアノテートする。 本研究では,これらのアノテーションを高倍率顕微鏡から高倍率顕微鏡へ複数倍率で転送する機構を設計する。 複数のオブジェクト検出器とドメイン適応メソッドがベースラインとして提示される。 さらに、低コスト顕微鏡から収集した画像にオブジェクト検出器を適応させるために、部分教師付き領域適応法を導入する。 データセットは公開後に公開される予定だ。

Malaria, a fatal but curable disease claims hundreds of thousands of lives every year. Early and correct diagnosis is vital to avoid health complexities, however, it depends upon the availability of costly microscopes and trained experts to analyze blood-smear slides. Deep learning-based methods have the potential to not only decrease the burden of experts but also improve diagnostic accuracy on low-cost microscopes. However, this is hampered by the absence of a reasonable size dataset. One of the most challenging aspects is the reluctance of the experts to annotate the dataset at low magnification on low-cost microscopes. We present a dataset to further the research on malaria microscopy over the low-cost microscopes at low magnification. Our large-scale dataset consists of images of blood-smear slides from several malaria-infected patients, collected through microscopes at two different cost spectrums and multiple magnifications. Malarial cells are annotated for the localization and life-stage classification task on the images collected through the high-cost microscope at high magnification. We design a mechanism to transfer these annotations from the high-cost microscope at high magnification to the low-cost microscope, at multiple magnifications. Multiple object detectors and domain adaptation methods are presented as the baselines. Furthermore, a partially supervised domain adaptation method is introduced to adapt the object-detector to work on the images collected from the low-cost microscope. The dataset will be made publicly available after publication.
翻訳日:2021-11-29 18:13:04 公開日:2021-11-26
# ドイツの連続電力市場に対する強化学習アプローチ--ウィンドパーク運営者の視点からの取引

A Reinforcement Learning Approach for the Continuous Electricity Market of Germany: Trading from the Perspective of a Wind Park Operator ( http://arxiv.org/abs/2111.13609v1 )

ライセンス: Link先を確認
Malte Lehna and Bj\"orn Hoppmann and Ren\'e Heinrich and Christoph Scholz(参考訳) 再生可能エネルギーの増大に伴い、日内電力市場は、エネルギー供給のボラティリティ(変動性)に対処する電気事業だけでなく、トレーダーの間で人気が高まっている。 短い取引の地平線と継続的な性質を通じて、日々の市場から取引決定を調整したり、短期の通知で取引リスクを下げたりすることができる。 再生可能エネルギーの生産者は、現在の予測に基づいて供給能力を変更することで、日内市場を利用して予測リスクを下げる。 しかし、電力グリッドが安定していなければならず、電力は部分的に保存可能であるため、市場のダイナミクスは複雑である。 その結果、日内市場での運用が可能な堅牢でインテリジェントな貿易戦略が求められている。 本研究では,Deep Reinforcement Learning(DRL)アルゴリズムに基づく新たな自律的取引手法を提案する。 この目的のために,我々は日内貿易をマルコフ決定問題(mdp)としてモデル化し,近位政策最適化(ppo)アルゴリズムをdrlアプローチとして採用する。 1分間のステップで1日内価格の連続的な取引を可能にするシミュレーションフレームワークが導入された。 我々は,ウィンドパーク運営者の視点から,この枠組みを事例として検証した。 価格と風速の両方の一般的な貿易情報も含んでいます。 2018年のドイツの日内取引の結果のテストシナリオでは、少なくとも45.24%の改善で複数のベースラインを上回り、DRLアルゴリズムの利点を示している。 しかし,DRLエージェントの限界や拡張についても論じ,今後の作業における性能向上を図っている。

With the rising extension of renewable energies, the intraday electricity markets have recorded a growing popularity amongst traders as well as electric utilities to cope with the induced volatility of the energy supply. Through their short trading horizon and continuous nature, the intraday markets offer the ability to adjust trading decisions from the day-ahead market or reduce trading risk in a short-term notice. Producers of renewable energies utilize the intraday market to lower their forecast risk, by modifying their provided capacities based on current forecasts. However, the market dynamics are complex due to the fact that the power grids have to remain stable and electricity is only partly storable. Consequently, robust and intelligent trading strategies are required that are capable to operate in the intraday market. In this work, we propose a novel autonomous trading approach based on Deep Reinforcement Learning (DRL) algorithms as a possible solution. For this purpose, we model the intraday trade as a Markov Decision Problem (MDP) and employ the Proximal Policy Optimization (PPO) algorithm as our DRL approach. A simulation framework is introduced that enables the trading of the continuous intraday price in a resolution of one minute steps. We test our framework in a case study from the perspective of a wind park operator. We include next to general trade information both price and wind forecasts. On a test scenario of German intraday trading results from 2018, we are able to outperform multiple baselines with at least 45.24% improvement, showing the advantage of the DRL algorithm. However, we also discuss limitations and enhancements of the DRL agent, in order to increase the performance in future works.
翻訳日:2021-11-29 17:57:04 公開日:2021-11-26
# 避難シェルタースケジューリング問題

Evacuation Shelter Scheduling Problem ( http://arxiv.org/abs/2111.13326v1 )

ライセンス: Link先を確認
Hitoshi Shimizu, Hirohiko Suwa, Tomoharu Iwata, Akinori Fujino, Hiroshi Sawada, Keiichi Yasumoto(参考訳) 自然災害時に緊急に必要となる避難シェルターは、避難者の負担を最小限に抑えるように設計されている。 しかし、災害の規模が大きいほど、避難所の運営には費用がかかる。 避難者数が減少すると、残りの避難者を他の避難所へ移動させ、できるだけ早く避難所を閉鎖することで、運転コストを削減できる。 一方、避難所間の移動は避難者に大きな感情的負担を課す。 本研究では,避難所の移動コストと避難所の運用コストを最小化するために避難所に避難所を割り当てる「避難シェルタースケジューリング問題」を定式化した。 この二次プログラミング問題を直接解くことは困難であるため、0-1整数プログラミング問題への変換を示す。 また、こうした定式化は、実際には支払いが行われないため、過去のデータから移転する負担を計算するのに苦労している。 そこで本研究では,実際の災害時の避難者数と避難者数に基づいて移動コストを推定する手法を提案する。 神戸地震(阪神・淡路大震災)の記録を用いたシミュレーション実験により,提案手法により運用コストが3370万ドル削減された。

Evacuation shelters, which are urgently required during natural disasters, are designed to minimize the burden of evacuation on human survivors. However, the larger the scale of the disaster, the more costly it becomes to operate shelters. When the number of evacuees decreases, the operation costs can be reduced by moving the remaining evacuees to other shelters and closing shelters as quickly as possible. On the other hand, relocation between shelters imposes a huge emotional burden on evacuees. In this study, we formulate the "Evacuation Shelter Scheduling Problem," which allocates evacuees to shelters in such a way to minimize the movement costs of the evacuees and the operation costs of the shelters. Since it is difficult to solve this quadratic programming problem directly, we show its transformation into a 0-1 integer programming problem. In addition, such a formulation struggles to calculate the burden of relocating them from historical data because no payments are actually made. To solve this issue, we propose a method that estimates movement costs based on the numbers of evacuees and shelters during an actual disaster. Simulation experiments with records from the Kobe earthquake (Great Hanshin-Awaji Earthquake) showed that our proposed method reduced operation costs by 33.7 million dollars: 32%.
翻訳日:2021-11-29 17:55:43 公開日:2021-11-26
# 高精度3次元腫瘍分割用容積変圧器

A Volumetric Transformer for Accurate 3D Tumor Segmentation ( http://arxiv.org/abs/2111.13300v1 )

ライセンス: Link先を確認
Himashi Peiris, Munawar Hayat, Zhaolin Chen, Gary Egan and Mehrtash Harandi(参考訳) 本稿では,体積医用画像分割のためのトランスアーキテクチャを提案する。 ボリュームセグメンテーションのための計算効率の良いトランスフォーマーアーキテクチャの設計は難しい課題である。 ローカルとグローバルの空間的手がかりをエンコーディングし、ボリュームデータの全軸に沿って情報を保存するための複雑なバランスを維持する必要がある。 提案したボリュームトランスはU字型のエンコーダデコーダ設計で、入力ボクセル全体を処理している。 このエンコーダは、局所的および大域的手がかりを同時にエンコードする2つの連続する自己アテンション層を有し、このデコーダは、フーリエ位置エンコーディングを仮定して境界精細化のための詳細を捉えるために、新しい並列シフトウインドウベースの自己およびクロスアテンションブロックを有する。 提案する設計選択は,脳腫瘍分画(brats)2021と,腫瘍分画のための医療分画分節分節(pancreas and liver)データセットの有望な結果を示す計算効率の高いアーキテクチャとなる。 さらに,モデルが学習した表現がデータセットをまたいでより良く伝達し,データ破損に対して堅牢であることを示す。 https://github.com/h imashi92/vt-unet}{ourコードの実装は公開されています。

This paper presents a Transformer architecture for volumetric medical image segmentation. Designing a computationally efficient Transformer architecture for volumetric segmentation is a challenging task. It requires keeping a complex balance in encoding local and global spatial cues, and preserving information along all axes of the volumetric data. The proposed volumetric Transformer has a U-shaped encoder-decoder design that processes the input voxels in their entirety. Our encoder has two consecutive self-attention layers to simultaneously encode local and global cues, and our decoder has novel parallel shifted window based self and cross attention blocks to capture fine details for boundary refinement by subsuming Fourier position encoding. Our proposed design choices result in a computationally efficient architecture, which demonstrates promising results on Brain Tumor Segmentation (BraTS) 2021, and Medical Segmentation Decathlon (Pancreas and Liver) datasets for tumor segmentation. We further show that the representations learned by our model transfer better across-datasets and are robust against data corruptions. \href{https://github.com/h imashi92/VT-UNet}{Our code implementation is publicly available}.
翻訳日:2021-11-29 17:50:00 公開日:2021-11-26
# データセットの組み合わせに起因する課題に取り組むためのプライバシー規制改正の提案

A Proposal for Amending Privacy Regulations to Tackle the Challenges Stemming from Combining Data Sets ( http://arxiv.org/abs/2111.13304v1 )

ライセンス: Link先を確認
G\'abor Erd\'elyi, Olivia J. Erd\'elyi, and Andreas W. Kempa-Liehr(参考訳) 現代の情報通信技術はプライバシーに新たな脅威をもたらす。 我々は、現在のデータ保護規則がai駆動のデータ処理プラクティス、特にデータセットを組み合わせることによる影響を適切に対処できる能力の欠点に焦点をあてている。 プライバシー規制は個人のプライバシーに対する期待を減らし,(1)データ保護法の適用を促す目的で個人データと匿名データの区別を廃止すること,(2)個々のデータ処理行動によるプライバシーリスクのレベルに基づく規制介入の優先順位付け方法を開発すること,の2つの方向に規制改革を推奨することを提案する。 この論文は、プライバシー研究に関わる様々なコミュニティ間の橋渡しを意図した学際的な論文である。 我々は,技術概念と規制含意を結びつけること,関連する技術的・法的用語を導入して,政策立案と技術コミュニティのより効率的な連携を促進し,課題のタイムリーな解決を可能にすることを特別に強調した。

Modern information and communication technology practices present novel threats to privacy. We focus on some shortcomings in current data protection regulation's ability to adequately address the ramifications of AI-driven data processing practices, in particular those of combining data sets. We propose that privacy regulation relies less on individuals' privacy expectations and recommend regulatory reform in two directions: (1) abolishing the distinction between personal and anonymized data for the purposes of triggering the application of data protection laws and (2) developing methods to prioritize regulatory intervention based on the level of privacy risk posed by individual data processing actions. This is an interdisciplinary paper that intends to build a bridge between the various communities involved in privacy research. We put special emphasis on linking technical notions with their regulatory implications and introducing the relevant technical and legal terminology in use to foster more efficient coordination between the policymaking and technical communities and enable a timely solution of the problems raised.
翻訳日:2021-11-29 17:48:57 公開日:2021-11-26
# パーセプトロン学習系におけるアルゴリズム不安定性とレプリカ対称性破断への遷移の等価性

Equivalence between algorithmic instability and transition to replica symmetry breaking in perceptron learning systems ( http://arxiv.org/abs/2111.13302v1 )

ライセンス: Link先を確認
Yang Zhao, Junbin Qiu, Mingshan Xie, Haiping Huang(参考訳) binary perceptronは非凸最適化のための教師付き学習の基本モデルであり、一般的なディープラーニングの根源となっている。 バイナリパーセプトロンは、バイナリシナプスの限界確率を計算することにより、ランダムな高次元データの分類を達成することができる。 アルゴリズムの不安定性とモデルの平衡解析の関係はいまだ解明されていない。 本稿では,アルゴリズムの不動点周辺の不安定条件が自由エネルギー関数のレプリカ対称鞍点解を破る不安定条件と同一であることを示すことにより,その関係性を確立する。 そこで本研究では,非凸学習ダイナミクスとより複雑なニューラルネットワークの統計力学特性との橋渡しに関する知見を提供する。

Binary perceptron is a fundamental model of supervised learning for the non-convex optimization, which is a root of the popular deep learning. Binary perceptron is able to achieve a classification of random high-dimensional data by computing the marginal probabilities of binary synapses. The relationship between the algorithmic instability and the equilibrium analysis of the model remains elusive. Here, we establish the relationship by showing that the instability condition around the algorithmic fixed point is identical to the instability for breaking the replica symmetric saddle point solution of the free energy function. Therefore, our analysis provides insights towards bridging the gap between non-convex learning dynamics and statistical mechanics properties of more complex neural networks.
翻訳日:2021-11-29 17:48:38 公開日:2021-11-26
# 変分推論によるガンマハイパープライアーの逆問題へのアプローチ

A Variational Inference Approach to Inverse Problems with Gamma Hyperpriors ( http://arxiv.org/abs/2111.13329v1 )

ライセンス: Link先を確認
Shiv Agrawal, Hwanwoo Kim, Alexander Strang, and Daniel Sanz-Alonso(参考訳) ガンマハイパープライアーを持つ階層モデルは、逆問題に対するベイズ式における$L^1$および$L^2$正規化をブリッジする柔軟なスパースプロモーティングフレームワークを提供する。 これらのモデルに対するベイズ的動機にもかかわらず、既存の方法論は \textit{maximum a reari} 推定に限られる。 不確実性定量化の可能性はまだ実現されていない。 本稿では,ガンマハイパープリアーを用いた階層的逆問題に対する変分反復交代スキームを提案する。 提案する変分推論手法は正確な再構成を導き、有意義な不確かさの定量化を提供し、実装が容易である。 さらに、ハイパーパラメータの選択のためのモデル選択を行うのに自然に役立ちます。 本手法は,時系列データから解畳問題や動的システムのスパース同定など,いくつかの計算例で性能を示す。

Hierarchical models with gamma hyperpriors provide a flexible, sparse-promoting framework to bridge $L^1$ and $L^2$ regularizations in Bayesian formulations to inverse problems. Despite the Bayesian motivation for these models, existing methodologies are limited to \textit{maximum a posteriori} estimation. The potential to perform uncertainty quantification has not yet been realized. This paper introduces a variational iterative alternating scheme for hierarchical inverse problems with gamma hyperpriors. The proposed variational inference approach yields accurate reconstruction, provides meaningful uncertainty quantification, and is easy to implement. In addition, it lends itself naturally to conduct model selection for the choice of hyperparameters. We illustrate the performance of our methodology in several computed examples, including a deconvolution problem and sparse identification of dynamical systems from time series data.
翻訳日:2021-11-29 17:48:25 公開日:2021-11-26
# (参考訳) GMFlow:グローバルマッチングによる光フローの学習 [全文訳有]

GMFlow: Learning Optical Flow via Global Matching ( http://arxiv.org/abs/2111.13680v1 )

ライセンス: CC BY 4.0
Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Dacheng Tao(参考訳) 学習に基づくオプティカルフロー推定は、本質的に局所相関に制限されるフロー回帰の畳み込みを伴うコストボリュームのパイプラインに支配されているため、大きな変位の長期的課題に対処するのは難しい。 これを緩和するために、最先端手法であるraftは、多数の反復的な改良によって一連のフロー更新を生成し、驚くべき性能を達成しつつ、推論速度を遅くすることで、その予測の質を徐々に向上させる。 高精度かつ効率の良い光流量推定を可能にするために, グローバルマッチング問題として光流れを再構成し, 支配流回帰パイプラインを完全に改良する。 具体的には,機能拡張のためのカスタマイズトランスフォーマー,グローバル機能マッチングのための相関およびソフトマックス層,フロー伝搬のためのセルフアテンション層という3つの主成分からなるgmflowフレームワークを提案する。 さらに, GMFlowを高分解能で再利用し, 残留流量予測を行う改良工程も導入する。 今回の新フレームワークは,sintelベンチマークで32文字のraftのパフォーマンスを上回り,1つの改良と高速実行のみを使用して,効率的かつ正確な光フロー推定を可能にする。 コードはhttps://github.com/h aofeixu/gmflowで入手できる。

Learning-based optical flow estimation has been dominated with the pipeline of cost volume with convolutions for flow regression, which is inherently limited to local correlations and thus is hard to address the long-standing challenge of large displacements. To alleviate this, the state-of-the-art method, i.e., RAFT, gradually improves the quality of its predictions by producing a sequence of flow updates via a large number of iterative refinements, achieving remarkable performance but slowing down the inference speed. To enable both high accuracy and efficiency optical flow estimation, we completely revamp the dominating flow regression pipeline by reformulating optical flow as a global matching problem. Specifically, we propose a GMFlow framework, which consists of three main components: a customized Transformer for feature enhancement, a correlation and softmax layer for global feature matching, and a self-attention layer for flow propagation. Moreover, we further introduce a refinement step that reuses GMFlow at higher-resolutions for residual flow prediction. Our new framework outperforms 32-iteration RAFT's performance on the challenging Sintel benchmark, while using only one refinement and running faster, offering new possibilities for efficient and accurate optical flow estimation. Code will be available at https://github.com/h aofeixu/gmflow.
翻訳日:2021-11-29 17:46:53 公開日:2021-11-26
# 強化説明学習

Reinforcement Explanation Learning ( http://arxiv.org/abs/2111.13406v1 )

ライセンス: Link先を確認
Siddhant Agarwal, Owais Iqbal, Sree Aditya Buridi, Madda Manjusha, Abir Das(参考訳) ディープラーニングは複雑になり、画像分類やオブジェクト検出など、いくつかの古典的な問題の解決に成功している。 これらの決定を説明するいくつかの方法が提案されている。 サリエンシーマップを生成するブラックボックスメソッドは、決定を説明するためにモデルの内部を利用していないという事実から、特に興味深い。 ほとんどのブラックボックスメソッドは入力を摂動させ、出力の変化を観察します。 我々は,逐次探索問題としてサリエンシーマップ生成を定式化し,強化学習(rl)を利用して,分類器による決定を最も強く支持する入力画像から証拠を蓄積する。 このような戦略は、高品質な説明につながる摂動を知的に探索することを奨励する。 ブラックボックスの説明手法を成功させるには、重い計算に頼り、小さなサンプル近似に苦しむ必要があるが、本手法で学習した決定論的ポリシーにより、推論においてより効率的になる。 3つのベンチマークデータセットの実験では、提案手法がパフォーマンスを損なわずに最先端の予測時間よりも優れていることを示した。 プロジェクトページ: https://cvir.github. io/projects/rexl.htm l

Deep Learning has become overly complicated and has enjoyed stellar success in solving several classical problems like image classification, object detection, etc. Several methods for explaining these decisions have been proposed. Black-box methods to generate saliency maps are particularly interesting due to the fact that they do not utilize the internals of the model to explain the decision. Most black-box methods perturb the input and observe the changes in the output. We formulate saliency map generation as a sequential search problem and leverage upon Reinforcement Learning (RL) to accumulate evidence from input images that most strongly support decisions made by a classifier. Such a strategy encourages to search intelligently for the perturbations that will lead to high-quality explanations. While successful black box explanation approaches need to rely on heavy computations and suffer from small sample approximation, the deterministic policy learned by our method makes it a lot more efficient during the inference. Experiments on three benchmark datasets demonstrate the superiority of the proposed approach in inference time over state-of-the-arts without hurting the performance. Project Page: https://cvir.github. io/projects/rexl.htm l
翻訳日:2021-11-29 17:28:11 公開日:2021-11-26
# マルチアノテータを用いた医用画像分割のための人間の嗜好と確率誤差のモデル化

Modeling Human Preference and Stochastic Error for Medical Image Segmentation with Multiple Annotators ( http://arxiv.org/abs/2111.13410v1 )

ライセンス: Link先を確認
Liao Zehui, Hu Shishuai, Xie Yutong, Xia Yong(参考訳) 医用画像の手動アノテーションは非常に主観的であり、必然的かつ巨大なアノテーションバイアスをもたらす。 ディープラーニングモデルは、さまざまなタスクにおいて人間のパフォーマンスを上回るかもしれないが、これらのバイアスを模倣または増幅することもある。 複数のアノテータを持ち、それらのアノテーションを融合させて確率的エラーを減らすことができるが、アノテータの好みによるバイアスを処理するためにこの戦略は利用できない。 本稿では,医用画像のセグメンテーションタスクにおけるアノテーション関連バイアスの問題を取り上げ,アノテーションの好みを確率的エラーから切り離して,メタセグメンテーションだけでなく,各アノテーションによって可能となるセグメンテーションを生成するという観点から,その問題に対処するためのpide-involved annotation distribution learning(padl)フレームワークを提案する。 この枠組みの下では、確率的エラーモデリング(sem)モジュールは、メタセグメンテーションマップと平均確率的エラーマップを推定し、一連の人間選好モデリング(hpm)モジュールは、各アノテーションのセグメンテーションと対応する確率的エラーを推定する。 われわれは,複数の医療専門家が注釈を付した2つの画像モダリティの異なる医用画像ベンチマークを用いてPADLフレームワークを評価し,5つの医用画像セグメンテーションタスクで有望なパフォーマンスを達成した。

Manual annotation of medical images is highly subjective, leading to inevitable and huge annotation biases. Deep learning models may surpass human performance on a variety of tasks, but they may also mimic or amplify these biases. Although we can have multiple annotators and fuse their annotations to reduce stochastic errors, we cannot use this strategy to handle the bias caused by annotators' preferences. In this paper, we highlight the issue of annotator-related biases on medical image segmentation tasks, and propose a Preference-involved Annotation Distribution Learning (PADL) framework to address it from the perspective of disentangling an annotator's preference from stochastic errors using distribution learning so as to produce not only a meta segmentation but also the segmentation possibly made by each annotator. Under this framework, a stochastic error modeling (SEM) module estimates the meta segmentation map and average stochastic error map, and a series of human preference modeling (HPM) modules estimate each annotator's segmentation and the corresponding stochastic error. We evaluated our PADL framework on two medical image benchmarks with different imaging modalities, which have been annotated by multiple medical professionals, and achieved promising performance on all five medical image segmentation tasks.
翻訳日:2021-11-29 17:27:53 公開日:2021-11-26
# 教師なし異常検出のためのインペイントラジオグラフィー画像

In-painting Radiography Images for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2111.13495v1 )

ライセンス: Link先を確認
Tiange Xiang, Yongyi Liu, Alan L. Yuille, Chaoyi Zhang, Weidong Cai, Zongwei Zhou(参考訳) 本研究では,X線画像(SQUIDと略す)から異常を描画・検出するための空間認識メモリキューを提案する。 放射線画像撮影プロトコルは特定の身体領域に焦点をあてるため、非常に類似した画像が生成され、患者全体の解剖学的構造が繰り返される。 この構造化情報を活用するため、SQUIDは、新しいメモリキューと、特徴空間における新しいインペイントブロックで構成される。 SQUIDは, 微細な解剖学的構造を逐次パターンに分類でき, 推測では画像中の異常(見えない/修正されたパターン)を識別できる。 SQUIDは、2つの胸部X線ベンチマークデータセットで5ポイント以上、教師なし異常検出の最先端を越えている。 さらに,胸部解剖学における空間相関と一貫した形状を合成する新しいデータセット (DigitAnatomy) も作成した。 DigitAnatomyは,特にX線撮影において,異常検出法の開発,評価,解釈を促進できることを期待している。

We propose space-aware memory queues for in-painting and detecting anomalies from radiography images (abbreviated as SQUID). Radiography imaging protocols focus on particular body regions, therefore producing images of great similarity and yielding recurrent anatomical structures across patients. To exploit this structured information, our SQUID consists of a new Memory Queue and a novel in-painting block in the feature space. We show that SQUID can taxonomize the ingrained anatomical structures into recurrent patterns; and in the inference, SQUID can identify anomalies (unseen/modified patterns) in the image. SQUID surpasses the state of the art in unsupervised anomaly detection by over 5 points on two chest X-ray benchmark datasets. Additionally, we have created a new dataset (DigitAnatomy), which synthesizes the spatial correlation and consistent shape in chest anatomy. We hope DigitAnatomy can prompt the development, evaluation, and interpretability of anomaly detection methods, particularly for radiography imaging.
翻訳日:2021-11-29 17:26:48 公開日:2021-11-26
# 視覚的な位置認識の内部

Inside Out Visual Place Recognition ( http://arxiv.org/abs/2111.13546v1 )

ライセンス: Link先を確認
Sarah Ibrahimi, Nanne van Noord, Tim Alpherts, Marcel Worring(参考訳) 視覚位置認識 (vpr) は一般に屋外画像のローカライズに関係している。 しかしながら、屋外シーンの一部を含む屋内シーンのローカライズは、幅広い用途において大きな価値を持つ可能性がある。 本稿では,窓から見える屋外シーンに基づく画像のローカライズを目的としたタスクであるinside out visual place recognition(iovpr)を紹介する。 このタスクのために、アムステルダムで撮影された640万のパノラマストリートビューイメージと1000人のユーザ生成屋内クエリからなる、新しい大規模なデータセットであるアムステルダムXXXLを提示する。 さらに、屋内画像のローカライズのための視覚的位置認識手法を適用し、内外空間認識の可能性を示すための、新たなトレーニングプロトコルであるInside Out Data Augmentationを導入する。 提案するデータ拡張スキームのメリットを小規模で実証的に示すとともに,この大規模データセットの既存手法の難しさを実証する。 この新たな課題は、IOVPRの手法開発を促進することを目的としている。 データセットとコードは研究目的でhttps://github.com/s aibr/iovprで利用可能である。

Visual Place Recognition (VPR) is generally concerned with localizing outdoor images. However, localizing indoor scenes that contain part of an outdoor scene can be of large value for a wide range of applications. In this paper, we introduce Inside Out Visual Place Recognition (IOVPR), a task aiming to localize images based on outdoor scenes visible through windows. For this task we present the new large-scale dataset Amsterdam-XXXL, with images taken in Amsterdam, that consists of 6.4 million panoramic street-view images and 1000 user-generated indoor queries. Additionally, we introduce a new training protocol Inside Out Data Augmentation to adapt Visual Place Recognition methods for localizing indoor images, demonstrating the potential of Inside Out Visual Place Recognition. We empirically show the benefits of our proposed data augmentation scheme on a smaller scale, whilst demonstrating the difficulty of this large-scale dataset for existing methods. With this new task we aim to encourage development of methods for IOVPR. The dataset and code are available for research purposes at https://github.com/s aibr/IOVPR
翻訳日:2021-11-29 17:26:32 公開日:2021-11-26
# Gradient-SDF : 3次元再構成のための半特異表面表現

Gradient-SDF: A Semi-Implicit Surface Representation for 3D Reconstruction ( http://arxiv.org/abs/2111.13652v1 )

ライセンス: Link先を確認
Christiane Sommer, Lu Sang, David Schubert, Daniel Cremers(参考訳) 本稿では,3次元幾何学の新しい表現であるGradient-SDFについて述べる。 符号付き距離場とその勾配ベクトル場の両方に保存することにより、元の明示曲面に対して定式化されたアプローチによる暗黙表現の能力を高める。 具体例として,(1)グラディエント・SDFは,ハッシュマップのような効率的な記憶方式を用いて,深度画像からの直接SDF追跡を行うことができ,(2)グラディエント・SDF表現は,(点雲やメッシュに変換することなく)ボクセル表現で直接光度バンドル調整を行うことができ,自然に幾何学的・カメラ的ポーズの完全暗黙的な最適化と容易に幾何アップサンプリングを行うことができることを示す。 実験の結果, より鋭い再建に繋がることが明らかとなった。 SDFのボクセル構造はいまだ尊重されているため、提案したGradient-SDFは関連するアプローチとして(GPU)並列化に等しく適している。

We present Gradient-SDF, a novel representation for 3D geometry that combines the advantages of implict and explicit representations. By storing at every voxel both the signed distance field as well as its gradient vector field, we enhance the capability of implicit representations with approaches originally formulated for explicit surfaces. As concrete examples, we show that (1) the Gradient-SDF allows us to perform direct SDF tracking from depth images, using efficient storage schemes like hash maps, and that (2) the Gradient-SDF representation enables us to perform photometric bundle adjustment directly in a voxel representation (without transforming into a point cloud or mesh), naturally a fully implicit optimization of geometry and camera poses and easy geometry upsampling. Experimental results confirm that this leads to significantly sharper reconstructions. Since the overall SDF voxel structure is still respected, the proposed Gradient-SDF is equally suited for (GPU) parallelization as related approaches.
翻訳日:2021-11-29 17:26:15 公開日:2021-11-26
# 不死のトラッカー:トラックレットは死なない

Immortal Tracker: Tracklet Never Dies ( http://arxiv.org/abs/2111.13672v1 )

ライセンス: Link先を確認
Qitai Wang, Yuntao Chen, Ziqi Pang, Naiyan Wang, Zhaoxiang Zhang(参考訳) 従来のオンライン3dマルチオブジェクトトラッキング(3dmot)メソッドは、数フレームの新しい検出に関連がない場合にトラックレットを終了させる。 しかし、オブジェクトが一時的に他のオブジェクトに隠されたり、単にFOVから抜け出したりすると、早い段階でトラックレットが終了すると、IDスイッチが発生する。 近年の3DMOTシステムでは,早期のトラックレット終了がアイデンティティスイッチの主な原因であることが判明した。 そこで本研究では、軌道予測を利用して暗くなった物体のトラックレットを維持する簡易追跡システムImmortal Trackerを提案する。 我々は、単純なカルマンフィルタを用いて軌道予測を行い、目標が見えない場合の予測によりトラックレットを保存する。 この方法では、トラックレットの早期停止による96%の車種識別スイッチを回避できる。 Waymo Open Datasetテストセットにおいて,学習パラメータがなければ0.0001レベルのミスマッチ比と,車両クラスに対する競合MOTAを達成できる。 我々のミスマッチ比は、以前公表したどの方法よりも数倍低い。 同様の結果はnuScenesで報告されている。 提案したImmortal Trackerは,3DMOTの限界を押し上げるための,シンプルかつ強力なソリューションを提供する。 私たちのコードはhttps://github.com/I mmortalTracker/Immor talTrackerで利用可能です。

Previous online 3D Multi-Object Tracking(3DMOT) methods terminate a tracklet when it is not associated with new detections for a few frames. But if an object just goes dark, like being temporarily occluded by other objects or simply getting out of FOV, terminating a tracklet prematurely will result in an identity switch. We reveal that premature tracklet termination is the main cause of identity switches in modern 3DMOT systems. To address this, we propose Immortal Tracker, a simple tracking system that utilizes trajectory prediction to maintain tracklets for objects gone dark. We employ a simple Kalman filter for trajectory prediction and preserve the tracklet by prediction when the target is not visible. With this method, we can avoid 96% vehicle identity switches resulting from premature tracklet termination. Without any learned parameters, our method achieves a mismatch ratio at the 0.0001 level and competitive MOTA for the vehicle class on the Waymo Open Dataset test set. Our mismatch ratio is tens of times lower than any previously published method. Similar results are reported on nuScenes. We believe the proposed Immortal Tracker can offer a simple yet powerful solution for pushing the limit of 3DMOT. Our code is available at https://github.com/I mmortalTracker/Immor talTracker.
翻訳日:2021-11-29 17:24:02 公開日:2021-11-26
# 高品質インスタンスセグメンテーションのためのマスクトランスファイナ

Mask Transfiner for High-Quality Instance Segmentation ( http://arxiv.org/abs/2111.13673v1 )

ライセンス: Link先を確認
Lei Ke, Martin Danelljan, Xia Li, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu(参考訳) 2段階およびクエリベースのインスタンスセグメンテーション手法は素晴らしい結果を得た。 しかし、その部分的なマスクはいまだに粗い。 本稿では,高品質かつ効率的なインスタンスセグメンテーションのためのマスクトランスファイナを提案する。 通常の密度テンソルで操作する代わりに、マスクトランスファイナは画像領域をクワッドツリーとして分解し、表現する。 トランスフォーマチックなアプローチでは,エラーが発生しやすい木ノードのみを検出し,その誤りを並列に修正する。 これらのスパース画素は総数のごく一部しか構成しないが、最終的なマスクの品質には重要である。 これにより、Mask Transfinerは計算コストの低い高精度なインスタンスマスクを予測できる。 大規模な実験では、Mask Transfinerが3つの人気のあるベンチマークで現在のインスタンスセグメンテーションメソッドより優れており、COCOとBDD100Kの+3.0マスクAPとCityscapesの+6.6境界APの広いマージンで、2段階とクエリベースのフレームワークの両方が大幅に改善されている。 私たちのコードとトレーニングされたモデルはhttp://vis.xyz/pub/t ransfiner.com/で利用できます。

Two-stage and query-based instance segmentation methods have achieved remarkable results. However, their segmented masks are still very coarse. In this paper, we present Mask Transfiner for high-quality and efficient instance segmentation. Instead of operating on regular dense tensors, our Mask Transfiner decomposes and represents the image regions as a quadtree. Our transformer-based approach only processes detected error-prone tree nodes and self-corrects their errors in parallel. While these sparse pixels only constitute a small proportion of the total number, they are critical to the final mask quality. This allows Mask Transfiner to predict highly accurate instance masks, at a low computational cost. Extensive experiments demonstrate that Mask Transfiner outperforms current instance segmentation methods on three popular benchmarks, significantly improving both two-stage and query-based frameworks by a large margin of +3.0 mask AP on COCO and BDD100K, and +6.6 boundary AP on Cityscapes. Our code and trained models will be available at http://vis.xyz/pub/t ransfiner.
翻訳日:2021-11-29 17:23:43 公開日:2021-11-26
# 時間的活動検出のための分類ラベル付き自己教師付き事前学習

Self-supervised Pretraining with Classification Labels for Temporal Activity Detection ( http://arxiv.org/abs/2111.13675v1 )

ライセンス: Link先を確認
Kumara Kahatapitiya, Zhou Ren, Haoxiang Li, Zhenyu Wu and Michael S. Ryoo(参考訳) 時間的アクティビティ検出は、アクティビティ分類(アクティビティ認識)において行われるビデオレベルの予測とは対照的に、フレームごとのアクティビティクラスを予測することを目的としている。 検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。 したがって、一般に、時間的活動検出に関する以前の研究は、大規模な分類データセット(例えば、Kinetics-400)に基づいて事前訓練された分類モデルを微調整する。 しかし、これらの事前訓練されたモデルは、事前訓練と下流微調整タスクの相違により、下流検出性能に理想的ではない。 本研究では, フレームレベルの擬似ラベル, マルチアクションフレーム, アクションセグメントを導入して, 分類ラベルを利用した自己教師付き事前学習手法を提案する。 提案する自己教師あり検出タスクを事前学習したモデルが,チャレードやマルチトゥモスを含む複数の挑戦的アクティビティ検出ベンチマークの先行作業よりも優れていることを示す。 広範なアブレーションは,提案するモデルがいつ,どのように活動検出に使用されるのか,さらに洞察を与えてくれる。 コードとモデルはオンラインでリリースされる。

Temporal Activity Detection aims to predict activity classes per frame, in contrast to video-level predictions as done in Activity Classification (i.e., Activity Recognition). Due to the expensive frame-level annotations required for detection, the scale of detection datasets is limited. Thus, commonly, previous work on temporal activity detection resorts to fine-tuning a classification model pretrained on large-scale classification datasets (e.g., Kinetics-400). However, such pretrained models are not ideal for downstream detection performance due to the disparity between the pretraining and the downstream fine-tuning tasks. This work proposes a novel self-supervised pretraining method for detection leveraging classification labels to mitigate such disparity by introducing frame-level pseudo labels, multi-action frames, and action segments. We show that the models pretrained with the proposed self-supervised detection task outperform prior work on multiple challenging activity detection benchmarks, including Charades and MultiTHUMOS. Our extensive ablations further provide insights on when and how to use the proposed models for activity detection. Code and models will be released online.
翻訳日:2021-11-29 17:23:25 公開日:2021-11-26
# swat:トークン内とトークン間の空間構造

SWAT: Spatial Structure Within and Among Tokens ( http://arxiv.org/abs/2111.13677v1 )

ライセンス: Link先を確認
Kumara Kahatapitiya and Michael S. Ryoo(参考訳) 視覚データをトークン(画像パッチ)としてモデル化し、その上に注意機構やフィードフォワードネットワークを適用することで、近年は非常に効果的であることが示されている。 このようなアプローチの共通パイプラインはトークン化メソッドを含み、続いてトークン内およびトークン間の情報混合のためのレイヤ/ブロックのセットが続く。 一般的には、イメージパッチはトークンに変換されるとフラットになり、各パッチ内の空間構造を捨てる。 次に、マルチヘッドセルフアテンションのようなモジュールがトークン間の対関係をキャプチャして混合する。 本稿では,空間構造がトークン化で保存されている場合,モデルが大きな利益をもたらす可能性があり,混合段階において明示的に用いられることを論じる。 1) 構造認識トークン化と, (2) 構造認識混合とを組み合わせることで, 既存のモデルと最小限の労力で組み合わせることができる。 我々は、ImageNet分類やADE20Kセグメンテーションを含む複数のベンチマークにおいて、DeiT、MLP-Mixer、Swin Transformerなどよりも改善されたモデル群(SWAT)を紹介する。 私たちのコードとモデルはオンラインでリリースされます。

Modeling visual data as tokens (i.e., image patches), and applying attention mechanisms or feed-forward networks on top of them has shown to be highly effective in recent years. The common pipeline in such approaches includes a tokenization method, followed by a set of layers/blocks for information mixing, both within tokens and among tokens. In common practice, image patches are flattened when converted into tokens, discarding the spatial structure within each patch. Next, a module such as multi-head self-attention captures the pairwise relations among the tokens and mixes them. In this paper, we argue that models can have significant gains when spatial structure is preserved in tokenization, and is explicitly used in the mixing stage. We propose two key contributions: (1) Structure-aware Tokenization and, (2) Structure-aware Mixing, both of which can be combined with existing models with minimal effort. We introduce a family of models (SWAT), showing improvements over the likes of DeiT, MLP-Mixer and Swin Transformer, across multiple benchmarks including ImageNet classification and ADE20K segmentation. Our code and models will be released online.
翻訳日:2021-11-29 17:23:07 公開日:2021-11-26
# フェデレーションラーニングにおける非IIDデータと継続的な学習プロセス--長い道のり

Non-IID data and Continual Learning processes in Federated Learning: A long road ahead ( http://arxiv.org/abs/2111.13394v1 )

ライセンス: Link先を確認
Marcos F. Criado, Fernando E. Casado, Roberto Iglesias, Carlos V. Regueiro and Sen\'en Barro(参考訳) フェデレーション学習(federated learning)は、複数のデバイスや機関がデータをプライベートに保ちながら、機械学習モデルを協調的にトレーニングできる、新たなフレームワークである。 この分散化アプローチは、異なるエンティティと時間とともに、データの統計的不均一性の結果に苦しむ傾向にあり、収束の欠如につながる可能性がある。 このような問題を避けるため、近年では様々な方法が提案されている。 しかし、データは様々な方法で不均一であり、現在の提案はそれらが考慮している不均一性の種類を必ずしも決定しない。 本研究では,データの統計的不均一性を形式的に分類し,それに対応可能な最も顕著な学習戦略をレビューする。 同時に,連続学習などの他の機械学習フレームワークからのアプローチも導入し,データの不均一性を処理し,連合学習の設定に容易に適応できるようにする。

Federated Learning is a novel framework that allows multiple devices or institutions to train a machine learning model collaboratively while preserving their data private. This decentralized approach is prone to suffer the consequences of data statistical heterogeneity, both across the different entities and over time, which may lead to a lack of convergence. To avoid such issues, different methods have been proposed in the past few years. However, data may be heterogeneous in lots of different ways, and current proposals do not always determine the kind of heterogeneity they are considering. In this work, we formally classify data statistical heterogeneity and review the most remarkable learning strategies that are able to face it. At the same time, we introduce approaches from other machine learning frameworks, such as Continual Learning, that also deal with data heterogeneity and could be easily adapted to the Federated Learning settings.
翻訳日:2021-11-29 17:17:47 公開日:2021-11-26
# TRIP: 画像から画像への変換をRival Preferencesで改善

TRIP: Refining Image-to-Image Translation via Rival Preferences ( http://arxiv.org/abs/2111.13411v1 )

ライセンス: Link先を確認
Yinghua Yao, Yuangang Pan, Ivor W. Tsang, Xin Yao(参考訳) 相対属性(RA)は、特定の属性の強さに関する2つの画像に対する好みを参照し、そのリッチな意味情報により微細な画像から画像への変換を可能にする。 しかし、RAをベースとした既存の作業は、微細な翻訳の目標と高品質な生成の目標の調整に失敗した。 高品質な細粒度翻訳のための2つの目標をコーディネートする新しいモデル TRIP を提案する。 特に,入力画像から所望の画像への変換を行うジェネレータと,入力画像と所望の画像からなる競合選好をランク付けするランク付け器の2つのモジュールを同時に訓練する。 ライバルの選好は、敵のランク付けの過程を参照する: (1) ランク付け者は、所望の属性の観点で所望の画像と入力画像との差を考慮せず、(2) 生成者は、所望の画像が所望の入力画像上の属性を所望の通り変更すると考えるように、ランク付け者を騙す。 実画像の対上のRAを導入し、興味のある属性のみに関する画像対をランク付けする。 有効ランク付けにより、ジェネレータは、入力画像と比較して属性に対して望ましい変化を示す高品質な画像を生成することにより、敵ゲームに「勝つ」。 2つの顔画像データセットと1つの靴画像データセットに関する実験は、我々の旅行が最先端の成果を達成し、興味のある属性に対してスムーズな変化を示す高忠実な画像を生成することを示しています。

Relative attribute (RA), referring to the preference over two images on the strength of a specific attribute, can enable fine-grained image-to-image translation due to its rich semantic information. Existing work based on RAs however failed to reconcile the goal for fine-grained translation and the goal for high-quality generation. We propose a new model TRIP to coordinate these two goals for high-quality fine-grained translation. In particular, we simultaneously train two modules: a generator that translates an input image to the desired image with smooth subtle changes with respect to the interested attributes; and a ranker that ranks rival preferences consisting of the input image and the desired image. Rival preferences refer to the adversarial ranking process: (1) the ranker thinks no difference between the desired image and the input image in terms of the desired attributes; (2) the generator fools the ranker to believe that the desired image changes the attributes over the input image as desired. RAs over pairs of real images are introduced to guide the ranker to rank image pairs regarding the interested attributes only. With an effective ranker, the generator would "win" the adversarial game by producing high-quality images that present desired changes over the attributes compared to the input image. The experiments on two face image datasets and one shoe image dataset demonstrate that our TRIP achieves state-of-art results in generating high-fidelity images which exhibit smooth changes over the interested attributes.
翻訳日:2021-11-29 17:17:33 公開日:2021-11-26
# ESCADA: 高精度医療のための安全とコンテキストを考慮したドーズアロケーション

ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine ( http://arxiv.org/abs/2111.13415v1 )

ライセンス: Link先を確認
Ilker Demirel, Ahmet Alparslan Celik, Cem Tekin(参考訳) 最適な個別化治療体制を見つけることは、最も困難な精密医療問題の一つである。 様々な患者特性が治療に対する反応に影響を与え、そのため1サイズ以上の治療は行われない。 さらに、治療中の1回の安全でない投与でさえ、患者の健康に破滅的な結果をもたらす可能性がある。 したがって、個別化された治療モデルでは、治療過程を最適化しながら患者の安全を確保する必要がある。 本研究は,生理的変数を目標レベルに近い範囲に保持することを目的とした,広く,かつ必須の医療的問題の設定について検討する。 このようなタスクは、他の多くのドメインにも関係している。 そこで本研究では, 患者安全を保証しつつ, 個別化および文脈対応の最適な線量推奨を行うための汎用アルゴリズムであるescadaを提案する。 我々は、安全保証とともに、ESCADAの後悔に基づく高い確率上限を導出する。 最後に, 糖尿病1型糖尿病におけるインスリン摂取量配分問題について広範なシミュレーションを行い, ESCADAとトンプソンサンプリング, ルールベース投与量アロケータ, 臨床医のパフォーマンスを比較した。

Finding an optimal individualized treatment regimen is considered one of the most challenging precision medicine problems. Various patient characteristics influence the response to the treatment, and hence, there is no one-size-fits-all regimen. Moreover, the administration of even a single unsafe dose during the treatment can have catastrophic consequences on patients' health. Therefore, an individualized treatment model must ensure patient {\em safety} while {\em efficiently} optimizing the course of therapy. In this work, we study a prevalent and essential medical problem setting where the treatment aims to keep a physiological variable in a range, preferably close to a target level. Such a task is relevant in numerous other domains as well. We propose ESCADA, a generic algorithm for this problem structure, to make individualized and context-aware optimal dose recommendations while assuring patient safety. We derive high probability upper bounds on the regret of ESCADA along with safety guarantees. Finally, we make extensive simulations on the {\em bolus insulin dose} allocation problem in type 1 diabetes mellitus disease and compare ESCADA's performance against Thompson sampling's, rule-based dose allocators', and clinicians'.
翻訳日:2021-11-29 17:17:03 公開日:2021-11-26
# オフライン強化学習におけるデータセット選択のためのデータ品質測定

Measuring Data Quality for Dataset Selection in Offline Reinforcement Learning ( http://arxiv.org/abs/2111.13461v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Thomas Runkler(参考訳) 最近開発されたオフライン強化学習アルゴリズムによって、事前に収集したデータセットから直接ポリシを学習することが可能になり、実践者に新たなジレンマがもたらされた。 この問題は、これまでのところ、対応する文献では議論されていない。 予測相対回帰改善(eri)と予測行動確率性(eas)の3つの非常に単純な指標と、2つの組み合わせ(coi)を組み合わせることで、そのシンプルさにもかかわらず、データセットの選択に非常に効果的に使用できることを示す。

Recently developed offline reinforcement learning algorithms have made it possible to learn policies directly from pre-collected datasets, giving rise to a new dilemma for practitioners: Since the performance the algorithms are able to deliver depends greatly on the dataset that is presented to them, practitioners need to pick the right dataset among the available ones. This problem has so far not been discussed in the corresponding literature. We discuss ideas how to select promising datasets and propose three very simple indicators: Estimated relative return improvement (ERI) and estimated action stochasticity (EAS), as well as a combination of the two (COI), and empirically show that despite their simplicity they can be very effectively used for dataset selection.
翻訳日:2021-11-29 17:16:45 公開日:2021-11-26
# フェデレーションエッジ学習のための最適化フレームワーク

An Optimization Framework for Federated Edge Learning ( http://arxiv.org/abs/2111.13526v1 )

ライセンス: Link先を確認
Yangchen Li, Ying Cui, and Vincent Lau(参考訳) 量子化されたメッセージパッシングを伴う実用エッジコンピューティングシステムにおける一般機械学習(ml)問題を解決するためのフェデレーション学習(fl)アルゴリズムの最適設計は、まだ未解決の問題である。 本稿では,サーバとワーカが異なる計算能力を持ち,送信前に量子化を利用するエッジコンピューティングシステムについて考察する。 このようなエッジコンピューティングシステムにおけるflのポテンシャルの完全性を探るために,まず,グローバルおよびローカルイテレーション数,ミニバッチサイズ,ステップサイズシーケンスによってパラメータ化されるgenqsgdという一般的なflアルゴリズムを提案する。 次に、任意のステップサイズ列に対する収束を分析し、その収束結果を3つの一般的なステップサイズルール、すなわち定数、指数関数、および減少するステップサイズルールで指定する。 次に,時間制約および収束誤差制約の下でのエネルギーコストを最小化するアルゴリズムパラメータを最適化し,FLの全体実装プロセスに焦点をあてる。 具体的には、各ステップサイズルールに基づく任意のステップサイズシーケンスに対して、事前設定されたステップサイズシーケンスを持つアプリケーションに対して、グローバルおよびローカルイテレーションの数とミニバッチサイズを最適化し、FLを最適に実装する。 また、これらのアルゴリズムパラメータとともにステップサイズシーケンスを最適化し、flのポテンシャルを完全に探究する。 結果として生じる最適化問題は、微分不能な制約関数を持つ非凸問題に対する挑戦である。 一般内近似(GIA)と相補的幾何プログラミング(CGP)の解法を用いてKKT点を求める反復アルゴリズムを提案する。 最後に、既存のFLアルゴリズムよりも最適化されたアルゴリズムパラメータを用いたGenQSGDの顕著な利点を数値的に示し、汎用FLアルゴリズムを最適に設計することの重要性を明らかにする。

The optimal design of federated learning (FL) algorithms for solving general machine learning (ML) problems in practical edge computing systems with quantized message passing remains an open problem. This paper considers an edge computing system where the server and workers have possibly different computing and communication capabilities and employ quantization before transmitting messages. To explore the full potential of FL in such an edge computing system, we first present a general FL algorithm, namely GenQSGD, parameterized by the numbers of global and local iterations, mini-batch size, and step size sequence. Then, we analyze its convergence for an arbitrary step size sequence and specify the convergence results under three commonly adopted step size rules, namely the constant, exponential, and diminishing step size rules. Next, we optimize the algorithm parameters to minimize the energy cost under the time constraint and convergence error constraint, with the focus on the overall implementing process of FL. Specifically, for any given step size sequence under each considered step size rule, we optimize the numbers of global and local iterations and mini-batch size to optimally implement FL for applications with preset step size sequences. We also optimize the step size sequence along with these algorithm parameters to explore the full potential of FL. The resulting optimization problems are challenging non-convex problems with non-differentiable constraint functions. We propose iterative algorithms to obtain KKT points using general inner approximation (GIA) and tricks for solving complementary geometric programming (CGP). Finally, we numerically demonstrate the remarkable gains of GenQSGD with optimized algorithm parameters over existing FL algorithms and reveal the significance of optimally designing general FL algorithms.
翻訳日:2021-11-29 17:16:34 公開日:2021-11-26
# (参考訳) イチゴの3次元形状センサと深層学習によるセグメンテーション [全文訳有]

3D shape sensing and deep learning-based segmentation of strawberries ( http://arxiv.org/abs/2111.13663v1 )

ライセンス: CC BY 4.0
Justin Le Lou\"edec and Grzegorz Cielniak(参考訳) 農業分野の自動化とロボット化は、この産業が直面する社会経済的課題に対する有効な解決策と見なされている。 この技術は、しばしば作物、植物、そして環境全体に関する情報を提供するインテリジェントな知覚システムに依存している。 従来の2次元視覚システムで直面する課題は、オブジェクトの局所化、サイズと形状の推定、オクルージョンの処理を可能にする現代の3次元視覚システムによって対処できる。 これまでの3dセンシングの使用は主に屋内環境や構造環境に限られていた。 本稿では,農業における形状の3次元認識のためのステレオカメラや飛行時間カメラなどの近代的センシング技術を評価し,その形状に基づいて軟質果実を抽出するためのユーザビリティについて検討する。 そこで我々は,カメラベースの3Dセンサから得られる情報の組織的性質を利用した,新しい3Dディープニューラルネットワークを提案する。 本稿では,最新の3Dネットワークと比較して,提案アーキテクチャの性能と効率性を実証する。 シミュレーション研究を通じて,農業における対象セグメンテーションにおける3次元センシングパラダイムの可能性を示し,作物のさらなる分析のためにどのような形状品質が必要か,どのような形状が必要か,そして期待できるかの洞察と分析を行う。 この研究の結果は、研究者や企業がより正確で堅牢な3dセンシング技術を開発し、実用的な農業応用に広く採用されるよう促すだろう。

Automation and robotisation of the agricultural sector are seen as a viable solution to socio-economic challenges faced by this industry. This technology often relies on intelligent perception systems providing information about crops, plants and the entire environment. The challenges faced by traditional 2D vision systems can be addressed by modern 3D vision systems which enable straightforward localisation of objects, size and shape estimation, or handling of occlusions. So far, the use of 3D sensing was mainly limited to indoor or structured environments. In this paper, we evaluate modern sensing technologies including stereo and time-of-flight cameras for 3D perception of shape in agriculture and study their usability for segmenting out soft fruit from background based on their shape. To that end, we propose a novel 3D deep neural network which exploits the organised nature of information originating from the camera-based 3D sensors. We demonstrate the superior performance and efficiency of the proposed architecture compared to the state-of-the-art 3D networks. Through a simulated study, we also show the potential of the 3D sensing paradigm for object segmentation in agriculture and provide insights and analysis of what shape quality is needed and expected for further analysis of crops. The results of this work should encourage researchers and companies to develop more accurate and robust 3D sensing technologies to assure their wider adoption in practical agricultural applications.
翻訳日:2021-11-29 17:15:10 公開日:2021-11-26
# テキスト認識のためのラベル付きデータで検証された中国の伝統的な合成データセット

Traditional Chinese Synthetic Datasets Verified with Labeled Data for Scene Text Recognition ( http://arxiv.org/abs/2111.13327v1 )

ライセンス: Link先を確認
Yi-Chang Chen, Yu-Chuan Chang, Yen-Cheng Chang and Yi-Ren Yeh(参考訳) Scene Text Recognition (STR) は学術や産業で広く研究されている。 テキスト認識モデルのトレーニングは、しばしば大量のラベル付きデータを必要とするが、特に伝統的な中国語のテキスト認識では、データラベリングは困難、高価、時間を要することがある。 我々の知る限りでは、伝統的な中国語のテキスト認識のための公開データセットは欠落している。 本稿では,テキスト認識モデルの性能向上を目的とした,中国古来の合成データエンジンの枠組みを提案する。 私たちは2000万以上の合成データを生成し、7000以上の手動ラベル付きデータTC-STR 7kをベンチマークとして収集しました。 実験結果から, テキスト認識モデルは, 生成した合成データからスクラッチからトレーニングするか, TC-STR 7kワードでさらに微調整することで, 精度が向上することが示された。

Scene text recognition (STR) has been widely studied in academia and industry. Training a text recognition model often requires a large amount of labeled data, but data labeling can be difficult, expensive, or time-consuming, especially for Traditional Chinese text recognition. To the best of our knowledge, public datasets for Traditional Chinese text recognition are lacking. This paper presents a framework for a Traditional Chinese synthetic data engine which aims to improve text recognition model performance. We generated over 20 million synthetic data and collected over 7,000 manually labeled data TC-STR 7k-word as the benchmark. Experimental results show that a text recognition model can achieve much better accuracy either by training from scratch with our generated synthetic data or by further fine-tuning with TC-STR 7k-word.
翻訳日:2021-11-29 16:40:18 公開日:2021-11-26
# 予測・予防・評価:事前学習型視覚言語モデルによるテキスト駆動型画像操作

Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model ( http://arxiv.org/abs/2111.13333v1 )

ライセンス: Link先を確認
Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He, Nicu Sebe, Radu Timofte, Luc Van Gool and Errui Ding(参考訳) 絡み合った画像操作を実現するために、以前の作業は手動アノテーションに大きく依存している。 一方、利用可能な操作は、トレーニングされたモデルの事前定義されたセットに限られる。 本稿では,手作業によるアノテーションを必要とせず,固定操作に制限されない,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測・防止・評価(ppe)を提案する。 提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを深く活用することで,ターゲットにアプローチする。 具体的には、まず、与えられたテキストコマンドの絡み合った属性を予測します。 そして,予測属性に基づいて,トレーニング中の絡みを予防するために絡み合い損失を導入する。 最後に,不連続画像操作を評価するための新しい評価指標を提案する。 本手法が難解な顔編集作業における有効性を検証する。 大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。

To achieve disentangled image manipulation, previous works depend heavily on manual annotation. Meanwhile, the available manipulations are limited to a pre-defined set the models were trained for. In this paper, we propose a novel framework, i.e., Predict, Prevent, and Evaluate (PPE), for disentangled text-driven image manipulation, which does not need manual annotation and thus is not limited to fixed manipulations. Our method approaches the targets by deeply exploiting the power of the large scale pre-trained vision-language model CLIP. Concretely, we firstly Predict the possibly entangled attributes for a given text command. Then, based on the predicted attributes, we introduce an entanglement loss to Prevent entanglements during training. Finally, we propose a new evaluation metric to Evaluate the disentangled image manipulation. We verify the effectiveness of our method on the challenging face editing task. Extensive experiments show that the proposed PPE framework achieves much better quantitative and qualitative results than the up-to-date StyleCLIP baseline.
翻訳日:2021-11-29 16:40:04 公開日:2021-11-26
# 非教師なし領域適応のためのコントラストヴィクチン空間

Contrastive Vicinal Space for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.13353v1 )

ライセンス: Link先を確認
Jaemin Na, Dongyoon Han, Hyung Jin Chang, Wonjun Hwang(参考訳) ソースとターゲットドメイン間のビジナル空間を利用することは、最近の教師なしドメイン適応アプローチの1つである。 しかし, ビジナルインスタンスの予測において, ソースラベルがターゲットラベルよりも支配的なラベルの平衡崩壊の問題は解決されていない。 本稿では,ビクタナル空間における高不確実性インスタンスのエントロピーを最小限に抑えるためのインスタンスワイズミニマックス戦略を提案する。 ビジナル空間をミニマックス問題の解(コントラッシブ空間とコンセンサス空間)によって2つの部分空間に分割する。 コントラスト空間では、コンセンサス空間はドメイン内カテゴリ間の混乱を軽減し、コントラスト空間はコントラストビューとラベルを持つようにインスタンスを制約することでドメイン間不一致を緩和する。 提案手法の有効性は,Office-31,Office-Ho me,VisDA-Cなど公開ベンチマークで実証された。 さらに,本手法はPACSの最先端手法よりも優れており,この手法がマルチソースドメイン適応にも有効であることを示す。

Utilizing vicinal space between the source and target domains is one of the recent unsupervised domain adaptation approaches. However, the problem of the equilibrium collapse of labels, where the source labels are dominant over the target labels in the predictions of vicinal instances, has never been addressed. In this paper, we propose an instance-wise minimax strategy that minimizes the entropy of high uncertainty instances in the vicinal space to tackle it. We divide the vicinal space into two subspaces through the solution of the minimax problem: contrastive space and consensus space. In the contrastive space, inter-domain discrepancy is mitigated by constraining instances to have contrastive views and labels, and the consensus space reduces the confusion between intra-domain categories. The effectiveness of our method is demonstrated on the public benchmarks, including Office-31, Office-Home, and VisDA-C, which achieve state-of-the-art performances. We further show that our method outperforms current state-of-the-art methods on PACS, which indicates our instance-wise approach works well for multi-source domain adaptation as well.
翻訳日:2021-11-29 16:39:51 公開日:2021-11-26
# テーブル構造認識のためのニューラルコラボレーティブグラフマシン

Neural Collaborative Graph Machines for Table Structure Recognition ( http://arxiv.org/abs/2111.13359v1 )

ライセンス: Link先を確認
Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren(参考訳) 近年,表構造認識は深部グラフモデルの助けを借りて目覚ましい進歩を遂げている。 それらの多くは、表状要素の単一の視覚的手がかりを利用するか、初期の融合を通じて視覚的手がかりを他のモダリティと組み合わせてグラフの関係を推論する。 しかし、初期の融合や多重モダリティの観点からの個別の推論は、多様性の大きい全てのテーブル構造に適切ではない。 代わりに、異なるモダリティは異なるテーブルケースの異なるパターンで互いに協調することが期待される。 地域社会では、表構造推論における内部モダリティ相互作用の重要性はいまだ解明されていない。 本稿では,不均一なテーブル構造認識(Hetero-TSR)問題として定義する。 このギャップを埋めるために,階層的手法でモダリティ内コンテキストを抽出し,モダリティ間インタラクションをモデル化する,階層型コラボレーティブブロックを備えたニューラルコラボレーティブグラフマシン(ncgm)を提案する。 表要素の対話的モダリティ関係をより堅牢に表現できるため、認識性能が大幅に向上する。 また,提案したNCGMは,多彩なテーブルケースに不可欠なモダリティ内キューの文脈で条件付けられた異なるモダリティの協調パターンを変調できることを示す。 評価実験の結果,提案したNCGMは最先端性能を実現し,特に難解シナリオ下では,他の手法を大差で打ち負かした。

Recently, table structure recognition has achieved impressive progress with the help of deep graph models. Most of them exploit single visual cues of tabular elements or simply combine visual cues with other modalities via early fusion to reason their graph relationships. However, neither early fusion nor individually reasoning in terms of multiple modalities can be appropriate for all varieties of table structures with great diversity. Instead, different modalities are expected to collaborate with each other in different patterns for different table cases. In the community, the importance of intra-inter modality interactions for table structure reasoning is still unexplored. In this paper, we define it as heterogeneous table structure recognition (Hetero-TSR) problem. With the aim of filling this gap, we present a novel Neural Collaborative Graph Machines (NCGM) equipped with stacked collaborative blocks, which alternatively extracts intra-modality context and models inter-modality interactions in a hierarchical way. It can represent the intra-inter modality relationships of tabular elements more robustly, which significantly improves the recognition performance. We also show that the proposed NCGM can modulate collaborative pattern of different modalities conditioned on the context of intra-modality cues, which is vital for diversified table cases. Experimental results on benchmarks demonstrate our proposed NCGM achieves state-of-the-art performance and beats other contemporary methods by a large margin especially under challenging scenarios.
翻訳日:2021-11-29 16:39:32 公開日:2021-11-26
# 教師なし分布検出を理解するためのデータ不変量

Data Invariants to Understand Unsupervised Out-of-Distribution Detection ( http://arxiv.org/abs/2111.13362v1 )

ライセンス: Link先を確認
Lars Doorenbos, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) unsupervised out-of-distribution (u-ood) 検出は最近、ミッションクリティカルなシステムにおける重要性と、教師付きシステムよりも幅広い適用性により、多くの注目を集めている。 このような注目の高まりにもかかわらず、U-OOD法は重要な欠点に悩まされている。 マハラノビス距離(MahaAD)に基づいて,様々なベンチマークと画像モダリティを大規模に評価することにより,最も一般的な最先端手法は,単純かつ比較的未知な異常検出器よりも一貫して優れていることを示す。 これらの手法の矛盾の主な理由は、U-OODの正式な記述がないことである。 簡単な思考実験により,トレーニングデータセットの不変量に基づくU-OODの特性評価を提案する。 本稿では,この特徴がMahaAD法においていかに無意識に具体化されているかを示す。 さらに,本手法は,U-OOD検出器の予測を解釈し,将来のU-OOD手法を評価するための優れたプラクティスに関する洞察を提供する。

Unsupervised out-of-distribution (U-OOD) detection has recently attracted much attention due its importance in mission-critical systems and broader applicability over its supervised counterpart. Despite this increase in attention, U-OOD methods suffer from important shortcomings. By performing a large-scale evaluation on different benchmarks and image modalities, we show in this work that most popular state-of-the-art methods are unable to consistently outperform a simple and relatively unknown anomaly detector based on the Mahalanobis distance (MahaAD). A key reason for the inconsistencies of these methods is the lack of a formal description of U-OOD. Motivated by a simple thought experiment, we propose a characterization of U-OOD based on the invariants of the training dataset. We show how this characterization is unknowingly embodied in the top-scoring MahaAD method, thereby explaining its quality. Furthermore, our approach can be used to interpret predictions of U-OOD detectors and provides insights into good practices for evaluating future U-OOD methods.
翻訳日:2021-11-29 16:39:08 公開日:2021-11-26
# (参考訳) 3次元再構成のための学習可能なカーネルとしてのニューラルフィールド [全文訳有]

Neural Fields as Learnable Kernels for 3D Reconstruction ( http://arxiv.org/abs/2111.13674v1 )

ライセンス: CC BY 4.0
Francis Williams, Zan Gojcic, Sameh Khamis, Denis Zorin, Joan Bruna, Sanja Fidler, Or Litany(参考訳) 本稿では,学習したカーネルリッジ回帰に基づく暗黙の3次元形状を再構成する新しい手法であるneural kernel fieldsを提案する。 本手法は,3次元物体と大きなシーンを疎明な方向から再構成し,ほぼ精度の低下を伴わずにトレーニングセット外の形状カテゴリを再構築する手法である。 提案手法の中核となる洞察は,選択したカーネルが適切な帰納バイアスを持つ場合,カーネル手法が形状の再構築に極めて有効であるということである。 これにより,(1)データからカーネルパラメータを学習するバックボーンニューラルネットワーク,(2)学習したカーネルを用いて,単純な正定値線形系を解いて,オンザフライ入力点に適合するカーネルリッジ回帰という2つの問題に形状再構成の問題を分解する。 この因子化の結果,入力サンプリング密度が増大するにつれて基底真理形状に収束する補間挙動を維持しつつ,スパース点密度下でのデータ駆動手法の利点を得ることができた。 実験では,列車のカテゴリー外の物体とスキャンされたシーンに対して,強い一般化能力を示す。 ソースコードと事前訓練されたモデルはhttps://nv-tlabs.git hub.io/nkf.comで入手できる。

We present Neural Kernel Fields: a novel method for reconstructing implicit 3D shapes based on a learned kernel ridge regression. Our technique achieves state-of-the-art results when reconstructing 3D objects and large scenes from sparse oriented points, and can reconstruct shape categories outside the training set with almost no drop in accuracy. The core insight of our approach is that kernel methods are extremely effective for reconstructing shapes when the chosen kernel has an appropriate inductive bias. We thus factor the problem of shape reconstruction into two parts: (1) a backbone neural network which learns kernel parameters from data, and (2) a kernel ridge regression that fits the input points on-the-fly by solving a simple positive definite linear system using the learned kernel. As a result of this factorization, our reconstruction gains the benefits of data-driven methods under sparse point density while maintaining interpolatory behavior, which converges to the ground truth shape as input sampling density increases. Our experiments demonstrate a strong generalization capability to objects outside the train-set category and scanned scenes. Source code and pretrained models are available at https://nv-tlabs.git hub.io/nkf.
翻訳日:2021-11-29 16:37:39 公開日:2021-11-26
# DP-SGD対PATE:GANへの影響は低いのか?

DP-SGD vs PATE: Which Has Less Disparate Impact on GANs? ( http://arxiv.org/abs/2111.13617v1 )

ライセンス: Link先を確認
Georgi Ganev(参考訳) GAN(Generative Adversarial Networks)は、データ共有のために合成データ、特に画像を生成する最も一般的なアプローチの一つである。 元のデータ内の個々のデータポイントのプライバシを保存することの重要性を考えると、GANは差分プライバシー(DP)のような堅牢なプライバシ保証を持つフレームワークを活用することを訓練されている。 しかし、これらのアプローチは、不均衡データセットで提示された単一のパフォーマンスメトリクスを超えて、広く研究されていない。 そこで本研究では, ディープラーニング, DP-SGD, PATEの2つのよく知られたDPフレームワークを用いて学習したGANを, 2つの視点から異なるデータ不均衡設定, 生成した合成データのクラスのサイズと分類性能で体系的に比較した。 分析の結果,DP-SGDと同様,PATEの適用は,下級/上級のクラスに対して異なる効果を示すが,はるかに軽度で,より堅牢であることがわかった。 興味深いことに、PATEがDP-SGDと異なり、プライバシーユーティリティのトレードオフは単調に減少するのではなく、よりスムーズで反転したU字型であることは明らかです。 しかし、PATE-GANがトレーニングデータのいくつかの部分の学習に完全に失敗するいくつかの設定(例えば、大きな不均衡)も特定できた。

Generative Adversarial Networks (GANs) are among the most popular approaches to generate synthetic data, especially images, for data sharing purposes. Given the vital importance of preserving the privacy of the individual data points in the original data, GANs are trained utilizing frameworks with robust privacy guarantees such as Differential Privacy (DP). However, these approaches remain widely unstudied beyond single performance metrics when presented with imbalanced datasets. To this end, we systematically compare GANs trained with the two best-known DP frameworks for deep learning, DP-SGD, and PATE, in different data imbalance settings from two perspectives -- the size of the classes in the generated synthetic data and their classification performance. Our analyses show that applying PATE, similarly to DP-SGD, has a disparate effect on the under/over-represent ed classes but in a much milder magnitude making it more robust. Interestingly, our experiments consistently show that for PATE, unlike DP-SGD, the privacy-utility trade-off is not monotonically decreasing but is much smoother and inverted U-shaped, meaning that adding a small degree of privacy actually helps generalization. However, we have also identified some settings (e.g., large imbalance) where PATE-GAN completely fails to learn some subparts of the training data.
翻訳日:2021-11-29 16:14:21 公開日:2021-11-26
# 物理逆モデリングのための近似ベイズ計算

Approximate Bayesian Computation for Physical Inverse Modeling ( http://arxiv.org/abs/2111.13296v1 )

ライセンス: Link先を確認
Neel Chatterjee, Somya Sharma, Sarah Swisher, Snigdhansu Chatterjee(参考訳) 半導体デバイスモデルは薄膜トランジスタ(tft)の電荷輸送を理解するのに必須である。 これらのtftモデルを使用して推論を行うには、実験データに適合するパラメータを推定する。 これらの実験データは、抽出された電荷キャリアモビリティまたは測定電流を含むことができる。 これらのパラメータの推定は、デバイスパフォーマンスに関する推論を作成するのに役立ちます。 モデルパラメータを用いた実験データに対するTFTモデルの設定は、人間の専門家による複数のパラメータの手動微調整に依存する。 これらのパラメータのいくつかは実験データに相反する効果があり、手動のチューニング中に個々の効果が直感的でない過程を抽出する。 この複雑なプロセスを避けるため、モデルパラメータ抽出プロセスを自動化する新しい手法を提案し、正確なモデルフィッティングを実現する。 本研究では, モデル選択に基づく近似ベイズ近似計算(aBc)を用いて, 種々のゲート電圧値における観測モビリティを用いた推定パラメータの後方分布を生成する。 さらに, 勾配木を用いた移動曲線から抽出したパラメータを精度良く予測できることが示唆された。 この研究は、提案フレームワークがより良く機能することを示す微調整ニューラルネットワークを用いた、提案フレームワークの比較分析も提供する。

Semiconductor device models are essential to understand the charge transport in thin film transistors (TFTs). Using these TFT models to draw inference involves estimating parameters used to fit to the experimental data. These experimental data can involve extracted charge carrier mobility or measured current. Estimating these parameters help us draw inferences about device performance. Fitting a TFT model for a given experimental data using the model parameters relies on manual fine tuning of multiple parameters by human experts. Several of these parameters may have confounding effects on the experimental data, making their individual effect extraction a non-intuitive process during manual tuning. To avoid this convoluted process, we propose a new method for automating the model parameter extraction process resulting in an accurate model fitting. In this work, model choice based approximate Bayesian computation (aBc) is used for generating the posterior distribution of the estimated parameters using observed mobility at various gate voltage values. Furthermore, it is shown that the extracted parameters can be accurately predicted from the mobility curves using gradient boosted trees. This work also provides a comparative analysis of the proposed framework with fine-tuned neural networks wherein the proposed framework is shown to perform better.
翻訳日:2021-11-29 16:11:44 公開日:2021-11-26
# 核融合エンコーダを用いた肝腫瘍・血管切開術における全解像度特徴コンテキストの展開 : 肝腫瘍・血管3D再建への応用

Exploiting full Resolution Feature Context for Liver Tumor and Vessel Segmentation via Fusion Encoder: Application to Liver Tumor and Vessel 3D reconstruction ( http://arxiv.org/abs/2111.13299v1 )

ライセンス: Link先を確認
Xiangyu Meng, Xudong Zhang, Gan Wang, Ying Zhang, Xin Shi, Huanhuan Dai, Zixuan Wang, and Xun Wang(参考訳) 肝臓癌は世界で最も一般的な悪性疾患の1つである。 ct画像における肝腫瘍と血管の分節化とラベリングは、肝腫瘍の診断と外科的介入の医師にとって便利である。 過去数十年間,深層学習に基づくctの自動分割手法が医学界で広く注目を集めている。 この時期には最先端のセグメンテーションアルゴリズムが数多く登場した。 しかし,既存のセグメンテーション法のほとんどは,局所的な特徴の文脈にのみ関心を持ち,肝腫瘍や血管のセグメンテーション効果に大きく影響する医用画像のグローバルな関連性に認知的欠陥がある。 本稿ではTransformerとSEBottleNetをベースとしたTransFusionNetと呼ばれるマルチスケール機能コンテキスト融合ネットワークを提案する。 このネットワークは肝血管の関心領域の詳細を正確に検出し識別することができ、一方ct画像のグローバル情報を利用して肝腫瘍の形態学的マージンの認識を改善することができる。 実験の結果、TransFusionNetは、LITSと3Dircadbの両方の公開データセットと臨床データセットの最先端手法よりも優れていることがわかった。 最後に,トレーニングモデルに基づく自動3次元再構成アルゴリズムを提案する。 アルゴリズムは1秒で素早く正確に再構築を完了できる。

Liver cancer is one of the most common malignant diseases in the world. Segmentation and labeling of liver tumors and blood vessels in CT images can provide convenience for doctors in liver tumor diagnosis and surgical intervention. In the past decades, automatic CT segmentation methods based on deep learning have received widespread attention in the medical field. Many state-of-the-art segmentation algorithms appeared during this period. Yet, most of the existing segmentation methods only care about the local feature context and have a perception defect in the global relevance of medical images, which significantly affects the segmentation effect of liver tumors and blood vessels. We introduce a multi-scale feature context fusion network called TransFusionNet based on Transformer and SEBottleNet. This network can accurately detect and identify the details of the region of interest of the liver vessel, meanwhile it can improve the recognition of morphologic margins of liver tumors by exploiting the global information of CT images. Experiments show that TransFusionNet is better than the state-of-the-art method on both the public dataset LITS and 3Dircadb and our clinical dataset. Finally, we propose an automatic 3D reconstruction algorithm based on the trained model. The algorithm can complete the reconstruction quickly and accurately in 1 second.
翻訳日:2021-11-29 16:08:18 公開日:2021-11-26
# マルチモーダル軌道予測のための共同学習エージェントとレーン情報

Jointly Learning Agent and Lane Information for Multimodal Trajectory Prediction ( http://arxiv.org/abs/2111.13350v1 )

ライセンス: Link先を確認
Jie Wang, Caili Guo, Minan Guo and Jiujiu Chen(参考訳) 近隣のエージェントが将来有望な軌道を予測することは、自動運転車の安全性にとって大きな課題であり、主に2つの外部からのヒントであるダイナミックな隣のエージェントと静的なシーンコンテキストに依存する。 近年のアプローチは、2つの手がかりを別々に特徴づける上で大きな進歩を遂げている。 しかし,両者の相関関係は無視され,地図適応予測の達成は困難である。 本稿では,シーンデータとしてレーンを用い,マルチモーダル軌道予測(JAL-MTP)のためのエージェントとレーン情報を協調学習するネットワークを提案する。 JAL-MTPは、S2L(Social to Lane)モジュールを使用して、静的レーンと近隣エージェントの動的運動をインスタンスレベルレーンとして共同で表現し、インスタンスレベルレーンを利用してマップ適応将来の軌跡を予測し、2つのセレクタを使って典型的かつ合理的な軌跡を識別する。 公開Argoverseデータセットで実施された実験は、JAL-MTPが既存のモデルよりも定量的および定性的に優れていることを示した。

Predicting the plausible future trajectories of nearby agents is a core challenge for the safety of Autonomous Vehicles and it mainly depends on two external cues: the dynamic neighbor agents and static scene context. Recent approaches have made great progress in characterizing the two cues separately. However, they ignore the correlation between the two cues and most of them are difficult to achieve map-adaptive prediction. In this paper, we use lane as scene data and propose a staged network that Jointly learning Agent and Lane information for Multimodal Trajectory Prediction (JAL-MTP). JAL-MTP use a Social to Lane (S2L) module to jointly represent the static lane and the dynamic motion of the neighboring agents as instance-level lane, a Recurrent Lane Attention (RLA) mechanism for utilizing the instance-level lanes to predict the map-adaptive future trajectories and two selectors to identify the typical and reasonable trajectories. The experiments conducted on the public Argoverse dataset demonstrate that JAL-MTP significantly outperforms the existing models in both quantitative and qualitative.
翻訳日:2021-11-29 16:07:58 公開日:2021-11-26
# バイナリ分類における対人訓練の幾何学

The Geometry of Adversarial Training in Binary Classification ( http://arxiv.org/abs/2111.13613v1 )

ライセンス: Link先を確認
Leon Bungert, Nicol\'as Garc\'ia Trillos, Ryan Murray(参考訳) 正規化子を非局所周囲汎関数とする非パラメトリック二分分類の逆訓練問題と正規化リスク最小化問題との同値性を確立する。 その結果生じる正規化リスク最小化問題は、画像解析やグラフベースの学習でよく研究される形式である$l^1+$ (非ローカル)$\operatorname{tv}$の正確な凸緩和を許容する。 この改定によってリッチな幾何学構造が明らかにされ、従って、最小かつ極大解の存在(適切な意味で解釈される)や正則解の存在(適切な意味でも解釈される)を含む、元の問題の最適解の一連の性質を確立することができる。 さらに,本研究では,周辺変動を含む正規化リスク最小化問題の家族に対して,敵意訓練と周辺最小化問題との関係が,新たな,直接解釈可能な統計的動機付けをもたらすことを強調する。 理論的結果の大部分は、敵攻撃を定義するために使用される距離とは無関係である。

We establish an equivalence between a family of adversarial training problems for non-parametric binary classification and a family of regularized risk minimization problems where the regularizer is a nonlocal perimeter functional. The resulting regularized risk minimization problems admit exact convex relaxations of the type $L^1+$ (nonlocal) $\operatorname{TV}$, a form frequently studied in image analysis and graph-based learning. A rich geometric structure is revealed by this reformulation which in turn allows us to establish a series of properties of optimal solutions of the original problem, including the existence of minimal and maximal solutions (interpreted in a suitable sense), and the existence of regular solutions (also interpreted in a suitable sense). In addition, we highlight how the connection between adversarial training and perimeter minimization problems provides a novel, directly interpretable, statistical motivation for a family of regularized risk minimization problems involving perimeter/total variation. The majority of our theoretical results are independent of the distance used to define adversarial attacks.
翻訳日:2021-11-29 16:05:41 公開日:2021-11-26
# Morphology Decoder: 惑星探査とロボット機能のための異種岩の透過性を定量化する機械学習ガイド

Morphology Decoder: A Machine Learning Guided 3D Vision Quantifying Heterogenous Rock Permeability for Planetary Surveillance and Robotic Functions ( http://arxiv.org/abs/2111.13460v1 )

ライセンス: Link先を確認
Omar Alfarisi, Aikifa Raza, Djamel Ouzzane, Hongxia Li, Mohamed Sassi, Tiejun Zhang(参考訳) 透水性は自然流体の流動特性に支配的な影響を及ぼす。 格子ボルツマンシミュレータはナノ・マイクロ孔ネットワークから透過性を決定する。 シミュレータは、その蓄積したエラーと計算能力の高消費で数百万のフローダイナミクス計算を保持する。 そこで本研究では,3次元マイクロコンピュータトモグラフィおよび核磁気共鳴画像から,均質な白亜系テクスチャを分割した機械学習のモルフォロジーデコーダ,並列連続フロー再構成を提案する。 3次元視覚では,新しい教師付きセグメンテーションとして制御可能な容積を導入し,一意なボクセル強度のセットは粒径と孔径に対応している。 モルフォロジーデコーダは、透過性を生み出す新しい方法で形態境界を記述し、集約する。 形態素デコーダ法は,(1)幾何学的3次元透視性,(2)機械学習による岩石形態の3次元特性認識,(3)透視性のための3次元画像特性統合モデル,(4)MRI透視性イメージ,(5)形態素デコーダの5つの新しいプロセスから構成される。

Permeability has a dominant influence on the flow properties of a natural fluid. Lattice Boltzmann simulator determines permeability from the nano and micropore network. The simulator holds millions of flow dynamics calculations with its accumulated errors and high consumption of computing power. To efficiently and consistently predict permeability, we propose a morphology decoder, a parallel and serial flow reconstruction of machine learning segmented heterogeneous Cretaceous texture from 3D micro computerized tomography and nuclear magnetic resonance images. For 3D vision, we introduce controllable-measura ble-volume as new supervised segmentation, in which a unique set of voxel intensity corresponds to grain and pore throat sizes. The morphology decoder demarks and aggregates the morphologies boundaries in a novel way to produce permeability. Morphology decoder method consists of five novel processes, which describes in this paper, these novel processes are: (1) Geometrical 3D Permeability, (2) Machine Learning guided 3D Properties Recognition of Rock Morphology, (3) 3D Image Properties Integration Model for Permeability, (4) MRI Permeability Imager, and (5) Morphology Decoder (the process that integrates the other four novel processes).
翻訳日:2021-11-29 16:05:23 公開日:2021-11-26
# クリエーターがメタバースに出会うとき:計算芸術に関する調査

When Creators Meet the Metaverse: A Survey on Computational Arts ( http://arxiv.org/abs/2111.13486v1 )

ライセンス: Link先を確認
Lik-Hang Lee, Zijun Lin, Rui Hu, Zhengya Gong, Abhishek Kumar, Tangyao Li, Sijia Li, Pan Hui(参考訳) メタバース、巨大な仮想物理サイバースペースは、アーティストが私たちの物理的環境の隅々をデジタルクリエイティビティと融合する前例のない機会をもたらしました。 本稿は,7つの重要な話題がメタバースに関連し,仮想的現実を融合した新しいアートワークを記述する,計算芸術に関する総合的な調査を行う。 トピックはまずメタバースの構成要素、例えば仮想シーンと文字、聴覚、テキスト要素をカバーしている。 次に、メタバースサイバースペースの拡大にともなう斬新な創造が、没入型芸術、ロボットアート、その他のユーザ中心のアプローチによって、現代の創造的アウトプットを加速させてきた。 最後に,計算芸術の民主化,デジタルプライバシ,メタバースアーティストの安全,デジタルアートの所有権認識,技術的課題など,いくつかの研究課題を提案する。 この調査は、超現実主義的なサイバースペースの領域で創造を開始するアーティストやメタバース技術者の入門資料としても機能する。

The metaverse, enormous virtual-physical cyberspace, has brought unprecedented opportunities for artists to blend every corner of our physical surroundings with digital creativity. This article conducts a comprehensive survey on computational arts, in which seven critical topics are relevant to the metaverse, describing novel artworks in blended virtual-physical realities. The topics first cover the building elements for the metaverse, e.g., virtual scenes and characters, auditory, textual elements. Next, several remarkable types of novel creations in the expanded horizons of metaverse cyberspace have been reflected, such as immersive arts, robotic arts, and other user-centric approaches fuelling contemporary creative outputs. Finally, we propose several research agendas: democratising computational arts, digital privacy, and safety for metaverse artists, ownership recognition for digital artworks, technological challenges, and so on. The survey also serves as introductory material for artists and metaverse technologists to begin creations in the realm of surrealistic cyberspace.
翻訳日:2021-11-29 16:05:00 公開日:2021-11-26
# 制約付き資源言語対のためのマルチタスク教師の蒸留モデルのセンセンスリング

Ensembling of Distilled Models from Multi-task Teachers for Constrained Resource Language Pairs ( http://arxiv.org/abs/2111.13284v1 )

ライセンス: Link先を確認
Amr Hendy, Esraa A. Gad, Mohamed Abdelghaffar, Jailan S. ElMosalami, Mohamed Afify, Ahmed Y. Tawfik, Hany Hassan Awadalla(参考訳) 本稿では,WMT21共有ニュース翻訳タスクの制約トラックについて述べる。 我々は、ベンガル語からヒンディー語、英語からハウサ語、Xhosaからズールー語までの3つの比較的低いリソース言語対に焦点を当てている。 比較的低い並列データの制限を克服するため、並列データと単言語データの両方を用いてマルチタスク目的を用いてマルチ言語モデルを訓練する。 さらに、バック翻訳を用いてデータを増強する。 また,逆翻訳と知識蒸留を併用したバイリンガルモデルを訓練し,シーケンシャル・ツー・シーケンスマッピングを用いて2つのモデルを組み合わせた。 BLEUの英語とハウサ語との相対的な増加率は約70%であり、ベンガル語とヒンディー語、チョーサ語とズールー語との相対的な改善率はバイリンガルベースラインと比較して約25%である。

This paper describes our submission to the constrained track of WMT21 shared news translation task. We focus on the three relatively low resource language pairs Bengali to and from Hindi, English to and from Hausa, and Xhosa to and from Zulu. To overcome the limitation of relatively low parallel data we train a multilingual model using a multitask objective employing both parallel and monolingual data. In addition, we augment the data using back translation. We also train a bilingual model incorporating back translation and knowledge distillation then combine the two models using sequence-to-sequence mapping. We see around 70% relative gain in BLEU point for English to and from Hausa, and around 25% relative improvements for both Bengali to and from Hindi, and Xhosa to and from Zulu compared to bilingual baselines.
翻訳日:2021-11-29 16:04:27 公開日:2021-11-26
# NLPタスクに対する簡易コントラスト表現逆学習

Simple Contrastive Representation Adversarial Learning for NLP Tasks ( http://arxiv.org/abs/2111.13301v1 )

ライセンス: Link先を確認
Deshui Miao and Jiaqi Zhang and Wenbo Xie and Jian Song and Xin Li and Lijuan Jia and Ning Guo(参考訳) コントラスト学習のような自己教師あり学習アプローチは自然言語処理において大きな注目を集めている。 トレーニングデータ拡張のペアを使用して、表現能力に優れたエンコーダの分類タスクを構築する。 しかし,nlpタスクでは,コントラスト学習よりも学習ペアの構築が非常に困難である。 先行研究は、単語レベルの変化を生成してペアを形成するが、小さな変換は、自然言語の離散的かつスパースな性質として文の意味に顕著な変化をもたらす可能性がある。 本論文では,NLPの組込み空間を学習ペアとして扱う上で,困難で困難な学習相手の例を生成するために,対角学習を行う。 コントラスト学習を用いることで、コントラスト損失がサンプル分布を均一にするため、相反訓練の一般化能力が向上する。 同時に、対人訓練は、対照的な学習の堅牢性を高める。 教師付きコントラスト学習(SCAL)と教師なしSCAL(USCAL)という2つの新しいフレームワークが提案され、コントラスト学習に対角的学習を利用することによって学習ペアを得る。 ラベルに基づく教師付きタスクの損失は、教師なしタスクが対照的な損失をもたらす一方で、敵の例を生成するために利用される。 提案手法の有効性を検証するために, 自然言語理解, 文意味の類似性, 逆学習タスクのためのトランスフォーマーモデルを用いた。 GLUEベンチマークタスクの実験結果から,細調整された教師付き手法がBERT$_{base}を1.75 %以上上回ることがわかった。 また,semantic textual similarity (sts)タスクに対する教師なし手法を評価し,bert$_{base}$で77.29\%を得た。 提案手法のロバスト性は,NLIタスク上の複数の逆数データセットの下で,最先端の処理結果を実行する。

Self-supervised learning approach like contrastive learning is attached great attention in natural language processing. It uses pairs of training data augmentations to build a classification task for an encoder with well representation ability. However, the construction of learning pairs over contrastive learning is much harder in NLP tasks. Previous works generate word-level changes to form pairs, but small transforms may cause notable changes on the meaning of sentences as the discrete and sparse nature of natural language. In this paper, adversarial training is performed to generate challenging and harder learning adversarial examples over the embedding space of NLP as learning pairs. Using contrastive learning improves the generalization ability of adversarial training because contrastive loss can uniform the sample distribution. And at the same time, adversarial training also enhances the robustness of contrastive learning. Two novel frameworks, supervised contrastive adversarial learning (SCAL) and unsupervised SCAL (USCAL), are proposed, which yields learning pairs by utilizing the adversarial training for contrastive learning. The label-based loss of supervised tasks is exploited to generate adversarial examples while unsupervised tasks bring contrastive loss. To validate the effectiveness of the proposed framework, we employ it to Transformer-based models for natural language understanding, sentence semantic textual similarity and adversarial learning tasks. Experimental results on GLUE benchmark tasks show that our fine-tuned supervised method outperforms BERT$_{base}$ over 1.75\%. We also evaluate our unsupervised method on semantic textual similarity (STS) tasks, and our method gets 77.29\% with BERT$_{base}$. The robustness of our approach conducts state-of-the-art results under multiple adversarial datasets on NLI tasks.
翻訳日:2021-11-29 16:04:12 公開日:2021-11-26
# プロンプトによる真の少数ショット学習 -- 現実世界の視点

True Few-Shot Learning with Prompts -- A Real-World Perspective ( http://arxiv.org/abs/2111.13440v1 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) プロンプトベースのアプローチは、数発の学習で強い。 しかしながら、perezら(2021年)は最近、プロンプトとハイパーパラメータを開発セットでチューニングできない"真の"少数ショット設定で良い結果を得るのに苦労しているため、パフォーマンスに疑問を投げかけている。 そこで本研究では,テキスト命令と実例に基づく微調整を併用したpetを広範囲に検討した。 正しく設定された場合、PETは開発セットなしで、真の数ショット設定で強く機能することを示す。 この強力な性能のために重要なのは、PETが複数のプロンプトをインテリジェントに扱う能力である。 これは、ラベル付き開発やテストセットが使用できない現実的なNLPアプリケーションから直接取得したタスクのベンチマークです。 PETはRAFTで新しい最先端の技術を達成し、11タスク中7タスクで熟練していない人間に近づきます。 これらの結果は,PETのような素早い学習者が真に数発の学習に優れており,人間のような数発の学習能力への道のりにおいて,指示からの学習が重要な役割を果たすという私たちの信念を支えていることを示している。

Prompt-based approaches are strong at few-shot learning. However, Perez et al. (2021) have recently cast doubt on their performance because they had difficulty getting good results in a "true" few-shot setting in which prompts and hyperparameters cannot be tuned on a dev set. In view of this, we conduct an extensive study of PET, a method that combines textual instructions with example-based finetuning. We show that, if correctly configured, PET performs strongly in a true few-shot setting, i.e., without a dev set. Crucial for this strong performance is PET's ability to intelligently handle multiple prompts. We then put our findings to a real-world test by running PET on RAFT, a benchmark of tasks taken directly from realistic NLP applications for which no labeled dev or test sets are available. PET achieves a new state of the art on RAFT and performs close to non-expert humans for 7 out of 11 tasks. These results demonstrate that prompt-based learners like PET excel at true few-shot learning and underpin our belief that learning from instructions will play an important role on the path towards human-like few-shot learning capabilities.
翻訳日:2021-11-29 16:02:45 公開日:2021-11-26
# (参考訳) 個々に公正な表現のための潜在空間平滑化 [全文訳有]

Latent Space Smoothing for Individually Fair Representations ( http://arxiv.org/abs/2111.13650v1 )

ライセンス: CC BY 4.0
Momchil Peychev, Anian Ruoss, Mislav Balunovi\'c, Maximilian Baader, Martin Vechev(参考訳) fair representation learningは、下流のアプリケーションに関係なく、公正性と有用性を保証するために、ユーザデータをエンコードする。 しかし、個々に公平な表現を学ぶこと、すなわち類似した個人が同じように扱われることを保証することは、コンピュータビジョンのような高次元の設定では依然として困難である。 本稿では,高次元データの個別公平性を証明するための最初の表現学習法であるlassiを紹介する。 我々の重要な洞察は、生成的モデリングの最近の進歩を活用して、生成的潜在空間における類似した個人の集合を捉えることである。 これにより、類似した個人が互いに近接してマッピングされる、個々に公正な表現を学ぶことができる。 最後に,ランダムな平滑化を用いて類似の個人を密接なマップし,下流アプリケーションの局所的ロバスト性検証によってエンドツーエンドのフェアネス認証が実現されるようにした。 実世界の画像データに挑戦する実験により,提案手法はタスクユーティリティに大きな影響を及ぼすことなく,認定された個人の公正度を最大60%向上させることを示した。

Fair representation learning encodes user data to ensure fairness and utility, regardless of the downstream application. However, learning individually fair representations, i.e., guaranteeing that similar individuals are treated similarly, remains challenging in high-dimensional settings such as computer vision. In this work, we introduce LASSI, the first representation learning method for certifying individual fairness of high-dimensional data. Our key insight is to leverage recent advances in generative modeling to capture the set of similar individuals in the generative latent space. This allows learning individually fair representations where similar individuals are mapped close together, by using adversarial training to minimize the distance between their representations. Finally, we employ randomized smoothing to provably map similar individuals close together, in turn ensuring that local robustness verification of the downstream application results in end-to-end fairness certification. Our experimental evaluation on challenging real-world image data demonstrates that our method increases certified individual fairness by up to 60%, without significantly affecting task utility.
翻訳日:2021-11-29 15:59:16 公開日:2021-11-26
# スパースイメージネットモデルはどの程度転送できますか?

How Well Do Sparse Imagenet Models Transfer? ( http://arxiv.org/abs/2111.13445v1 )

ライセンス: Link先を確認
Eugenia Iofinova and Alexandra Peste and Mark Kurtz and Dan Alistarh(参考訳) 転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"専門のデータセットで良い結果を得るために適応される古典的なパラダイムである。 一般的には、"アップストリーム"データセットのより正確なモデルにより、"ダウンストリーム"の転送精度が向上することが理解されている。 本研究では,imagenetデータセット上でトレーニングされた畳み込みニューラルネットワーク(cnns)の文脈において,この現象を詳細に検討する。 具体的には、12の標準転送タスクのコンテキストにおいて、等級ベース、二階目、再成長、正規化を含むいくつかの最先端プルーニング手法を適用した非構造化プルーニングモデルを用いた転送を検討する。 簡単に言えば、スパースモデルが高密度モデルであっても、高密度モデルの転送性能にマッチしたり、性能を上回ったり、その一方で、かなりの推論やトレーニングのスピードアップにつながることを示しています。 同時に,異なる刈り出し方法の挙動の顕著な差異を観察し,解析する。

Transfer learning is a classic paradigm by which models pretrained on large "upstream" datasets are adapted to yield good results on "downstream," specialized datasets. Generally, it is understood that more accurate models on the "upstream" dataset will provide better transfer accuracy "downstream". In this work, we perform an in-depth investigation of this phenomenon in the context of convolutional neural networks (CNNs) trained on the ImageNet dataset, which have been pruned - that is, compressed by sparsifiying their connections. Specifically, we consider transfer using unstructured pruned models obtained by applying several state-of-the-art pruning methods, including magnitude-based, second-order, re-growth and regularization approaches, in the context of twelve standard transfer tasks. In a nutshell, our study shows that sparse models can match or even outperform the transfer performance of dense models, even at high sparsities, and, while doing so, can lead to significant inference and even training speedups. At the same time, we observe and analyze significant differences in the behaviour of different pruning methods.
翻訳日:2021-11-29 15:37:09 公開日:2021-11-26
# SurfEmb:学習面埋め込みによるオブジェクトポス推定のための密度・連続対応分布

SurfEmb: Dense and Continuous Correspondence Distributions for Object Pose Estimation with Learnt Surface Embeddings ( http://arxiv.org/abs/2111.13489v1 )

ライセンス: Link先を確認
Rasmus Laurvig Haugaard, Anders Glent Buch(参考訳) 本稿では,物体表面上の密度の高い連続的な2d-3d対応分布を,対称性などの視覚曖昧性に関する事前知識のないデータから学習する手法を提案する。 また,学習した分布を用いた剛体物体の6次元ポーズ推定手法を提案する。 対応分布は、エンコーダ-デコーダクエリモデルと小さな完全連結鍵モデルによってオブジェクト固有の潜在空間で表現される、対照的な損失で学習される。 視覚的なあいまいさについては教師なしだが,クエリとキーモデルによって正確なマルチモーダル表面分布を表現できることを示す。 提案手法は, 実データを用いた手法と比較して, 純粋に合成データに基づいて訓練された総合的BOPチャレンジにおいて, 最先端の手法を著しく改善する。 プロジェクトサイトはhttps://surfemb.gith ub.io/にある。

We present an approach to learn dense, continuous 2D-3D correspondence distributions over the surface of objects from data with no prior knowledge of visual ambiguities like symmetry. We also present a new method for 6D pose estimation of rigid objects using the learnt distributions to sample, score and refine pose hypotheses. The correspondence distributions are learnt with a contrastive loss, represented in object-specific latent spaces by an encoder-decoder query model and a small fully connected key model. Our method is unsupervised with respect to visual ambiguities, yet we show that the query- and key models learn to represent accurate multi-modal surface distributions. Our pose estimation method improves the state-of-the-art significantly on the comprehensive BOP Challenge, trained purely on synthetic data, even compared with methods trained on real data. The project site is at https://surfemb.gith ub.io/ .
翻訳日:2021-11-29 15:36:49 公開日:2021-11-26
# $\mu$nca:超コンパクト神経細胞オートマトンによるテクスチャ生成

$\mu$NCA: Texture Generation with Ultra-Compact Neural Cellular Automata ( http://arxiv.org/abs/2111.13545v1 )

ライセンス: Link先を確認
Alexander Mordvintsev and Eyvind Niklasson(参考訳) 高コンパクトモデルを用いた実例に基づく手続き的テクスチャ合成の問題点について検討する。 サンプル画像が与えられた場合、再帰的ニューラルセルオートマタ(NCA)ルールによってパラメータ化される生成過程の訓練に微分可能プログラミングを用いる。 ニューラルネットワークが大幅に過度にパラメータ化されるべきだという一般的な信念とは対照的に、我々のモデルアーキテクチャとトレーニング手順は、わずか数百の学習パラメータを使って複雑なテクスチャパターンを表現することができ、その表現性は手作業による手続き的テクスチャ生成プログラムに匹敵することを示した。 提案された$\mu$NCAファミリーの最小モデルは68パラメータまでスケールダウンする。 量子化をパラメータ毎に1バイトにする場合、提案するモデルは588バイトから68バイトの範囲に縮小することができる。 これらのパラメータを使って画像を生成するテクスチャジェネレータの実装は、わずか数行のGLSLまたはCコードで可能である。

We study the problem of example-based procedural texture synthesis using highly compact models. Given a sample image, we use differentiable programming to train a generative process, parameterised by a recurrent Neural Cellular Automata (NCA) rule. Contrary to the common belief that neural networks should be significantly over-parameterised, we demonstrate that our model architecture and training procedure allows for representing complex texture patterns using just a few hundred learned parameters, making their expressivity comparable to hand-engineered procedural texture generating programs. The smallest models from the proposed $\mu$NCA family scale down to 68 parameters. When using quantisation to one byte per parameter, proposed models can be shrunk to a size range between 588 and 68 bytes. Implementation of a texture generator that uses these parameters to produce images is possible with just a few lines of GLSL or C code.
翻訳日:2021-11-29 15:36:33 公開日:2021-11-26
# ManiFest:Few-shot画像翻訳のためのマニフォールド変形

ManiFest: Manifold Deformation for Few-shot Image Translation ( http://arxiv.org/abs/2111.13681v1 )

ライセンス: Link先を確認
Fabio Pizzati, Jean-Fran\c{c}ois Lalonde, Raoul de Charette(参考訳) ほとんどの画像から画像への変換には大量のトレーニング画像が必要であるため、適用性が制限される。 マニフェスト(ManiFest)は、少数の画像のみからターゲットドメインのコンテキスト認識表現を学習する、少数の画像翻訳のためのフレームワークである。 特徴整合性を実現するため,我々のフレームワークはソースとプロキシアンカードメイン間のスタイル多様体を学習する(多数の画像からなると仮定される)。 学習された多様体は、パッチベースの逆境および特徴統計アライメント損失を介して、補間され、少数ショットのターゲット領域に向かって変形する。 これらのコンポーネントはすべて、単一のエンドツーエンドループで同時にトレーニングされる。 一般的な翻訳タスクに加えて、このアプローチは、特定のスタイルを再現するために単一の例示画像で条件付けすることができる。 広範囲な実験によって、複数のタスクにおけるマニフェストの有効性が示され、すべてのメトリクスと一般的なシナリオと例題ベースのシナリオで最先端を上回っている。 私たちのコードはオープンソースになります。

Most image-to-image translation methods require a large number of training images, which restricts their applicability. We instead propose ManiFest: a framework for few-shot image translation that learns a context-aware representation of a target domain from a few images only. To enforce feature consistency, our framework learns a style manifold between source and proxy anchor domains (assumed to be composed of large numbers of images). The learned manifold is interpolated and deformed towards the few-shot target domain via patch-based adversarial and feature statistics alignment losses. All of these components are trained simultaneously during a single end-to-end loop. In addition to the general few-shot translation task, our approach can alternatively be conditioned on a single exemplar image to reproduce its specific style. Extensive experiments demonstrate the efficacy of ManiFest on multiple tasks, outperforming the state-of-the-art on all metrics and in both the general- and exemplar-based scenarios. Our code will be open source.
翻訳日:2021-11-29 15:36:18 公開日:2021-11-26
# ArchRepair: ディープニューラルネットワークのためのブロックレベルアーキテクチャ指向の修復

ArchRepair: Block-Level Architecture-Oriente d Repairing for Deep Neural Networks ( http://arxiv.org/abs/2111.13330v1 )

ライセンス: Link先を確認
Hua Qi, Zhijie Wang, Qing Guo, Jianlang Chen, Felix Juefei-Xu, Lei Ma, Jianjun Zhao(参考訳) 過去数年間、ディープニューラルネットワーク(DNN)は大きな成功を収め、多くのアプリケーションドメインで継続的に適用されてきた。 しかし, 産業業務における実践的展開において, DNNは, 過度な適合, 実世界の汚職に対する堅牢性の欠如など, 誤った傾向がみられた。 これらの課題に対処するため、近年、神経レベルでのトレーニング、微調整、直接重み付けによって重み付け(ネットワークパラメータ)を更新することで、実用的な運用状況下でのDNNのバージョン更新の修正が試みられている。 本研究の最初の試みとして,高い(ブロック)レベルでアーキテクチャと重みを共同で最適化し,dnnの修復を開始する。 まず,ネットワークレベルと層レベルの修復の限界について実証的研究を行い,ブロックレベルでのDNN修復の新たな修復方向を探究する動機となった。 そこで我々はまず,前・後行過程におけるブロックの状態と重み付けの勾配を考慮に入れた脆弱なブロックローカライゼーションに対する逆方向のスペクトル解析を提案し,いくつかの例でもより正確なブロックローカライゼーションを行えるようにした。 さらに,より深い特徴レベルの連続的な補修探索空間に対象ブロックを緩和するアーキテクチャ指向の探索ベース修復を提案する。 この領域でアーキテクチャと重みを共同で最適化することで、より優れたブロックアーキテクチャを特定できます。 提案手法はarchrepairというツールとして実装し,提案手法を検証するための広範囲な実験を行った。 その結果,本手法は修復だけでなく,精度とロバスト性も向上し,最先端のdnn修復技術に匹敵することがわかった。

Over the past few years, deep neural networks (DNNs) have achieved tremendous success and have been continuously applied in many application domains. However, during the practical deployment in the industrial tasks, DNNs are found to be erroneous-prone due to various reasons such as overfitting, lacking robustness to real-world corruptions during practical usage. To address these challenges, many recent attempts have been made to repair DNNs for version updates under practical operational contexts by updating weights (i.e., network parameters) through retraining, fine-tuning, or direct weight fixing at a neural level. In this work, as the first attempt, we initiate to repair DNNs by jointly optimizing the architecture and weights at a higher (i.e., block) level. We first perform empirical studies to investigate the limitation of whole network-level and layer-level repairing, which motivates us to explore a novel repairing direction for DNN repair at the block level. To this end, we first propose adversarial-aware spectrum analysis for vulnerable block localization that considers the neurons' status and weights' gradients in blocks during the forward and backward processes, which enables more accurate candidate block localization for repairing even under a few examples. Then, we further propose the architecture-oriente d search-based repairing that relaxes the targeted block to a continuous repairing search space at higher deep feature levels. By jointly optimizing the architecture and weights in that space, we can identify a much better block architecture. We implement our proposed repairing techniques as a tool, named ArchRepair, and conduct extensive experiments to validate the proposed method. The results show that our method can not only repair but also enhance accuracy & robustness, outperforming the state-of-the-art DNN repair techniques.
翻訳日:2021-11-29 15:35:38 公開日:2021-11-26
# スコアベース拡散モデルを用いた条件画像生成

Conditional Image Generation with Score-Based Diffusion Models ( http://arxiv.org/abs/2111.13606v1 )

ライセンス: Link先を確認
Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb, Christian Etmann(参考訳) スコアベース拡散モデルは、深層生成モデリングの最も有望なフレームワークの1つである。 本研究では,スコアベース拡散モデルを用いた条件付き確率分布の学習手法の体系的比較と理論的解析を行う。 特に,条件スコアの最も成功した推定要因の1つに対して理論的正当性を与える結果を示す。 さらに,従来の最先端手法と同等の性能を持つマルチスピード拡散フレームワークを導入し,条件付きスコアの新たな推定手法を提案する。 理論的および実験的知見には,マルチスピード拡散モデルの適用とさらなる研究を可能にするオープンソースライブラリMSDiffが添付されている。

Score-based diffusion models have emerged as one of the most promising frameworks for deep generative modelling. In this work we conduct a systematic comparison and theoretical analysis of different approaches to learning conditional probability distributions with score-based diffusion models. In particular, we prove results which provide a theoretical justification for one of the most successful estimators of the conditional score. Moreover, we introduce a multi-speed diffusion framework, which leads to a new estimator for the conditional score, performing on par with previous state-of-the-art approaches. Our theoretical and experimental findings are accompanied by an open source library MSDiff which allows for application and further research of multi-speed diffusion models.
翻訳日:2021-11-29 15:34:01 公開日:2021-11-26
# 生成型adversarial networkとadversarial autoencoders:チュートリアルとサーベイ

Generative Adversarial Networks and Adversarial Autoencoders: Tutorial and Survey ( http://arxiv.org/abs/2111.13282v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本稿では,generative adversarial network (gan),adversarial autoencoders,およびそれらの変種に関するチュートリアルおよび調査論文について述べる。 まず、敵対的学習とバニラGANを説明します。 次に条件付きGANとDCGANについて説明する。 モード崩壊問題を導入し、この問題を解決するために、ミニバッチGAN、アンロールGAN、BourGAN、混合GAN、D2GAN、Wasserstein GANなど様々な手法を導入している。 そして、F-GAN、逆変分ベイズ、ベイズGANとともに、GANの最大推定を行う。 次に, GAN, InfoGAN, GRAN, LSGAN, エネルギーベース GAN, CatGAN, MMD GAN, LapGAN, プログレッシブ GAN, トリプル GAN, LAG, GMAN, AdaGAN, CoGAN, 逆 GAN, BiGAN, ALI, SAGAN, Few-shot GAN, SinGAN, およびGANの補間と評価について述べる。 次に、画像間翻訳(PatchGAN、CycleGAN、DeepFaceDrawing、シミュレートされたGAN、インタラクティブなGAN)、テキスト間翻訳(StackGANを含む)、画像特性(FinGAN、MixNMatchを含む)などのGANの応用を紹介する。 最後に,adversarial autoencoder, pixelgan, implicit autoencoderを含む,adversarial learningに基づくオートエンコーダについて説明する。

This is a tutorial and survey paper on Generative Adversarial Network (GAN), adversarial autoencoders, and their variants. We start with explaining adversarial learning and the vanilla GAN. Then, we explain the conditional GAN and DCGAN. The mode collapse problem is introduced and various methods, including minibatch GAN, unrolled GAN, BourGAN, mixture GAN, D2GAN, and Wasserstein GAN, are introduced for resolving this problem. Then, maximum likelihood estimation in GAN are explained along with f-GAN, adversarial variational Bayes, and Bayesian GAN. Then, we cover feature matching in GAN, InfoGAN, GRAN, LSGAN, energy-based GAN, CatGAN, MMD GAN, LapGAN, progressive GAN, triple GAN, LAG, GMAN, AdaGAN, CoGAN, inverse GAN, BiGAN, ALI, SAGAN, Few-shot GAN, SinGAN, and interpolation and evaluation of GAN. Then, we introduce some applications of GAN such as image-to-image translation (including PatchGAN, CycleGAN, DeepFaceDrawing, simulated GAN, interactive GAN), text-to-image translation (including StackGAN), and mixing image characteristics (including FineGAN and MixNMatch). Finally, we explain the autoencoders based on adversarial learning including adversarial autoencoder, PixelGAN, and implicit autoencoder.
翻訳日:2021-11-29 15:33:51 公開日:2021-11-26
# 2次元画像からの3次元姿勢推定と将来の動き予測

3D Pose Estimation and Future Motion Prediction from 2D Images ( http://arxiv.org/abs/2111.13285v1 )

ライセンス: Link先を確認
Ji Yang, Youdong Ma, Xinxin Zuo, Sen Wang, Minglun Gong, Li Cheng(参考訳) 本稿では,3次元人体のポーズ推定と,rgb画像から将来の3次元動作の予測という,高度に相関したタスクを共同で行うことを検討する。 リー代数のポーズ表現に基づいて、人間の運動キネマティクスを自然に保存する新しい自己投射機構が提案されている。 さらに、エンコーダ-デコーダトポロジに基づくシーケンス・ツー・シーケンスのマルチタスクアーキテクチャにより、両方のタスクで共有される共通グラウンドをタップできるようにする。 最後に,我々のフレームワークの性能を高めるため,グローバルな改良モジュールを提案する。 posemonet と呼ばれる手法の有効性は,人間3.6m および humaneva-i ベンチマークにおけるアブレーション試験および経験的評価により実証された。

This paper considers to jointly tackle the highly correlated tasks of estimating 3D human body poses and predicting future 3D motions from RGB image sequences. Based on Lie algebra pose representation, a novel self-projection mechanism is proposed that naturally preserves human motion kinematics. This is further facilitated by a sequence-to-sequence multi-task architecture based on an encoder-decoder topology, which enables us to tap into the common ground shared by both tasks. Finally, a global refinement module is proposed to boost the performance of our framework. The effectiveness of our approach, called PoseMoNet, is demonstrated by ablation tests and empirical evaluations on Human3.6M and HumanEva-I benchmark, where competitive performance is obtained comparing to the state-of-the-arts.
翻訳日:2021-11-29 15:29:10 公開日:2021-11-26
# QMagFace: シンプルで正確な品質認識

QMagFace: Simple and Accurate Quality-Aware Face Recognition ( http://arxiv.org/abs/2111.13475v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Malte Ihlefeld, Marco Huber, Naser Damer, Florian Kirchbuchner, Kiran Raja, Arjan Kuijper(参考訳) 顔認識システムは、不正確なマッチング決定につながる可能性のある大きな変動(ポーズ、照度、表現など)に対処する必要がある。 これらの変動は、認識のためのサンプルの有用性によって定義される顔画像品質の観点から測定することができる。 顔認識に関する以前の研究は、この貴重な情報を使用しないか、あるいは不連続に品質推定に適合しないかのどちらかである。 本研究では,クオリティ・アウェア比較スコアと,マグニチュード・アウェア角マージン損失に基づく認識モデルを組み合わせた,簡便で効果的な顔認識ソリューション(qmagface)を提案する。 提案手法は、制約のない状況下での認識性能を高めるために、比較過程におけるモデル固有の顔画像品質を含む。 使用損失による品質と比較スコアの線形性を利用すると,品質認識比較関数は単純かつ高一般化できる。 いくつかの顔認識データベースとベンチマークで実施された実験は、導入された品質認識が認識性能を一貫した改善をもたらすことを示した。 さらに,提案するqmagfaceアプローチは,クロスポーズやクロスエイジ,クロスクオリティといった困難な状況下では特に良好に機能する。 その結果、顔認識ベンチマークでは98.50%がageb、83.97%がxqlfq、98.74%がcfp-fpであった。 QMagFaceのコードは公開されている。

Face recognition systems have to deal with large variabilities (such as different poses, illuminations, and expressions) that might lead to incorrect matching decisions. These variabilities can be measured in terms of face image quality which is defined over the utility of a sample for recognition. Previous works on face recognition either do not employ this valuable information or make use of non-inherently fit quality estimates. In this work, we propose a simple and effective face recognition solution (QMagFace) that combines a quality-aware comparison score with a recognition model based on a magnitude-aware angular margin loss. The proposed approach includes model-specific face image qualities in the comparison process to enhance the recognition performance under unconstrained circumstances. Exploiting the linearity between the qualities and their comparison scores induced by the utilized loss, our quality-aware comparison function is simple and highly generalizable. The experiments conducted on several face recognition databases and benchmarks demonstrate that the introduced quality-awareness leads to consistent improvements in the recognition performance. Moreover, the proposed QMagFace approach performs especially well under challenging circumstances, such as cross-pose, cross-age, or cross-quality. Consequently, it leads to state-of-the-art performances on several face recognition benchmarks, such as 98.50% on AgeDB, 83.97% on XQLFQ, and 98.74% on CFP-FP. The code for QMagFace is publicly available.
翻訳日:2021-11-29 15:28:55 公開日:2021-11-26
# 利用関連質問による会話レコメンダシステムにおけるユーザ嗜好の抽出

Soliciting User Preferences in Conversational Recommender Systems via Usage-related Questions ( http://arxiv.org/abs/2111.13463v1 )

ライセンス: Link先を確認
Ivica Kostric and Krisztian Balog and Filip Radlinski(参考訳) 従来のレコメンデーションシステムよりも会話レコメンデーションシステムの重要な特徴は、自然言語を使ってユーザの好みを引き出す能力である。 現在、優先的誘惑に対する主要なアプローチは、アイテムまたはアイテム属性について直接質問することである。 これらの戦略は、ユーザがそのような質問に答える十分な知識を持っていない場合にうまく機能しない。 逆に、ショッピング環境では、計画されたアイテムの使用について話すことは、ドメインに新しいものであっても、いかなる困難も示さない。 本稿では,項目使用量に基づく暗黙的な質問をすることで,嗜好の誘惑に対する新たなアプローチを提案する。 我々のアプローチは2つの主要なステップからなる。 まず,項目使用に関する情報を含む大規模なレビューコーパスから文を識別する。 そして,ニューラルネットワークモデルを用いて,これらの文から暗黙の選好質問を生成する。 この研究の主な貢献には、ニューラルモデルのための高品質のラベル付きトレーニングデータを集めるためにクラウドソーシングを使用する多段階データアノテーションプロトコルも含まれている。 本手法は,限られた学習データであっても,レビュー文の選択や質問への変換に有効であることを示す。 さらに,モデルが最適に動作しないパターンの分析を行う。

A key distinguishing feature of conversational recommender systems over traditional recommender systems is their ability to elicit user preferences using natural language. Currently, the predominant approach to preference elicitation is to ask questions directly about items or item attributes. These strategies do not perform well in cases where the user does not have sufficient knowledge of the target domain to answer such questions. Conversely, in a shopping setting, talking about the planned use of items does not present any difficulties, even for those that are new to a domain. In this paper, we propose a novel approach to preference elicitation by asking implicit questions based on item usage. Our approach consists of two main steps. First, we identify the sentences from a large review corpus that contain information about item usage. Then, we generate implicit preference elicitation questions from those sentences using a neural text-to-text model. The main contributions of this work also include a multi-stage data annotation protocol using crowdsourcing for collecting high-quality labeled training data for the neural model. We show that our approach is effective in selecting review sentences and transforming them to elicitation questions, even with limited training data. Additionally, we provide an analysis of patterns where the model does not perform optimally.
翻訳日:2021-11-29 15:28:18 公開日:2021-11-26
# ファジィ関係に関するデータ不整合に対する新しい機械学習アプローチ

A Novel Machine Learning Approach to Data Inconsistency with respect to a Fuzzy Relation ( http://arxiv.org/abs/2111.13447v1 )

ライセンス: Link先を確認
Marko Palangeti\'c, Chris Cornelis, Salvatore Greco, Roman S{\l}owi\'nski(参考訳) 予測問題における矛盾は、ある条件属性の特定の方法で関係するインスタンスが、決定属性の同じ関係に従わない場合に発生する。 例えば、単調性制約のある順序分類では、条件属性上の別のインスタンスを支配するインスタンスが悪い決定クラスに割り当てられたときに発生する。 典型的には、不完全な知識(属性の欠如)やデータ生成中に生じるランダムな効果(決定属性値の評価の不安定性)によって引き起こされるデータの摂動の結果として現れる。 クリップ事前順序関係(インスタンス間の優位性や不明瞭性を表す)に関する矛盾は、粗集合論のような記号的アプローチや、最適化手法を含む統計的・機械的な学習手法を用いて処理することができる。 ファジィ粗集合はファジィ関係に関して不整合を扱うための象徴的なアプローチと見なすこともできる。 本稿では,ファジィ事前順序関係に対する不整合処理のための新しい機械学習手法を提案する。 この新しいアプローチは、既存の機械学習アプローチによって動機付けられている。 統計的基盤を提供し、矛盾を排除するために使用できる最適化手順を開発する。 この論文は重要な性質を証明しており、それらの手順の実践例を含んでいる。

Inconsistency in prediction problems occurs when instances that relate in a certain way on condition attributes, do not follow the same relation on the decision attribute. For example, in ordinal classification with monotonicity constraints, it occurs when an instance dominating another instance on condition attributes has been assigned to a worse decision class. It typically appears as a result of perturbation in data caused by incomplete knowledge (missing attributes) or by random effects that occur during data generation (instability in the assessment of decision attribute values). Inconsistencies with respect to a crisp preorder relation (expressing either dominance or indiscernibility between instances) can be handled using symbolic approaches like rough set theory and by using statistical/machine learning approaches that involve optimization methods. Fuzzy rough sets can also be seen as a symbolic approach to inconsistency handling with respect to a fuzzy relation. In this article, we introduce a new machine learning method for inconsistency handling with respect to a fuzzy preorder relation. The novel approach is motivated by the existing machine learning approach used for crisp relations. We provide statistical foundations for it and develop optimization procedures that can be used to eliminate inconsistencies. The article also proves important properties and contains didactic examples of those procedures.
翻訳日:2021-11-29 15:25:39 公開日:2021-11-26
# 共有値と変分オートエンコーダを用いて依存混合特徴を持つ予測モデルを記述する

Using Shapley Values and Variational Autoencoders to Explain Predictive Models with Dependent Mixed Features ( http://arxiv.org/abs/2111.13507v1 )

ライセンス: Link先を確認
Lars Henry Berge Olsen, Ingrid Kristine Glad, Martin Jullum and Kjersti Aas(参考訳) シェープ値は現在、複雑な予測機械学習モデルを説明するためのモデルに依存しない説明フレームワークとして広く使われている。 シェープ値には望ましい理論的性質と健全な数学的基礎がある。 依存データに対する正確なシェープ値の推定は、すべての機能の組み合わせ間の依存関係の正確なモデリングに依存します。 本稿では,任意の条件付オートエンコーダ(VAEAC)を用いて,すべての機能依存を同時にモデル化する。 本研究では,VAEACが連続的・混合的特徴の多種多様な設定において,最先端の手法よりも優れていることを示す。 最後に、UCI Machine Learning RepositoryのデータセットであるAbaloneにVAEACを適用する。

Shapley values are today extensively used as a model-agnostic explanation framework to explain complex predictive machine learning models. Shapley values have desirable theoretical properties and a sound mathematical foundation. Precise Shapley value estimates for dependent data rely on accurate modeling of the dependencies between all feature combinations. In this paper, we use a variational autoencoder with arbitrary conditioning (VAEAC) to model all feature dependencies simultaneously. We demonstrate through comprehensive simulation studies that VAEAC outperforms the state-of-the-art methods for a wide range of settings for both continuous and mixed dependent features. Finally, we apply VAEAC to the Abalone data set from the UCI Machine Learning Repository.
翻訳日:2021-11-29 15:22:20 公開日:2021-11-26
# 条件付きマニフォールド学習

Conditional Manifold Learning ( http://arxiv.org/abs/2111.13646v1 )

ライセンス: Link先を確認
Anh Tuan Bui(参考訳) 本稿では,高次元データを埋め込んだ低次元多様体の学習を目的とした「条件付き多様体学習」という問題に対処する。 この補助多様体情報は、多くの科学や工学の応用においてユビキタスである制御可能あるいは測定可能な条件から得られる。 この問題に対する幅広い解のクラスである条件付き多次元スケーリング(条件付きISOMAP変種を含む)を提案する。 SMACOFアルゴリズムの条件付きバージョンを導入し、条件付き多次元スケーリングの目的関数を最適化する。

This paper addresses a problem called "conditional manifold learning", which aims to learn a low-dimensional manifold embedding of high-dimensional data, conditioning on auxiliary manifold information. This auxiliary manifold information is from controllable or measurable conditions, which are ubiquitous in many science and engineering applications. A broad class of solutions for this problem, conditional multidimensional scaling (including a conditional ISOMAP variant), is proposed. A conditional version of the SMACOF algorithm is introduced to optimize the objective function of conditional multidimensional scaling.
翻訳日:2021-11-29 15:22:13 公開日:2021-11-26
# picarrange - macコンピュータ上のプライベートイメージを視覚的にソート、検索、探索する

PicArrange -- Visually Sort, Search, and Explore Private Images on a Mac Computer ( http://arxiv.org/abs/2111.13363v1 )

ライセンス: Link先を確認
Klaus Jung, Kai Uwe Barthel, Nico Hezel, Konstantin Schall(参考訳) ネイティブのmacOSアプリケーションであるPicArrangeは、最先端の画像ソートと類似性検索を統合して、ユーザーは画像の概要をよりよく知ることができる。 フルイメージ管理ワークフローに対処するツールとして、多くのファイル管理機能が追加されている。 Self Sorting Mapアルゴリズムの修正により、ビジュアルソートを損なうことなく、リストのようなイメージアレンジメントが可能になる。 視覚機能の効率的な計算と保存、および多くのmacOS APIの使用により、使用可能なアプリケーションは流動的になる。

The native macOS application PicArrange integrates state-of-the-art image sorting and similarity search to enable users to get a better overview of their images. Many file and image management features have been added to make it a tool that addresses a full image management workflow. A modification of the Self Sorting Map algorithm enables a list-like image arrangement without loosing the visual sorting. Efficient calculation and storage of visual features as well as the use of many macOS APIs result in an application that is fluid to use.
翻訳日:2021-11-29 15:19:50 公開日:2021-11-26
# 共創者の識別自由因果視覚特徴学習

Confounder Identification-free Causal Visual Feature Learning ( http://arxiv.org/abs/2111.13420v1 )

ライセンス: Link先を確認
Xin Li, Zhizheng Zhang, Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Xin Jin and Zhibo Chen(参考訳) ディープラーニングの共創者は、一般的に、特徴表現に浸透するモデルの一般化に有害である。 したがって、共同設立者からの干渉のない因果的特徴を学ぶことは重要である。 以前の因果学習に基づくアプローチの多くは、特定の共同創設者の悪影響を軽減するために、特定の共同創設者の明示的な識別を必要とするバックドア基準を採用している。 しかし、実際のシナリオでは、共同設立者は一般的に多様で識別が難しい。 本稿では,共同創設者を識別する必要性を解消する,新しい共同創設者識別フリー因果的視覚特徴学習(cicf)手法を提案する。 CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、最適化の観点から、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。 このようにして、共同創設者の介入を回避し、因果的特徴を学習する信頼性の高い最適化方向を求める。 さらに,CICFと一般的なメタ学習戦略MAMLの関係を明らかにするとともに,なぜMAMLが因果学習の理論的観点から機能するのかを初めて解釈する。 因果的特徴の効果的な学習のおかげで、我々のCICFはモデルに優れた一般化能力を持たせることができる。 ドメイン一般化ベンチマークデータセットの大規模な実験は、最先端のパフォーマンスを実現するCICFの有効性を示す。

Confounders in deep learning are in general detrimental to model's generalization where they infiltrate feature representations. Therefore, learning causal features that are free of interference from confounders is important. Most previous causal learning based approaches employ back-door criterion to mitigate the adverse effect of certain specific confounder, which require the explicit identification of confounder. However, in real scenarios, confounders are typically diverse and difficult to be identified. In this paper, we propose a novel Confounder Identification-free Causal Visual Feature Learning (CICF) method, which obviates the need for identifying confounders. CICF models the interventions among different samples based on front-door criterion, and then approximates the global-scope intervening effect upon the instance-level interventions from the perspective of optimization. In this way, we aim to find a reliable optimization direction, which avoids the intervening effects of confounders, to learn causal features. Furthermore, we uncover the relation between CICF and the popular meta-learning strategy MAML, and provide an interpretation of why MAML works from the theoretical perspective of causal learning for the first time. Thanks to the effective learning of causal features, our CICF enables models to have superior generalization capability. Extensive experiments on domain generalization benchmark datasets demonstrate the effectiveness of our CICF, which achieves the state-of-the-art performance.
翻訳日:2021-11-29 15:19:43 公開日:2021-11-26
# (参考訳) ContIG:遺伝子を用いた医用画像の自己教師型マルチモーダルコントラスト学習 [全文訳有]

ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics ( http://arxiv.org/abs/2111.13424v1 )

ライセンス: CC BY 4.0
Aiham Taleb, Matthias Kirchler, Remo Monti, Christoph Lippert(参考訳) 高アノテーションコストは、最新のディープラーニングアーキテクチャを臨床に関連する医療ユースケースに適用する上で大きなボトルネックであり、ラベルのないデータから学習するための新しいアルゴリズムの必要性を実証している。 本研究では,ラベルなしの医用画像と遺伝データの大規模データセットから学習できる自己教師あり手法であるcontigを提案する。 提案手法は特徴空間における画像といくつかの遺伝的モダリティをコントラスト的損失を用いて整列させる。 本手法では,各個人が利用可能なモダリティが個人によって異なる場合でも,同一モデルで複数のモダリティを統合する手法を設計する。 提案手法は,評価されたダウンストリームベンチマークタスクすべてにおいて,最先端の自己教師ありメソッドよりも優れている。 また,画像と遺伝的モダリティの相互関係をよりよく理解するために,勾配に基づく説明可能性アルゴリズムを適用した。 最後に, 画像と遺伝データの興味深い関係を明らかにするため, モデルから得られた特徴についてゲノムワイド関連研究を行った。

High annotation costs are a substantial bottleneck in applying modern deep learning architectures to clinically relevant medical use cases, substantiating the need for novel algorithms to learn from unlabeled data. In this work, we propose ContIG, a self-supervised method that can learn from large datasets of unlabeled medical images and genetic data. Our approach aligns images and several genetic modalities in the feature space using a contrastive loss. We design our method to integrate multiple modalities of each individual person in the same model end-to-end, even when the available modalities vary across individuals. Our procedure outperforms state-of-the-art self-supervised methods on all evaluated downstream benchmark tasks. We also adapt gradient-based explainability algorithms to better understand the learned cross-modal associations between the images and genetic modalities. Finally, we perform genome-wide association studies on the features learned by our models, uncovering interesting relationships between images and genetic data.
翻訳日:2021-11-29 15:17:07 公開日:2021-11-26
# 言語モデルは信念を持っているか? モデル信念の検出・更新・可視化方法

Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs ( http://arxiv.org/abs/2111.13654v1 )

ライセンス: Link先を確認
Peter Hase, Mona Diab, Asli Celikyilmaz, Xian Li, Zornitsa Kozareva, Veselin Stoyanov, Mohit Bansal, Srinivasan Iyer(参考訳) 言語モデルは世界に対する信念を持っているか? dennett (1995) は、サーモスタットでさえも、信念は単にモチベーション的な状態から切り離された情報的状態であるという観点から、信念を持っていると論じている。 本稿では,モデルが世界の信念を持っていることを検知するアプローチについて議論し,学習オプティマイザやハイパーネットワークに基づく手法に着目して,モデル信念をより真実に更新する方法を改善した。 本研究の主な貢献は,(1) 信念の論理的整合性に着目した信念更新手法を評価するための新しい指標,(2) 学習オプティマイザの性能を向上させる逐次的,局所的,一般化的モデル更新(SLAG)のトレーニング目標,(3) モデル信念間の相互依存性を示す言語モデルとのインターフェースの新たな形式である信念グラフの導入である。 私たちの実験は、モデルが信念のような性質しか持たないことを示唆しているが、更新メソッドは誤ったモデル信念を修正し、一貫性を大幅に改善することができる。 既製のオプティマイザは驚くほど強い信念向上ベースラインですが、学習したオプティマイザは、過去の作業よりも難しい設定でそれらを上回ることができるのです。 コードはhttps://github.com/p eterbhase/SLAG-Belie f-Updatingで入手できる。

Do language models have beliefs about the world? Dennett (1995) famously argues that even thermostats have beliefs, on the view that a belief is simply an informational state decoupled from any motivational state. In this paper, we discuss approaches to detecting when models have beliefs about the world, and we improve on methods for updating model beliefs to be more truthful, with a focus on methods based on learned optimizers or hypernetworks. Our main contributions include: (1) new metrics for evaluating belief-updating methods that focus on the logical consistency of beliefs, (2) a training objective for Sequential, Local, and Generalizing model updates (SLAG) that improves the performance of learned optimizers, and (3) the introduction of the belief graph, which is a new form of interface with language models that shows the interdependencies between model beliefs. Our experiments suggest that models possess belief-like qualities to only a limited extent, but update methods can both fix incorrect model beliefs and greatly improve their consistency. Although off-the-shelf optimizers are surprisingly strong belief-updating baselines, our learned optimizers can outperform them in more difficult settings than have been considered in past work. Code is available at https://github.com/p eterbhase/SLAG-Belie f-Updating
翻訳日:2021-11-29 14:22:34 公開日:2021-11-26
# ランダム回帰分解による長期報酬再分配の学習

Learning Long-Term Reward Redistribution via Randomized Return Decomposition ( http://arxiv.org/abs/2111.13485v1 )

ライセンス: Link先を確認
Zhizhou Ren, Ruihan Guo, Yuan Zhou, Jian Peng(参考訳) 強化学習の多くの実践的応用は、エージェントがスパースや遅延報酬から学ぶ必要がある。 エージェントの行動が将来の成果に寄与する能力に挑戦する。 本稿では,軌道フィードバックを用いたエピソジック強化学習の課題定式化について検討する。 これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。 この問題設定の一般的なパラダイムは、疎い環境信号の代わりに、補助的な報酬関数、すなわち代用報酬関数を設計して学習することである。 本稿では,エピソディック強化学習のためのプロキシ報酬関数を学習するために,新しい報酬再分配アルゴリズムであるランダム化回帰分解(rrd)を提案する。 モンテカルロサンプリングによるサロゲート問題を確立し,長ホリゾン問題に対する最小二乗法に基づく報酬再分配をスケールする。 本稿では,本手法のアルゴリズム的特性を示す文献上の既存手法との関連から,サーロゲート損失関数を解析する。 実験では,提案手法を多種多様なベンチマークタスクに対して広く評価し,ベースラインアルゴリズムよりも大幅に改善した。

Many practical applications of reinforcement learning require agents to learn from sparse and delayed rewards. It challenges the ability of agents to attribute their actions to future outcomes. In this paper, we consider the problem formulation of episodic reinforcement learning with trajectory feedback. It refers to an extreme delay of reward signals, in which the agent can only obtain one reward signal at the end of each trajectory. A popular paradigm for this problem setting is learning with a designed auxiliary dense reward function, namely proxy reward, instead of sparse environmental signals. Based on this framework, this paper proposes a novel reward redistribution algorithm, randomized return decomposition (RRD), to learn a proxy reward function for episodic reinforcement learning. We establish a surrogate problem by Monte-Carlo sampling that scales up least-squares-based reward redistribution to long-horizon problems. We analyze our surrogate loss function by connection with existing methods in the literature, which illustrates the algorithmic properties of our approach. In experiments, we extensively evaluate our proposed method on a variety of benchmark tasks with episodic rewards and demonstrate substantial improvement over baseline algorithms.
翻訳日:2021-11-29 14:21:47 公開日:2021-11-26
# Amazon SageMaker Model Monitor: デプロイされた機械学習モデルに対するリアルタイム洞察システム

Amazon SageMaker Model Monitor: A System for Real-Time Insights into Deployed Machine Learning Models ( http://arxiv.org/abs/2111.13657v1 )

ライセンス: Link先を確認
David Nigenda, Zohar Karnin, Muhammad Bilal Zafar, Raghu Ramesha, Alan Tan, Michele Donini, Krishnaram Kenthapadi(参考訳) 機械学習(ML)モデルとシステムがさまざまな産業にまたがってハイテイクな設定で採用されることで、デプロイ後のモデルのパフォーマンスが重要になっている。 運用環境でのモデル監視は、継続的なパフォーマンスと信頼性を保証する上で重要な側面です。 Amazon SageMaker Model Monitorはフルマネージドなサービスで、Amazon SageMakerでホストされている機械学習モデルの品質を継続的に監視します。 本システムでは,モデル内のデータ,概念,バイアス,特徴帰属をリアルタイムで自動的に検出し,モデルオーナが修正措置を講じて高品質なモデルを維持するための警告を提供する。 顧客から得られた重要な要件、システム設計とアーキテクチャ、および異なる種類のドリフトを検出するための方法論について述べる。 さらに,1.5年以上の製品展開から学んだユースケース,洞察,教訓を定量的に評価する。

With the increasing adoption of machine learning (ML) models and systems in high-stakes settings across different industries, guaranteeing a model's performance after deployment has become crucial. Monitoring models in production is a critical aspect of ensuring their continued performance and reliability. We present Amazon SageMaker Model Monitor, a fully managed service that continuously monitors the quality of machine learning models hosted on Amazon SageMaker. Our system automatically detects data, concept, bias, and feature attribution drift in models in real-time and provides alerts so that model owners can take corrective actions and thereby maintain high quality models. We describe the key requirements obtained from customers, system design and architecture, and methodology for detecting different types of drift. Further, we provide quantitative evaluations followed by use cases, insights, and lessons learned from more than 1.5 years of production deployment.
翻訳日:2021-11-29 14:21:30 公開日:2021-11-26
# 医学画像分割のための因果性に触発された単一ソースドメインの一般化

Causality-inspired Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2111.12525v2 )

ライセンス: Link先を確認
Cheng Ouyang, Chen Chen, Surui Li, Zeju Li, Chen Qin, Wenjia Bai, Daniel Rueckert(参考訳) ディープラーニングモデルは、通常、あるソースドメインでトレーニングされたモデルが他の目に見えないドメインにうまく一般化しない、ドメインシフトの問題に苦しむ。 本研究では, 医用画像アプリケーションで一般的である1つのソースドメインからのみ, トレーニングデータが利用可能であることを条件として, 未取得ドメインに頑健な深層ネットワークをトレーニングする, 単一ソースドメイン一般化問題について検討する。 ドメイン間医療画像セグメンテーションの文脈においてこの問題に対処する。 このシナリオでは、ドメインシフトは主に異なる取得プロセスによって引き起こされる。 ドメインシフトトレーニング例の合成にセグメンテーションモデルを公開するために,単純な因果関係に触発されたデータ拡張手法を提案する。 具体的には 1) 深層モデルを画像強度とテクスチャのばらつきに頑健にするために, ランダムに重み付けされた浅層ネットワーク群を用いた。 多様な外観変換を用いてトレーニングイメージを増強する。 2)さらに,画像内のオブジェクト間のスプリアス相関がドメインロバスト性に有害であることを示す。 これらの相関関係は、ネットワークによって予測を行うためのドメイン固有の手がかりとして捉えられ、未知のドメインを壊す可能性がある。 因果介入によってこれらの急激な相関を除去する。 これは、潜在的な相関オブジェクトの外観を独立に再サンプリングすることで達成される。 提案手法は,CT-MRIの腹部画像分割,bSSFP-LGEの心臓MRI分割,中心前立腺MRI分割という3つの領域横断的課題に対して検証された。 提案手法は,未取得領域でテストした場合の競合手法と比較して,一貫性のある性能向上を実現する。

Deep learning models usually suffer from domain shift issues, where models trained on one source domain do not generalize well to other unseen domains. In this work, we investigate the single-source domain generalization problem: training a deep network that is robust to unseen domains, under the condition that training data is only available from one source domain, which is common in medical imaging applications. We tackle this problem in the context of cross-domain medical image segmentation. Under this scenario, domain shifts are mainly caused by different acquisition processes. We propose a simple causality-inspired data augmentation approach to expose a segmentation model to synthesized domain-shifted training examples. Specifically, 1) to make the deep model robust to discrepancies in image intensities and textures, we employ a family of randomly-weighted shallow networks. They augment training images using diverse appearance transformations. 2) Further we show that spurious correlations among objects in an image are detrimental to domain robustness. These correlations might be taken by the network as domain-specific clues for making predictions, and they may break on unseen domains. We remove these spurious correlations via causal intervention. This is achieved by resampling the appearances of potentially correlated objects independently. The proposed approach is validated on three cross-domain segmentation tasks: cross-modality (CT-MRI) abdominal image segmentation, cross-sequence (bSSFP-LGE) cardiac MRI segmentation, and cross-center prostate MRI segmentation. The proposed approach yields consistent performance gains compared with competitive methods when tested on unseen domains.
翻訳日:2021-11-29 12:42:57 公開日:2021-11-26