このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211024となっている論文です。

PDF登録状況(公開日: 20211024)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 双方向GANに対する非漸近誤差境界 [全文訳有]

Non-Asymptotic Error Bounds for Bidirectional GANs ( http://arxiv.org/abs/2110.12319v1 )

ライセンス: CC BY 4.0
Shiao Liu, Yunfei Yang, Jian Huang, Yuling Jiao, Yang Wang(参考訳) モデルで使用するニューラルネットワークのアーキテクチャを適切に指定した,潜在関節分布とデータ結合分布とのダドリー距離の両方向GAN推定誤差に対して,ほぼ鋭い境界を導出する。 我々の知る限りでは、これは双方向のGAN学習アプローチに対する最初の理論的保証である。 我々の結果の魅力的な特徴は、参照とデータ分布が同じ次元またはこれらの分布が有界な支持を持つと仮定しないことである。 これらの仮定は、一方向ganの既存の収束解析で一般的に仮定されるが、実際には満足できない。 この結果は、対象分布が有界な支持を持つと仮定された場合、wasserstein bidirectional ganにも適用できる。 これらの結果を証明するために,経験的分布を別の任意の経験的分布に推し進めるニューラルネットワーク関数を構築した。 また,両方向GANの誤差解析のための積分確率計量の新たな分解法を開発した。 これらの基本的な理論的結果は独立した興味を持ち、他の関連する学習問題に適用できる。

We derive nearly sharp bounds for the bidirectional GAN (BiGAN) estimation error under the Dudley distance between the latent joint distribution and the data joint distribution with appropriately specified architecture of the neural networks used in the model. To the best of our knowledge, this is the first theoretical guarantee for the bidirectional GAN learning approach. An appealing feature of our results is that they do not assume the reference and the data distributions to have the same dimensions or these distributions to have bounded support. These assumptions are commonly assumed in the existing convergence analysis of the unidirectional GANs but may not be satisfied in practice. Our results are also applicable to the Wasserstein bidirectional GAN if the target distribution is assumed to have a bounded support. To prove these results, we construct neural network functions that push forward an empirical distribution to another arbitrary empirical distribution on a possibly different-dimensiona l space. We also develop a novel decomposition of the integral probability metric for the error analysis of bidirectional GANs. These basic theoretical results are of independent interest and can be applied to other related learning problems.
翻訳日:2021-10-31 19:08:47 公開日:2021-10-24
# (参考訳) CoVA:Webページ情報抽出のためのコンテキスト対応ビジュアルアテンション [全文訳有]

CoVA: Context-aware Visual Attention for Webpage Information Extraction ( http://arxiv.org/abs/2110.12320v1 )

ライセンス: CC BY 4.0
Anurendra Kumar, Keval Morabia, Jingjin Wang, Kevin Chen-Chuan Chang, Alexander Schwing(参考訳) Webページ情報抽出(WIE)は知識基盤を構築するための重要なステップである。 そのため、古典的なWIEメソッドはWebサイトのドキュメントオブジェクトモデル(DOM)ツリーを利用する。 しかし、DOMツリーの使用はコンテキストや外観が抽象的な方法でエンコードされるため、大きな課題となる。 この課題に対処するために,wieを文脈認識型webページオブジェクト検出タスクとして再編成する。 具体的には、外観特徴とDOMツリーからの構文構造を組み合わせたコンテキスト認識型視覚意図型(CoVA)検出パイプラインを開発する。 このアプローチを研究するために、私たちはeコマースウェブサイトの新しい大規模データセットを収集し、すべてのweb要素に製品価格、製品タイトル、製品イメージ、背景の4つのラベルを手作業で注釈付けします。 このデータセットでは,提案するCoVAアプローチが,従来の最先端手法を改善した新しい挑戦的ベースラインであることが示されている。

Webpage information extraction (WIE) is an important step to create knowledge bases. For this, classical WIE methods leverage the Document Object Model (DOM) tree of a website. However, use of the DOM tree poses significant challenges as context and appearance are encoded in an abstract manner. To address this challenge we propose to reformulate WIE as a context-aware Webpage Object Detection task. Specifically, we develop a Context-aware Visual Attention-based (CoVA) detection pipeline which combines appearance features with syntactical structure from the DOM tree. To study the approach we collect a new large-scale dataset of e-commerce websites for which we manually annotate every web element with four labels: product price, product title, product image and background. On this dataset we show that the proposed CoVA approach is a new challenging baseline which improves upon prior state-of-the-art methods.
翻訳日:2021-10-31 18:43:44 公開日:2021-10-24
# (参考訳) 深層学習に基づく中国の伝統詩生成システム [全文訳有]

Chinese Traditional Poetry Generating System Based on Deep Learning ( http://arxiv.org/abs/2110.12335v1 )

ライセンス: CC BY 4.0
Chenlei Bao and Lican Huang(参考訳) 中国の伝統詩は中国の重要な無形文化遺産であり、思想、文化、精神、感情の芸術的キャリアである。 しかし、古詩の厳格な規則により、機械で詩を書くことは極めて困難である。 本稿では,各詩からキーワードを抽出し,そのキーワードを前文とマッチングしてテーマに適合させる,深層学習技術に基づく漢詩の自動生成手法を提案し,ユーザが文章の段落を入力すると,そのテーマを取得し,文によって詩文を生成する。 従来のWord2vecモデルを前処理モデルとして、コンピュータで理解されていない漢字を行列に変換して処理する。 ニューラルネットワークモデルとして双方向長短期記憶を用いて漢字を1つずつ生成し、漢字の意味をできるだけ正確にする。 同時に、TF-IDF と TextRank はキーワードを抽出するために使われる。 注意機構に基づく符号化復号モデルを用いて,モデルを変換し,長距離情報の重要な情報を強化することで,重要な情報を失うことなくキーポイントを把握できる。 感情判断の面では、Long Short-Term Memory Networkが使用される。 最終結果は、ユーザの入力テキストに応じて優れた詩の出力が得られることを示す。

Chinese traditional poetry is an important intangible cultural heritage of China and an artistic carrier of thought, culture, spirit and emotion. However, due to the strict rules of ancient poetry, it is very difficult to write poetry by machine. This paper proposes an automatic generation method of Chinese traditional poetry based on deep learning technology, which extracts keywords from each poem and matches them with the previous text to make the poem conform to the theme, and when a user inputs a paragraph of text, the machine obtains the theme and generates poem sentence by sentence. Using the classic word2vec model as the preprocessing model, the Chinese characters which are not understood by the computer are transformed into matrix for processing. Bi-directional Long Short-Term Memory is used as the neural network model to generate Chinese characters one by one and make the meaning of Chinese characters as accurate as possible. At the same time, TF-IDF and TextRank are used to extract keywords. Using the attention mechanism based encoding-decoding model, we can solve practical problems by transforming the model, and strengthen the important information of long-distance information, so as to grasp the key points without losing important information. In the aspect of emotion judgment, Long Short-Term Memory network is used. The final result shows that it can get good poetry outputs according to the user input text.
翻訳日:2021-10-31 18:30:52 公開日:2021-10-24
# (参考訳) 逆学習のための品質マップ融合 [全文訳有]

Quality Map Fusion for Adversarial Learning ( http://arxiv.org/abs/2110.12338v1 )

ライセンス: CC BY 4.0
Uche Osahor, Nasser M. Nasrabadi(参考訳) ヒト視覚系(hvs)との相関関係で視覚情報を伝達する高度低レベル特徴をキャプチャする生成的敵モデルはまだ知覚可能な画像劣化に苦しむ。 このような高情報な特徴を伝達できないことは、モード崩壊、収束失敗、および勾配の消失に起因する。 本稿では,HVSに類似した画像特徴と深部畳み込みニューラルネットワーク(DCNN)の知覚特性を利用する新しい画質マップ融合技術を導入することにより,画像品質を逆向きに改善する。 我々は、広く採用されている l2 ワッサーシュタイン距離計量を、構造、輝度、コントラスト、画像の自然性といったよりリッチな画像特性を捉えるバナッハ空間から導かれる他の好ましい品質基準に拡張する。 また、ネットワークボトルネックからグローバルな特徴埋め込みを抽出する知覚的注意機構(PAM)を標準画像品質指標から得られる集約された知覚マップに組み込むことにより、画像品質が向上することを示す。 また,他の手法よりも優れた性能を示す。

Generative adversarial models that capture salient low-level features which convey visual information in correlation with the human visual system (HVS) still suffer from perceptible image degradations. The inability to convey such highly informative features can be attributed to mode collapse, convergence failure and vanishing gradients. In this paper, we improve image quality adversarially by introducing a novel quality map fusion technique that harnesses image features similar to the HVS and the perceptual properties of a deep convolutional neural network (DCNN). We extend the widely adopted l2 Wasserstein distance metric to other preferable quality norms derived from Banach spaces that capture richer image properties like structure, luminance, contrast and the naturalness of images. We also show that incorporating a perceptual attention mechanism (PAM) that extracts global feature embeddings from the network bottleneck with aggregated perceptual maps derived from standard image quality metrics translate to a better image quality. We also demonstrate impressive performance over other methods.
翻訳日:2021-10-31 18:23:45 公開日:2021-10-24
# (参考訳) 重ね合わせ記憶を用いたスケーラブルな知識ベース補完 [全文訳有]

Scalable knowledge base completion with superposition memories ( http://arxiv.org/abs/2110.12341v1 )

ライセンス: CC BY 4.0
Matthias Lalisse, Eric Rosen, Paul Smolensky(参考訳) 我々は、知識ベース補完のためのニューラルネットワークであるハーモニックメモリネットワーク(HMem)を紹介し、エンティティを、エンティティの隣人と対応する関係の間のペアワイズ結合の重み付け和としてモデル化する。 エンティティは集約された近傍としてモデル化されるので、見えないエンティティの表現はフライで生成することができる。 WNGenとFBGenの2つの新しいデータセットでこれを実証する。 実験により、モデルがベンチマーク上でSOTAであり、知識グラフが大きくなるにつれて再トレーニングなしに進化できる柔軟性があることが示されている。

We present Harmonic Memory Networks (HMem), a neural architecture for knowledge base completion that models entities as weighted sums of pairwise bindings between an entity's neighbors and corresponding relations. Since entities are modeled as aggregated neighborhoods, representations of unseen entities can be generated on the fly. We demonstrate this with two new datasets: WNGen and FBGen. Experiments show that the model is SOTA on benchmarks, and flexible enough to evolve without retraining as the knowledge graph grows.
翻訳日:2021-10-31 18:07:18 公開日:2021-10-24
# (参考訳) 主題的役割への結合の分散神経符号化 [全文訳有]

Distributed neural encoding of binding to thematic roles ( http://arxiv.org/abs/2110.12342v1 )

ライセンス: CC BY 4.0
Matthias Lalisse, Paul Smolensky(参考訳) fMRIにおける構成成分の研究のためのフレームワークと手法を提案する。 本手法は, 個々の構成成分の寄与が付加的であることを前提として, 複雑な言語構造をコードするニューラルパターンの推定を行う。 fMRIで合成構造をモデル化する通常の手法と同様に、本手法ではパターン重ね合わせを用いて複雑な構造を合成する。 これらの技法と異なり、重ね合わせは構成要素の構造的位置に敏感であり、構成モデルの構造的無差別化("bag-of-words")が不可能である。 frankland and greene (2015) による研究から得られたデータの再分析により、異なる仕様を持つ神経予測モデルの比較により、合成がモデル化されていないときに明らかでない神経表現内容の側面を照らすことが示されている。 その結果,文中の主題的役割に対するフィラーの結合は非直交的であり,空間的に重なり合うことが示唆された。

A framework and method are proposed for the study of constituent composition in fMRI. The method produces estimates of neural patterns encoding complex linguistic structures, under the assumption that the contributions of individual constituents are additive. Like usual techniques for modeling compositional structure in fMRI, the proposed method employs pattern superposition to synthesize complex structures from their parts. Unlike these techniques, superpositions are sensitive to the structural positions of constituents, making them irreducible to structure-indiscrimi nate ("bag-of-words") models of composition. Reanalyzing data from a study by Frankland and Greene (2015), it is shown that comparison of neural predictive models with differing specifications can illuminate aspects of neural representational contents that are not apparent when composition is not modelled. The results indicate that the neural instantiations of the binding of fillers to thematic roles in a sentence are non-orthogonal, and therefore spatially overlapping.
翻訳日:2021-10-31 17:54:20 公開日:2021-10-24
# (参考訳) ランダムウォークに基づくグラフ埋め込みのより広い画像 [全文訳有]

A Broader Picture of Random-walk Based Graph Embedding ( http://arxiv.org/abs/2110.12344v1 )

ライセンス: CC BY 4.0
Zexi Huang, Arlei Silva, Ambuj Singh(参考訳) ランダムウォークに基づくグラフ埋め込みは、多くのグラフ関連下流タスクに対する効果的なソリューションをサポートする。 しかし、埋蔵文学の豊富さは、既存の手法を比較し、最先端の技術を前進させる機会を特定することがますます困難になっている。 一方、既存の作業では、組み込みがどのように異なる構造スケールをキャプチャするか、効果的なリンク予測にどのように適用すべきかなど、いくつかの基本的な疑問が残されている。 本稿では,ランダムウォーク処理,類似度関数,埋め込みアルゴリズムの3成分からなるランダムウォークに基づくグラフ埋め込みの解析フレームワークを用いて,これらの課題を解決する。 私たちのフレームワークは多くの既存アプローチを分類するだけでなく、自然に新しいアプローチを動機付けます。 これを用いて、下流タスク性能を改善するために、埋め込みを複数スケールに組み込む新しい方法を説明する。 また,自己共分散類似性に基づく埋め込みは,リンク予測のためのドット積ランキングと組み合わせると,ポイントワイズ相互情報類似性に基づく最先端手法を最大100%上回ることを示した。

Graph embedding based on random-walks supports effective solutions for many graph-related downstream tasks. However, the abundance of embedding literature has made it increasingly difficult to compare existing methods and to identify opportunities to advance the state-of-the-art. Meanwhile, existing work has left several fundamental questions -- such as how embeddings capture different structural scales and how they should be applied for effective link prediction -- unanswered. This paper addresses these challenges with an analytical framework for random-walk based graph embedding that consists of three components: a random-walk process, a similarity function, and an embedding algorithm. Our framework not only categorizes many existing approaches but naturally motivates new ones. With it, we illustrate novel ways to incorporate embeddings at multiple scales to improve downstream task performance. We also show that embeddings based on autocovariance similarity, when paired with dot product ranking for link prediction, outperform state-of-the-art methods based on Pointwise Mutual Information similarity by up to 100%.
翻訳日:2021-10-31 17:39:59 公開日:2021-10-24
# (参考訳) 類似性を考慮した分散最適化の高速化 [全文訳有]

Acceleration in Distributed Optimization Under Similarity ( http://arxiv.org/abs/2110.12347v1 )

ライセンス: CC BY 4.0
Ye Tian, Gesualdo Scutari, Tianyu Cao, Alexander Gasnikov(参考訳) 集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。 エージェントの損失関数は、統計データの類似性などにより類似していると仮定される。 解決精度を達成するための通信数を削減するため,プリコンディショナブルで高速化された分散手法を提案する。 $\varepsilon$-soluti onは$\tilde{\mathcal{O}}\big(\sqrt{\frac{\beta/\mu}{(1-\rho)}}\log1/\varepsilon\bi g)$通信ステップ数で達成される。 この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)低い複雑性の通信境界と一致する。 数値計算の結果,既存の分散スキーム,特に条件の悪い問題を解く場合において,通信の節約効果が顕著であることがわかった。

We study distributed (strongly convex) optimization problems over a network of agents, with no centralized nodes. The loss functions of the agents are assumed to be similar, due to statistical data similarity or otherwise. In order to reduce the number of communications to reach a solution accuracy, we proposed a preconditioned, accelerated distributed method. An $\varepsilon$-soluti on is achieved in $\tilde{\mathcal{O}}\big(\sqrt{\frac{\beta/\mu}{(1-\rho)}}\log1/\varepsilon\bi g)$ number of communications steps, where $\beta/\mu$ is the relative condition number between the global and local loss functions, and $\rho$ characterizes the connectivity of the network. This rate matches (up to poly-log factors) for the first time lower complexity communication bounds of distributed gossip-algorithms applied to the class of problems of interest. Numerical results show significant communication savings with respect to existing accelerated distributed schemes, especially when solving ill-conditioned problems.
翻訳日:2021-10-31 17:22:33 公開日:2021-10-24
# (参考訳) 考えてみろ! 質問シナリオのモデル化によるデファシブル推論の改善 [全文訳有]

Think about it! Improving defeasible reasoning by first modeling the question scenario ( http://arxiv.org/abs/2110.12349v1 )

ライセンス: CC BY 4.0
Aman Madaan, Niket Tandon, Dheeraj Rajagopal, Peter Clark, Yiming Yang, Eduard Hovy(参考訳) 矛盾する推論は、新しい証拠を考慮して結論を覆すことができる推論の方法である。 難解な推論に関する既存の認知科学文献は、質問に答える前に問題シナリオのメンタルモデルを形成することを示唆している。 私たちの研究目標は、デファシブルなクエリに答える前に、問題シナリオを想定することで、ニューラルモデルが同様にメリットを享受できるかどうかを問うことです。 我々のアプローチは、ある質問に対して、まずモデルに関連する影響のグラフを作成し、そのグラフを質問に答える際の追加入力として利用することである。 我々のシステムであるCURIOUSは、3つの異なるデファシブル推論データセット上で新しい最先端の推論を実現する。 この結果は、システムに対して、反射的に答えるのではなく、質問を"考え"、シナリオを明示的にモデル化するように指示することで、パフォーマンスが向上できることを示している。 コード、データ、事前学習されたモデルはhttps://github.com/m adaan/thinkaboutitにある。

Defeasible reasoning is the mode of reasoning where conclusions can be overturned by taking into account new evidence. Existing cognitive science literature on defeasible reasoning suggests that a person forms a mental model of the problem scenario before answering questions. Our research goal asks whether neural models can similarly benefit from envisioning the question scenario before answering a defeasible query. Our approach is, given a question, to have a model first create a graph of relevant influences, and then leverage that graph as an additional input when answering the question. Our system, CURIOUS, achieves a new state-of-the-art on three different defeasible reasoning datasets. This result is significant as it illustrates that performance can be improved by guiding a system to "think about" a question and explicitly model the scenario, rather than answering reflexively. Code, data, and pre-trained models are located at https://github.com/m adaan/thinkaboutit.
翻訳日:2021-10-31 16:26:17 公開日:2021-10-24
# (参考訳) DiffSRL:微分シミュレータを用いた変形性物体制御のための動的認識状態表現学習 [全文訳有]

DiffSRL: Learning Dynamic-aware State Representation for Deformable Object Control with Differentiable Simulator ( http://arxiv.org/abs/2110.12352v1 )

ライセンス: CC BY-SA 4.0
Sirui Chen, Yunhao Liu, Jialong Li, Shang Wen Yao, Tingxiang Fan, Jia Pan(参考訳) 動的状態表現学習はロボット学習において重要な課題である。 ダイナミックス関連情報をキャプチャできる潜在空間は、モデルフリー強化学習の加速、シミュレーションを現実のギャップに閉じる、動き計画の複雑さを減らすといった分野に広く応用されている。 しかし、現在の動的状態表現学習法は変形可能なオブジェクトのような複雑な動的システムではスケールが悪く、訓練パイプラインによく定義されたシミュレーション関数を直接組み込むことができない。 本稿では,エンド・ツー・エンドのトレーニングの一部として複雑なダイナミクスモデルを埋め込むことができる微分可能シミュレーションを用いた動的状態表現学習パイプラインdiffsrlを提案する。 また、パイプラインの一部として微分可能な動的制約を統合することで、潜在状態が動的制約を認識するインセンティブを提供します。 さらに, ソフトボディシミュレーションシステム plasticinelab における状態表現学習ベンチマークを確立し, 長期ダイナミクスの獲得と報酬予測の面で優れた性能を示す。

Dynamic state representation learning is an important task in robot learning. Latent space that can capture dynamics related information has wide application in areas such as accelerating model free reinforcement learning, closing the simulation to reality gap, as well as reducing the motion planning complexity. However, current dynamic state representation learning methods scale poorly on complex dynamic systems such as deformable objects, and cannot directly embed well defined simulation function into the training pipeline. We propose DiffSRL, a dynamic state representation learning pipeline utilizing differentiable simulation that can embed complex dynamics models as part of the end-to-end training. We also integrate differentiable dynamic constraints as part of the pipeline which provide incentives for the latent state to be aware of dynamical constraints. We further establish a state representation learning benchmark on a soft-body simulation system, PlasticineLab, and our model demonstrates superior performance in terms of capturing long-term dynamics as well as reward prediction.
翻訳日:2021-10-31 16:06:03 公開日:2021-10-24
# (参考訳) マイナショットビデオの分類を詳しく見る - 新しいベースラインとベンチマーク [全文訳有]

A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmark ( http://arxiv.org/abs/2110.12358v1 )

ライセンス: CC BY 4.0
Zhenxi Zhu, Limin Wang, Sheng Guo, Gangshan Wu(参考訳) 既存のマイノリティビデオ分類法は、類似度計算のためにカスタマイズされた時間アライメントモジュールを設計することでメタラーニングパラダイムを採用することが多い。 かなりの進歩があったが、これらの手法は効果的な表現の学習に重点を置いておらず、ImageNetの事前トレーニングに大きく依存している。 本稿では,3つのコントリビュートを行うことで,ビデオのマイナショット分類に関する詳細な研究を行う。 まず,既存のメトリックベース手法について一貫した比較研究を行い,表現学習の限界を明らかにする。 そこで本研究では,最先端のメタ学習手法を驚くほど上回る時間的アライメントのない単純な分類器ベースラインを提案する。 第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。 その結果,スクラッチからのトレーニング性能は大幅に低下し,既存のベンチマークでは十分なベースデータを提供できないことが示された。 最後に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。 コードはhttps://github.com/M CG-NJU/FSL-Videoで公開される。

The existing few-shot video classification methods often employ a meta-learning paradigm by designing customized temporal alignment module for similarity calculation. While significant progress has been made, these methods fail to focus on learning effective representations, and heavily rely on the ImageNet pre-training, which might be unreasonable for the few-shot recognition setting due to semantics overlap. In this paper, we aim to present an in-depth study on few-shot video classification by making three contributions. First, we perform a consistent comparative study on the existing metric-based methods to figure out their limitations in representation learning. Accordingly, we propose a simple classifier-based baseline without any temporal alignment that surprisingly outperforms the state-of-the-art meta-learning based methods. Second, we discover that there is a high correlation between the novel action class and the ImageNet object class, which is problematic in the few-shot recognition setting. Our results show that the performance of training from scratch drops significantly, which implies that the existing benchmarks cannot provide enough base data. Finally, we present a new benchmark with more base data to facilitate future few-shot video classification without pre-training. The code will be made available at https://github.com/M CG-NJU/FSL-Video.
翻訳日:2021-10-31 15:51:42 公開日:2021-10-24
# (参考訳) 油圧・輸送特性の同時推定のための深層学習 [全文訳有]

Deep Learning for Simultaneous Inference of Hydraulic and Transport Properties ( http://arxiv.org/abs/2110.12367v1 )

ライセンス: CC BY 4.0
Zitong Zhou, Nicholas Zabaras, Daniel M. Tartakovsky(参考訳) 不均質導電性フィールドの同定と汚染物質放出履歴の再構築は地下修復の重要な側面である。 これら2つの目標を限定的かつノイズの多い油圧ヘッドと濃度測定で達成することは困難である。 この障害には、高次元パラメータの逆問題と、繰り返しフォワードモデリングに必要な高計算コストが含まれる。 低次元潜在表現を持つ異種非ガウス導電率場のパラメータ化には、畳み込み逆自己エンコーダ(CAAE)を用いる。 さらに, 3次元高密度畳み込みエンコーダデコーダ(denseed)ネットワークを訓練し, 流れと輸送過程のフォワードサロゲートとして機能させた。 CAAEとDenseEDフォワードサロゲートモデルを組み合わせることで、未知パラメータのベイズ分布から複数のデータ同化(ESMDA)アルゴリズムをサンプリングし、CAAE-DenseED-ESMDAインバージョンフレームワークを形成する。 このCAAE-DenseED-ESMDAインバージョンフレームワークを3次元汚染源および導電性場同定問題に適用した。 CAAE-ESMDAと物理流・輸送シミュレータの逆解析結果とCAAE-DenseED-ESMDAの逆解析結果を比較し,計算効率が向上した。

Identifying the heterogeneous conductivity field and reconstructing the contaminant release history are key aspects of subsurface remediation. Achieving these two goals with limited and noisy hydraulic head and concentration measurements is challenging. The obstacles include solving an inverse problem for high-dimensional parameters, and the high-computational cost needed for the repeated forward modeling. We use a convolutional adversarial autoencoder (CAAE) for the parameterization of the heterogeneous non-Gaussian conductivity field with a low-dimensional latent representation. Additionally, we trained a three-dimensional dense convolutional encoder-decoder (DenseED) network to serve as the forward surrogate for the flow and transport processes. Combining the CAAE and DenseED forward surrogate models, the ensemble smoother with multiple data assimilation (ESMDA) algorithm is used to sample from the Bayesian posterior distribution of the unknown parameters, forming a CAAE-DenseED-ESMDA inversion framework. We applied this CAAE-DenseED-ESMDA inversion framework in a three-dimensional contaminant source and conductivity field identification problem. A comparison of the inversion results from CAAE-ESMDA with physical flow and transport simulator and CAAE-DenseED-ESMDA is provided, showing that accurate reconstruction results were achieved with a much higher computational efficiency.
翻訳日:2021-10-31 15:40:18 公開日:2021-10-24
# (参考訳) AuxAdapt: ビデオセマンティックセマンティックセグメンテーションのための安定かつ効率的なテスト時間適応 [全文訳有]

AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally Consistent Video Semantic Segmentation ( http://arxiv.org/abs/2110.12369v1 )

ライセンス: CC BY 4.0
Yizhe Zhang, Shubhankar Borse, Hong Cai, Fatih Porikli(参考訳) ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームの精度を達成するのと同じくらい重要である。 既存の手法では、時間的一貫性を達成するために光フローの正規化やテストデータの微調整に依存している。 しかし、光流は常に利用可能で信頼性があるとは限らない。 それに、計算は高価です。 オリジナルのモデルをテスト時間で微調整することはコストに敏感である。 本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応法であるauxadaptを提案する。 光学的フローは必要とせず、ビデオの1パスしか必要としない。 出力におけるモデルの不確実性から主に不整合が生じるため,本研究では,映像をストリームする際の分割決定からモデルが学習する適応方式を提案し,フレーム間の類似したピクセルに対して,より信頼性が高く時間的に一貫したラベル付けを可能にする。 安定性と効率性のために、この適応を支援するために小さな補助セグメントネットワーク(AuxNet)を利用する。 より具体的には、AuxNetはオリジナルのセグメンテーションネットワーク(Main-Net)の決定を、MainNetに独自の見積を追加することで、リフレクションする。 すべてのフレームで、メインネットを固定しながらバックプロパゲーションを介してauxnetのみが更新される。 我々は,Cityscapes,CamVid,K ITTIなどの標準ビデオベンチマークに対するテスト時間適応手法を広く評価した。 その結果,提案手法はラベルの精度,時間的整合性,計算効率のよい適応(5倍以上のオーバヘッド削減)を提供することを示した。

In video segmentation, generating temporally consistent results across frames is as important as achieving frame-wise accuracy. Existing methods rely either on optical flow regularization or fine-tuning with test data to attain temporal consistency. However, optical flow is not always avail-able and reliable. Besides, it is expensive to compute. Fine-tuning the original model in test time is cost sensitive. This paper presents an efficient, intuitive, and unsupervised online adaptation method, AuxAdapt, for improving the temporal consistency of most neural network models. It does not require optical flow and only takes one pass of the video. Since inconsistency mainly arises from the model's uncertainty in its output, we propose an adaptation scheme where the model learns from its own segmentation decisions as it streams a video, which allows producing more confident and temporally consistent labeling for similarly-looking pixels across frames. For stability and efficiency, we leverage a small auxiliary segmentation network (AuxNet) to assist with this adaptation. More specifically, AuxNet readjusts the decision of the original segmentation network (Main-Net) by adding its own estimations to that of MainNet. At every frame, only AuxNet is updated via back-propagation while keeping MainNet fixed. We extensively evaluate our test-time adaptation approach on standard video benchmarks, including Cityscapes, CamVid, and KITTI. The results demonstrate that our approach provides label-wise accurate, temporally consistent, and computationally efficient adaptation (5+ folds overhead reduction comparing to state-of-the-art test-time adaptation methods).
翻訳日:2021-10-31 15:12:58 公開日:2021-10-24
# (参考訳) ArgMining-EMNLP 2021: キーポイントマッチングのための事前学習言語モデルを活用する [全文訳有]

Team Enigma at ArgMining-EMNLP 2021: Leveraging Pre-trained Language Models for Key Point Matching ( http://arxiv.org/abs/2110.12370v1 )

ライセンス: CC BY 4.0
Manav Nitin Kapadnis, Sohan Patnaik, Siba Smarak Panigrahi, Varun Madhavan, Abhilash Nandy(参考訳) 本稿では,ArgMining 2021におけるキーポイント分析共有タスクへのシステム記述について述べる。 共有タスクのトラック1は、同じスタンスの下で同じトピックに属している場合、参加者がそれぞれの引数とキーポイントの一致スコアを予測する方法を開発する必要がある。 既存の最先端の言語モデルを活用し、入力(トピック、キーポイント、引数)から抽出した追加のデータと機能を取り入れ、パフォーマンスを向上させた。 評価フェーズでは,mAP厳格化,mAP緩和スコアが0.872,0.966となり,リーダーボードでは5位となった。 術後評価では,mAPの厳格化とmAP緩和スコアの0.921と0.982をそれぞれ達成した。 私たちのモデルで再現可能な結果を生成するコードはすべてGithubで入手可能です。

We present the system description for our submission towards the Key Point Analysis Shared Task at ArgMining 2021. Track 1 of the shared task requires participants to develop methods to predict the match score between each pair of arguments and keypoints, provided they belong to the same topic under the same stance. We leveraged existing state of the art pre-trained language models along with incorporating additional data and features extracted from the inputs (topics, key points, and arguments) to improve performance. We were able to achieve mAP strict and mAP relaxed score of 0.872 and 0.966 respectively in the evaluation phase, securing 5th place on the leaderboard. In the post evaluation phase, we achieved a mAP strict and mAP relaxed score of 0.921 and 0.982 respectively. All the codes to generate reproducible results on our models are available on Github.
翻訳日:2021-10-31 14:52:20 公開日:2021-10-24
# (参考訳) 複数のアノテーションを付加した未確認肺結節切除 [全文訳有]

Uncertainty-Aware Lung Nodule Segmentation with Multiple Annotations ( http://arxiv.org/abs/2110.12372v1 )

ライセンス: CC BY 4.0
Qiuli Wang, Han Yang, Lu Shen, Mengke Zhang(参考訳) 放射線医は訓練と臨床経験が異なるため、肺結節に対する様々なセグメンテーションマップを提供することができる。 その結果、特定の肺結節の場合、いくつかの領域は分節の不確実性を引き起こす確率が高く、複数のアノテーションによる肺結節分節が困難になる。 この問題を解決するために,マルチブランチU-Netに基づく不確実性認識セグメンテーションネットワーク(UAS-Net)を提案し,セグメンテーションの不確実性を引き起こす可能性のある領域から貴重な視覚的特徴を学習し,セグメンテーション結果の向上に寄与する。 一方、このネットワークはマルチ信頼マスク(MCM)を同時に提供でき、セグメンテーションの不確実性レベルが異なる領域を指摘できる。 異なる学習目標に対して特徴認識結合構造を導入し,各分岐に特定の学習嗜好を持たせる。 さらに,複合構造の識別的特徴を学習するために,協調学習プロセスも採用されている。 その結果, LIDC-IDRIの肺結節区分け性能は, 高い不確実性を有する合理的領域を予測できることがわかった。

Since radiologists have different training and clinical experience, they may provide various segmentation maps for a lung nodule. As a result, for a specific lung nodule, some regions have a higher chance of causing segmentation uncertainty, which brings difficulty for lung nodule segmentation with multiple annotations. To address this problem, this paper proposes an Uncertainty-Aware Segmentation Network (UAS-Net) based on multi-branch U-Net, which can learn the valuable visual features from the regions that may cause segmentation uncertainty and contribute to a better segmentation result. Meanwhile, this network can provide a Multi-Confidence Mask (MCM) simultaneously, pointing out regions with different segmentation uncertainty levels. We introduce a Feature-Aware Concatenation structure for different learning targets and let each branch have a specific learning preference. Moreover, a joint adversarial learning process is also adopted to help learn discriminative features of complex structures. Experimental results show that our method can predict the reasonable regions with higher uncertainty and improve lung nodule segmentation performance in LIDC-IDRI.
翻訳日:2021-10-31 14:44:27 公開日:2021-10-24
# (参考訳) ラテン語でクルド語のテキストをペルシア・アラビア文字に翻訳する [全文訳有]

Transliterating Kurdish texts in Latin into Persian-Arabic script ( http://arxiv.org/abs/2110.12374v1 )

ライセンス: CC BY 4.0
Hossein Hassani(参考訳) クルド語は異なる文字で書かれている。 最も人気のある文字はラテン語とペルシア語である。 しかし、クルド人読者の全員が、自動翻訳者によって解決される可能性のある両方のスクリプトに精通しているわけではない。 これまでのところ、開発ツールは主にペルシア・アラビア語の文字をラテン語に翻訳している。 ラテン語のクルド文字をペルシア・アラビア文字に翻訳する文字を提示する。 また、翻訳過程において考慮すべき課題についても論じる。 このツールはクルド語のblarkの一部であり、非商用で利用可能である。

Kurdish is written in different scripts. The two most popular scripts are Latin and Persian-Arabic. However, not all Kurdish readers are familiar with both mentioned scripts that could be resolved by automatic transliterators. So far, the developed tools mostly transliterate Persian-Arabic scripts into Latin. We present a transliterator to transliterate Kurdish texts in Latin into Persian-Arabic script. We also discuss the issues that should be considered in the transliteration process. The tool is a part of Kurdish BLARK, and it is publicly available for non-commercial use
翻訳日:2021-10-31 14:32:38 公開日:2021-10-24
# (参考訳) 量子機械学習によるボソンサンプリング離散ソリトン [全文訳有]

Boson sampling discrete solitons by quantum machine learning ( http://arxiv.org/abs/2110.12379v1 )

ライセンス: CC BY 4.0
Claudio Conti(参考訳) 量子離散非線形シュレーディンガー方程式によって記述された導波路列内のガウス量子離散ソリトンを計算するためにニューラルネットワーク変分アンサッツを用いる。 位相空間における量子機械学習モデルを訓練することにより、粒子の数と相互作用強度が異なる量子ソリトン解を求める。 ガウス状態を用いることで、絡み合いの度合いとボソンサンプリングパターンを測定することができる。 ソリトンの特徴を変化させる際に異なる粒子対を生成する確率を計算し、離散ソリトンの境界状態が相関した光子対を発生させることを示す。 これらの結果は、非線形システムを用いたボソンサンプリング実験や、絡み合った多光子非線形状態を生成する量子プロセッサの開発に重要な役割を果たしている。

We use a neural network variational ansatz to compute Gaussian quantum discrete solitons in an array of waveguides described by the quantum discrete nonlinear Schroedinger equation. By training the quantum machine learning model in the phase space, we find different quantum soliton solutions varying the number of particles and interaction strength. The use of Gaussian states enables measuring the degree of entanglement and the boson sampling patterns. We compute the probability of generating different particle pairs when varying the soliton features and unveil that bound states of discrete solitons emit correlated pairs of photons. These results may have a role in boson sampling experiments with nonlinear systems and in developing quantum processors to generate entangled many-photon nonlinear states.
翻訳日:2021-10-31 14:29:50 公開日:2021-10-24
# (参考訳) esportsライブストリーミングにおける協調的解説生成のための文句読点 [全文訳有]

Sentence Punctuation for Collaborative Commentary Generation in Esports Live-Streaming ( http://arxiv.org/abs/2110.12416v1 )

ライセンス: CC BY-SA 4.0
Hong Huang, Junjie H. Xu, Xiaoling Ling and Pujana Paliyawan(参考訳) そこで本稿では,esports live-streamingにおけるコラボレーティブな解説生成のための既存の文章句読点問題を解くために,youtube によって最初に句読点された2つか3つのテキスト列による文章句読点の2つの戦略を提示し,注釈文の完全な文を得る。 我々は,2つの戦略とベースラインで,最先端の事前学習型生成言語モデルを用いて比較実験を行った。 自動計測による客観的評価と主観的分析により,2つの文列による句読点のストラテジーがベースラインを上回っていた。

To solve the existing sentence punctuation problem for collaborative commentary generation in Esports live-streaming, this paper presents two strategies for sentence punctuation for text sequences of game commentary, that is, punctuating sentences by two or three text sequence(s) originally punctuated by Youtube to obtain a complete sentence of commentary. We conducted comparative experiments utilizing and fine-tuning a state-of-the-art pre-trained generative language model among two strategies and the baseline to generate collaborative commentary. Both objective evaluations by automatic metrics and subjective analyses showed that our strategy of punctuating sentences by two text sequences outperformed the baseline.
翻訳日:2021-10-31 14:14:50 公開日:2021-10-24
# (参考訳) 適応型マルチモーダル・マルチ感覚共感技術による人間コミュニケーションの強化 [全文訳有]

Adaptive Multimodal and Multisensory Empathic Technologies for Enhanced Human Communication ( http://arxiv.org/abs/2110.15054v1 )

ライセンス: CC BY 4.0
Roxana Girju(参考訳) デジタルソーシャルプラットフォームとモバイル技術が普及し、堅牢になるにつれて、人間のコミュニケーションを促進するためにAI(Artificial Intelligence)が使われるようになる。 これは、社会的、文化的に多様なコミュニティのニーズに対処する、直感的で適応的で効果的な共感的なAIインターフェースを開発するための道を開く。 このような発展は、デジタルデザインプロセスにおける人間の知覚感覚を初めから、より正確に、より美的、記憶力があり、なめらかな経験を含む原則的な枠組みを考慮すべきだと思います。 このポジションペーパーでは、機能を提案し、プロセスで対処すべき課題を特定し、設計と実装の一部として考えるべき今後の研究方向性を提案します。 このようなアプローチによって、さまざまな実践コミュニティが、人工知能と人間のコミュニケーション、知覚的ニーズ、社会的、文化的価値の交点領域を、他方で調査することが可能になります。

As digital social platforms and mobile technologies are becoming more prevalent and robust, the use of Artificial Intelligence (AI) in facilitating human communication will grow. This, in turn, will pave the way for the development of intuitive, adaptive, and effective empathic AI interfaces that better address the needs of socially and culturally diverse communities. I believe such developments must consider a principled framework that includes the human perceptual senses in the digital design process right from the start, for a more accurate, as well as a more aesthetic, memorable, and soothing experience. In this position paper, I suggest features, identify some challenges that need to be addressed in the process, and propose some future research directions that I think should be part of the design and implementation. Such an approach will allow various communities of practice to investigate the areas of intersection between artificial intelligence, on one side, and human communication, perceptual needs and social and cultural values, on the other.
翻訳日:2021-10-31 14:09:05 公開日:2021-10-24
# (参考訳) 光電場顕微鏡による神経活動の光学的イメージング--モデルに基づく方法がデータ駆動アプローチに合致する場合 [全文訳有]

Light-Field Microscopy for optical imaging of neuronal activity: when model-based methods meet data-driven approaches ( http://arxiv.org/abs/2110.13142v1 )

ライセンス: CC BY 4.0
Pingfan Song, Herman Verinaz Jadan, Carmel L. Howe, Amanda J. Foust, Pier Luigi Dragotti(参考訳) ニューロンのネットワークがどのように情報を処理するかを理解することは、現代の神経科学における重要な課題の1つである。 この目的を達成するための必要なステップは、脳の広い領域で多くのニューロンのダイナミクスを観察できるようにすることである。 走査型顕微鏡の一種である光電場顕微鏡(lfm)は、高速3次元イメージングの特に魅力的な候補である。 単一のスナップショットでボリューム情報をキャプチャし、ビデオフレームレートでボリュームを撮像する。 LFMを用いた神経活動の画像化の特徴は、物理や光学モデルに埋め込まれた先行を十分に活用する新しい機械学習アプローチの開発である。 信号処理理論と波動光学理論は、このギャップを埋める上で重要な役割を担い、モデル駆動とデータ駆動のアプローチを統合することにより、解釈可能性と一般化を向上した新しい計算手法に寄与する。 本稿では,モデルベースおよびデータ駆動型アプローチに着目した LFM の計算手法の現状に関する総合的な調査を行う。

Understanding how networks of neurons process information is one of the key challenges in modern neuroscience. A necessary step to achieve this goal is to be able to observe the dynamics of large populations of neurons over a large area of the brain. Light-field microscopy (LFM), a type of scanless microscope, is a particularly attractive candidate for high-speed three-dimensional (3D) imaging. It captures volumetric information in a single snapshot, allowing volumetric imaging at video frame-rates. Specific features of imaging neuronal activity using LFM call for the development of novel machine learning approaches that fully exploit priors embedded in physics and optics models. Signal processing theory and wave-optics theory could play a key role in filling this gap, and contribute to novel computational methods with enhanced interpretability and generalization by integrating model-driven and data-driven approaches. This paper is devoted to a comprehensive survey to state-of-the-art of computational methods for LFM, with a focus on model-based and data-driven approaches.
翻訳日:2021-10-31 13:59:36 公開日:2021-10-24
# 認知ネットワークにおける同時センシングとチャネルアクセスのための深層強化学習

Deep Reinforcement Learning for Simultaneous Sensing and Channel Access in Cognitive Networks ( http://arxiv.org/abs/2110.14541v1 )

ライセンス: Link先を確認
Yoel Bokobza, Ron Dabora and Kobi Cohen(参考訳) 我々は,狭帯域センシングと伝送により,利用者にのみ部分的観測が可能となる認知型無線ネットワークにおける動的スペクトルアクセス(dsa)の問題を考える。 認知ネットワークは一次ユーザ(PU)と二次ユーザ(SU)で構成される。 各PUのトラフィックパターンはSUに未知であると仮定され、有限メモリマルコフ連鎖としてモデル化される。 観測は部分的であるため、チャネルセンシングとアクセスアクションの両方がスループットに影響する。 目的は、SUの長期スループットを最大化することである。 この目的を達成するために,Double Deep Q-network for Sensing and Access (DDQSA)と呼ばれる,深層Q-ラーニングによるアクセスポリシーとセンシングポリシーの両方を学習するアルゴリズムを開発した。 私たちの知る限りでは、深層q-learningを通じてdsaのセンシングとアクセスポリシーの両方を解決する最初の論文です。 第2に,DDQSAの性能評価のための最適政策を理論的に分析する。 一般のDSA問題はP-SPACE困難であるが,循環型ユーザダイナミクスの共通モデルに対する最適ポリシーを明示的に導出する。 その結果,DDQSAはセンサとチャネルアクセスの両方を実装したポリシーを学習し,既存のアプローチよりも優れていた。

We consider the problem of dynamic spectrum access (DSA) in cognitive wireless networks, where only partial observations are available to the users due to narrowband sensing and transmissions. The cognitive network consists of primary users (PUs) and a secondary user (SU), which operate in a time duplexing regime. The traffic pattern for each PU is assumed to be unknown to the SU and is modeled as a finite-memory Markov chain. Since observations are partial, then both channel sensing and access actions affect the throughput. The objective is to maximize the SU's long-term throughput. To achieve this goal, we develop a novel algorithm that learns both access and sensing policies via deep Q-learning, dubbed Double Deep Q-network for Sensing and Access (DDQSA). To the best of our knowledge, this is the first paper that solves both sensing and access policies for DSA via deep Q-learning. Second, we analyze the optimal policy theoretically to validate the performance of DDQSA. Although the general DSA problem is P-SPACE hard, we derive the optimal policy explicitly for a common model of a cyclic user dynamics. Our results show that DDQSA learns a policy that implements both sensing and channel access, and significantly outperforms existing approaches.
翻訳日:2021-10-28 15:37:34 公開日:2021-10-24
# (参考訳) 自己監督型学習のためのコントラストニューラルプロセス [全文訳有]

Contrastive Neural Processes for Self-Supervised Learning ( http://arxiv.org/abs/2110.13623v1 )

ライセンス: CC BY 4.0
Konstantinos Kallidromitis, Denis Gudovskiy, Kozuka Kazuki, Ohama Iku, Luca Rigazio(参考訳) 最近の対照的な手法は、いくつかの領域における自己教師あり学習の大幅な改善を示している。 特にコントラスト法は、コンピュータビジョンなどのデータ拡張を簡単に構築できる場合に最も効果的である。 しかし、時系列データのような確立されたデータ変換がなければ、ドメインでは成功しない。 本稿では,コントラスト学習と神経プロセスを組み合わせた新しい自己教師あり学習フレームワークを提案する。 時系列予測を行うために、最近の神経プロセスの進歩に依存している。 これにより、様々なサンプリング関数のセットを使用することで、拡張されたバージョンのデータを生成することができる。 従来のニューラルプロセスを拡張し、自己教師付き設定で時系列表現を学ぶための新しいコントラスト損失を提案する。 したがって、従来の自己教師ありメソッドとは異なり、拡張パイプラインはタスクに依存しないため、様々なアプリケーションでうまく動作します。 特に,本手法を用いてトレーニングした線形分類器を用いたresnetは,産業,医療,オーディオのデータセット間で最先端技術よりも優れており,ecg周期データの精度が10%以上向上している。 さらに,提案手法を10%のラベルに微調整することで,完全な教師付き学習に匹敵する結果が得られることを示す。

Recent contrastive methods show significant improvement in self-supervised learning in several domains. In particular, contrastive methods are most effective where data augmentation can be easily constructed e.g. in computer vision. However, they are less successful in domains without established data transformations such as time series data. In this paper, we propose a novel self-supervised learning framework that combines contrastive learning with neural processes. It relies on recent advances in neural processes to perform time series forecasting. This allows to generate augmented versions of data by employing a set of various sampling functions and, hence, avoid manually designed augmentations. We extend conventional neural processes and propose a new contrastive loss to learn times series representations in a self-supervised setup. Therefore, unlike previous self-supervised methods, our augmentation pipeline is task-agnostic, enabling our method to perform well across various applications. In particular, a ResNet with a linear classifier trained using our approach is able to outperform state-of-the-art techniques across industrial, medical and audio datasets improving accuracy over 10% in ECG periodic data. We further demonstrate that our self-supervised representations are more efficient in the latent space, improving multiple clustering indexes and that fine-tuning our method on 10% of labels achieves results competitive to fully-supervised learning.
翻訳日:2021-10-28 12:26:51 公開日:2021-10-24
# 話者プロファイリングのための半教師付き学習アプローチによる話者表現

Learning Speaker Representation with Semi-supervised Learning approach for Speaker Profiling ( http://arxiv.org/abs/2110.13653v1 )

ライセンス: Link先を確認
Shangeth Rajaa, Pham Van Tung and Chng Eng Siong(参考訳) 話者プロファイリングは、年齢や身長などの話者特性を推定することを目的としており、予測システムやレコメンデーションシステムなど、幅広い応用がある。 本研究では,話者プロファイリングのための低訓練データの問題を軽減するための半教師付き学習手法を提案する。 これは、話者情報を用いた外部コーパスを使用して、話者プロファイリングシステムの改善に役立つより良い表現を訓練する。 Specifically, besides the standard supervised learning path, the proposed framework has two more paths: (1) an unsupervised speaker representation learning path that helps to capture the speaker information; (2) a consistency training path that helps to improve the robustness of the system by enforcing it to produce similar predictions for utterances of the same speaker.The proposed approach is evaluated on the TIMIT and NISP datasets for age, height, and gender estimation, while the Librispeech is used as the unsupervised external corpus. 単一タスクとマルチタスクの両方でトレーニングを行った結果,男性の6.8歳と7.4歳のRoot Mean Square Error(RMSE)と,女性話者の4.8歳と5.0歳のMean Absolute Error(MAE)を用いて,TIMIT Testデータセットの年齢推定の最先端結果が得られた。

Speaker profiling, which aims to estimate speaker characteristics such as age and height, has a wide range of applications inforensics, recommendation systems, etc. In this work, we propose a semisupervised learning approach to mitigate the issue of low training data for speaker profiling. This is done by utilizing external corpus with speaker information to train a better representation which can help to improve the speaker profiling systems. Specifically, besides the standard supervised learning path, the proposed framework has two more paths: (1) an unsupervised speaker representation learning path that helps to capture the speaker information; (2) a consistency training path that helps to improve the robustness of the system by enforcing it to produce similar predictions for utterances of the same speaker.The proposed approach is evaluated on the TIMIT and NISP datasets for age, height, and gender estimation, while the Librispeech is used as the unsupervised external corpus. Trained both on single-task and multi-task settings, our approach was able to achieve state-of-the-art results on age estimation on the TIMIT Test dataset with Root Mean Square Error(RMSE) of6.8 and 7.4 years and Mean Absolute Error(MAE) of 4.8 and5.0 years for male and female speakers respectively.
翻訳日:2021-10-27 16:31:20 公開日:2021-10-24
# DAGカードが新しいモデルカードになる

DAG Card is the new Model Card ( http://arxiv.org/abs/2110.13601v1 )

ライセンス: Link先を確認
Jacopo Tagliabue, Ville Tuulos, Ciro Greco, Valay Dave(参考訳) モデリング機能の進歩的なコモディティ化によって、データ中心のAIは、トレーニングの前後で何が起こるかが現実のデプロイメントに不可欠であることを認識します。 モデルカードの背景にある直感に続いて,データ中心の視点を包含する文書としてDAGカードを提案する。 機械学習パイプラインは(モデルではなく)多くの実用的なユースケースにおいて最も適切なレベルのドキュメントであり、コードからカードを生成するオープン実装をコミュニティと共有しています。

With the progressive commoditization of modeling capabilities, data-centric AI recognizes that what happens before and after training becomes crucial for real-world deployments. Following the intuition behind Model Cards, we propose DAG Cards as a form of documentation encompassing the tenets of a data-centric point of view. We argue that Machine Learning pipelines (rather than models) are the most appropriate level of documentation for many practical use cases, and we share with the community an open implementation to generate cards from code.
翻訳日:2021-10-27 16:10:16 公開日:2021-10-24
# 確率シミュレータのための深層学習に基づく代理モデル

A deep learning based surrogate model for stochastic simulators ( http://arxiv.org/abs/2110.13809v1 )

ライセンス: Link先を確認
Akshay Thakur and Souvik Chakraborty(参考訳) 確率シミュレータのための深層学習に基づく代理モデルを提案する。 基本的な考え方は、生成ニューラルネットワークを使用して確率応答を近似することである。 このようなフレームワークの課題は、ネットワークアーキテクチャの設計と確率応答に適した損失関数の選択にある。 我々は、単純なフィードフォワードニューラルネットワークを用いて、損失関数として条件付き最大平均誤差(CMMD)を提案する。 cmmdはカーネルヒルベルト空間を再現する性質を利用し、ターゲットとニューラルネットワークの予測分布との間の不一致を捉えることができる。 提案手法は,応答の確率密度関数に関する仮定をしないという意味で,数学的に厳密である。 提案手法の性能を文献から選択した4つのベンチマーク問題を用いて示す。 その結果,提案手法の優れた性能を示した。

We propose a deep learning-based surrogate model for stochastic simulators. The basic idea is to use generative neural network to approximate the stochastic response. The challenge with such a framework resides in designing the network architecture and selecting loss-function suitable for stochastic response. While we utilize a simple feed-forward neural network, we propose to use conditional maximum mean discrepancy (CMMD) as the loss-function. CMMD exploits the property of reproducing kernel Hilbert space and allows capturing discrepancy between the between the target and the neural network predicted distributions. The proposed approach is mathematically rigorous, in the sense that it makes no assumptions about the probability density function of the response. Performance of the proposed approach is illustrated using four benchmark problems selected from the literature. Results obtained indicate the excellent performance of the proposed approach.
翻訳日:2021-10-27 14:23:48 公開日:2021-10-24
# (参考訳) ビデオセグメンテーションにおける知覚的一貫性 [全文訳有]

Perceptual Consistency in Video Segmentation ( http://arxiv.org/abs/2110.12385v1 )

ライセンス: CC BY 4.0
Yizhe Zhang, Shubhankar Borse, Hong Cai, Ying Wang, Ning Bi, Xiaoyun Jiang, Fatih Porikli(参考訳) 本稿では,ビデオセマンティックセグメンテーションにおいて,時間的一貫性と画素単位の正確性の両方をキャプチャできる新しい知覚的一貫性視点を提案する。 近接する2つのビデオフレームが与えられると、知覚一貫性は、セグメンテーション決定が一般的な知覚特徴のマッチングによって得られたピクセル対応とどの程度の一致するかを測定する。 具体的には、あるフレーム内の各ピクセルに対して、もう一方のフレーム内で最も知覚的に相関したピクセルを見つける。 我々の直感では、そのようなピクセルのペアは同じクラスに属する可能性が高い。 次に,これらの2つのフレーム間のセグメンテーションマップの知覚整合性に基づいて,セグメンテーションがそのような知覚対応とどの程度一致しているかを評価する。 映像における連続したセグメンテーションマップの知覚一貫性を計測することにより,映像セグメンテーションの時間的一貫性を評価することができる。 さらに、無ラベルのフレーム上でのセグメンテーションの画素単位の正しさを予測するのに役立つ知覚的一貫性を利用することができる。 より具体的には、予測されたセグメンテーションと近くのフレーム上の利用可能な地上真実との知覚的整合性を測定し、セグメンテーションの信頼度と組み合わせることで、各ピクセルの分類精度を正確に評価することができる。 提案する知覚的一貫性は,フローに基づく尺度と比較して,映像セグメンテーションの時間的一貫性をより正確に評価できることを示す。 さらに、分類信頼性のみを使用する場合と比較して、ラベルのないテストフレーム上でのセグメンテーション精度をより確実に予測することができる。 最後に,提案手法はセグメント化モデルのトレーニングにおいて正規化器として使用することができ,精度を維持しつつ時間的に一貫した映像分割を実現する。

In this paper, we present a novel perceptual consistency perspective on video semantic segmentation, which can capture both temporal consistency and pixel-wise correctness. Given two nearby video frames, perceptual consistency measures how much the segmentation decisions agree with the pixel correspondences obtained via matching general perceptual features. More specifically, for each pixel in one frame, we find the most perceptually correlated pixel in the other frame. Our intuition is that such a pair of pixels are highly likely to belong to the same class. Next, we assess how much the segmentation agrees with such perceptual correspondences, based on which we derive the perceptual consistency of the segmentation maps across these two frames. Utilizing perceptual consistency, we can evaluate the temporal consistency of video segmentation by measuring the perceptual consistency over consecutive pairs of segmentation maps in a video. Furthermore, given a sparsely labeled test video, perceptual consistency can be utilized to aid with predicting the pixel-wise correctness of the segmentation on an unlabeled frame. More specifically, by measuring the perceptual consistency between the predicted segmentation and the available ground truth on a nearby frame and combining it with the segmentation confidence, we can accurately assess the classification correctness on each pixel. Our experiments show that the proposed perceptual consistency can more accurately evaluate the temporal consistency of video segmentation as compared to flow-based measures. Furthermore, it can help more confidently predict segmentation accuracy on unlabeled test frames, as compared to using classification confidence alone. Finally, our proposed measure can be used as a regularizer during the training of segmentation models, which leads to more temporally consistent video segmentation while maintaining accuracy.
翻訳日:2021-10-27 13:18:55 公開日:2021-10-24
# (参考訳) バイアスのない見積もりを学ぶ [全文訳有]

Learning to Estimate Without Bias ( http://arxiv.org/abs/2110.12403v1 )

ライセンス: CC BY 4.0
Tzvi Diskin, Yonina C. Eldar and Ami Wiesel(参考訳) パラメータ推定におけるディープラーニングの利用を検討する。 本稿では、標準平均二乗誤差(MSE)損失に二乗バイアス項を加えるバイアス拘束型推定器(BCE)を提案する。 BCEの主な動機は、ベイズ以前の決定論的未知のパラメータを推定することである。 平均的に最適である標準学習ベース推定器とは異なり、BCEは最小分散不偏推定器(MVUE)に収束する。 閉形式解を線形BCEに導出する。 これらは線形回帰と最小二乗法の間の柔軟なブリッジを提供する。 非線形設定では,BCE が MVUE とよく似た性能を示す。 BCEの第二の動機は、同じ未知の複数の推定値を平均化してパフォーマンスを向上させるアプリケーションである。 例えば、分散センサーネットワークやテスト時のデータ拡張がある。 そのような応用において、不偏性は漸近的一貫性に必要な条件である。

We consider the use of deep learning for parameter estimation. We propose Bias Constrained Estimators (BCE) that add a squared bias term to the standard mean squared error (MSE) loss. The main motivation to BCE is learning to estimate deterministic unknown parameters with no Bayesian prior. Unlike standard learning based estimators that are optimal on average, we prove that BCEs converge to Minimum Variance Unbiased Estimators (MVUEs). We derive closed form solutions to linear BCEs. These provide a flexible bridge between linear regrssion and the least squares method. In non-linear settings, we demonstrate that BCEs perform similarly to MVUEs even when the latter are computationally intractable. A second motivation to BCE is in applications where multiple estimates of the same unknown are averaged for improved performance. Examples include distributed sensor networks and data augmentation in test-time. In such applications, unbiasedness is a necessary condition for asymptotic consistency.
翻訳日:2021-10-27 13:02:48 公開日:2021-10-24
# (参考訳) 発話生成とルックアヘッドによる目標指向対話の改善 [全文訳有]

Improved Goal Oriented Dialogue via Utterance Generation and Look Ahead ( http://arxiv.org/abs/2110.12412v1 )

ライセンス: CC BY 4.0
Eyal Ben-David and Boaz Carmeli and Ateret Anaby-Tavor(参考訳) ゴール指向の対話システムは、ほとんどの企業にとって顕著なカスタマーケア対話チャネルとなっている。 しかし、すべての対話がスムーズであるとは限らないし、顧客意図の誤解が対話の失敗の主な原因である。 対話データから逐次ユーザ発話を生成するために,ディープテキストからテキストへのニューラルモデルをトレーニングすることにより,意図予測を改善することができることを示す。 そこで我々は,逐次ユーザ発話生成を用いて意図予測を改善するマルチタスク学習レジームを定義する。 提案手法は,補助生成タスクに大量のラベルなし対話データを用いるという2つの相補的要因により,報告された改善を達成している。 第二に、生成したユーザ発話を意図予測モデルの付加信号として使用する。 最後に、ユーザの発話生成を用いて推論時間における意図予測を改善する新しいルック・アヘッドアプローチを提案する。 具体的には、不明瞭な意図を持った会話のための反実的連続したユーザ発話を生成し、利用可能および生成された発話の連結シーケンスを再評価することにより予測を曖昧にする。

Goal oriented dialogue systems have become a prominent customer-care interaction channel for most businesses. However, not all interactions are smooth, and customer intent misunderstanding is a major cause of dialogue failure. We show that intent prediction can be improved by training a deep text-to-text neural model to generate successive user utterances from unlabeled dialogue data. For that, we define a multi-task training regime that utilizes successive user-utterance generation to improve the intent prediction. Our approach achieves the reported improvement due to two complementary factors: First, it uses a large amount of unlabeled dialogue data for an auxiliary generation task. Second, it uses the generated user utterance as an additional signal for the intent prediction model. Lastly, we present a novel look-ahead approach that uses user utterance generation to improve intent prediction in inference time. Specifically, we generate counterfactual successive user utterances for conversations with ambiguous predicted intents, and disambiguate the prediction by reassessing the concatenated sequence of available and generated utterances.
翻訳日:2021-10-27 12:43:59 公開日:2021-10-24
# (参考訳) CNN変換器を用いたエンコーダデコーダネットワークによるバングラ画像生成 [全文訳有]

Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder Network ( http://arxiv.org/abs/2110.12442v1 )

ライセンス: CC0 1.0
Md Aminul Haque Palash, MD Abdullah Al Nasim, Sourav Saha, Faria Afrin, Raisa Mallik, Sathishkumar Samiappan(参考訳) 自動キャプション(automatic image captioning)とは、自然言語における画像のテキスト記述の正確性を検証する構文的手法である。 既存のベンガル画像キャプション(bic)研究で使用されるエンコーダ・デコーダ構造は、エンコーダの入力として抽象画像特徴ベクトルを用いた。 本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。 実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせて,BanglaLekhaImageCap tionsデータセット上で正確かつ多様なキャプションを生成する。 提案手法は既存のベンガル画像キャプチャー処理よりも優れており,BLEU-1では0.694,BLEU-2では0.630,BLEU-3では0.582,METEORでは0.337と評価された。

Automatic Image Captioning is the never-ending effort of creating syntactically and validating the accuracy of textual descriptions of an image in natural language with context. The encoder-decoder structure used throughout existing Bengali Image Captioning (BIC) research utilized abstract image feature vectors as the encoder's input. We propose a novel transformer-based architecture with an attention mechanism with a pre-trained ResNet-101 model image encoder for feature extraction from images. Experiments demonstrate that the language decoder in our technique captures fine-grained information in the caption and, then paired with image features, produces accurate and diverse captions on the BanglaLekhaImageCapt ions dataset. Our approach outperforms all existing Bengali Image Captioning work and sets a new benchmark by scoring 0.694 on BLEU-1, 0.630 on BLEU-2, 0.582 on BLEU-3, and 0.337 on METEOR.
翻訳日:2021-10-27 12:26:35 公開日:2021-10-24
# (参考訳) データ駆動型位相検出を用いたパンデミックモデル : COVID-19データを用いた研究 [全文訳有]

Pandemic model with data-driven phase detection, a study using COVID-19 data ( http://arxiv.org/abs/2110.12450v1 )

ライセンス: CC BY 4.0
Yuansan Liu, Saransh Srivastava, Zuo Huang, Felisa J. V\'azquez-Abad(参考訳) 最近の新型コロナウイルス(covid-19)パンデミックは、パンデミックを理解し、アドバイスし、コントロールするために、活発な科学活動を促進している。 現在、データは世界中で停滞する速度で自由に利用できる。 残念なことに、この前例のないレベルの情報にはさまざまなデータソースとフォーマットが含まれており、モデルは常にデータの記述に準拠しているとは限らない。 保健当局は、行動の変化や社会的制約など、突然の変化に適応できるより正確なモデルの必要性を認識している。 本研究では,データ上の統計的変化検出テストと ``SIR'' 型モデルが同時に適合するモデルを定式化する。 その結果、賢く自律的な常微分方程式が出来上がり、そのパラメータは様々な時点(データから自動的に学習される)で変化する。 私たちのモデルの主な貢献は (a)パラメータの解釈を提供する (b)モデルのどのパラメーターが疾患の広がりの変化を生み出すのにより重要であるかを決定すること、及び (c) パンデミックの進展の急激な変化をデータ駆動で発見すること。 これらの特徴は、状況をよりよく記述し、意思決定のためのより良い情報品質を提供する新しいモデルを提供する。

The recent COVID-19 pandemic has promoted vigorous scientific activity in an effort to understand, advice and control the pandemic. Data is now freely available at a staggering rate worldwide. Unfortunately, this unprecedented level of information contains a variety of data sources and formats, and the models do not always conform to the description of the data. Health officials have recognized the need for more accurate models that can adjust to sudden changes, such as produced by changes in behavior or social restrictions. In this work we formulate a model that fits a ``SIR''-type model concurrently with a statistical change detection test on the data. The result is a piece wise autonomous ordinary differential equation, whose parameters change at various points in time (automatically learned from the data). The main contributions of our model are: (a) providing interpretation of the parameters, (b) determining which parameters of the model are more important to produce changes in the spread of the disease, and (c) using data-driven discovery of sudden changes in the evolution of the pandemic. Together, these characteristics provide a new model that better describes the situation and thus, provides better quality of information for decision making.
翻訳日:2021-10-27 12:17:31 公開日:2021-10-24
# (参考訳) 重み付き逆数モデルによるデノボ分子生成 [全文訳有]

De Novo Molecular Generation with Stacked Adversarial Model ( http://arxiv.org/abs/2110.12454v1 )

ライセンス: CC BY 4.0
Yuansan Liu, James Bailey(参考訳) 望ましい生物学的性質を持つ新規な薬物分子の生成は、時間と複雑な作業である。 de novoの薬物設計に有望なアプローチとして、条件付き生成広告モデルが最近提案されている。 本稿では,既存のadversarial autoencoder (aae) ベースのモデルを2つのモデルを積み重ねることで拡張する新しい生成モデルを提案する。 積み重ねられたアプローチは、既知の薬物とより似た分子だけでなく、より有効な分子を生み出します。 この困難なタスクを2つのサブ問題に分割する。 分子と遺伝子発現データから原始的な特徴を学習する第一段階モデル。 第二段階モデルでは、これらの特徴を分子の性質を学習し、より有効な分子を精製する。 LINCS L1000データセットのベースライン法との比較実験により,提案モデルが分子生成に有望な性能を示した。

Generating novel drug molecules with desired biological properties is a time consuming and complex task. Conditional generative adversarial models have recently been proposed as promising approaches for de novo drug design. In this paper, we propose a new generative model which extends an existing adversarial autoencoder (AAE) based model by stacking two models together. Our stacked approach generates more valid molecules, as well as molecules that are more similar to known drugs. We break down this challenging task into two sub-problems. A first stage model to learn primitive features from the molecules and gene expression data. A second stage model then takes these features to learn properties of the molecules and refine more valid molecules. Experiments and comparison to baseline methods on the LINCS L1000 dataset demonstrate that our proposed model has promising performance for molecular generation.
翻訳日:2021-10-27 12:00:06 公開日:2021-10-24
# (参考訳) 胸部X線データを用いた新型コロナウイルス診断のための人工知能モデルの必要性分析 [全文訳有]

Requirement analysis for an artificial intelligence model for the diagnosis of the COVID-19 from chest X-ray data ( http://arxiv.org/abs/2110.12464v1 )

ライセンス: CC BY 4.0
Tuomo Kalliokoski(参考訳) 新型コロナウイルスの診断のためのさまざまなAIモデルに関する複数の論文が公開されており、有望な結果が得られている。 残念なことに、多くの論文は臨床的に使用可能なモデルに必要な洗練度に達していない。 本稿では、胸部X線データ(CXR)から、AIによる新型コロナウイルスの診断を提案する将来の論文のより包括的な要件を提示するために、複数のレビュー論文、ガイドライン、その他の関連資料を概観する。 主な発見は、臨床に利用可能なAIは、非常に優れたドキュメンテーション、潜在的なバイアスとパフォーマンスの包括的な統計分析、説明可能性モジュールを持つ必要があることである。

There are multiple papers published about different AI models for the COVID-19 diagnosis with promising results. Unfortunately according to the reviews many of the papers do not reach the level of sophistication needed for a clinically usable model. In this paper I go through multiple review papers, guidelines, and other relevant material in order to generate more comprehensive requirements for the future papers proposing a AI based diagnosis of the COVID-19 from chest X-ray data (CXR). Main findings are that a clinically usable AI needs to have an extremely good documentation, comprehensive statistical analysis of the possible biases and performance, and an explainability module.
翻訳日:2021-10-27 11:43:07 公開日:2021-10-24
# (参考訳) 不確かさを意識したサイクル一貫性によるロバストネス [全文訳有]

Robustness via Uncertainty-aware Cycle Consistency ( http://arxiv.org/abs/2110.12467v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Yanbei Chen, Zeynep Akata(参考訳) 未ペア画像対変換とは、画像対を持たない画像領域間のマッピングを学習することを指す。 既存の手法では、異常値や予測の不確実性に対するロバスト性を明示的にモデル化せずに決定論的マッピングを学習する。 そこで本研究では,一般ガウス分布による画素単位残差をモデル化し,重み付き分布をモデル化可能な不確実性認識型一般化適応サイクル一貫性(ugac)に基づく新しい確率論的手法を提案する。 我々は,自然画像の未ペア画像翻訳,標準データセットの利用,自律走行,マップ,ファサード,MRIによる医用画像領域など,さまざまな課題に対する最先端の手法との比較を行った。 実験結果から,本手法は試験データにみられない摂動に対して強い強靭性を示すことが示された。 コードは以下の通りである。 https://github.com/E xplainableML/Uncerta intyAwareCycleConsis tency。

Unpaired image-to-image translation refers to learning inter-image-domain mapping without corresponding image pairs. Existing methods learn deterministic mappings without explicitly modelling the robustness to outliers or predictive uncertainty, leading to performance degradation when encountering unseen perturbations at test time. To address this, we propose a novel probabilistic method based on Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC), which models the per-pixel residual by generalized Gaussian distribution, capable of modelling heavy-tailed distributions. We compare our model with a wide variety of state-of-the-art methods on various challenging tasks including unpaired image translation of natural images, using standard datasets, spanning autonomous driving, maps, facades, and also in medical imaging domain consisting of MRI. Experimental results demonstrate that our method exhibits stronger robustness towards unseen perturbations in test data. Code is released here: https://github.com/E xplainableML/Uncerta intyAwareCycleConsis tency.
翻訳日:2021-10-27 11:23:38 公開日:2021-10-24
# (参考訳) マイクロバッチストリーミング:小型メモリシステム上での大きなバッチサイズを用いたDNNモデルのトレーニングを可能にする [全文訳有]

Micro Batch Streaming: Allowing the Training of DNN models Using a large batch size on Small Memory Systems ( http://arxiv.org/abs/2110.12484v1 )

ライセンス: CC BY 4.0
DoangJoo Synn, XinYu Piao, JooYoung Park and Jong-Kook Kim(参考訳) ディープラーニングモデルのサイズは、過去10年間で大幅に増加している。 このようなモデルは、モデルと大きなデータサイズの両方に対応できる十分なメモリを持っていないため、大きなバッチサイズでトレーニングすることは困難である。 バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、ターゲットマシンのメモリ容量に依存し、制限されており、モデルがアップロードされた後、残りのメモリに依存する。 バッチサイズが小さいと、通常パフォーマンスが低下する。 本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案する。 この方法は、バッチを残りのメモリサイズに適したサイズに分割し、ターゲットマシンに順次ストリームするバッチストリーミングアルゴリズムを提供することで、ディープラーニングモデルのトレーニングを支援する。 勾配の蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。 本手法の目的は,対象システムのメモリに収まらない,数学的に決定された最適なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。

The size of the deep learning models has greatly increased over the past decade. Such models are difficult to train using a large batch size, because commodity machines do not have enough memory to accommodate both the model and a large data size. The batch size is one of the hyper-parameters used in the training model, and it is dependent on and is limited by the target machine memory capacity and it is dependent on the remaining memory after the model is uploaded. A smaller batch size usually results in performance degradation. This paper proposes a framework called Micro-Batch Streaming (MBS) to address this problem. This method helps deep learning models to train by providing a batch streaming algorithm that splits a batch into the appropriate size for the remaining memory size and streams them sequentially to the target machine. A loss normalization algorithm based on the gradient accumulation is used to maintain the performance. The purpose of our method is to allow deep learning models to train using mathematically determined optimal batch sizes that cannot fit into the memory of a target system.
翻訳日:2021-10-27 10:56:45 公開日:2021-10-24
# (参考訳) 分布型探索によるニューラルネットワークプログラムのスケーリング [全文訳有]

Scaling Neural Program Synthesis with Distribution-based Search ( http://arxiv.org/abs/2110.12485v1 )

ライセンス: CC BY 4.0
Nathana\"el Fijalkow and Guillaume Lagarde and Th\'eo Matricon and Kevin Ellis and Pierre Ohlmann and Akarsh Potta(参考訳) 入力出力例からコンピュータプログラムを自動的に構築する問題を考える。 本稿では,確率的およびニューラルプログラム合成手法を新しい探索アルゴリズムで拡張する方法について検討し,分布に基づく探索というフレームワークを提案する。 本フレームワークでは,ヒープ検索(enumerative method)とSQRTサンプリング(probabilistic method)という2つの新しい検索アルゴリズムを導入する。 両手法に一定の最適性の保証を証明し,確率的および神経的手法とどのように統合するかを示し,並列計算環境にまたがって大規模に動作する方法を示す。 これらの発見は、機械学習型プログラム合成装置の最近の発展と統合したプログラム合成のための探索アルゴリズムの理論的および応用的な研究を提供する。

We consider the problem of automatically constructing computer programs from input-output examples. We investigate how to augment probabilistic and neural program synthesis methods with new search algorithms, proposing a framework called distribution-based search. Within this framework, we introduce two new search algorithms: Heap Search, an enumerative method, and SQRT Sampling, a probabilistic method. We prove certain optimality guarantees for both methods, show how they integrate with probabilistic and neural techniques, and demonstrate how they can operate at scale across parallel compute environments. Collectively these findings offer theoretical and applied studies of search algorithms for program synthesis that integrate with recent developments in machine-learned program synthesizers.
翻訳日:2021-10-27 10:46:42 公開日:2021-10-24
# (参考訳) グラミアン角差場を用いた脳波信号のディープニューラルネットワークによる聴覚注意スコア予測 [全文訳有]

Deep Neural Networks on EEG Signals to Predict Auditory Attention Score Using Gramian Angular Difference Field ( http://arxiv.org/abs/2110.12503v1 )

ライセンス: CC BY 4.0
Mahak Kothari, Shreyansh Joshi, Adarsh Nandanwar, Aadetya Jaiswal, Veeky Baths(参考訳) 聴覚注意は、他の聴覚刺激を無視したり妨げたりしながら、意図的に特定の音源や話し言葉に注意を集中させる選択的タイプの聴覚である。 ある意味では、個人の聴覚的注意スコアは、その人が聴覚的タスクにおいて持つことができる焦点を示す。 深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか? 本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。 より具体的には、回帰問題として注意推定を扱う。 この作業は、一般公開されているPhyaatデータセット上で実施されている。 GADF(Gramian Angular Difference Field)の概念は、時系列脳波データを14チャンネルのイメージに変換するために使われており、2D CNN、3D CNN、畳み込みオートエンコーダなどの様々なディープラーニングモデルを訓練することができる。 彼らのパフォーマンスは、以前行われたものと比べられている。 私たちが試したさまざまなモデルの中で、2D CNNは最高のパフォーマンスを与えました。 これは既存の手法を0.22の平均絶対誤差(MAE)で上回った。

Auditory attention is a selective type of hearing in which people focus their attention intentionally on a specific source of a sound or spoken words whilst ignoring or inhibiting other auditory stimuli. In some sense, the auditory attention score of an individual shows the focus the person can have in auditory tasks. The recent advancements in deep learning and in the non-invasive technologies recording neural activity beg the question, can deep learning along with technologies such as electroencephalograp hy (EEG) be used to predict the auditory attention score of an individual? In this paper, we focus on this very problem of estimating a person's auditory attention level based on their brain's electrical activity captured using 14-channeled EEG signals. More specifically, we deal with attention estimation as a regression problem. The work has been performed on the publicly available Phyaat dataset. The concept of Gramian Angular Difference Field (GADF) has been used to convert time-series EEG data into an image having 14 channels, enabling us to train various deep learning models such as 2D CNN, 3D CNN, and convolutional autoencoders. Their performances have been compared amongst themselves as well as with the work done previously. Amongst the different models we tried, 2D CNN gave the best performance. It outperformed the existing methods by a decent margin of 0.22 mean absolute error (MAE).
翻訳日:2021-10-27 10:27:01 公開日:2021-10-24
# (参考訳) 多項式関係を用いたモデルドリフトの検出 [全文訳有]

Detecting model drift using polynomial relations ( http://arxiv.org/abs/2110.12506v1 )

ライセンス: CC BY 4.0
Eliran Roffe, Samuel Ackerman, Orna Raz and Eitan Farchi(参考訳) 機械学習(ml)モデルは、ローン申請者を良いまたは悪いリスクに分類するなど、重要な機能を提供します。 各モデルは、トレーニングで使用されるデータと、フィールドで使用されるデータは、基礎となる未知の分布から来ると仮定して訓練される。 多くの場合、この仮定は実際には破られる。 モデルパフォーマンスへの影響を最小限に抑えるために、これがいつ発生するかを特定することが望ましい。 本研究では,データ特徴間の多項式関係を同定し,データ分布の変化を検出する新しい手法を提案する。 同定された関係の強度をr-平方値を用いて測定する。 強い多項式関係は、データ分布が変化しなければ安定していなければならないデータの重要な特性を捕捉する。 したがって,学習した強多項式関係を用いてドリフトを同定する。 与えられた所望しきい値よりも強い多項式関係の集合に対して、その関係で観測されるドリフトの量を計算する。 ベースラインデータとフィールドデータとの多項式関係性についてベイズ係数を計算することによりドリフトの量を推定する。 本研究では,3つの公開データセットにおける変化範囲をシミュレートし,多項式関係の確率変化のベイズ係数を用いてドリフトを識別できることを実証的に検証する。

Machine learning (ML) models serve critical functions, such as classifying loan applicants as good or bad risks. Each model is trained under the assumption that the data used in training, and the data used in field come from the same underlying unknown distribution. Often this assumption is broken in practice. It is desirable to identify when this occurs in order to minimize the impact on model performance. We suggest a new approach to detect change in the data distribution by identifying polynomial relations between the data features. We measure the strength of each identified relation using its R-square value. A strong polynomial relation captures a significant trait of the data which should remain stable if the data distribution does not change. We thus use a set of learned strong polynomial relations to identify drift. For a set of polynomial relations that are stronger than a given desired threshold, we calculate the amount of drift observed for that relation. The amount of drift is estimated by calculating the Bayes Factor for the polynomial relation likelihood of the baseline data versus field data. We empirically validate the approach by simulating a range of changes in three publicly-available data sets, and demonstrate the ability to identify drift using the Bayes Factor of the polynomial relation likelihood change.
翻訳日:2021-10-27 10:15:39 公開日:2021-10-24
# (参考訳) 灌流画像からの放射能特徴を用いた脳卒中患者の側方血流予測のための深層学習アプローチ [全文訳有]

A Deep Learning Approach to Predicting Collateral Flow in Stroke Patients Using Radiomic Features from Perfusion Images ( http://arxiv.org/abs/2110.12508v1 )

ライセンス: CC BY 4.0
Giles Tetteh, Fernando Navarro, Johannes Paetzold, Jan Kirschke, Claus Zimmer, Bjoern H. Menze(参考訳) 側方循環は、虚血性外傷による血流が損なわれている部位に酸素を供給できる特殊な無酸素流路から生じる。 副次循環の質は、良好な臨床結果の可能性を判断するための重要な要因として確立されており、脳卒中ケアモデルの選択を決定するには長い道のりをたどっている。 側方血流を定量化するための画像法やグレーティング基準はいくつか存在するが、実際のグレーティングは主に取得した画像の手動検査によって行われる。 このアプローチは多くの課題と関連している。 まず、臨床医は患者にどの重症度を割り当てるかを決める前に、関心領域を確認するためにいくつかの画像のスライスをスキャンする必要がある。 第2に, 臨床医の体験レベルに応じて患者に割り当てられた最終学年では, バイアスや不整合の傾向が高い。 MR灌流データから抽出した放射線学的特徴に基づいて,脳卒中患者の側方血流低下を予測するための深層学習手法を提案する。 まず,興味検出課題の領域を強化学習問題として定式化し,深層学習ネットワークを訓練し,3次元mr灌流ボリューム内のオクルード領域を自動的に検出する。 第2に, 局所画像記述子および雑音自動エンコーダを用いて, 得られた領域から放射能の特徴を抽出する。 最後に、convolutional neural network(畳み込みニューラルネットワーク)および他の機械学習分類器を抽出された放射線学的特徴に適用し、与えられた患者ボリュームの副次的フローグレーティングを、no flow (0)、premium flow (1)、good flow (2)の3つの重大クラスのうちの1つとして自動的に予測する。

Collateral circulation results from specialized anastomotic channels which are capable of providing oxygenated blood to regions with compromised blood flow caused by ischemic injuries. The quality of collateral circulation has been established as a key factor in determining the likelihood of a favorable clinical outcome and goes a long way to determine the choice of stroke care model - that is the decision to transport or treat eligible patients immediately. Though there exist several imaging methods and grading criteria for quantifying collateral blood flow, the actual grading is mostly done through manual inspection of the acquired images. This approach is associated with a number of challenges. First, it is time-consuming - the clinician needs to scan through several slices of images to ascertain the region of interest before deciding on what severity grade to assign to a patient. Second, there is a high tendency for bias and inconsistency in the final grade assigned to a patient depending on the experience level of the clinician. We present a deep learning approach to predicting collateral flow grading in stroke patients based on radiomic features extracted from MR perfusion data. First, we formulate a region of interest detection task as a reinforcement learning problem and train a deep learning network to automatically detect the occluded region within the 3D MR perfusion volumes. Second, we extract radiomic features from the obtained region of interest through local image descriptors and denoising auto-encoders. Finally, we apply a convolutional neural network and other machine learning classifiers to the extracted radiomic features to automatically predict the collateral flow grading of the given patient volume as one of three severity classes - no flow (0), moderate flow (1), and good flow (2)...
翻訳日:2021-10-27 10:02:47 公開日:2021-10-24
# (参考訳) X-Distill:クロスタスク蒸留による自己監督単分子深さの改善 [全文訳有]

X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task Distillation ( http://arxiv.org/abs/2110.12516v1 )

ライセンス: CC BY 4.0
Hong Cai, Janarbek Matai, Shubhankar Borse, Yizhe Zhang, Amin Ansari, Fatih Porikli(参考訳) 本稿では, セマンティックセグメンテーションから深度推定まで, クロスタスク知識蒸留による単眼深度の自己指導訓練を改善するための新しい手法であるX-Distillを提案する。 具体的には、事前訓練されたセマンティックセグメンテーションの教師ネットワークを利用し、そのセマンティック知識を深度ネットワークに転送する。 このような知識蒸留を2つの視覚的タスクにまたがって実現するために,予測深度マップをセマンティックセグメンテーションマップに変換し,教師ネットワークで教師することのできる,小型で訓練可能なネットワークを導入する。 このようにして、この小さなネットワークは、セマンティックセグメンテーションの教師の指導からトレーニング中の奥行きネットワークへのバックプロパゲーションを可能にする。 また,意味的セグメンテーションにおける一般的なオブジェクトクラスは直接的に深度に転送できないため,オブジェクトの視覚的特徴や幾何学的特徴について検討し,両タスクで共有できる新しいグループ化手法を設計する。 提案手法はトレーニングプロセスのみを修正し,推論中に追加計算を発生させない点が注目に値する。 我々は,提案手法の標準KITTIベンチマークの有効性を広く評価し,最新の技術と比較した。 我々は、Make3Dに対する我々のアプローチの一般化可能性をさらに検証する。 総じて,本手法は深さ推定精度を大幅に向上させ,その性能を大きく上回ることを示した。

In this paper, we propose a novel method, X-Distill, to improve the self-supervised training of monocular depth via cross-task knowledge distillation from semantic segmentation to depth estimation. More specifically, during training, we utilize a pretrained semantic segmentation teacher network and transfer its semantic knowledge to the depth network. In order to enable such knowledge distillation across two different visual tasks, we introduce a small, trainable network that translates the predicted depth map to a semantic segmentation map, which can then be supervised by the teacher network. In this way, this small network enables the backpropagation from the semantic segmentation teacher's supervision to the depth network during training. In addition, since the commonly used object classes in semantic segmentation are not directly transferable to depth, we study the visual and geometric characteristics of the objects and design a new way of grouping them that can be shared by both tasks. It is noteworthy that our approach only modifies the training process and does not incur additional computation during inference. We extensively evaluate the efficacy of our proposed approach on the standard KITTI benchmark and compare it with the latest state of the art. We further test the generalizability of our approach on Make3D. Overall, the results show that our approach significantly improves the depth estimation accuracy and outperforms the state of the art.
翻訳日:2021-10-27 09:44:03 公開日:2021-10-24
# (参考訳) オフラインバッチ最適化とオンラインデータ同化を組み合わせた動的モデルの時変パラメータの効率的な推定

An efficient estimation of time-varying parameters of dynamic models by combining offline batch optimization and online data assimilation ( http://arxiv.org/abs/2110.12522v1 )

ライセンス: CC BY 4.0
Yohei Sawada(参考訳) 観測と数値シミュレーションを統合することにより,地球系の未知のパラメータを推定することが重要である。 地球系科学における多くの応用には、パラメータを時間的に変化させる最適化法が必要である。 本稿では,比較的低次元モデルの時間変化パラメータを推定する,効率的かつ実用的な手法を提案する。 オフラインバッチ最適化とオンラインデータ同化の組み合わせを提案する。 新たに提案したHybrid Offline Online Parameter Estimation with Particle Filtering (HOOPE-PF) 法では,シミュレーションおよび観測気候学を比較してモデルパラメータの後方分布を求めるオフラインバッチ最適化の結果に対して,逐次データ同化で推定されたモデルパラメータを制約する。 HOOPE-PFは、おもちゃモデルによる合成実験と概念的水理モデルによる実データ実験において、オリジナルのサンプリング-重要サンプリング粒子フィルタよりも優れている。 HOOPE-PFの利点は、オンラインデータ同化の性能が、推定パラメータのアンサンブル分散の膨張に寄与するアンサンブルデータ同化のハイパーパラメータに大きく影響されないことである。

It is crucially important to estimate unknown parameters in earth system models by integrating observation and numerical simulation. For many applications in earth system sciences, the optimization method which allows parameters to temporally change is required. Here I present an efficient and practical method to estimate the time-varying parameters of relatively low dimensional models. I propose combining offline batch optimization and online data assimilation. In the newly proposed method, called Hybrid Offline Online Parameter Estimation with Particle Filtering (HOOPE-PF), I constrain the estimated model parameters in sequential data assimilation to the result of offline batch optimization in which the posterior distribution of model parameters is obtained by comparing the simulated and observed climatology. The HOOPE-PF outperforms the original sampling-importance- resampling particle filter in the synthetic experiment with the toy model and the real-data experiment with the conceptual hydrological model. The advantage of HOOPE-PF is that the performance of the online data assimilation is not greatly affected by the hyperparameter of ensemble data assimilation which contributes to inflating the ensemble variance of estimated parameters.
翻訳日:2021-10-27 09:30:01 公開日:2021-10-24
# (参考訳) 米国郡における移動度とcovid-19症例率の推移 : 継続的な暴露を伴う因果的推論のための修正された治療方針の実証

Evaluating shifts in mobility and COVID-19 case rates in U.S. counties: A demonstration of modified treatment policies for causal inference with continuous exposures ( http://arxiv.org/abs/2110.12529v1 )

ライセンス: CC BY 4.0
Joshua R. Nugent, Laura B. Balzer(参考訳) これまでの研究では、移動データと新型コロナウイルスのケースレートの関連について、さまざまな証拠が示されており、その分析は、行動と健康の両方に影響を及ぼす要因の違いによって複雑である。 我々は、2020年6月1日からの新型コロナウイルスの感染者数増加に対する移動度分布の変化による郡レベルの影響を評価することを目的とした。 治療方針修正 (modified treatment policy, mtp) アプローチを応用し, 被曝を観察値から切り離すことの影響を考察した。 MTPアプローチはパラメトリックモデリングの仮定を最小化しながら、連続露光の効果の研究を容易にする。 10のモビリティ指標が選択され、covid-19のケースレートに影響されると思われる行動のいくつかの側面を捉えられた。 この結果は、各移動手段の2週間前の10万人あたりの新規感染者数と定義された。 一次分析では、機械学習アルゴリズムのスーパーラーナーアンサンブルを用いた最小損失ベース推定(TMLE)を対象とし、20人以上の共同設立者が郡の最近のケースレートと社会、経済、健康、人口統計の変数をキャプチャした。 また,非調整分析も実施した。 ほとんどの週において、調整されていない分析は、モビリティ指標とケースレートのその後の成長の強い関係を示唆した。 しかし、共同設立調整後、いずれの指標もモビリティを低下させるために仮説シフト後の一貫した関連を示さなかった。 識別可能性に関する懸念は、この分析において因果的主張を行う能力を制限するが、MPPは連続曝露の効果を研究するための強力で未利用のツールである。

Previous research has shown mixed evidence on the associations between mobility data and COVID-19 case rates, analysis of which is complicated by differences between places on factors influencing both behavior and health outcomes. We aimed to evaluate the county-level impact of shifting the distribution of mobility on the growth in COVID-19 case rates from June 1 - November 14, 2020. We utilized a modified treatment policy (MTP) approach, which considers the impact of shifting an exposure away from its observed value. The MTP approach facilitates studying the effects of continuous exposures while minimizing parametric modeling assumptions. Ten mobility indices were selected to capture several aspects of behavior expected to influence and be influenced by COVID-19 case rates. The outcome was defined as the number of new cases per 100,000 residents two weeks ahead of each mobility measure. Primary analyses used targeted minimum loss-based estimation (TMLE) with a Super Learner ensemble of machine learning algorithms, considering over 20 potential confounders capturing counties' recent case rates as well as social, economic, health, and demographic variables. For comparison, we also implemented unadjusted analyses. For most weeks considered, unadjusted analyses suggested strong associations between mobility indices and subsequent growth in case rates. However, after confounder adjustment, none of the indices showed consistent associations after hypothetical shifts to reduce mobility. While identifiability concerns limit our ability to make causal claims in this analysis, MTPs are a powerful and underutilized tool for studying the effects of continuous exposures.
翻訳日:2021-10-27 09:29:03 公開日:2021-10-24
# (参考訳) Neo: 階層および多出力ラベルへの融合行列可視化の一般化 [全文訳有]

Neo: Generalizing Confusion Matrix Visualization to Hierarchical and Multi-Output Labels ( http://arxiv.org/abs/2110.12536v1 )

ライセンス: CC BY 4.0
Jochen G\"ortler, Fred Hohman, Dominik Moritz, Kanit Wongsuphasawat, Donghao Ren, Rahul Nair, Marc Kirchner, Kayur Patel(参考訳) 機械学習モデルを評価するためのユビキタスな視覚化である混乱行列は、予測されたクラスラベルと、すべてのデータインスタンス上の実際のクラスラベルを比較するための表レイアウトである。 大規模技術系企業において,機械学習実践者とのフォーマティブな研究を行い,従来の混乱行列は階層ラベルやマルチアウトプットラベルなど,現代のアプリケーションに見られるより複雑なデータ構造をサポートしていないことを発見した。 このような混乱行列のバリエーションを表現するために、混乱行列を確率分布としてモデル化する代数を設計する。 この代数に基づいて,階層的および複数出力の混乱行列を柔軟に作成・操作し,派生メトリクスを視覚化し,混乱を再現し,マトリックス仕様を共有するビジュアル分析システムneoを開発した。 最後に、モデルパフォーマンスをよりよく理解し、隠れた混乱を明らかにするために、3つのケーススタディでNeoのユーティリティを実証します。

The confusion matrix, a ubiquitous visualization for helping people evaluate machine learning models, is a tabular layout that compares predicted class labels against actual class labels over all data instances. We conduct formative research with machine learning practitioners at a large technology company and find that conventional confusion matrices do not support more complex data-structures found in modern-day applications, such as hierarchical and multi-output labels. To express such variations of confusion matrices, we design an algebra that models confusion matrices as probability distributions. Based on this algebra, we develop Neo, a visual analytics system that enables practitioners to flexibly author and interact with hierarchical and multi-output confusion matrices, visualize derived metrics, renormalize confusions, and share matrix specifications. Finally, we demonstrate Neo's utility with three case studies that help people better understand model performance and reveal hidden confusions.
翻訳日:2021-10-27 09:27:52 公開日:2021-10-24
# (参考訳) 部分的な因果モデル [全文訳有]

Partially Intervenable Causal Models ( http://arxiv.org/abs/2110.12541v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Ilya Shpitser(参考訳) グラフィカル因果モデルにより、任意の構造化システムにおいて完全な非パラメトリック識別理論が開発され、効率的な推論への一般的なアプローチが導かれた。 それでも、因果推論に対するグラフィカルなアプローチは統計や公衆衛生のコミュニティには受け入れられていない。 これらのコミュニティでは、因果仮定は潜在的な結果や仮説的介入に対する反応の観点から表現される。 このような介入は一般に、対応する実験を原則として行うことのできる変数の限られたセットにのみ概念化される。 対照的に、因果推論に対するグラフィカルなアプローチは、一般的にすべての変数に対する介入が適切に定義されていると仮定する。 本稿では,Single World Intervention Graphs (SWIGs) によって実証された因果性に対するグラフィカルおよび潜在的結果の統一に基づいて,許容される介入の制限セットでグラフィカルモデルを定義する。 このようなモデルに対する完全な同定理論を与え、do-calculusの一般化に基づく介入の完全な計算とマルコフ核の確率的操作を管理する公理を開発する。 以上の結果の1つとして,決定論的因果性定式化(decision theoretic graphical formula of causality)という制限された介入セットを持つ他のグラフィカルフレームワークにおける因果効果の完全識別理論がある。

Graphical causal models led to the development of complete non-parametric identification theory in arbitrary structured systems, and general approaches to efficient inference. Nevertheless, graphical approaches to causal inference have not been embraced by the statistics and public health communities. In those communities causal assumptions are instead expressed in terms of potential outcomes, or responses to hypothetical interventions. Such interventions are generally conceptualized only on a limited set of variables, where the corresponding experiment could, in principle, be performed. By contrast, graphical approaches to causal inference generally assume interventions on all variables are well defined - an overly restrictive and unrealistic assumption that may have limited the adoption of these approaches in applied work in statistics and public health. In this paper, we build on a unification of graphical and potential outcomes approaches to causality exemplified by Single World Intervention Graphs (SWIGs) to define graphical models with a restricted set of allowed interventions. We give a complete identification theory for such models, and develop a complete calculus of interventions based on a generalization of the do-calculus, and axioms that govern probabilistic operations on Markov kernels. A corollary of our results is a complete identification theory for causal effects in another graphical framework with a restricted set of interventions, the decision theoretic graphical formulation of causality.
翻訳日:2021-10-27 09:08:21 公開日:2021-10-24
# (参考訳) 行動を通して世界を理解する [全文訳有]

Understanding the World Through Action ( http://arxiv.org/abs/2110.12543v1 )

ライセンス: CC BY 4.0
Sergey Levine(参考訳) 機械学習研究の最近の歴史は、非常に大きくて高容量なモデルが提供され、非常に大きく多様なデータセットで訓練された場合に、機械学習の手法が最も効果的であることを教えてくれた。 これにより、コミュニティは、スケールするボトルネックを取り除く方法を探すようになった。 このようなボトルネックの中で最も重要なのは、データセットのキュレーションやラベル付けなど、人間の努力の必要性だ。 その結果,近年,膨大な量のデータを収集可能なラベルなしデータの利用に注目が集まっている。 しかしながら、そのようなラベル付けされていないデータ自体をトレーニングするために最も広く使われている方法は、ダウンストリームタスクに何らかの意味のある方法で相関しなければならない、人間によって設計された目的関数を必要とする。 大規模データセットを活用可能なオフライン強化学習手法と協調して、汎用的・自己監督的強化学習目標を用いて、ラベルのないデータを活用するための汎用的・原則的・強力なフレームワークを、強化学習から導き出すことができると論じる。 このような手順が下流の潜在的なタスクとどのように密接に一致しているか、そして近年開発された既存の技術に基づいてどのように構築できるかについて論じる。

The recent history of machine learning research has taught us that machine learning methods can be most effective when they are provided with very large, high-capacity models, and trained on very large and diverse datasets. This has spurred the community to search for ways to remove any bottlenecks to scale. Often the foremost among such bottlenecks is the need for human effort, including the effort of curating and labeling datasets. As a result, considerable attention in recent years has been devoted to utilizing unlabeled data, which can be collected in vast quantities. However, some of the most widely used methods for training on such unlabeled data themselves require human-designed objective functions that must correlate in some meaningful way to downstream tasks. I will argue that a general, principled, and powerful framework for utilizing unlabeled data can be derived from reinforcement learning, using general purpose unsupervised or self-supervised reinforcement learning objectives in concert with offline reinforcement learning methods that can leverage large datasets. I will discuss how such a procedure is more closely aligned with potential downstream tasks, and how it could build on existing techniques that have been developed in recent years.
翻訳日:2021-10-27 08:44:41 公開日:2021-10-24
# (参考訳) UGCの特長が翻訳品質に及ぼす影響を理解する [全文訳有]

Understanding the Impact of UGC Specificities on Translation Quality ( http://arxiv.org/abs/2110.12551v1 )

ライセンス: CC BY 4.0
Jos\'e Carlos Rosales N\'u\~nez, Djam\'e Seddah, Guillaume Wisniewski(参考訳) 本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的な考察を行い,その特徴がMTの課題を多く提起している。本研究では,UGCテストセットの標準基準値を用いた平均ケース性能の測定が,UGC翻訳品質の信頼性の高い画像よりもはるかに低いことを示す。 そこで我々は,UGC翻訳の評価のための新しいデータセットを導入し,UGCの特異性を微粒なタイポロジーを用いて手動で注釈付けした。 このデータセットを用いて, 従来よりも精度良く, 異なる種類のucc特異性が翻訳品質に与える影響を計測する実験を行った。

This work takes a critical look at the evaluation of user-generated content automatic translation, the well-known specificities of which raise many challenges for MT. Our analyses show that measuring the average-case performance using a standard metric on a UGC test set falls far short of giving a reliable image of the UGC translation quality. That is why we introduce a new data set for the evaluation of UGC translation in which UGC specificities have been manually annotated using a fine-grained typology. Using this data set, we conduct several experiments to measure the impact of different kinds of UGC specificities on translation quality, more precisely than previously possible.
翻訳日:2021-10-27 08:36:07 公開日:2021-10-24
# (参考訳) キャラクタレベルでの騒がしいucc翻訳--charモデルのオープンボキャブラリー能力とロバスト性の再検討 [全文訳有]

Noisy UGC Translation at the Character Level: Revisiting Open-Vocabulary Capabilities and Robustness of Char-Based Models ( http://arxiv.org/abs/2110.12552v1 )

ライセンス: CC BY 4.0
Jos\'e Carlos Rosales N\'u\~nez, Guillaume Wisniewski, Djam\'e Seddah(参考訳) 本研究は,ユビキタスなユーザ生成コンテンツ(UGC)を翻訳する文字ベースのニューラルマシン翻訳の能力について,ほぼ定義上,トレーニング時に見ることができない生産的なUGC現象を扱うための,そのようなアプローチの限界を探求することに焦点を当てた。 厳密なゼロショットシナリオにおいて、我々はまず、開発した小さな注釈付きデータセット上で、様々なユーザ生成コンテンツ現象の翻訳性能に対する有害な影響を調査し、そのようなモデルが未知文字を扱うことができないことを示す。 さらに,この動作を単純かつ洞察に富んだコピータスク実験で確認し,機械翻訳における文字ベースモデルの堅牢性を高めるために語彙サイズの超パラメータを減らすことの重要性を強調した。

This work explores the capacities of character-based Neural Machine Translation to translate noisy User-Generated Content (UGC) with a strong focus on exploring the limits of such approaches to handle productive UGC phenomena, which almost by definition, cannot be seen at training time. Within a strict zero-shot scenario, we first study the detrimental impact on translation performance of various user-generated content phenomena on a small annotated dataset we developed, and then show that such models are indeed incapable of handling unknown letters, which leads to catastrophic translation failure once such characters are encountered. We further confirm this behavior with a simple, yet insightful, copy task experiment and highlight the importance of reducing the vocabulary size hyper-parameter to increase the robustness of character-based models for machine translation.
翻訳日:2021-10-27 08:31:02 公開日:2021-10-24
# 対向支援サンプルに対する少数ショット分類器の概念的単純防御アプローチに向けて

Towards A Conceptually Simple Defensive Approach for Few-shot classifiers Against Adversarial Support Samples ( http://arxiv.org/abs/2110.12357v1 )

ライセンス: Link先を確認
Yi Xiang Marcus Tan, Penny Chong, Jiamei Sun, Ngai-man Cheung, Yuval Elovici and Alexander Binder(参考訳) ユーザ提供ラベルが不足しているユースケースで有望な結果を示すショット分類器は少ないことが示されている。 これらのモデルは、重複しないクラスのセットでトレーニングすることで、新しいクラスを予測することができる。 これは、従来のディープネットワークと比較して、そのメカニズムの違いによるところが大きい。 しかし、これはまた、他の機械学習設定には存在しないようなモデルに対して、新しい攻撃者が整合性攻撃を誘発する新たな機会を提供する。 本研究では,このギャップを解消するために,対人攻撃に対して数発の分類器を防御する概念的簡便なアプローチを提案する。 具体的には,特定のクラスに対する被害者分類器の理解を損なう敵支援セットをフラグアウトするために,自己相似性とフィルタリングの概念を用いた単純な攻撃非依存検出手法を提案する。 ミニイメージネット(MI)とCUBデータセットに対する拡張評価では、3つの異なる複数ショット分類器、異なる攻撃強度で攻撃検出性能が向上し、ベースラインを上回りました。 以上の結果から,セット中毒攻撃支援のための強力な検出方法としての確立が期待できる。 また,我々のアプローチは,他のフィルタリング関数と組み合わせることができるため,一般化可能な概念であることを示す。 最後に,検出アプローチで見いだされた2つの成分が異なる場合に,結果の分析を行う。

Few-shot classifiers have been shown to exhibit promising results in use cases where user-provided labels are scarce. These models are able to learn to predict novel classes simply by training on a non-overlapping set of classes. This can be largely attributed to the differences in their mechanisms as compared to conventional deep networks. However, this also offers new opportunities for novel attackers to induce integrity attacks against such models, which are not present in other machine learning setups. In this work, we aim to close this gap by studying a conceptually simple approach to defend few-shot classifiers against adversarial attacks. More specifically, we propose a simple attack-agnostic detection method, using the concept of self-similarity and filtering, to flag out adversarial support sets which destroy the understanding of a victim classifier for a certain class. Our extended evaluation on the miniImagenet (MI) and CUB datasets exhibit good attack detection performance, across three different few-shot classifiers and across different attack strengths, beating baselines. Our observed results allow our approach to establishing itself as a strong detection method for support set poisoning attacks. We also show that our approach constitutes a generalizable concept, as it can be paired with other filtering functions. Finally, we provide an analysis of our results when we vary two components found in our detection approach.
翻訳日:2021-10-26 18:29:22 公開日:2021-10-24
# 混合交通流を用いた自律走行のための統合決定と制御の符号化

Encoding Integrated Decision and Control for Autonomous Driving with Mixed Traffic Flow ( http://arxiv.org/abs/2110.12359v1 )

ライセンス: Link先を確認
Yangang Ren, Jianhua Jiang, Jingliang Duan, Shengbo Eben Li, Dongjie Yu, Guojian Zhan(参考訳) 強化学習(rl)は自己進化能力とヒューマノイド学習パラダイムにより、自律運転におけるインテリジェントな運転方針を実現するために広く採用されている。 RLによる意思決定のエレガントなデモは多数あるが、現在の研究は主に純粋な自動車運転環境に焦点を当て、自転車や歩行者のような他の交通参加者を無視している。 都市道路では、混合交通の流れの相互作用は、非常にダイナミックで複雑な関係につながり、安全でインテリジェントな政策を学ぶのは非常に困難である。 本稿では,運転状態を構成する符号化関数と最適経路を選択する値関数と,エゴ車両の制御コマンドを出力するポリシー関数からなる混合交通流を用いた複雑な運転タスクを処理するための符号化統合決定制御(E-IDC)を提案する。 特に、符号化機能は、異なる種類の交通参加者と異種数に対応でき、元の運転観察から特徴を抽出することができる。 次に、勾配に基づく更新ルールを追加して、RLアルゴリズムによるE-IDC関数のトレーニング原理を設計し、異なる参加者の他性に関する安全性制約を洗練する。 その結果,E-IDCは走行性能を向上し,走行性能と安全制約を高いマージンで達成できることがわかった。 オンラインアプリケーションは、E-IDCが複雑な交差点における効率的かつスムーズな運転を実現し、インテリジェンスと安全性を同時に保証できることを示している。

Reinforcement learning (RL) has been widely adopted to make intelligent driving policy in autonomous driving due to the self-evolution ability and humanoid learning paradigm. Despite many elegant demonstrations of RL-enabled decision-making, current research mainly focuses on the pure vehicle driving environment while ignoring other traffic participants like bicycles and pedestrians. For urban roads, the interaction of mixed traffic flows leads to a quite dynamic and complex relationship, which poses great difficulty to learn a safe and intelligent policy. This paper proposes the encoding integrated decision and control (E-IDC) to handle complicated driving tasks with mixed traffic flows, which composes of an encoding function to construct driving states, a value function to choose the optimal path as well as a policy function to output the control command of ego vehicle. Specially, the encoding function is capable of dealing with different types and variant number of traffic participants and extracting features from original driving observation. Next, we design the training principle for the functions of E-IDC with RL algorithms by adding the gradient-based update rules and refine the safety constraints concerning the otherness of different participants. The verification is conducted on the intersection scenario with mixed traffic flows and result shows that E-IDC can enhance the driving performance, including the tracking performance and safety constraint requirements with a large margin. The online application indicates that E-IDC can realize efficient and smooth driving in the complex intersection, guaranteeing the intelligence and safety simultaneously.
翻訳日:2021-10-26 18:28:58 公開日:2021-10-24
# フーリエデコーダを用いた周期信号の条件生成

Conditional Generation of Periodic Signals with Fourier-Based Decoder ( http://arxiv.org/abs/2110.12365v1 )

ライセンス: Link先を確認
Jiyoung Lee, Wonjae Kim, Daehoon Gwak, Edward Choi(参考訳) 周期的信号は日常生活において重要な役割を果たす。 従来の逐次モデルでは様々な分野で顕著な成功が見られたが、それでも周期性のモデリングには不足している。 本稿では,フーリエ級数に触発された周期的信号を生成する新しい枠組みを提案する。 まず、与えられた信号を複数の罪とコサインに分解し、次に出力成分で周期的な信号を生成する。 再現, インプテーション, 条件生成という3つの課題において, モデルの有効性を示した。 我々のモデルは全てのタスクにおいてベースラインを上回り、より安定的で洗練された結果を示す。

Periodic signals play an important role in daily lives. Although conventional sequential models have shown remarkable success in various fields, they still come short in modeling periodicity; they either collapse, diverge or ignore details. In this paper, we introduce a novel framework inspired by Fourier series to generate periodic signals. We first decompose the given signals into multiple sines and cosines and then conditionally generate periodic signals with the output components. We have shown our model efficacy on three tasks: reconstruction, imputation and conditional generation. Our model outperforms baselines in all tasks and shows more stable and refined results.
翻訳日:2021-10-26 18:28:31 公開日:2021-10-24
# SenseMag:非侵襲磁気センシングによる低コストトラフィックモニタリングの実現

SenseMag: Enabling Low-Cost Traffic Monitoring using Non-invasive Magnetic Sensing ( http://arxiv.org/abs/2110.12377v1 )

ライセンス: Link先を確認
Kafeng Wang and Haoyi Xiong and Jie Zhang and Hongyang Chen and Dejing Dou and Cheng-Zhong Xu(参考訳) 交通監視などのインテリジェントな交通システム(its)の運用と管理は、重要な道路や高速道路における車両種別(車、トラック、バスなど)を含む車両交通情報のリアルタイムデータ集約に依存している。 車両内蔵型GPSセンサやカメラネットワークに基づく従来のアプローチでは、運転者のプライバシに侵入するか、高いデプロイメントコストを必要とするが、本研究では、直線道路上に展開された2つの非侵襲型磁気センサを用いて、車両のタイプを認識するための低コストな手法であるSenseMagを提案する。 sensemagは、受信した磁気信号のノイズやセグメントを、車両が各センサノードから到着または出発する正確なタイミングでフィルターする。 さらに、SenseMagは階層的認識モデルを採用し、まず速度/速度を推定し、予測速度、サンプリングサイクル、センサノード間の距離を用いて車両の長さを特定する。 車両長を識別し、磁気信号から抽出した時間/スペクトルの特徴により、センスマグは車両の種類を分類する。 いくつかの半自動学習技術がフィルタの設計や特徴、ハイパーパラメータの選択に採用されている。 実単語のフィールド配置(中国深センの高速道路)に基づく大規模な実験により、senseimagは、分類精度と車両の粒度の両方において、既存の方法を大きく上回っている(すなわち、senseimagによる7種と既存の作業による4種)。 具体的には,SenseMagは車種別分類精度が90 %以上,車種長分類誤差が5 %未満であることが確認された。

The operation and management of intelligent transportation systems (ITS), such as traffic monitoring, relies on real-time data aggregation of vehicular traffic information, including vehicular types (e.g., cars, trucks, and buses), in the critical roads and highways. While traditional approaches based on vehicular-embedded GPS sensors or camera networks would either invade drivers' privacy or require high deployment cost, this paper introduces a low-cost method, namely SenseMag, to recognize the vehicular type using a pair of non-invasive magnetic sensors deployed on the straight road section. SenseMag filters out noises and segments received magnetic signals by the exact time points that the vehicle arrives or departs from every sensor node. Further, SenseMag adopts a hierarchical recognition model to first estimate the speed/velocity, then identify the length of vehicle using the predicted speed, sampling cycles, and the distance between the sensor nodes. With the vehicle length identified and the temporal/spectral features extracted from the magnetic signals, SenseMag classify the types of vehicles accordingly. Some semi-automated learning techniques have been adopted for the design of filters, features, and the choice of hyper-parameters. Extensive experiment based on real-word field deployment (on the highways in Shenzhen, China) shows that SenseMag significantly outperforms the existing methods in both classification accuracy and the granularity of vehicle types (i.e., 7 types by SenseMag versus 4 types by the existing work in comparisons). To be specific, our field experiment results validate that SenseMag is with at least $90\%$ vehicle type classification accuracy and less than 5\% vehicle length classification error.
翻訳日:2021-10-26 18:28:23 公開日:2021-10-24
# 変化は普通だ: 感情的なビデオクリップによって誘発される脳の状態ダイナミクス

Variation is the Norm: Brain State Dynamics Evoked By Emotional Video Clips ( http://arxiv.org/abs/2110.12392v1 )

ライセンス: Link先を確認
Ashutosh Singh, Christiana Westlin, Hedwig Eisenbarth, Elizabeth A. Reynolds Losin, Jessica R. Andrews-Hanna, Tor D. Wager, Ajay B. Satpute, Lisa Feldman Barrett, Dana H. Brooks, Deniz Erdogmus(参考訳) 過去数十年間、感情研究は、個人や文脈に関わらず、そのカテゴリーのすべての例に一貫している単一の感情のカテゴリ(例えば恐怖)を特徴付けるために、"バイオマーカー"または一貫した脳活動パターンを特定しようと試みてきた。 本研究では,特定の感情カテゴリのインスタンスを誘発するビデオクリップを視聴する間,感情経験の一貫性よりも変化について検討した。 具体的には,映像視聴時の脳活動の時間的ダイナミクスをモデル化する逐次確率論的手法を開発した。 血液酸素量依存性(BOLD)信号パターンにおける状態遷移の異なる状態占有期間として,脳の状態を特徴づけた。 我々は、同じビデオを見ている個人間で、状態占有確率分布のかなりのばらつきを発見し、脳が感情経験の相関関係にあるという仮説を支持した。

For the last several decades, emotion research has attempted to identify a "biomarker" or consistent pattern of brain activity to characterize a single category of emotion (e.g., fear) that will remain consistent across all instances of that category, regardless of individual and context. In this study, we investigated variation rather than consistency during emotional experiences while people watched video clips chosen to evoke instances of specific emotion categories. Specifically, we developed a sequential probabilistic approach to model the temporal dynamics in a participant's brain activity during video viewing. We characterized brain states during these clips as distinct state occupancy periods between state transitions in blood oxygen level dependent (BOLD) signal patterns. We found substantial variation in the state occupancy probability distributions across individuals watching the same video, supporting the hypothesis that when it comes to the brain correlates of emotional experience, variation may indeed be the norm.
翻訳日:2021-10-26 18:27:51 公開日:2021-10-24
# 線形制御系による拡散同相の深層学習近似

Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems ( http://arxiv.org/abs/2110.12393v1 )

ライセンス: Link先を確認
Alessandro Scagliotti(参考訳) 本稿では,微分同型を同一視する深層学習アーキテクチャを提案する。 我々は、制御に線形依存を持つ $\dot x = \sum_{i=1}^lF_i(x)u_i$ という形の制御系を考え、対応するフローを用いて点のコンパクトアンサンブル上の微分同相の作用を近似する。 制御システムの単純さにもかかわらず、Universal Approximation Propertyが持つことが最近示されている。 トレーニングエラーの和と正規化項の和を最小化する問題は、許容可能な制御空間における勾配流を誘導する。 離散時間ニューラルネットワークのトレーニング手順は、グラデーションフローを許容可能な制御の有限次元部分空間に投影することである。 別のアプローチでは、最適制御問題の数値解法として、ポントリャーギンの最大原理に基づく反復法を用いる。 ここでハミルトニアンの最大化は、制御変数における系の線形依存のため、非常に低い計算量で実行することができる。

In this paper we propose a Deep Learning architecture to approximate diffeomorphisms isotopic to the identity. We consider a control system of the form $\dot x = \sum_{i=1}^lF_i(x)u_i$, with linear dependence in the controls, and we use the corresponding flow to approximate the action of a diffeomorphism on a compact ensemble of points. Despite the simplicity of the control system, it has been recently shown that a Universal Approximation Property holds. The problem of minimizing the sum of the training error and of a regularizing term induces a gradient flow in the space of admissible controls. A possible training procedure for the discrete-time neural network consists in projecting the gradient flow onto a finite-dimensional subspace of the admissible controls. An alternative approach relies on an iterative method based on Pontryagin Maximum Principle for the numerical resolution of Optimal Control problems. Here the maximization of the Hamiltonian can be carried out with an extremely low computational effort, owing to the linear dependence of the system in the control variables.
翻訳日:2021-10-26 18:27:36 公開日:2021-10-24
# エッジおよびフォグコンピューティング環境におけるアプリケーション配置のための分散深層強化学習手法

A Distributed Deep Reinforcement Learning Technique for Application Placement in Edge and Fog Computing Environments ( http://arxiv.org/abs/2110.12415v1 )

ライセンス: Link先を確認
Mohammad Goudarzi, Marimuthu Palaniswami, Rajkumar Buyya(参考訳) Fog/Edgeコンピューティングは、エッジやクラウドサーバにタスクを配置することで、リソース制約のあるIoTデバイスをサポートする、新しいコンピューティングパラダイムである。 近年,フォグ/エッジコンピューティング環境において,集中型設定にのみ適する複数のDeep Reinforcement Learning(DRL)ベースの配置技術が提案されている。 優れたDRLエージェントのトレーニングには、トレーニングデータを取得するのにコストがかかる一方で、多様体トレーニングデータが必要である。 したがって、これらの集中型DRLベースの技術は、一般化性と迅速な適応性に欠けており、アプリケーションの配置問題に効率的に対処することができない。 さらに、多くのIoTアプリケーションは、さまざまなトポロジを持つDAG(Directed Acyclic Graphs)としてモデル化されている。 DAGベースのIoTアプリケーションの依存関係を満足すると、追加の制約が発生し、配置問題の複雑さが増大する。 これらの課題を克服するために,IMPortance 重み付きアクタラーナーアーキテクチャ (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。 IMPALAは、エージェントの探索コストを大幅に削減する効率的な分散経験軌道生成で知られている。 さらに、最適解へのより高速な収束のために適応的なオフポリシー補正法を用いる。 提案手法では,繰り返しレイヤを用いて入力データの時間的挙動を捕捉し,サンプリング効率を向上させる。 シミュレーションおよびテストベッド実験から得られた性能結果から,本手法はiotアプリケーションの実行コストを最大で30%向上させることを示した。

Fog/Edge computing is a novel computing paradigm supporting resource-constrained Internet of Things (IoT) devices by the placement of their tasks on the edge and/or cloud servers. Recently, several Deep Reinforcement Learning (DRL)-based placement techniques have been proposed in fog/edge computing environments, which are only suitable for centralized setups. The training of well-performed DRL agents requires manifold training data while obtaining training data is costly. Hence, these centralized DRL-based techniques lack generalizability and quick adaptability, thus failing to efficiently tackle application placement problems. Moreover, many IoT applications are modeled as Directed Acyclic Graphs (DAGs) with diverse topologies. Satisfying dependencies of DAG-based IoT applications incur additional constraints and increase the complexity of placement problems. To overcome these challenges, we propose an actor-critic-based distributed application placement technique, working based on the IMPortance weighted Actor-Learner Architectures (IMPALA). IMPALA is known for efficient distributed experience trajectory generation that significantly reduces the exploration costs of agents. Besides, it uses an adaptive off-policy correction method for faster convergence to optimal solutions. Our technique uses recurrent layers to capture temporal behaviors of input data and a replay buffer to improve the sample efficiency. The performance results, obtained from simulation and testbed experiments, demonstrate that our technique significantly improves the execution cost of IoT applications up to 30\% compared to its counterparts.
翻訳日:2021-10-26 18:27:18 公開日:2021-10-24
# ソフトウェアにおけるロギングに関する総合調査:ログステートメント自動化からログマイニングと分析まで

A Comprehensive Survey of Logging in Software: From Logging Statements Automation to Log Mining and Analysis ( http://arxiv.org/abs/2110.12489v1 )

ライセンス: Link先を確認
Sina Gholamian and Paul A. S. Ward(参考訳) ログは、タイムスタンプやイベントの重要性、ログのソースのユニークなID、タスクの実行状態の一部といった、ソフトウェアシステムの実行時の情報を記録するために広く使用されている。 ログの豊富な情報により、システム開発者(およびオペレータ)は、システムの実行時の動作を監視し、さらにシステムの問題を追跡し、本番環境でログデータの解析を行うことができる。 しかし、ログの利用に関する以前の研究は散らばり、この分野の新しい研究者が急速にスピードに到達し、現在活発な研究者がこの分野をさらに前進させる能力を制限する。 そこで本研究では,現代のロギングの実践とログステートメントのマイニング・モニタリング技術とそのシステム障害検出・診断への応用について,系統的な文献レビューを行い,報告する。 トップレベルのピアレビュー会場に登場したカンファレンスやジャーナルの論文を多数調査した。 さらに、現在進行中の研究の高水準な傾向を描き、出版物を細分化に分類する。 最終的には、この調査の総合的な観察に基づいて、学界や産業の研究者がこの分野を前進させるための課題と機会を提供します。

Logs are widely used to record runtime information of software systems, such as the timestamp and the importance of an event, the unique ID of the source of the log, and a part of the state of a task's execution. The rich information of logs enables system developers (and operators) to monitor the runtime behaviors of their systems and further track down system problems and perform analysis on log data in production settings. However, the prior research on utilizing logs is scattered and that limits the ability of new researchers in this field to quickly get to the speed and hampers currently active researchers to advance this field further. Therefore, this paper surveys and provides a systematic literature review of the contemporary logging practices and log statements' mining and monitoring techniques and their applications such as in system failure detection and diagnosis. We study a large number of conference and journal papers that appeared on top-level peer-reviewed venues. Additionally, we draw high-level trends of ongoing research and categorize publications into subdivisions. In the end, and based on our holistic observations during this survey, we provide a set of challenges and opportunities that will lead the researchers in academia and industry in moving the field forward.
翻訳日:2021-10-26 18:25:57 公開日:2021-10-24
# 逆問題に対する変動源条件を満たす学習凸正則化器

Learning convex regularizers satisfying the variational source condition for inverse problems ( http://arxiv.org/abs/2110.12520v1 )

ライセンス: Link先を確認
Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb, and Martin Burger(参考訳) 変分正規化は数十年間、逆問題の画像化において最も成功したレコンストラクションの1つであった。 近年のディープラーニングの出現と驚くべき成功により、変動環境における正規化子のデータ駆動モデリングにおいて、かなりの研究が進められている。 本研究は,adversarial convex regularization (acr) と呼ばれる最近提案された手法を拡張し,データパワーと古典的な凸正規化理論を組み合わせるために,adversarial trainingを通じてデータ駆動凸正規化子を学習することを目的とした。 具体的には,学習中の変分源条件(sc)を利用して,学習された凸正規化器に対応する変分損失を最小限に抑える。 これは、ACRトレーニング目標に適切なペナルティ項を追加することで達成される。 結果として得られる正則化器(ACR-SC)は、ACRと同等に作用するが、ACRとは異なり、定量的収束率推定が伴う。

Variational regularization has remained one of the most successful approaches for reconstruction in imaging inverse problems for several decades. With the emergence and astonishing success of deep learning in recent years, a considerable amount of research has gone into data-driven modeling of the regularizer in the variational setting. Our work extends a recently proposed method, referred to as adversarial convex regularization (ACR), that seeks to learn data-driven convex regularizers via adversarial training in an attempt to combine the power of data with the classical convex regularization theory. Specifically, we leverage the variational source condition (SC) during training to enforce that the ground-truth images minimize the variational loss corresponding to the learned convex regularizer. This is achieved by adding an appropriate penalty term to the ACR training objective. The resulting regularizer (abbreviated as ACR-SC) performs on par with the ACR, but unlike ACR, comes with a quantitative convergence rate estimate.
翻訳日:2021-10-26 18:25:37 公開日:2021-10-24
# 最適パス長後悔によるオンライン推定と制御

Online estimation and control with optimal pathlength regret ( http://arxiv.org/abs/2110.12544v1 )

ライセンス: Link先を確認
Gautam Goel, Babak Hassibi(参考訳) 非定常環境向けにオンライン学習アルゴリズムを設計する際の自然な目標は、入力シーケンスの時間的変動の観点からアルゴリズムの後悔を制限することである。 直観的には、変動が小さい場合、過去の観測は将来の入力を予測しているため、アルゴリズムは後悔の少ない結果を得るのが容易である。 OCOや盗賊など、さまざまなオンライン学習問題に対して、データに依存した「病的」後悔境界が最近取得されている。 線形力学系におけるオンライン制御と推定(カルマンフィルタリングなど)のための最初のパス長後悔境界を得る。 我々の導出における鍵となる考え方は、ロバストな推定と制御における特定の変動問題に対する、長大な最適フィルタリングと制御を減らすことである。 数値シミュレーションにより、我々のパス長最適化アルゴリズムは時間とともに変化する場合、従来の$H_2$と$H_{\infty}$アルゴリズムより優れていることを確認した。

A natural goal when designing online learning algorithms for non-stationary environments is to bound the regret of the algorithm in terms of the temporal variation of the input sequence. Intuitively, when the variation is small, it should be easier for the algorithm to achieve low regret, since past observations are predictive of future inputs. Such data-dependent "pathlength" regret bounds have recently been obtained for a wide variety of online learning problems, including OCO and bandits. We obtain the first pathlength regret bounds for online control and estimation (e.g. Kalman filtering) in linear dynamical systems. The key idea in our derivation is to reduce pathlength-optimal filtering and control to certain variational problems in robust estimation and control; these reductions may be of independent interest. Numerical simulations confirm that our pathlength-optimal algorithms outperform traditional $H_2$ and $H_{\infty}$ algorithms when the environment varies over time.
翻訳日:2021-10-26 18:25:19 公開日:2021-10-24
# grablook:r-cnnによる仮想環境の強化によるvrベーステレマニピュレーションシステム

GraspLook: a VR-based Telemanipulation System with R-CNN-driven Augmentation of Virtual Environment ( http://arxiv.org/abs/2110.12518v1 )

ライセンス: Link先を確認
Polina Ponomareva, Daria Trinitatova, Aleksey Fedoseev, Ivan Kalinov, Dzmitry Tsetserukou(参考訳) 医療応用におけるロボットシステムの遠隔操作は、オペレーターにとって安定的で便利な視覚フィードバックを必要とする。 遠隔地から視覚情報を配信する最もアクセスしやすいアプローチは、カメラを使用して環境からビデオストリームを送信することである。 しかし、このようなシステムはカメラの解像度、視点の制限、乱雑な環境に敏感であり、人間のオペレーターにさらなる精神的な要求をもたらす。 本稿では,拡張仮想環境(ve)に基づく新しい遠隔操作システムを提案する。 領域ベースの畳み込みニューラルネットワーク(r-cnn)を用いて、実験機器を検出し、遠隔環境におけるその位置を推定し、そのデジタル双生児をveに表示させる。 実験結果から,ロボットをよりスムーズに動作させることで,試験管操作時のタスク実行時間を短縮できることがわかった。 また, 被験者は, 開発したシステムを, カメラを用いた遠隔操作手法よりも, 精神的要求の少ないもの(11%) と, 作業に要する労力の少ないもの(16%) と評価し, 拡張veの性能を高く評価した。 提案技術は,感染性および有毒の試薬を用いた遠隔地実験に応用できる可能性がある。

The teleoperation of robotic systems in medical applications requires stable and convenient visual feedback for the operator. The most accessible approach to delivering visual information from the remote area is using cameras to transmit a video stream from the environment. However, such systems are sensitive to the camera resolution, limited viewpoints, and cluttered environment bringing additional mental demands to the human operator. The paper proposes a novel system of teleoperation based on an augmented virtual environment (VE). The region-based convolutional neural network (R-CNN) is applied to detect the laboratory instrument and estimate its position in the remote environment to display further its digital twin in the VE, which is necessary for dexterous telemanipulation. The experimental results revealed that the developed system allows users to operate the robot smoother, which leads to a decrease in task execution time when manipulating test tubes. In addition, the participants evaluated the developed system as less mentally demanding (by 11%) and requiring less effort (by 16%) to accomplish the task than the camera-based teleoperation approach and highly assessed their performance in the augmented VE. The proposed technology can be potentially applied for conducting laboratory tests in remote areas when operating with infectious and poisonous reagents.
翻訳日:2021-10-26 18:21:44 公開日:2021-10-24
# 部分観察マルコフ決定過程におけるオフポリシィ評価

Off-Policy Evaluation in Partially Observed Markov Decision Processes ( http://arxiv.org/abs/2110.12343v1 )

ライセンス: Link先を確認
Yuchen Hu and Stefan Wager(参考訳) 我々は, マルコフ決定過程 (pomdp) のモデル化が可能であることを前提として, 動的処理ルールのオフポリシー評価を考える。 そこで本研究では,行動方針から十分な距離を引いた目標政策の定常平均報酬を連続的に推定できることを示し,その重み付けによる部分的履歴の重み付けを提案する。 さらに, 対象と行動方針の重ね合わせに依存する指数と, 基本系の混合時間に依存する指数を用いて, 観測回数(すなわち, 軌道数がその長さ倍)で多項式的に崩壊する誤差の上限を定式化する。 また,pomdpを仮定したオフポリシー評価のための多項式ミニマックス下限を定式化し,その指数が上界における重なりと混合時間に対する定性的依存性を持つことを示した。 以上より,pomdpsにおけるオフポリシー評価は,(完全に観察された)マルコフ決定過程においてオフポリシー評価よりも厳格に難しいが,モデルフリーのオフポリシー評価よりも厳格に容易であることを示す。

We consider off-policy evaluation of dynamic treatment rules under the assumption that the underlying system can be modeled as a partially observed Markov decision process (POMDP). We propose an estimator, partial history importance weighting, and show that it can consistently estimate the stationary mean rewards of a target policy given long enough draws from the behavior policy. Furthermore, we establish an upper bound on its error that decays polynomially in the number of observations (i.e., the number of trajectories times their length), with an exponent that depends on the overlap of the target and behavior policies, and on the mixing time of the underlying system. We also establish a polynomial minimax lower bound for off-policy evaluation under the POMDP assumption, and show that its exponent has the same qualitative dependence on overlap and mixing time as obtained in our upper bound. Together, our upper and lower bounds imply that off-policy evaluation in POMDPs is strictly harder than off-policy evaluation in (fully observed) Markov decision processes, but strictly easier than model-free off-policy evaluation.
翻訳日:2021-10-26 18:19:04 公開日:2021-10-24
# ニューラルテキスト音声の効率的なサンプリングのための離散音響空間

Discrete acoustic space for an efficient sampling in neural text-to-speech ( http://arxiv.org/abs/2110.12539v1 )

ライセンス: Link先を確認
Marek Strelec, Jonas Rohnke, Antonio Bonafonte, Mateusz {\L}ajszczak, Trevor Wood(参考訳) NTTS用分割ベクトル量子化器を用いたSVQ-VAEアーキテクチャを,よく知られたVAEおよびVQ-VAEアーキテクチャの拡張として提案する。 従来のアーキテクチャと比較して,提案手法は発話レベルのボトルネックを利用する利点を保ちつつ,表現力の損失を低減させる。 我々は,高度に表現力のあるタスク指向対話領域における音声記録を学習し,SVQ-VAEがVAEモデルとVQ-VAEモデルに対して統計的に有意な自然性向上を実現することを示す。 さらに,svq-vae音響空間はテキストから予測可能であり,標準定ベクトル合成とvocoded記録とのギャップを32%低減できることを示す。

We present an SVQ-VAE architecture using a split vector quantizer for NTTS, as an enhancement to the well-known VAE and VQ-VAE architectures. Compared to these previous architectures, our proposed model retains the benefits of using an utterance-level bottleneck, while reducing the associated loss of representation power. We train the model on recordings in the highly expressive task-oriented dialogues domain and show that SVQ-VAE achieves a statistically significant improvement in naturalness over the VAE and VQ-VAE models. Furthermore, we demonstrate that the SVQ-VAE acoustic space is predictable from text, reducing the gap between the standard constant vector synthesis and vocoded recordings by 32%.
翻訳日:2021-10-26 18:18:44 公開日:2021-10-24
# 都市における都市ビッグデータの創発的構造に関するニューラル埋め込み

Neural Embeddings of Urban Big Data Reveal Emergent Structures in Cities ( http://arxiv.org/abs/2110.12371v1 )

ライセンス: Link先を確認
Chao Fan, Yang Yang, Ali Mostafavi(参考訳) 本研究では,都市域の異質な特徴と人間の移動ネットワークが捉えた相互作用を利用して,これらの領域のベクトル表現を得るニューラル埋め込みモデルグラフニューラルネットワーク(GNN)を提案する。 本研究は,米国16大都市圏における数百万人の携帯電話利用者を対象とした大規模高分解能モビリティデータセットを用いて,都市構成要素(施設分布など)と人口属性および活動に関する複雑な関係をエンベッドすることを目的とする。 都市中心から郊外への各方向の空間勾配を、同一クラスタ内の都市間におけるクラスタ表現と共有特性を用いて測定する。 さらに、異なる郡で訓練されたモデルによって生成された埋め込みは、他の郡における創発的空間構造の50%から60%をキャプチャし、定量的にクロスカントリー比較を行うことができることを示す。 我々のGNNベースのフレームワークは,従来の空間構造検査手法の限界を克服し,高度にスケーラブルである。 その結果,都市成分と異方性空間勾配の非線形関係が明らかになった。 識別された空間構造と勾配は、分離、異なる施設分布、人間の移動といった様々なメカニズムの複合効果を捉えているため、この発見は、計画決定と政策を知らせる現在の都市構造の限界を特定するのに役立つ。 また、都市構成成分と人口活動の複雑な相互作用と属性が都市内の空間構造をどのように形成するかを総合的に理解することで、都市計画、工学、社会科学の様々な研究の舞台となった。

In this study, we propose using a neural embedding model-graph neural network (GNN)- that leverages the heterogeneous features of urban areas and their interactions captured by human mobility network to obtain vector representations of these areas. Using large-scale high-resolution mobility data sets from millions of aggregated and anonymized mobile phone users in 16 metropolitan counties in the United States, we demonstrate that our embeddings encode complex relationships among features related to urban components (such as distribution of facilities) and population attributes and activities. The spatial gradient in each direction from city center to suburbs is measured using clustered representations and the shared characteristics among urban areas in the same cluster. Furthermore, we show that embeddings generated by a model trained on a different county can capture 50% to 60% of the emergent spatial structure in another county, allowing us to make cross-county comparisons in a quantitative way. Our GNN-based framework overcomes the limitations of previous methods used for examining spatial structures and is highly scalable. The findings reveal non-linear relationships among urban components and anisotropic spatial gradients in cities. Since the identified spatial structures and gradients capture the combined effects of various mechanisms, such as segregation, disparate facility distribution, and human mobility, the findings could help identify the limitations of the current city structure to inform planning decisions and policies. Also, the model and findings set the stage for a variety of research in urban planning, engineering and social science through integrated understanding of how the complex interactions between urban components and population activities and attributes shape the spatial structures in cities.
翻訳日:2021-10-26 17:42:39 公開日:2021-10-24
# 常微分方程式に対する後正規化信頼バンド

Post-Regularization Confidence Bands for Ordinary Differential Equations ( http://arxiv.org/abs/2110.12510v1 )

ライセンス: Link先を確認
Xiaowu Dai and Lexin Li(参考訳) 通常微分方程式(ODE)は、生物学的および物理的過程の系の力学を研究する重要なツールである。 ODEモデリングにおける中心的な問題は、ある信号変数が別の信号に対して個々の規制効果を推測することである。 しかし、規制関係の不明なODEの信頼性バンドの構築は困難であり、未解決の問題がほとんどである。 本稿では、未知の機能とノイズのあるデータ観測を伴うODEにおける個別規制関数に対する正規化後信頼バンドを構築する。 私たちの提案は、その種の最初のものであり、2つの新しい材料に基づいています。 1つ目は、カーネル学習の再現と局所的テイラー近似を組み合わせた新しい局所化カーネル学習手法であり、2つ目は、無限次元関数と追加の計測誤差に取り組む新しい非バイアス法である。 構築された信頼バンドは、望まれる漸近的カバレッジ確率を持ち、回復した規制ネットワークは、その確率が1の傾向にある真実に近づいた。 システム内の変数数がサンプリング時間点数より小さいか大きい場合の理論的特性を定式化し,レジームスイッチング現象について検討する。 提案手法はシミュレーションとイラストレーションの両面で2つのデータ応用により有効性を示す。

Ordinary differential equation (ODE) is an important tool to study the dynamics of a system of biological and physical processes. A central question in ODE modeling is to infer the significance of individual regulatory effect of one signal variable on another. However, building confidence band for ODE with unknown regulatory relations is challenging, and it remains largely an open question. In this article, we construct post-regularization confidence band for individual regulatory function in ODE with unknown functionals and noisy data observations. Our proposal is the first of its kind, and is built on two novel ingredients. The first is a new localized kernel learning approach that combines reproducing kernel learning with local Taylor approximation, and the second is a new de-biasing method that tackles infinite-dimensional functionals and additional measurement errors. We show that the constructed confidence band has the desired asymptotic coverage probability, and the recovered regulatory network approaches the truth with probability tending to one. We establish the theoretical properties when the number of variables in the system can be either smaller or larger than the number of sampling time points, and we study the regime-switching phenomenon. We demonstrate the efficacy of the proposed method through both simulations and illustrations with two data applications.
翻訳日:2021-10-26 17:16:54 公開日:2021-10-24
# デュアルセマンティクス回帰とクラス構造量子化を用いたディープ非対称ハッシュ

Deep Asymmetric Hashing with Dual Semantic Regression and Class Structure Quantization ( http://arxiv.org/abs/2110.12478v1 )

ライセンス: Link先を確認
Jianglin Lu, Hailing Wang, Jie Zhou, Mengfan Yan, Jiajun Wen(参考訳) 近年,画像検索においてディープハッシュ法が広く用いられている。 既存のディープハッシュ法は、情報損失を減らすために1対1の量子化を採用する。 しかし、そのようなクラス非関連量子化はネットワークトレーニングに差別的フィードバックを与えることができない。 さらに,これらの手法は単一ラベルのみを用いてハッシュ関数学習のためのデータの監視情報を統合し,ネットワークの一般化性能が劣り,データのクラス間情報が完全に無視されるため,比較的低品質のハッシュコードを生成する。 本稿では,三重制約の下で識別ハッシュコードを生成する二元意味的非対称ハッシュ法を提案する。 まず、DSAHはクラス構造量子化を行う前にクラスを利用し、量子化プロセス中にクラス情報を伝達する。 第二に,クラス内コンパクト性とクラス間分離性の両方を特徴付けるシンプルかつ効果的なラベル機構を考案し,意味に敏感なバイナリコード学習を実現する。 最後に、クラス関連ネットワーク出力間の距離をアフィニティグラフに基づいて最小化するために、損失を保存する有意義なペアワイズ類似性が考案される。 これら3つの主要コンポーネントにより、ネットワークを介して高品質のハッシュコードを生成することができる。 各種データセットで行った大規模な実験は、最先端のディープハッシュ法と比較してDSAHの優位性を示した。

Recently, deep hashing methods have been widely used in image retrieval task. Most existing deep hashing approaches adopt one-to-one quantization to reduce information loss. However, such class-unrelated quantization cannot give discriminative feedback for network training. In addition, these methods only utilize single label to integrate supervision information of data for hashing function learning, which may result in inferior network generalization performance and relatively low-quality hash codes since the inter-class information of data is totally ignored. In this paper, we propose a dual semantic asymmetric hashing (DSAH) method, which generates discriminative hash codes under three-fold constrains. Firstly, DSAH utilizes class prior to conduct class structure quantization so as to transmit class information during the quantization process. Secondly, a simple yet effective label mechanism is designed to characterize both the intra-class compactness and inter-class separability of data, thereby achieving semantic-sensitive binary code learning. Finally, a meaningful pairwise similarity preserving loss is devised to minimize the distances between class-related network outputs based on an affinity graph. With these three main components, high-quality hash codes can be generated through network. Extensive experiments conducted on various datasets demonstrate the superiority of DSAH in comparison with state-of-the-art deep hashing methods.
翻訳日:2021-10-26 17:11:59 公開日:2021-10-24
# 多様性と不確実性を考慮した変分オートエンコーダの規則化

Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness ( http://arxiv.org/abs/2110.12381v1 )

ライセンス: Link先を確認
Dazhong Shen and Chuan Qin and Chao Wang and Hengshu Zhu and Enhong Chen and Hui Xiong(参考訳) 最も一般的な生成モデルの一つとして、変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。 しかし、デコーダネットワークが十分に表現可能であれば、VAEは後続の崩壊につながる可能性がある。 そこで本稿では,よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案し,その表現を意味的かつコンパクトな方法で学習する。 具体的には,データ全体にわたって後方パラメータの分布を制御し,高い多様性と低い不確実性を持った潜伏空間を実現することを理論的に実証した。 次に,新たな損失項の導入やトレーニング戦略の変更を伴わずに,分散とバッチ正規化を同時に利用し,その分布を暗黙的に正規化する手法を提案する。 さらに, この一般化効果を評価するために, 逆自己回帰フローベースVAE(VAE-IAF)を実験的に利用した。 最後に、3つのベンチマークデータセットに対する広範な実験により、我々のアプローチは、推定可能性と基礎となる分類タスクの両方において、最先端のベースラインより優れていることが示された。

As one of the most popular generative models, Variational Autoencoder (VAE) approximates the posterior of latent variables based on amortized variational inference. However, when the decoder network is sufficiently expressive, VAE may lead to posterior collapse; that is, uninformative latent representations may be learned. To this end, in this paper, we propose an alternative model, DU-VAE, for learning a more Diverse and less Uncertain latent space, and thus the representation can be learned in a meaningful and compact manner. Specifically, we first theoretically demonstrate that it will result in better latent space with high diversity and low uncertainty awareness by controlling the distribution of posterior's parameters across the whole data accordingly. Then, without the introduction of new loss terms or modifying training strategies, we propose to exploit Dropout on the variances and Batch-Normalization on the means simultaneously to regularize their distributions implicitly. Furthermore, to evaluate the generalization effect, we also exploit DU-VAE for inverse autoregressive flow based-VAE (VAE-IAF) empirically. Finally, extensive experiments on three benchmark datasets clearly show that our approach can outperform state-of-the-art baselines on both likelihood estimation and underlying classification tasks.
翻訳日:2021-10-26 16:51:01 公開日:2021-10-24
# カーネル化不均一リスク最小化

Kernelized Heterogeneous Risk Minimization ( http://arxiv.org/abs/2110.12425v1 )

ライセンス: Link先を確認
Jiashuo Liu, Zheyuan Hu, Peng Cui, Bo Li, Zheyan Shen(参考訳) 分散シフトの下で一般化する能力は、信頼できる機械学習に不可欠であるが、経験的リスク最小化に最適化されたモデルは、通常、非i.i.d$テストデータで失敗する。 近年,out-of-distribution (ood)一般化のための不変学習法が提案されている。 しかし、現代のデータセットは明示的なソースラベルなしで頻繁にマルチソースされ、多くの不変学習方法が適用できない。 本稿では,カーネル空間における潜在異質性探索と不変学習の両方を実現し,不変勾配方向を割り当てて元のニューラルネットワークにフィードバックを与えるカーネル化異種リスク最小化(kerhrm)アルゴリズムを提案する。 我々は理論的にアルゴリズムを正当化し,広範な実験によりアルゴリズムの有効性を実証的に検証する。

The ability to generalize under distributional shifts is essential to reliable machine learning, while models optimized with empirical risk minimization usually fail on non-$i.i.d$ testing data. Recently, invariant learning methods for out-of-distribution (OOD) generalization propose to find causally invariant relationships with multi-environments. However, modern datasets are frequently multi-sourced without explicit source labels, rendering many invariant learning methods inapplicable. In this paper, we propose Kernelized Heterogeneous Risk Minimization (KerHRM) algorithm, which achieves both the latent heterogeneity exploration and invariant learning in kernel space, and then gives feedback to the original neural network by appointing invariant gradient direction. We theoretically justify our algorithm and empirically validate the effectiveness of our algorithm with extensive experiments.
翻訳日:2021-10-26 16:50:40 公開日:2021-10-24
# スペクトル保存ノード削減によるスペクトルクラスタリングの改善

Improving Spectral Clustering Using Spectrum-Preserving Node Reduction ( http://arxiv.org/abs/2110.12328v1 )

ライセンス: Link先を確認
Yongyu Wang(参考訳) スペクトルクラスタリングは最も人気のあるクラスタリング手法の1つである。 しかし、関連する固有分解手順による高い計算コストは、その大規模タスクへの適用を即座に妨げうる。 本稿では,スペクトル保存ノードの削減を利用して固有分解を加速し,データセットの簡潔な表現を生成する。 具体的には、スペクトル類似性に基づいて少数の擬似ノードを作成する。 次に、より小さなノードセット上で標準スペクトルクラスタリングアルゴリズムを実行する。 最後に、元のデータセットの各データポイントは、その代表擬似ノードとしてクラスタに割り当てられる。 提案されたフレームワークは、ほぼ線形時間で動作する。 一方、クラスタリング精度は、マイニングの簡潔な表現によって著しく向上することができる。 実験の結果,最先端手法と比較してクラスタリング性能が劇的に向上した。

Spectral clustering is one of the most popular clustering methods. However, the high computational cost due to the involved eigen-decomposition procedure can immediately hinder its applications in large-scale tasks. In this paper we use spectrum-preserving node reduction to accelerate eigen-decomposition and generate concise representations of data sets. Specifically, we create a small number of pseudonodes based on spectral similarity. Then, standard spectral clustering algorithm is performed on the smaller node set. Finally, each data point in the original data set is assigned to the cluster as its representative pseudo-node. The proposed framework run in nearly-linear time. Meanwhile, the clustering accuracy can be significantly improved by mining concise representations. The experimental results show dramatically improved clustering performance when compared with state-of-the-art methods.
翻訳日:2021-10-26 16:31:21 公開日:2021-10-24
# 空中画像からのリンゴ果樹中の果実の検出と局在に関する研究

A methodology for detection and localization of fruits in apples orchards from aerial images ( http://arxiv.org/abs/2110.12331v1 )

ライセンス: Link先を確認
Thiago T. Santos and Luciano Gebler(参考訳) 畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョン手法は、異なる作物の地上レベルでのイメージベースの果実検出において有望な結果を示した。 しかし, 実測値と収量予測値の精度が低いため, 異なる画像で検出された検出値の統合は注目されていない。 本研究は, 空中画像を用いた自動果物カウント手法を提案する。 ダブルカウントを避けるだけでなく、3次元空間における果実の配置を回避し、果実の追跡を行うための複数のビュー幾何学に基づくアルゴリズムが含まれている。 予備評価では、リンゴの果実数と実収率の間に0.8以上の相関がある。 CNNトレーニングに使用される注釈付きデータセットが公開されている。

Computer vision methods based on convolutional neural networks (CNNs) have presented promising results on image-based fruit detection at ground-level for different crops. However, the integration of the detections found in different images, allowing accurate fruit counting and yield prediction, have received less attention. This work presents a methodology for automated fruit counting employing aerial-images. It includes algorithms based on multiple view geometry to perform fruits tracking, not just avoiding double counting but also locating the fruits in the 3-D space. Preliminary assessments show correlations above 0.8 between fruit counting and true yield for apples. The annotated dataset employed on CNN training is publicly available.
翻訳日:2021-10-26 16:03:21 公開日:2021-10-24
# 孤立手話認識における3次元畳み込みネットワークを用いた運動履歴画像の利用

Using Motion History Images with 3D Convolutional Networks in Isolated Sign Language Recognition ( http://arxiv.org/abs/2110.12396v1 )

ライセンス: Link先を確認
Ozge Mercanoglu Sincan and Hacer Yalim Keles(参考訳) 計算モデルを用いた手話認識は、顔、手、体などの複数のソースの同時時空間モデリングを必要とする難しい問題である。 本稿では,RGBビデオフレームから生成されたモーションヒストリ画像(MHI)を用いて訓練されたモデルに基づく手話認識モデルを提案する。 rgb-mhi画像は、各手話映像の時空間的要約を単一のrgb画像で効果的に表現する。 このモデルを用いて2つの異なるアプローチを提案する。 最初のアプローチでは、3D-CNNアーキテクチャに組み込まれた動きに基づく空間アテンションモジュールとしてRGB-MHIモデルを用いる。 第2のアプローチでは、3D-CNNモデルの特徴を持つ後期融合技術でRGB-MHIモデルを直接使用する。 AUTSLとBosphorusSign22kという2つの大規模独立した手話データセットについて広範な実験を行った。 実験の結果,RGBデータのみを使用する我々のモデルは,マルチモーダルデータを使用する文献の最先端モデルと競合できることがわかった。

Sign language recognition using computational models is a challenging problem that requires simultaneous spatio-temporal modeling of the multiple sources, i.e. faces, hands, body etc. In this paper, we propose an isolated sign language recognition model based on a model trained using Motion History Images (MHI) that are generated from RGB video frames. RGB-MHI images represent spatio-temporal summary of each sign video effectively in a single RGB image. We propose two different approaches using this model. In the first approach, we use RGB-MHI model as a motion-based spatial attention module integrated in a 3D-CNN architecture. In the second approach, we use RGB-MHI model features directly with a late fusion technique with the features of a 3D-CNN model. We perform extensive experiments on two recently released large-scale isolated sign language datasets, namely AUTSL and BosphorusSign22k datasets. Our experiments show that our models, which use only RGB data, can compete with the state-of-the-art models in the literature that use multi-modal data.
翻訳日:2021-10-26 16:03:12 公開日:2021-10-24
# 6次元ポーズ推定のための動的キーポイント選択ネットワーク

A Dynamic Keypoints Selection Network for 6DoF Pose Estimation ( http://arxiv.org/abs/2110.12401v1 )

ライセンス: Link先を確認
Haowen Sun, Taiyong Wang(参考訳) 6DoFは,オブジェクトワールド座標やカメラワールド座標などの2つの座標間の回転と変換パラメータを推定することを目的とした。 深層学習の助けを借りていくつかの進歩がなされているが、シーン情報をフル活用する方法はまだ問題である。 先行研究は画素単位の機能融合によってこの問題に取り組むが、画像から多数の点をランダムに選択する必要があるため、高速な推論と正確なポーズ推定の要求を同時に満たせない。 本稿では,単一のrgbd画像から6dofポーズ推定のために設計された動的キーポイント選択に基づく新しいディープニューラルネットワークを提案する。 ネットワークには,インスタンス意味セグメンテーション,エッジポイント検出,6dofポーズ推定の3つの部分が含まれている。 rgbdイメージが与えられると、ネットワークはピクセルカテゴリとエッジポイントとセンターポイントへの変換を予測するように訓練されます。 次に6dofポーズパラメータを推定するために最小2乗のフィッティング方法を適用する。 具体的には,前景特徴マップからキーポイントを選択する動的キーポイント選択アルゴリズムを提案する。 幾何学的情報や外観情報を活用できます 6dofポーズ推定では,インスタンス意味セグメンテーション結果を用いて背景ポイントをフィルタリングし,前景点のみを使用してエッジポイントの検出と6dofポーズ推定を行う。 YCB-VideoとLineMoDという2つの一般的な6DoF推定ベンチマークデータセットの実験により、我々の手法は最先端の手法よりも優れており、他のカテゴリの手法よりも大幅に改善されていることが示された。

6 DoF poses estimation problem aims to estimate the rotation and translation parameters between two coordinates, such as object world coordinate and camera world coordinate. Although some advances are made with the help of deep learning, how to full use scene information is still a problem. Prior works tackle the problem by pixel-wise feature fusion but need to randomly selecte numerous points from images, which can not satisfy the demands of fast inference simultaneously and accurate pose estimation. In this work, we present a novel deep neural network based on dynamic keypoints selection designed for 6DoF pose estimation from a single RGBD image. Our network includes three parts, instance semantic segmentation, edge points detection and 6DoF pose estimation. Given an RGBD image, our network is trained to predict pixel category and the translation to edge points and center points. Then, a least-square fitting manner is applied to estimate the 6DoF pose parameters. Specifically, we propose a dynamic keypoints selection algorithm to choose keypoints from the foreground feature map. It allows us to leverage geometric and appearance information. During 6DoF pose estimation, we utilize the instance semantic segmentation result to filter out background points and only use foreground points to finish edge points detection and 6DoF pose estimation. Experiments on two commonly used 6DoF estimation benchmark datasets, YCB-Video and LineMoD, demonstrate that our method outperforms the state-of-the-art methods and achieves significant improvements over other same category methods time efficiency.
翻訳日:2021-10-26 16:02:58 公開日:2021-10-24
# NAS-FCOS:オブジェクト検出アーキテクチャの効率的な検索

NAS-FCOS: Efficient Search for Object Detection Architectures ( http://arxiv.org/abs/2110.12423v1 )

ライセンス: Link先を確認
Ning Wang and Yang Gao and Hao Chen and Peng Wang and Zhi Tian and Chunhua Shen and Yanning Zhang(参考訳) neural architecture search (nas) は、最適なアーキテクチャを自動的に発見することで、ネットワーク設計における手作業の削減に有効な可能性を示している。 注目すべきは、現在、コンピュータビジョンにおいて重要な重要性があるにもかかわらず、NASアルゴリズムによるオブジェクト検出は少ないことである。 我々の知る限りでは、オブジェクト検出タスクに関する最近のNAS研究のほとんどは、それらのアルゴリズムによる過剰な計算リソースコストを言うまでもなく、結果のモデルの性能と効率のバランスを十分とどまることができません。 本稿では,特徴ピラミッドネットワーク(fpn)と,簡易アンカーフリー物体検出器(fcos [36])の予測ヘッドを適応強化学習パラダイムを用いて探索し,より効率的な物体検出手法を提案する。 注意深く設計された検索空間、検索アルゴリズム、およびネットワーク品質を評価する戦略により、我々は8v100 gpuを使用して4日以内にトップパフォーマンス検出アーキテクチャを見つけることができる。 検出されたアーキテクチャは、cocoデータセット上のapにおける最先端のオブジェクト検出モデル(高速なr-cnn、retina-net、fcosなど)を1.0%から5.4%上回り、計算の複雑さとメモリフットプリントに匹敵し、提案するnas法がオブジェクト検出に有効であることを示した。 コードはhttps://github.com/L ausannen/NAS-FCOSで入手できる。

Neural Architecture Search (NAS) has shown great potential in effectively reducing manual effort in network design by automatically discovering optimal architectures. What is noteworthy is that as of now, object detection is less touched by NAS algorithms despite its significant importance in computer vision. To the best of our knowledge, most of the recent NAS studies on object detection tasks fail to satisfactorily strike a balance between performance and efficiency of the resulting models, let alone the excessive amount of computational resources cost by those algorithms. Here we propose an efficient method to obtain better object detectors by searching for the feature pyramid network (FPN) as well as the prediction head of a simple anchor-free object detector, namely, FCOS [36], using a tailored reinforcement learning paradigm. With carefully designed search space, search algorithms, and strategies for evaluating network quality, we are able to find top-performing detection architectures within 4 days using 8 V100 GPUs. The discovered architectures surpass state-of-the-art object detection models (such as Faster R-CNN, Retina-Net and, FCOS) by 1.0% to 5.4% points in AP on the COCO dataset, with comparable computation complexity and memory footprint, demonstrating the efficacy of the proposed NAS method for object detection. Code is available at https://github.com/L ausannen/NAS-FCOS.
翻訳日:2021-10-26 16:02:16 公開日:2021-10-24
# 画像ベースCLIP-Guided Essence Transfer

Image-Based CLIP-Guided Essence Transfer ( http://arxiv.org/abs/2110.12427v1 )

ライセンス: Link先を確認
Hila Chefer, Sagie Benaim, Roni Paiss, Lior Wolf(参考訳) CLIPは、マッチした画像とテキストキャプションの大規模なコーパスに基づいて訓練されており、限られた数のクラスのみをマルチクラス分類するネットワークよりも、意味的にはるかにリッチである。 ゼロショットコンピュータビジョンタスクには極めて適していることが示されているが、ここではセマンティックブレンディングをサポートする能力を示す。 スタイルガン空間は、例えば2人の子供の画像を合理的にブレンドするが、異なる属性のイメージをブレンドする場合に苦労する。 一方、CLIP自体は、ブレンディング時にアイデンティティを維持するのに苦労している。 この2つの組み合わせは強力なブレンディング技術を提供し、両方の表現の利点を享受している。 これは、第1の潜在空間における加法性を仮定し、最適化を通じて第2の加法性を保証する新しい方法によって実現される。

CLIP is trained on a large corpus of matched images and text captions and is, therefore, much richer semantically than networks that perform multiclass classification for a limited number of classes only. It has been shown to be extremely suitable for zero-shot computer vision tasks; here, we demonstrate its ability to support semantic blending. While the StyleGAN space already performs reasonable blending for images of, e.g., two children, it struggles when blending images with different attributes. On the other hand, CLIP by itself struggles to maintain identity when blending. The combination of the two seems to provide a powerful blending technique, which enjoys the benefits of both representations. This is enabled through a novel method, which assumes additivity in the first latent space and ensures additivity in the second through optimization.
翻訳日:2021-10-26 16:01:47 公開日:2021-10-24
# EgoNN: 都市規模でのポイントクラウドベースの6DoF再ローカライゼーションのためのエゴセントリックニューラルネットワーク

EgoNN: Egocentric Neural Network for Point Cloud Based 6DoF Relocalization at the City Scale ( http://arxiv.org/abs/2110.12486v1 )

ライセンス: Link先を確認
Jacek Komorowski, Monika Wysoczanska and Tomasz Trzcinski(参考訳) 回転する3次元LiDARにより得られる点雲からグローバルおよび局所記述子を抽出するためのディープニューラルネットワークに基づく手法を提案する。 ディスクリプタは2段階の6DoF再ローカライズに使用できる。 まず、地理タグ付きポイントクラウドのデータベースに最も近いグローバルディスクリプタを持つ候補を見つけることにより、コース位置を検索する。 そして、ローカルディスクリプタをマッチングし、ransacなどのロバストな推定器を用いて、クエリポイントクラウドとデータベースポイントクラウドとの間の6dofポーズを推定する。 本手法は,スパースボクセル化表現に基づく簡素で完全畳み込み型アーキテクチャを有する。 グローバルディスクリプタと局所ディスクリプタによるキーポイントの集合を、数十万点の大点雲から効率的に抽出することができる。 私たちのコードと事前訓練されたモデルはプロジェクトのWebサイトで公開されています。

The paper presents a deep neural network-based method for global and local descriptors extraction from a point cloud acquired by a rotating 3D LiDAR. The descriptors can be used for two-stage 6DoF relocalization. First, a course position is retrieved by finding candidates with the closest global descriptor in the database of geo-tagged point clouds. Then, the 6DoF pose between a query point cloud and a database point cloud is estimated by matching local descriptors and using a robust estimator such as RANSAC. Our method has a simple, fully convolutional architecture based on a sparse voxelized representation. It can efficiently extract a global descriptor and a set of keypoints with local descriptors from large point clouds with tens of thousand points. Our code and pretrained models are publicly available on the project website.
翻訳日:2021-10-26 16:01:33 公開日:2021-10-24
# HSDB-Instrument: 腹腔鏡下・ロボット用計器位置データベース

HSDB-instrument: Instrument Localization Database for Laparoscopic and Robotic Surgeries ( http://arxiv.org/abs/2110.12555v1 )

ライセンス: Link先を確認
Jihun Yoon, Jiwon Lee, Sunghwan Heo, Hayeong Yu, Jayeon Lim, Chi Hyun Song, SeulGi Hong, Seungbum Hong, Bokyung Park, SungHyun Park, Woo Jin Hyung and Min-Kook Choi1(参考訳) 自動手術器具の定位は手術過程を理解する上で重要な技術であり、手術中や手術後の手術指標に有意義な指導を与えるために分析を行う。 そこで本研究では,手術映像の自動計測のための手術器具の運動特性を反映する新しいデータセットを提案する。 hSDB (hutom Surgery DataBase)-Instrument データセットは腹腔鏡下胆嚢摘出術24例と腹腔鏡下胆嚢摘出術24例からなる。 すべての機器のローカライズ情報は、オブジェクト検出のためのバウンディングボックスの形式で提供される。 楽器間のクラス不均衡問題に対処するために、訓練データとして3dモデルのユニティでモデル化された合成機器を含む。 さらに、3D機器データには、ツールのインスタンスセグメンテーションを可能にするポリゴンアノテーションが提供される。 全ての楽器のキネマティックな特性を反映するために、腹腔鏡機器の頭部と体部、ロボット機器の頭、手首、体部を別々にアノテートする。 手術に頻繁に使用される補助具(特別袋、針等)の注釈データも含む。 さらに,hSDB-Instrumentデータセットの統計情報と,MMDetectionライブラリでトレーニングしたオブジェクト検出ネットワークのベースラインローカライゼーション性能について分析を行った。

Automated surgical instrument localization is an important technology to understand the surgical process and in order to analyze them to provide meaningful guidance during surgery or surgical index after surgery to the surgeon. We introduce a new dataset that reflects the kinematic characteristics of surgical instruments for automated surgical instrument localization of surgical videos. The hSDB(hutom Surgery DataBase)-instrument dataset consists of instrument localization information from 24 cases of laparoscopic cholecystecomy and 24 cases of robotic gastrectomy. Localization information for all instruments is provided in the form of a bounding box for object detection. To handle class imbalance problem between instruments, synthesized instruments modeled in Unity for 3D models are included as training data. Besides, for 3D instrument data, a polygon annotation is provided to enable instance segmentation of the tool. To reflect the kinematic characteristics of all instruments, they are annotated with head and body parts for laparoscopic instruments, and with head, wrist, and body parts for robotic instruments separately. Annotation data of assistive tools (specimen bag, needle, etc.) that are frequently used for surgery are also included. Moreover, we provide statistical information on the hSDB-instrument dataset and the baseline localization performances of the object detection networks trained by the MMDetection library and resulting analyses.
翻訳日:2021-10-26 16:01:20 公開日:2021-10-24
# WARPd:近似シャープネス条件をもつ逆問題に対する線形収束一階法

WARPd: A linearly convergent first-order method for inverse problems with approximate sharpness conditions ( http://arxiv.org/abs/2110.12437v1 )

ライセンス: Link先を確認
Matthew J. Colbrook(参考訳) アンダーサンプルとノイズ測定による信号の再構成は、かなりの関心を集めている。 シャープネス条件は、強い凸性のような制限的な仮定を必要とせずに、一階法の再起動スキームの回復性能を直接制御する。 しかし、ノイズや近似モデルクラス(例えば、近似空間)の存在下で適用することは困難である。 プライマル・デュアル・イテレーションと新しいリスタート・リウェイト・スキームに基づいて、ウェイトド、アクセラレーション、リスタートされたプライマル・ダイアル(WARPd)を提案する。 一般的な近似シャープネス条件の下で、WARPd は所望のベクトルに対して安定な線型収束を達成する。 多くの問題がこの枠組みに当てはまる。 例えば、圧縮センシングにおけるスパース回復、低ランクマトリクス回復、マトリクス完全化、テレビ正規化、制約下での$\|bx\|_{l^1}$の最小化(l^1$- analysis problem for general $b$)、混合正規化問題などを分析する。 本稿では,回復性能を制御する数量を明示的な近似シャープネス定数として与える方法を示す。 数値実験により、WARPdは特定の最先端手法と好適に比較でき、大規模問題の解法に最適であることが示された。 また、Square-Root LASSOデコーダに基づくノイズブラインド版を提案する。 最後に、WARPdをニューラルネットワークとしてアンロールする方法を示す。 この近似理論の結果は、逆問題に対する安定かつ正確なニューラルネットワークの低い境界を提供し、アーキテクチャの選択に光を当てる。 コードとサンプルのギャラリーは、MATLABパッケージとしてオンラインで公開されている。

Reconstruction of signals from undersampled and noisy measurements is a topic of considerable interest. Sharpness conditions directly control the recovery performance of restart schemes for first-order methods without the need for restrictive assumptions such as strong convexity. However, they are challenging to apply in the presence of noise or approximate model classes (e.g., approximate sparsity). We provide a first-order method: Weighted, Accelerated and Restarted Primal-dual (WARPd), based on primal-dual iterations and a novel restart-reweight scheme. Under a generic approximate sharpness condition, WARPd achieves stable linear convergence to the desired vector. Many problems of interest fit into this framework. For example, we analyze sparse recovery in compressed sensing, low-rank matrix recovery, matrix completion, TV regularization, minimization of $\|Bx\|_{l^1}$ under constraints ($l^1$-analysis problems for general $B$), and mixed regularization problems. We show how several quantities controlling recovery performance also provide explicit approximate sharpness constants. Numerical experiments show that WARPd compares favorably with specialized state-of-the-art methods and is ideally suited for solving large-scale problems. We also present a noise-blind variant based on the Square-Root LASSO decoder. Finally, we show how to unroll WARPd as neural networks. This approximation theory result provides lower bounds for stable and accurate neural networks for inverse problems and sheds light on architecture choices. Code and a gallery of examples are made available online as a MATLAB package.
翻訳日:2021-10-26 15:46:36 公開日:2021-10-24
# ヘブライ語における裁判所判決の自動抽出

Automated Extraction of Sentencing Decisions from Court Cases in the Hebrew Language ( http://arxiv.org/abs/2110.12383v1 )

ライセンス: Link先を確認
Mohr Wenger, Tom Kalir, Noga Berger, Carmit Chalamish, Renana Keydar, Gabriel Stanovsky(参考訳) 本稿では,ヘブライ語における刑事訴訟の判決に対するAPE(Automated Punishment extract)の課題について述べる。 APEに対処することで、センテンシングのパターンの識別が可能になり、センテンシング決定の予測を含む多くの法的なNLPアプリケーションに追従するための重要な一歩となる。 我々は、性的暴行判決のデータセットと手作業による評価データセットをキュレートし、ルールベースおよび監督モデルを実装した。 教師付きモデルでは、刑罰を含む文を精度良く識別できるが、規則に基づくアプローチは、完全なAPEタスクよりも優れている。 結論として,データセット内の送信パターンを最初に分析し,一般的なモデルの誤りを分析し,プロベーションと実刑罰の区別など,今後の作業への道筋を示す。 データやアノテーション,最初のベンチマークモデルなど,すべてのリソースを要求に応じて提供します。

We present the task of Automated Punishment Extraction (APE) in sentencing decisions from criminal court cases in Hebrew. Addressing APE will enable the identification of sentencing patterns and constitute an important stepping stone for many follow up legal NLP applications in Hebrew, including the prediction of sentencing decisions. We curate a dataset of sexual assault sentencing decisions and a manually-annotated evaluation dataset, and implement rule-based and supervised models. We find that while supervised models can identify the sentence containing the punishment with good accuracy, rule-based approaches outperform them on the full APE task. We conclude by presenting a first analysis of sentencing patterns in our dataset and analyze common models' errors, indicating avenues for future work, such as distinguishing between probation and actual imprisonment punishment. We will make all our resources available upon request, including data, annotation, and first benchmark models.
翻訳日:2021-10-26 15:43:49 公開日:2021-10-24
# DNNモデル圧縮のためのグラディエントフローに基づくサリエンシ探索

Exploring Gradient Flow Based Saliency for DNN Model Compression ( http://arxiv.org/abs/2110.12477v1 )

ライセンス: Link先を確認
Xinyu Liu, Baopu Li, Zhen Chen, Yixuan Yuan(参考訳) モデルプルーニングは、ディープニューラルネットワーク(DNN)モデルのサイズや計算オーバーヘッドを低減することを目的としている。 DNNのチャネル重要度を評価するl-1プルーニングのような従来のモデルプルーニング手法は、各チャネルの局所的な解析にあまりに注意を払っており、各畳み込み操作後のバッチ正規化(BN)とReLU層との関係を無視しながら、特徴全体の大きさを利用する。 これらの問題を克服するため,本論文では,勾配流の新しい視点から新しいモデルプルーニング法を提案する。 具体的には,まず,bn層とrelu活性化関数の効果を統合することにより,taylor展開に基づくチャネルの影響を理論的に解析した。 次に、スケーリングパラメータの1階タリオル多項式とBN層のシフトパラメータを組み込むことにより、DNNにおけるチャネルの意義を効果的に示すことを提案する。 画像分類と画像分類の両タスクに関する包括的実験は,提案する新理論とスキームの優越性を示している。 コードはhttps://github.com/C ityU-AIM-Group/GFBSで入手できる。

Model pruning aims to reduce the deep neural network (DNN) model size or computational overhead. Traditional model pruning methods such as l-1 pruning that evaluates the channel significance for DNN pay too much attention to the local analysis of each channel and make use of the magnitude of the entire feature while ignoring its relevance to the batch normalization (BN) and ReLU layer after each convolutional operation. To overcome these problems, we propose a new model pruning method from a new perspective of gradient flow in this paper. Specifically, we first theoretically analyze the channel's influence based on Taylor expansion by integrating the effects of BN layer and ReLU activation function. Then, the incorporation of the first-order Talyor polynomial of the scaling parameter and the shifting parameter in the BN layer is suggested to effectively indicate the significance of a channel in a DNN. Comprehensive experiments on both image classification and image denoising tasks demonstrate the superiority of the proposed novel theory and scheme. Code is available at https://github.com/C ityU-AIM-Group/GFBS.
翻訳日:2021-10-26 15:19:06 公開日:2021-10-24
# 非凸分布ロバスト最適化:非漸近解析

Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis ( http://arxiv.org/abs/2110.12459v1 )

ライセンス: Link先を確認
Jikai Jin and Bohang Zhang and Haiyang Wang and Liwei Wang(参考訳) 分散ロバスト最適化(DRO)は、分散シフトに対して堅牢なモデルを学ぶために広く利用されている手法である。 標準最適化設定と比較すると、DROの目的関数の最適化は困難であり、既存の理論結果のほとんどは損失関数について強い仮定を下している。 本研究はDROアルゴリズムを用いて,一般の滑らかな非凸損失に対するギャップを埋めるものである。 DRO対象の特定の形式を慎重に活用することにより、目的関数が非凸で非滑らかであり、非有界勾配雑音を持つとしても、非漸近収束を保証することができる。 特に、運動量を持つミニバッチ正規化勾配降下と呼ばれる特別なアルゴリズムは、$o( \epsilon^{-4} )$勾配複雑性内で$\epsilon$ 1次定常点を見つけることができる。 また,条件付き値-値-リスク(CVaR)の設定についても論じるとともに,CVaRのスムーズなバージョンに基づいて,同様の収束保証が得られるようなDRO目標を提案する。 最終的にいくつかのタスクにおいて理論結果を検証し,提案アルゴリズムが連続的に顕著な加速を達成できることを示す。

Distributionally robust optimization (DRO) is a widely-used approach to learn models that are robust against distribution shift. Compared with the standard optimization setting, the objective function in DRO is more difficult to optimize, and most of the existing theoretical results make strong assumptions on the loss function. In this work we bridge the gap by studying DRO algorithms for general smooth non-convex losses. By carefully exploiting the specific form of the DRO objective, we are able to provide non-asymptotic convergence guarantees even though the objective function is possibly non-convex, non-smooth and has unbounded gradient noise. In particular, we prove that a special algorithm called the mini-batch normalized gradient descent with momentum, can find an $\epsilon$ first-order stationary point within $O( \epsilon^{-4} )$ gradient complexity. We also discuss the conditional value-at-risk (CVaR) setting, where we propose a penalized DRO objective based on a smoothed version of the CVaR that allows us to obtain a similar convergence guarantee. We finally verify our theoretical results in a number of tasks and find that the proposed algorithm can consistently achieve prominent acceleration.
翻訳日:2021-10-26 15:10:03 公開日:2021-10-24
# 統合条件推定最適化

Integrated Conditional Estimation-Optimizat ion ( http://arxiv.org/abs/2110.12351v1 )

ライセンス: Link先を確認
Paul Grigas, Meng Qi, Zuo-Jun (Max) Shen(参考訳) 多くの実世界の最適化問題は、文脈的特徴情報を用いて推定できる確率分布を持つ不確実なパラメータを含む。 まず,不確定パラメータの分布を推定し,その推定に基づいて目標を最適化する標準的なアプローチとは対照的に,最適化問題の構造を考慮しつつ,確率パラメータの基底条件分布を推定する統合条件推定最適化(iceo)フレームワークを提案する。 ランダムパラメータの条件分布と文脈的特徴の関係を直接モデル化し、下流最適化問題と整合した目標を用いて確率モデルを推定する。 我々のI CEOアプローチは、中等正規性条件下で漸近的に整合であることを示し、さらに一般化境界の形で有限な性能保証を提供する。 計算学的には、I CEO アプローチによる推定は非凸であり、しばしば微分不可能な最適化問題である。 本研究では, 推定条件分布から最適決定への可微分写像を微分可能関数によって近似する一般的な手法を提案し, 非凸問題に適用する勾配に基づくアルゴリズムの性能を大幅に改善する。 また,半代数の場合の多項式最適化解法を提案する。 また,データサンプルの制限やモデルミスマッチなど,異なる状況下での経験的成功を示すために,数値実験を行った。

Many real-world optimization problems involve uncertain parameters with probability distributions that can be estimated using contextual feature information. In contrast to the standard approach of first estimating the distribution of uncertain parameters and then optimizing the objective based on the estimation, we propose an integrated conditional estimation-optimizat ion (ICEO) framework that estimates the underlying conditional distribution of the random parameter while considering the structure of the optimization problem. We directly model the relationship between the conditional distribution of the random parameter and the contextual features, and then estimate the probabilistic model with an objective that aligns with the downstream optimization problem. We show that our ICEO approach is asymptotically consistent under moderate regularity conditions and further provide finite performance guarantees in the form of generalization bounds. Computationally, performing estimation with the ICEO approach is a non-convex and often non-differentiable optimization problem. We propose a general methodology for approximating the potentially non-differentiable mapping from estimated conditional distribution to the optimal decision by a differentiable function, which greatly improves the performance of gradient-based algorithms applied to the non-convex problem. We also provide a polynomial optimization solution approach in the semi-algebraic case. Numerical experiments are also conducted to show the empirical success of our approach in different situations including with limited data samples and model mismatches.
翻訳日:2021-10-26 14:42:44 公開日:2021-10-24
# ADC:コンテキスト整合性チェックを回避するオブジェクト検出に対する逆攻撃

ADC: Adversarial attacks against object Detection that evade Context consistency checks ( http://arxiv.org/abs/2110.12321v1 )

ライセンス: Link先を確認
Mingjun Yin, Shasha Li, Chengyu Song, M. Salman Asif, Amit K. Roy-Chowdhury, Srikanth V. Krishnamurthy(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、DNNを誤った予測に導くわずかに乱れた入力画像である敵の例に弱いことが示されている。 このような事例から、様々な防衛戦略が提案されている。 最近の防御戦略は、現在の攻撃に頑健であることが示されており、画像内の様々な関係(例えば、オブジェクトとオブジェクトの共起関係)を参照する入力データに含まれる内在的なコンテクストのコンテクストをチェックすることである。 本稿では, 文脈整合性チェックであっても, 正反対の例を適切に作成し, 知識を最大限に活用するためには, まず, 状況整合性チェックが脆弱であることを示す。 具体的には、コンテキスト一貫性チェック(adc)を回避するオブジェクト検出に対する敵意攻撃など、このような防御を回避できる例を生成するための適応フレームワークを提案する。 ADCでは、2つの攻撃目標であるviz を持つ共同最適化問題を定式化する。 (i)物体検出器を騙して (ii)同時にコンテキスト一貫性チェックシステムを回避します。 PASCAL VOCとMS COCOのデータセットでの実験では、ほとんどのケースにおいて、ADCで生成された例は85%以上の成功率を持つオブジェクト検出器を騙し、同時に、最近提案されたコンテキスト整合性チェックを回避し、ほとんどのケースでは80%以上のバイパス率を持つことを示した。 我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。

Deep Neural Networks (DNNs) have been shown to be vulnerable to adversarial examples, which are slightly perturbed input images which lead DNNs to make wrong predictions. To protect from such examples, various defense strategies have been proposed. A very recent defense strategy for detecting adversarial examples, that has been shown to be robust to current attacks, is to check for intrinsic context consistencies in the input data, where context refers to various relationships (e.g., object-to-object co-occurrence relationships) in images. In this paper, we show that even context consistency checks can be brittle to properly crafted adversarial examples and to the best of our knowledge, we are the first to do so. Specifically, we propose an adaptive framework to generate examples that subvert such defenses, namely, Adversarial attacks against object Detection that evade Context consistency checks (ADC). In ADC, we formulate a joint optimization problem which has two attack goals, viz., (i) fooling the object detector and (ii) evading the context consistency check system, at the same time. Experiments on both PASCAL VOC and MS COCO datasets show that examples generated with ADC fool the object detector with a success rate of over 85% in most cases, and at the same time evade the recently proposed context consistency checks, with a bypassing rate of over 80% in most cases. Our results suggest that how to robustly model context and check its consistency, is still an open problem.
翻訳日:2021-10-26 14:38:42 公開日:2021-10-24
# reachability embeddeds: 地理的コンピュータビジョンのためのマルコフ軌道からのスケーラブルな自己教師付き表現学習

Reachability Embeddings: Scalable Self-Supervised Representation Learning from Markovian Trajectories for Geospatial Computer Vision ( http://arxiv.org/abs/2110.12521v1 )

ライセンス: Link先を確認
Swetava Ganguli, C. V. Krishnakumar Iyer, Vipul Pandey(参考訳) 自己教師付き表現学習技術は意味的アノテーションを使わずに大規模なデータセットを用いて意味のある普遍的な特徴を学習する。 本稿では,下流の地理空間コンピュータビジョンタスクを解決するために,ラベルのないGPS軌道から地理的位置の表現を学習するための自己教師付き手法を提案する。 地球表面のラスタ表現から生じるタイルは、画像のグラフまたはピクセル上のノードとしてモデル化される。 GPS軌道はこれらのノード上で許容されるマルコフ経路としてモデル化される。 拡張性のある分散アルゴリズムは、観測されたマルコフ経路によって暗示されるタイルとその隣人間の空間的接続パターンの到達可能性要約と呼ばれるイメージライクな表現を計算する。 畳み込み型契約型オートエンコーダは、各タイルの到達可能性サマリーの到達可能性埋め込みと呼ばれる圧縮表現を学ぶために訓練される。 到達可能性埋め込みは、地理的位置のタスクに依存しない特徴表現として機能する。 Using reachability embeddings as pixel representations for five different downstream geospatial tasks, cast as supervised semantic segmentation problems, we quantitatively demonstrate that reachability embeddings are semantically meaningful representations and result in 4-23% gain in performance, while using upto 67% less trajectory data, as measured using area under the precision-recall curve (AUPRC) metric, when compared to baseline models that use pixel representations that do not account for the spatial connectivity between tiles. 到達可能性埋め込みは、シーケンシャルで時空間的なモビリティデータを、意味的に意味のあるイメージのような表現に変換し、他の画像ソースと組み合わせることができ、地理空間コンピュータビジョンにおけるマルチモーダル学習を容易にするように設計されている。

Self-supervised representation learning techniques utilize large datasets without semantic annotations to learn meaningful, universal features that can be conveniently transferred to solve a wide variety of downstream supervised tasks. In this paper, we propose a self-supervised method for learning representations of geographic locations from unlabeled GPS trajectories to solve downstream geospatial computer vision tasks. Tiles resulting from a raster representation of the earth's surface are modeled as nodes on a graph or pixels of an image. GPS trajectories are modeled as allowed Markovian paths on these nodes. A scalable and distributed algorithm is presented to compute image-like representations, called reachability summaries, of the spatial connectivity patterns between tiles and their neighbors implied by the observed Markovian paths. A convolutional, contractive autoencoder is trained to learn compressed representations, called reachability embeddings, of reachability summaries for every tile. Reachability embeddings serve as task-agnostic, feature representations of geographic locations. Using reachability embeddings as pixel representations for five different downstream geospatial tasks, cast as supervised semantic segmentation problems, we quantitatively demonstrate that reachability embeddings are semantically meaningful representations and result in 4-23% gain in performance, while using upto 67% less trajectory data, as measured using area under the precision-recall curve (AUPRC) metric, when compared to baseline models that use pixel representations that do not account for the spatial connectivity between tiles. Reachability embeddings transform sequential, spatiotemporal mobility data into semantically meaningful image-like representations that can be combined with other sources of imagery and are designed to facilitate multimodal learning in geospatial computer vision.
翻訳日:2021-10-26 14:16:22 公開日:2021-10-24
# SOLVER: シーンオブジェクトの相互関連視覚感情推論ネットワーク

SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network ( http://arxiv.org/abs/2110.12334v1 )

ライセンス: Link先を確認
Jingyuan Yang, Xinbo Gao, Leida Li, Xiumei Wang, and Jinshan Ding(参考訳) 視覚感情分析(vea:visual emotion analysis)は、さまざまな視覚刺激に対して、人々が感情的にどのように感じているかを見つけることを目的としている。 人間の感情は、非常に複雑で抽象的な認知過程を伴うため、情緒的イメージの全体的特徴や地域的特徴から直接視覚的感情を推測することは困難である。 心理学において、視覚的感情は、物体間の相互作用や、画像内の物体とシーン間の相互作用によって誘発される。 そこで本研究では,画像から感情を予測する新しいシーンオブジェクト間関連視覚感情推論ネットワーク(solver)を提案する。 異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。 次に,グラフ畳み込みネットワーク(gcn)を用いて感情グラフ上で推論を行い,感情強調オブジェクトの特徴を導出する。 また,シーンとオブジェクトを統合するためのシーン・オブジェクト融合モジュールも設計し,提案するシーン・ベースのアテンション機構を用いて,シーンの特徴の融合プロセスを案内するシーン機能を利用する。 8つのパブリックな視覚感情データセットについて,広範な実験と比較を行い,提案手法が最先端手法を一貫して上回っていることを示す。 アブレーション研究は,この手法の有効性を検証し,その解釈性を可視化することで,veaの謎を探究する新たな知見をもたらす。 特に,SOLVERの他の3つの潜在的なデータセットについてさらに議論し,提案手法のロバスト性を検証するとともに,その限界に気付く。

Visual Emotion Analysis (VEA) aims at finding out how people feel emotionally towards different visual stimuli, which has attracted great attention recently with the prevalence of sharing images on social networks. Since human emotion involves a highly complex and abstract cognitive process, it is difficult to infer visual emotions directly from holistic or regional features in affective images. It has been demonstrated in psychology that visual emotions are evoked by the interactions between objects as well as the interactions between objects and scenes within an image. Inspired by this, we propose a novel Scene-Object interreLated Visual Emotion Reasoning network (SOLVER) to predict emotions from images. To mine the emotional relationships between distinct objects, we first build up an Emotion Graph based on semantic concepts and visual features. Then, we conduct reasoning on the Emotion Graph using Graph Convolutional Network (GCN), yielding emotion-enhanced object features. We also design a Scene-Object Fusion Module to integrate scenes and objects, which exploits scene features to guide the fusion process of object features with the proposed scene-based attention mechanism. Extensive experiments and comparisons are conducted on eight public visual emotion datasets, and the results demonstrate that the proposed SOLVER consistently outperforms the state-of-the-art methods by a large margin. Ablation studies verify the effectiveness of our method and visualizations prove its interpretability, which also bring new insight to explore the mysteries in VEA. Notably, we further discuss SOLVER on three other potential datasets with extended experiments, where we validate the robustness of our method and notice some limitations of it.
翻訳日:2021-10-26 14:13:02 公開日:2021-10-24
# 畳み込みニューラルネットワークを用いた胸部x線像の肺厚さと肺容量の推定

Per-Pixel Lung Thickness and Lung Capacity Estimation on Chest X-Rays using Convolutional Neural Networks ( http://arxiv.org/abs/2110.12509v1 )

ライセンス: Link先を確認
Manuel Schultheiss, Philipp Schmette, Thorsten Sellerer, Rafael Schick, Kirsten Taphorn, Korbinian Mechlem, Lorenz Birnbacher, Bernhard Renger, Marcus R. Makowski, Franz Pfeiffer, Daniela Pfeiffer(参考訳) X線画像上での肺深度の推定は、臨床経過中の正確な肺体積推定と、X線暗視野画像のような現代的な構造的胸部イメージング技術における画像コントラストの改善の両方をもたらす可能性がある。 本稿では,ピクセル単位の肺厚推定とそれに続く肺容量推定を可能にする畳み込みニューラルネットワークに基づく手法を提案する。 ネットワークは525個の実CTスキャンから生成された5250個のシミュレートされたラジオグラフを用いて訓練され、検証された。 さらに,実画像上でシミュレーションデータを用いて訓練したモデルを推定することができる。 35例について, 標準臨床X線写真を用いて定量的, 質的評価を行った。 各患者の肺全容積の基底は,各患者の対応するctスキャンに基づいて定義した。 35実検体における肺容積推定値と地中容積の平均誤差は0.73リットルであった。 さらに,平均絶対誤差0.27リットルの131ラジオグラフの合成データを用いて肺の厚さを予測した。 その結果,シミュレーションモデルで得られた知識を実X線画像に転送することが可能であることが示唆された。

Estimating the lung depth on x-ray images could provide both an accurate opportunistic lung volume estimation during clinical routine and improve image contrast in modern structural chest imaging techniques like x-ray dark-field imaging. We present a method based on a convolutional neural network that allows a per-pixel lung thickness estimation and subsequent total lung capacity estimation. The network was trained and validated using 5250 simulated radiographs generated from 525 real CT scans. Furthermore, we are able to infer the model trained with simulation data on real radiographs. For 35 patients, quantitative and qualitative evaluation was performed on standard clinical radiographs. The ground-truth for each patient's total lung volume was defined based on the patients' corresponding CT scan. The mean-absolute error between the estimated lung volume on the 35 real radiographs and groundtruth volume was 0.73 liter. Additionally, we predicted the lung thicknesses on a synthetic dataset of 131 radiographs, where the mean-absolute error was 0.27 liter. The results show, that it is possible to transfer the knowledge obtained in a simulation model to real x-ray images.
翻訳日:2021-10-26 14:12:33 公開日:2021-10-24
# バイオメディカルな関係抽出のための抽象的マルチインスタンス学習(AMIL)

Abstractified Multi-instance Learning (AMIL) for Biomedical Relation Extraction ( http://arxiv.org/abs/2110.12501v1 )

ライセンス: Link先を確認
William Hogan, Molly Huang, Yannis Katsis, Tyler Baldwin, Ho-Cheol Kim, Yoshiki Vazquez Baeza, Andrew Bartko, Chun-Nan Hsu(参考訳) 生物医学領域における関係抽出は、ラベル付きデータの欠如とファクトトリプルの長期分布のために難しい課題である。 多くの研究は、知識グラフと生のテキストデータを組み合わせてラベル付きデータを自動的に生成する遠隔監視を活用している。 遠隔監視はノイズの多いラベルを生成し、訓練信号をノイズ化するためには、MIL(Multi-instance Learning)のような追加のテクニックを必要とする。 しかし、MILはデータの複数のインスタンスを必要とし、バイオメディカル領域で見られるような非常に長い尾のデータセットと競合する。 本研究では,生物医学的実体をそれらの意味型に抽象化する生物医学的関係抽出のための新しいMILの再構成を提案する。 エンティティをタイプ別にグループ化することで、MILの利点を活かし、トレーニングシグナルをさらに軽視することが可能になる。 本稿では, 生物医学的関係抽出における性能の向上を図り, 抽象的マルチインスタンス学習(AMIL)と呼ぶ。 また,モデル性能をさらに向上させる新しい関係埋め込みアーキテクチャを提案する。

Relation extraction in the biomedical domain is a challenging task due to a lack of labeled data and a long-tail distribution of fact triples. Many works leverage distant supervision which automatically generates labeled data by pairing a knowledge graph with raw textual data. Distant supervision produces noisy labels and requires additional techniques, such as multi-instance learning (MIL), to denoise the training signal. However, MIL requires multiple instances of data and struggles with very long-tail datasets such as those found in the biomedical domain. In this work, we propose a novel reformulation of MIL for biomedical relation extraction that abstractifies biomedical entities into their corresponding semantic types. By grouping entities by types, we are better able to take advantage of the benefits of MIL and further denoise the training signal. We show this reformulation, which we refer to as abstractified multi-instance learning (AMIL), improves performance in biomedical relationship extraction. We also propose a novel relationship embedding architecture that further improves model performance.
翻訳日:2021-10-26 14:10:45 公開日:2021-10-24
# SCORE:オフライン強化学習のためのSpurious Correlation Reduction

SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.12468v1 )

ライセンス: Link先を確認
Zhihong Deng, Zuyue Fu, Lingxiao Wang, Zhuoran Yang, Chenjia Bai, Zhaoran Wang, Jing Jiang(参考訳) オフライン強化学習(RL)は、オンラインインタラクションを伴わない事前コンパイルデータセットから最適なポリシーを学ぶことを目的としている。 既存の研究のほとんどは、分配外行動によって引き起こされる分布の変化に焦点を当てている。 しかし、分配内行動でさえ深刻な問題を引き起こすことがある。 データセットには基礎となるモデルに関する限られた情報しか含まれていないため、オフラインrlはスプリアス相関に弱い。 このような課題に対処するために,不確実性ペナルティを政策評価に組み込むことで,スプリアス相関を低減できる実用的かつ理論的に保証されたアルゴリズムスコアを提案する。 これは理論で研究された悲観主義の原理と一致しており、提案したアルゴリズムは穏やかな仮定の下で準線形レートで最適ポリシーに収束する。 既存のベンチマークで広範な実験を行うことで、SCOREは固体理論の恩恵を受けるだけでなく、様々なタスクにおいて強い経験結果が得られることを示す。

Offline reinforcement learning (RL) aims to learn the optimal policy from a pre-collected dataset without online interactions. Most of the existing studies focus on distributional shift caused by out-of-distribution actions. However, even in-distribution actions can raise serious problems. Since the dataset only contains limited information about the underlying model, offline RL is vulnerable to spurious correlations, i.e., the agent tends to prefer actions that by chance lead to high returns, resulting in a highly suboptimal policy. To address such a challenge, we propose a practical and theoretically guaranteed algorithm SCORE that reduces spurious correlations by combing an uncertainty penalty into policy evaluation. We show that this is consistent with the pessimism principle studied in theory, and the proposed algorithm converges to the optimal policy with a sublinear rate under mild assumptions. By conducting extensive experiments on existing benchmarks, we show that SCORE not only benefits from a solid theory but also obtains strong empirical results on a variety of tasks.
翻訳日:2021-10-26 14:08:18 公開日:2021-10-24
# cvt-assd:畳み込み視覚変換器に基づく注意型単発マルチボックス検出器

CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot MultiBox Detector ( http://arxiv.org/abs/2110.12364v1 )

ライセンス: Link先を確認
Weiqiang Jin, Hang Yu, Hang Yu(参考訳) 自然言語処理(nlp)におけるトランスフォーマー(bert)からの双方向エンコーダ表現の成功により、コンピュータビジョン研究(cv)においてマルチヘッドアテンショントランスフォーマがより普及してきた。 しかし、研究者が視覚検出やセマンティックセグメンテーションといった複雑なタスクを遂行することは依然として課題である。 DETRやViT-FRCNNのような複数のトランスフォーマーベースのアーキテクチャがオブジェクト検出タスクの完了のために提案されているが、識別精度は必然的に低下し、従来の自己注意操作によって生じる膨大な学習パラメータと重い計算複雑性に起因する計算効率が低下する。 これらの問題を緩和するために,コンボリューショナル・ビジョン・トランスフォーマー(CvT-ASSD)という,効率的なコンボリューショナル・シングル・ショット・マルチボックス・ディテクタ(ASSD)を備えた,コンボリューショナル・ビジョン・トランスオーマー(CvT)上に構築された新しいオブジェクト検出アーキテクチャを提案する。 我々は,我々のモデルであるCvT-ASSDがPASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上できることを示す総合的な実証的証拠を提供する。 コードはhttps://github.com/a lbert-jin/CvT-ASSDの公開githubリポジトリでリリースされた。

Due to the success of Bidirectional Encoder Representations from Transformers (BERT) in natural language process (NLP), the multi-head attention transformer has been more and more prevalent in computer-vision researches (CV). However, it still remains a challenge for researchers to put forward complex tasks such as vision detection and semantic segmentation. Although multiple Transformer-Based architectures like DETR and ViT-FRCNN have been proposed to complete object detection task, they inevitably decreases discrimination accuracy and brings down computational efficiency caused by the enormous learning parameters and heavy computational complexity incurred by the traditional self-attention operation. In order to alleviate these issues, we present a novel object detection architecture, named Convolutional vision Transformer Based Attentive Single Shot MultiBox Detector (CvT-ASSD), that built on the top of Convolutional vision Transormer (CvT) with the efficient Attentive Single Shot MultiBox Detector (ASSD). We provide comprehensive empirical evidence showing that our model CvT-ASSD can leads to good system efficiency and performance while being pretrained on large-scale detection datasets such as PASCAL VOC and MS COCO. Code has been released on public github repository at https://github.com/a lbert-jin/CvT-ASSD.
翻訳日:2021-10-26 13:39:16 公開日:2021-10-24
# iqnas: 解釈可能な整数二次プログラミングニューラルアーキテクチャ探索

IQNAS: Interpretable Integer Quadratic Programming Neural Architecture Search ( http://arxiv.org/abs/2110.12399v1 )

ライセンス: Link先を確認
Niv Nayman, Yonathan Aflalo, Asaf Noy, Rong Jin, Lihi Zelnik-Manor(参考訳) ニューラルネットワークの現実的な利用には、レイテンシやエネルギ、メモリなどに関する複数の制約に固執する必要があることが多い。 適合ネットワークを見つけるための一般的なアプローチは、制約付きニューラルネットワークサーチ(NAS)である。 しかし、従来の手法ではネットワークの精度に複雑な予測器を用いる。 これらの予測器は、多くのハイパーパラメータに対する解釈や感度が難しいため、生成されたモデルの精度が損なわれることが多い。 本稿では,精度予測と資源要求の両方の正確かつ単純な二次的定式化に基づく解釈可能な整数二次プログラミングニューラルアーキテクチャ探索(iqnas)と,理論的保証を備えたスケーラブルな探索手法を導入することで,この問題を解決する。 提案する予測器と直感的な構築方法の単純さは、異なる設計選択の貢献に関する多くの洞察を通して解釈可能性をもたらします。 例えば,検討対象の探索空間において,ネットワークの深部および各解像度ステージの初期段階において,深度と幅の加算がより効果的であることがわかった。 実験により、IQNASは、リソース制約を厳格に満たしつつ、各生成ネットワークに対する検索コストを削減し、他の最先端NAS手法と同等以上のアーキテクチャを生成することを示した。

Realistic use of neural networks often requires adhering to multiple constraints on latency, energy and memory among others. A popular approach to find fitting networks is through constrained Neural Architecture Search (NAS). However, previous methods use complicated predictors for the accuracy of the network. Those predictors are hard to interpret and sensitive to many hyperparameters to be tuned, hence, the resulting accuracy of the generated models is often harmed. In this work we resolve this by introducing Interpretable Integer Quadratic programming Neural Architecture Search (IQNAS), that is based on an accurate and simple quadratic formulation of both the accuracy predictor and the expected resource requirement, together with a scalable search method with theoretical guarantees. The simplicity of our proposed predictor together with the intuitive way it is constructed bring interpretability through many insights about the contribution of different design choices. For example, we find that in the examined search space, adding depth and width is more effective at deeper stages of the network and at the beginning of each resolution stage. Our experiments show that IQNAS generates comparable to or better architectures than other state-of-the-art NAS methods within a reduced search cost for each additional generated network, while strictly satisfying the resource constraints.
翻訳日:2021-10-26 13:25:19 公開日:2021-10-24