このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211130となっている論文です。

PDF登録状況(公開日: 20211130)

TitleAuthorsAbstract論文公表日・翻訳日
# スケーリングのルールは ニューラルネットワークに当てはまります

Which scaling rule applies to Artificial Neural Networks ( http://arxiv.org/abs/2005.08942v8 )

ライセンス: Link先を確認
J\'anos V\'egh(参考訳) この経験から、分離された単一プロセッサを含む協調および通信コンピューティングシステムには、厳しい性能制限があることが示された。 古典的な "first draft" においてフォン・ノイマンは、"too fast processor" を用いると、単純な "procedure" が振動する(しかし、彼の計算モデルではない)と警告した。 アムダールは、多くのプロセッサからなる大型マシンは本質的に不利であると付け加えた。 ANNのコンポーネントが互いに頻繁に通信していることを考えると、それらは従来のコンピューティングで使用するために設計・構築された多数のコンポーネントから構築されており、さらに不適切な技術ソリューションを使って生物学的操作を模倣しようとするため、達成可能なペイロード計算性能は概念的に控えめである。 AIベースのシステムが生成するワークロードの種類は、非常に低いペイロード計算性能をもたらし、その設計/技術は、そのサイズを"トイ"レベルのシステムに制限する:プロセッサベースのANNシステムのスケーリングは、非常に非線形である。 ANNシステムの増殖と成長の大きさを考えると、デバイスやアプリケーションの効率を事前に見積もるアイデアを提案する。 データ転送時間の役割がANNのパフォーマンスと実現可能性に大きな影響を及ぼす証拠を提供する。 本稿では,ANNの層構造と通信の技術的実装方法が,理論上の制約要因のいくつかが効率に与える影響について論じる。 この論文はフォン・ノイマンのオリジナルのモデルから始まり、処理時間とは別に転送時間を無視することなく、アムダールの法則の適切な解釈と処理を導出する。 この解釈は、アムダールの法則がANNを正しく記述していることを示している。

The experience shows that cooperating and communicating computing systems, comprising segregated single processors, have severe performance limitations. In his classic "First Draft" von Neumann warned that using a "too fast processor" vitiates his simple "procedure" (but not his computing model!); furthermore, that using the classic computing paradigm for imitating neuronal operations, is unsound. Amdahl added that large machines, comprising many processors, have an inherent disadvantage. Given that ANN's components are heavily communicating with each other, they are built from a large number of components designed/fabricated for use in conventional computing, furthermore they attempt to mimic biological operation using improper technological solutions, their achievable payload computing performance is conceptually modest. The type of workload that AI-based systems generate leads to an exceptionally low payload computational performance, and their design/technology limits their size to just above the "toy" level systems: the scaling of processor-based ANN systems is strongly nonlinear. Given the proliferation and growing size of ANN systems, we suggest ideas to estimate in advance the efficiency of the device or application. Through analyzing published measurements we provide evidence that the role of data transfer time drastically influences both ANNs performance and feasibility. It is discussed how some major theoretical limiting factors, ANN's layer structure and their methods of technical implementation of communication affect their efficiency. The paper starts from von Neumann's original model, without neglecting the transfer time apart from processing time; derives an appropriate interpretation and handling for Amdahl's law. It shows that, in that interpretation, Amdahl's Law correctly describes ANNs.
翻訳日:2022-12-02 23:47:34 公開日:2021-11-30
# 近似ガウス過程力学モデルによる予測

Prediction with Approximated Gaussian Process Dynamical Models ( http://arxiv.org/abs/2006.14551v2 )

ライセンス: Link先を確認
Thomas Beckers and Sandra Hirche(参考訳) 力学系のモデリングとシミュレーションは多くの制御手法にとって必要なステップである。 古典的なパラメータベースのモデリング手法、例えばソフトロボティクスや人間とロボットの相互作用は、システムダイナミクスの複雑さのためにしばしば困難または実現不可能である。 対照的に、データ駆動アプローチは、システムの複雑さを伴う最小限の事前知識とスケールしか必要としない。 特に、ガウス過程力学モデル(GPDM)は複雑な力学のモデリングに非常に有望な結果をもたらす。 しかし、これらのGPモデルの制御特性はわずかに研究されており、モデリングや制御シナリオにおける「ブラックボックス」処理に繋がる。 さらに、GPDMの非パラメトリックな性質に対する予測目的のサンプリングにより、非マルコフ力学は理論解析を困難にしている。 本稿では,マルコフであるGPDMを近似し,その制御理論的性質を解析する。 中でも、近似誤差を解析し、軌道の有界性に関する条件を提供する。 この結果は、近似モデルのパワーを示す数値的な例で示され、計算時間が大幅に短縮される。

The modeling and simulation of dynamical systems is a necessary step for many control approaches. Using classical, parameter-based techniques for modeling of modern systems, e.g., soft robotics or human-robot interaction, is often challenging or even infeasible due to the complexity of the system dynamics. In contrast, data-driven approaches need only a minimum of prior knowledge and scale with the complexity of the system. In particular, Gaussian process dynamical models (GPDMs) provide very promising results for the modeling of complex dynamics. However, the control properties of these GP models are just sparsely researched, which leads to a "blackbox" treatment in modeling and control scenarios. In addition, the sampling of GPDMs for prediction purpose respecting their non-parametric nature results in non-Markovian dynamics making the theoretical analysis challenging. In this article, we present approximated GPDMs which are Markov and analyze their control theoretical properties. Among others, the approximated error is analyzed and conditions for boundedness of the trajectories are provided. The outcomes are illustrated with numerical examples that show the power of the approximated models while the the computational time is significantly reduced.
翻訳日:2022-11-17 04:39:20 公開日:2021-11-30
# 遷移ダイナミクスミスマッチによるロバスト逆強化学習

Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch ( http://arxiv.org/abs/2007.01174v4 )

ライセンス: Link先を確認
Luca Viano, Yu-Ting Huang, Parameswaran Kamalaruban, Adrian Weller, Volkan Cevher(参考訳) 専門家と学習者の遷移ダイナミクスミスマッチの下で, 逆強化学習(irl)問題について検討した。 具体的には、最大因果エントロピー(MCE)IRL学習者モデルについて検討し、エキスパートと学習者の遷移ダイナミクス間の$\ell_1$-distanceに基づいて学習者の性能劣化に厳密な上限を与える。 本稿では,ロバスト RL の文献から得られた知見を活用し,このミスマッチを支援するための基本的手法である堅牢な MCE IRL アルゴリズムを提案する。 最後に, 有限および連続 MDP 問題の遷移力学ミスマッチ下での標準 MCE IRL アルゴリズムと比較して, アルゴリズムの安定性能を実証的に実証した。

We study the inverse reinforcement learning (IRL) problem under a transition dynamics mismatch between the expert and the learner. Specifically, we consider the Maximum Causal Entropy (MCE) IRL learner model and provide a tight upper bound on the learner's performance degradation based on the $\ell_1$-distance between the transition dynamics of the expert and the learner. Leveraging insights from the Robust RL literature, we propose a robust MCE IRL algorithm, which is a principled approach to help with this mismatch. Finally, we empirically demonstrate the stable performance of our algorithm compared to the standard MCE IRL algorithm under transition dynamics mismatches in both finite and continuous MDP problems.
翻訳日:2022-11-14 13:25:46 公開日:2021-11-30
# クロスドメイン表情認識:統合評価ベンチマークと逆グラフ学習

Cross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark and Adversarial Graph Learning ( http://arxiv.org/abs/2008.00923v8 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Hefeng Wu, Yuan Xie, Lingbo Liu, Liang Lin(参考訳) 近年,異なる表情認識(FER)データセット間のデータ不整合に対処するために,多くのクロスドメインFER法(CD-FER)が考案されている。 それぞれが優れたパフォーマンスを達成すると宣言するが、ソース/ターゲットデータセットと特徴抽出器の一貫性のない選択のため、公正な比較は不十分である。 そこで本研究では,これらの不整合選択による性能効果をまず分析し,その上で,CD-FERと最近発表された領域適応アルゴリズムを再実装する。 すべてのアルゴリズムが同じソースデータセットと特徴抽出器を採用して,CD-FERの評価を公平に行うことを保証する。 現在の主要なアルゴリズムのほとんどは、逆学習を使用して、ドメインシフトを緩和するために、包括的ドメイン不変機能を学ぶ。 しかし、これらのアルゴリズムは、異なるデータセット間でより転送可能で、細かな適応のためにより詳細なコンテンツを運ぶローカル機能を無視している。 これらの問題に対処するために、新しい逆グラフ表現適応(AGRA)フレームワークを開発することにより、グラフ表現伝搬と逆学習を統合する。 具体的には、まず2つのグラフを構築し、各ドメイン内の全体領域と局所領域をそれぞれ異なるドメインに関連付ける。 そして、入力画像から局所的な特徴を抽出し、学習可能なクラスごとの統計分布を用いて対応するグラフノードを初期化する。 最後に、2つの積み重ねグラフ畳み込みネットワーク(GCN)を用いて、各ドメイン内の全体局所的特徴を伝播させ、それらの相互作用を探索し、また、全体局所的特徴共適応のために異なるドメインにわたって探索する。 我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。

To address the problem of data inconsistencies among different facial expression recognition (FER) datasets, many cross-domain FER methods (CD-FERs) have been extensively devised in recent years. Although each declares to achieve superior performance, fair comparisons are lacking due to the inconsistent choices of the source/target datasets and feature extractors. In this work, we first analyze the performance effect caused by these inconsistent choices, and then re-implement some well-performing CD-FER and recently published domain adaptation algorithms. We ensure that all these algorithms adopt the same source datasets and feature extractors for fair CD-FER evaluations. We find that most of the current leading algorithms use adversarial learning to learn holistic domain-invariant features to mitigate domain shifts. However, these algorithms ignore local features, which are more transferable across different datasets and carry more detailed content for fine-grained adaptation. To address these issues, we integrate graph representation propagation with adversarial learning for cross-domain holistic-local feature co-adaptation by developing a novel adversarial graph representation adaptation (AGRA) framework. Specifically, it first builds two graphs to correlate holistic and local regions within each domain and across different domains, respectively. Then, it extracts holistic-local features from the input image and uses learnable per-class statistical distributions to initialize the corresponding graph nodes. Finally, two stacked graph convolution networks (GCNs) are adopted to propagate holistic-local features within each domain to explore their interaction and across different domains for holistic-local feature co-adaptation. We conduct extensive and fair evaluations on several popular benchmarks and show that the proposed AGRA framework outperforms previous state-of-the-art methods.
翻訳日:2022-11-03 06:42:47 公開日:2021-11-30
# ガウス過程を用いた契約$\mathcal{L}_1$-Adaptive Control

Contraction $\mathcal{L}_1$-Adaptive Control using Gaussian Processes ( http://arxiv.org/abs/2009.03864v2 )

ライセンス: Link先を確認
Aditya Gahlawat, Arun Lakshmanan, Lin Song, Andrew Patterson, Zhuohuan Wu, Naira Hovakimyan, Evangelos Theodorou(参考訳) 我々は,不確実性のあるシステムに対して,安全な同時学習と制御を可能にする制御フレームワークである$\mathcal{CL}_1$-$\mathcal{GP}$を提案する。 2つの主要な構成成分は、収縮理論に基づく$\mathcal{L}_1$(\mathcal{CL}_1$)制御とガウス過程(GP)回帰の形でのベイズ学習である。 $\mathcal{cl}_1$コントローラは、安全証明書の提供中に制御目標が満たされることを保証する。 さらに、$\mathcal{CL}_1$-$\mathcal{GP}$は、任意の利用可能なデータを不確実性のGPモデルに組み込む。 このようにして、学習過渡期においても、システムの安全な操作が常に保証される。 様々な環境における平面四重項系の安全な学習と制御のためのいくつかの例を示す。

We present $\mathcal{CL}_1$-$\mathcal{GP}$, a control framework that enables safe simultaneous learning and control for systems subject to uncertainties. The two main constituents are contraction theory-based $\mathcal{L}_1$ ($\mathcal{CL}_1$) control and Bayesian learning in the form of Gaussian process (GP) regression. The $\mathcal{CL}_1$ controller ensures that control objectives are met while providing safety certificates. Furthermore, $\mathcal{CL}_1$-$\mathcal{GP}$ incorporates any available data into a GP model of uncertainties, which improves performance and enables the motion planner to achieve optimality safely. This way, the safe operation of the system is always guaranteed, even during the learning transients. We provide a few illustrative examples for the safe learning and control of planar quadrotor systems in a variety of environments.
翻訳日:2022-10-20 21:44:25 公開日:2021-11-30
# TreeGAN: クラス階層を画像生成に組み込む

TreeGAN: Incorporating Class Hierarchy into Image Generation ( http://arxiv.org/abs/2009.07734v2 )

ライセンス: Link先を確認
Ruisi Zhang and Luntian Mou and Pengtao Xie(参考訳) 条件画像生成(CIG)はコンピュータビジョンと機械学習において広く研究されている問題である。 クラスが与えられた場合、CIGはクラス名を入力として取り、このクラスに属する一連の画像を生成する。 既存のCIG作品では、クラス間の関係を考慮せずに、異なるクラスに対して対応する画像が独立して生成される。 現実世界のアプリケーションでは、クラスは階層構造に編成され、それらの階層的関係は高忠実な画像を生成するのに役立ちます。 本稿では,条件付き画像生成にクラス階層を活用することを目的とする。 クラス階層を組み込む方法として,事前制御とポスト制約の2つを提案する。 事前制御では、まずクラス階層をエンコードし、それから条件付きジェネレータにプリエントとして送り、イメージを生成します。 ポスト制約では、画像が生成されると、クラス階層との整合性を測定し、一貫性スコアを使用してジェネレータのトレーニングをガイドする。 Based on these two ideas, we propose a TreeGAN model which consists of three modules: (1) a class hierarchy encoder (CHE) which takes the hierarchical structure of classes and their textual names as inputs and learns an embedding for each class; the embedding captures the hierarchical relationship among classes; (2) a conditional image generator (CIG) which takes the CHE-generated embedding of a class as input and generates a set of images belonging to this class; (3) a consistency checker which performs hierarchical classification on the generated images and checks whether the generated images are compatible with the class hierarchy; the consistency score is used to guide the CIG to generate hierarchy-compatible images. 各種データセットを用いた実験により,本手法の有効性を示す。

Conditional image generation (CIG) is a widely studied problem in computer vision and machine learning. Given a class, CIG takes the name of this class as input and generates a set of images that belong to this class. In existing CIG works, for different classes, their corresponding images are generated independently, without considering the relationship among classes. In real-world applications, the classes are organized into a hierarchy and their hierarchical relationships are informative for generating high-fidelity images. In this paper, we aim to leverage the class hierarchy for conditional image generation. We propose two ways of incorporating class hierarchy: prior control and post constraint. In prior control, we first encode the class hierarchy, then feed it as a prior into the conditional generator to generate images. In post constraint, after the images are generated, we measure their consistency with the class hierarchy and use the consistency score to guide the training of the generator. Based on these two ideas, we propose a TreeGAN model which consists of three modules: (1) a class hierarchy encoder (CHE) which takes the hierarchical structure of classes and their textual names as inputs and learns an embedding for each class; the embedding captures the hierarchical relationship among classes; (2) a conditional image generator (CIG) which takes the CHE-generated embedding of a class as input and generates a set of images belonging to this class; (3) a consistency checker which performs hierarchical classification on the generated images and checks whether the generated images are compatible with the class hierarchy; the consistency score is used to guide the CIG to generate hierarchy-compatible images. Experiments on various datasets demonstrate the effectiveness of our method.
翻訳日:2022-10-17 23:00:08 公開日:2021-11-30
# ldnet:ダイナミックビジョンセンサを用いたエンドツーエンドレーンマーキング検出手法

LDNet: End-to-End Lane Marking Detection Approach Using a Dynamic Vision Sensor ( http://arxiv.org/abs/2009.08020v2 )

ライセンス: Link先を確認
Farzeen Munir (Student Member, IEEE), Shoaib Azam (Student Member, IEEE), Moongu Jeon (Senior Member, IEEE), Byung-Geun Lee (Member, IEEE), and Witold Pedrycz (Life Fellow, IEEE)(参考訳) 現代の車両には、意図しない車線離脱を防ぐ自動車線保持を含む様々な運転支援システムが搭載されている。 従来の車線検出手法は、手工芸や深層学習に基づく特徴を取り入れ、さらにフレームベースのRGBカメラを用いた車線抽出のための後処理技術も取り入れている。 フレームベースのRGBカメラを車線検出タスクに利用することは、車線検出方法の性能を制限する照明のバリエーション、太陽の輝き、動きのぼやけを引き起こす。 自律走行の知覚スタックに車線検出タスクのためのイベントカメラを組み込むことは、フレームベースのRGBカメラが直面する課題を軽減する最も有望なソリューションの1つである。 この研究の主な貢献は、動的視覚センサを用いたレーンマーキング検出モデルの設計である。 本稿では,コンボリューションエンコーダとアテンション誘導デコーダを設計し,イベントカメラを用いたレーンマーキング検出の新しい応用について検討する。 符号化された特徴の空間分解能は、密集したアラス空間ピラミッドプール(ASPP)ブロックで保持される。 デコーダの付加的注意機構は、レーンローカライゼーションを促進し、後処理計算を緩和する高次元入力符号化機能の性能を向上させる。 提案手法の有効性を車線抽出用DVSデータセット(DET)を用いて評価した。 実験結果は、マルチクラスおよびバイナリクラスのレーンマーキング検出タスクにおいて、5.54\%$と5.03\%$のF1$スコアが大幅に改善されたことを示している。 さらに、提案手法の共通点(iou$)は、マルチクラスおよびバイナリクラスのタスクにおいて、最もパフォーマンスの高い最先端の手法をそれぞれ6.50\%$と9.37\%$で上回った。

Modern vehicles are equipped with various driver-assistance systems, including automatic lane keeping, which prevents unintended lane departures. Traditional lane detection methods incorporate handcrafted or deep learning-based features followed by postprocessing techniques for lane extraction using frame-based RGB cameras. The utilization of frame-based RGB cameras for lane detection tasks is prone to illumination variations, sun glare, and motion blur, which limits the performance of lane detection methods. Incorporating an event camera for lane detection tasks in the perception stack of autonomous driving is one of the most promising solutions for mitigating challenges encountered by frame-based RGB cameras. The main contribution of this work is the design of the lane marking detection model, which employs the dynamic vision sensor. This paper explores the novel application of lane marking detection using an event camera by designing a convolutional encoder followed by the attention-guided decoder. The spatial resolution of the encoded features is retained by a dense atrous spatial pyramid pooling (ASPP) block. The additive attention mechanism in the decoder improves performance for high dimensional input encoded features that promote lane localization and relieve postprocessing computation. The efficacy of the proposed work is evaluated using the DVS dataset for lane extraction (DET). The experimental results show a significant improvement of $5.54\%$ and $5.03\%$ in $F1$ scores in multiclass and binary-class lane marking detection tasks. Additionally, the intersection over union ($IoU$) scores of the proposed method surpass those of the best-performing state-of-the-art method by $6.50\%$ and $9.37\%$ in multiclass and binary-class tasks, respectively.
翻訳日:2022-10-17 11:39:21 公開日:2021-11-30
# コンピュータセキュリティにおける機械学習のdosとdon'ts

Dos and Don'ts of Machine Learning in Computer Security ( http://arxiv.org/abs/2010.09470v2 )

ライセンス: Link先を確認
Daniel Arp, Erwin Quiring, Feargus Pendlebury, Alexander Warnecke, Fabio Pierazzi, Christian Wressnegger, Lorenzo Cavallaro, Konrad Rieck(参考訳) コンピューティングシステムの処理能力の増大と大量のデータセットの可用性の向上により、機械学習アルゴリズムは多くの分野で大きなブレークスルーをもたらしている。 この開発はコンピュータセキュリティに影響を与え、マルウェアの検出、脆弱性発見、バイナリコード解析など、学習ベースのセキュリティシステムに関する一連の研究を生み出した。 大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴があり、セキュリティタスクや実践的なデプロイメントには適さない学習ベースのシステムをレンダリングする。 本稿では、この問題を批判的な目で考察する。 まず,学習ベースのセキュリティシステムの設計,実装,評価に共通する落とし穴を明らかにする。 我々は過去10年間に上位レベルのセキュリティ会議から30の論文を調査し、これらの落とし穴が現在のセキュリティ文献に広まっていることを確認した。 実証分析では、個々の落とし穴が非現実的なパフォーマンスや解釈にどのように結びつくかを示し、目の前のセキュリティ問題の理解を妨げる。 本稿では,この落とし穴を回避・緩和する上で,研究者を支援するための実用的な勧告を提案する。 さらに,機械学習をセキュリティに適用する場合のオープンな問題を特定し,さらなる研究の方向性を示す。

With the growing processing power of computing systems and the increasing availability of massive datasets, machine learning algorithms have led to major breakthroughs in many different areas. This development has influenced computer security, spawning a series of work on learning-based security systems, such as for malware detection, vulnerability discovery, and binary code analysis. Despite great potential, machine learning in security is prone to subtle pitfalls that undermine its performance and render learning-based systems potentially unsuitable for security tasks and practical deployment. In this paper, we look at this problem with critical eyes. First, we identify common pitfalls in the design, implementation, and evaluation of learning-based security systems. We conduct a study of 30 papers from top-tier security conferences within the past 10 years, confirming that these pitfalls are widespread in the current security literature. In an empirical analysis, we further demonstrate how individual pitfalls can lead to unrealistic performance and interpretations, obstructing the understanding of the security problem at hand. As a remedy, we propose actionable recommendations to support researchers in avoiding or mitigating the pitfalls where possible. Furthermore, we identify open problems when applying machine learning in security and provide directions for further research.
翻訳日:2022-10-05 23:08:57 公開日:2021-11-30
# グラフニューラルネットワークにおけるモデル抽出攻撃:分類と実現

Model Extraction Attacks on Graph Neural Networks: Taxonomy and Realization ( http://arxiv.org/abs/2010.12751v2 )

ライセンス: Link先を確認
Bang Wu, Xiangwen Yang, Shirui Pan, Xingliang Yuan(参考訳) マシンラーニングモデルは、クライアントのふりをした攻撃者によって、サービスプロバイダが所有する十分に訓練されたプライベートモデルが盗まれる、モデル抽出攻撃による深刻な脅威に直面している。 残念ながら、以前の研究はユークリッド空間上で訓練されたモデル、例えば画像やテキストに焦点を当て、グラフ構造とノード機能を含むGNNモデルを抽出する方法はまだ検討されていない。 本稿では,まず,GNNモデルに対するモデル抽出攻撃を包括的に研究・開発する。 まず,gnnモデル抽出の文脈において脅威モデリングを体系的に定式化し,攻撃者の背景知識,例えば攻撃者が獲得したノードの属性および/又は隣接接続を考慮して,敵の脅威を7つのカテゴリに分類する。 次に,各脅威に対してアクセス可能な知識を活用し,攻撃を実装するための詳細な手法を提案する。 実世界の3つのデータセットを評価することで、我々の攻撃は複製されたモデルを効果的に抽出することを示し、すなわち、ターゲット領域の入力の84%から89%が被害者モデルと同じ出力予測を持つ。

Machine learning models are shown to face a severe threat from Model Extraction Attacks, where a well-trained private model owned by a service provider can be stolen by an attacker pretending as a client. Unfortunately, prior works focus on the models trained over the Euclidean space, e.g., images and texts, while how to extract a GNN model that contains a graph structure and node features is yet to be explored. In this paper, for the first time, we comprehensively investigate and develop model extraction attacks against GNN models. We first systematically formalise the threat modelling in the context of GNN model extraction and classify the adversarial threats into seven categories by considering different background knowledge of the attacker, e.g., attributes and/or neighbour connections of the nodes obtained by the attacker. Then we present detailed methods which utilise the accessible knowledge in each threat to implement the attacks. By evaluating over three real-world datasets, our attacks are shown to extract duplicated models effectively, i.e., 84% - 89% of the inputs in the target domain have the same output predictions as the victim model.
翻訳日:2022-10-03 13:38:54 公開日:2021-11-30
# (参考訳) 災害関連マルチメディアコンテンツの視覚知覚分析のための深層モデル

Deep Models for Visual Sentiment Analysis of Disaster-related Multimedia Content ( http://arxiv.org/abs/2112.12060v1 )

ライセンス: CC BY 4.0
Khubaib Ahmad, Muhammad Asif Ayub, Kashif Ahmad, Ala Al-Fuqaha, Nasir Ahmad(参考訳) 本稿では,mediaeval 2021の課題である「視覚的感情分析:自然災害利用事例」の解決法を提案する。 この課題は、視聴者が知覚する感情と、ソーシャルメディアで共有される自然災害関連画像によって伝達される感情メッセージを抽出・分類することを目的としている。 このタスクは、1つのラベルのマルチクラス画像分類タスクと、ラベルの異なる2つのマルチラベルのマルチクラス画像分類タスクを含む3つのサブタスクから構成される。 提案するソリューションでは,imagenetで事前トレーニングされたinception-v3とvggnet-19という,3つのタスク毎に異なる戦略で微調整された2つの最先端モデルに主に依存する。 総合的な奨励的な結果が3つのタスクすべてで得られます。 単段分類タスク (タスク1) において, インセプションv3 と vggnet-19 を用いた解に対して, 重み付き平均 f1 スコア 0.540 と 0.526 をそれぞれ求めた。 タスク2とタスク3のマルチラベル分類では、インセプションv3ベースのソリューションの重み付きF1スコアはそれぞれ0.572と0.516であった。 同様に、タスク2とタスク3のVggNet-19ベースのソリューションの重み付きF1スコアはそれぞれ0.584と0.495であった。

This paper presents a solutions for the MediaEval 2021 task namely "Visual Sentiment Analysis: A Natural Disaster Use-case". The task aims to extract and classify sentiments perceived by viewers and the emotional message conveyed by natural disaster-related images shared on social media. The task is composed of three sub-tasks including, one single label multi-class image classification task, and, two multi-label multi-class image classification tasks, with different sets of labels. In our proposed solutions, we rely mainly on two different state-of-the-art models namely, Inception-v3 and VggNet-19, pre-trained on ImageNet, which are fine-tuned for each of the three task using different strategies. Overall encouraging results are obtained on all the three tasks. On the single-label classification task (i.e. Task 1), we obtained the weighted average F1-scores of 0.540 and 0.526 for the Inception-v3 and VggNet-19 based solutions, respectively. On the multi-label classification i.e., Task 2 and Task 3, the weighted F1-score of our Inception-v3 based solutions was 0.572 and 0.516, respectively. Similarly, the weighted F1-score of our VggNet-19 based solution on Task 2 and Task 3 was 0.584 and 0.495, respectively.
翻訳日:2021-12-26 15:25:11 公開日:2021-11-30
# (参考訳) ソーシャルメディアコンテンツにおける水質解析のためのNLP技術

NLP Techniques for Water Quality Analysis in Social Media Content ( http://arxiv.org/abs/2112.11441v1 )

ライセンス: CC BY 4.0
Muhammad Asif Ayub, Khubaib Ahmad, Kashif Ahmad, Nasir Ahmad, Ala Al-Fuqaha(参考訳) 本稿では,メディアEval 2021 タスク,すなわち "WaterMM: Water Quality in Social Multimedia" へのコントリビューションについて述べる。 この課題は、水彩、匂い、味、関連する病気などの側面に焦点を当てた、水質に関連するソーシャルメディア投稿の分析を目的としている。 この目的のために、メタデータとともにテキスト情報と視覚情報の両方を含むマルチモーダルデータセットを提供する。 利用可能なコンテンツの品質と量を考えると,本研究は主に3つの異なるモデルを個別に,共同的に後期融合方式で活用することで,テキスト情報に焦点を当てている。 これらのモデルには (i)トランスフォーマー(bert)からの双方向エンコーダ表現 (II)ロバストに最適化されたBERT事前学習手法(XLM-RoBERTa)およびa (iii) 公式テストセットでそれぞれ0.794、0.717、0.663のF1スコアを得るカスタムLong短期メモリ(LSTM)モデル。 融合スキームでは、すべてのモデルが等しく扱われ、最高の性能の個々のモデルに対する性能に顕著な改善は見られません。

This paper presents our contributions to the MediaEval 2021 task namely "WaterMM: Water Quality in Social Multimedia". The task aims at analyzing social media posts relevant to water quality with particular focus on the aspects like watercolor, smell, taste, and related illnesses. To this aim, a multimodal dataset containing both textual and visual information along with meta-data is provided. Considering the quality and quantity of available content, we mainly focus on textual information by employing three different models individually and jointly in a late-fusion manner. These models include (i) Bidirectional Encoder Representations from Transformers (BERT), (ii) Robustly Optimized BERT Pre-training Approach (XLM-RoBERTa), and a (iii) custom Long short-term memory (LSTM) model obtaining an overall F1-score of 0.794, 0.717, 0.663 on the official test set, respectively. In the fusion scheme, all the models are treated equally and no significant improvement is observed in the performance over the best performing individual model.
翻訳日:2021-12-26 15:21:23 公開日:2021-11-30
# メモリボトルネック下におけるarm-passes banditストリーミングアルゴリズムのオーダ削減について

On reducing the order of arm-passes bandit streaming algorithms under memory bottleneck ( http://arxiv.org/abs/2112.06130v1 )

ライセンス: Link先を確認
Santanu Rathod(参考訳) 本稿では,特に資源ボトルネックに直面した場合のマルチアーム帯域ストリーミングモデルについて検討する。 いつでも、限られたアームメモリによって条件付けられた既存のアルゴリズムの上に構築します。 具体的には、対数係数によって$O(\sqrt{T\log(T)})の後悔を誘発するバンディットアルゴリズムに要するストリーミングパスの量を改善し、同様の後悔の順序を導くためにいくつかの初期条件を持つ2パスアルゴリズムを提供する。

In this work we explore multi-arm bandit streaming model, especially in cases where the model faces resource bottleneck. We build over existing algorithms conditioned by limited arm memory at any instance of time. Specifically, we improve the amount of streaming passes it takes for a bandit algorithm to incur a $O(\sqrt{T\log(T)})$ regret by a logarithmic factor, and also provide 2-pass algorithms with some initial conditions to incur a similar order of regret.
翻訳日:2021-12-19 12:56:36 公開日:2021-11-30
# (参考訳) グリオ芽腫におけるMGMTメチル化の非侵襲予測のための新しい局所放射線ベイズ分類法

Novel Local Radiomic Bayesian Classifiers for Non-Invasive Prediction of MGMT Methylation Status in Glioblastoma ( http://arxiv.org/abs/2112.03259v1 )

ライセンス: CC BY 4.0
Mihir Rao(参考訳) 攻撃的な脳腫瘍であるグリオ芽腫は、全がんの中でも最も致命的である。 グリオ芽腫腫瘍組織におけるO6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)遺伝子の発現は、グリオ芽腫患者に投与された1次化学療法であるテモゾロミドの有効性に大きな影響を与えるため、臨床的に重要である。 現在、mgmtメチル化は侵襲的脳生検およびその後に抽出された腫瘍組織の遺伝学的解析によって決定されている。 本研究では,FLAIR系列磁気共鳴画像(MRI)から抽出した放射能特性に基づいて,MGMTメチル化状態の確率論的予測を行う新しいベイズ分類器を提案する。 生のボクセル強度の統計的特徴に基づいて,放射能マップの作成とMGMTバイオマーカーのMRI解析に局所放射能技術を適用した。 我々は,局所放射能データをグローバル特徴量ではなくモデル化する際に,単純なベイズ分類器が予測性能を向上できることを実証する。 本手法はglioblastoma患者のmgmtメチル化状態の非侵襲的mri法である。

Glioblastoma, an aggressive brain cancer, is amongst the most lethal of all cancers. Expression of the O6-methylguanine-DNA-methyltransferase (MGMT) gene in glioblastoma tumor tissue is of clinical importance as it has a significant effect on the efficacy of Temozolomide, the primary chemotherapy treatment administered to glioblastoma patients. Currently, MGMT methylation is determined through an invasive brain biopsy and subsequent genetic analysis of the extracted tumor tissue. In this work, we present novel Bayesian classifiers that make probabilistic predictions of MGMT methylation status based on radiomic features extracted from FLAIR-sequence magnetic resonance imagery (MRIs). We implement local radiomic techniques to produce radiomic activation maps and analyze MRIs for the MGMT biomarker based on statistical features of raw voxel-intensities. We demonstrate the ability for simple Bayesian classifiers to provide a boost in predictive performance when modelling local radiomic data rather than global features. The presented techniques provide a non-invasive MRI-based approach to determining MGMT methylation status in glioblastoma patients.
翻訳日:2021-12-12 16:27:32 公開日:2021-11-30
# (参考訳) generative adversarial network (gan) とenhanced root mean square error (ermse) : 株価変動予測のためのディープラーニング

Generative Adversarial Network (GAN) and Enhanced Root Mean Square Error (ERMSE): Deep Learning for Stock Price Movement Prediction ( http://arxiv.org/abs/2112.03946v1 )

ライセンス: CC BY 4.0
Ashish Kumar, Abeer Alsadoon, P. W. C. Prasad, Salma Abdullah, Tarik A. Rashid, Duong Thu Hang Pham, Tran Quoc Vinh Nguyen(参考訳) 株価変動方向の予測は金融界や学術界において重要である。 株価には複雑で不完全でファジィな情報が含まれており、開発トレンドを予測するのは非常に難しい。 金融データの予測と分析は非線形、時間依存の問題である。 機械学習とディープラーニングの急速な発展により、このタスクは目的的に設計されたネットワークによってより効果的に実行できる。 本稿では,予測精度の向上と予測誤差損失の最小化を,ジェネレーティブ・アドバイサル・ネットワークを用いて実現することを目的とする。 価格系列を再構成するための位相空間再構成(PSR)法と,長期記憶(LSTM)を生成モデルとする2つのニューラルネットワークを組み合わせたGAN(Generative Adversarial Network)法と,市場予測のための識別モデルとしての畳み込みニューラルネットワーク(CNN)を用いた総合モデルを提案する。 LSTMは、過去の基本的な指標情報に基づいて新しいインスタンスを生成し、次にCNNは、データがLSTMによって予測されているか、現実であるかを推定する。 その結果,ジェネレーティブ・アディバーショナル・ネットワーク(GAN)は,方向予測の精度が4.35%向上し,処理時間を78秒短縮し,RMSEを0.029秒短縮した。 本研究は株価指数の正確性に関するより良い結果をもたらす。 提案手法は, 根平均二乗誤差と処理時間を最小限にし, 方向予測精度を向上させることに集中し, 株価指数の精度向上に寄与すると考えられる。

The prediction of stock price movement direction is significant in financial circles and academic. Stock price contains complex, incomplete, and fuzzy information which makes it an extremely difficult task to predict its development trend. Predicting and analysing financial data is a nonlinear, time-dependent problem. With rapid development in machine learning and deep learning, this task can be performed more effectively by a purposely designed network. This paper aims to improve prediction accuracy and minimizing forecasting error loss through deep learning architecture by using Generative Adversarial Networks. It was proposed a generic model consisting of Phase-space Reconstruction (PSR) method for reconstructing price series and Generative Adversarial Network (GAN) which is a combination of two neural networks which are Long Short-Term Memory (LSTM) as Generative model and Convolutional Neural Network (CNN) as Discriminative model for adversarial training to forecast the stock market. LSTM will generate new instances based on historical basic indicators information and then CNN will estimate whether the data is predicted by LSTM or is real. It was found that the Generative Adversarial Network (GAN) has performed well on the enhanced root mean square error to LSTM, as it was 4.35% more accurate in predicting the direction and reduced processing time and RMSE by 78 secs and 0.029, respectively. This study provides a better result in the accuracy of the stock index. It seems that the proposed system concentrates on minimizing the root mean square error and processing time and improving the direction prediction accuracy, and provides a better result in the accuracy of the stock index.
翻訳日:2021-12-12 16:17:17 公開日:2021-11-30
# (参考訳) 機械学習アルゴリズムを用いた交通事故被害の因果解析と分類

Causal Analysis and Classification of Traffic Crash Injury Severity Using Machine Learning Algorithms ( http://arxiv.org/abs/2112.03407v1 )

ライセンス: CC0 1.0
Meghna Chakraborty, Timothy Gates, Subhrajit Sinha(参考訳) 非パラメトリック法を応用した交通事故の因果分析と重症度分類が注目されている。 本研究は,グラナージュ因果分析を用いた因果推論の方法論的枠組みと,高速道路で発生した交通事故の重大度分類,決定木(dt),ランダムフォレスト(rf),極端な勾配ブースティング(xgboost),ディープニューラルネットワーク(dnn)などの機械学習手法を提案する。 この研究で使用されたデータは、2014年から2019年までの6年間、テキサス州内のすべての州間高速道路の交通事故で得られたものだ。 重症度分類アプローチのアウトプットには、致命傷と重傷の3つのクラス(ka)、bc(non-severe and possible injury)のクラッシュ、pdo( property damage only)のクラッシュが含まれる。 Granger Causalityは、クラッシュの重大度に影響を与える最も影響のある要因を特定するのに役立ったが、学習ベースのモデルは、様々なパフォーマンスを持つ重大度クラスを予測した。 Granger の因果関係解析の結果,速度制限,表面および気象条件,交通量,ワークゾーンの存在,ワークゾーン内の労働者,高占有車線などが,事故の深刻度に影響を及ぼす最も重要な要因であることがわかった。 分類器の予測性能はクラスによって異なる結果を得た。 特に、決定木と無作為森林分類器は、データの中で最も稀なクラスであるKAクラスにおいて、PDOとBCの重症度が最も高い性能を示したが、ディープニューラルネット分類器は他の全てのアルゴリズムよりも優れた性能を示した。 本研究は,非パラメトリックアプローチによる交通事故事故の重症度分類と因果分析に関する知識の限定化に寄与する。

Causal analysis and classification of injury severity applying non-parametric methods for traffic crashes has received limited attention. This study presents a methodological framework for causal inference, using Granger causality analysis, and injury severity classification of traffic crashes, occurring on interstates, with different machine learning techniques including decision trees (DT), random forest (RF), extreme gradient boosting (XGBoost), and deep neural network (DNN). The data used in this study were obtained for traffic crashes on all interstates across the state of Texas from a period of six years between 2014 and 2019. The output of the proposed severity classification approach includes three classes for fatal and severe injury (KA) crashes, non-severe and possible injury (BC) crashes, and property damage only (PDO) crashes. While Granger Causality helped identify the most influential factors affecting crash severity, the learning-based models predicted the severity classes with varying performance. The results of Granger causality analysis identified the speed limit, surface and weather conditions, traffic volume, presence of workzones, workers in workzones, and high occupancy vehicle (HOV) lanes, among others, as the most important factors affecting crash severity. The prediction performance of the classifiers yielded varying results across the different classes. Specifically, while decision tree and random forest classifiers provided the greatest performance for PDO and BC severities, respectively, for the KA class, the rarest class in the data, deep neural net classifier performed superior than all other algorithms, most likely due to its capability of approximating nonlinear models. This study contributes to the limited body of knowledge pertaining to causal analysis and classification prediction of traffic crash injury severity using non-parametric approaches.
翻訳日:2021-12-12 16:01:37 公開日:2021-11-30
# 大規模WebコンテンツからのRefined Commonsense知識

Refined Commonsense Knowledge from Large-Scale Web Contents ( http://arxiv.org/abs/2112.04596v1 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Julien Romero, Gerhard Weikum(参考訳) 概念とその特性に関する常識知識(CSK)は、AIアプリケーションに有用である。 conceptnetやcometなどの先行研究は大規模なcskコレクションをコンパイルしているが、その表現性は、pとoのためのsと文字列の単純な概念でspo(subject-predicate-object)トリプルに制限されている。この記事では、cskアサーションの大規模知識ベース(kb)を自動的に構築するascent++という手法を提案する。 ASCENT++は、サブグループとアスペクトで複合概念をキャプチャし、セマンティックファセットでアサーションを洗練することによって、SPOのトリプルを越えている。 後者は、アサーションの時間的および空間的妥当性とさらなる等式を表現することが重要である。 ASCENT++は、オープン情報抽出と司法的クリーニングと、典型と唾液度スコアによるランク付けを組み合わせたものだ。 高精細化のために,本手法は大規模crawl c4を広範囲のwebコンテンツで活用する。 人間の判断による評価は、ASCENT++ KBの優れた品質を示し、QAサポートタスクの外部評価は、ASCENT++の利点を裏付けるものである。 Webインターフェース、データ、コードはhttps://www.mpi-inf.mpg.de/ascentpp.comでアクセスできる。

Commonsense knowledge (CSK) about concepts and their properties is useful for AI applications. Prior works like ConceptNet, COMET and others compiled large CSK collections, but are restricted in their expressiveness to subject-predicate-object (SPO) triples with simple concepts for S and strings for P and O. This paper presents a method, called ASCENT++, to automatically build a large-scale knowledge base (KB) of CSK assertions, with refined expressiveness and both better precision and recall than prior works. ASCENT++ goes beyond SPO triples by capturing composite concepts with subgroups and aspects, and by refining assertions with semantic facets. The latter is important to express the temporal and spatial validity of assertions and further qualifiers. ASCENT++ combines open information extraction with judicious cleaning and ranking by typicality and saliency scores. For high coverage, our method taps into the large-scale crawl C4 with broad web contents. The evaluation with human judgements shows the superior quality of the ASCENT++ KB, and an extrinsic evaluation for QA-support tasks underlines the benefits of ASCENT++. A web interface, data and code can be accessed at https://www.mpi-inf.mpg.de/ascentpp.
翻訳日:2021-12-12 14:54:54 公開日:2021-11-30
# 大学サブRedditデータを用いたCOVID-19パンデミックの感度解析と効果

Sentiment Analysis and Effect of COVID-19 Pandemic using College SubReddit Data ( http://arxiv.org/abs/2112.04351v1 )

ライセンス: Link先を確認
Tian Yan, Fang Liu(参考訳) 新型コロナウイルスのパンデミックは、社会や人間の健康、健康に様々な影響を与える。 本研究では,2019年(パンデミック前)と2020年(パンデミック前)のredditデータを,8大学に関連するサブredditコミュニティから収集し,自然言語処理(nlp)技術を適用し,ソーシャルメディアデータを用いたニューラルネットワークの訓練を行い,パンデミック前と比較し,パンデミック前の感情や心理状態に対するパンデミックの影響について検討した。 具体的には、まず、Redditメッセージのセマンティック情報から埋め込みを学ぶためにRoBERTa(Roustly Optimized BERT pre-training approach)を適用し、感情分類のためのグラフアテンションネットワーク(GAT)を訓練した。 GATを使用することで、トレーニング中にメッセージ間の関係情報を活用できます。 そこで我々は,RoBERTaとGATの予測確率を組み合わせるためにサブグループ適応モデルスタックを適用し,感情の最終的な分類を得た。 収集したデータに手動ラベル付きおよびモデル予測型感情ラベルを用いて,パンデミックおよびオンライン教育が人々の感情に与える影響を統計的に有意な方法で推定する汎用線形混合効果モデルを適用した。 その結果、2020年の否定的な感情の確率は2019年のオッズ(p$-value $<0.001$)よりも14.6\%高く、否定的な感情のオッズは2020年のオンライン教育(p$-value $=0.037$)よりも41.6\%高いことが示唆された。

The COVID-19 pandemic has affected societies and human health and well-being in various ways. In this study, we collected Reddit data from 2019 (pre-pandemic) and 2020 (pandemic) from the subreddits communities associated with 8 universities, applied natural language processing (NLP) techniques, and trained graphical neural networks with social media data, to study how the pandemic has affected people's emotions and psychological states compared to the pre-pandemic era. Specifically, we first applied a pre-trained Robustly Optimized BERT pre-training approach (RoBERTa) to learn embedding from the semantic information of Reddit messages and trained a graph attention network (GAT) for sentiment classification. The usage of GAT allows us to leverage the relational information among the messages during training. We then applied subgroup-adaptive model stacking to combine the prediction probabilities from RoBERTa and GAT to yield the final classification on sentiment. With the manually labeled and model-predicted sentiment labels on the collected data, we applied a generalized linear mixed-effects model to estimate the effects of pandemic and online teaching on people's sentiment in a statistically significant manner. The results suggest the odds of negative sentiments in 2020 is $14.6\%$ higher than the odds in 2019 ($p$-value $<0.001$), and the odds of negative sentiments are $41.6\%$ higher with in-person teaching than with online teaching in 2020 ($p$-value $=0.037$) in the studied population.
翻訳日:2021-12-12 14:54:16 公開日:2021-11-30
# (参考訳) 3次元形状解析のためのメディアルスペクトル座標

Medial Spectral Coordinates for 3D Shape Analysis ( http://arxiv.org/abs/2111.13295v2 )

ライセンス: CC BY 4.0
Morteza Rezanejad, Mohammad Khodadad, Hamidreza Mahyar, Herve Lombaert, Michael Gruninger, Dirk B. Walther, Kaleem Siddiqi(参考訳) 近年、表面メッシュ、ボクセル化内部、あるいは表面点雲で表される3dオブジェクトの形状解析において、我々のコミュニティに対する関心が再燃している。 この関心は、rgbdカメラの可用性の高まりと、自律運転、医療画像、ロボット工学へのコンピュータビジョンの応用によって刺激されている。 これらの設定において、スペクトル座標は、等尺変換に質的に不変な方法で局所的および大域的形状特性を組み込むことができるため、形状表現の公約を示す。 しかし、驚くべきことに、そのような座標は一般的には局所的な表面位置情報や微分情報のみと見なされている。 本稿では,スペクトル座標をメディアル情報(オブジェクト幅)に適合させることにより,スペクトル座標を豊かにすることを提案する。 鍵となるアイデアは、隣接行列の重みを通して、中間球を共有する表面点を組み合わせることである。 我々は、このアイデアとそれを計算するアルゴリズムを用いてスペクトル機能を開発する。 対象の幅と中間結合の組み入れは, 対象分類, 対象部分分割, 表面点対応に関する実験で示されているように, 直接的な利点がある。

In recent years there has been a resurgence of interest in our community in the shape analysis of 3D objects represented by surface meshes, their voxelized interiors, or surface point clouds. In part, this interest has been stimulated by the increased availability of RGBD cameras, and by applications of computer vision to autonomous driving, medical imaging, and robotics. In these settings, spectral coordinates have shown promise for shape representation due to their ability to incorporate both local and global shape properties in a manner that is qualitatively invariant to isometric transformations. Yet, surprisingly, such coordinates have thus far typically considered only local surface positional or derivative information. In the present article, we propose to equip spectral coordinates with medial (object width) information, so as to enrich them. The key idea is to couple surface points that share a medial ball, via the weights of the adjacency matrix. We develop a spectral feature using this idea, and the algorithms to compute it. The incorporation of object width and medial coupling has direct benefits, as illustrated by our experiments on object classification, object part segmentation, and surface point correspondence.
翻訳日:2021-12-04 20:22:55 公開日:2021-11-30
# (参考訳) 因子化フーリエニューラル演算子

Factorized Fourier Neural Operators ( http://arxiv.org/abs/2111.13802v2 )

ライセンス: CC BY 4.0
Alasdair Tran, Alexander Mathews, Lexing Xie, Cheng Soon Ong(参考訳) Fourier Neural Operator (FNO) は偏微分方程式を効率的にシミュレートする学習法である。 本稿では,より深いネットワークでより優れた一般化を可能にする因子化フーリエニューラル演算子(f-fno)を提案する。 すべての層にまたがる共有カーネル積分演算子であるフーリエ分解とマルコフ特性と残差接続を慎重に組み合わせることで、F-FNOはナビエ・ストークスベンチマークデータセットの最も乱流的な設定でエラーを6倍に減らすことができる。 本モデルでは,粘度や時変力などの付加的な文脈を含む問題設定が拡張された場合でも,数値解法よりも桁違いに高速に動作しながら,誤差率2%を維持できることを示す。 これにより、同じ事前訓練されたニューラルネットワークが、非常に異なる条件をモデル化できる。

The Fourier Neural Operator (FNO) is a learning-based method for efficiently simulating partial differential equations. We propose the Factorized Fourier Neural Operator (F-FNO) that allows much better generalization with deeper networks. With a careful combination of the Fourier factorization, a shared kernel integral operator across all layers, the Markov property, and residual connections, F-FNOs achieve a six-fold reduction in error on the most turbulent setting of the Navier-Stokes benchmark dataset. We show that our model maintains an error rate of 2% while still running an order of magnitude faster than a numerical solver, even when the problem setting is extended to include additional contexts such as viscosity and time-varying forces. This enables the same pretrained neural network to model vastly different conditions.
翻訳日:2021-12-04 16:24:34 公開日:2021-11-30
# (参考訳) RawArray: 数値データのためのシンプルで高速で拡張可能なアーカイブフォーマット

RawArray: A Simple, Fast, and Extensible Archival Format for Numeric Data ( http://arxiv.org/abs/2112.01273v1 )

ライセンス: CC BY 4.0
David S. Smith(参考訳) 生のデータサイズは、機械学習のようなデータ格納型計算手法の成功によって、科学研究において成長し、拡大している。 プロプライエタリなデータフォーマットのプレポンダランスにより、計算が遅くなり、研究の再現や新しいプラットフォームへのメソッドの移植が難しくなる。 ここではRawArrayフォーマットについて述べる。ディスク上の多次元数値配列のアーカイブ記憶のための単純で高速で拡張可能なフォーマットである。 RawArrayファイル形式はヘッダ配列とデータ配列の単純な結合である。 ヘッダは7つ以上の64ビットの符号なし整数からなる。 配列データは何でもできます。 任意のユーザーメタデータは、測定の詳細、カラーパレット、位置情報データを格納するために、必要に応じてrawarrayファイルに追加することができる。 本稿では,一般的な深層学習データセット mnist と cifar10 を読む際に,アレイサイズの範囲で hdf5 に対して 2--3-\times$ のスピードアップと最大 20$\times$ のスピードアップを示すベンチマークを示す。

Raw data sizes are growing and proliferating in scientific research, driven by the success of data-hungry computational methods, such as machine learning. The preponderance of proprietary and shoehorned data formats make computations slower and make it harder to reproduce research and to port methods to new platforms. Here we present the RawArray format: a simple, fast, and extensible format for archival storage of multidimensional numeric arrays on disk. The RawArray file format is a simple concatenation of a header array and a data array. The header comprises seven or more 64-bit unsigned integers. The array data can be anything. Arbitrary user metadata can be appended to an RawArray file if desired, for example to store measurement details, color palettes, or geolocation data. We present benchmarks showing a factor of 2--3$\times$ speedup over HDF5 for a range of array sizes and a speedup of up to 20$\times$ in reading the common deep learning datasets MNIST and CIFAR10.
翻訳日:2021-12-04 14:10:57 公開日:2021-11-30
# (参考訳) ベイジアンネットワークにおける論点の発見, Scoring, 説明

Finding, Scoring and Explaining Arguments in Bayesian Networks ( http://arxiv.org/abs/2112.00799v1 )

ライセンス: CC BY 4.0
Jaime Sevilla(参考訳) ベイズネットワークを説明する新しい手法を提案する。 このアプローチは確率論の新しい定義とそれが与える証拠を中心に展開される。 独立引数の概念を定義し,ベイズネットワーク,対象ノード,観測集合に与えられた関連する独立引数のリストを抽出するアルゴリズムを提案する。 議論の関連性を示すために、抽出された引数を近似メッセージパッシングに利用する方法を示す。 最後に,自然言語による議論を説明するための簡単なスキームを示す。

We propose a new approach to explain Bayesian Networks. The approach revolves around a new definition of a probabilistic argument and the evidence it provides. We define a notion of independent arguments, and propose an algorithm to extract a list of relevant, independent arguments given a Bayesian Network, a target node and a set of observations. To demonstrate the relevance of the arguments, we show how we can use the extracted arguments to approximate message passing. Finally, we show a simple scheme to explain the arguments in natural language.
翻訳日:2021-12-04 14:05:15 公開日:2021-11-30
# 多物体把持 --ロボット把持における物体数の推定-

Multi-Object Grasping -- Estimating the Number of Objects in a Robotic Grasp ( http://arxiv.org/abs/2112.01270v1 )

ライセンス: Link先を確認
Tianze Chen, Adheesh Shenoy, Anzhelika Kolinko, Syed Shah and Yu Sun(参考訳) 人間の手は、触覚センシングのみに基づいて、一度に所望の数の物体をつかむことができる。 そのためには、ロボットが山の中でつかむこと、持ち上げる前につかむ物体の数を感知すること、持ち上げる前につかむ物体の数を予測することが必要である。 予測を行うとき、ロボットの手はまだ山の中にあり、把持物は視覚系では観測できないため、これは難しい問題である。 また、山から持ち上げる前に手によってつかまれている物は、持ち上げられたときにつかみから落ちてしまうことがある。 これは、手の指の代わりに他の物体によって支えられていたためである。 したがって、ロボットハンドは持ち上げる前に触覚センサーを使ってグリップ内の物体の数を感知する必要がある。 本稿では,この問題に対する多目的把握分析手法を提案する。 これには、把握量計算、触覚力分析、データ駆動ディープラーニングアプローチが含まれる。 この手法はバレットの手で実装され、シミュレーションとロボットシステムによる実際の設定で評価されている。 評価の結果、バレットハンドが山の中の複数のオブジェクトをつかむと、データ駆動モデルが持ち上げる前に、持ち上げ後に手の中に残るオブジェクトの数を予測できることがわかった。 このアプローチの根-平均二乗誤差は、シミュレーションでボール 0.74 、キューブ 0.58 、ボール 1.06 、実システムでキューブ 1.45 である。

A human hand can grasp a desired number of objects at once from a pile based solely on tactile sensing. To do so, a robot needs to grasp within a pile, sense the number of objects in the grasp before lifting, and predict the number of objects that will remain in the grasp after lifting. It is a challenging problem because when making the prediction, the robotic hand is still in the pile and the objects in the grasp are not observable to vision systems. Moreover, some objects that are grasped by the hand before lifting from the pile may fall out of the grasp when the hand is lifted. This occurs because they were supported by other objects in the pile instead of the fingers of the hand. Therefore, a robotic hand should sense the number of objects in a grasp using its tactile sensors before lifting. This paper presents novel multi-object grasping analyzing methods for solving this problem. They include a grasp volume calculation, tactile force analysis, and a data-driven deep learning approach. The methods have been implemented on a Barrett hand and then evaluated in simulations and a real setup with a robotic system. The evaluation results conclude that once the Barrett hand grasps multiple objects in the pile, the data-driven model can predict, before lifting, the number of objects that will remain in the hand after lifting. The root-mean-square errors for our approach are 0.74 for balls and 0.58 for cubes in simulations, and 1.06 for balls, and 1.45 for cubes in the real system.
翻訳日:2021-12-03 17:34:12 公開日:2021-11-30
# 航空輸送計画と管理のための機械学習

Machine Learning for Air Transport Planning and Management ( http://arxiv.org/abs/2112.01301v1 )

ライセンス: Link先を確認
Graham Wild, Glenn Baxter, Pannarat Srisaeng, and Steven Richardson(参考訳) 本研究では,空気輸送需要のモデル化問題に適用した機械学習アルゴリズムの性能を比較した。 航空輸送産業における予測は、産業の経済的・財政的な側面から、計画と管理に欠かせない部分である。 国際民間航空機関(英語版)が指定した航空業務において伝統的に用いられているアプローチは、コスト変数と経済要因を利用する多重線形回帰(MLR)モデルである。 ここでは、人工ニューラルネットワーク(ANN)、適応型ニューロファジィ推論システム(ANFIS)、遺伝的アルゴリズム、支持ベクトルマシン、回帰木を用いたモデルの性能をMLRと比較する。 ANNとANFISは平均2乗誤差が最も低い点で最高の性能を示した。

In this work we compare the performance of several machine learning algorithms applied to the problem of modelling air transport demand. Forecasting in the air transport industry is an essential part of planning and managing because of the economic and financial aspects of the industry. The traditional approach used in airline operations as specified by the International Civil Aviation Organization is the use of a multiple linear regression (MLR) model, utilizing cost variables and economic factors. Here, the performance of models utilizing an artificial neural network (ANN), an adaptive neuro-fuzzy inference system (ANFIS), a genetic algorithm, a support vector machine, and a regression tree are compared to MLR. The ANN and ANFIS had the best performance in terms of the lowest mean squared error.
翻訳日:2021-12-03 17:33:32 公開日:2021-11-30
# TinyMLプラットフォームのベンチマーク

TinyML Platforms Benchmarking ( http://arxiv.org/abs/2112.01319v1 )

ライセンス: Link先を確認
Anas Osman, Usman Abid, Luca Gemma, Matteo Perotto, and Davide Brunelli(参考訳) 機械学習(ML)のための最先端の超低消費電力デバイス(Ultra-low Power Device)の最近の進歩は、1mW未満の電力消費(TinyML)を持つマイクロコントローラ上でML機能を実現する新しい種類の製品を可能にしている。 TinyMLは、低消費電力の組み込みデバイス上でエッジでデータを集約して分析することで、ユニークなソリューションを提供する。 しかし、最近になってマイクロコントローラ上でMLを実行できるようになったばかりで、この分野はまだ初期段階であり、ハードウェア、ソフトウェア、研究は急速に変化している。 その結果、さまざまなプラットフォーム向けに多くのTinyMLフレームワークが開発され、MLモデルのデプロイとプロセスの標準化が容易になった。 そこで本稿では,stm32-nucleof401reにおけるarduino nano bleのtensorflow lite micro(tflm)とcube aiの2つの人気フレームワークのベンチマークに着目し,特定のアプリケーション向けに標準化されたフレームワーク選択基準を提供する。

Recent advances in state-of-the-art ultra-low power embedded devices for machine learning (ML) have permitted a new class of products whose key features enable ML capabilities on microcontrollers with less than 1 mW power consumption (TinyML). TinyML provides a unique solution by aggregating and analyzing data at the edge on low-power embedded devices. However, we have only recently been able to run ML on microcontrollers, and the field is still in its infancy, which means that hardware, software, and research are changing extremely rapidly. Consequently, many TinyML frameworks have been developed for different platforms to facilitate the deployment of ML models and standardize the process. Therefore, in this paper, we focus on bench-marking two popular frameworks: Tensorflow Lite Micro (TFLM) on the Arduino Nano BLE and CUBE AI on the STM32-NucleoF401RE to provide a standardized framework selection criterion for specific applications.
翻訳日:2021-12-03 17:33:18 公開日:2021-11-30
# 階層的クラスタリング:可視化、特徴重要度、モデル選択

Hierarchical clustering: visualization, feature importance and model selection ( http://arxiv.org/abs/2112.01372v1 )

ライセンス: Link先を確認
Luben M. C. Cabezas, Rafael Izbicki, Rafael B. Stern(参考訳) 本研究では,dendrogramによるマルチレゾリューション構造を十分に活用した階層クラスタリング解析手法を提案する。 具体的には,クラスタリング手法と特徴重要度スコア,およびデンドログラムにおける特徴のセグメンテーションを可視化するグラフィカルツールの相互選択の損失を提案する。 これらのタスクに対する現在のアプローチは、ユーザが指定されたレベルでデンドログラムをカットすることで、インスタンスの単一パーティションを生成する必要があるため、情報の損失につながる。 提案手法は代わりにデンドログラムの完全な構造を用いる。 提案手法の背景にある重要な知見は,デンドログラムを系統として見ることである。 このアナロジーは、祖先状態の再構築を通じて、ツリーの各内部ノードに特徴値の割り当てを可能にする。 実際のデータセットとシミュレーションデータセットは、提案するフレームワークが望ましい結果をもたらす証拠を提供します。 メソッドを実装するRパッケージを提供しています。

We propose methods for the analysis of hierarchical clustering that fully use the multi-resolution structure provided by a dendrogram. Specifically, we propose a loss for choosing between clustering methods, a feature importance score and a graphical tool for visualizing the segmentation of features in a dendrogram. Current approaches to these tasks lead to loss of information since they require the user to generate a single partition of the instances by cutting the dendrogram at a specified level. Our proposed methods, instead, use the full structure of the dendrogram. The key insight behind the proposed methods is to view a dendrogram as a phylogeny. This analogy permits the assignment of a feature value to each internal node of a tree through ancestral state reconstruction. Real and simulated datasets provide evidence that our proposed framework has desirable outcomes. We provide an R package that implements our methods.
翻訳日:2021-12-03 17:32:58 公開日:2021-11-30
# フィールドやテクスチャを定量化するには? 散乱変換のガイド

How to quantify fields or textures? A guide to the scattering transform ( http://arxiv.org/abs/2112.01288v1 )

ライセンス: Link先を確認
Sihao Cheng and Brice M\'enard(参考訳) 確率場やテクスチャから情報を抽出することは、探索的データ分析から分類やパラメータ推定まで、科学におけるユビキタスなタスクである。 物理学から生物学まで、パワースペクトル分析(power spectrum analysis)や、大きなトレーニングセットと解釈可能性の欠如を必要とする畳み込みニューラルネットワーク(convolutional neural network:cnns)によって行われる傾向がある。 本稿では,cnnから数学的アイデアを借用するが,何の訓練も必要とせず,解釈可能な強力な統計量である散乱変換(mallat 2012)の利用を提唱する。 視覚的な解釈を伴う比較的コンパクトな要約統計のセットを提供し、関連する情報の大部分を幅広い科学応用で担っていることを示す。 我々はこの推定器を非技術的に紹介し、多くの科学分野でのデータ分析、モデルとの比較、パラメータ推論に効果があると主張する。 興味深いことに、散乱変換のコア操作を理解することで、cnnの内部動作の多くの重要な側面を解読することができる。

Extracting information from stochastic fields or textures is a ubiquitous task in science, from exploratory data analysis to classification and parameter estimation. From physics to biology, it tends to be done either through a power spectrum analysis, which is often too limited, or the use of convolutional neural networks (CNNs), which require large training sets and lack interpretability. In this paper, we advocate for the use of the scattering transform (Mallat 2012), a powerful statistic which borrows mathematical ideas from CNNs but does not require any training, and is interpretable. We show that it provides a relatively compact set of summary statistics with visual interpretation and which carries most of the relevant information in a wide range of scientific applications. We present a non-technical introduction to this estimator and we argue that it can benefit data analysis, comparison to models and parameter inference in many fields of science. Interestingly, understanding the core operations of the scattering transform allows one to decipher many key aspects of the inner workings of CNNs.
翻訳日:2021-12-03 17:28:07 公開日:2021-11-30
# CellS: ゴール指向分子生成のための遅延空間におけるコスト効果進化

CELLS: Cost-Effective Evolution in Latent Space for Goal-Directed Molecular Generation ( http://arxiv.org/abs/2112.00905v1 )

ライセンス: Link先を確認
Zhiyuan Chen, Xiaomin Fang, Fan Wang, Xiaotian Fan, Hua Wu, Haifeng Wang(参考訳) 様々な性質要件を満たす分子の効率的な発見は、薬物発見産業に大きな利益をもたらす。 化学空間全体を探索することは不可能であるため、最近の研究はゴール指向分子生成のための生成モデルを採用する。 彼らは反復過程を利用し、各イテレーションで分子生成モデルのパラメータを最適化し、さらなる検証のために有望な分子を生成する傾向がある。 評価は各イテレーションで生成された分子を評価するために利用され、モデル最適化の方向性を提供する。 しかし、以前の作品の多くは、湿式実験や分子動力学シミュレーションなど、膨大な費用と時間を要する評価を必要とするため、実用性が欠如している。 反復過程における評価を低減するため,分子潜在表現ベクトルを最適化した遅延空間におけるコスト効率のよい進化戦略を提案する。 予備学習した分子生成モデルを用いて潜伏空間と観測空間をマッピングし、化学知識を学習するために大規模無ラベル分子を利用する。 高価な評価の回数をさらに削減するため,評価のプロキシとしてプレスクリーンを導入する。 提案手法をいくつかの高度な手法と比較し,提案手法がより少ない評価で優れた性能を実現することを示す。

Efficiently discovering molecules that meet various property requirements can significantly benefit the drug discovery industry. Since it is infeasible to search over the entire chemical space, recent works adopt generative models for goal-directed molecular generation. They tend to utilize the iterative processes, optimizing the parameters of the molecular generative models at each iteration to produce promising molecules for further validation. Assessments are exploited to evaluate the generated molecules at each iteration, providing direction for model optimization. However, most previous works require a massive number of expensive and time-consuming assessments, e.g., wet experiments and molecular dynamic simulations, leading to the lack of practicability. To reduce the assessments in the iterative process, we propose a cost-effective evolution strategy in latent space, which optimizes the molecular latent representation vectors instead. We adopt a pre-trained molecular generative model to map the latent and observation spaces, taking advantage of the large-scale unlabeled molecules to learn chemical knowledge. To further reduce the number of expensive assessments, we introduce a pre-screener as the proxy to the assessments. We conduct extensive experiments on multiple optimization tasks comparing the proposed framework to several advanced techniques, showing that the proposed framework achieves better performance with fewer assessments.
翻訳日:2021-12-03 15:05:38 公開日:2021-11-30
# Flood Analytics Information System (FAIS) バージョン4.00マニュアル

Flood Analytics Information System (FAIS) Version 4.00 Manual ( http://arxiv.org/abs/2112.01375v1 )

ライセンス: Link先を確認
Vidya Samadi(参考訳) このプロジェクトは、洪水リスク評価と意思決定のためのツイートの自然言語処理(NLP)とともに、ビッグデータ分析アプローチと機械学習を使用する最初の試みだった。 複数のPythonパッケージが開発され、Flood Analytics Information System (FAIS)に統合された。 FAISワークフローには、IoT-APIとさまざまな機械学習アプローチを使用して、アプリケーションがさまざまなデータサーバから情報を収集し、データウェアハウス(IBMデータベースサービス)に複製するビッグデータの送信、処理、ロードが含まれる。 ユーザーは、米国地質調査所(USGS)と運輸省(DOT)から直接洪水に関連する画像やビデオをストリームしてダウンロードし、データをローカルストレージに保存することができる。 河川計測、画像、表データの結果をウェブベースの遠隔ダッシュボードに表示し、情報をリアルタイムでプロットすることができる。 faisは地域規模での洪水データ分析のための堅牢でユーザフレンドリーなツールであり、利害関係者が洪水状況や被害を迅速に評価するのに役立ちます。 FAISはまた、観測分析、確率分布、設計の回帰期間の要素を組み合わせた、関連する不確実性を含む洪水量の推定のための洪水頻度分析(FFA)も提供している。 FAISは公開されており、Clemson-IBMクラウドサービスにデプロイされている。

This project was the first attempt to use big data analytics approaches and machine learning along with Natural Language Processing (NLP) of tweets for flood risk assessment and decision making. Multiple Python packages were developed and integrated within the Flood Analytics Information System (FAIS). FAIS workflow includes the use of IoTs-APIs and various machine learning approaches for transmitting, processing, and loading big data through which the application gathers information from various data servers and replicates it to a data warehouse (IBM database service). Users are allowed to directly stream and download flood related images/videos from the US Geological Survey (USGS) and Department of Transportation (DOT) and save the data on a local storage. The outcome of the river measurement, imagery, and tabular data is displayed on a web based remote dashboard and the information can be plotted in real-time. FAIS proved to be a robust and user-friendly tool for flood data analysis at regional scale that could help stakeholders for rapid assessment of flood situation and damages. FAIS also provides flood frequency analysis (FFA) to estimate flood quantiles including the associated uncertainties that combine the elements of observational analysis, stochastic probability distribution and design return periods. FAIS is publicly available and deployed on the Clemson-IBM cloud service.
翻訳日:2021-12-03 15:03:01 公開日:2021-11-30
# (参考訳) アルゴリズムなしコンピューティングの物理平衡モデルに向けて

Towards algorithm-free physical equilibrium model of computing ( http://arxiv.org/abs/2112.00006v1 )

ライセンス: CC0 1.0
Seyed Mousavi(参考訳) 現在のコンピュータは、高度なサーバから小さなスマートフォンまで、同じ計算モデルに基づいて動作しており、アルゴリズムとして指定された一連の個別命令を実行する必要があります。 この逐次計算パラダイムは、過去半世紀にわたって何度も試みられてきたにもかかわらず、np完全問題の高速アルゴリズムを導いていない。 残念ながら、コンピュータの世界に量子力学が導入された後も、同様のシーケンシャルなパラダイムに従っています。 ここでは、アルゴリズムのシーケンシャルパラダイムを物理的プロセスの固有の並列性に置き換えるために、全く異なる計算モデルが提案されている。 提案モデルを用いてNP完全問題の解法を記述する代わりに, 平衡状態が所望の解に対応する物理系を構築し, 解の探索に発展させる。 モデルの主な要件は特定され、潜在的な実装のために量子回路が提案される。

Our computers today, from sophisticated servers to small smartphones, operate based on the same computing model, which requires running a sequence of discrete instructions, specified as an algorithm. This sequential computing paradigm has not yet led to a fast algorithm for an NP-complete problem despite numerous attempts over the past half a century. Unfortunately, even after the introduction of quantum mechanics to the world of computing, we still followed a similar sequential paradigm, which has not yet helped us obtain such an algorithm either. Here a completely different model of computing is proposed to replace the sequential paradigm of algorithms with inherent parallelism of physical processes. Using the proposed model, instead of writing algorithms to solve NP-complete problems, we construct physical systems whose equilibrium states correspond to the desired solutions and let them evolve to search for the solutions. The main requirements of the model are identified and quantum circuits are proposed for its potential implementation.
翻訳日:2021-12-03 06:59:35 公開日:2021-11-30
# (参考訳) 学習支援自律システムにおける機械学習コンポーネントの信頼性評価と安全性問題

Reliability Assessment and Safety Arguments for Machine Learning Components in Assuring Learning-Enabled Autonomous Systems ( http://arxiv.org/abs/2112.00646v1 )

ライセンス: CC BY 4.0
Xingyu Zhao, Wei Huang, Vibhav Bharti, Yi Dong, Victoria Cox, Alec Banks, Sen Wang, Sven Schewe, Xiaowei Huang(参考訳) 機械学習(ML)コンポーネントを自律システムに組み込む — いわゆるLearning-Enabled Systems(LES) – の利用が増加し、機能安全性の確保が求められている。 従来の機能安全に関しては、産業とアカデミアの両方における新たな合意は、この目的のために保証ケースを使用することである。 通常、保証ケースは安全性を支持する信頼性の主張を支持しており、安全分析や信頼性モデリング活動から生じる議論や証拠を整理する構造化された方法と見なすことができる。 このような保証活動は伝統的に、膨大なエンジニアリング経験から開発されたコンセンサスに基づく標準によって導かれるが、lesはmlモデルの特徴と設計のために、安全クリティカルなアプリケーションにおいて新たな課題を提起する。 本稿では,システムレベルの安全目標をコンポーネントレベルの要求に分割し,信頼性基準に記載されたクレームをサポートするなど,量的側面を重視したLESの全体的な保証フレームワークを最初に提示する。 次に,動作プロファイルとロバスト性検証を有効活用するML分類器のための新しいモデル非依存信頼性評価モデル(RAM)を提案する。 本稿では、我々のRAMが発見したML信頼性を評価するためのモデル仮定と固有の課題について論じ、実用的な解決策を提案する。 低いMLコンポーネントレベルの確率論的安全性引数もRAMに基づいて開発されている。 最後に, 本手法の評価と実証を行うため, 合成・ベンチマークデータセットの実験を行うだけでなく, シミュレーションにおける自律下水車両の総合的なケーススタディにより, 手法の範囲を実証する。

The increasing use of Machine Learning (ML) components embedded in autonomous systems -- so-called Learning-Enabled Systems (LES) -- has resulted in the pressing need to assure their functional safety. As for traditional functional safety, the emerging consensus within both, industry and academia, is to use assurance cases for this purpose. Typically assurance cases support claims of reliability in support of safety, and can be viewed as a structured way of organising arguments and evidence generated from safety analysis and reliability modelling activities. While such assurance activities are traditionally guided by consensus-based standards developed from vast engineering experience, LES pose new challenges in safety-critical application due to the characteristics and design of ML models. In this article, we first present an overall assurance framework for LES with an emphasis on quantitative aspects, e.g., breaking down system-level safety targets to component-level requirements and supporting claims stated in reliability metrics. We then introduce a novel model-agnostic Reliability Assessment Model (RAM) for ML classifiers that utilises the operational profile and robustness verification evidence. We discuss the model assumptions and the inherent challenges of assessing ML reliability uncovered by our RAM and propose practical solutions. Probabilistic safety arguments at the lower ML component-level are also developed based on the RAM. Finally, to evaluate and demonstrate our methods, we not only conduct experiments on synthetic/benchmark datasets but also demonstrate the scope of our methods with a comprehensive case study on Autonomous Underwater Vehicles in simulation.
翻訳日:2021-12-03 06:51:12 公開日:2021-11-30
# (参考訳) 深層ニューラルネットワークを用いた衛星画像からの貧困レベル予測

Predicting Poverty Level from Satellite Imagery using Deep Neural Networks ( http://arxiv.org/abs/2112.00011v1 )

ライセンス: CC0 1.0
Varun Chitturi, Zaid Nabulsi(参考訳) 世界中の様々な地域の貧困レベルを決定することは、貧困削減イニシアチブの介入を特定し、資源を公平に導く上で不可欠である。 しかし、世界の経済生活に関する信頼できるデータは、特に発展途上国の地域では、サービスの展開と進捗の監視/評価の努力を妨げているため、得られない。 これは主に、このデータは時間と費用がかかる従来の戸口調査から得られるという事実によるものだ。 頭上衛星画像には、地域の貧困レベルを推定できる特徴が含まれている。 本研究では,頭上衛星画像から地域の貧困レベルを予測できるディープラーニングコンピュータビジョン手法を開発した。 私は昼と夜の両方の画像を実験します。 さらに,衛星画像からの貧困予測において,データ制限が参入障壁となることが多いため,データ量とデータ拡張がネットワークの表現力と全体的な正確性に与える影響について検討する。 最後に,ネットワークの堅牢性を評価するため,開発環境に欠落した大陸のデータをもとに評価を行った。

Determining the poverty levels of various regions throughout the world is crucial in identifying interventions for poverty reduction initiatives and directing resources fairly. However, reliable data on global economic livelihoods is hard to come by, especially for areas in the developing world, hampering efforts to both deploy services and monitor/evaluate progress. This is largely due to the fact that this data is obtained from traditional door-to-door surveys, which are time consuming and expensive. Overhead satellite imagery contain characteristics that make it possible to estimate the region's poverty level. In this work, I develop deep learning computer vision methods that can predict a region's poverty level from an overhead satellite image. I experiment with both daytime and nighttime imagery. Furthermore, because data limitations are often the barrier to entry in poverty prediction from satellite imagery, I explore the impact that data quantity and data augmentation have on the representational power and overall accuracy of the networks. Lastly, to evaluate the robustness of the networks, I evaluate them on data from continents that were absent in the development set.
翻訳日:2021-12-03 06:37:12 公開日:2021-11-30
# (参考訳) 堅牢で証明可能な単調ネットワーク

Robust and Provably Monotonic Networks ( http://arxiv.org/abs/2112.00038v1 )

ライセンス: CC BY 4.0
Ouail Kitouni, Niklas Nolte, Mike Williams(参考訳) ニューラルネットワークで表現される入力空間と出力空間の間のマップのリプシッツ定数は、モデルのロバスト性を評価するための自然な指標である。 本稿では,他のアーキテクチャにも一般化可能な深層学習モデルのリプシッツ定数を制約する新しい手法を提案する。 この方法は、訓練中の単純な重量正規化スキームに依存し、各層のリプシッツ定数がアナリストが指定する上限よりも低いことを保証する。 単純な残余接続は入力の任意の部分集合におけるモデル単調化に使用することができ、ドメイン知識がそのような依存を規定するシナリオで有用である。 例えば、アルゴリズムのフェアネス要件や、cernの大型ハドロン衝突型加速器で生成された亜原子粒子の崩壊の分類などに見ることができる。 我々の正規化は最小限の制約であり、モデルのリプシッツ定数を制御することや、その単調性を保証することを目的とした他の手法と比較して、基礎となるアーキテクチャは高い表現性を維持することができる。 LHCbのリアルタイムデータ処理システムにおいて, 強靭で解釈可能な判別器を学習するために, アルゴリズムがどのように使われたかを示す。

The Lipschitz constant of the map between the input and output space represented by a neural network is a natural metric for assessing the robustness of the model. We present a new method to constrain the Lipschitz constant of dense deep learning models that can also be generalized to other architectures. The method relies on a simple weight normalization scheme during training that ensures the Lipschitz constant of every layer is below an upper limit specified by the analyst. A simple residual connection can then be used to make the model monotonic in any subset of its inputs, which is useful in scenarios where domain knowledge dictates such dependence. Examples can be found in algorithmic fairness requirements or, as presented here, in the classification of the decays of subatomic particles produced at the CERN Large Hadron Collider. Our normalization is minimally constraining and allows the underlying architecture to maintain higher expressiveness compared to other techniques which aim to either control the Lipschitz constant of the model or ensure its monotonicity. We show how the algorithm was used to train a powerful, robust, and interpretable discriminator for heavy-flavor decays in the LHCb realtime data-processing system.
翻訳日:2021-12-03 06:24:38 公開日:2021-11-30
# (参考訳) フェデレーション学習における勾配反転攻撃と防御の評価

Evaluating Gradient Inversion Attacks and Defenses in Federated Learning ( http://arxiv.org/abs/2112.00059v1 )

ライセンス: CC BY 4.0
Yangsibo Huang, Samyak Gupta, Zhao Song, Kai Li, Sanjeev Arora(参考訳) 勾配反転攻撃(または勾配からの入力回復)は、連合学習のセキュリティとプライバシーの保護に対する新たな脅威であり、悪意のある盗聴者やプロトコルの参加者がクライアントのプライベートデータを(部分的に)回復することができる。 本稿では,既存の攻撃と防御について述べる。 いくつかの攻撃は、設定について強い前提を定めている。 このような仮定を緩和することはこれらの攻撃を著しく弱める。 次に, 勾配反転攻撃に対する3つの防御機構の利点を評価する。 プライバシリークのトレードオフと,これらの防御手法のデータ有効性を示し,これらを適切な方法で組み合わせることで,元の強い前提の下でも攻撃効果が低下することを示す。 また,評価された各防御条件下での単一画像のエンドツーエンド回復の計算コストを推定した。 以上の結果から,現状の攻撃は,潜在的戦略の一覧にまとめられたように,少なからぬデータ損失で防御可能であることが示唆された。 私たちのコードは、https://github.com/Princeton-SysML/GradAttack.comで利用可能です。

Gradient inversion attack (or input recovery from gradient) is an emerging threat to the security and privacy preservation of Federated learning, whereby malicious eavesdroppers or participants in the protocol can recover (partially) the clients' private data. This paper evaluates existing attacks and defenses. We find that some attacks make strong assumptions about the setup. Relaxing such assumptions can substantially weaken these attacks. We then evaluate the benefits of three proposed defense mechanisms against gradient inversion attacks. We show the trade-offs of privacy leakage and data utility of these defense methods, and find that combining them in an appropriate manner makes the attack less effective, even under the original strong assumptions. We also estimate the computation cost of end-to-end recovery of a single image under each evaluated defense. Our findings suggest that the state-of-the-art attacks can currently be defended against with minor data utility loss, as summarized in a list of potential strategies. Our code is available at: https://github.com/Princeton-SysML/GradAttack.
翻訳日:2021-12-03 06:17:45 公開日:2021-11-30
# (参考訳) 学ぶべきことと方法:―理性から効果的な学習へ―

What to Learn, and How: Toward Effective Learning from Rationales ( http://arxiv.org/abs/2112.00071v1 )

ライセンス: CC BY 4.0
Samuel Carton, Surya Kanoria and Chenhao Tan(参考訳) 合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性(すなわち入力トークンのサブセット)によるモデルトレーニングを強化することを目指している。 直感的ではあるが、この考えは実際はわかりやすい。 経験的分析を通して、人間の理性について2つの観察を行います。 1) 予測合理的精度の最大化は,必ずしもモデル性能を改善するための最適目標ではない。 2) 人的合理性は,モデルが予測を活用できる十分な情報を提供するかどうかによって異なり,この分散を用いて,理論から学習することによるデータセットの潜在的な改善を評価することができる。 これらの知見に基づいて、損失関数と学習戦略を提案し、人間の有理性を持つ3つのデータセット上での有効性を評価する。 その結果,MultiRCの精度3%の改善を含む,ラベル性能と合理的性能の両面において,ベースラインよりも一貫した改善が示された。 我々の研究は、人間の説明の性質を理解し、それらをモデルトレーニングで活用することの重要性を強調している。

Learning from rationales seeks to augment model training with human-provided rationales (i.e., a subset of input tokens) that justify those labels. While intuitive, this idea has proven elusive in practice. We make two observations about human rationales via empirical analyses: 1) maximizing predicted rationale accuracy is not necessarily the optimal objective for improving model performance; 2) human rationales vary in whether they provide sufficient information for the model to exploit for prediction, and we can use this variance to assess a dataset's potential improvement from learning from rationales. Building on these insights, we propose loss functions and learning strategies, and evaluate their effectiveness on three datasets with human rationales. Our results demonstrate consistent improvements over baselines in both label performance and rationale performance, including a 3% accuracy improvement on MultiRC. Our work highlights the importance of understanding properties of human explanations and exploiting them accordingly in model training.
翻訳日:2021-12-03 05:55:23 公開日:2021-11-30
# (参考訳) 有向グラフと有向グラフの埋め込み比較のための多目的非教師付きフレームワーク

A Multi-purposed Unsupervised Framework for Comparing Embeddings of Undirected and Directed Graphs ( http://arxiv.org/abs/2112.00075v1 )

ライセンス: CC BY 4.0
Bogumi{\l} Kami\'nski, {\L}ukasz Krai\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) グラフ埋め込みは、ネットワークのノードをベクトルの集合に変換するものである。 グラフトポロジと構造、ノード間関係、およびグラフ、そのサブグラフ、およびそれ自身に関する他の関連する情報を適切な埋め込みで取得する必要がある。 これらの目的が達成されれば、埋め込みは意味があり、理解でき、しばしば圧縮されたネットワーク表現である。 残念ながら、最高の埋め込みを選択するのは難しい作業であり、ドメインの専門家が必要です。 本稿では,著者らが最近導入したグラフ埋め込みの評価フレームワークを拡張する。 現在、このフレームワークは、各埋め込みにローカルとグローバルの2つのスコアを割り当てており、ネットワークのグローバルな特性をよく表現する必要があるタスクに対して評価された埋め込みの品質を測定する。 最適な埋め込みは、必要に応じて教師なしの方法で選択できるし、フレームワークはさらなる調査に値するいくつかの埋め込みを識別できる。 フレームワークは柔軟でスケーラブルで、非指向/指向/重み付き/非重み付きグラフを扱うことができる。

Graph embedding is a transformation of nodes of a network into a set of vectors. A good embedding should capture the underlying graph topology and structure, node-to-node relationship, and other relevant information about the graph, its subgraphs, and nodes themselves. If these objectives are achieved, an embedding is a meaningful, understandable, and often compressed representation of a network. Unfortunately, selecting the best embedding is a challenging task and very often requires domain experts. In this paper, we extend the framework for evaluating graph embeddings that was recently introduced by the authors. Now, the framework assigns two scores, local and global, to each embedding that measure the quality of an evaluated embedding for tasks that require good representation of local and, respectively, global properties of the network. The best embedding, if needed, can be selected in an unsupervised way, or the framework can identify a few embeddings that are worth further investigation. The framework is flexible, scalable, and can deal with undirected/directed, weighted/unweighted graphs.
翻訳日:2021-12-03 05:39:59 公開日:2021-11-30
# (参考訳) CovidAlert―顔認識からユーザーをアラートする腕時計ベースのシステム

CovidAlert -- A Wristwatch-based System to Alert Users from Face Touching ( http://arxiv.org/abs/2112.00131v1 )

ライセンス: CC BY 4.0
Mrinmoy Roy, Venkata Devesh Reddy Seethi, Pratool Bharti(参考訳) 全世界で2億2000万人が感染し、45万人が新型コロナウイルスの流行で命を落としている。 ワクチンが普及するまで、マスクの着用、身体的距離、顔に触れることを避けるといった予防や安全対策がウイルスの拡散を抑制する主要な手段であった。 顔に触れることは強制的な人間の行動であり、連続的な努力をしなければ防げないが、それでも避けられない。 この問題を解決するために、スマートウォッチの加速度計とジャイロスコープのデータで訓練されたランダムフォレストアルゴリズムを活用して、顔への手遷移を検出し、ユーザに素早く触覚アラートを送る、スマートウォッチベースのソリューションcovidalertを設計しました。 Covidalertは、STA/LTAアルゴリズムをゲートキーパーとして使用し、ユーザーがアクティブでないときの腕時計上のランダムフォレストモデルの使用量を削減しているため、非常にエネルギー効率が高い。 システム全体の精度は88.4%で、偽陰性と偽陽性が低かった。 また、市販のFossil Gen 5スマートウォッチに実装することで、システムの生存性を実証した。

Worldwide 2019 million people have been infected and 4.5 million have lost their lives in the ongoing Covid-19 pandemic. Until vaccines became widely available, precautions and safety measures like wearing masks, physical distancing, avoiding face touching were some of the primary means to curb the spread of virus. Face touching is a compulsive human begavior that can not be prevented without making a continuous consious effort, even then it is inevitable. To address this problem, we have designed a smartwatch-based solution, CovidAlert, that leverages Random Forest algorithm trained on accelerometer and gyroscope data from the smartwatch to detects hand transition to face and sends a quick haptic alert to the users. CovidALert is highly energy efficient as it employs STA/LTA algorithm as a gatekeeper to curtail the usage of Random Forest model on the watch when user is inactive. The overall accuracy of our system is 88.4% with low false negatives and false positives. We also demonstrated the system viability by implementing it on a commercial Fossil Gen 5 smartwatch.
翻訳日:2021-12-03 05:38:31 公開日:2021-11-30
# (参考訳) PokeBNN:ライトウェイト精度の2つの理由

PokeBNN: A Binary Pursuit of Lightweight Accuracy ( http://arxiv.org/abs/2112.00133v1 )

ライセンス: CC BY 4.0
Yichi Zhang, Zhiru Zhang, Lukasz Lew(参考訳) Top-1 ImageNet最適化は、推論設定において実用的でない可能性のある巨大なネットワークを促進する。 バイナリニューラルネットワーク(BNN)は計算強度を大幅に低下させる可能性があるが、既存のモデルは品質が低い。 この欠陥を克服するために、複数の残路の追加やアクティベーション関数のチューニングといった手法によりBNNの品質を向上させるバイナリ畳み込みブロックであるPokeConvを提案する。 ResNet-50に適用し、二項化が難しいResNetの初期畳み込み層を最適化する。 ネットワークファミリであるPokeBNNを以下に示す。 これらの手法はtop-1の精度とネットワークのコストの両方において良好な改善をもたらすために選択される。 コストを精度とともに共同で最適化するために、量子化および二項化ネットワークのためのハードウェアおよびエネルギーに着想を得たコストメトリックである演算演算(ACE)を定義する。 また,2値化勾配近似を制御する超パラメータの最適化の必要性も明らかにした。 我々は、一般的なCPU64コスト、ACEコスト、ネットワークサイズメトリクスとともに、トップ1の精度で新しい強力な最先端(SOTA)を確立します。 以前のBNNのSOTAであるReActNet-Adamは7.9ACEで70.5%のトップ1の精度を達成した。 pokebnn は 70.5% の top-1 と 2.6 ace と 3倍のコスト削減を達成し、pokebnn は 75.6% の top-1 と 7.8 ace を達成し、コストを増加させることなく精度が 5% 以上向上した。 JAX/Flax での PokeBNN の実装と再生命令はオープンソースである。

Top-1 ImageNet optimization promotes enormous networks that may be impractical in inference settings. Binary neural networks (BNNs) have the potential to significantly lower the compute intensity but existing models suffer from low quality. To overcome this deficiency, we propose PokeConv, a binary convolution block which improves quality of BNNs by techniques such as adding multiple residual paths, and tuning the activation function. We apply it to ResNet-50 and optimize ResNet's initial convolutional layer which is hard to binarize. We name the resulting network family PokeBNN. These techniques are chosen to yield favorable improvements in both top-1 accuracy and the network's cost. In order to enable joint optimization of the cost together with accuracy, we define arithmetic computation effort (ACE), a hardware- and energy-inspired cost metric for quantized and binarized networks. We also identify a need to optimize an under-explored hyper-parameter controlling the binarization gradient approximation. We establish a new, strong state-of-the-art (SOTA) on top-1 accuracy together with commonly-used CPU64 cost, ACE cost and network size metrics. ReActNet-Adam, the previous SOTA in BNNs, achieved a 70.5% top-1 accuracy with 7.9 ACE. A small variant of PokeBNN achieves 70.5% top-1 with 2.6 ACE, more than 3x reduction in cost; a larger PokeBNN achieves 75.6% top-1 with 7.8 ACE, more than 5% improvement in accuracy without increasing the cost. PokeBNN implementation in JAX/Flax and reproduction instructions are open sourced.
翻訳日:2021-12-03 05:26:04 公開日:2021-11-30
# (参考訳) UAVによる報酬収集問題の解決:オンライン最適化とQ-ラーニングの比較

Solving reward-collecting problems with UAVs: a comparison of online optimization and Q-learning ( http://arxiv.org/abs/2112.00141v1 )

ライセンス: CC BY 4.0
Yixuan Liu and Chrysafis Vogiatzis and Ruriko Yoshida and Erich Morman(参考訳) uncrewed autonomous vehicles (uavs)は、過去の米軍作戦における偵察および監視任務に多大な貢献をした。 UAVの普及に伴い、対UAV技術の改良も行われ、興味のある領域で貴重な情報を得るのを困難にしている。 したがって、現代のUAVが自らのミッションを達成し、生存可能性の最大化が重要である。 本研究では,与えられたスタートからゴールまでの短い経路を識別する問題について,すべての報酬を収集し,グリッド上でランダムに移動する敵を避けながら検討する。 また,自発的な死傷者の避難という,軍事的状況における枠組みの応用の可能性についても述べる。 本稿では,この問題を解決するために,Deep Q-Learningモデル,$\varepsilon$-greedyタブ状Q-Learningモデル,オンライン最適化フレームワークの3つの方法を比較する。 ランダムな逆数を持つ単純なグリッドワールド環境を用いて設計した計算実験は、これらの手法がどのように機能するかを示し、性能、精度、計算時間の観点から比較する。

Uncrewed autonomous vehicles (UAVs) have made significant contributions to reconnaissance and surveillance missions in past US military campaigns. As the prevalence of UAVs increases, there has also been improvements in counter-UAV technology that makes it difficult for them to successfully obtain valuable intelligence within an area of interest. Hence, it has become important that modern UAVs can accomplish their missions while maximizing their chances of survival. In this work, we specifically study the problem of identifying a short path from a designated start to a goal, while collecting all rewards and avoiding adversaries that move randomly on the grid. We also provide a possible application of the framework in a military setting, that of autonomous casualty evacuation. We present a comparison of three methods to solve this problem: namely we implement a Deep Q-Learning model, an $\varepsilon$-greedy tabular Q-Learning model, and an online optimization framework. Our computational experiments, designed using simple grid-world environments with random adversaries showcase how these approaches work and compare them in terms of performance, accuracy, and computational time.
翻訳日:2021-12-03 05:07:02 公開日:2021-11-30
# (参考訳) MEFNet:モーションデブリのためのマルチスケールイベントフュージョンネットワーク

MEFNet: Multi-scale Event Fusion Network for Motion Deblurring ( http://arxiv.org/abs/2112.00167v1 )

ライセンス: CC BY 4.0
Lei Sun, Christos Sakaridis, Jingyun Liang, Qi Jiang, Kailun Yang, Peng Sun, Yaozu Ye, Kaiwei Wang, and Luc Van Gool(参考訳) 従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。 生体刺激カメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録し、露光時間内に有効な画像劣化情報を提供する。 本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。 イベント情報を効果的に活用するために (i)画像デブラリングに特化した新しい対称累積事象表現 (ii)ネットワークの複数のレベルで適用されるアフィンイベントイメージ融合モジュール。 また,情報損失を回避するために,ネットワークの2段階間のイベントマスクゲート接続を提案する。 データセットレベルでは、事象をベースとした動きの鈍化を育むとともに、現実に挑戦する画像の評価を容易にするために、照明制御光学実験室でイベントカメラで捉えたHigh-Quality Blur(HQBlur)データセットを導入する。 当社のMulti-Scale Event Fusion Network(MEFNet)は、GoPro(最大2.38dB)とHQBlurデータセットにパブリック実装された、これまで最高のパフォーマンスのイメージベース手法とイベントベースの方法の両方を超越した、モーションデブロワーのための新たな技術状況を設定しています。 ソースコードとデータセットは公開される予定だ。

Traditional frame-based cameras inevitably suffer from motion blur due to long exposure times. As a kind of bio-inspired camera, the event camera records the intensity changes in an asynchronous way with high temporal resolution, providing valid image degradation information within the exposure time. In this paper, we rethink the event-based image deblurring problem and unfold it into an end-to-end two-stage image restoration network. To effectively utilize event information, we design (i) a novel symmetric cumulative event representation specifically for image deblurring, and (ii) an affine event-image fusion module applied at multiple levels of our network. We also propose an event mask gated connection between the two stages of the network so as to avoid information loss. At the dataset level, to foster event-based motion deblurring and to facilitate evaluation on challenging real-world images, we introduce the High-Quality Blur (HQBlur) dataset, captured with an event camera in an illumination-controlled optical laboratory. Our Multi-Scale Event Fusion Network (MEFNet) sets the new state of the art for motion deblurring, surpassing both the prior best-performing image-based method and all event-based methods with public implementations on the GoPro (by up to 2.38dB) and HQBlur datasets, even in extreme blurry conditions. Source code and dataset will be made publicly available.
翻訳日:2021-12-03 04:48:38 公開日:2021-11-30
# (参考訳) 3dフォトスタイライゼーション:単一の画像からスタイライゼーションされたノベルビューを生成するための学習

3D Photo Stylization: Learning to Generate Stylized Novel Views from a Single Image ( http://arxiv.org/abs/2112.00169v1 )

ライセンス: CC BY 4.0
Fangzhou Mu, Jian Wang, Yicheng Wu, Yin Li(参考訳) モバイル写真やar/vrへの応用を考えると、ビジュアルコンテンツ作成への関心は高まっている。 スタイル転送と2つの代表的なタスクとしてのシングルイメージの3D写真は、これまで独立して進化してきた。 本稿では,この2つを接続し,任意のスタイルの1つの画像からスタイリングされた新しいビューを生成する3Dフォトスタイリングの課題に対処する。 私たちの重要な直感は、このタスクのためにスタイル転送とビュー合成を共同でモデル化する必要があるということです。 そこで本研究では,シーンのポイントクラウド表現からスタイライゼーションのための幾何認識コンテンツ特徴を学習し,ビュー間で一貫性のある高品質なスタイライゼーション画像を生成する深層モデルを提案する。 さらに,2次元画像のみを用いた学習を可能にする新しいトレーニングプロトコルを提案する。 本研究では,2次元画像アセットからの3次元コンテンツ生成の需要の増加を踏まえ,定性的・定量的研究を通じて,本手法の優位性を示す。

Visual content creation has spurred a soaring interest given its applications in mobile photography and AR / VR. Style transfer and single-image 3D photography as two representative tasks have so far evolved independently. In this paper, we make a connection between the two, and address the challenging task of 3D photo stylization - generating stylized novel views from a single image given an arbitrary style. Our key intuition is that style transfer and view synthesis have to be jointly modeled for this task. To this end, we propose a deep model that learns geometry-aware content features for stylization from a point cloud representation of the scene, resulting in high-quality stylized images that are consistent across views. Further, we introduce a novel training protocol to enable the learning using only 2D images. We demonstrate the superiority of our method via extensive qualitative and quantitative studies, and showcase key applications of our method in light of the growing demand for 3D content creation from 2D image assets.
翻訳日:2021-12-03 04:31:24 公開日:2021-11-30
# (参考訳) 生成モデルによる微分可能なアーキテクチャ探索の改善

Improving Differentiable Architecture Search with a Generative Model ( http://arxiv.org/abs/2112.00171v1 )

ライセンス: CC BY 4.0
Ruisi Zhang, Youwei Liang, Sai Ashish Somayajula, Pengtao Xie(参考訳) DARTSのような差別化可能なニューラルネットワーク探索(NAS)アルゴリズムでは、モデルの重みを更新するトレーニングセットと、モデルアーキテクチャを更新する検証セットは同じデータ分布からサンプリングされる。 したがって、データセット内の珍しい機能は、トレーニング中に十分な注意を引かない。 本稿では、より複雑なNASアルゴリズムを導入する代わりに、高品質な合成データセットをトレーニングに追加することで、分類モデルがその弱点を識別し、認識精度を向上させることができるという考えを考察する。 本稿では,DASGM(Differentiable Architecture Search with a Generative Model)と呼ばれる学習戦略を紹介する。 DASGMでは、トレーニングセットを使用して分類モデルの重みを更新し、合成データセットを使用してアーキテクチャをトレーニングします。 生成された画像はトレーニングセットと異なる分布を持ち、分類モデルがその弱点を識別するためにより良い特徴を学ぶのに役立つ。 dasgmをマルチレベル最適化フレームワークに定式化し,それを解決する効果的なアルゴリズムを開発した。 CIFAR-10、CIFAR-100、ImageNetの実験は、DASGMの有効性を実証した。 コードは利用可能になる。

In differentiable neural architecture search (NAS) algorithms like DARTS, the training set used to update model weight and the validation set used to update model architectures are sampled from the same data distribution. Thus, the uncommon features in the dataset fail to receive enough attention during training. In this paper, instead of introducing more complex NAS algorithms, we explore the idea that adding quality synthesized datasets into training can help the classification model identify its weakness and improve recognition accuracy. We introduce a training strategy called ``Differentiable Architecture Search with a Generative Model(DASGM)." In DASGM, the training set is used to update the classification model weight, while a synthesized dataset is used to train its architecture. The generated images have different distributions from the training set, which can help the classification model learn better features to identify its weakness. We formulate DASGM into a multi-level optimization framework and develop an effective algorithm to solve it. Experiments on CIFAR-10, CIFAR-100, and ImageNet have demonstrated the effectiveness of DASGM. Code will be made available.
翻訳日:2021-12-03 04:15:23 公開日:2021-11-30
# (参考訳) 機械学習・フォー・ヘルス(ML4H)シンポジウムに参加して

A collection of the accepted abstracts for the Machine Learning for Health (ML4H) symposium 2021 ( http://arxiv.org/abs/2112.00179v1 )

ライセンス: CC BY 4.0
Fabian Falck, Yuyin Zhou, Emma Rocheteau, Liyue Shen, Luis Oala, Girmaw Abebe, Subhrajit Roy, Stephen Pfohl, Emily Alsentzer, Matthew B. A. McDermott(参考訳) machine learning for health (ml4h) symposium 2021 で承認された要約集。 このインデックスは完全ではなく、一部の抽象概念がインクルージョンのオプトアウトを選択したためである。

A collection of the accepted abstracts for the Machine Learning for Health (ML4H) symposium 2021. This index is not complete, as some accepted abstracts chose to opt-out of inclusion.
翻訳日:2021-12-03 03:44:40 公開日:2021-11-30
# 記述型対推論型コミュニティ検出:落とし穴、神話、半真実

Descriptive vs. inferential community detection: pitfalls, myths and half-truths ( http://arxiv.org/abs/2112.00183v1 )

ライセンス: Link先を確認
Tiago P. Peixoto(参考訳) コミュニティ検出はネットワーク科学における最も重要な方法論の1つであり、過去数十年でかなりの注目を集めてきた。 この領域は、ネットワークを基本的なビルディングブロックに分割し、その大規模構造の要約を提供することを目的としている。 その重要性と普及にもかかわらず、最先端と見なされるものと、実際に様々な分野で実際に使用される方法との間には、明らかなギャップがある。 ここでは、既存のメソッドが「記述的」か「推論的」かに応じて分割することで、この相違に対処しようと試みる。 記述的手法はコミュニティ構造の直感的な概念に基づいてネットワーク内のパターンを見つけるが、推論的手法は正確な生成モデルを示し、データに適合させようとする。 このようにして、彼らはネットワーク形成のメカニズムに関する洞察を与え、統計的証拠によって支持される方法でランダム性から構造を分離することができる。 我々は,推論目的による記述的手法の導入が,落とし穴や誤解を招く解答に悩まされており,一般的には避けるべきであることを示す。 我々は、推論手法は一般的により明確な科学的質問と一致し、より強固な結果をもたらし、一般に好まれるべきであると主張する。 我々は,コミュニティ検出が実際に行われている場合によく信じられる神話や半真実を,そのような手法の使用と結果の解釈の両方を改善するために,取り除こうとしている。

Community detection is one of the most important methodological fields of network science, and one which has attracted a significant amount of attention over the past decades. This area deals with the automated division of a network into fundamental building blocks, with the objective of providing a summary of its large-scale structure. Despite its importance and widespread adoption, there is a noticeable gap between what is considered the state-of-the-art and the methods that are actually used in practice in a variety of fields. Here we attempt to address this discrepancy by dividing existing methods according to whether they have a "descriptive" or an "inferential" goal. While descriptive methods find patterns in networks based on intuitive notions of community structure, inferential methods articulate a precise generative model, and attempt to fit it to data. In this way, they are able to provide insights into the mechanisms of network formation, and separate structure from randomness in a manner supported by statistical evidence. We review how employing descriptive methods with inferential aims is riddled with pitfalls and misleading answers, and thus should be in general avoided. We argue that inferential methods are more typically aligned with clearer scientific questions, yield more robust results, and should be in general preferred. We attempt to dispel some myths and half-truths often believed when community detection is employed in practice, in an effort to improve both the use of such methods as well as the interpretation of their results.
翻訳日:2021-12-02 15:59:20 公開日:2021-11-30
# 次元にわたる結び目不変量を学ぶ

Learning knot invariants across dimensions ( http://arxiv.org/abs/2112.00016v1 )

ライセンス: Link先を確認
Jessica Craven, Mark Hughes, Vishnu Jejjala, Arjun Kar(参考訳) 深層ニューラルネットワークを用いて様々な次元の結び目不変量間の相関関係を機械学習する。 興味のある3次元不変量はジョーンズ多項式 $j(q)$ であり、4次元不変量はホヴァノフ多項式 $\text{kh}(q,t)$、滑らかなスライス属 $g$、ラスムセンの $s$-invariant である。 2層フィードフォワードニューラルネットワークは、$99\%以上の精度で$\text{Kh}(q,-q^{-4})$から$s$を予測することができる。 この性能に関する理論的説明は、現在証明されていない騎士運動予想を通じて結び目理論に存在し、これはデータセットのすべての結び目によって従う。 さらに驚くべきことに、$\text{Kh}(q,-q^{-2})$から$s$の予測に類似した性能が得られ、これは結び目のホバノフとリーホモロジー理論の間の新しい関係を示唆している。 同様の精度で$g$を$\text{Kh}(q,t)$から予測し、一般的な不等式$|s| \leq 2g$が存在するため、$g$とは対照的に、マシンが$s$を学習している範囲について議論する。 3次元不変量としてのジョーンズ多項式は、明らかに$s$ や $g$ とは関係しないが、ネットワークは$j(q)$ から予測する場合に 95\% 以上の精度を達成している。 さらに、同様の精度はユニティの根で$J(q)$を評価することで達成できる。 これは$su(2)$チャーン=サイモンズ理論との関係を示唆し、ネットワークのパフォーマンスを説明するのに関係があるかもしれないホバノフホモロジーのゲージ理論構成を考察する。

We use deep neural networks to machine learn correlations between knot invariants in various dimensions. The three-dimensional invariant of interest is the Jones polynomial $J(q)$, and the four-dimensional invariants are the Khovanov polynomial $\text{Kh}(q,t)$, smooth slice genus $g$, and Rasmussen's $s$-invariant. We find that a two-layer feed-forward neural network can predict $s$ from $\text{Kh}(q,-q^{-4})$ with greater than $99\%$ accuracy. A theoretical explanation for this performance exists in knot theory via the now disproven knight move conjecture, which is obeyed by all knots in our dataset. More surprisingly, we find similar performance for the prediction of $s$ from $\text{Kh}(q,-q^{-2})$, which suggests a novel relationship between the Khovanov and Lee homology theories of a knot. The network predicts $g$ from $\text{Kh}(q,t)$ with similarly high accuracy, and we discuss the extent to which the machine is learning $s$ as opposed to $g$, since there is a general inequality $|s| \leq 2g$. The Jones polynomial, as a three-dimensional invariant, is not obviously related to $s$ or $g$, but the network achieves greater than $95\%$ accuracy in predicting either from $J(q)$. Moreover, similar accuracy can be achieved by evaluating $J(q)$ at roots of unity. This suggests a relationship with $SU(2)$ Chern--Simons theory, and we review the gauge theory construction of Khovanov homology which may be relevant for explaining the network's performance.
翻訳日:2021-12-02 15:58:57 公開日:2021-11-30
# 深部強化学習を用いた自動車用COLREGのリスクベース実装

Risk-based implementation of COLREGs for autonomous surface vehicles using deep reinforcement learning ( http://arxiv.org/abs/2112.00115v1 )

ライセンス: Link先を確認
Thomas Nakken Larsen, Amalie Heiberg, Eivind Meyer, Adil Rasheeda, Omer San, Damiano Varagnolo(参考訳) 自律システムはユビキタスになり、海洋部門で勢いを増している。 輸送の電化が同時に起きているため、自律型海洋船は環境への影響を低減し、コストを下げ、効率を向上させることができる。 安全性を確保するには厳密な監視が必要であるが、最終的な目標は完全な自律性である。 主要なマイルストーンの1つは、天候や遭遇に十分対応し、堅牢で信頼性の高い制御システムを開発することである。 さらに、コントロールシステムは、人間の水兵との対話を成功させるために、海上での衝突防止国際規則(COLREG)に準拠しなければならない。 コレーグは人間の心が解釈できるように書かれたため、曖昧な散文で書かれており、機械可読性や検証性はない。 これらの課題と対処すべきさまざまな状況のため、古典的なモデルに基づくアプローチは実装が複雑で計算的に重い。 機械学習(ML)において、深層強化学習(DRL)は幅広い応用の可能性を示している。 DRLのモデルフリーおよび自己学習特性は、自律型船舶に有望な候補となる。 本研究では,衝突リスク理論を用いたdrlに基づく経路追従と障害物回避システムにcoregsのサブセットが組み込まれている。 得られた自律エージェントは、訓練シナリオ、孤立した遭遇状況、実世界のシナリオのAISに基づくシミュレーションにおいて、経路追従とCOLREG準拠の衝突回避を動的に補間する。

Autonomous systems are becoming ubiquitous and gaining momentum within the marine sector. Since the electrification of transport is happening simultaneously, autonomous marine vessels can reduce environmental impact, lower costs, and increase efficiency. Although close monitoring is still required to ensure safety, the ultimate goal is full autonomy. One major milestone is to develop a control system that is versatile enough to handle any weather and encounter that is also robust and reliable. Additionally, the control system must adhere to the International Regulations for Preventing Collisions at Sea (COLREGs) for successful interaction with human sailors. Since the COLREGs were written for the human mind to interpret, they are written in ambiguous prose and therefore not machine-readable or verifiable. Due to these challenges and the wide variety of situations to be tackled, classical model-based approaches prove complicated to implement and computationally heavy. Within machine learning (ML), deep reinforcement learning (DRL) has shown great potential for a wide range of applications. The model-free and self-learning properties of DRL make it a promising candidate for autonomous vessels. In this work, a subset of the COLREGs is incorporated into a DRL-based path following and obstacle avoidance system using collision risk theory. The resulting autonomous agent dynamically interpolates between path following and COLREG-compliant collision avoidance in the training scenario, isolated encounter situations, and AIS-based simulations of real-world scenarios.
翻訳日:2021-12-02 15:30:09 公開日:2021-11-30
# ニューラルネットワークとフォグコンピューティングの収束に関する包括的調査

A Comprehensive Survey on the Convergence of Vehicular Social Networks and Fog Computing ( http://arxiv.org/abs/2112.00143v1 )

ライセンス: Link先を確認
Farimasadat Miri, Richard Pazzi(参考訳) 近年、IoTデバイスの数は急速に増加しており、特に遅延に敏感なアプリケーションにおいて、異なるIoTデバイスからの生データを管理、保存、分析、決定するための困難なタスクにつながっている。 車両ネットワーク(VANET)環境では、車両間の切断につながるトポロジーの頻繁な変化により、車両のダイナミックな性質により、現在のオープンな研究課題はさらに困難になる。 この目的のために、5Gインフラストラクチャ上でのクラウドとフォグコンピューティングのコンテキストにおいて、多くの研究が提案されている。 一方、車両間の接続時間を延長することを目的とした様々な研究提案がある。 車両間の接続時間の負担を軽減するために、Vehicular Social Networks (VSNs) が定義された。 本稿ではまず,霧,雲,および5GやSDNなどの関連するパラダイムに関する背景情報と定義について述べる。 次に、Vehicular Social Networks、さまざまなメトリクス、VSNとオンラインソーシャルネットワークの主な違いを紹介する。 最後に,霧計算における様々な問題に対処するための異なるアーキテクチャを実証したVANETの文脈における関連する研究について検討する。 さらに、異なるアプローチの分類を提供し、霧と雲の文脈で必要なメトリクスを議論し、それらをVehicularのソーシャルネットワークと比較する。 関連する研究の比較と、vsnsとフォグコンピューティングの領域における新たな研究課題とトレンドについて論じる。

In recent years, the number of IoT devices has been growing fast which leads to a challenging task for managing, storing, analyzing, and making decisions about raw data from different IoT devices, especially for delay-sensitive applications. In a vehicular network (VANET) environment, the dynamic nature of vehicles makes the current open research issues even more challenging due to the frequent topology changes that can lead to disconnections between vehicles. To this end, a number of research works have been proposed in the context of cloud and fog computing over the 5G infrastructure. On the other hand, there are a variety of research proposals that aim to extend the connection time between vehicles. Vehicular Social Networks (VSNs) have been defined to decrease the burden of connection time between the vehicles. This survey paper first provides the necessary background information and definitions about fog, cloud and related paradigms such as 5G and SDN. Then, it introduces the reader to Vehicular Social Networks, the different metrics and the main differences between VSNs and Online Social Networks. Finally, this survey investigates the related works in the context of VANETs that have demonstrated different architectures to address the different issues in fog computing. Moreover, it provides a categorization of the different approaches and discusses the required metrics in the context of fog and cloud and compares them to Vehicular social networks. A comparison of the relevant related works is discussed along with new research challenges and trends in the domain of VSNs and fog computing.
翻訳日:2021-12-02 15:29:45 公開日:2021-11-30
# SpaceEdit: オープンドメインイメージ編集のための統一編集スペースを学ぶ

SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Editing ( http://arxiv.org/abs/2112.00180v1 )

ライセンス: Link先を確認
Jing Shi, Ning Xu, Haitian Zheng, Alex Smith, Jiebo Luo, Chenliang Xu(参考訳) 近年、大規模な事前学習モデル(BERT、StyleGAN、CLIP)は、ドメイン内の様々な下流タスクにおいて、優れた知識伝達と一般化能力を示している。 そこで本研究では,オープンドメイン画像の色の調整とトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。 我々のモデルは、多くの既存の写真編集ソフトウェアで使われている操作空間(コントラスト、明るさ、色曲線など)よりも意味的で直感的で操作が容易な統合編集空間を学習する。 本モデルは画像エンコーダとデコーダで構成される画像から画像への変換フレームワークに属し,前と後の画像のペアで学習し,マルチモーダル出力を生成する。 学習した編集空間の潜在コードに画像ペアを反転させることにより、言語案内画像編集、パーソナライズ編集、編集スタイルのクラスタリング、検索など、下流の様々な編集タスクに利用できることを示す。 実験において,編集空間の独特な特性を広範囲に研究し,上記課題において優れた性能を示す。

Recently, large pretrained models (e.g., BERT, StyleGAN, CLIP) have shown great knowledge transfer and generalization capability on various downstream tasks within their domains. Inspired by these efforts, in this paper we propose a unified model for open-domain image editing focusing on color and tone adjustment of open-domain images while keeping their original content and structure. Our model learns a unified editing space that is more semantic, intuitive, and easy to manipulate than the operation space (e.g., contrast, brightness, color curve) used in many existing photo editing softwares. Our model belongs to the image-to-image translation framework which consists of an image encoder and decoder, and is trained on pairs of before- and after-images to produce multimodal outputs. We show that by inverting image pairs into latent codes of the learned editing space, our model can be leveraged for various downstream editing tasks such as language-guided image editing, personalized editing, editing-style clustering, retrieval, etc. We extensively study the unique properties of the editing space in experiments and demonstrate superior performance on the aforementioned tasks.
翻訳日:2021-12-02 15:26:41 公開日:2021-11-30
# フレキシブルレゾリューションのための光電場入射表現

Light Field Implicit Representation for Flexible Resolution Reconstruction ( http://arxiv.org/abs/2112.00185v1 )

ライセンス: Link先を確認
Paramanand Chandramouli, Hendrik Sommerhoff, Andreas Kolb(参考訳) トレーニングニューラルネットワークを用いた信号の暗黙的表現の最近の進歩に触発されて,狭義の4D光場に対する連続表現の学習を目指す。 入力ビューのスパース集合を条件とした4次元光場に対する暗黙表現モデルを提案する。 本モデルは,連続的なクエリ空間角座標の光場値を出力するように訓練されている。 入力ビューのスパースセットが与えられた場合、フレキシブルな因子によって空間領域と角領域の両方の入力を超解ける。 特徴抽出器とデコーダで構成され、ライトフィールドパッチのデータセットでトレーニングされる。 feature extractorは、入力ビューからピクセル単位の機能をキャプチャする。 これらの機能は所望の空間分解能にリサイズでき、クエリ座標と共にデコーダに供給される。 この定式化により、任意の所望の空間的および角的解像度で光界ビューを再構築することができる。 さらに、我々のネットワークは、入力ビューが低解像度または欠落ピクセルのいずれかであるシナリオを処理できる。 実験により,本手法は高速かつ高速な視線合成作業において,最先端の性能を実現することを示す。

Inspired by the recent advances in implicitly representing signals with trained neural networks, we aim to learn a continuous representation for narrow-baseline 4D light fields. We propose an implicit representation model for 4D light fields which is conditioned on a sparse set of input views. Our model is trained to output the light field values for a continuous range of query spatio-angular coordinates. Given a sparse set of input views, our scheme can super-resolve the input in both spatial and angular domains by flexible factors. consists of a feature extractor and a decoder which are trained on a dataset of light field patches. The feature extractor captures per-pixel features from the input views. These features can be resized to a desired spatial resolution and fed to the decoder along with the query coordinates. This formulation enables us to reconstruct light field views at any desired spatial and angular resolution. Additionally, our network can handle scenarios in which input views are either of low-resolution or with missing pixels. Experiments show that our method achieves state-of-the-art performance for the task of view synthesis while being computationally fast.
翻訳日:2021-12-02 15:26:21 公開日:2021-11-30
# 本格的な引数検索に向けて:非構造化テキストから引数を抽出・クラスタリングするためのフレームワーク

Towards Full-Fledged Argument Search: A Framework for Extracting and Clustering Arguments from Unstructured Text ( http://arxiv.org/abs/2112.00160v1 )

ライセンス: Link先を確認
Michael F\"arber, Anna Steyer(参考訳) Argument Searchは自然言語テキスト中の引数を識別することを目的としている。 これまで,このタスクはキーワード検索と文や文書レベルでの引数識別の組み合わせによって対処されてきた。 しかし、既存のフレームワークは、引数検索の特定のコンポーネントのみに対処し、以下の側面に対処しないことが多い。(1) 引数クエリマッチング: 実際の検索クエリと少し異なるトピックを囲む引数の識別 (2) 引数識別: 複数の文からなる引数の識別 (3) 引数クラスタリング: トピックのアスペクトによる検索引数の選択。 本稿では,これらの欠点に対処するためのフレームワークを提案する。 提案手法は,(1) キーワード検索と,(2) 文レベルのシーケンシャルラベルによる引数の同定,(3) トピック認識型引数クラスタリングに基づくユーザへの集約された引数提示という,新しいアプローチを適用することである。 HDBSCANのような密度に基づくクラスタリングアルゴリズムが特に議論クエリマッチングに適していることを示す。 文レベルのBiLSTMに基づくシーケンスラベル手法により,マクロF1スコアは0.71。 最後に,議論クラスタリング手法の評価は,サブトピックによる議論のきめ細かいクラスタリングが依然として難しいが,検討する価値があることを示している。

Argument search aims at identifying arguments in natural language texts. In the past, this task has been addressed by a combination of keyword search and argument identification on the sentence- or document-level. However, existing frameworks often address only specific components of argument search and do not address the following aspects: (1) argument-query matching: identifying arguments that frame the topic slightly differently than the actual search query; (2) argument identification: identifying arguments that consist of multiple sentences; (3) argument clustering: selecting retrieved arguments by topical aspects. In this paper, we propose a framework for addressing these shortcomings. We suggest (1) to combine the keyword search with precomputed topic clusters for argument-query matching, (2) to apply a novel approach based on sentence-level sequence-labeling for argument identification, and (3) to present aggregated arguments to users based on topic-aware argument clustering. Our experiments on several real-world debate data sets demonstrate that density-based clustering algorithms, such as HDBSCAN, are particularly suitable for argument-query matching. With our sentence-level, BiLSTM-based sequence-labeling approach we achieve a macro F1 score of 0.71. Finally, evaluating our argument clustering method indicates that a fine-grained clustering of arguments by subtopics remains challenging but is worthwhile to be explored.
翻訳日:2021-12-02 14:52:14 公開日:2021-11-30
# Pixelated Butterfly:ニューラルネットワークモデルのためのシンプルで効率的なスパーストレーニング

Pixelated Butterfly: Simple and Efficient Sparse training for Neural Network Models ( http://arxiv.org/abs/2112.00029v1 )

ライセンス: Link先を確認
Beidi Chen, Tri Dao, Kaizhao Liang, Jiaming Yang, Zhao Song, Atri Rudra, Christopher Re(参考訳) 過パラメータニューラルネットワークはよく一般化するが、トレーニングには費用がかかる。 理想的には、一般化の利点を保ちながら計算コストを削減したい。 スパースモデルトレーニング(sparse model training)は、これを実現するためのシンプルで有望なアプローチだが、既存のメソッドが精度の喪失、遅いトレーニングランタイム、すべてのモデルコンポーネントのスパース化の困難に苦しむため、依然として課題がある。 中心となる問題は、疎行列の離散集合上のスパーシティマスクの探索が困難で費用がかかることである。 これを解決するために、我々は蝶行列の積として知られる固定された構造を持つスパース行列の連続的なスーパーセットを最適化する。 蝶行列はハードウェア効率が良くないため,現代のハードウェアを活用するため,バタフライの単純な変種(ブロックとフラット)を提案する。 我々の手法(Pixelated Butterfly)は、フラットブロックバタフライと低ランク行列をベースとした単純な固定空間パターンを用いて、ほとんどのネットワーク層(注意, MLP)をスパース化する。 Pixelated Butterflyはバタフライより3倍速く、トレーニングをスピードアップし、良好な精度、効率のトレードオフを実現しています。 ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは、精度の低下のない高密度MLP-Mixer、Vision Transformer、GPT-2メディアよりも2.5倍高速にトレーニングする。

Overparameterized neural networks generalize well but are expensive to train. Ideally, one would like to reduce their computational cost while retaining their generalization benefits. Sparse model training is a simple and promising approach to achieve this, but there remain challenges as existing methods struggle with accuracy loss, slow training runtime, or difficulty in sparsifying all model components. The core problem is that searching for a sparsity mask over a discrete set of sparse matrices is difficult and expensive. To address this, our main insight is to optimize over a continuous superset of sparse matrices with a fixed structure known as products of butterfly matrices. As butterfly matrices are not hardware efficient, we propose simple variants of butterfly (block and flat) to take advantage of modern hardware. Our method (Pixelated Butterfly) uses a simple fixed sparsity pattern based on flat block butterfly and low-rank matrices to sparsify most network layers (e.g., attention, MLP). We empirically validate that Pixelated Butterfly is 3x faster than butterfly and speeds up training to achieve favorable accuracy--efficiency tradeoffs. On the ImageNet classification and WikiText-103 language modeling tasks, our sparse models train up to 2.5x faster than the dense MLP-Mixer, Vision Transformer, and GPT-2 medium with no drop in accuracy.
翻訳日:2021-12-02 14:51:50 公開日:2021-11-30
# Wasserstein距離を用いた高速トポロジカルクラスタリング

Fast Topological Clustering with Wasserstein Distance ( http://arxiv.org/abs/2112.00101v1 )

ライセンス: Link先を確認
Tananun Songdechakraiwut, Bryan M. Krause, Matthew I. Banks, Kirill V. Nourski and Barry D. Van Veen(参考訳) 多くの実世界のネットワークが示すトポロジカルパターンは、ネットワークの類似性を評価するトポロジに基づく手法の開発を動機付けている。 しかし、特にノード次数が数桁を超える大規模で高密度なネットワークでは、位相構造を抽出することは困難である。 本稿では,永続的ホモロジーと最適輸送の原理的理論を用いて複雑なトポロジを持つ複雑なネットワークをクラスタリングする,新しい,実用的なトポロジクラスタリング手法を提案する。 このようなネットワークは、そのトポロジカル構造と幾何学的構造の両方に基づいて、セントロイドベースのクラスタリング戦略を通じてクラスタに集約され、異なるネットワークのノード間の対応を保つ。 位相的近接と遠心の概念は、結合したコンポーネントやサイクルに関連する永続バーコードに対するwasserstein距離とbarycenterの計算に新しく効率的なアプローチを用いて特徴づけられる。 提案手法は,シミュレーションネットワークと機能的脳ネットワークの両方を用いて有効であることを示した。

The topological patterns exhibited by many real-world networks motivate the development of topology-based methods for assessing the similarity of networks. However, extracting topological structure is difficult, especially for large and dense networks whose node degrees range over multiple orders of magnitude. In this paper, we propose a novel and computationally practical topological clustering method that clusters complex networks with intricate topology using principled theory from persistent homology and optimal transport. Such networks are aggregated into clusters through a centroid-based clustering strategy based on both their topological and geometric structure, preserving correspondence between nodes in different networks. The notions of topological proximity and centroid are characterized using a novel and efficient approach to computation of the Wasserstein distance and barycenter for persistence barcodes associated with connected components and cycles. The proposed method is demonstrated to be effective using both simulated networks and measured functional brain networks.
翻訳日:2021-12-02 14:51:23 公開日:2021-11-30
# 言語モデルを用いた中間計算のためのscratchpads

Show Your Work: Scratchpads for Intermediate Computation with Language Models ( http://arxiv.org/abs/2112.00114v1 )

ライセンス: Link先を確認
Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, Augustus Odena(参考訳) 大規模な事前学習された言語モデルは、現実的なテキストの生成やコンピュータプログラムの合成など、"1パスで"実行"できるタスクで非常によく機能します。 しかし、整数の追加やプログラムの実行など、非有界なマルチステップ計算を必要とするタスクに苦労する。 驚いたことに、これらのモデルが、中間計算の結果を示す「ステップ・バイ・ステップ」を実行するように要求された場合に、複雑なマルチステップ計算を実行できることがわかった。 特に,中間計算ステップを"スクラッチパッド"に出力することで,多段階計算を行うようトランスフォーマーを訓練する。 プログラムの長い追加から任意のプログラムの実行に至るまでの一連の複雑なタスクにおいて、スクラッチパッドは言語モデルがマルチステップ計算を行う能力を大幅に向上することを示す。

Large pre-trained language models perform remarkably well on tasks that can be done "in one pass", such as generating realistic text or synthesizing computer programs. However, they struggle with tasks that require unbounded multi-step computation, such as adding integers or executing programs. Surprisingly, we find that these same models are able to perform complex multi-step computations -- even in the few-shot regime -- when asked to perform the operation "step by step", showing the results of intermediate computations. In particular, we train transformers to perform multi-step computations by asking them to emit intermediate computation steps into a "scratchpad". On a series of increasingly complex tasks ranging from long addition to the execution of arbitrary programs, we show that scratchpads dramatically improve the ability of language models to perform multi-step computations.
翻訳日:2021-12-02 14:51:08 公開日:2021-11-30
# 音響誘導セマンティック画像マニピュレーション

Sound-Guided Semantic Image Manipulation ( http://arxiv.org/abs/2112.00007v1 )

ライセンス: Link先を確認
Seung Hyun Lee, Wonseok Roh, Wonmin Byeon, Sang Ho Yoon, Chan Young Kim, Jinkyu Kim, Sangpil Kim(参考訳) 最近の生成モデルの成功は、マルチモーダル埋め込み空間を活用することで、テキスト情報を使って画像を操作できることを示している。 しかし, 音源のダイナミックな特性から, 音声などのテキストではなく, 画像を操作することは容易ではない。 特に、音は実世界の鮮明な感情と動的表現を伝達することができる。 本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間に符号化し,空間から画像を操作するフレームワークを提案する。 オーディオエンコーダは音声入力から潜在表現を生成するよう訓練されており、マルチモーダル埋め込み空間における画像やテキスト表現と整合せざるを得ない。 音響誘導画像操作のためのアライメント埋め込みに基づく直接潜時最適化手法を用いる。 また,本手法はテキストとオーディオのモダリティを混合し,画像修正の多様性を向上することを示す。 音響誘導画像操作の有効性を定量的に定性的に検証する。 また,本手法は,様々なモダリティ,すなわちテキストと音声を混在させることで,画像修正の多様性を増すことを示す。 ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。

The recent success of the generative model shows that leveraging the multi-modal embedding space can manipulate an image using text information. However, manipulating an image with other sources rather than text, such as sound, is not easy due to the dynamic characteristics of the sources. Especially, sound can convey vivid emotions and dynamic expressions of the real world. Here, we propose a framework that directly encodes sound into the multi-modal (image-text) embedding space and manipulates an image from the space. Our audio encoder is trained to produce a latent representation from an audio input, which is forced to be aligned with image and text representations in the multi-modal embedding space. We use a direct latent optimization method based on aligned embeddings for sound-guided image manipulation. We also show that our method can mix text and audio modalities, which enrich the variety of the image modification. We verify the effectiveness of our sound-guided image manipulation quantitatively and qualitatively. We also show that our method can mix different modalities, i.e., text and audio, which enrich the variety of the image modification. The experiments on zero-shot audio classification and semantic-level image classification show that our proposed model outperforms other text and sound-guided state-of-the-art methods.
翻訳日:2021-12-02 14:39:50 公開日:2021-11-30
# LiDAR 3Dオブジェクト検出のためのパターン認識データ拡張

Pattern-Aware Data Augmentation for LiDAR 3D Object Detection ( http://arxiv.org/abs/2112.00050v1 )

ライセンス: Link先を確認
Jordan S.K. Hu, Steven L. Waslander(参考訳) 自律運転データセットは、しばしばスキューされ、特にエゴ車から遠く離れた物体の訓練データがない。 データの不均衡は、検出されたオブジェクトの距離が増加するにつれて性能低下を引き起こす。 本稿では,lidarの特性に基づいて物体の点雲をダウンサンプリングするデータ拡張手法である,パターン認識基底真理サンプリングを提案する。 具体的には、奥行きの物体に発生する自然変化点パターンの変動を模倣し、遠距離のサンプルをシミュレートする。 したがって、ネットワークはより多様なトレーニング例を持ち、より効率的な物体検出に一般化することができる。 我々は,点除去法や摂動法を用いる既存のデータ拡張手法に対して評価を行い,提案手法がそれらすべてを上回ることを確認した。 さらに, 等元素APビンを用いて距離の異なる3次元物体検出器の性能評価を行う。 自動車クラスにおけるPV-RCNNの性能は,25m以上の距離で分割したKITTI検証で0.7%以上向上した。

Autonomous driving datasets are often skewed and in particular, lack training data for objects at farther distances from the ego vehicle. The imbalance of data causes a performance degradation as the distance of the detected objects increases. In this paper, we propose pattern-aware ground truth sampling, a data augmentation technique that downsamples an object's point cloud based on the LiDAR's characteristics. Specifically, we mimic the natural diverging point pattern variation that occurs for objects at depth to simulate samples at farther distances. Thus, the network has more diverse training examples and can generalize to detecting farther objects more effectively. We evaluate against existing data augmentation techniques that use point removal or perturbation methods and find that our method outperforms all of them. Additionally, we propose using equal element AP bins to evaluate the performance of 3D object detectors across distance. We improve the performance of PV-RCNN on the car class by more than 0.7 percent on the KITTI validation split at distances greater than 25 m.
翻訳日:2021-12-02 14:38:44 公開日:2021-11-30
# TALISMAN:サブモジュール相互情報を用いた希少クラスとスライスによる物体検出のためのアクティブ学習

TALISMAN: Targeted Active Learning for Object Detection with Rare Classes and Slices using Submodular Mutual Information ( http://arxiv.org/abs/2112.00166v1 )

ライセンス: Link先を確認
Suraj Kothawade, Saikat Ghosh, Sumit Shekhar, Yu Xiang, Rishabh Iyer(参考訳) ディープニューラルネットワークに基づくオブジェクト検出器は、自動運転車やバイオメディカルイメージングなど、さまざまな領域で大きな成功を収めている。 彼らの成功は、関心領域からの大量のデータに依存することが知られている。 ディープモデルは全体的な精度でよく機能するが、稀に重要なデータスライスのパフォーマンスに苦戦することが多い。 例えば、"motorcycle at night"や"bicycle at night"といったデータスライスは珍しくないが、自動運転アプリケーションにとって非常に重要なスライスであり、そのようなまれなスライスに対する偽陰性は、不適切な障害や事故を引き起こす可能性がある。 アクティブラーニング(AL)は、ループ内の人間とトレーニングデータセットを漸進的かつ適応的に構築する、よく知られたパラダイムである。 しかし、現在のALベースの取得関数は、画像の不確実性スコアやグローバルディスクリプタに基づいており、稀なスライスで現実世界のデータセットに取り組むには適していない。 本稿では,サブモジュラー相互情報を用いた希少なスライスを用いた,アクティブラーニングや物体検出のための新しいフレームワーク talisman を提案する。 本手法では,関心領域(roi)の特徴を用いてインスタンス化したサブモジュラー相互情報関数を用いて,レアスライスのデータポイントを効率的に対象とし取得する。 当社のフレームワークは,pascal voc07+12とbdd100kという,実世界の自動運転データセット上で評価しています。 我々は,まれなスライスの平均精度およびmAPで,TALISMANが他の手法よりも優れていることを観察した。

Deep neural networks based object detectors have shown great success in a variety of domains like autonomous vehicles, biomedical imaging, etc. It is known that their success depends on a large amount of data from the domain of interest. While deep models often perform well in terms of overall accuracy, they often struggle in performance on rare yet critical data slices. For example, data slices like "motorcycle at night" or "bicycle at night" are often rare but very critical slices for self-driving applications and false negatives on such rare slices could result in ill-fated failures and accidents. Active learning (AL) is a well-known paradigm to incrementally and adaptively build training datasets with a human in the loop. However, current AL based acquisition functions are not well-equipped to tackle real-world datasets with rare slices, since they are based on uncertainty scores or global descriptors of the image. We propose TALISMAN, a novel framework for Targeted Active Learning or object detectIon with rare slices using Submodular MutuAl iNformation. Our method uses the submodular mutual information functions instantiated using features of the region of interest (RoI) to efficiently target and acquire data points with rare slices. We evaluate our framework on the standard PASCAL VOC07+12 and BDD100K, a real-world self-driving dataset. We observe that TALISMAN outperforms other methods by in terms of average precision on rare slices, and in terms of mAP.
翻訳日:2021-12-02 14:38:30 公開日:2021-11-30
# タスク2Sim : 効率的な事前学習と合成データ転送を目指して

Task2Sim : Towards Effective Pre-training and Transfer from Synthetic Data ( http://arxiv.org/abs/2112.00054v1 )

ライセンス: Link先を確認
Samarth Mishra, Rameswar Panda, Cheng Perng Phoo, Chun-Fu Chen, Leonid Karlinsky, Kate Saenko, Venkatesh Saligrama, Rogerio S. Feris(参考訳) Imagenetや他の実画像の大規模なデータセットの事前トレーニングモデルは、キュレーションコスト、プライバシ、使用権、倫理的問題に関連する欠点を伴って、コンピュータビジョンに大きな進歩をもたらした。 本稿では,グラフィックスシミュレータが生成する合成データから,異なる領域のダウンストリームタスクへの事前学習モデルの転送可能性について初めて検討する。 このような合成データを用いて事前学習を行うことで,シミュレーションパラメータの異なる構成(照明,物体のポーズ,背景など)によって異なるタスクのダウンストリーム性能が好まれると同時に,単サイズのソリューションが存在しないことが分かった。 したがって、最適なパフォーマンスのために、特定の下流タスクに合成事前トレーニングデータを調整した方がよい。 我々は,下流タスク表現を最適シミュレーションパラメータにマッピングして合成事前学習データを生成する統合モデルであるtask2simを提案する。 Task2Simはトレーニングによってこのマッピングを学び、"seen"タスクのセットで最適なパラメータのセットを見つけます。 一度トレーニングすれば、追加のトレーニングを必要とせずに、新しい"unseen"タスクの最適なシミュレーションパラメータを1ショットで予測することができる。 20種類のダウンストリームタスクによる大規模な実験では、Task2Simのタスク適応型事前学習データにより、表示されたタスクと見えないタスクのシミュレーションパラメータを非適応的に選択するよりも、ダウンストリームのパフォーマンスが大幅に向上した。 imagenetからの実際のイメージの事前トレーニングとも競合する。

Pre-training models on Imagenet or other massive datasets of real images has led to major advances in computer vision, albeit accompanied with shortcomings related to curation cost, privacy, usage rights, and ethical issues. In this paper, for the first time, we study the transferability of pre-trained models based on synthetic data generated by graphics simulators to downstream tasks from very different domains. In using such synthetic data for pre-training, we find that downstream performance on different tasks are favored by different configurations of simulation parameters (e.g. lighting, object pose, backgrounds, etc.), and that there is no one-size-fits-all solution. It is thus better to tailor synthetic pre-training data to a specific downstream task, for best performance. We introduce Task2Sim, a unified model mapping downstream task representations to optimal simulation parameters to generate synthetic pre-training data for them. Task2Sim learns this mapping by training to find the set of best parameters on a set of "seen" tasks. Once trained, it can then be used to predict best simulation parameters for novel "unseen" tasks in one shot, without requiring additional training. Given a budget in number of images per class, our extensive experiments with 20 diverse downstream tasks show Task2Sim's task-adaptive pre-training data results in significantly better downstream performance than non-adaptively choosing simulation parameters on both seen and unseen tasks. It is even competitive with pre-training on real images from Imagenet.
翻訳日:2021-12-02 14:03:58 公開日:2021-11-30
# pix2pixHDによる糖尿病性下腿潰瘍の感染・虚血分類におけるPseudo-LabelsとSynthetic Imagesによる効率向上

Boosting EfficientNets Ensemble Performance via Pseudo-Labels and Synthetic Images by pix2pixHD for Infection and Ischaemia Classification in Diabetic Foot Ulcers ( http://arxiv.org/abs/2112.00065v1 )

ライセンス: Link先を確認
Louise Bloch, Raphael Br\"ungel, Christoph M. Friedrich(参考訳) 糖尿病性足潰瘍は糖尿病の長期合併症として発症した糖尿病性足部病変の共通症状である。 神経障害と血管障害を伴い、虚血による血圧障害と組織死の獲得を促進する。 感染した地域は感染しやすく、治癒の進行を妨げる。 本研究は,2021年糖尿病足部潰瘍チャレンジ(DFUC)の一環として実施した感染症と虚血の分類について検討した。 EfficientNetファミリーの異なるモデルがアンサンブルで使用される。 トレーニングデータの拡張戦略を適用し、ラベルなし画像の擬似ラベル作成とpix2pixhdによる広範な合成画像の生成を行い、厳しいクラス不均衡に対処する。 その結果得られた拡張トレーニングデータセットは、ベースラインのサイズの8.68ドルであり、実画像と合成画像の比率は1:3$である。 ベースラインと拡張トレーニングデータセットでトレーニングされたモデルとアンサンブルのパフォーマンスを比較した。 合成画像は幅広い質的多様性を特徴とする。 結果は、拡張トレーニングデータセットでトレーニングされたモデルと、大規模な拡張によるアンサンブルのメリットを示している。 希少クラスのF1スコアは顕著な上昇を受け、普通クラスのスコアは中等度に上昇しない。 批判的な議論は利点を増し、制限を特定し、改善を提案する。 この研究は、合成画像を用いて個々のモデルの分類性能とアンサンブルの分類性能を高めることができると結論づけている。 特にレアクラスのパフォーマンスは特に有益である。

Diabetic foot ulcers are a common manifestation of lesions on the diabetic foot, a syndrome acquired as a long-term complication of diabetes mellitus. Accompanying neuropathy and vascular damage promote acquisition of pressure injuries and tissue death due to ischaemia. Affected areas are prone to infections, hindering the healing progress. The research at hand investigates an approach on classification of infection and ischaemia, conducted as part of the Diabetic Foot Ulcer Challenge (DFUC) 2021. Different models of the EfficientNet family are utilized in ensembles. An extension strategy for the training data is applied, involving pseudo-labeling for unlabeled images, and extensive generation of synthetic images via pix2pixHD to cope with severe class imbalances. The resulting extended training dataset features $8.68$ times the size of the baseline and shows a real to synthetic image ratio of $1:3$. Performances of models and ensembles trained on the baseline and extended training dataset are compared. Synthetic images featured a broad qualitative variety. Results show that models trained on the extended training dataset as well as their ensemble benefit from the large extension. F1-Scores for rare classes receive outstanding boosts, while those for common classes are either not harmed or boosted moderately. A critical discussion concretizes benefits and identifies limitations, suggesting improvements. The work concludes that classification performance of individual models as well as that of ensembles can be boosted utilizing synthetic images. Especially performance for rare classes benefits notably.
翻訳日:2021-12-02 14:03:29 公開日:2021-11-30
# CLIP を用いた "Guess Who?" ゲームの実装

An implementation of the "Guess who?" game using CLIP ( http://arxiv.org/abs/2112.00599v1 )

ライセンス: Link先を確認
Arnau Mart\'i Sarri, Victor Rodriguez-Fernandez(参考訳) CLIP(Contrastive Language-Image Pretraining)は、自然言語の監視からコンピュータビジョンタスクを学習するための効率的な方法である。 インターネット上で利用可能な画像テキストペアからトレーニングすることにより、CLIPモデルは、データセット固有のトレーニングを必要とせずに、ほとんどのタスクに自明に転送する。 本研究では,CLIPを用いて人気ゲーム「Guess Who?」のエンジンを実装し,プレイヤーが自然言語プロンプトを用いてゲームと対話し,ゲームボード内の画像がそのプロンプトを満たすか否かを自動的に決定する。 我々は,このアプローチの性能を,質問をクリップに促す方法の異なるベンチマークによって検証し,ゼロショットキャパビライトの限界を示す。

CLIP (Contrastive Language-Image Pretraining) is an efficient method for learning computer vision tasks from natural language supervision that has powered a recent breakthrough in deep learning due to its zero-shot transfer capabilities. By training from image-text pairs available on the internet, the CLIP model transfers non-trivially to most tasks without the need for any data set specific training. In this work, we use CLIP to implement the engine of the popular game "Guess who?", so that the player interacts with the game using natural language prompts and CLIP automatically decides whether an image in the game board fulfills that prompt or not. We study the performance of this approach by benchmarking on different ways of prompting the questions to CLIP, and show the limitations of its zero-shot capabilites.
翻訳日:2021-12-02 13:59:13 公開日:2021-11-30
# 機械学習モデル学習のための固有勾配情報の活用

Leveraging Intrinsic Gradient Information for Machine Learning Model Training ( http://arxiv.org/abs/2112.00094v1 )

ライセンス: Link先を確認
Chris McDonagh, Xi Chen(参考訳) 正確な予測を生成するモデルの設計は、機械学習の基本的な目的である。 本研究は、対象変数の入力に対する導出が興味のあるプロセスから抽出できる場合、微分可能な機械学習モデルの精度を向上させるために活用できることを示す手法を提案する。 1)線形回帰モデルとフィードフォワードニューラルネットワーク(NN)の予測精度の向上,(2)勾配情報と非勾配情報との差を利用してNNの複雑性を調節する(隠れノード数),(3)勾配情報を用いて線形回帰を正規化する,(4)勾配情報を用いて生成画像モデルを改善する,の4つの主要なアイデアが検討されている。 この多様なアプリケーションを通して、勾配情報は各予測モデルを強化し、様々なアプリケーションでその価値を示すことが示される。

Designing models that produce accurate predictions is the fundamental objective of machine learning. This work presents methods demonstrating that when the derivatives of target variables with respect to inputs can be extracted from processes of interest, they can be leveraged to improve the accuracy of differentiable machine learning models. Four key ideas are explored: (1) Improving the predictive accuracy of linear regression models and feed-forward neural networks (NNs); (2) Using the difference between the performance of feedforward NNs trained with and without gradient information to tune NN complexity (in the form of hidden node number); (3) Using gradient information to regularise linear regression; and (4) Using gradient information to improve generative image models. Across this variety of applications, gradient information is shown to enhance each predictive model, demonstrating its value for a variety of applications.
翻訳日:2021-12-02 13:34:58 公開日:2021-11-30
# Dyna-bAbI:動的合成ベンチマークによるbAbIのロック解除の可能性

Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic benchmarking ( http://arxiv.org/abs/2112.00086v1 )

ライセンス: Link先を確認
Ronen Tamari, Kyle Richardson, Aviad Sar-Shalom, Noam Kahlon, Nelson Liu, Reut Tsarfaty, Dafna Shahaf(参考訳) ニューラルネットワークモデルは、自然言語理解(NLU)タスクにおいて驚くほどよく機能するが、その強みと限界はよく理解されていない。 したがって、制御された合成タスクはモデル行動の診断にますます重要なリソースとなる。 本研究では,NLUシステムのコアコンピテンシーであるストーリ理解に焦点を当てる。 しかし、ストーリー理解のための主要な合成資源であるbAbIベンチマークは、制御可能なタスク生成のための体系的なメカニズムを欠いている。 我々は,bAbIにおけるタスク生成のきめ細かい制御を実現する動的フレームワークDyna-bAbIを開発した。 我々は,構成の一般化を必要とする3つの新しいタスクを構築することにより,本手法を実証する。 我々は,bAbI向けに開発された特殊目的モデルと最先端の事前訓練手法の両方を試験し,両手法が元の課題(>99%の精度)を解く一方で,いずれの手法も構成的一般化設定に成功せず,元の訓練データの限界を示した。 トレーニングデータの多様化は、単にデータセットのサイズを拡大するよりもはるかに有用であったが、頑健な構成一般化(複雑な合成に対して70%の精度で)を駆動するには不十分であることがわかった。 この結果から,モデルとデータ開発を多用した堅牢なNLUシステム構築における,高度に制御可能なタスクジェネレータの重要性が示唆された。

While neural language models often perform surprisingly well on natural language understanding (NLU) tasks, their strengths and limitations remain poorly understood. Controlled synthetic tasks are thus an increasingly important resource for diagnosing model behavior. In this work we focus on story understanding, a core competency for NLU systems. However, the main synthetic resource for story understanding, the bAbI benchmark, lacks such a systematic mechanism for controllable task generation. We develop Dyna-bAbI, a dynamic framework providing fine-grained control over task generation in bAbI. We demonstrate our ideas by constructing three new tasks requiring compositional generalization, an important evaluation setting absent from the original benchmark. We tested both special-purpose models developed for bAbI as well as state-of-the-art pre-trained methods, and found that while both approaches solve the original tasks (>99% accuracy), neither approach succeeded in the compositional generalization setting, indicating the limitations of the original training data. We explored ways to augment the original data, and found that though diversifying training data was far more useful than simply increasing dataset size, it was still insufficient for driving robust compositional generalization (with <70% accuracy for complex compositions). Our results underscore the importance of highly controllable task generators for creating robust NLU systems through a virtuous cycle of model and data development.
翻訳日:2021-12-02 13:30:38 公開日:2021-11-30
# Beyond Flatland: 強力な3Dインダクティブバイアスによる事前トレーニング

Beyond Flatland: Pre-training with a Strong 3D Inductive Bias ( http://arxiv.org/abs/2112.00113v1 )

ライセンス: Link先を確認
Shubhaankar Gupta, Thomas P. O'Connell, Bernhard Egger(参考訳) 自然画像からなる大規模データベース上で事前トレーニングを行い、それらを微調整してアプリケーションに適合させる、あるいはトランスファーラーニングは、コンピュータビジョンにおいて一般的な戦略である。 しかし、2020年に片岡らは、2次元フラクタルをトレーニングコーパスとして生成する新しい合成式に基づく手法を提案し、教師付き深層学習における自然画像の必要性を解消する手法を導入した。 各クラスに1つの合成生成フラクタルを使用して、自然画像で事前学習されたモデルに匹敵する転送学習結果を達成した。 このプロジェクトでは、彼らの仕事からインスピレーションを得て、3d procedural object rendersを使ってこのアイデアを構築します。 自然界における画像形成プロセスはその3次元構造に基づいているため,3次元メッシュレンダリングによる事前学習は,転送学習環境における一般化能力の向上につながる暗黙のバイアスとなり,3次元回転や照明に対する不変性が3次元データに基づいて容易に学習できることを期待する。 従来の作業と同様に、トレーニングコーパスは完全に合成され、単純な手続き戦略から派生します。私たちは、古典的なデータ拡張を超えて、設定で制御可能な照明とポーズを変え、事前作業への文脈での学習能力の移行にその影響について研究します。 さらに、2Dフラクタルと3Dプロシージャオブジェクトネットワークをヒトおよび非ヒト霊長類脳のデータと比較し、生物学的視覚の2Dと3Dの性質についてより深く学ぶ。

Pre-training on large-scale databases consisting of natural images and then fine-tuning them to fit the application at hand, or transfer-learning, is a popular strategy in computer vision. However, Kataoka et al., 2020 introduced a technique to eliminate the need for natural images in supervised deep learning by proposing a novel synthetic, formula-based method to generate 2D fractals as training corpus. Using one synthetically generated fractal for each class, they achieved transfer learning results comparable to models pre-trained on natural images. In this project, we take inspiration from their work and build on this idea -- using 3D procedural object renders. Since the image formation process in the natural world is based on its 3D structure, we expect pre-training with 3D mesh renders to provide an implicit bias leading to better generalization capabilities in a transfer learning setting and that invariances to 3D rotation and illumination are easier to be learned based on 3D data. Similar to the previous work, our training corpus will be fully synthetic and derived from simple procedural strategies; we will go beyond classic data augmentation and also vary illumination and pose which are controllable in our setting and study their effect on transfer learning capabilities in context to prior work. In addition, we will compare the 2D fractal and 3D procedural object networks to human and non-human primate brain data to learn more about the 2D vs. 3D nature of biological vision.
翻訳日:2021-12-02 13:28:14 公開日:2021-11-30
# オープンボキャブラリニューラル推論のための常識知識学習 : 慢性疾患文学への第一歩

Common Sense Knowledge Learning for Open Vocabulary Neural Reasoning: A First View into Chronic Disease Literature ( http://arxiv.org/abs/2111.13781v2 )

ライセンス: Link先を確認
Ignacio Arroyo-Fern\'andez, Jos\'e Armando S\'anchez-Rojas, Arturo Tellez-Vel\'azquez, Flavio Ju\'arez-Mart\'inez, Ra\'ul Cruz-Barbosa, Enrique Guzm\'an-Ram\'irez, Yalbi Itzel Balderas-Mart\'inez(参考訳) 本稿では,最先端ニューラルネットワークモデル(NLM)を用いたオープン語彙知識ベース(openKB)の推論タスクと科学文献への応用について述べる。 この目的のために、自己注意に基づくNLMは、ソースタスクとして常識KBを用いて訓練される。 NLMは、最も一般的な慢性疾患(非感染性疾患、NCDとも呼ばれる)に関連する科学的知識を含むオープン語彙推論タスクのターゲットKBでテストされる。 本研究は,ソースタスクとターゲットタスクの知識推論において,一貫して,かつ有意な性能を持つnlmを同定した。 さらに,検査による分析では,モデルが学習した意味的正則性と推論能力について検討し,ncd研究を支援するアプローチの潜在的メリットについて,最初の知見を示した。

In this paper, we address reasoning tasks from open vocabulary Knowledge Bases (openKBs) using state-of-the-art Neural Language Models (NLMs) with applications in scientific literature. For this purpose, self-attention based NLMs are trained using a common sense KB as a source task. The NLMs are then tested on a target KB for open vocabulary reasoning tasks involving scientific knowledge related to the most prevalent chronic diseases (also known as non-communicable diseases, NCDs). Our results identified NLMs that performed consistently and with significance in knowledge inference for both source and target tasks. Furthermore, in our analysis by inspection we discussed the semantic regularities and reasoning capabilities learned by the models, while showing a first insight into the potential benefits of our approach to aid NCD research.
翻訳日:2021-12-02 13:07:48 公開日:2021-11-30
# オンラインリソースによるアウトオブコンテキスト画像のオープンドメイン・コンテンツベース・マルチモーダルファクトチェック

Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online Resources ( http://arxiv.org/abs/2112.00061v1 )

ライセンス: Link先を確認
Sahar Abdelnabi, Rakibul Hasan, Mario Fritz(参考訳) 私たちの中核的な民主的・社会的価値と秩序に対する潜在的なリスクのため、誤情報は現在大きな問題です。 文脈外誤情報(out-of-context misinformation)は、敵がバイラルな虚偽記事を広めるのに最も簡単かつ効果的な方法の1つである。 この脅威では、実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再使用される。 インターネットは、異なるソースやモダリティを使って情報を検証するための手段として使われています。 我々のゴールは、Webエビデンスを用いた画像キャプチャペアリングの事実チェックによって、この時間と推論集約プロセスを自動化する検査可能な方法である。 両モダリティからエビデンスと手がかりを統合するため、「マルチモーダルサイクル整合性チェック」という概念を導入し,画像・キャプションからテキスト・視覚的エビデンスを収集し,これらを比較検討する。 さらに, 文的証拠に対するキャプション, 視覚的証拠に対するイメージ, キャプション対キャプションという, 同一かつ異なるモダリティにまたがる階層的人間推論を模倣する新しいアーキテクチャ, 一貫性・チェッキングネットワーク(CCN)を提案する。 私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルファクトチェックのための最初のステップとベンチマークを提供し、外部の証拠を活用していない以前のベースラインを大幅に上回っています。

Misinformation is now a major problem due to its potential high risks to our core democratic and societal values and orders. Out-of-context misinformation is one of the easiest and effective ways used by adversaries to spread viral false stories. In this threat, a real image is re-purposed to support other narratives by misrepresenting its context and/or elements. The internet is being used as the go-to way to verify information using different sources and modalities. Our goal is an inspectable method that automates this time-consuming and reasoning-intensive process by fact-checking the image-caption pairing using Web evidence. To integrate evidence and cues from both modalities, we introduce the concept of 'multi-modal cycle-consistency check'; starting from the image/caption, we gather textual/visual evidence, which will be compared against the other paired caption/image, respectively. Moreover, we propose a novel architecture, Consistency-Checking Network (CCN), that mimics the layered human reasoning across the same and different modalities: the caption vs. textual evidence, the image vs. visual evidence, and the image vs. caption. Our work offers the first step and benchmark for open-domain, content-based, multi-modal fact-checking, and significantly outperforms previous baselines that did not leverage external evidence.
翻訳日:2021-12-02 13:03:53 公開日:2021-11-30
# 例順勾配を用いた適応最適化

Adaptive Optimization with Examplewise Gradients ( http://arxiv.org/abs/2112.00174v1 )

ライセンス: Link先を確認
Julius Kunze, James Townsend, David Barber(参考訳) 本稿では,機械学習のための確率勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。 この新しいフレームワークでは、オプティマイザは単一の見積もりではなく、イテレーション毎の勾配推定のバッチへのアクセスを想定している。 これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。 この一般化されたアプローチの有用性を示すために、より正確な第二モーメント推定を得るために、例的に勾配を用いたアダム最適化器の適応であるEveを開発した。 我々は、ハイパーパラメータチューニングを使わずに予備実験を行い、新しいオプティマイザが小さなベンチマークでAdamをわずかに上回り、より大規模なベンチマークで同じか悪い結果を示す。 アルゴリズムを洗練し、ハイパーパラメータをチューニングするために、さらなる作業が必要である。

We propose a new, more general approach to the design of stochastic gradient-based optimization methods for machine learning. In this new framework, optimizers assume access to a batch of gradient estimates per iteration, rather than a single estimate. This better reflects the information that is actually available in typical machine learning setups. To demonstrate the usefulness of this generalized approach, we develop Eve, an adaptation of the Adam optimizer which uses examplewise gradients to obtain more accurate second-moment estimates. We provide preliminary experiments, without hyperparameter tuning, which show that the new optimizer slightly outperforms Adam on a small scale benchmark and performs the same or worse on larger scale benchmarks. Further work is needed to refine the algorithm and tune hyperparameters.
翻訳日:2021-12-02 13:03:11 公開日:2021-11-30
# (参考訳) va医療システムにおける毎日のcovid-19関連コールの予測--予測モデル開発

Forecasting Daily COVID-19 Related Calls in VA Health Care System: Predictive Model Development ( http://arxiv.org/abs/2111.13980v2 )

ライセンス: CC BY 4.0
Weipeng Zhou, Ryan J. Laundry, Paul L. Hebert, Gang Luo(参考訳) 背景:covid-19は世界中で課題となり、医療資源の適切な計画がcovid-19対策の鍵となっている。 アメリカ退役軍人保健医療システム(VA)では、多くの入学者が新型コロナウイルスに罹患している。 新型コロナウイルス(COVID-19)が医療資源の割り当てを急ぐことが重要な問題となっている。 VA登録者が新型コロナウイルスの症状を患う場合、その最初のステップはVAコールセンターを呼び出すことだと推奨されている。 感染が確認された患者は、最初の症状から入院までの中央値は7日間であった。 新型コロナウイルス関連の電話の数を予測することで、医療利用の急激な急増を予測し、今後の医療資源を計画できる。 目的: 本研究の目的は, 医療センター110カ所の1日当たりの新型コロナウイルス関連呼出数を予測する方法の開発である。 方法: 提案手法では, 医療センターのクラスタを用いてモデルを事前訓練し, 個別の医療センター向けに微調整した。 クラスタレベルでは,重要な特徴の選択とハイパーパラメータの自動探索を行い,モデルに最適なハイパーパラメータ値の組み合わせを選択する。 結論:本研究は,va医療センターにおけるcovid-19関連電話の日数を予測するための正確な方法を提案する。 提案手法は、類似の医療センターをクラスタにグループ化してトレーニングモデルのデータセットを拡大し、ハイパーパラメータ検索を用いてモデルに対する最適なハイパーパラメータ値の組み合わせを自動的に見つけることによって、モデリングの課題を克服する。 提案手法では, 今後, 医療の急増を予測できる。 これにより、医療従事者は医療資源の計画を改善し、covid-19と闘うことができる。

Background: COVID-19 has become a challenge worldwide and properly planning of medical resources is the key to combating COVID-19. In the US Veteran Affairs Health Care System (VA), many of the enrollees are susceptible to COVID-19. Predicting the COVID-19 to allocate medical resources promptly becomes a critical issue. When the VA enrollees have COVID-19 symptoms, it is recommended that their first step should be to call the VA Call Center. For confirmed COVID-19 patients, the median time from the first symptom to hospital admission was seven days. By predicting the number of COVID-19 related calls, we could predict imminent surges in healthcare use and plan medical resources ahead. Objective: The study aims to develop a method to forecast the daily number of COVID-19 related calls for each of the 110 VA medical centers. Methods: In the proposed method, we pre-trained a model using a cluster of medical centers and fine-tuned it for individual medical centers. At the cluster level, we performed feature selection to select significant features and automatic hyper-parameter search to select optimal hyper-parameter value combinations for the model. Conclusions: This study proposed an accurate method to forecast the daily number of COVID-19 related calls for VA medical centers. The proposed method was able to overcome modeling challenges by grouping similar medical centers into clusters to enlarge the dataset for training models, and using hyper-parameter search to automatically find optimal hyper-parameter value combinations for models. With the proposed method, surges in health care can be predicted ahead. This allows health care practitioners to better plan medical resources and combat COVID-19.
翻訳日:2021-12-02 11:17:58 公開日:2021-11-30
# (参考訳) CO-SNE:双曲データの次元化と可視化

CO-SNE: Dimensionality Reduction and Visualization for Hyperbolic Data ( http://arxiv.org/abs/2111.15037v1 )

ライセンス: CC BY 4.0
Yunhui Guo, Haoran Guo, Stella Yu(参考訳) 双曲空間は、実世界のデータと意味論の階層構造をモデル化するのに望ましい性質である、歪みの少ない木メトリックを埋め込むことができる。 高次元埋め込みはしばしばより良い表現をもたらすが、ほとんどの双曲モデルは、非自明な最適化と高次元双曲データの可視化の欠如により低次元埋め込みを用いる。 ユークリッド空間可視化ツール t-SNE を双曲空間に拡張した CO-SNE を提案する。 t-SNE と同様に、データポイント間の距離を結合確率に変換し、高次元データの結合確率 $X$ と低次元埋め込み $Y$ のKullback-Leibler 差を最小化しようとする。 しかし、ユークリッド空間とは異なり、双曲空間は不均一であり、体積は原点から遠く離れた場所に多くの点を含むことができる。 したがって CO-SNE は t-SNE の t-distribution の代わりに $X$ と hyberbolic \underline{C}auchy の双曲正規分布を使い、さらに$Y$ で $X$ の個々の距離を \underline{O}rigin に保存しようとする。 高次元双曲生物データと教師なし学習双曲表現にco-sneを適用する。 以上の結果から,CO-SNEは高次元双曲データを低次元空間にデフレし,その双曲特性を損なわずにデフレし,PCA,t-SNE,UMAP,HoroPCAなどの一般的な可視化ツールを著しく上回った。

Hyperbolic space can embed tree metric with little distortion, a desirable property for modeling hierarchical structures of real-world data and semantics. While high-dimensional embeddings often lead to better representations, most hyperbolic models utilize low-dimensional embeddings, due to non-trivial optimization as well as the lack of a visualization for high-dimensional hyperbolic data. We propose CO-SNE, extending the Euclidean space visualization tool, t-SNE, to hyperbolic space. Like t-SNE, it converts distances between data points to joint probabilities and tries to minimize the Kullback-Leibler divergence between the joint probabilities of high-dimensional data $X$ and low-dimensional embeddings $Y$. However, unlike Euclidean space, hyperbolic space is inhomogeneous: a volume could contain a lot more points at a location far from the origin. CO-SNE thus uses hyperbolic normal distributions for $X$ and hyberbolic \underline{C}auchy instead of t-SNE's Student's t-distribution for $Y$, and it additionally attempts to preserve $X$'s individual distances to the \underline{O}rigin in $Y$. We apply CO-SNE to high-dimensional hyperbolic biological data as well as unsupervisedly learned hyperbolic representations. Our results demonstrate that CO-SNE deflates high-dimensional hyperbolic data into a low-dimensional space without losing their hyperbolic characteristics, significantly outperforming popular visualization tools such as PCA, t-SNE, UMAP, and HoroPCA, the last of which is specifically designed for hyperbolic data.
翻訳日:2021-12-02 06:04:19 公開日:2021-11-30
# (参考訳) SketchEdit: 部分スケッチによるマスクなしローカルイメージ操作

SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches ( http://arxiv.org/abs/2111.15078v1 )

ライセンス: CC BY 4.0
Yu Zeng, Zhe Lin, Vishal M. Patel(参考訳) スケッチベースの画像操作は、ユーザからの入力スケッチに基づいて画像を修正するインタラクティブな画像編集タスクである。 既存の方法は、通常、このタスクを条件付き塗装問題として定式化し、ユーザーはスケッチに加えて、変更すべき地域を示す余分なマスクを描く必要がある。 仮面領域は穴とされ、スケッチに条件付けされた塗り絵モデルで満たされる。 これにより、マスクをランダムに生成し、エッジや輪郭を抽出することで、ペアトレーニングデータを容易に得ることができる。 この設定はデータ作成とモデル設計を単純化するが、ユーザのインタラクションを複雑化し、マスクされた領域で有用な情報を破棄する。 そこで本研究では,ユーザからのスケッチ入力しか必要とせず,オリジナル画像全体を利用するマスクフリーなローカル画像操作という,スケッチベースの新たなパラダイムについて検討する。 画像とスケッチが与えられた場合、対象の修正領域を自動的に予測し、構造に依存しないスタイルベクトルにエンコードする。 ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。 最終的に、原画像の修正領域に出力されたジェネレータを混合して操作された画像を生成する。 我々のモデルは,画像領域の再構築を,スタイルベクトルとスケッチから学習することで,自己指導型で訓練することができる。 提案手法は、スケッチベースの画像操作のためのよりシンプルで直感的なユーザワークフローを提供し、従来のアプローチよりも優れた結果を提供する。 さらなる結果、コードとインタラクティブなデモは、 \url{https://zengxianyu.github.io/sketchedit}で公開される。

Sketch-based image manipulation is an interactive image editing task to modify an image based on input sketches from users. Existing methods typically formulate this task as a conditional inpainting problem, which requires users to draw an extra mask indicating the region to modify in addition to sketches. The masked regions are regarded as holes and filled by an inpainting model conditioned on the sketch. With this formulation, paired training data can be easily obtained by randomly creating masks and extracting edges or contours. Although this setup simplifies data preparation and model design, it complicates user interaction and discards useful information in masked regions. To this end, we investigate a new paradigm of sketch-based image manipulation: mask-free local image manipulation, which only requires sketch inputs from users and utilizes the entire original image. Given an image and sketch, our model automatically predicts the target modification region and encodes it into a structure agnostic style vector. A generator then synthesizes the new image content based on the style vector and sketch. The manipulated image is finally produced by blending the generator output into the modification region of the original image. Our model can be trained in a self-supervised fashion by learning the reconstruction of an image region from the style vector and sketch. The proposed method offers simpler and more intuitive user workflows for sketch-based image manipulation and provides better results than previous approaches. More results, code and interactive demo will be available at \url{https://zengxianyu.github.io/sketchedit}.
翻訳日:2021-12-02 05:49:25 公開日:2021-11-30
# (参考訳) MAMRL: WAN交通工学におけるマルチエージェントメタ強化学習の展開

MAMRL: Exploiting Multi-agent Meta Reinforcement Learning in WAN Traffic Engineering ( http://arxiv.org/abs/2111.15087v1 )

ライセンス: CC BY 4.0
Shan Sun, Mariam Kiran, Wei Ren(参考訳) ロードバランシングやフロースケジューリング,パケット配信時間の改善といったトラフィック最適化の課題は,広域ネットワーク(WAN)におけるオンライン意思決定の問題である。 複雑なヒューリスティックは、例えば、パケットの配送時間を改善し、リンク障害や混雑に起因する中断を最小限に抑える最適な経路を見つけるために必要である。 最近の強化学習(rl)アルゴリズムの成功は、モデルフリーの設定で経験から学ぶより堅牢なシステムを構築するための有用なソリューションを提供する。 本研究では,大規模ネットワークにおける経路最適化問題,特にパケットルーティングについて考察する。 我々は,マルチエージェントメタ強化学習(MAMRL)を用いて,各パケットの次ホップを最小限の時間で決定できるモデルフリーアプローチを開発し,評価する。 具体的には,コミュニケーションネットワークにおける分散モデルフリー制御を実現するために,ディープポリシー最適化 rl アルゴリズムを活用・比較し,新しいメタラーニングベースのフレームワーク mamrl を提案する。 提案するフレームワークを評価するために,様々なWANトポロジをシミュレートする。 また,非メタ深層ポリシー最適化アルゴリズムと比較して,リンク障害発生時のパケット損失の低減効果を比較検討した結果,平均パケット配送時間と比較し,リンク障害発生時のパケット損失の低減効果を示した。

Traffic optimization challenges, such as load balancing, flow scheduling, and improving packet delivery time, are difficult online decision-making problems in wide area networks (WAN). Complex heuristics are needed for instance to find optimal paths that improve packet delivery time and minimize interruptions which may be caused by link failures or congestion. The recent success of reinforcement learning (RL) algorithms can provide useful solutions to build better robust systems that learn from experience in model-free settings. In this work, we consider a path optimization problem, specifically for packet routing, in large complex networks. We develop and evaluate a model-free approach, applying multi-agent meta reinforcement learning (MAMRL) that can determine the next-hop of each packet to get it delivered to its destination with minimum time overall. Specifically, we propose to leverage and compare deep policy optimization RL algorithms for enabling distributed model-free control in communication networks and present a novel meta-learning-based framework, MAMRL, for enabling quick adaptation to topology changes. To evaluate the proposed framework, we simulate with various WAN topologies. Our extensive packet-level simulation results show that compared to classical shortest path and traditional reinforcement learning approaches, MAMRL significantly reduces the average packet delivery time even when network demand increases; and compared to a non-meta deep policy optimization algorithm, our results show the reduction of packet loss in much fewer episodes when link failures occur while offering comparable average packet delivery time.
翻訳日:2021-12-02 05:36:23 公開日:2021-11-30
# (参考訳) 深層学習における幾何学的occamのカミソリ

The Geometric Occam's Razor Implicit in Deep Learning ( http://arxiv.org/abs/2111.15090v1 )

ライセンス: CC BY 4.0
Benoit Dherin, Micheal Munn, and David G.T. Barrett(参考訳) 過パラメータ化されたディープニューラルネットワークでは、トレーニングデータに正確に適合する多くのパラメータ構成が可能である。 しかし、これらの補間解の性質はよく分かっていない。 我々は、確率勾配降下で訓練された過パラメータニューラルネットワークは幾何オッカムのラザーの対象であり、このネットワークは幾何学モデルの複雑さによって暗黙的に正規化されると主張している。 一次元回帰の場合、幾何学モデルの複雑性は関数の弧長によって簡単に与えられる。 高次元設定では、幾何学モデルの複雑性は函数のディリクレエネルギーに依存する。 この幾何学オッカムのラゾール、ディリクレエネルギー、および他の既知の暗黙正則化形式との関係を探求する。 最後に、CIFAR-10で訓練されたResNetに対して、ディリクレエネルギーの測定は、この暗黙の幾何学的オッカムのラザーの作用と一致している。

In over-parameterized deep neural networks there can be many possible parameter configurations that fit the training data exactly. However, the properties of these interpolating solutions are poorly understood. We argue that over-parameterized neural networks trained with stochastic gradient descent are subject to a Geometric Occam's Razor; that is, these networks are implicitly regularized by the geometric model complexity. For one-dimensional regression, the geometric model complexity is simply given by the arc length of the function. For higher-dimensional settings, the geometric model complexity depends on the Dirichlet energy of the function. We explore the relationship between this Geometric Occam's Razor, the Dirichlet energy and other known forms of implicit regularization. Finally, for ResNets trained on CIFAR-10, we observe that Dirichlet energy measurements are consistent with the action of this implicit Geometric Occam's Razor.
翻訳日:2021-12-02 05:18:16 公開日:2021-11-30
# (参考訳) 明示的なペルソナ記述を伴わない対話型パーソナライゼーションのためのペルソナ情報予測学習

Learning to Predict Persona Information forDialogue Personalization without Explicit Persona Description ( http://arxiv.org/abs/2111.15093v1 )

ライセンス: CC BY 4.0
Wangchunshu Zhou, Qifei Li, Chenle Li(参考訳) 対話エージェントのパーソナライズは、対話システムがより具体的で一貫性があり、係わる応答を生成するために重要である。 しかし、現在の対話のパーソナライゼーションのアプローチのほとんどは、推論中の明示的なペルソナ記述に依存している。 本稿では,対話履歴に基づいてペルソナ情報を予測し,推論中に明示的なペルソナ記述に頼ることなく,対話エージェントをパーソナライズする手法を提案する。 PersonaChatデータセットにおける実験結果から,提案手法は対話エージェントの予測されたプロファイル(「自己ペルソナ」)に条件付けする際の生成応答の整合性を改善し,対話相手の予測されたペルソナ(「自己ペルソナ」)に条件付けする際の生成応答の係合性を向上させることができることがわかった。 また、トレーニングされたペルソナ予測モデルを他のデータセットに転送して、より関連性の高い応答を生成するのにも役立ちます。

Personalizing dialogue agents is important for dialogue systems to generate more specific, consistent, and engaging responses. However, most current dialogue personalization approaches rely on explicit persona descriptions during inference, which severely restricts its application. In this paper, we propose a novel approach that learns to predict persona information based on the dialogue history to personalize the dialogue agent without relying on any explicit persona descriptions during inference. Experimental results on the PersonaChat dataset show that the proposed method can improve the consistency of generated responses when conditioning on the predicted profile of the dialogue agent (i.e. "self persona"), and improve the engagingness of the generated responses when conditioning on the predicted persona of the dialogue partner (i.e. "their persona"). We also find that a trained persona prediction model can be successfully transferred to other datasets and help generate more relevant responses.
翻訳日:2021-12-02 05:09:09 公開日:2021-11-30
# (参考訳) EAGAN: 効率的な2段階進化型アーキテクチャ検索

EAGAN: Efficient Two-stage Evolutionary Architecture Search for GANs ( http://arxiv.org/abs/2111.15097v1 )

ライセンス: CC BY 4.0
Guohao Ying, Xin He, Bin Gao, Bo Han, Xiaowen Chu(参考訳) generative adversarial networks (gans) は画像生成タスクで非常に成功したことが証明されているが、ganトレーニングには不安定性の問題がある。 多くの研究は、人間の専門知識と広範囲な試行錯誤を必要とするGANアーキテクチャを手作業で修正することで、GANトレーニングの安定性を改善した。 このように、モデル設計の自動化を目的としたニューラルアーキテクチャ検索(nas)は、無条件画像生成のタスクでganを検索するために適用されている。 初期のNAS-GANは、難易度を減らすために、検索ジェネレータのみで動作する。 近年の研究では、ジェネレータ(G)と識別器(D)の両方を探索してGAN性能を向上する試みがあるが、それでも探索中のGANトレーニングの不安定さに悩まされている。 不安定性問題を軽減するため, 効率的な2段階進化アルゴリズム (EA) に基づくNASフレームワークを提案し, GANを探索し, いわゆる「textbf{EAGAN}」を提案する。 具体的には、GとDの探索を2段階に分離し、GAN訓練の安定性を向上させるための重み付け戦略を提案する。 さらに,重み付け戦略と低忠実度評価を活用することで,探索時間を著しく短縮することができるため,複数の目的に基づいてPareto-frontアーキテクチャを生成するための進化操作を行う。 EAGAN は CIFAR-10 (IS=8.81$\pm$0.10, FID=9.91) で高い競争力を発揮し、STL-10 データセット (IS=10.44$\pm$0.087, FID=22.18) で以前のNASによる GAN を上回っている。

Generative Adversarial Networks (GANs) have been proven hugely successful in image generation tasks, but GAN training has the problem of instability. Many works have improved the stability of GAN training by manually modifying the GAN architecture, which requires human expertise and extensive trial-and-error. Thus, neural architecture search (NAS), which aims to automate the model design, has been applied to search GANs on the task of unconditional image generation. The early NAS-GAN works only search generators for reducing the difficulty. Some recent works have attempted to search both generator (G) and discriminator (D) to improve GAN performance, but they still suffer from the instability of GAN training during the search. To alleviate the instability issue, we propose an efficient two-stage evolutionary algorithm (EA) based NAS framework to discover GANs, dubbed \textbf{EAGAN}. Specifically, we decouple the search of G and D into two stages and propose the weight-resetting strategy to improve the stability of GAN training. Besides, we perform evolution operations to produce the Pareto-front architectures based on multiple objectives, resulting in a superior combination of G and D. By leveraging the weight-sharing strategy and low-fidelity evaluation, EAGAN can significantly shorten the search time. EAGAN achieves highly competitive results on the CIFAR-10 (IS=8.81$\pm$0.10, FID=9.91) and surpasses previous NAS-searched GANs on the STL-10 dataset (IS=10.44$\pm$0.087, FID=22.18).
翻訳日:2021-12-02 04:57:01 公開日:2021-11-30
# (参考訳) 批判を信頼する:初期収束保証付き無発電機多目的WGAN

Trust the Critics: Generatorless and Multipurpose WGANs with Initial Convergence Guarantees ( http://arxiv.org/abs/2111.15099v1 )

ライセンス: CC BY 4.0
Tristan Milne, \'Etienne Bilocq, Adrian Nachman(参考訳) 最適輸送理論のアイデアに着想を得た我々は,生成モデルのための新しいアルゴリズムであるtrust the critics (ttc)を提案する。 このアルゴリズムは、Wasserstein GANからトレーニング可能なジェネレータを排除し、代わりに、訓練された批評家ネットワークのシーケンスに基づいて勾配勾配を用いてソースデータを反復的に修正する。 これは、批判者の勾配によって提供された最適な輸送方向と、訓練可能な発電機によってパラメータ化されると実際にデータポイントが移動する方向との間の不一致が原因である。 従来の研究は異なる視点から類似したアイデアに到達したが、最適輸送理論の基盤は、一定のステップサイズに比べて収束を大幅に加速する適応的なステップサイズの選択を動機付けている。 このステップサイズ則を用いて,密度をもつソース分布の場合の初期幾何収束率を証明した。 これらの収束速度は、非無視可能な生成データの集合が本質的に実際のデータと区別できない場合にのみ適用される。 我々は、一定数のトレーニング期間が経つと、ttcは、メモリ要求が増加するにもかかわらず、同等のwganよりも高品質な画像を生成することを実証する実験で示している。 さらに、TTCは、従来のWGANでは得られない変換密度の反復公式を提供する。 最後に、任意のソース分布を任意のターゲットにマッピングするためにTTCを適用し、専用のアルゴリズムを使わずにTTCが画像生成、翻訳、復調において競合性能を得ることができることを示す。

Inspired by ideas from optimal transport theory we present Trust the Critics (TTC), a new algorithm for generative modelling. This algorithm eliminates the trainable generator from a Wasserstein GAN; instead, it iteratively modifies the source data using gradient descent on a sequence of trained critic networks. This is motivated in part by the misalignment which we observed between the optimal transport directions provided by the gradients of the critic and the directions in which data points actually move when parametrized by a trainable generator. Previous work has arrived at similar ideas from different viewpoints, but our basis in optimal transport theory motivates the choice of an adaptive step size which greatly accelerates convergence compared to a constant step size. Using this step size rule, we prove an initial geometric convergence rate in the case of source distributions with densities. These convergence rates cease to apply only when a non-negligible set of generated data is essentially indistinguishable from real data. Resolving the misalignment issue improves performance, which we demonstrate in experiments that show that given a fixed number of training epochs, TTC produces higher quality images than a comparable WGAN, albeit at increased memory requirements. In addition, TTC provides an iterative formula for the transformed density, which traditional WGANs do not. Finally, TTC can be applied to map any source distribution onto any target; we demonstrate through experiments that TTC can obtain competitive performance in image generation, translation, and denoising without dedicated algorithms.
翻訳日:2021-12-02 04:42:25 公開日:2021-11-30
# (参考訳) 実測値q-Rungオルトポアファジィチェケット積分演算子とその群決定への応用

Interval-valued q-Rung Orthopair Fuzzy Choquet Integral Operators and Its Application in Group Decision Making ( http://arxiv.org/abs/2111.15108v1 )

ライセンス: CC BY 4.0
Benting Wan, Juelin Huang and Xi Chen(参考訳) 意思決定者は、ファジィ意思決定をより適用的な空間を提供する区間値q-rung orthopairファジィ集合(ivq-rofs)によって評価することがより柔軟である。 Meanwhile, Choquet integralses non-additive set function (fuzzy measure) to describe the interaction between attributes directly.In particular, there are a large number of practical issues that have relevance between attributes.Therefore,this paper proposes the correlation operator and group decision-making method based on the interval-valued q-rung orthopair fuzzy set Choquet integral.First,interval-valued q-rung orthopair fuzzy Choquet integral average operator (IVq-ROFCA) and interval-valued q-rung orthopair fuzzy Choquet integral geometric operator (IVq-ROFCG) are inves-tigated,and their basic properties are proved.Furthermore, several operators based on IVq-ROFCA and IVq-ROFCG are developed. Then, a group decision-making method based on IVq-ROFCA is developed,which can solve the decision making problems with interaction between attributes.Finally,through the implementation of the warning management system for hypertension,it is shown that the operator and group decision-making method proposed in this paper can handle complex decision-making cases in reality, and the decision result is consistent with the doctor's diagnosis result.Moreover,the comparison with the results of other operators shows that the proposed operators and group decision-making method are correct and effective,and the decision result will not be affected by the change of q value.

It is more flexible for decision makers to evaluate by interval-valued q-rung orthopair fuzzy set (IVq-ROFS),which offers fuzzy decision-making more applicational space. Meanwhile, Choquet integralses non-additive set function (fuzzy measure) to describe the interaction between attributes directly.In particular, there are a large number of practical issues that have relevance between attributes.Therefore,this paper proposes the correlation operator and group decision-making method based on the interval-valued q-rung orthopair fuzzy set Choquet integral.First,interval-valued q-rung orthopair fuzzy Choquet integral average operator (IVq-ROFCA) and interval-valued q-rung orthopair fuzzy Choquet integral geometric operator (IVq-ROFCG) are inves-tigated,and their basic properties are proved.Furthermore, several operators based on IVq-ROFCA and IVq-ROFCG are developed. Then, a group decision-making method based on IVq-ROFCA is developed,which can solve the decision making problems with interaction between attributes.Finally,through the implementation of the warning management system for hypertension,it is shown that the operator and group decision-making method proposed in this paper can handle complex decision-making cases in reality, and the decision result is consistent with the doctor's diagnosis result.Moreover,the comparison with the results of other operators shows that the proposed operators and group decision-making method are correct and effective,and the decision result will not be affected by the change of q value.
翻訳日:2021-12-02 04:16:50 公開日:2021-11-30
# (参考訳) AugLiChem: 機械学習のための化学構造データ拡張ライブラリ

AugLiChem: Data Augmentation Library ofChemical Structures for Machine Learning ( http://arxiv.org/abs/2111.15112v1 )

ライセンス: CC BY 4.0
Rishikesh Magar, Yuyang Wang, Cooper Lorsung, Chen Liang, Hariharan Ramasubramanian, Peiyuan Li and Amir Barati Farimani(参考訳) 機械学習(ML)は分子や結晶材料の正確かつ効率的な特性予測の可能性を実証している。 化学構造特性プレディションのための高精度MLモデルを開発するためには、十分なサンプルを持つデータセットが必要である。 しかし,コンピュータビジョンと自然言語処理におけるデータ拡張の成功に触発されて,化学構造のためのデータオーグメンテーションライブラリ auglichem: the data aug-mentation library を開発した。 指紋ベースのMLモデルやグラフニューラルネットワーク(GNN)に利用することができる結晶系および分子の増強手法が導入された。 本稿では,GNN を用いた場合,ML モデルの性能が大幅に向上することを示すとともに,トレーニング中に直接プラグインモジュールとして利用し,異なる GNN モデルで AugliChem ライブラリを用いて実装した場合のエフェック・サイティング性を実証した。 Auglichemの実装のためのPythonベースのパッケージ: 化学構造のためのデータ拡張ライブラリは、https://github.com/BaratiLab/AugLiChem.1で公開されている。

Machine learning (ML) has demonstrated the promise for accurate andefficient property prediction of molecules and crystalline materials. Todevelop highly accurate ML models for chemical structure property pre-diction, datasets with sufficient samples are required. However, obtainingclean and sufficient data of chemical properties can be expensive andtime-consuming, which greatly limits the performance of ML models.Inspired by the success of data augmentations in computer vision andnatural language processing, we developed AugLiChem: the data aug-mentation library for chemical structures. Augmentation methods forboth crystalline systems and molecules are introduced, which can beutilized for fingerprint-based ML models and Graph Neural Networks(GNNs). We show that using our augmentation strategies significantlyimproves the performance of ML models, especially when using GNNs.In addition, the augmentations that we developed can be used as adirect plug-in module during training and have demonstrated the effec-tiveness when implemented with different GNN models through theAugliChem library. The Python-based package for our implementa-tion of Auglichem: Data augmentation library for chemical structures,is publicly available at: https://github.com/BaratiLab/AugLiChem.1
翻訳日:2021-12-02 03:59:58 公開日:2021-11-30
# (参考訳) latenthuman: 人体の形状と位置を異にする潜在性表現

LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human Bodies ( http://arxiv.org/abs/2111.15113v1 )

ライセンス: CC BY 4.0
Sandro Lombardi, Bangbang Yang, Tianxing Fan, Hujun Bao, Guofeng Zhang, Marc Pollefeys, Zhaopeng Cui(参考訳) 人体の3次元表現と再構成はコンピュータビジョンにおいて長い間研究されてきた。 伝統的な手法は主にパラメトリック統計線形モデルに依存し、可能な物体の空間を線形結合に制限する。 人体モデリングに神経暗黙の表現を活用しようとするアプローチはごく最近のことであり、印象的な結果を示す一方で、表現能力によって制限されているか、物理的に意味があり、制御不能である。 そこで本研究では,人体に対する新しい神経的暗黙的表現法を提案する。 従来の作業とは対照的に,我々の表現はキネマティックモデルに基づいて設計されており,ポーズアニメーションのようなタスクに対して表現を制御可能であると同時に,形状の最適化と3Dフィッティングやポーズトラッキングといったタスクへのポーズを可能にする。 我々のモデルは、よく設計された損失を伴う水密でない生データを直接訓練し、微調整することができる。 実験では,SoTAアプローチによる3次元再構成性能の向上を実証し,補間,モデルフィッティング,ポーズトラッキング,モーションリターゲティングといった手法の適用性を示した。

3D representation and reconstruction of human bodies have been studied for a long time in computer vision. Traditional methods rely mostly on parametric statistical linear models, limiting the space of possible bodies to linear combinations. It is only recently that some approaches try to leverage neural implicit representations for human body modeling, and while demonstrating impressive results, they are either limited by representation capability or not physically meaningful and controllable. In this work, we propose a novel neural implicit representation for the human body, which is fully differentiable and optimizable with disentangled shape and pose latent spaces. Contrary to prior work, our representation is designed based on the kinematic model, which makes the representation controllable for tasks like pose animation, while simultaneously allowing the optimization of shape and pose for tasks like 3D fitting and pose tracking. Our model can be trained and fine-tuned directly on non-watertight raw data with well-designed losses. Experiments demonstrate the improved 3D reconstruction performance over SoTA approaches and show the applicability of our method to shape interpolation, model fitting, pose tracking, and motion retargeting.
翻訳日:2021-12-02 03:43:27 公開日:2021-11-30
# (参考訳) ePose:EfficientPoseをより一般的に適用可能にしよう

ePose: Let's Make EfficientPose More Generally Applicable ( http://arxiv.org/abs/2111.15114v1 )

ライセンス: CC BY 4.0
Austin Lally, Robert Bain, Mazen Alotaibi(参考訳) EfficientPoseは印象的な3Dオブジェクト検出モデルだ。 特にRGB入力のみを使用する場合、高速でスケーラブルで正確であることが示されている。 本稿では,オブジェクトのサイズを推測し,データ収集と損失計算の両方を簡単にすることで,効率を向上させることを試みる。 また,Linemodデータセットと,その新しいサブセットであるOcclusion 1-classを用いてePoseを評価した。 我々はまた、NuScenesと2017 KITTI 3D Object DetectionデータセットでePoseを使用することに関する現在の進捗状況と考えを概説する。 ソースコードはhttps://github.com/tbd-clip/ efficientposeで入手できる。

EfficientPose is an impressive 3D object detection model. It has been demonstrated to be quick, scalable, and accurate, especially when considering that it uses only RGB inputs. In this paper we try to improve on EfficientPose by giving it the ability to infer an object's size, and by simplifying both the data collection and loss calculations. We evaluated ePose using the Linemod dataset and a new subset of it called "Occlusion 1-class". We also outline our current progress and thoughts about using ePose with the NuScenes and the 2017 KITTI 3D Object Detection datasets. The source code is available at https://github.com/tbd-clip/EfficientPose.
翻訳日:2021-12-02 03:25:19 公開日:2021-11-30
# (参考訳) 骨格行動認識のための匿名化

Anonymization for Skeleton Action Recognition ( http://arxiv.org/abs/2111.15129v1 )

ライセンス: CC BY 4.0
Myeonghyeon Kim, Zhenyue Qin, Yang Liu, Dongwoo Kim(参考訳) 骨格に基づく行動認識は、軽量でコンパクトなデータセットの性質のため、実践者や研究者を惹きつける。 RGBビデオベースのアクション認識と比較して、骨格ベースのアクション認識は、競合する認識性能を有しながら、被験者のプライバシを保護する安全な方法である。 しかし、スケルトン推定アルゴリズムとモーションセンサーと深度センサーの改善により、スケルトンデータセットには、より詳細な動き特性が保存され、データセットから潜在的なプライバシーリークにつながる可能性がある。 スケルトンデータセットからの潜在的なプライバシー漏洩を調べるため、まず分類器を訓練し、関節の軌跡から機密性のある個人情報を分類する。 実験では、性別を分類するために訓練されたモデルは88%の精度で予測でき、82%の精度で人物を再同定できる。 我々は,スケルトンデータセットから潜在的なプライバシー漏洩を保護するために,匿名化アルゴリズムの2つの変種を提案する。 実験の結果,匿名化されたデータセットは,行動認識性能に限界的な影響を与えながら,プライバシリークのリスクを低減できることがわかった。

The skeleton-based action recognition attracts practitioners and researchers due to the lightweight, compact nature of datasets. Compared with RGB-video-based action recognition, skeleton-based action recognition is a safer way to protect the privacy of subjects while having competitive recognition performance. However, due to the improvements of skeleton estimation algorithms as well as motion- and depth-sensors, more details of motion characteristics can be preserved in the skeleton dataset, leading to a potential privacy leakage from the dataset. To investigate the potential privacy leakage from the skeleton datasets, we first train a classifier to categorize sensitive private information from a trajectory of joints. Experiments show the model trained to classify gender can predict with 88% accuracy and re-identify a person with 82% accuracy. We propose two variants of anonymization algorithms to protect the potential privacy leakage from the skeleton dataset. Experimental results show that the anonymized dataset can reduce the risk of privacy leakage while having marginal effects on the action recognition performance.
翻訳日:2021-12-02 03:17:21 公開日:2021-11-30
# (参考訳) LossPlot: ランドスケープを視覚化するより良い方法

LossPlot: A Better Way to Visualize Loss Landscapes ( http://arxiv.org/abs/2111.15133v1 )

ライセンス: CC BY 4.0
Robert Bain, Mikhail Tokarev, Harsh Kothari, Rahul Damineni(参考訳) ディープニューラルネットワークの損失状況の調査は、しばしば困難である。 この作業はこのプロセスを半自動化するためのプラットフォームを構築するためのユーザ主導のアプローチを文書化します。 LossPlotはデータをcsv形式で受け入れ、複数のトレーニング済みの損失関数の最小化を同期で操作できるようにする。 その他の機能としては、シンプルで直感的なチェックボックスui、要約統計、他のメソッドが提供していないクリッピングを制御する機能などがある。

Investigations into the loss landscapes of deep neural networks are often laborious. This work documents our user-driven approach to create a platform for semi-automating this process. LossPlot accepts data in the form of a csv, and allows multiple trained minimizers of the loss function to be manipulated in sync. Other features include a simple yet intuitive checkbox UI, summary statistics, and the ability to control clipping which other methods do not offer.
翻訳日:2021-12-02 03:06:30 公開日:2021-11-30
# (参考訳) AirObject: オブジェクト識別のための一時的に進化するグラフ埋め込み

AirObject: A Temporally Evolving Graph Embedding for Object Identification ( http://arxiv.org/abs/2111.15150v1 )

ライセンス: CC0 1.0
Nikhil Varma Keetha, Chen Wang, Yuheng Qiu, Kuan Xu and Sebastian Scherer(参考訳) オブジェクトのエンコーディングと識別は、自律探索、意味的シーン理解、再ローカライズなどのロボットタスクに不可欠である。 これまでのアプローチでは、オブジェクトの追跡や、オブジェクト識別のための記述子の生成が試みられていた。 しかし、そのようなシステムは単一の視点から「固定された」部分オブジェクト表現に限定される。 ロボット探索装置では、ロボットが複数の視点から対象を観察するときに、時間的に「進化する」グローバルオブジェクト表現が要求される。 さらに、現実世界における未知の新規オブジェクトの膨大な分布を考えると、オブジェクト識別プロセスはクラス非依存でなければならない。 本研究では,オブジェクトのグローバルなキーポイントグラフによる埋め込みを実現するために,AirObjectと呼ばれる新しい時間的3Dオブジェクト符号化手法を提案する。 具体的には、グラフ注意に基づく符号化法から得られた複数のフレームの構造情報にまたがる時間畳み込みネットワークを用いて、グローバル3dオブジェクト埋め込みを生成する。 我々はairobjectが映像オブジェクト識別の最先端性能を達成し,重度の咬合,知覚的エイリアス,視点シフト,変形,スケール変換に頑健であり,最先端のシングルフレームとシーケンシャルディスクリプタよりも優れていることを示す。 私たちの知る限りでは、AirObjectは最初の一時的なオブジェクトエンコーディング手法の1つです。

Object encoding and identification are vital for robotic tasks such as autonomous exploration, semantic scene understanding, and re-localization. Previous approaches have attempted to either track objects or generate descriptors for object identification. However, such systems are limited to a "fixed" partial object representation from a single viewpoint. In a robot exploration setup, there is a requirement for a temporally "evolving" global object representation built as the robot observes the object from multiple viewpoints. Furthermore, given the vast distribution of unknown novel objects in the real world, the object identification process must be class-agnostic. In this context, we propose a novel temporal 3D object encoding approach, dubbed AirObject, to obtain global keypoint graph-based embeddings of objects. Specifically, the global 3D object embeddings are generated using a temporal convolutional network across structural information of multiple frames obtained from a graph attention-based encoding method. We demonstrate that AirObject achieves the state-of-the-art performance for video object identification and is robust to severe occlusion, perceptual aliasing, viewpoint shift, deformation, and scale transform, outperforming the state-of-the-art single-frame and sequential descriptors. To the best of our knowledge, AirObject is one of the first temporal object encoding methods.
翻訳日:2021-12-02 02:56:22 公開日:2021-11-30
# (参考訳) cycletransgan-evc: トランスフォーマー付きサイクルガンに基づく感情音声変換モデル

CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model with Transformer ( http://arxiv.org/abs/2111.15159v1 )

ライセンス: CC BY 4.0
Changzeng Fu, Chaoran Liu, Carlos Toshinori Ishi, Hiroshi Ishiguro(参考訳) 本研究では,モデルの受容場を増大させ,フレーム間の関係を捉えるトランスフォーマーの能力について検討する。 具体的には、トランスを用いたCycleGANに基づくモデルを提案し、感情音声変換におけるその能力について検討する。 トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。 提案手法は日本語感情音声データセット上で評価され,客観的および主観的評価の複数のベースライン (acvae, cyclegan) と比較した。 その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。

In this study, we explore the transformer's ability to capture intra-relations among frames by augmenting the receptive field of models. Concretely, we propose a CycleGAN-based model with the transformer and investigate its ability in the emotional voice conversion task. In the training procedure, we adopt curriculum learning to gradually increase the frame length so that the model can see from the short segment till the entire speech. The proposed method was evaluated on the Japanese emotional speech dataset and compared to several baselines (ACVAE, CycleGAN) with objective and subjective evaluations. The results show that our proposed model is able to convert emotion with higher strength and quality.
翻訳日:2021-12-02 02:42:42 公開日:2021-11-30
# (参考訳) 生成型adversarial networkによる機械翻訳の改善

Improvement in Machine Translation with Generative Adversarial Networks ( http://arxiv.org/abs/2111.15166v1 )

ライセンス: CC BY 4.0
Jay Ahn, Hari Madhu, Viet Nguyen(参考訳) 本稿では,gan(generative adversarial network)アーキテクチャによる機械翻訳の改善について検討する。 我々は、テキスト生成のモデルであるRelGANと、逆機械翻訳モデルであるNMT-GANからインスピレーションを得て、モノリンガルコーパスでのみ訓練されながら、ぎこちなく非流用な英語文を流用するモデルを実装する。 パラメータ$\lambda$を使用して、入力文からの逸脱量、すなわち、元のトークンを保持し、それをより流動的に修正するトレードオフを制御する。 語句に基づく機械翻訳では,いくつかのケースで改善が見られた。 特に、変圧器付きganは有望な結果を示す。 我々は、この概念実証に基づく今後の研究の方向性を提案する。

In this paper, we explore machine translation improvement via Generative Adversarial Network (GAN) architecture. We take inspiration from RelGAN, a model for text generation, and NMT-GAN, an adversarial machine translation model, to implement a model that learns to transform awkward, non-fluent English sentences to fluent ones, while only being trained on monolingual corpora. We utilize a parameter $\lambda$ to control the amount of deviation from the input sentence, i.e. a trade-off between keeping the original tokens and modifying it to be more fluent. Our results improved upon phrase-based machine translation in some cases. Especially, GAN with a transformer generator shows some promising results. We suggests some directions for future works to build upon this proof-of-concept.
翻訳日:2021-12-02 02:33:43 公開日:2021-11-30
# (参考訳) 空間的およびマルチスケールの視覚クラス埋め込みによるゼロショットセマンティックセマンティックセグメンテーション

Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual Class Embedding ( http://arxiv.org/abs/2111.15181v1 )

ライセンス: CC BY 4.0
Sungguk Cha and Yooseung Wang(参考訳) 完全に教師付きセマンティックセグメンテーション技術は、シーン理解のパラダイムシフトをもたらす。 しかし、高価なラベリングコストの負担は依然として課題である。 このコスト問題を解決するために、最近の研究では言語モデルに基づくゼロショットセマンティックセマンティックセグメンテーション(L-ZSSS)アプローチを提案する。 本稿では,L-ZSSSはゼロショット学習の特質である一般化の限界を克服する。 この制限に対処するため,言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワーク,空間的およびマルチスケール認識型ビジュアルクラス埋め込みネットワーク(SM-VCENet)を提案する。 さらに、SM-VCENetの視覚指向型クラス埋め込みを活用することで、マルチスケールの注意と空間的注意によるクラス埋め込みの視覚情報を強化する。 また,ゼロショットセマンティックセグメンテーションのための新しいベンチマーク(PASCAL2COCO)を提案する。 我々のSM-VCENetはPASCAL-5iベンチマークの相対差でゼロショットセマンティックセマンティックセグメンテーションの状態を上回り、PASCAL2COCOベンチマークの一般化ロバスト性を示す。

Fully supervised semantic segmentation technologies bring a paradigm shift in scene understanding. However, the burden of expensive labeling cost remains as a challenge. To solve the cost problem, recent studies proposed language model based zero-shot semantic segmentation (L-ZSSS) approaches. In this paper, we address L-ZSSS has a limitation in generalization which is a virtue of zero-shot learning. Tackling the limitation, we propose a language-model-free zero-shot semantic segmentation framework, Spatial and Multi-scale aware Visual Class Embedding Network (SM-VCENet). Furthermore, leveraging vision-oriented class embedding SM-VCENet enriches visual information of the class embedding by multi-scale attention and spatial attention. We also propose a novel benchmark (PASCAL2COCO) for zero-shot semantic segmentation, which provides generalization evaluation by domain adaptation and contains visually challenging samples. In experiments, our SM-VCENet outperforms zero-shot semantic segmentation state-of-the-art by a relative margin in PASCAL-5i benchmark and shows generalization-robustness in PASCAL2COCO benchmark.
翻訳日:2021-12-02 02:25:11 公開日:2021-11-30
# (参考訳) バイオアッセイの簡易セマンティフィケーション

Easy Semantification of Bioassays ( http://arxiv.org/abs/2111.15182v1 )

ライセンス: CC BY-SA 4.0
Marco Anteghini, Jennifer D'Souza, Vitor A.P. Martins dos Santos, S\"oren Auer(参考訳) 生物学的データと知識基盤は、セマンティックウェブ技術とデータ統合、検索、フェデレーションドクエリのための知識グラフの利用にますます依存している。 生体アッセイを自動的に分離する手法を提案する。 我々の解は,2つの手法が手法複雑性スペクトルの両端にある場合の分類とクラスタリングの区別として,自動セマンティフィケーションの問題を解くものである。 我々の問題の特徴をモデル化すると、クラスタリングソリューションはディープニューラルネットワークの最先端の分類手法を大きく上回っていることが分かる。 この新しい貢献は2つの要因に基づいている。 1) データの後に密にモデル化された学習目的は、洗練されたセマンティックモデリングによる代替アプローチより優れている。 2)生体アッセイを自動分離することで,83%近い高性能なf1が得られる。

Biological data and knowledge bases increasingly rely on Semantic Web technologies and the use of knowledge graphs for data integration, retrieval and federated queries. We propose a solution for automatically semantifying biological assays. Our solution juxtaposes the problem of automated semantification as classification versus clustering where the two methods are on opposite ends of the method complexity spectrum. Characteristically modeling our problem, we find the clustering solution significantly outperforms a deep neural network state-of-the-art classification approach. This novel contribution is based on two factors: 1) a learning objective closely modeled after the data outperforms an alternative approach with sophisticated semantic modeling; 2) automatically semantifying biological assays achieves a high performance F1 of nearly 83%, which to our knowledge is the first reported standardized evaluation of the task offering a strong benchmark model.
翻訳日:2021-12-02 02:11:31 公開日:2021-11-30
# (参考訳) PGNets: 原始惑星円盤の電波連続観測のための畳み込みニューラルネットワークを用いた惑星質量予測

PGNets: Planet mass prediction using convolutional neural networks for radio continuum observations of protoplanetary disks ( http://arxiv.org/abs/2111.15196v1 )

ライセンス: CC BY 4.0
Shangjia Zhang, Zhaohuan Zhu, Mingon Kang(参考訳) ラジオダスト連続体画像から惑星質量を迅速かつ直接的に推定する畳み込みニューラルネットワーク(cnns)を開発した。 原始惑星円盤の若い惑星によって誘導されるサブ構造は、潜在的な若い惑星の性質を推測するために用いられる。 流体力学シミュレーションは、惑星の性質とこれらの円盤の特徴の関係を研究するために用いられてきた。 しかし、これらの試みは、時間を要する1つの原始惑星円盤を1度に適合させる微調整された数値シミュレーションまたは方位平均シミュレーションの結果、ギャップ幅/深さと惑星質量の間の線形関係を導出し、円盤内の非対称な特徴に関する情報を失った。 これらの欠点に対処するため、2次元画像から惑星質量を推定するPlanet Gap Neural Networks(PGNets)を開発した。 まず、Zhang et al. (2018) のグリッド化されたデータを分類問題に適合させる。 次に, ほぼランダムにサンプリングされたパラメータを用いた追加シミュレーションを行い, 回帰問題として惑星質量と円盤粘度を導出した。 分類アプローチは 92\% の精度に達するが、回帰アプローチは惑星質量の 0.16 dex とディスク粘度 0.23 dex の 1$\sigma$ に達する。 線形フィッティング法で見られる縮退スケーリング $\alpha$$\propto$$M_p^3$ を再現できるので、CNN法は縮退関係を見つけるのにも使える。 勾配重み付きクラスアクティベーションマッピングは、pgnetが惑星質量を制限するために適切なディスク機能を使用していることを効果的に確認する。 我々は Zhang et al. (2018) のPGNets プログラムと従来のフィッティング手法を提供し、各手法の利点と欠点について議論する。

We developed Convolutional Neural Networks (CNNs) to rapidly and directly infer the planet mass from radio dust continuum images. Substructures induced by young planets in protoplanetary disks can be used to infer the potential young planets' properties. Hydrodynamical simulations have been used to study the relationships between the planet's properties and these disk features. However, these attempts either fine-tuned numerical simulations to fit one protoplanetary disk at a time, which was time-consuming, or azimuthally averaged simulation results to derive some linear relationships between the gap width/depth and the planet mass, which lost information on asymmetric features in disks. To cope with these disadvantages, we developed Planet Gap neural Networks (PGNets) to infer the planet mass from 2D images. We first fit the gridded data in Zhang et al. (2018) as a classification problem. Then, we quadrupled the data set by running additional simulations with near-randomly sampled parameters, and derived the planet mass and disk viscosity together as a regression problem. The classification approach can reach an accuracy of 92\%, whereas the regression approach can reach 1$\sigma$ as 0.16 dex for planet mass and 0.23 dex for disk viscosity. We can reproduce the degeneracy scaling $\alpha$ $\propto$ $M_p^3$ found in the linear fitting method, which means that the CNN method can even be used to find degeneracy relationship. The gradient-weighted class activation mapping effectively confirms that PGNets use proper disk features to constrain the planet mass. We provide programs for PGNets and the traditional fitting method from Zhang et al. (2018), and discuss each method's advantages and disadvantages.
翻訳日:2021-12-02 01:53:37 公開日:2021-11-30
# (参考訳) ラベル伝搬を用いた半教師付き3次元手形とポーズ推定

Semi-Supervised 3D Hand Shape and Pose Estimation with Label Propagation ( http://arxiv.org/abs/2111.15199v1 )

ライセンス: CC BY 4.0
Samira Kaviani, Amir Rahimi, Richard Hartley(参考訳) 3Dアノテーションを得るためには、制御された環境や合成データセットに制限されるため、現実のシナリオに対する一般化性の低い3Dデータセットが得られます。 半教師付き3次元手形状とポーズ推定の文脈でこの問題に対処するために,ラベル付きフレームから近傍の未ラベルフレームへ疎アノテーションで3Dアノテーションを伝達するPose Alignmentネットワークを提案する。 ラベル付きフレームのペアにアライメントの監督を組み込むことで,ポーズ推定精度の向上が期待できることを示す。 また,提案するポーズアライメントネットワークは,微調整をすることなく,目立たないラベル付きビデオに注釈を効果的に伝達できることを示す。

To obtain 3D annotations, we are restricted to controlled environments or synthetic datasets, leading us to 3D datasets with less generalizability to real-world scenarios. To tackle this issue in the context of semi-supervised 3D hand shape and pose estimation, we propose the Pose Alignment network to propagate 3D annotations from labelled frames to nearby unlabelled frames in sparsely annotated videos. We show that incorporating the alignment supervision on pairs of labelled-unlabelled frames allows us to improve the pose estimation accuracy. Besides, we show that the proposed Pose Alignment network can effectively propagate annotations on unseen sparsely labelled videos without fine-tuning.
翻訳日:2021-12-02 01:25:20 公開日:2021-11-30
# (参考訳) 局所的およびグローバル学習mri再構成のためのコントラスト学習

Contrastive Learning for Local and Global Learning MRI Reconstruction ( http://arxiv.org/abs/2111.15200v1 )

ライセンス: CC BY 4.0
Qiaosi Yi, Jinhao Liu, Le Hu, Faming Fang, and Guixu Zhang(参考訳) 磁気共鳴イメージング(mri)は重要な医用画像のモダリティであるが、取得には長い時間を要する。 取得時間を削減するため,様々な手法が提案されている。 しかし、これらの手法は2つの主な理由から明確な構造を持つ画像の復元に失敗した。 第一に、同様のパッチはMR画像に広く存在するが、従来のディープラーニングベースの手法はこの特性を無視し、ローカル情報を学ぶためにCNNのみを採用する。 第二に、既存の手法では解空間の上界を制約するためにクリア画像のみを使用するが、下界は制約されないため、ネットワークのより良いパラメータを得ることができない。 このような問題に対処するため,ローカル・グローバル・ラーニングMRI再構成ネットワーク(CLGNet)を提案する。 具体的には、フーリエ理論によれば、フーリエ領域の各値は空間領域内のすべての値から計算される。 そこで本稿では,空間・フーリエ領域における局所情報とグローバル情報を同時に学習するための空間・フーリエ層(SFL)を提案する。 さらに、自己着脱や変圧器と比較して、sflは学習能力が強く、少ない時間で優れた性能を達成できる。 SFLに基づいて,モデルの主成分として空間的およびフーリエ的残差ブロックを設計する。 一方、解空間の下界と上界を制約するために、比較学習を導入し、その結果をクリア画像に近づけ、その結果をアンサンプリング画像から遠ざけることができる。 異なるデータセットと加速度速度に関する大規模な実験結果から、提案したCLGNetが新たな最先端の結果を得ることを示す。

Magnetic Resonance Imaging (MRI) is an important medical imaging modality, while it requires a long acquisition time. To reduce the acquisition time, various methods have been proposed. However, these methods failed to reconstruct images with a clear structure for two main reasons. Firstly, similar patches widely exist in MR images, while most previous deep learning-based methods ignore this property and only adopt CNN to learn local information. Secondly, the existing methods only use clear images to constrain the upper bound of the solution space, while the lower bound is not constrained, so that a better parameter of the network cannot be obtained. To address these problems, we propose a Contrastive Learning for Local and Global Learning MRI Reconstruction Network (CLGNet). Specifically, according to the Fourier theory, each value in the Fourier domain is calculated from all the values in Spatial domain. Therefore, we propose a Spatial and Fourier Layer (SFL) to simultaneously learn the local and global information in Spatial and Fourier domains. Moreover, compared with self-attention and transformer, the SFL has a stronger learning ability and can achieve better performance in less time. Based on the SFL, we design a Spatial and Fourier Residual block as the main component of our model. Meanwhile, to constrain the lower bound and upper bound of the solution space, we introduce contrastive learning, which can pull the result closer to the clear image and push the result further away from the undersampled image. Extensive experimental results on different datasets and acceleration rates demonstrate that the proposed CLGNet achieves new state-of-the-art results.
翻訳日:2021-12-02 01:04:31 公開日:2021-11-30
# (参考訳) 動的マルウェア分類のための新しいデータセット

New Datasets for Dynamic Malware Classification ( http://arxiv.org/abs/2111.15205v1 )

ライセンス: CC BY 4.0
Berkant D\"uzg\"un, Aykut \c{C}ay{\i}r, Ferhat Demirk{\i}ran, Ceyda Nur Kayha, Buket Gen\c{c}ayd{\i}n and Hasan Da\u{g}(参考訳) 現在では、マルウェアやマルウェアのインシデントが日々増えており、様々なアンチウイルスシステムやマルウェアの検出や分類方法がある。 多くの静的、動的、ハイブリッドなテクニックが提示され、マルウェアを検出し、それらをマルウェアファミリーに分類している。 動的およびハイブリッドなマルウェア分類法は、静的なマルウェア分類法よりも効率的である。 静的なマルウェア分類において、基盤となるコードよりもマルウェアの挙動を隠蔽することは困難であるため、機械学習技術は、マルウェアを検出し、その家族を動的に判断するセキュリティ専門家の焦点となっている。 マルウェアの急速な増加は、最近および更新された悪意あるソフトウェアのデータセットの必要性も引き起こす。 ひとつは、VirusSamplesから取得、コンパイルされた9,795個のサンプルと、もうひとつはVirusShareから得られた14,616個のサンプルである。 また,Histogramベースの勾配ブースティング,ランダムフォレスト,サポートベクターマシン,XGBoostモデルを用いて,これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスマルウェア分類性能を解析した。 その結果、Support Vector Machineはバランスの取れていないVirusSampleデータセットで94%のスコアを獲得し、同じモデルはバランスのとれたVirusSampleデータセットで91%の精度を持つことがわかった。 最も一般的なグラデーションベースのモデルのひとつであるXGBoostは、90%と80%のスコアを達成している。 VirusShareデータセットの両バージョンで。 本稿では、動的マルウェア分類文献において、最も広く知られている4つの機械学習技術を用いて、ウイルスシェアとウイルスサンプルデータセットのベースライン結果を示す。 この2つのデータセットとベースラインの結果により、この分野の研究者は、それぞれの手法やアプローチをテストし、検証することができます。

Nowadays, malware and malware incidents are increasing daily, even with various anti-viruses systems and malware detection or classification methodologies. Many static, dynamic, and hybrid techniques have been presented to detect malware and classify them into malware families. Dynamic and hybrid malware classification methods have advantages over static malware classification methods by being highly efficient. Since it is difficult to mask malware behavior while executing than its underlying code in static malware classification, machine learning techniques have been the main focus of the security experts to detect malware and determine their families dynamically. The rapid increase of malware also brings the necessity of recent and updated datasets of malicious software. We introduce two new, updated datasets in this work: One with 9,795 samples obtained and compiled from VirusSamples and the one with 14,616 samples from VirusShare. This paper also analyzes multi-class malware classification performance of the balanced and imbalanced version of these two datasets by using Histogram-based gradient boosting, Random Forest, Support Vector Machine, and XGBoost models with API call-based dynamic malware classification. Results show that Support Vector Machine, achieves the highest score of 94% in the imbalanced VirusSample dataset, whereas the same model has 91% accuracy in the balanced VirusSample dataset. While XGBoost, one of the most common gradient boosting-based models, achieves the highest score of 90% and 80%.in both versions of the VirusShare dataset. This paper also presents the baseline results of VirusShare and VirusSample datasets by using the four most widely known machine learning techniques in dynamic malware classification literature. We believe that these two datasets and baseline results enable researchers in this field to test and validate their methods and approaches.
翻訳日:2021-12-02 00:51:11 公開日:2021-11-30
# (参考訳) NeeDrop:ニードルドロップを用いたスパース点雲からの自己教師型形状表現

NeeDrop: Self-supervised Shape Representation from Sparse Point Clouds using Needle Dropping ( http://arxiv.org/abs/2111.15207v1 )

ライセンス: CC BY 4.0
Alexandre Boulch, Pierre-Alain Langlois, Gilles Puy, Renaud Marlet(参考訳) 近年、暗黙の形状表現への関心が高まっている。 明示的な表現とは対照的に、それらは解像度の制限がなく、様々な表面トポロジを簡単に扱うことができる。 これらの暗黙の表現を学習するために、現在のアプローチは一定のレベルの形状の監督(例えば、内外情報や距離から形への知識)、あるいは少なくとも密度の高い点雲(十分な距離から形までの距離)を必要とする。 対照的に,超疎点雲から形状表現を学習するための自己教師あり手法である {\method} を導入する。 バフィンの針の問題と同様に、我々は点雲に針を「投下」(サンプル)し、統計的には表面の近く、針の端点が表面の反対側にあると考える。 形状の知識は必要とせず、lidarポイント雲が車両によって獲得されるなど、ポイントクラウドは非常にスパースである。 従来の自己教師型形状表現アプローチでは、この種のデータに対して良質な結果が得られなかった。 形状復元データセットに対する既存の教師付きアプローチと同等の定量的な結果を得るとともに,kitti のようなハード自動運転データセットに対して有望な質的結果を示す。

There has been recently a growing interest for implicit shape representations. Contrary to explicit representations, they have no resolution limitations and they easily deal with a wide variety of surface topologies. To learn these implicit representations, current approaches rely on a certain level of shape supervision (e.g., inside/outside information or distance-to-shape knowledge), or at least require a dense point cloud (to approximate well enough the distance-to-shape). In contrast, we introduce {\method}, an self-supervised method for learning shape representations from possibly extremely sparse point clouds. Like in Buffon's needle problem, we "drop" (sample) needles on the point cloud and consider that, statistically, close to the surface, the needle end points lie on opposite sides of the surface. No shape knowledge is required and the point cloud can be highly sparse, e.g., as lidar point clouds acquired by vehicles. Previous self-supervised shape representation approaches fail to produce good-quality results on this kind of data. We obtain quantitative results on par with existing supervised approaches on shape reconstruction datasets and show promising qualitative results on hard autonomous driving datasets such as KITTI.
翻訳日:2021-12-02 00:43:36 公開日:2021-11-30
# (参考訳) HRNET: マスク検出とソーシャルディスタンシングのためのエッジ上のAI

HRNET: AI on Edge for mask detection and social distancing ( http://arxiv.org/abs/2111.15208v1 )

ライセンス: CC BY 4.0
Kinshuk Sengupta and Praveen Ranjan Srivastava(参考訳) 本稿の目的は,地域社会が流行状況に対処するための革新的新興技術枠組みを提供することである。 本稿では,市民中心型サービスを対象とした人工知能とエッジコンピューティングを基盤として,マスク検出やソーシャルディスタンシングといった安全政策を公衆や職場で追跡・追跡するための独自のアウトブレイク対応システムフレームワークを提案する。 このフレームワークはさらに、産業環境における実装ガイドラインと、ガバナンスと接触追跡タスクを提供する。 この採用は、生活の質向上に寄与する市民健康システムに焦点を当てたスマートシティの計画と開発に繋がる。 提案された概念フレームワークは、研究者の公開Webサイト、GitHubリポジトリ、著名なジャーナルからの二次データ収集による定量的データ分析を通じて検証され、Microsoft Azureクラウド環境での実験結果のためにさらなるベンチマークが行われた。 この研究は、ベンチマーク分析のための選択的なAIモデルを含み、大規模社会設定のためのエッジコンピューティング環境のパフォーマンスと精度を評価した。 全体 YOLO モデル オブジェクト検出タスクにおけるパフォーマンスは,マスク検出や HRNetV2 のセマンティックセグメンテーション問題に対して十分高速であり,AI-Edge 環境設定におけるソーシャルディスタンシングタスクの解決に応用されている。 本稿では,人間の動きや社会的距離のマスクを検出する技術指向のソリューションを構築するための新しいエッジAIアルゴリズムを提案する。 この論文は、人工知能とエッジコンピューティングの技術の進歩を社会や医療システムの問題に適用するものである。 この枠組みはさらに政府機関やシステムプロバイダに、新興技術を用いた生活の質をスマートな都市環境に高めるために、コミュニティ設定で技術指向モデルの設計と構築を施す。

The purpose of the paper is to provide innovative emerging technology framework for community to combat epidemic situations. The paper proposes a unique outbreak response system framework based on artificial intelligence and edge computing for citizen centric services to help track and trace people eluding safety policies like mask detection and social distancing measure in public or workplace setup. The framework further provides implementation guideline in industrial setup as well for governance and contact tracing tasks. The adoption will thus lead in smart city planning and development focusing on citizen health systems contributing to improved quality of life. The conceptual framework presented is validated through quantitative data analysis via secondary data collection from researcher's public websites, GitHub repositories and renowned journals and further benchmarking were conducted for experimental results in Microsoft Azure cloud environment. The study includes selective AI-models for benchmark analysis and were assessed on performance and accuracy in edge computing environment for large scale societal setup. Overall YOLO model Outperforms in object detection task and is faster enough for mask detection and HRNetV2 outperform semantic segmentation problem applied to solve social distancing task in AI-Edge inferencing environmental setup. The paper proposes new Edge-AI algorithm for building technology-oriented solutions for detecting mask in human movement and social distance. The paper enriches the technological advancement in artificial intelligence and edge-computing applied to problems in society and healthcare systems. The framework further equips government agency, system providers to design and constructs technology-oriented models in community setup to Increase the quality of life using emerging technologies into smart urban environments.
翻訳日:2021-12-01 23:52:52 公開日:2021-11-30
# (参考訳) GANを用いた顔画像認識のための逆例生成

Using a GAN to Generate Adversarial Examples to Facial Image Recognition ( http://arxiv.org/abs/2111.15213v1 )

ライセンス: CC BY 4.0
Andrew Merrigan and Alan F. Smeaton(参考訳) オンラインに投稿された画像には、顔認識システムの参照例として使用される可能性があるというプライバシー上の懸念がある。 このような画像の濫用はプライバシーの権利に反するものだが、対策は難しい。 深層ニューラルネットワークに基づく認識システムでは, 逆例画像が生成可能であることが確立されている。 これらの逆例は、参照例やトレーニングデータとしてのイメージの有用性を損なうために使用することができる。 本研究では,生成的敵ネットワーク(gan)を用いて,顔認識を欺く敵の例を作成し,顔認識を騙すことで許容できる成功率を達成する。 判別器成分を除去することにより, GANのトレーニング時間を短縮する。 さらに,本研究の結果から,スマートフォン上でのコントリビューションが快適に動作することを示す性能に影響を与えずに,結果モデルのサイズを大幅に削減できることを示す。

Images posted online present a privacy concern in that they may be used as reference examples for a facial recognition system. Such abuse of images is in violation of privacy rights but is difficult to counter. It is well established that adversarial example images can be created for recognition systems which are based on deep neural networks. These adversarial examples can be used to disrupt the utility of the images as reference examples or training data. In this work we use a Generative Adversarial Network (GAN) to create adversarial examples to deceive facial recognition and we achieve an acceptable success rate in fooling the face recognition. Our results reduce the training time for the GAN by removing the discriminator component. Furthermore, our results show knowledge distillation can be employed to drastically reduce the size of the resulting model without impacting performance indicating that our contribution could run comfortably on a smartphone
翻訳日:2021-12-01 23:38:58 公開日:2021-11-30
# (参考訳) NeRFReN:反射を伴うニューラルラジアンス場

NeRFReN: Neural Radiance Fields with Reflections ( http://arxiv.org/abs/2111.15234v1 )

ライセンス: CC BY 4.0
Yuan-Chen Guo, Di Kang, Linchao Bao, Yu He, Song-Hai Zhang(参考訳) neural radiance fields(nerf)は、座標ベースのニューラルネットワークシーン表現を使用して、前例のないビュー合成品質を達成している。 しかし、nerfのビュー依存はハイライトのような単純なリフレクションしか扱えないが、ガラスや鏡のような複雑なリフレクションは扱えない。 これらのシナリオでは、NeRFは仮想イメージを実際のジオメトリとしてモデル化し、不正確な深さ推定をもたらし、多重ビューの一貫性が破られたときにぼやけたレンダリングを生成する。 これらの問題を克服するために,NeRF上に構築されたNeRFReNを導入する。 具体的には,シーンを透過的および反射的コンポーネントに分割し,神経放射野を分離した2つのコンポーネントをモデル化する。 この分解が十分に訓練されていないことを考慮し,幾何学的事前事項を活用し,合理的な分解結果を達成するために注意深く設計されたトレーニング戦略を適用する。 様々な自撮りシーンの実験により,シーン編集を可能としながら,高品質な新規ビュー合成と物理音深度推定を実現した。 コードとデータはリリースされる。

Neural Radiance Fields (NeRF) has achieved unprecedented view synthesis quality using coordinate-based neural scene representations. However, NeRF's view dependency can only handle simple reflections like highlights but cannot deal with complex reflections such as those from glass and mirrors. In these scenarios, NeRF models the virtual image as real geometries which leads to inaccurate depth estimation, and produces blurry renderings when the multi-view consistency is violated as the reflected objects may only be seen under some of the viewpoints. To overcome these issues, we introduce NeRFReN, which is built upon NeRF to model scenes with reflections. Specifically, we propose to split a scene into transmitted and reflected components, and model the two components with separate neural radiance fields. Considering that this decomposition is highly under-constrained, we exploit geometric priors and apply carefully-designed training strategies to achieve reasonable decomposition results. Experiments on various self-captured scenes show that our method achieves high-quality novel view synthesis and physically sound depth estimation results while enabling scene editing applications. Code and data will be released.
翻訳日:2021-12-01 23:31:45 公開日:2021-11-30
# (参考訳) ARTSeg: 熱画像のセマンティックセグメンテーションに注意を払う

ARTSeg: Employing Attention for Thermal images Semantic Segmentation ( http://arxiv.org/abs/2111.15257v1 )

ライセンス: CC BY 4.0
Farzeen Munir, Shoaib Azam, Unse Fatima and Moongu Jeon(参考訳) 研究の進展により、ニューラルネットワークアルゴリズムが自動運転車に展開され、周囲を認識できるようになった。 環境の知覚に使用される標準の過敏性センサーは、カメラとライダーである。 したがって、これらの外部受容センサーを用いて開発されたニューラルネットワークアルゴリズムは、自動運転車の知覚に必要な解決策となった。 これらの感光性センサーの大きな欠点は、例えば低照度や夜間のような悪天候条件下での操作性である。 自動運転車のセンサースイートにおけるサーマルカメラの使用性と可利用性は、悪天候下での自動運転車の認識に必要となる改善をもたらす。 環境の意味論は、シーン内の異なるオブジェクトをセグメント化することで達成できる、堅牢な知覚の恩恵を受ける。 本研究では,サーマルカメラを用いてセマンティックセグメンテーションを行った。 サーマルセマンティクスセグメンテーションのためのartegという,注意に基づくリカレント畳み込みネットワーク(rcnn)エンコーダ・デコーダアーキテクチャを設計した。 この研究の主な貢献は、エンコーダとデコーダブロックごとにrcnnの単位を使用するエンコーダ-デコーダアーキテクチャの設計である。 さらに、デコーダモジュールには高解像度の機能を維持し、特徴のローカライゼーションを改善するために追加の注意が用いられる。 提案手法の有効性を公開データセット上で評価し,他の最先端手法と比較し,平均和合(IoU)における性能を向上した。

The research advancements have made the neural network algorithms deployed in the autonomous vehicle to perceive the surrounding. The standard exteroceptive sensors that are utilized for the perception of the environment are cameras and Lidar. Therefore, the neural network algorithms developed using these exteroceptive sensors have provided the necessary solution for the autonomous vehicle's perception. One major drawback of these exteroceptive sensors is their operability in adverse weather conditions, for instance, low illumination and night conditions. The useability and affordability of thermal cameras in the sensor suite of the autonomous vehicle provide the necessary improvement in the autonomous vehicle's perception in adverse weather conditions. The semantics of the environment benefits the robust perception, which can be achieved by segmenting different objects in the scene. In this work, we have employed the thermal camera for semantic segmentation. We have designed an attention-based Recurrent Convolution Network (RCNN) encoder-decoder architecture named ARTSeg for thermal semantic segmentation. The main contribution of this work is the design of encoder-decoder architecture, which employ units of RCNN for each encoder and decoder block. Furthermore, additive attention is employed in the decoder module to retain high-resolution features and improve the localization of features. The efficacy of the proposed method is evaluated on the available public dataset, showing better performance with other state-of-the-art methods in mean intersection over union (IoU).
翻訳日:2021-12-01 23:19:11 公開日:2021-11-30
# (参考訳) マルチモーダルテキスト認識ネットワーク:視覚的特徴と意味的特徴の相互強化

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features ( http://arxiv.org/abs/2111.15263v1 )

ライセンス: CC BY 4.0
Byeonghu Na, Yoonsik Kim, Sungrae Park(参考訳) 言語知識は、文字列を洗練するための意味論を提供することで、シーンのテキスト認識に大きな利益をもたらした。 しかし、言語知識は出力シーケンスに個別に適用されているため、従来の手法ではテキスト認識の視覚的手がかりを理解するためにセマンティクスを十分に活用していなかった。 本稿では,視覚的特徴量と意味的特徴量とのインタラクションを可能にするマルチモーダルテキスト認識ネットワーク(matrn)と呼ばれる新しい手法を提案する。 具体的には、MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。 空間符号化に基づいて、他のモダリティの関連特徴を参照することにより、視覚的特徴と意味的特徴が強化される。 さらに、MATRNは、トレーニングフェーズにおける文字に関連する視覚的手がかりを隠すことで、意味的特徴と視覚的特徴との結合を刺激する。 実験の結果,MATRNは7つのベンチマークにおいて高いマージンを持つ最先端性能を達成し,一方2つのモダリティの組み合わせは有意な改善を示した。 さらなるアブレーション研究により,提案する成分の有効性が証明された。 私たちの実装は公開されます。

Linguistic knowledge has brought great benefits to scene text recognition by providing semantics to refine character sequences. However, since linguistic knowledge has been applied individually on the output sequence, previous methods have not fully utilized the semantics to understand visual clues for text recognition. This paper introduces a novel method, called Multi-modAl Text Recognition Network (MATRN), that enables interactions between visual and semantic features for better recognition performances. Specifically, MATRN identifies visual and semantic feature pairs and encodes spatial information into semantic features. Based on the spatial encoding, visual and semantic features are enhanced by referring to related features in the other modality. Furthermore, MATRN stimulates combining semantic features into visual features by hiding visual clues related to the character in the training phase. Our experiments demonstrate that MATRN achieves state-of-the-art performances on seven benchmarks with large margins, while naive combinations of two modalities show marginal improvements. Further ablative studies prove the effectiveness of our proposed components. Our implementation will be publicly available.
翻訳日:2021-12-01 23:10:19 公開日:2021-11-30
# (参考訳) グラフ表現を用いたビデオベース抑うつ認識のための2段階時間モデルフレームワーク

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation ( http://arxiv.org/abs/2111.15266v1 )

ライセンス: CC0 1.0
Jiaqi Xu, Siyang Song, Keerthy Kusumam, Hatice Gunes, Michel Valstar(参考訳) ビデオベースの自動うつ病解析は、高速で客観的で反復可能な自己評価ソリューションを提供し、近年広く開発されている。 うつ病の手がかりは、様々な時間的スケールの人間の顔行動に反映されるかもしれないが、ほとんどの既存のアプローチは、短期的またはビデオレベルの顔行動からうつ病をモデル化することに焦点を当てている。 この意味では、多段階の短期的およびビデオレベルの顔行動からうつ病の重症度をモデル化する2段階フレームワークを提案する。 短期抑うつ行動モデリングステージ1は、抑うつに関連した表情特徴を複数の短時間尺度から深く学習し、全ての時間的尺度の抑うつ関連手がかりを強化し、非抑うつ音を除去するために抑うつ特徴強調(dfe)モジュールを提案する。 次に、ビデオレベルの抑うつ行動モデリングステージは、ターゲットビデオのすべての短期的特徴をビデオレベルグラフ表現に再符号化し、うつ病関連多スケールビデオレベル時間情報に要約する、2つの新しいグラフ符号化戦略、すなわちシーケンシャルグラフ表現(seg)とスペクトルグラフ表現(spg)を提案する。 その結果、生成したグラフ表現は、短期および長期の顔面行動パターンを用いてうつ病の重症度を予測する。 AVEC 2013 と AVEC 2014 データセットの実験結果から,提案した DFE モジュールは様々な CNN モデルに対して,SPG が他のビデオレベルのモデリング手法よりも優れているのに対して,プレッシャー重大度推定性能を常に向上させることを示した。 さらに重要なことに、提案された2段階のフレームワークで得られた結果は、広く使われている1段階のモデリングアプローチと比較して、有望で堅実なパフォーマンスを示している。

Video-based automatic depression analysis provides a fast, objective and repeatable self-assessment solution, which has been widely developed in recent years. While depression clues may be reflected by human facial behaviours of various temporal scales, most existing approaches either focused on modelling depression from short-term or video-level facial behaviours. In this sense, we propose a two-stage framework that models depression severity from multi-scale short-term and video-level facial behaviours. The short-term depressive behaviour modelling stage first deep learns depression-related facial behavioural features from multiple short temporal scales, where a Depression Feature Enhancement (DFE) module is proposed to enhance the depression-related clues for all temporal scales and remove non-depression noises. Then, the video-level depressive behaviour modelling stage proposes two novel graph encoding strategies, i.e., Sequential Graph Representation (SEG) and Spectral Graph Representation (SPG), to re-encode all short-term features of the target video into a video-level graph representation, summarizing depression-related multi-scale video-level temporal information. As a result, the produced graph representations predict depression severity using both short-term and long-term facial beahviour patterns. The experimental results on AVEC 2013 and AVEC 2014 datasets show that the proposed DFE module constantly enhanced the depression severity estimation performance for various CNN models while the SPG is superior than other video-level modelling methods. More importantly, the result achieved for the proposed two-stage framework shows its promising and solid performance compared to widely-used one-stage modelling approaches.
翻訳日:2021-12-01 22:54:24 公開日:2021-11-30
# (参考訳) MC-SSL0.0: マルチコンセプトセルフスーパーバイザラーニングを目指して

MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning ( http://arxiv.org/abs/2111.15340v1 )

ライセンス: CC BY 4.0
Sara Atito, Muhammad Awais, Ammarah Farooq, Zhenhua Feng, Josef Kittler(参考訳) 自己教師付き事前学習は自然言語処理モデルの選択方法であり、多くの視覚タスクで急速に普及している。 近年、自己監督型事前訓練は、多くの下流視覚アプリケーションにおいて教師付き事前訓練よりも優れており、この分野におけるマイルストーンとなっている。 この優越性は、複数の概念を伝達するが単一の支配的なクラスラベルを使用して注釈付けされるトレーニングイメージの不完全なラベル付けによる負の影響に起因する。 SSL(Self-Supervised Learning)は原則として、この制限はないが、SSLを促進するプリテキストタスクの選択は、学習プロセスを単一の概念出力に向けて推進することによって、この欠点を克服している。 本研究では,ラベルを使わずに画像に現れる概念をモデル化する可能性を検討することを目的とする。 この観点では、提案されたSSLフレームワークMC-SSL0.0は、イメージ内の1つの支配的なラベルをモデル化して、その中のすべての概念から情報を効果的に活用する、マルチコンセプト自己監視学習(MC-SSL)へのステップである。 MC-SSL0.0は、グループマスクモデル学習と、モーメントエンコーダ(教師-学生)フレームワークを使用したデータトークンの擬似概念学習という、2つのコア設計概念で構成されている。 マルチラベルおよびマルチクラス画像分類タスクの実験結果は、MC-SSL0.0が既存のSSLメソッドを超えるだけでなく、教師ありトランスファー学習よりも優れていることを示している。 ソースコードは、コミュニティがより大きなコーパスでトレーニングするために公開されます。

Self-supervised pretraining is the method of choice for natural language processing models and is rapidly gaining popularity in many vision tasks. Recently, self-supervised pretraining has shown to outperform supervised pretraining for many downstream vision applications, marking a milestone in the area. This superiority is attributed to the negative impact of incomplete labelling of the training images, which convey multiple concepts, but are annotated using a single dominant class label. Although Self-Supervised Learning (SSL), in principle, is free of this limitation, the choice of pretext task facilitating SSL is perpetuating this shortcoming by driving the learning process towards a single concept output. This study aims to investigate the possibility of modelling all the concepts present in an image without using labels. In this aspect the proposed SSL frame-work MC-SSL0.0 is a step towards Multi-Concept Self-Supervised Learning (MC-SSL) that goes beyond modelling single dominant label in an image to effectively utilise the information from all the concepts present in it. MC-SSL0.0 consists of two core design concepts, group masked model learning and learning of pseudo-concept for data token using a momentum encoder (teacher-student) framework. The experimental results on multi-label and multi-class image classification downstream tasks demonstrate that MC-SSL0.0 not only surpasses existing SSL methods but also outperforms supervised transfer learning. The source code will be made publicly available for community to train on bigger corpus.
翻訳日:2021-12-01 22:21:46 公開日:2021-11-30
# (参考訳) ZZ-Net: 2Dポイントクラウドのためのユニバーサル回転同変アーキテクチャ

ZZ-Net: A Universal Rotation Equivariant Architecture for 2D Point Clouds ( http://arxiv.org/abs/2111.15341v1 )

ライセンス: CC BY 4.0
Georg B\"okman, Fredrik Kahl and Axel Flinth(参考訳) 本稿では,2次元点雲データにおける回転等分散について考察する。 連続回転同変および置換不変関数を近似できる特定の関数の集合を記述する。 この結果に基づき,2次元点雲を処理可能なニューラルネットワークアーキテクチャを提案し,それらの対称性を近似する関数の普遍性を証明する。 また、類似の等分散特性を維持しつつ、2D-2D対応の集合をインデータとして受け入れるようにアーキテクチャを拡張する方法を示す。 ステレオビジョンにおける必須行列の推定について実験を行った。

In this paper, we are concerned with rotation equivariance on 2D point cloud data. We describe a particular set of functions able to approximate any continuous rotation equivariant and permutation invariant function. Based on this result, we propose a novel neural network architecture for processing 2D point clouds and we prove its universality for approximating functions exhibiting these symmetries. We also show how to extend the architecture to accept a set of 2D-2D correspondences as indata, while maintaining similar equivariance properties. Experiments are presented on the estimation of essential matrices in stereo vision.
翻訳日:2021-12-01 22:03:07 公開日:2021-11-30
# (参考訳) Voint Cloud: 3D理解のためのマルチビューポイントクラウド表現

Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding ( http://arxiv.org/abs/2111.15363v1 )

ライセンス: CC BY 4.0
Abdullah Hamdi, Silvio Giancola, Bernard Ghanem(参考訳) マルチビュー投影法は、3次元分類やセグメンテーションのような3次元理解タスクにおいて有望な性能を示す。 しかし、これらのマルチビューメソッドと広く利用可能な3dポイントクラウドを組み合わせる方法はまだ不明である。 従来の手法では、未学習のヒューリスティックを使ってポイントレベルの特徴を組み合わせる。 この目的のために,複数の視点から抽出した特徴の集合として,各3dポイントを表現するマルチビューポイントクラウド(voint cloud)の概念を紹介する。 この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。 自然に、この新しい表現を畳み込み操作やプール操作と組み合わせることができる。 理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。 本研究では,ScanObjectNN,ModelNet40,ShapeNet Core55の3次元分類と検索における最先端性能を実現する。 さらに,シェープネット部品における3次元意味セグメンテーションの競合性能を実現する。 さらなる分析により、VointNetは他の方法と比較して回転や閉塞に対する堅牢性を改善することが示されている。

Multi-view projection methods have demonstrated promising performance on 3D understanding tasks like 3D classification and segmentation. However, it remains unclear how to combine such multi-view methods with the widely available 3D point clouds. Previous methods use unlearned heuristics to combine features at the point level. To this end, we introduce the concept of the multi-view point cloud (Voint cloud), representing each 3D point as a set of features extracted from several view-points. This novel 3D Voint cloud representation combines the compactness of 3D point cloud representation with the natural view-awareness of multi-view representation. Naturally, we can equip this new representation with convolutional and pooling operations. We deploy a Voint neural network (VointNet) with a theoretically established functional form to learn representations in the Voint space. Our novel representation achieves state-of-the-art performance on 3D classification and retrieval on ScanObjectNN, ModelNet40, and ShapeNet Core55. Additionally, we achieve competitive performance for 3D semantic segmentation on ShapeNet Parts. Further analysis shows that VointNet improves the robustness to rotation and occlusion compared to other methods.
翻訳日:2021-12-01 21:24:58 公開日:2021-11-30
# (参考訳) ColibriDoc: アイイン・ハンド自律型トロカードッキングシステム

ColibriDoc: An Eye-in-Hand Autonomous Trocar Docking System ( http://arxiv.org/abs/2111.15373v1 )

ライセンス: CC BY-SA 4.0
Shervin Dehghani, Michael Sommersperger, Junjie Yang, Benjamin Busam, Kai Huang, Peter Gehlbach, Iulian Iordachita, Nassir Navab and M. Ali Nasseri(参考訳) 網膜手術は複雑な医療処置であり、特別な専門知識と器用さを必要とする。 この目的のために、マイクロサージカルタスクの結果を可能または改善するために、いくつかのロボットプラットフォームが現在開発されている。 このようなロボットの制御は、しばしば網膜に近い眼内を航行するために設計されているため、トロカーのドッキングと眼への挿入の成功は、追加の認知的努力であり、したがってロボット網膜手術における課題の1つである。 この目的のために,コンピュータビジョンとロボットのセットアップを組み合わせた自律トローカードッキングのためのプラットフォームを提案する。 キューバのコリトリ(ハチドリ)にインスパイアされ、そのくちばしを視覚だけを使って花に合わせ、ロボットシステムのエンドエフェクターにカメラを取り付けます。 トロカーの位置とポーズを推定することで、ロボットは自動で楽器をトロカーのエントリーポイント(TEP)に向けて移動させ、最後に挿入を行うことができる。 実験の結果,提案手法はトロカーの位置と姿勢を正確に推定し,自律ドッキングを繰り返すことができることがわかった。 本研究の目的は,手術作業に先立ってロボットによる準備作業の複雑さを低減し,臨床ワークフローへのシステム統合の直感性を高めることである。

Retinal surgery is a complex medical procedure that requires exceptional expertise and dexterity. For this purpose, several robotic platforms are currently being developed to enable or improve the outcome of microsurgical tasks. Since the control of such robots is often designed for navigation inside the eye in proximity to the retina, successful trocar docking and inserting the instrument into the eye represents an additional cognitive effort, and is, therefore, one of the open challenges in robotic retinal surgery. For this purpose, we present a platform for autonomous trocar docking that combines computer vision and a robotic setup. Inspired by the Cuban Colibri (hummingbird) aligning its beak to a flower using only vision, we mount a camera onto the endeffector of a robotic system. By estimating the position and pose of the trocar, the robot is able to autonomously align and navigate the instrument towards the Trocar's Entry Point (TEP) and finally perform the insertion. Our experiments show that the proposed method is able to accurately estimate the position and pose of the trocar and achieve repeatable autonomous docking. The aim of this work is to reduce the complexity of robotic setup preparation prior to the surgical task and therefore, increase the intuitiveness of the system integration into the clinical workflow.
翻訳日:2021-12-01 20:55:33 公開日:2021-11-30
# (参考訳) bert埋め込み法とグラフ畳み込みニューラルネットワークによるテキスト分類問題

Text classification problems via BERT embedding method and graph convolutional neural network ( http://arxiv.org/abs/2111.15379v1 )

ライセンス: CC0 1.0
Loc Hoang Tran, Tuan Tran, An Mai(参考訳) 本稿では,BERT埋め込み法とグラフ畳み込みニューラルネットワークを組み合わせた新しい手法を提案する。 この組み合わせは、テキスト分類問題を解決するために用いられる。 当初,すべてのテキストを数値ベクトルに変換するために,BERT埋め込み方式をテキスト(BBCニュースデータセットとIMDB映画レビューデータセット)に適用した。 次に、グラフ畳み込みニューラルネットワークを数値ベクトルに適用し、これらのテキストをap固有クラス/ラベルに分類する。 実験により,グラフ畳み込みニューラルネットワークモデルの性能は,BERT埋め込み法とクラッシカル機械学習モデルの組み合わせのパーフォマンスよりも優れていることが示された。

This paper presents the novel way combining the BERT embedding method and the graph convolutional neural network. This combination is employed to solve the text classification problem. Initially, we apply the BERT embedding method to the texts (in the BBC news dataset and the IMDB movie reviews dataset) in order to transform all the texts to numerical vector. Then, the graph convolutional neural network will be applied to these numerical vectors to classify these texts into their ap-propriate classes/labels. Experiments show that the performance of the graph convolutional neural network model is better than the perfor-mances of the combination of the BERT embedding method with clas-sical machine learning models.
翻訳日:2021-12-01 20:39:28 公開日:2021-11-30
# (参考訳) ctによる膵管腺癌検出のための完全自動ディープラーニングフレームワーク

Fully Automatic Deep Learning Framework for Pancreatic Ductal Adenocarcinoma Detection on Computed Tomography ( http://arxiv.org/abs/2111.15409v1 )

ライセンス: CC BY 4.0
Nat\'alia Alves, Megan Schuurmans, Geke Litjens, Joeran S. Bosma, John Hermans and Henkjan Huisman(参考訳) 早期発見は膵管腺癌 (PDAC) の予後を改善するが, 造影CT (CE-CT) では病変が小さく, 定義が不十分である。 深層学習はPDAC診断を促進するが、現在のモデルでは小さな (2cm) の病変を識別できない。 本研究では,小病変に着目したpdac自動検出フレームワークの開発に,最先端のディープラーニングモデルを用いた。 さらに, 周囲の解剖学的統合の影響について検討した。 119例のPDAC患者のコホートと123例のPDACのないコホートからCE-CTスキャンを行い,nUnetの自動病変検出とセグメンテーションを訓練した(\textit{nnUnet\_T})。 1)膵・腫瘍の分節化(\textit{nnUnet\_TP})、(2)膵・腫瘍・周囲の複数の解剖学的構造(\textit{nnUnet\_MS})の分節化。 3つのネットワークの性能を比較するために、外部で公開されたテストセットが使用された。 この \textit{nnunet\_ms} は、テストセット全体の受信者の動作特性曲線 0.91 と腫瘍 <2cm の 0.88 の領域において最高の性能を達成し、最先端のディープラーニングが小さなpdac を検出し、解剖学的情報から利益を得ることができることを示した。

Early detection improves prognosis in pancreatic ductal adenocarcinoma (PDAC) but is challenging as lesions are often small and poorly defined on contrast-enhanced computed tomography scans (CE-CT). Deep learning can facilitate PDAC diagnosis, however current models still fail to identify small (<2cm) lesions. In this study, state-of-the-art deep learning models were used to develop an automatic framework for PDAC detection, focusing on small lesions. Additionally, the impact of integrating surrounding anatomy was investigated. CE-CT scans from a cohort of 119 pathology-proven PDAC patients and a cohort of 123 patients without PDAC were used to train a nnUnet for automatic lesion detection and segmentation (\textit{nnUnet\_T}). Two additional nnUnets were trained to investigate the impact of anatomy integration: (1) segmenting the pancreas and tumor (\textit{nnUnet\_TP}), (2) segmenting the pancreas, tumor, and multiple surrounding anatomical structures (\textit{nnUnet\_MS}). An external, publicly available test set was used to compare the performance of the three networks. The \textit{nnUnet\_MS} achieved the best performance, with an area under the receiver operating characteristic curve of 0.91 for the whole test set and 0.88 for tumors <2cm, showing that state-of-the-art deep learning can detect small PDAC and benefits from anatomy information.
翻訳日:2021-12-01 20:33:18 公開日:2021-11-30
# (参考訳) マイナーチェンジが違いをもたらす:UDベースの依存性パーサの整合性に関するケーススタディ

Minor changes make a difference: a case study on the consistency of UD-based dependency parsers ( http://arxiv.org/abs/2111.15413v1 )

ライセンス: CC BY 4.0
Dmytro Kalpakchi and Johan Boye(参考訳) 多くのダウンストリームアプリケーションは依存性ツリーを使用しており、正しい、あるいは少なくとも一貫性のある出力を生成する依存関係パーサに依存している。 しかし、依存関係パーサは機械学習を使って訓練されるため、トレーニングデータにバイアスがあるため、望ましくない不整合に影響を受けやすい。 本稿では, 日本語, スウェーデン語, ロシア語, ウクライナ語におけるこれらのバイアスの影響について検討するが, 文中の数字を置き換える効果について検討する。 このような不明瞭な入力の変化は出力に大きな差をもたらす可能性があることを示し、データ拡張が問題を改善することを示唆する。

Many downstream applications are using dependency trees, and are thus relying on dependency parsers producing correct, or at least consistent, output. However, dependency parsers are trained using machine learning, and are therefore susceptible to unwanted inconsistencies due to biases in the training data. This paper explores the effects of such biases in four languages - English, Swedish, Russian, and Ukrainian - though an experiment where we study the effect of replacing numerals in sentences. We show that such seemingly insignificant changes in the input can cause large differences in the output, and suggest that data augmentation can remedy the problems.
翻訳日:2021-12-01 20:20:49 公開日:2021-11-30
# (参考訳) 顔認識システムの最悪の悪夢、理論的には

A Face Recognition System's Worst Morph Nightmare, Theoretically ( http://arxiv.org/abs/2111.15416v1 )

ライセンス: CC BY-SA 4.0
Una M. Kelly, Raymond Veldhuis, Luuk Spreeuwers(参考訳) 顔認識システム(FRS)はモルヒネ攻撃に弱いことが示されているが、ほとんどの研究はランドマークベースの形態に焦点を当てている。 形態を生成する第2の方法はGenerative Adversarial Networks(ジェネラティブ・アドバイサル・ネットワークズ)を使っており、その結果、FRSにとってランドマークベースの攻撃と同じくらい難しい、説得力のある実際の顔画像が得られる。 本稿では,訓練が容易になるという利点を持つ,第3の異なる形態を創り出す手法を提案する。 我々は、固定された frs に対して最も難しい形態である \textit{worst-case morphs} の理論的な概念を導入する。 FRSの潜伏空間における画像と対応する埋め込みに対して、埋め込み空間から画像空間への写像を用いて、これらの最悪のケース形態を近似した画像を生成する。 得られた画像は、他の形態ほど難しいものではないが、将来のMorphing Detection(MAD)法やFRSの弱点について、貴重な情報を提供することができる。 MADの方法は、より多様な形態データベース上で検証する必要がある。 提案手法は,そのような変動の達成に寄与する。

It has been shown that Face Recognition Systems (FRSs) are vulnerable to morphing attacks, but most research focusses on landmark-based morphs. A second method for generating morphs uses Generative Adversarial Networks, which results in convincingly real facial images that can be almost as challenging for FRSs as landmark-based attacks. We propose a method to create a third, different type of morph, that has the advantage of being easier to train. We introduce the theoretical concept of \textit{worst-case morphs}, which are those morphs that are most challenging for a fixed FRS. For a set of images and corresponding embeddings in an FRS's latent space, we generate images that approximate these worst-case morphs using a mapping from embedding space back to image space. While the resulting images are not yet as challenging as other morphs, they can provide valuable information in future research on Morphing Attack Detection (MAD) methods and on weaknesses of FRSs. Methods for MAD need to be validated on more varied morph databases. Our proposed method contributes to achieving such variation.
翻訳日:2021-12-01 20:10:35 公開日:2021-11-30
# (参考訳) 単語センスの曖昧さに対する変換器の比較検討

A Comparative Study of Transformers on Word Sense Disambiguation ( http://arxiv.org/abs/2111.15417v1 )

ライセンス: CC BY 4.0
Avi Chawla and Nidhi Mulay and Vikas Bishnoi and Gaurav Dhama and Dr. Anil Kumar Singh(参考訳) 近年の自然言語処理(NLP)の研究は、文脈対応言語表現を生成するための大規模モデルのトレーニングにおいて、劇的な成長を見せている。 この点において、多くのNLPシステムは、ニューラルネットワークベースのアーキテクチャのパワーを活用して、埋め込みにセンス情報を組み込むことにより、コンテキスト化されたワード埋め込み(CWE)を実現している。 この進歩にもかかわらず、NLPコミュニティは、そのようなアーキテクチャの文脈化能力の比較研究を行う重要な研究を目撃していない。 本稿では,9つの広く採用されているトランスフォーマーモデルの比較研究と広範な解析を行う。 これらのモデルはBERT、CTRL、DistilBERT、OpenAI-GPT、OpenAI-GPT2、Transformer-XL、XLNet、ELECTRA、ALBERTである。 本稿では,2つの単語センス曖昧化(WSD)タスクであるSensEval-2とSensEval-3を用いて文脈化能力を評価する。 我々は、CWE上でk-Nearest Neighbor(kNN)分類を使用するWSDに対して、シンプルで効果的なアプローチを採用する。 実験結果から,提案手法は両WSDタスクの現況よりも優れた結果が得られることが示された。

Recent years of research in Natural Language Processing (NLP) have witnessed dramatic growth in training large models for generating context-aware language representations. In this regard, numerous NLP systems have leveraged the power of neural network-based architectures to incorporate sense information in embeddings, resulting in Contextualized Word Embeddings (CWEs). Despite this progress, the NLP community has not witnessed any significant work performing a comparative study on the contextualization power of such architectures. This paper presents a comparative study and an extensive analysis of nine widely adopted Transformer models. These models are BERT, CTRL, DistilBERT, OpenAI-GPT, OpenAI-GPT2, Transformer-XL, XLNet, ELECTRA, and ALBERT. We evaluate their contextualization power using two lexical sample Word Sense Disambiguation (WSD) tasks, SensEval-2 and SensEval-3. We adopt a simple yet effective approach to WSD that uses a k-Nearest Neighbor (kNN) classification on CWEs. Experimental results show that the proposed techniques also achieve superior results over the current state-of-the-art on both the WSD tasks
翻訳日:2021-12-01 20:01:40 公開日:2021-11-30
# (参考訳) ファイナントトランスデューサ, ディフェンスシステム, ファイナント代替品の不確定性

Undecidability in Finite Transducers, Defense Systems and Finite Substitutions ( http://arxiv.org/abs/2111.15420v1 )

ライセンス: CC BY 4.0
Vesa Halava(参考訳) この原稿では、正規言語 $b\{0,1\}^*c$ 上の有限置換の同値性の決定不能性の詳細な証明を示す。 この証明はLeonid P. Lisovikの業績に基づいている。

In this manuscript we present a detailed proof for undecidability of the equivalence of finite substitutions on regular language $b\{0,1\}^*c$. The proof is based on the works of Leonid P. Lisovik.
翻訳日:2021-12-01 19:54:52 公開日:2021-11-30
# (参考訳) 非線形素数-双対ハイブリッド勾配アルゴリズムによる効率的でロジスティック回帰

Efficient and robust high-dimensional sparse logistic regression via nonlinear primal-dual hybrid gradient algorithms ( http://arxiv.org/abs/2111.15426v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon and Gabriel P. Langlois(参考訳) ロジスティック回帰は、データセットのバイナリ応答変数と予測変数の関係を記述するために広く用いられる統計モデルである。 機械学習で重要な予測変数を特定するためによく使われる。 このタスク、変数の選択は、通常、$\ell_1$と$\ell_{2}^{2}$ペナルティの凸結合によって正規化されたロジスティック回帰モデルに適合する。 現代のビッグデータは数十万から数十億の予測変数を含むことができるため、変数選択法は効率的で堅牢な最適化アルゴリズムに依存している。 しかし、変数選択のための最先端のアルゴリズムは、従来、ビッグデータの集合を扱うように設計されていなかった。 したがって、十分な計算資源にアクセスすることなく、データセット上で変数の選択を実行することは依然として困難である。 本稿では,これらの欠点に対処する非線形原始双対アルゴリズムを提案する。 具体的には,$o(t(m,n)\log(1/\epsilon))$演算において弾性ネットペナルティによって正規化されたロジスティック回帰問題に対する解を証明可能な反復アルゴリズムを提案し,ここで$\epsilon \in (0,1)$ は許容値を示し,$t(m,n)$ は$n$特徴を含むデータ集合上で行列ベクトル乗算を行うのに必要な演算演算数を表す。 この結果は、古典的原始双対ハイブリッド勾配や前方後方分割法のような一階最適化法に対して$O(\min(m^2n,mn^2)\log(1/\epsilon))$の既知の複雑性境界を改善する。

Logistic regression is a widely used statistical model to describe the relationship between a binary response variable and predictor variables in data sets. It is often used in machine learning to identify important predictor variables. This task, variable selection, typically amounts to fitting a logistic regression model regularized by a convex combination of $\ell_1$ and $\ell_{2}^{2}$ penalties. Since modern big data sets can contain hundreds of thousands to billions of predictor variables, variable selection methods depend on efficient and robust optimization algorithms to perform well. State-of-the-art algorithms for variable selection, however, were not traditionally designed to handle big data sets; they either scale poorly in size or are prone to produce unreliable numerical results. It therefore remains challenging to perform variable selection on big data sets without access to adequate and costly computational resources. In this paper, we propose a nonlinear primal-dual algorithm that addresses these shortcomings. Specifically, we propose an iterative algorithm that provably computes a solution to a logistic regression problem regularized by an elastic net penalty in $O(T(m,n)\log(1/\epsilon))$ operations, where $\epsilon \in (0,1)$ denotes the tolerance and $T(m,n)$ denotes the number of arithmetic operations required to perform matrix-vector multiplication on a data set with $m$ samples each comprising $n$ features. This result improves on the known complexity bound of $O(\min(m^2n,mn^2)\log(1/\epsilon))$ for first-order optimization methods such as the classic primal-dual hybrid gradient or forward-backward splitting methods.
翻訳日:2021-12-01 19:37:59 公開日:2021-11-30
# (参考訳) TiWS-iForest: 弱監視と微妙なMLシナリオにおける分離フォレスト

TiWS-iForest: Isolation Forest in Weakly Supervised and Tiny ML scenarios ( http://arxiv.org/abs/2111.15432v1 )

ライセンス: CC BY 4.0
Tommaso Barbariol and Gian Antonio Susto(参考訳) 教師なし異常検出(unsupervised anomaly detection)は、ラベルの可用性なしにデータセット内で異常を見つけるという問題に対処する。 この文脈において、アイソレーション・フォレスト(Isolation Forest)は、アイソレーション・ツリー(Isolation Tree)と呼ばれる独特の木のアンサンブルを用いて、異常スコアを定義できる一般的なアルゴリズムである。 これらはランダムなパーティショニング手順を使用して構築されており、非常に高速で、トレーニングが安価である。 しかし、メモリ要件、レイテンシ、パフォーマンスの点で標準アルゴリズムは改善される可能性があり、これは低リソースシナリオや超制約マイクロプロセッサ上でのTinyML実装において特に重要である。 さらに、現在、異常検出アプローチは、弱い監督の利点を生かしていない:通常、決定支援システムで消費される、ユーザからのフィードバックは、たとえ稀であっても、現在探索されていない貴重な情報の源となり得る。 iForestトレーニングの制限を示すだけでなく、弱い監視を活用することで、分離森林の複雑さを減らし、検出性能を向上させることができるTiWS-iForestを提案する。 実単語データセットに対するTiWS-iForestの有効性を示し、再現性を高めるために公開リポジトリでコードを共有する。

Unsupervised anomaly detection tackles the problem of finding anomalies inside datasets without the labels availability; since data tagging is typically hard or expensive to obtain, such approaches have seen huge applicability in recent years. In this context, Isolation Forest is a popular algorithm able to define an anomaly score by means of an ensemble of peculiar trees called isolation trees. These are built using a random partitioning procedure that is extremely fast and cheap to train. However, we find that the standard algorithm might be improved in terms of memory requirements, latency and performances; this is of particular importance in low resources scenarios and in TinyML implementations on ultra-constrained microprocessors. Moreover, Anomaly Detection approaches currently do not take advantage of weak supervisions: being typically consumed in Decision Support Systems, feedback from the users, even if rare, can be a valuable source of information that is currently unexplored. Beside showing iForest training limitations, we propose here TiWS-iForest, an approach that, by leveraging weak supervision is able to reduce Isolation Forest complexity and to enhance detection performances. We showed the effectiveness of TiWS-iForest on real word datasets and we share the code in a public repository to enhance reproducibility.
翻訳日:2021-12-01 19:20:42 公開日:2021-11-30
# (参考訳) KARL-Trans-NER:トランスフォーマを用いた名前付きエンティティ認識のための知識認識表現学習

KARL-Trans-NER: Knowledge Aware Representation Learning for Named Entity Recognition using Transformers ( http://arxiv.org/abs/2111.15436v1 )

ライセンス: CC BY 4.0
Avi Chawla, Nidhi Mulay, Vikas Bishnoi, Gaurav Dhama(参考訳) bert、elmo、flairなどのモデルを用いた文脈情報モデリングの開始は、単語の表現学習を大幅に改善した。 また、ほとんどすべてのNLPタスク – 機械翻訳、テキスト要約、名前付きエンティティ認識 – において、SOTA結果が与えられた。 本研究では,これらの支配的文脈認識表現に加えて,名前付きエンティティ認識(NER)のための知識認識表現学習(KARL)ネットワークを提案する。 我々は,NERの世界の知識を取り入れた既存手法の課題について議論し,これらの課題を克服するために提案手法をどのように活用できるかを示す。 KARLは、ファクトトリプレットとして表される大きな知識ベースを利用し、それらをグラフコンテキストに変換し、内部に存在する重要なエンティティ情報を抽出して、特徴拡張のためのコンテキスト化三重項表現を生成するトランスフォーマーエンコーダに基づいている。 実験結果から,KARL を用いた拡張は NER システムの性能を大幅に向上させ,既存の 3 つの NER データセット(CoNLL 2003,CoNLL++,OntoNotes v5 など)の文献上のアプローチよりもはるかに優れた結果が得られることが示された。 また、より優れた一般化と実世界の設定への応用をkarl on unseen entitiesで観察する。

The inception of modeling contextual information using models such as BERT, ELMo, and Flair has significantly improved representation learning for words. It has also given SOTA results in almost every NLP task - Machine Translation, Text Summarization and Named Entity Recognition, to name a few. In this work, in addition to using these dominant context-aware representations, we propose a Knowledge Aware Representation Learning (KARL) Network for Named Entity Recognition (NER). We discuss the challenges of using existing methods in incorporating world knowledge for NER and show how our proposed methods could be leveraged to overcome those challenges. KARL is based on a Transformer Encoder that utilizes large knowledge bases represented as fact triplets, converts them to a graph context, and extracts essential entity information residing inside to generate contextualized triplet representation for feature augmentation. Experimental results show that the augmentation done using KARL can considerably boost the performance of our NER system and achieve significantly better results than existing approaches in the literature on three publicly available NER datasets, namely CoNLL 2003, CoNLL++, and OntoNotes v5. We also observe better generalization and application to a real-world setting from KARL on unseen entities.
翻訳日:2021-12-01 19:07:16 公開日:2021-11-30
# (参考訳) FMD-cGAN:条件付き生成対向ネットワークを用いた高速モーションデブロアリング

FMD-cGAN: Fast Motion Deblurring using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2111.15438v1 )

ライセンス: CC BY 4.0
Jatin Kumar and Indra Deep Mastan and Shanmuganathan Raman(参考訳) 本稿では,1枚の画像のブラインド動作に有効なFMD-cGAN(Fast Motion Deblurring-Conditional Generative Adversarial Network)を提案する。 FMD-cGANは、画像が損なわれた後、印象的な構造的類似性と視覚的外観を提供する。 他のディープニューラルネットワークアーキテクチャと同様に、GANも大きなモデルサイズ(パラメータ)と計算に悩まされている。 モバイルやロボティクスなどのリソース制約デバイスにモデルをデプロイするのは容易ではない。 奥行き分離可能な畳み込みからなるMobileNetベースのアーキテクチャの助けを借りて,画像の品質を損なうことなく,モデルサイズと推論時間を短縮する。 具体的には、最も近い競合と比較してモデルサイズを3~60倍削減する。 その結果、圧縮されたデブロアリングcGANは、最も近い競合より高速で、定性的かつ定量的な結果でさえ、最近提案された最先端のブラインドモーションデブロアリングモデルより優れていた。 リアルタイムのイメージデブロア処理にもモデルを使用できます。 現在の標準データセット実験では,提案手法の有効性が示されている。

In this paper, we present a Fast Motion Deblurring-Conditional Generative Adversarial Network (FMD-cGAN) that helps in blind motion deblurring of a single image. FMD-cGAN delivers impressive structural similarity and visual appearance after deblurring an image. Like other deep neural network architectures, GANs also suffer from large model size (parameters) and computations. It is not easy to deploy the model on resource constraint devices such as mobile and robotics. With the help of MobileNet based architecture that consists of depthwise separable convolution, we reduce the model size and inference time, without losing the quality of the images. More specifically, we reduce the model size by 3-60x compare to the nearest competitor. The resulting compressed Deblurring cGAN faster than its closest competitors and even qualitative and quantitative results outperform various recently proposed state-of-the-art blind motion deblurring models. We can also use our model for real-time image deblurring tasks. The current experiment on the standard datasets shows the effectiveness of the proposed method.
翻訳日:2021-12-01 18:52:56 公開日:2021-11-30
# (参考訳) 完全グラフにおけるプルの漸近

Asymptotics for Pull on the Complete Graph ( http://arxiv.org/abs/2111.15445v1 )

ライセンス: CC BY 4.0
Konstantinos Panagiotou and Simon Reisser(参考訳) 意見形成に対する敵対的影響を研究するための以下のモデルを考える。 当初選ばれた専門家の集まりは、敵対者の影響を受けながら二項意見を形成する。 ネットワークの他のすべての参加者は、近隣の専門家の大多数の意見を受け取る。 敵は、ネットワークの大多数が虚偽を信じるような方法で専門家に影響を与えるだろうか? アロンなど。 [1] この文脈では、反復的な散布過程は常に敵にとって有益である。 この研究は、その予想に反例を与える。 [1] N. Alon, M. Feldman, O. Lev, M. Tennenholtz。 群衆の知恵はどんなにロバストか? 第24回人工知能国際合同会議(ijcai 2015)第2055-2061頁。

Consider the following model to study adversarial effects on opinion forming. A set of initially selected experts form their binary opinion while being influenced by an adversary, who may convince some of them of the falsehood. All other participants in the network then take the opinion of the majority of their neighbouring experts. Can the adversary influence the experts in such a way that the majority of the network believes the falsehood? Alon et al. [1] conjectured that in this context an iterative dissemination process will always be beneficial to the adversary. This work provides a counterexample to that conjecture. [1] N. Alon, M. Feldman, O. Lev, and M. Tennenholtz. How Robust Is the Wisdom of the Crowds? In Proceedings of the 24th International Joint Conference on Artificial Intelligence (IJCAI 2015), pages 2055-2061, 2015.
翻訳日:2021-12-01 18:40:41 公開日:2021-11-30
# (参考訳) ピンポンを光で演奏する:白色光の指向性発光

Playing Ping Pong with Light: Directional Emission of White Light ( http://arxiv.org/abs/2111.15486v1 )

ライセンス: CC BY-SA 4.0
Heribert Wankerl and Christopher Wiesmann and Laura Kreiner and Rainer Butendeich and Alexander Luce and Sandra Sobczyk and Maike Lorena Stern and Elmar Wolfgang Lang(参考訳) 過去数十年間、発光ダイオード(LED)は、スマートフォンの懐中電灯から自動車のヘッドライトまで、ほぼすべてのアプリケーションで一般的な電球を置き換えてきた。 夜間の街路を照らすには、人間の目には真っ白な光スペクトルを発光させる必要がある。 このような白色光スペクトルに関連するパワーは、寄与する波長だけでなく、視覚の角度にも分布する。 多くの用途において、使用可能な光線はledを前方に、すなわち垂直に小さな角度で離す必要がある。 そこで本研究では,白色led上に特異的に設計された多層薄膜が,白色光を前方に放射するパワーを高めることを実証する。 したがって、推定された多目的最適化問題は、工学問題の階層構造を表す実数値物理誘導目的関数によって再構成される。 レイトレーシングシミュレーションに基づく非決定論的目的関数を最大化するためにベイズ最適化の変数を用いる。 最終的に、適切な多層薄膜の光学特性の研究により、白色光の方向性の増大の背後にあるメカニズムを特定できるようになった: 角度と波長選択的フィルタリングにより、多層薄膜はピンポンを光線で演奏する。

Over the last decades, light-emitting diodes (LED) have replaced common light bulbs in almost every application, from flashlights in smartphones to automotive headlights. Illuminating nightly streets requires LEDs to emit a light spectrum that is perceived as pure white by the human eye. The power associated with such a white light spectrum is not only distributed over the contributing wavelengths but also over the angles of vision. For many applications, the usable light rays are required to exit the LED in forward direction, namely under small angles to the perpendicular. In this work, we demonstrate that a specifically designed multi-layer thin film on top of a white LED increases the power of pure white light emitted in forward direction. Therefore, the deduced multi-objective optimization problem is reformulated via a real-valued physics-guided objective function that represents the hierarchical structure of our engineering problem. Variants of Bayesian optimization are employed to maximize this non-deterministic objective function based on ray tracing simulations. Eventually, the investigation of optical properties of suitable multi-layer thin films allowed to identify the mechanism behind the increased directionality of white light: angle and wavelength selective filtering causes the multi-layer thin film to play ping pong with rays of light.
翻訳日:2021-12-01 18:28:09 公開日:2021-11-30
# (参考訳) frob: 分類と分散検出のためのロバストモデル

FROB: Few-shot ROBust Model for Classification and Out-of-Distribution Detection ( http://arxiv.org/abs/2111.15487v1 )

ライセンス: CC BY 4.0
Nikolaos Dionelis(参考訳) 今日では、マイナショット設定における分類と分散(ood)検出は、マイナショット設定におけるラリティーと限られたサンプル、および敵対的な攻撃のために、挑戦的な目標のままである。 これらの目的の達成は、安全、セキュリティ、防衛において重要なシステムにとって重要である。 深層ニューラルネットワーク分類器はトレーニングデータからoodサンプルへの信頼度が高いため、ood検出は並行して難しい。 このような制約に対処するため,Few-shot ROBust (FROB) モデルを提案する。 我々は,少数のood検出に対して,ロバスト性の向上と信頼性の高い信頼度予測を実現する。 正規クラス分布の支持境界を生成し、それを数発のOutlier Exposure(OE)と組み合わせる。 本稿では,生成モデルと識別モデルに基づく自己教師あり学習の少数ショット信頼境界手法を提案する。 FROBの貢献は、自己教師付き学習方式で生成された境界と、この学習境界における低信頼の付与の組み合わせである。 FROB は,OoD の強い反対サンプルを暗黙的に生成し,我々の境界を含む OoD からのサンプルを,分類器による信頼性の低下を強制する。 FROBは、訓練データセットと相関しないテストセットにおいて、未知に適用可能なOoDの一般化を実現している。 堅牢性を改善するため、FROBはOEを再設計し、ゼロショットでも動作するようにした。 我々の境界を含めることで、FROBはモデルの少数ショットのロバスト性に関連するしきい値を減らすことができ、OoDの性能は数ショットの数にほぼ依存しない。 異なるセットと1クラス分類 (occ) データにおける frob のロバスト性評価は, frob が競合性能を達成し, 異常な少数ショットのサンプル数と変動性にロバスト性という点で, ベンチマークを上回っていることを示している。

Nowadays, classification and Out-of-Distribution (OoD) detection in the few-shot setting remain challenging aims due to rarity and the limited samples in the few-shot setting, and because of adversarial attacks. Accomplishing these aims is important for critical systems in safety, security, and defence. In parallel, OoD detection is challenging since deep neural network classifiers set high confidence to OoD samples away from the training data. To address such limitations, we propose the Few-shot ROBust (FROB) model for classification and few-shot OoD detection. We devise FROB for improved robustness and reliable confidence prediction for few-shot OoD detection. We generate the support boundary of the normal class distribution and combine it with few-shot Outlier Exposure (OE). We propose a self-supervised learning few-shot confidence boundary methodology based on generative and discriminative models. The contribution of FROB is the combination of the generated boundary in a self-supervised learning manner and the imposition of low confidence at this learned boundary. FROB implicitly generates strong adversarial samples on the boundary and forces samples from OoD, including our boundary, to be less confident by the classifier. FROB achieves generalization to unseen OoD with applicability to unknown, in the wild, test sets that do not correlate to the training datasets. To improve robustness, FROB redesigns OE to work even for zero-shots. By including our boundary, FROB reduces the threshold linked to the model's few-shot robustness; it maintains the OoD performance approximately independent of the number of few-shots. The few-shot robustness analysis evaluation of FROB on different sets and on One-Class Classification (OCC) data shows that FROB achieves competitive performance and outperforms benchmarks in terms of robustness to the outlier few-shot sample population and variability.
翻訳日:2021-12-01 18:14:04 公開日:2021-11-30
# (参考訳) PolyWorld: 衛星画像におけるグラフニューラルネットワークを用いた多角形建物の抽出

PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images ( http://arxiv.org/abs/2111.15491v1 )

ライセンス: CC0 1.0
Stefano Zorzi, Shabab Bazrafkan, Stefan Habenschuss, Friedrich Fraundorfer(参考訳) ほとんどの最先端のインスタンスセグメンテーション法はバイナリセグメンテーションマスクを生成するが、地理的および地図的応用は通常、ラスタ化出力の代わりに抽出されたオブジェクトの正確なベクトルポリゴンを必要とする。 本稿では、画像から直接建物頂点を抽出し、それらを正しく接続して正確なポリゴンを生成するニューラルネットワークPolyWorldを紹介する。 このモデルは,グラフニューラルネットワークを用いて各頂点間の接続強度を予測し,最適輸送問題の解法により割り当てを推定する。 また、頂点位置は、分割と多角角差の損失を最小化することにより最適化される。 PolyWorldは、ポリゴン化の最先端を著しく上回り、目立った定量的結果を得るだけでなく、視覚的に喜ぶビルディングポリゴンも生み出す。 コードとトレーニングされた重みは、間もなくgithubで入手できる。

Most state-of-the-art instance segmentation methods produce binary segmentation masks, however, geographic and cartographic applications typically require precise vector polygons of extracted objects instead of rasterized output. This paper introduces PolyWorld, a neural network that directly extracts building vertices from an image and connects them correctly to create precise polygons. The model predicts the connection strength between each pair of vertices using a graph neural network and estimates the assignments by solving a differentiable optimal transport problem. Moreover, the vertex positions are optimized by minimizing a combined segmentation and polygonal angle difference loss. PolyWorld significantly outperforms the state-of-the-art in building polygonization and achieves not only notable quantitative results, but also produces visually pleasing building polygons. Code and trained weights will be soon available on github.
翻訳日:2021-12-01 17:40:04 公開日:2021-11-30
# (参考訳) 医用画像登録のための正規化方向表現

Regularized directional representations for medical image registration ( http://arxiv.org/abs/2111.15509v1 )

ライセンス: CC BY 4.0
Vincent Jaouen, Pierre-Henri Conze, Guillaume Dardenne, Julien Bert and Dimitris Visvikis(参考訳) 画像登録では、一般的な正規化相互情報基準に代わる選択肢の開発に多くの努力が払われている。 これらの取り組みと並行して、画像自体ではなく、画像の構造的表現を整列させることにより、登録精度の大幅な向上も達成できることを示す研究が増えている。 そこで本研究では,勾配ベクトル場などの構造情報から導出される正則化ベクトル場のアライメントに基づく,モノモダル画像とマルチモーダル画像の登録手法を提案する。 本手法は,インテンシティに基づく登録とベクトル場類似性を置換することにより,既存の登録フレームワークと容易に組み合わせることができる。 提案手法は,画像の多様性と解剖学的位置の多様性を用いて,複数の公開画像データセット上の従来の画像アライメントと比較した。

In image registration, many efforts have been devoted to the development of alternatives to the popular normalized mutual information criterion. Concurrently to these efforts, an increasing number of works have demonstrated that substantial gains in registration accuracy can also be achieved by aligning structural representations of images rather than images themselves. Following this research path, we propose a new method for mono- and multimodal image registration based on the alignment of regularized vector fields derived from structural information such as gradient vector flow fields, a technique we call \textit{vector field similarity}. Our approach can be combined in a straightforward fashion with any existing registration framework by substituting vector field similarity to intensity-based registration. In our experiments, we show that the proposed approach compares favourably with conventional image alignment on several public image datasets using a diversity of imaging modalities and anatomical locations.
翻訳日:2021-12-01 17:23:10 公開日:2021-11-30
# (参考訳) 3次元海洋生態系モデルにおけるパラメータ同定のための人工ニューラルネットワークを用いた代理型最適化

Surrogate-based optimization using an artificial neural network for a parameter identification in a 3D marine ecosystem model ( http://arxiv.org/abs/2111.15597v1 )

ライセンス: CC BY 4.0
Markus Pfeil and Thomas Slawig(参考訳) 海洋生態系モデルのパラメータ同定は観測データに対する海洋生態系モデルの評価と検証に重要である。 surrogate-based optimization (sbo) は複雑なモデルを最適化する計算効率の高い手法である。 SBOは計算コストの高い(高忠実度)モデルを、精度が低いが計算コストの低い(低忠実度)モデルと適切な補正手法を組み合わせて構築したサロゲートで置き換え、低忠実度モデルの精度を向上させる。 計算量的に安価な低忠実度モデルを構築するために,海洋生態系モデルにおける年次周期解(定常年次サイクル)の近似を計算するための3つの異なるアプローチをテストした。 ANNのみを用いた低忠実度モデルを除いて、SBOは目標に近い解を与え、計算労力を大幅に削減した。 海洋生態系モデルを適切に近似するANNが利用可能であれば、このANNを低忠実度モデルとして使用するSBOは、有望かつ効率的な検証方法を示す。

Parameter identification for marine ecosystem models is important for the assessment and validation of marine ecosystem models against observational data. The surrogate-based optimization (SBO) is a computationally efficient method to optimize complex models. SBO replaces the computationally expensive (high-fidelity) model by a surrogate constructed from a less accurate but computationally cheaper (low-fidelity) model in combination with an appropriate correction approach, which improves the accuracy of the low-fidelity model. To construct a computationally cheap low-fidelity model, we tested three different approaches to compute an approximation of the annual periodic solution (i.e., a steady annual cycle) of a marine ecosystem model: firstly, a reduced number of spin-up iterations (several decades instead of millennia), secondly, an artificial neural network (ANN) approximating the steady annual cycle and, finally, a combination of both approaches. Except for the low-fidelity model using only the ANN, the SBO yielded a solution close to the target and reduced the computational effort significantly. If an ANN approximating appropriately a marine ecosystem model is available, the SBO using this ANN as low-fidelity model presents a promising and computational efficient method for the validation.
翻訳日:2021-12-01 17:06:52 公開日:2021-11-30
# (参考訳) 機械学習によるハドロン化の研究

Studying Hadronization by Machine Learning Techniques ( http://arxiv.org/abs/2111.15655v1 )

ライセンス: CC BY 4.0
G\'abor B\'ir\'o and Bence Tank\'o-Bartalis and Gergely G\'abor Barnaf\"oldi(参考訳) ハドロン化は非摂動過程であり、理論的な記述は第一原理から導出できない。 ハドロンの形成をモデル化するにはいくつかの仮定と様々な現象学的アプローチが必要である。 最先端のコンピュータビジョンとディープラーニングアルゴリズムを利用することで、ニューラルネットワークをトレーニングして、物理的プロセスの非線形および非摂動的特徴を学ぶことが可能になる。 本研究では,グローバルおよびキネマティックな量,実際ジェット変数とイベント型変数を調査し,2つのresnetネットワークの結果を示す。 広く用いられているLund文字列断片化モデルは、さらなるLHCエネルギーで最も関連する観測値を予測するために、$\sqrt{s}= 7$TeVプロトン-陽子衝突のベースラインとして適用される。

Hadronization is a non-perturbative process, which theoretical description can not be deduced from first principles. Modeling hadron formation, requires several assumptions and various phenomenological approaches. Utilizing state-of-the-art Computer Vision and Deep Learning algorithms, it is eventually possible to train neural networks to learn non-linear and non-perturbative features of the physical processes. In this study, results of two ResNet networks are presented by investigating global and kinematical quantities, indeed jet- and event-shape variables. The widely used Lund string fragmentation model is applied as a baseline in $\sqrt{s}= 7$ TeV proton-proton collisions to predict the most relevant observables at further LHC energies.
翻訳日:2021-12-01 17:03:42 公開日:2021-11-30
# UAVのエッジ爆発型TinyML機能に対するエネルギー効率の推測

Energy-Efficient Inference on the Edge Exploiting TinyML Capabilities for UAVs ( http://arxiv.org/abs/2111.15481v1 )

ライセンス: Link先を確認
Wamiq Raza, Anas Osman, Francesco Ferrini, Francesco De Natale(参考訳) 近年、無人航空機(UAV)の増殖は劇的に増加している。 UAVは信頼性が高くコスト効率のよい方法で複雑なタスクや危険なタスクを達成できるが、それでも電力消費の問題によって制限されている。 先進的な意思決定能力を備えたUAVをエネルギー効率の良い方法で提供する可能性は極めて有益である。 本稿では,エッジ上での深層学習を生かした,この問題に対する実用的な解決策を提案する。 開発システムは、OpenMVマイクロコントローラをDJI Tello Micro Aerial Vehicle (MAV)に統合する。 マイクロコントローラは、ドローンのナビゲーションを制御し、所定のミッション目標を達成するための、機械学習対応推論ツールのセットをホストする。 このアプローチの目標は、オフライン推論、低レイテンシ、エネルギー効率、データセキュリティを含む、TinyMLの新機能を活用することだ。 このアプローチは、混雑した環境で保護マスクを着用している人のオンボード検出を含む実用的なアプリケーションで有効に検証される。

In recent years, the proliferation of unmanned aerial vehicles (UAVs) has increased dramatically. UAVs can accomplish complex or dangerous tasks in a reliable and cost-effective way but are still limited by power consumption problems, which pose serious constraints on the flight duration and completion of energy-demanding tasks. The possibility of providing UAVs with advanced decision-making capabilities in an energy-effective way would be extremely beneficial. In this paper, we propose a practical solution to this problem that exploits deep learning on the edge. The developed system integrates an OpenMV microcontroller into a DJI Tello Micro Aerial Vehicle (MAV). The microcontroller hosts a set of machine learning-enabled inference tools that cooperate to control the navigation of the drone and complete a given mission objective. The goal of this approach is to leverage the new opportunistic features of TinyML through OpenMV including offline inference, low latency, energy efficiency, and data security. The approach is successfully validated on a practical application consisting of the onboard detection of people wearing protection masks in a crowded environment.
翻訳日:2021-12-01 16:54:48 公開日:2021-11-30
# データの構造を包括的に可視化する

Towards a comprehensive visualization of structure in data ( http://arxiv.org/abs/2111.15506v1 )

ライセンス: Link先を確認
Joan Garriga and Frederic Bartumeus(参考訳) 次元データ削減法は,大規模データセットの探索と可視化に不可欠である。 教師なしデータ探索の基本的な要件は、単純さ、柔軟性、スケーラビリティである。 しかし、現在の手法では、大規模データ構造を探索する際に複雑なパラメータ化と強い計算限界を示す。 本稿では,t-sneアルゴリズムに着目し,単一の制御パラメータ,すなわちパープレキシティを用いた簡易パラメータ設定により,局所的および大域的なデータ構造の可視化を効果的にバランスできることを示す。 また、t-SNEを効率的に並列化し、データ構造を現在よりも広い範囲にわたって探索するチャンク&ミックスプロトコルを設計した。 我々の並列バージョンのBH-tSNE、すなわちpt-SNEは、最先端のソリューションに匹敵する優れたグローバルな埋め込みに収束する。 それにもかかわらず、簡単な後処理により、グローバルスケールでの精度を失うことなく、ローカルスケールの可視化を効率的に復元できることを示す。 我々は、FIT-SNEやUMAPのようなBH-tSNE以外の高速な埋め込みアルゴリズムに適用するために、同じアプローチを期待している。

Dimensional data reduction methods are fundamental to explore and visualize large data sets. Basic requirements for unsupervised data exploration are simplicity, flexibility and scalability. However, current methods show complex parameterizations and strong computational limitations when exploring large data structures across scales. Here, we focus on the t-SNE algorithm and show that a simplified parameter setup with a single control parameter, namely the perplexity, can effectively balance local and global data structure visualization. We also designed a chunk\&mix protocol to efficiently parallelize t-SNE and explore data structure across a much wide range of scales than currently available. Our parallel version of the BH-tSNE, namely pt-SNE, converges to good global embedding, comparable to state-of-the-art solutions, though the chunk\&mix protocol adds little noise and decreases the accuracy at the local scale. Nonetheless, we show that simple post-processing can efficiently restore local scale visualization, without any loss of precision at the global scales. We expect the same approach to apply to faster embedding algorithms other than BH-tSNE, like FIt-SNE or UMAP, thus, extending the state-of-the-art and leading to more comprehensive data structure visualization and analysis.
翻訳日:2021-12-01 16:54:32 公開日:2021-11-30
# 相反強化学習によるモデルフリー$\mu$合成

Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning ( http://arxiv.org/abs/2111.15537v1 )

ライセンス: Link先を確認
Darioush Keivan, Aaron Havens, Peter Seiler, Geir Dullerud, Bin Hu(参考訳) 近年,政策ベース強化学習(RL)の実証的成功により,標準制御ベンチマーク問題における政策ベースRL法の性能に関する研究が盛んに行われている。 本稿では,重要なロバスト制御問題である$\mu$ 合成に対するポリシーベースrl法の有効性について検討する。 頑健な逆rlと$\mu$合成の接続を構築し、静的な$d$-scalingでステートフィードバック$\mu$合成を解決するための、よく知られた$dk$-iterationのモデルフリーバージョンを開発します。 提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして組み込んで古典的な中央経路アルゴリズムを模倣し、D$ステップはモデルフリー有限差分近似に基づいている。 また,提案するモデルフリーアルゴリズムの有用性を示すために,広範な数値実験を行った。 本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。

Motivated by the recent empirical success of policy-based reinforcement learning (RL), there has been a research trend studying the performance of policy-based RL methods on standard control benchmark problems. In this paper, we examine the effectiveness of policy-based RL methods on an important robust control problem, namely $\mu$ synthesis. We build a connection between robust adversarial RL and $\mu$ synthesis, and develop a model-free version of the well-known $DK$-iteration for solving state-feedback $\mu$ synthesis with static $D$-scaling. In the proposed algorithm, the $K$ step mimics the classical central path algorithm via incorporating a recently-developed double-loop adversarial RL method as a subroutine, and the $D$ step is based on model-free finite difference approximation. Extensive numerical study is also presented to demonstrate the utility of our proposed model-free algorithm. Our study sheds new light on the connections between adversarial RL and robust control.
翻訳日:2021-12-01 16:54:14 公開日:2021-11-30
# 半教師付き最小二乗クラスタリングのためのエクササイズアルゴリズム

An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering ( http://arxiv.org/abs/2111.15571v1 )

ライセンス: Link先を確認
Veronica Piccialli, Anna Russo Russo, Antonio M. Sudoso(参考訳) msc(minimum sum-of-squares clustering)またはk-means型クラスタリング(k-means型クラスタリング)は、伝統的に教師なし学習タスクであると考えられている。 近年,クラスタの品質向上とクラスタリングプロセスの解釈可能性向上のための背景知識の利用が,数学的最適化と機械学習研究の交わりにおいてホットな研究課題となっている。 データクラスタリングにおける背景情報を利用する問題は、半教師付きまたは制約付きクラスタリングと呼ばれる。 本稿では,半教師付きmsscに対する新しい分岐・境界アルゴリズムを提案する。 下位境界法では,MSSC離散最適化モデルの半定プログラム緩和を解くとともに,切断平面法を用いて境界の強化を行う。 上界に対して、代わりに整数プログラミングツールを用いて、k-meansアルゴリズムを制約されたケースに適応させることを提案する。 提案したグローバル最適化アルゴリズムは,M must-link と cannot-link の制約を交互に組み合わせることで,実世界のインスタンスを最大800個のデータポイントで効率的に解決する。 この問題のサイズは、最先端の正確なアルゴリズムによって解決されたインスタンスの約4倍である。

The minimum sum-of-squares clustering (MSSC), or k-means type clustering, is traditionally considered an unsupervised learning task. In recent years, the use of background knowledge to improve the cluster quality and promote interpretability of the clustering process has become a hot research topic at the intersection of mathematical optimization and machine learning research. The problem of taking advantage of background information in data clustering is called semi-supervised or constrained clustering. In this paper, we present a new branch-and-bound algorithm for semi-supervised MSSC, where background knowledge is incorporated as pairwise must-link and cannot-link constraints. For the lower bound procedure, we solve the semidefinite programming relaxation of the MSSC discrete optimization model, and we use a cutting-plane procedure for strengthening the bound. For the upper bound, instead, by using integer programming tools, we propose an adaptation of the k-means algorithm to the constrained case. For the first time, the proposed global optimization algorithm efficiently manages to solve real-world instances up to 800 data points with different combinations of must-link and cannot-link constraints and with a generic number of features. This problem size is about four times larger than the one of the instances solved by state-of-the-art exact algorithms.
翻訳日:2021-12-01 16:53:33 公開日:2021-11-30
# ハイブリッド量子古典機械学習を用いた合成気象レーダ

Synthetic weather radar using hybrid quantum-classical machine learning ( http://arxiv.org/abs/2111.15605v1 )

ライセンス: Link先を確認
Graham R. Enos, Matthew J. Reagor, Maxwell P. Henderson, Christina Young, Kyle Horton, Mandy Birch, Chad Rigetti(参考訳) 高解像度気象レーダー画像の可用性は、効果的な予測と意思決定を支えている。 従来のレーダ範囲を超えた地域では、生成モデルは重要な合成能力として現れ、衛星画像や数値気象モデルのようなよりユビキタスなデータソースを正確なレーダのような製品に融合させた。 本稿では,グローバルな気象レーダにおける生成タスクのための量子支援モデルを用いて,従来の畳み込みニューラルネットワークを強化する手法を示す。 量子カーネルは、基本となるデータ上で古典的学習マシンよりも、原理上、より複雑なタスクを実行できる。 本研究は, 合成気象レーダを量子コンピューティング能力の効果的なヒューリスティックベンチマークとして確立し, より詳細な量子優位性ベンチマークのステージを設定した。

The availability of high-resolution weather radar images underpins effective forecasting and decision-making. In regions beyond traditional radar coverage, generative models have emerged as an important synthetic capability, fusing more ubiquitous data sources, such as satellite imagery and numerical weather models, into accurate radar-like products. Here, we demonstrate methods to augment conventional convolutional neural networks with quantum-assisted models for generative tasks in global synthetic weather radar. We show that quantum kernels can, in principle, perform fundamentally more complex tasks than classical learning machines on the relevant underlying data. Our results establish synthetic weather radar as an effective heuristic benchmark for quantum computing capabilities and set the stage for detailed quantum advantage benchmarking on a high-impact operationally relevant problem.
翻訳日:2021-12-01 16:53:13 公開日:2021-11-30
# ttsによるマルコフ過程に基づく二重ファジィ確率的言語間言語集合と動的ファジィ決定モデル

Double Fuzzy Probabilistic Interval Linguistic Term Set and a Dynamic Fuzzy Decision Making Model based on Markov Process with tts Application in Multiple Criteria Group Decision Making ( http://arxiv.org/abs/2111.15255v1 )

ライセンス: Link先を確認
Zongmin Liu(参考訳) 確率的言語用語は、提供された言語評価における確率分布を扱うために提案されている。 しかし、基本的な欠陥がいくつかあるため、意思決定者が集団意思決定のための言語評価の合理的な情報を得ることは困難である。 加えて、重み情報は動的情報融合と意思決定プロセスにおいて重要な役割を果たす。 しかし、時間とともに動的属性の重みを決定する研究方法はほとんどない。 本稿では,二重ファジィ確率区間言語用語集合(DFPILTS)の概念を提案する。 まず、ファジィセマンティック統合、DFPILTS定義、その嗜好関係、いくつかの基本的なアルゴリズムと集約演算子を定義する。 そして,そのネットワークを用いたファジィ言語マルコフ行列を開発した。 そして、DFPILPRの不整合を低減するための距離測定と情報エントロピーに基づく重み決定法を開発し、グループコンセンサスに基づく集団優先ベクトルを得る。 最後に、集約型アプローチを開発し、金融リスクからの最適投資事例を用いて、DFPILTSと意思決定手法の多基準意思決定への応用を例示する。

The probabilistic linguistic term has been proposed to deal with probability distributions in provided linguistic evaluations. However, because it has some fundamental defects, it is often difficult for decision-makers to get reasonable information of linguistic evaluations for group decision making. In addition, weight information plays a significant role in dynamic information fusion and decision making process. However, there are few research methods to determine the dynamic attribute weight with time. In this paper, I propose the concept of double fuzzy probability interval linguistic term set (DFPILTS). Firstly, fuzzy semantic integration, DFPILTS definition, its preference relationship, some basic algorithms and aggregation operators are defined. Then, a fuzzy linguistic Markov matrix with its network is developed. Then, a weight determination method based on distance measure and information entropy to reducing the inconsistency of DFPILPR and obtain collective priority vector based on group consensus is developed. Finally, an aggregation-based approach is developed, and an optimal investment case from a financial risk is used to illustrate the application of DFPILTS and decision method in multi-criteria decision making.
翻訳日:2021-12-01 16:51:57 公開日:2021-11-30
# 後悔を保証できるオンライン学習による地平線制御

Online Learning for Receding Horizon Control with Provable Regret Guarantees ( http://arxiv.org/abs/2111.15041v1 )

ライセンス: Link先を確認
Deepan Muthirayan, Jianjun Yuan, Dileep Kalathil, and Pramod P. Khargonekar(参考訳) 本稿では,オンラインReceding Horizon Control (RHC) の枠組みを用いて,時間的に異なるコスト関数で未知の線形力学系を制御することの課題に対処する。 我々は、制御アルゴリズムが真のシステムモデルを理解しておらず、将来のコスト関数のプレビューを固定長(制御地平線では成長しない)にのみアクセスする設定を考える。 本稿では,動的後悔の計量を用いてアルゴリズムの性能を特徴付ける。これは,アルゴリズムが生み出す累積コストと,後向きの最良の行動列との差として定義される。 本稿では,この問題を解決するために,Certainty Equivalence RHC(CE-RHC)アルゴリズムとOptimistic RHC(O-RHC)アルゴリズムの2つの異なるオンラインRHCアルゴリズムを提案する。 モデル推定の標準的な安定性仮定の下で、CE-RHCアルゴリズムは$\mathcal{O}(T^{2/3})$ dynamic regretを達成する。 この結果は、O-RHCアルゴリズムの提案により、安定性仮定が真のシステムモデルにのみ適用されるような設定にまで拡張する。 我々は O-RHC アルゴリズムが $\mathcal{O}(T^{2/3})$ dynamic regret を実現するが、さらなる計算を行う。

We address the problem of learning to control an unknown linear dynamical system with time varying cost functions through the framework of online Receding Horizon Control (RHC). We consider the setting where the control algorithm does not know the true system model and has only access to a fixed-length (that does not grow with the control horizon) preview of the future cost functions. We characterize the performance of an algorithm using the metric of dynamic regret, which is defined as the difference between the cumulative cost incurred by the algorithm and that of the best sequence of actions in hindsight. We propose two different online RHC algorithms to address this problem, namely Certainty Equivalence RHC (CE-RHC) algorithm and Optimistic RHC (O-RHC) algorithm. We show that under the standard stability assumption for the model estimate, the CE-RHC algorithm achieves $\mathcal{O}(T^{2/3})$ dynamic regret. We then extend this result to the setting where the stability assumption hold only for the true system model by proposing the O-RHC algorithm. We show that O-RHC algorithm achieves $\mathcal{O}(T^{2/3})$ dynamic regret but with some additional computation.
翻訳日:2021-12-01 16:51:04 公開日:2021-11-30
# 遷移運動テンソル:物理シミュレーション環境における可逆・制御可能なエージェントのためのデータ駆動型アプローチ

Transition Motion Tensor: A Data-Driven Approach for Versatile and Controllable Agents in Physically Simulated Environments ( http://arxiv.org/abs/2111.15072v1 )

ライセンス: Link先を確認
Jonathan Hans Soeseno, Ying-Sheng Luo, Trista Pei-Chun Chen, Wei-Chao Chen(参考訳) 本稿では,データ駆動型フレームワークであるTransition Motion Tensorを提案する。 シミュレーションキャラクタは、既存のものを変更することなく、効率的にかつ堅牢に新しいモーションスキルを採用できる。 異なる運動を専門とするいくつかの物理的シミュレートされたコントローラが与えられたとき、テンソルはそれらの間の遷移の時間的ガイドラインとして機能する。 ユーザ定義の好みに最も適した遷移のテンソルをクエリすることで、新しい遷移を生成できる統一されたコントローラを作成し、複数の動作を必要とする複雑なタスクを解決することができる。 提案手法を四足歩行と二足歩行の両方に適用し,遷移品質の定量的・質的評価を行い,ユーザの制御指示に従って複雑な動作計画問題に取り組む能力を示す。

This paper proposes the Transition Motion Tensor, a data-driven framework that creates novel and physically accurate transitions outside of the motion dataset. It enables simulated characters to adopt new motion skills efficiently and robustly without modifying existing ones. Given several physically simulated controllers specializing in different motions, the tensor serves as a temporal guideline to transition between them. Through querying the tensor for transitions that best fit user-defined preferences, we can create a unified controller capable of producing novel transitions and solving complex tasks that may require multiple motions to work coherently. We apply our framework on both quadrupeds and bipeds, perform quantitative and qualitative evaluations on transition quality, and demonstrate its capability of tackling complex motion planning problems while following user control directives.
翻訳日:2021-12-01 16:50:42 公開日:2021-11-30
# 患者の特徴集合に基づく異常処方の予測のための新しいデータ駆動アルゴリズム

A novel data-driven algorithm to predict anomalous prescription based on patient's feature set ( http://arxiv.org/abs/2111.15101v1 )

ライセンス: Link先を確認
Qiongge Li, Jean Wright, Russell Hales, Ranh Voong and Todd McNutt(参考訳) 放射線治療における適切な放射線投与は患者の安全に不可欠である。 現在の品質保証はピアレビューのプロセスに大きく依存しており、医師は各患者の治療計画についてピアレビューを行う。 しかし、このようなプロセスは手作業と手間がかかる。 医師は時間的制約やケースロードによるエラーを特定できない。 歴史的データを用いて異常症例の予測を行う新しい処方異常検出アルゴリズムを考案した。 このようなツールは、患者にさらなる安全を提供するピアレビュープロセスを支援する電子ピアとして機能する。 私たちのプライマリモデルでは、新しい患者の処方薬が過去の処方薬からどのくらい離れているかを定義するrとf.rという2つの相似性指標を作成しました。 Fは、患者の特徴セットが同一または類似の処方薬を持つグループからどれくらい遠いかを表す。 それぞれのメトリックが特定の最適化されたカットオフ値よりも大きい場合は、処方令をフラグします。 胸腺癌(n=2356)を例に7つの特徴を抽出した。 本稿では, 異なる治療技術群に対して, 75%-94%のf1スコアを報告した。 また,3名の胸部専門医と模擬ピアレビューを行い,その結果を独立に検証した。 本モデルでは,手動検診医と比較して2型エラー率が低い。 我々のモデルは従来の機械学習アルゴリズムよりも多くの利点があり、特にクラス不均衡に苦しむことはない。 また、各ケースにフラグを付け、データから学ぶことなく処方と非処方の機能を分離する理由も説明できる。

Appropriate dosing of radiation is crucial to patient safety in radiotherapy. Current quality assurance depends heavily on a peer-review process, where the physicians' peer review on each patient's treatment plan, including dose and fractionation. However, such a process is manual and laborious. Physicians may not identify errors due to time constraints and caseload. We designed a novel prescription anomaly detection algorithm that utilizes historical data to predict anomalous cases. Such a tool can serve as an electronic peer who will assist the peer-review process providing extra safety to the patients. In our primary model, we created two dissimilarity metrics, R and F. R defining how far a new patient's prescription is from historical prescriptions. F represents how far away a patient's feature set is from the group with an identical or similar prescription. We flag prescription if either metric is greater than specific optimized cut-off values. We used thoracic cancer patients (n=2356) as an example and extracted seven features. Here, we report our testing f1 score, between 75%-94% for different treatment technique groups. We also independently validate our results by conducting a mock peer review with three thoracic specialists. Our model has a lower type 2 error rate compared to manual peer-review physicians. Our model has many advantages over traditional machine learning algorithms, particularly in that it does not suffer from class imbalance. It can also explain why it flags each case and separate prescription and non-prescription-related features without learning from the data.
翻訳日:2021-12-01 16:50:27 公開日:2021-11-30
# hyperpca:libsマッピングで得られたノイズデータから元素マップを抽出する強力なツール

HyperPCA: a Powerful Tool to Extract Elemental Maps from Noisy Data Obtained in LIBS Mapping of Materials ( http://arxiv.org/abs/2111.15187v1 )

ライセンス: Link先を確認
Riccardo Finotello, Mohamed Tamaazousti, Jean-Baptiste Sirven(参考訳) レーザー誘起分解分光法は、ターゲット要素に制限を加えることなく、環境圧力下で試料を高速かつ直接多要素マッピングする手法として好まれる。 しかし、LIBSマッピングデータには、単発測定による信号対雑音比が本質的に低いことと、撮像のために取得したスペクトルの多さによる高次元性という2つの特徴がある。 この場合、アブレーションスポットの直径が減少し、アブレーションされた質量と放出信号が減少し、与えられた表面のスペクトル数が増加する。 したがって、ノイズや大きなデータセットから物理化学的情報を効率的に抽出することが大きな課題である。 このようなデータ、特に主成分分析に対処する手段として、複数の著者によって多変量アプローチが導入された。 しかし、PCAはデータセットの一貫性のある再構成に関する理論的制約を提示することが知られており、したがってLIBSマッピングデータの効率的な解釈に制限がある。 本稿では、離散ウェーブレット変換とカーネルベースのスパースPCAを用いたデータのスパース表現に基づくハイパースペクトル画像の新しい解析ツールであるHyperPCAを紹介し、そのデータに対するノイズの影響を低減し、特にLIBSデータに重点を置いた分光信号の連続的な再構成を行う。 この手法はまず, シミュレーションLIBSマッピングデータセットを用いて, 高ノイズ・高干渉スペクトルを用いてその性能を強調する。 標準PCAと従来の単変量データ解析との比較を行う。 最後に、提案アルゴリズムの可能性を明確に示す2つのケースにおいて、実データを処理するために使用される。 本手法は, 得られた情報量と品質の両方の利点を示し, 解析面の物理化学的特性を改善する。

Laser-induced breakdown spectroscopy is a preferred technique for fast and direct multi-elemental mapping of samples under ambient pressure, without any limitation on the targeted element. However, LIBS mapping data have two peculiarities: an intrinsically low signal-to-noise ratio due to single-shot measurements, and a high dimensionality due to the high number of spectra acquired for imaging. This is all the truer as lateral resolution gets higher: in this case, the ablation spot diameter is reduced, as well as the ablated mass and the emission signal, while the number of spectra for a given surface increases. Therefore, efficient extraction of physico-chemical information from a noisy and large dataset is a major issue. Multivariate approaches were introduced by several authors as a means to cope with such data, particularly Principal Component Analysis. Yet, PCA is known to present theoretical constraints for the consistent reconstruction of the dataset, and has therefore limitations to efficient interpretation of LIBS mapping data. In this paper, we introduce HyperPCA, a new analysis tool for hyperspectral images based on a sparse representation of the data using Discrete Wavelet Transform and kernel-based sparse PCA to reduce the impact of noise on the data and to consistently reconstruct the spectroscopic signal, with a particular emphasis on LIBS data. The method is first illustrated using simulated LIBS mapping datasets to emphasize its performances with highly noisy and/or highly interfered spectra. Comparisons to standard PCA and to traditional univariate data analyses are provided. Finally, it is used to process real data in two cases that clearly illustrate the potential of the proposed algorithm. We show that the method presents advantages both in quantity and quality of the information recovered, thus improving the physico-chemical characterisation of analysed surfaces.
翻訳日:2021-12-01 16:48:26 公開日:2021-11-30
# 深部強化学習によるNOMA支援STAR-RISネットワークの省エネルギー設計

Energy-Efficient Design for a NOMA assisted STAR-RIS Network with Deep Reinforcement Learning ( http://arxiv.org/abs/2111.15464v1 )

ライセンス: Link先を確認
Yi Guo and Fang Fang and Donghong Cai and Zhiguo Ding(参考訳) 同時送信・反射型インテリジェントサーフェス(star-riss)は、無線ネットワークの性能を向上させるための有望な補助装置であると考えられており、サーフェスの異なる側に位置するユーザが、送受信信号によって同時にサービスを提供することができる。 本稿では,非直交多重アクセス(NOMA)支援STAR-RISダウンリンクネットワークにおけるエネルギー効率(EE)最大化問題について検討する。 EEの分断形式のため、従来の凸最適化ソリューションによって、EEの最大化問題を解決するのは難しい。 本研究では,基地局における送信ビームフォーミングベクトルとSTAR-RISにおける係数を共同最適化することにより,脳波を最大化するために,DDPGに基づくアルゴリズムを提案する。 シミュレーションの結果,提案アルゴリズムは時間変化チャネルを考慮したシステムEEを効果的に最大化できることを示した。

Simultaneous transmitting and reflecting reconfigurable intelligent surfaces (STAR-RISs) has been considered as a promising auxiliary device to enhance the performance of the wireless network, where users located at the different sides of the surfaces can be simultaneously served by the transmitting and reflecting signals. In this paper, the energy efficiency (EE) maximization problem for a non-orthogonal multiple access (NOMA) assisted STAR-RIS downlink network is investigated. Due to the fractional form of the EE, it is challenging to solve the EE maximization problem by the traditional convex optimization solutions. In this work, a deep deterministic policy gradient (DDPG)-based algorithm is proposed to maximize the EE by jointly optimizing the transmission beamforming vectors at the base station and the coefficients matrices at the STAR-RIS. Simulation results demonstrate that the proposed algorithm can effectively maximize the system EE considering the time-varying channels.
翻訳日:2021-12-01 16:47:57 公開日:2021-11-30
# アルゴリズム安定性のためのブラックボックステスト

Black box tests for algorithmic stability ( http://arxiv.org/abs/2111.15546v1 )

ライセンス: Link先を確認
Byol Kim and Rina Foygel Barber(参考訳) アルゴリズム安定性(英: Algorithmic stability)とは、入力データの変更(例えば、単一のデータポイントの削除)が回帰アルゴリズムの出力に影響を与える程度を表現する学習理論の概念である。 アルゴリズムの安定性特性を知ることは、多くの下流アプリケーションにとってしばしば有用である - 例えば、安定性は望ましい一般化特性と予測推論保証をもたらすことが知られている。 しかし、現在の多くの現代アルゴリズムは、その安定性特性の理論的解析には複雑すぎるため、様々なデータセット上でのアルゴリズムの振る舞いを実証的に探究することで、これらの特性を確立することしかできない。 本研究では,アルゴリズムやデータ分布を仮定せずに,このような「ブラックボックステスト」のための公式な統計フレームワークを構築し,ブラックボックステストがアルゴリズムの安定性を識別する能力に基礎的な限界を定めている。

Algorithmic stability is a concept from learning theory that expresses the degree to which changes to the input data (e.g., removal of a single data point) may affect the outputs of a regression algorithm. Knowing an algorithm's stability properties is often useful for many downstream applications -- for example, stability is known to lead to desirable generalization properties and predictive inference guarantees. However, many modern algorithms currently used in practice are too complex for a theoretical analysis of their stability properties, and thus we can only attempt to establish these properties through an empirical exploration of the algorithm's behavior on various data sets. In this work, we lay out a formal statistical framework for this kind of "black box testing" without any assumptions on the algorithm or the data distribution, and establish fundamental bounds on the ability of any black box test to identify algorithmic stability.
翻訳日:2021-12-01 16:47:41 公開日:2021-11-30
# サーベイ降下:非滑らか最適化のための勾配降下の多点一般化

Survey Descent: A Multipoint Generalization of Gradient Descent for Nonsmooth Optimization ( http://arxiv.org/abs/2111.15645v1 )

ライセンス: Link先を確認
X.Y. Han and Adrian S. Lewis(参考訳) 滑らかな凸目標に対して、勾配降下の古典的理論は勾配評価の数に対して線形収束を保証する。 類似の非スムース理論は困難である: 目標が全ての反復で滑らかであるとしても、対応する局所モデルは不安定であり、伝統的な救済には予測不能な多くの切削面が必要である。 代わりに局所最適化のための勾配降下イテレーションの多点一般化を提案する。 一般目的を念頭に設計されている一方で、最適性で部分微分次元を捉える「滑らかな最大」モデルによって動機付けられている。 目的が最大運動量であるときに線形収束を証明し、実験によりより一般的な現象が示唆される。

For strongly convex objectives that are smooth, the classical theory of gradient descent ensures linear convergence relative to the number of gradient evaluations. An analogous nonsmooth theory is challenging: even when the objective is smooth at every iterate, the corresponding local models are unstable, and traditional remedies need unpredictably many cutting planes. We instead propose a multipoint generalization of the gradient descent iteration for local optimization. While designed with general objectives in mind, we are motivated by a "max-of-smooth" model that captures subdifferential dimension at optimality. We prove linear convergence when the objective is itself max-of-smooth, and experiments suggest a more general phenomenon.
翻訳日:2021-12-01 16:47:26 公開日:2021-11-30
# (参考訳) この患者に何が見えますか。 臨床NLPモデルの行動検査

What Do You See in this Patient? Behavioral Testing of Clinical NLP Models ( http://arxiv.org/abs/2111.15512v1 )

ライセンス: CC BY 4.0
Betty van Aken, Sebastian Herrmann, Alexander L\"oser(参考訳) 臨床ノートに基づく意思決定支援システムは、医師を監督リスクに向けることで患者のケアを改善する可能性を秘めている。 患者の結果を予測することは、深層ニューラルネットワークの使用が有望な結果を示すようなシステムにおいて、不可欠な部分である。 しかし、これらのネットワークで学んだパターンは、ほとんど不透明であり、以前の研究で意図しないバイアスの再現に関する欠陥が明らかになった。 そこで我々は,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。 このフレームワークは、学習したパターンとそのモデル決定への影響を理解するのに役立つ。 本研究では, 患者の特徴, 年齢, 民族性について, 行動変化の分析に応用する。 現在の3つのNLPモデルの評価は,これらの特性がモデル決定に与える影響を実証するものである。 彼らは、同じデータに微調整された場合でも、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示している。

Decision support systems based on clinical notes have the potential to improve patient care by pointing doctors towards overseen risks. Predicting a patient's outcome is an essential part of such systems, for which the use of deep neural networks has shown promising results. However, the patterns learned by these networks are mostly opaque and previous work revealed flaws regarding the reproduction of unintended biases. We thus introduce an extendable testing framework that evaluates the behavior of clinical outcome models regarding changes of the input. The framework helps to understand learned patterns and their influence on model decisions. In this work, we apply it to analyse the change in behavior with regard to the patient characteristics gender, age and ethnicity. Our evaluation of three current clinical NLP models demonstrates the concrete effects of these characteristics on the models' decisions. They show that model behavior varies drastically even when fine-tuned on the same data and that allegedly best-performing models have not always learned the most medically plausible patterns.
翻訳日:2021-12-01 16:44:57 公開日:2021-11-30
# 学生・教師のピラミッドマッチングに配慮した復興学生

Reconstruction Student with Attention for Student-Teacher Pyramid Matching ( http://arxiv.org/abs/2111.15376v1 )

ライセンス: Link先を確認
Shinji Yamada and Kazuhiro Hotta(参考訳) 異常検出と局所化はコンピュータビジョンの重要な問題である。 近年,視覚検査には畳み込みニューラルネットワーク(CNN)が用いられている。 特に,異常サンプルの不足が課題の難しさを増し,教師なしの傾きに基づく手法が注目されている。 我々は,少数のエポックを持つ普通の画像のみから学習できるSTPM(Student-Teacher Feature Pyramid Matching)に注目した。 本稿ではSTPMの欠点を補う強力な手法を提案する。 提案手法は2人の生徒と2人の教師からなり、一対の教師ネットワークはSTPMと同じである。 他の学生教師ネットワークは、通常の製品の特徴を再構築する役割を担っている。 異常画像から正常な製品の特徴を再構成することにより、それらの差を捉えて高精度に異常を検出することができる。 新しい学生-教師ネットワークは、アテンションモジュールと元のSTPMとは異なる教師ネットワークを使用している。 注意機構は、入力画像内の正常領域の再構築に成功する。 異なる教師ネットワークは、元のSTPMと同じ領域を見るのを防ぐ。 2つの教師ネットワークから得られた6つの異常マップを用いて最終異常マップを算出する。 機能再構築のための学生-教師ネットワークは,元のSTPMと比較して,画素レベルと画像レベルのAUCスコアを改善した。

Anomaly detection and localization are important problems in computer vision. Recently, Convolutional Neural Network (CNN) has been used for visual inspection. In particular, the scarcity of anomalous samples increases the difficulty of this task, and unsupervised leaning based methods are attracting attention. We focus on Student-Teacher Feature Pyramid Matching (STPM) which can be trained from only normal images with small number of epochs. Here we proposed a powerful method which compensates for the shortcomings of STPM. Proposed method consists of two students and two teachers that a pair of student-teacher network is the same as STPM. The other student-teacher network has a role to reconstruct the features of normal products. By reconstructing the features of normal products from an abnormal image, it is possible to detect abnormalities with higher accuracy by taking the difference between them. The new student-teacher network uses attention modules and different teacher network from the original STPM. Attention mechanism acts to successfully reconstruct the normal regions in an input image. Different teacher network prevents looking at the same regions as the original STPM. Six anomaly maps obtained from the two student-teacher networks are used to calculate the final anomaly map. Student-teacher network for reconstructing features improved AUC scores for pixel level and image level in comparison with the original STPM.
翻訳日:2021-12-01 16:26:38 公開日:2021-11-30
# オブジェクトレベル統合による大規模ビデオ分析

Large-Scale Video Analytics through Object-Level Consolidation ( http://arxiv.org/abs/2111.15451v1 )

ライセンス: Link先を確認
Daniel Rivas, Francesc Guim, Jord\`a Polo, David Carrera(参考訳) 設置されるカメラの数が増えるにつれて、これらのカメラが捉えたすべての画像の処理と分析に必要な計算資源も増える。 ビデオ分析はスマートシティや自動運転といった新しいユースケースを可能にする。 同時に、サービスプロバイダは、要求に対処するために追加の計算リソースをインストールするよう促し、厳格なレイテンシ要件が計算をネットワークの終端に向けて押し付け、地理的に分散され、異質な計算場所、共有およびリソース制約のセットを形成する。 このような状況(共有された場所と分散された場所)は、利用可能なすべての場所で作業の最適化と分散を可能にし、理想的には、インストールされたカメラの数に関して、計算要求をサブライン的に増加させる新しいテクニックを設計させます。 本稿では,FoMO(Focus on moving Objects)について述べる。 この方法は、シーンのイメージを前処理し、空き領域をフィルタリングし、複数のカメラからの関心領域を、事前訓練対象検出モデルの入力として機能する単一の画像に構成することにより、効果的にマルチカメラ配置を最適化する。 その結果、システム全体の性能は8倍に向上し、精度は手法の副産物として40%向上し、全て追加のトレーニングや微調整を伴わない既訓練モデルを用いていることがわかった。

As the number of installed cameras grows, so do the compute resources required to process and analyze all the images captured by these cameras. Video analytics enables new use cases, such as smart cities or autonomous driving. At the same time, it urges service providers to install additional compute resources to cope with the demand while the strict latency requirements push compute towards the end of the network, forming a geographically distributed and heterogeneous set of compute locations, shared and resource-constrained. Such landscape (shared and distributed locations) forces us to design new techniques that can optimize and distribute work among all available locations and, ideally, make compute requirements grow sublinearly with respect to the number of cameras installed. In this paper, we present FoMO (Focus on Moving Objects). This method effectively optimizes multi-camera deployments by preprocessing images for scenes, filtering the empty regions out, and composing regions of interest from multiple cameras into a single image that serves as input for a pre-trained object detection model. Results show that overall system performance can be increased by 8x while accuracy improves 40% as a by-product of the methodology, all using an off-the-shelf pre-trained model with no additional training or fine-tuning.
翻訳日:2021-12-01 16:26:22 公開日:2021-11-30
# ビデオフレーム補間のための時空間マルチフローネットワーク

Spatio-Temporal Multi-Flow Network for Video Frame Interpolation ( http://arxiv.org/abs/2111.15483v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) ビデオフレーム補間(VFI)は現在、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。 VFIは、特に大きな動き、閉塞、動的テクスチャを含むシーケンスにおいて、既存のアプローチが知覚的に堅牢な補間性能を提供していない場合、非常に困難である。 本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習ベースのVFI手法ST-MFNetを提案する。 ST-MFNetは、多対一の中間フローを推定するために、新しいマルチスケールのマルチフロー予測器を採用している。 各種テクスチャの補間性能を向上させるため,拡張時間窓上でのコンテンツダイナミクスのモデル化にも3D CNNが用いられている。 さらにST-MFNetは、もともとテクスチャ合成のために開発されたST-GANフレームワークで訓練されており、知覚補間品質をさらに向上することを目的としている。 我々のアプローチは、14の最先端VFIアルゴリズムと比較して、包括的に評価され、ST-MFNetが様々な、代表的なテストデータセットでこれらのベンチマークを一貫して上回っており、大きな動きや動的テクスチャを含むPSNRでは1.09dBまで大幅に向上していることを示す。 プロジェクトページ: https://danielism97.github.io/ST-MFNet

Video frame interpolation (VFI) is currently a very active research topic, with applications spanning computer vision, post production and video encoding. VFI can be extremely challenging, particularly in sequences containing large motions, occlusions or dynamic textures, where existing approaches fail to offer perceptually robust interpolation performance. In this context, we present a novel deep learning based VFI method, ST-MFNet, based on a Spatio-Temporal Multi-Flow architecture. ST-MFNet employs a new multi-scale multi-flow predictor to estimate many-to-one intermediate flows, which are combined with conventional one-to-one optical flows to capture both large and complex motions. In order to enhance interpolation performance for various textures, a 3D CNN is also employed to model the content dynamics over an extended temporal window. Moreover, ST-MFNet has been trained within an ST-GAN framework, which was originally developed for texture synthesis, with the aim of further improving perceptual interpolation quality. Our approach has been comprehensively evaluated -- compared with fourteen state-of-the-art VFI algorithms -- clearly demonstrating that ST-MFNet consistently outperforms these benchmarks on varied and representative test datasets, with significant gains up to 1.09dB in PSNR for cases including large motions and dynamic textures. Project page: https://danielism97.github.io/ST-MFNet.
翻訳日:2021-12-01 16:23:25 公開日:2021-11-30
# NeuSample: 効率的なビュー合成のためのニューラルネットワークサンプルフィールド

NeuSample: Neural Sample Field for Efficient View Synthesis ( http://arxiv.org/abs/2111.15552v1 )

ライセンス: Link先を確認
Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian(参考訳) ニューラルレイディアンス場(NeRF)は3次元シーンの表現や新しいビューの合成において大きな可能性を示しているが、推論段階でのNeRFの計算オーバーヘッドは依然として重い。 重みを緩和するために、我々はNeRFの粗大で階層的なサンプリング手順を掘り下げ、粗大なステージをニューラルネットワークのサンプルフィールドと名付ける軽量モジュールに置き換えることができることを指摘した。 提案したサンプルフィールドは、線をサンプル分布にマッピングし、点座標に変換し、ボリュームレンダリングのために放射場に供給することができる。 全体的なフレームワークはNeuSampleという名称だ。 実写合成360$^{\circ}$とReal Forward-Facingの2つの人気のある3Dシーンセットで実験を行い、NeuSampleが高速な推論速度を楽しみながら、NeRFよりも優れたレンダリング品質を実現することを示す。 NeuSampleはさらに、品質と速度のトレードオフを改善するためのサンプルフィールド抽出法によって圧縮される。

Neural radiance fields (NeRF) have shown great potentials in representing 3D scenes and synthesizing novel views, but the computational overhead of NeRF at the inference stage is still heavy. To alleviate the burden, we delve into the coarse-to-fine, hierarchical sampling procedure of NeRF and point out that the coarse stage can be replaced by a lightweight module which we name a neural sample field. The proposed sample field maps rays into sample distributions, which can be transformed into point coordinates and fed into radiance fields for volume rendering. The overall framework is named as NeuSample. We perform experiments on Realistic Synthetic 360$^{\circ}$ and Real Forward-Facing, two popular 3D scene sets, and show that NeuSample achieves better rendering quality than NeRF while enjoying a faster inference speed. NeuSample is further compressed with a proposed sample field extraction method towards a better trade-off between quality and speed.
翻訳日:2021-12-01 16:22:57 公開日:2021-11-30
# 量子圧縮センシングによるコミュニケーション効率の良いフェデレーション学習

Communication-Efficient Federated Learning via Quantized Compressed Sensing ( http://arxiv.org/abs/2111.15071v1 )

ライセンス: Link先を確認
Yongjeong Oh, Namyoon Lee, Yo-Seb Jeon, and H. Vincent Poor(参考訳) 本稿では,量子化圧縮センシングに触発されたコミュニケーション効率の高い連合学習フレームワークを提案する。 提案フレームワークは,無線機器の勾配圧縮とパラメータサーバ(PS)の勾配再構成からなる。 勾配圧縮の戦略は,ブロックスパース化,次元縮小,量子化を順次行うことである。 勾配スパーシフィケーションと量子化により,1ビットの勾配圧縮よりも高い圧縮率を達成することができる。 psにおける圧縮信号からの局所勾配の正確な集計のために,期待最大化一般化近似メッセージパッシング (em-gamp) アルゴリズムを用いた近似最小平均二乗誤差 (mmse) 法を適用した。 このアルゴリズムはbernolli gaussian-mixture preを仮定し、圧縮信号からの局所勾配の後方平均と分散を反復的に更新する。 また, 勾配再構成のための低複雑度手法を提案する。 提案手法では, 圧縮信号から局所勾配を集約するBussgang定理を用いて, EM-GAMPアルゴリズムを用いて, 集約勾配の近似MMSE推定値を算出する。 また,提案フレームワークの収束速度解析も提供する。 MNISTデータセットを用いて,提案フレームワークは圧縮を行わない場合とほぼ同じ性能を達成し,フェデレート学習における通信オーバーヘッドを大幅に低減することを示した。

In this paper, we present a communication-efficient federated learning framework inspired by quantized compressed sensing. The presented framework consists of gradient compression for wireless devices and gradient reconstruction for a parameter server (PS). Our strategy for gradient compression is to sequentially perform block sparsification, dimensional reduction, and quantization. Thanks to gradient sparsification and quantization, our strategy can achieve a higher compression ratio than one-bit gradient compression. For accurate aggregation of the local gradients from the compressed signals at the PS, we put forth an approximate minimum mean square error (MMSE) approach for gradient reconstruction using the expectation-maximization generalized-approximate-message-passing (EM-GAMP) algorithm. Assuming Bernoulli Gaussian-mixture prior, this algorithm iteratively updates the posterior mean and variance of local gradients from the compressed signals. We also present a low-complexity approach for the gradient reconstruction. In this approach, we use the Bussgang theorem to aggregate local gradients from the compressed signals, then compute an approximate MMSE estimate of the aggregated gradient using the EM-GAMP algorithm. We also provide a convergence rate analysis of the presented framework. Using the MNIST dataset, we demonstrate that the presented framework achieves almost identical performance with the case that performs no compression, while significantly reducing communication overhead for federated learning.
翻訳日:2021-12-01 16:22:37 公開日:2021-11-30
# 異なるコピーを異なるユーザに提供することで敵攻撃を緩和する

Mitigating Adversarial Attacks by Distributing Different Copies to Different Users ( http://arxiv.org/abs/2111.15160v1 )

ライセンス: Link先を確認
Jiyi Zhang, Wesley Joon-Wie Tann, Ee-Chien Chang(参考訳) 機械学習モデルは敵の攻撃に弱い。 本稿では,モデルが複数のユーザに対して配布され,悪意のあるユーザが他のユーザを攻撃しようとするシナリオについて考察する。 悪意のあるユーザは、モデルのコピーをプローブして、敵のサンプルを検索し、見つかったサンプルを被害者のモデルに提示して、攻撃を再現する。 モデルの異なるコピーを異なるユーザに配布することで、あるコピーで見つかった敵のサンプルが別のコピーでは動作しないような攻撃を緩和できる、と指摘する。 ランダム性が異なるモデルのトレーニングは、実際にそのような複製をある程度軽減する。 しかし、保証はなく、再訓練は計算コストがかかる。 次に,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。 この方法は追加の訓練を必要とせず、より制御可能な方法で異なるコピーで異なる逆サンプルセットを誘導することができる。 実験により,高い分類精度を維持しながら攻撃を著しく軽減できることが示された。 この研究から、さらに多くの道のりを探索する価値があると信じている。

Machine learning models are vulnerable to adversarial attacks. In this paper, we consider the scenario where a model is to be distributed to multiple users, among which a malicious user attempts to attack another user. The malicious user probes its copy of the model to search for adversarial samples and then presents the found samples to the victim's model in order to replicate the attack. We point out that by distributing different copies of the model to different users, we can mitigate the attack such that adversarial samples found on one copy would not work on another copy. We first observed that training a model with different randomness indeed mitigates such replication to certain degree. However, there is no guarantee and retraining is computationally expensive. Next, we propose a flexible parameter rewriting method that directly modifies the model's parameters. This method does not require additional training and is able to induce different sets of adversarial samples in different copies in a more controllable manner. Experimentation studies show that our approach can significantly mitigate the attacks while retaining high classification accuracy. From this study, we believe that there are many further directions worth exploring.
翻訳日:2021-12-01 16:19:30 公開日:2021-11-30
# グラフニューラルネットワークによる大規模ステップ分子動力学の学習

Learning Large-Time-Step Molecular Dynamics with Graph Neural Networks ( http://arxiv.org/abs/2111.15176v1 )

ライセンス: Link先を確認
Tianze Zheng, Weihao Gao and Chong Wang(参考訳) 分子動力学(md)シミュレーションは、ニュートンの運動方程式を数値積分器で解いて原子の軌道を予測する。 物理的制約のため、インテグレータの時間ステップは十分な精度を維持するために小さくなければならない。 これはシミュレーションの効率を制限します。 この目的のために,グラフニューラルネットワーク(gnn)ベースのモデルであるmdnetを導入し,大きな時間ステップで座標と運動量の進化を予測する。 加えて、MDNetはシステムサイズに関して線形複雑性のため、より大規模なシステムに容易にスケールできる。 我々は, MDNetの時間ステップが大きい4000原子系における性能を実証し, MDNetが標準MDシミュレーションとよく整合して, 良好な平衡特性と輸送特性を予測可能であることを示す。

Molecular dynamics (MD) simulation predicts the trajectory of atoms by solving Newton's equation of motion with a numeric integrator. Due to physical constraints, the time step of the integrator need to be small to maintain sufficient precision. This limits the efficiency of simulation. To this end, we introduce a graph neural network (GNN) based model, MDNet, to predict the evolution of coordinates and momentum with large time steps. In addition, MDNet can easily scale to a larger system, due to its linear complexity with respect to the system size. We demonstrate the performance of MDNet on a 4000-atom system with large time steps, and show that MDNet can predict good equilibrium and transport properties, well aligned with standard MD simulations.
翻訳日:2021-12-01 16:19:13 公開日:2021-11-30
# 光顕微鏡用深部コンピュータホログラフィー

Sparse deep computer-generated holography for optical microscopy ( http://arxiv.org/abs/2111.15178v1 )

ライセンス: Link先を確認
Alex Liu, Laura Waller, Yi Xue(参考訳) コンピュータ生成ホログラフィー(CGH)は、ダイレクトビューディスプレイ、バーチャルおよび拡張現実、光学顕微鏡などの幅広い応用がある。 CGHは通常、コンピュータ生成フェーズマスクを表示する空間光変調器を使用し、コヒーレント光の位相を変調して、カスタマイズされたパターンを生成する。 位相マスクを計算するアルゴリズムはcghのコアであり、通常異なる用途に対応するために調整される。 光学顕微鏡用CGHは通常3Dアクセシビリティ(すなわち、$z$-軸に沿って重なり合うパターンを生成する)とミクロンスケールの空間精度を必要とする。 本稿では,光学顕微鏡を用いた3次元照明合成のための教師なし生成モデルを用いたcghアルゴリズムを提案する。 このアルゴリズムはスパースディープCGHと呼ばれ、従来のCGHアルゴリズムよりも高コントラストの大きい大きな3次元ボリュームでスパース分散ポイントを生成することができる。

Computer-generated holography (CGH) has broad applications such as direct-view display, virtual and augmented reality, as well as optical microscopy. CGH usually utilizes a spatial light modulator that displays a computer-generated phase mask, modulating the phase of coherent light in order to generate customized patterns. The algorithm that computes the phase mask is the core of CGH and is usually tailored to meet different applications. CGH for optical microscopy usually requires 3D accessibility (i.e., generating overlapping patterns along the $z$-axis) and micron-scale spatial precision. Here, we propose a CGH algorithm using an unsupervised generative model designed for optical microscopy to synthesize 3D selected illumination. The algorithm, named sparse deep CGH, is able to generate sparsely distributed points in a large 3D volume with higher contrast than conventional CGH algorithms.
翻訳日:2021-12-01 16:19:01 公開日:2021-11-30
# モデルフリーマルコフジャンプ線形二次制御のためのポリシー勾配法による大域収束

Global Convergence Using Policy Gradient Methods for Model-free Markovian Jump Linear Quadratic Control ( http://arxiv.org/abs/2111.15228v1 )

ライセンス: Link先を確認
Santanu Rathod, Manoj Bhadu, Abir De(参考訳) 近年,強化学習への関心の高まりにより,グラデーションベースの政策管理手法が制御問題にも人気が高まっている。 そのようにして、勾配ポリシー手法は、エンド・ツー・エンドの方法で関心度を最適化する利点があり、基礎となるシステムの完全な知識なしに比較的簡単に実装できる。 本稿では,離散時間およびモデルフリーマルコフジャンプ線形システム(mjls)の二次制御のための勾配に基づくポリシー最適化手法のグローバル収束について検討する。 我々は,システムダイナミクスに関する知識の欠如と,複数の状態が組み合わさって生じる無数の課題を克服し,勾配降下法と自然政策勾配法を用いて,政策のグローバル収束を示す。 また、我々の主張を裏付けるシミュレーション研究も行っている。

Owing to the growth of interest in Reinforcement Learning in the last few years, gradient based policy control methods have been gaining popularity for Control problems as well. And rightly so, since gradient policy methods have the advantage of optimizing a metric of interest in an end-to-end manner, along with being relatively easy to implement without complete knowledge of the underlying system. In this paper, we study the global convergence of gradient-based policy optimization methods for quadratic control of discrete-time and model-free Markovian jump linear systems (MJLS). We surmount myriad challenges that arise because of more than one states coupled with lack of knowledge of the system dynamics and show global convergence of the policy using gradient descent and natural policy gradient methods. We also provide simulation studies to corroborate our claims.
翻訳日:2021-12-01 16:18:45 公開日:2021-11-30
# AutoDrop: 自動学習率低下によるディープラーニングモデルのトレーニング

AutoDrop: Training Deep Learning Models with Automatic Learning Rate Drop ( http://arxiv.org/abs/2111.15317v1 )

ライセンス: Link先を確認
Yunfei Teng, Jing Wang, Anna Choromanska(参考訳) 現代のディープラーニング(dl)アーキテクチャは、$\textit{manually}$定義された学習率スケジュールで実行されるsgdアルゴリズムの変種を使って訓練される。 本稿では,学習率を$\textit{automatically}$とするアルゴリズムを開発した。 提案手法は,モデルパラメータの角速度,すなわち,一定の学習速度に対する収束方向の変化速度が,最初は急速に増大し,その後ソフト飽和に向かって進行するのが動機である。 飽和時、最適化器は減速するため、角速度飽和は学習率を下げる良い指標となる。 落下後、角速度は「リセット」され、前述したパターンに従い、飽和するまで再び増加する。 我々は,本手法がSOTAトレーニング手法よりも改善できることを示し,DLモデルのトレーニングを加速し,より良い一般化をもたらすことを示した。 また,本手法は追加のハイパーパラメータチューニングを必要としないことを示す。 さらに、AutoDropは実装が非常に簡単で、計算コストも安い。 最後に,アルゴリズムを解析し,収束保証を提供する理論的枠組みを開発する。

Modern deep learning (DL) architectures are trained using variants of the SGD algorithm that is run with a $\textit{manually}$ defined learning rate schedule, i.e., the learning rate is dropped at the pre-defined epochs, typically when the training loss is expected to saturate. In this paper we develop an algorithm that realizes the learning rate drop $\textit{automatically}$. The proposed method, that we refer to as AutoDrop, is motivated by the observation that the angular velocity of the model parameters, i.e., the velocity of the changes of the convergence direction, for a fixed learning rate initially increases rapidly and then progresses towards soft saturation. At saturation the optimizer slows down thus the angular velocity saturation is a good indicator for dropping the learning rate. After the drop, the angular velocity "resets" and follows the previously described pattern - it increases again until saturation. We show that our method improves over SOTA training approaches: it accelerates the training of DL models and leads to a better generalization. We also show that our method does not require any extra hyperparameter tuning. AutoDrop is furthermore extremely simple to implement and computationally cheap. Finally, we develop a theoretical framework for analyzing our algorithm and provide convergence guarantees.
翻訳日:2021-12-01 16:18:32 公開日:2021-11-30
# アクティブ温度制御型ロボットグリッパーを用いた材料分類

Material Classification Using Active Temperature Controllable Robotic Gripper ( http://arxiv.org/abs/2111.15344v1 )

ライセンス: Link先を確認
Yukiko Osawa (AIST), Kei Kase (AIST), Yukiyasu Domae (AIST), Yoshiyuki Furukawa (AIST), Abderrahmane Kheddar (IDH, AIST)(参考訳) 認識技術により、ロボットは様々な物体を操作するための適切な計画と制御戦略を作成できる。 物体認識は、視覚や触覚など、いくつかのパーセプションを組み合わせることでより信頼性が高い。 各物体の素材の特徴の1つは熱特性であり、分類は人間の熱感覚と同様に熱伝達を利用することができる。 熱に基づく認識は、小型で安価なセンサを用いて簡単に温度変化を捉えることで、接触面情報をリアルタイムで取得する利点がある。 しかし,ロボット表面と接触物体との間の熱伝達は初期温度と環境条件に強く影響される。 ある物体の物質は、その温度がロボットグリップチップと同じであるときに認識できない。 アクティブ温度制御可能なロボットグリップを用いて熱流を誘導する材料分類システムを提案する。 その後,本システムは周囲温度とは独立して材料を認識できる。 ロボットグリップの表面は、タッチした物体の表面と区別するあらゆる温度に調節することができる。 対象物体の把握から得られた温度データを用いて, 長期記憶(LSTM)に基づいて, 温度制御システムとAcademic SCARA Robotを統合する実験を行った。

Recognition techniques allow robots to make proper planning and control strategies to manipulate various objects. Object recognition is more reliable when made by combining several percepts, e.g., vision and haptics. One of the distinguishing features of each object's material is its heat properties, and classification can exploit heat transfer, similarly to human thermal sensation. Thermal-based recognition has the advantage of obtaining contact surface information in realtime by simply capturing temperature change using a tiny and cheap sensor. However, heat transfer between a robot surface and a contact object is strongly affected by the initial temperature and environmental conditions. A given object's material cannot be recognized when its temperature is the same as the robotic grippertip. We present a material classification system using active temperature controllable robotic gripper to induce heat flow. Subsequently, our system can recognize materials independently from their ambient temperature. The robotic gripper surface can be regulated to any temperature that differentiates it from the touched object's surface. We conducted some experiments by integrating the temperature control system with the Academic SCARA Robot, classifying them based on a long short-term memory (LSTM) using temperature data obtained from grasping target objects.
翻訳日:2021-12-01 16:18:14 公開日:2021-11-30
# (参考訳) 無ソース非教師なし3次元物体検出のための注意型プロトタイプ

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection ( http://arxiv.org/abs/2111.15656v1 )

ライセンス: CC BY 4.0
Deepti Hegde and Vishal Patel(参考訳) 3dオブジェクト検出ネットワークは、トレーニングされたデータに対して偏りがちである。 トレーニング(ソース)データとは異なる場所、条件、センサーでキャプチャされたデータセットの評価は、テスト(あるいはターゲット)データとの分散の欠如によるモデルパフォーマンスの低下をもたらす。 ドメイン適応の現在の方法は、プライバシやメモリ上の懸念から利用できないトレーニング中にソースデータへのアクセスを前提とするか、あるいは入力としてライダーフレームのシーケンスを必要とする。 そこで本稿では,ライダーを用いた3次元物体検出装置のソースレス・教師なし領域適応のための単一フレーム手法を提案する。 ノイズラベルの存在下でのプロトタイプ計算における従来の特徴集約手法の限界に対処し,不正確で信頼度の高いアノテーションに対応する外れ値roiをトランスフォーマモジュールを用いて識別し,注意クラスプロトタイプを計算する。 反復的なトレーニング戦略では、ノイズの多い擬似ラベルに関連する損失は軽減され、自己学習の過程で洗練される。 提案手法の有効性を検証するために,ラベルが豊富な大規模データセット(waymo open dataset や nuscenes など)でトレーニングされたネットワークに関連するドメインシフトを検証し,より小さなラベルパウダーデータセット(kitti など)とvice-versaについて評価した。 我々は,最近の2つの物体検出器に対するアプローチを実証し,他の領域の適応性よりも優れる結果を得る。

3D object detection networks tend to be biased towards the data they are trained on. Evaluation on datasets captured in different locations, conditions or sensors than that of the training (source) data results in a drop in model performance due to the gap in distribution with the test (or target) data. Current methods for domain adaptation either assume access to source data during training, which may not be available due to privacy or memory concerns, or require a sequence of lidar frames as an input. We propose a single-frame approach for source-free, unsupervised domain adaptation of lidar-based 3D object detectors that uses class prototypes to mitigate the effect pseudo-label noise. Addressing the limitations of traditional feature aggregation methods for prototype computation in the presence of noisy labels, we utilize a transformer module to identify outlier ROI's that correspond to incorrect, over-confident annotations, and compute an attentive class prototype. Under an iterative training strategy, the losses associated with noisy pseudo labels are down-weighed and thus refined in the process of self-training. To validate the effectiveness of our proposed approach, we examine the domain shift associated with networks trained on large, label-rich datasets (such as the Waymo Open Dataset and nuScenes) and evaluate on smaller, label-poor datasets (such as KITTI) and vice-versa. We demonstrate our approach on two recent object detectors and achieve results that out-perform the other domain adaptation works.
翻訳日:2021-12-01 16:16:25 公開日:2021-11-30
# 拡散オートエンコーダ : 意味のあるデオード可能な表現を目指して

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation ( http://arxiv.org/abs/2111.15640v1 )

ライセンス: Link先を確認
Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn(参考訳) 拡散確率モデル(dpms)はgansに匹敵する画像生成において顕著な品質を達成している。 しかし、GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。 本稿では,DPMを用いた表現学習の可能性を探究し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みる。 我々のキーとなるアイデアは、学習可能なエンコーダを高レベルのセマンティクスの発見に使い、DPMを残りの確率変動をモデル化するためのデコーダとして使うことです。 提案手法では,第1部が意味的意味的かつ線形な2部潜在コードに任意の画像をエンコードし,第2部が確率的詳細をキャプチャし,近似的再構成を可能にする。 この機能により、実際の画像の属性操作など、現在GANベースの手法を駆使している挑戦的なアプリケーションが可能になる。 また,この2レベル符号化により,ノイズ除去効率が向上し,数ショット条件サンプリングを含む下流タスクを自然にフェシル化することを示した。

Diffusion probabilistic models (DPMs) have achieved remarkable quality in image generation that rivals GANs'. But unlike GANs, DPMs use a set of latent variables that lack semantic meaning and cannot serve as a useful representation for other tasks. This paper explores the possibility of using DPMs for representation learning and seeks to extract a meaningful and decodable representation of an input image via autoencoding. Our key idea is to use a learnable encoder for discovering the high-level semantics, and a DPM as the decoder for modeling the remaining stochastic variations. Our method can encode any image into a two-part latent code, where the first part is semantically meaningful and linear, and the second part captures stochastic details, allowing near-exact reconstruction. This capability enables challenging applications that currently foil GAN-based methods, such as attribute manipulation on real images. We also show that this two-level encoding improves denoising efficiency and naturally facil itates various downstream tasks including few-shot conditional sampling.
翻訳日:2021-12-01 16:00:05 公開日:2021-11-30
# HyperStyle: リアルタイムイメージ編集のためのHyperNetworksを使用したStyleGANインバージョン

HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing ( http://arxiv.org/abs/2111.15666v1 )

ライセンス: Link先を確認
Yuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit H. Bermano(参考訳) StyleGANの潜在空間への実画像の反転は、よく研究されている問題である。 それでも、現実世界のシナリオに既存のアプローチを適用することは、レコンストラクションと編集可能性との間に固有のトレードオフがあるため、まだ未解決の課題である。 最近の研究は、ジェネレータを微調整してターゲットイメージを潜在空間の良好な編集可能な領域に追加することで、このトレードオフを軽減することを提案している。 有望ではあるが、この微調整方式は、新しい画像ごとに長い訓練フェーズを必要とするため、広く使われるには実用的ではない。 本稿では,この手法をエンコーダベースの反転の領域に導入する。 本稿では,階層空間の編集可能な領域で与えられた画像を忠実に表現するために,スタイルGANの重みを変調するハイパーネットワークであるHyperStyleを提案する。 単純な変調アプローチでは、30億以上のパラメータでハイパーネットワークをトレーニングする必要がある。 注意深いネットワーク設計により、既存のエンコーダに適合するように削減する。 HyperStyleは、エンコーダのほぼリアルタイム推論機能を備えた最適化手法に匹敵する再構成を行う。 最後に、トレーニング中に見ることのないドメイン外イメージの編集など、反転タスク以外のいくつかのアプリケーションでhyperstyleの有効性を実証する。

The inversion of real images into StyleGAN's latent space is a well-studied problem. Nevertheless, applying existing approaches to real-world scenarios remains an open challenge, due to an inherent trade-off between reconstruction and editability: latent space regions which can accurately represent real images typically suffer from degraded semantic control. Recent work proposes to mitigate this trade-off by fine-tuning the generator to add the target image to well-behaved, editable regions of the latent space. While promising, this fine-tuning scheme is impractical for prevalent use as it requires a lengthy training phase for each new image. In this work, we introduce this approach into the realm of encoder-based inversion. We propose HyperStyle, a hypernetwork that learns to modulate StyleGAN's weights to faithfully express a given image in editable regions of the latent space. A naive modulation approach would require training a hypernetwork with over three billion parameters. Through careful network design, we reduce this to be in line with existing encoders. HyperStyle yields reconstructions comparable to those of optimization techniques with the near real-time inference capabilities of encoders. Lastly, we demonstrate HyperStyle's effectiveness on several applications beyond the inversion task, including the editing of out-of-domain images which were never seen during training.
翻訳日:2021-12-01 15:59:44 公開日:2021-11-30
# ats:効率的な視覚トランスフォーマーのための適応トークンサンプリング

ATS: Adaptive Token Sampling For Efficient Vision Transformers ( http://arxiv.org/abs/2111.15667v1 )

ライセンス: Link先を確認
Mohsen Fayyaz, Soroush Abbasi Kouhpayegani, Farnoush Rezaei Jafari, Eric Sommerlade, Hamid Reza Vaezi Joze, Hamed Pirsiavash, Juergen Gall(参考訳) 最先端の視覚変換器モデルは画像分類に有望な結果をもたらすが、計算は非常に高価であり、多くのGFLOPを必要とする。 ネットワーク内のトークン数を減らすことで、視覚変換器のGFLOPを削減できるが、全ての入力画像に最適な設定は存在しない。 そこで本研究では,既存の視覚トランスフォーマーアーキテクチャにプラグイン可能な,微分可能なパラメータフリー適応トークンサンプリング(ats)モジュールを導入する。 ATSは重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。 その結果、トークンの数はもはや静的ではないが、入力画像ごとに異なる。 ATSを現在の変圧器ブロックの付加層として統合することにより、適応数のトークンでより効率的な視覚変換器に変換することができる。 ATSはパラメータフリーのモジュールであるため、オフザシェルフで事前訓練された視覚変換器をプラグアンドプレイモジュールとして追加することができる。 しかし、その異なる設計のため、ATSを装備した視覚変換器を訓練することもできる。 我々は、imagenetデータセット上のモジュールを複数の最先端ビジョントランスフォーマに付加することで評価する。 評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。

While state-of-the-art vision transformer models achieve promising results for image classification, they are computationally very expensive and require many GFLOPs. Although the GFLOPs of a vision transformer can be decreased by reducing the number of tokens in the network, there is no setting that is optimal for all input images. In this work, we, therefore, introduce a differentiable parameter-free Adaptive Token Sampling (ATS) module, which can be plugged into any existing vision transformer architecture. ATS empowers vision transformers by scoring and adaptively sampling significant tokens. As a result, the number of tokens is not anymore static but it varies for each input image. By integrating ATS as an additional layer within current transformer blocks, we can convert them into much more efficient vision transformers with an adaptive number of tokens. Since ATS is a parameter-free module, it can be added to off-the-shelf pretrained vision transformers as a plug-and-play module, thus reducing their GFLOPs without any additional training. However, due to its differentiable design, one can also train a vision transformer equipped with ATS. We evaluate our module on the ImageNet dataset by adding it to multiple state-of-the-art vision transformers. Our evaluations show that the proposed module improves the state-of-the-art by reducing the computational cost (GFLOPs) by 37% while preserving the accuracy.
翻訳日:2021-12-01 15:59:26 公開日:2021-11-30
# adavit:効率的な画像認識のための適応視覚トランスフォーマー

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition ( http://arxiv.org/abs/2111.15668v1 )

ライセンス: Link先を確認
Lingchen Meng, Hengduo Li, Bor-Chun Chen, Shiyi Lan, Zuxuan Wu, Yu-Gang Jiang, Ser-Nam Lim(参考訳) 自己注意機構の上に構築された視覚トランスフォーマーは、近年、様々な視覚タスクにおいて顕著な性能を示した。 優れたパフォーマンスを実現する一方で、パッチ数、自己注意ヘッド、トランスフォーマーブロックの増加に伴って劇的にスケールアップする比較的計算コストを必要とする。 本稿では,画像のばらつきが大きいため,パッチ間の長距離依存関係をモデル化する必要性が異なることを論じる。 そこで我々は,画像認識の精度を最小限に抑えつつ,視覚変換器の推論効率を向上させることを目的として,バックボーン全体のパッチ,自己アテンションヘッド,およびトランスフォーマーブロックの使用法を学習する適応型計算フレームワークであるAdaViTを紹介する。 変圧器のバックボーンとエンドツーエンドで協調的に最適化され、バックボーンに軽量な決定ネットワークが取り付けられ、オンザフライで判定を行う。 ImageNetの広汎な実験により,提案手法は精度0.8%の最先端ビジョン変換器と比較して2倍以上の効率向上を実現し,計算予算の異なる良好な効率/精度トレードオフを実現することができた。 また,視覚トランスフォーマーの冗長性に関するさらなる知見を提供するとともに,学習した使用警察の定量的・質的分析を行う。

Built on top of self-attention mechanisms, vision transformers have demonstrated remarkable performance on a variety of vision tasks recently. While achieving excellent performance, they still require relatively intensive computational cost that scales up drastically as the numbers of patches, self-attention heads and transformer blocks increase. In this paper, we argue that due to the large variations among images, their need for modeling long-range dependencies between patches differ. To this end, we introduce AdaViT, an adaptive computation framework that learns to derive usage policies on which patches, self-attention heads and transformer blocks to use throughout the backbone on a per-input basis, aiming to improve inference efficiency of vision transformers with a minimal drop of accuracy for image recognition. Optimized jointly with a transformer backbone in an end-to-end manner, a light-weight decision network is attached to the backbone to produce decisions on-the-fly. Extensive experiments on ImageNet demonstrate that our method obtains more than 2x improvement on efficiency compared to state-of-the-art vision transformers with only 0.8% drop of accuracy, achieving good efficiency/accuracy trade-offs conditioned on different computational budgets. We further conduct quantitative and qualitative analysis on learned usage polices and provide more insights on the redundancy in vision transformers.
翻訳日:2021-12-01 15:59:02 公開日:2021-11-30
# 360MonoDepth: 高分解能360{\deg} 単分子深さ推定

360MonoDepth: High-Resolution 360{\deg} Monocular Depth Estimation ( http://arxiv.org/abs/2111.15669v1 )

ライセンス: Link先を確認
Manuel Rey-Area and Mingze Yuan and Christian Richardt(参考訳) 360{\deg}カメラは単一のショットで完全な環境をキャプチャできるため、多くのコンピュータビジョンタスクで360{\deg}の画像が順応する。 しかし、360{\deg}データ、特に2k (2048$\times$1024)のような新しい視点合成やバーチャルリアリティアプリケーションにとって重要な高解像度データでは、単眼深度の推定は依然として困難である。 現在のCNNベースのメソッドは、GPUメモリが限られているため、そのような高解像度をサポートしない。 本研究では,接線画像を用いた高分解能360{\deg}画像からの単眼深度推定のための柔軟な枠組みを提案する。 我々は360{\deg} の入力画像を一組の接面に投影し、最新の最先端のモノクル深度推定器に適した視点ビューを生成する。 変形可能なマルチスケールアライメントを用いて個別の深さ推定を再結合し,その後に勾配領域ブレンディングを行い,差分推定の整合性を改善する。 その結果、密集した高解像度の360{\deg}深度マップが作成され、詳細度が高く、また既存の手法ではサポートされていない屋外シーンも利用できる。

360{\deg} cameras can capture complete environments in a single shot, which makes 360{\deg} imagery alluring in many computer vision tasks. However, monocular depth estimation remains a challenge for 360{\deg} data, particularly for high resolutions like 2K (2048$\times$1024) that are important for novel-view synthesis and virtual reality applications. Current CNN-based methods do not support such high resolutions due to limited GPU memory. In this work, we propose a flexible framework for monocular depth estimation from high-resolution 360{\deg} images using tangent images. We project the 360{\deg} input image onto a set of tangent planes that produce perspective views, which are suitable for the latest, most accurate state-of-the-art perspective monocular depth estimators. We recombine the individual depth estimates using deformable multi-scale alignment followed by gradient-domain blending to improve the consistency of disparity estimates. The result is a dense, high-resolution 360{\deg} depth map with a high level of detail, also for outdoor scenes which are not supported by existing methods.
翻訳日:2021-12-01 15:58:37 公開日:2021-11-30
# 教師なしドメイン適応:現実チェック

Unsupervised Domain Adaptation: A Reality Check ( http://arxiv.org/abs/2111.15672v1 )

ライセンス: Link先を確認
Kevin Musgrave, Serge Belongie, Ser-Nam Lim(参考訳) 教師なしドメイン適応(UDA)への関心は近年急増しており、多くの新しいアルゴリズムが生まれている。 しかし、高速に動くフィールドの場合と同様に、ベースラインアルゴリズムはテストされるべき範囲までテストされない。 さらに,対象ドメインラベルが存在しない場合のモデルの精度を推定する手法として,検証手法にはほとんど注意が払われていない。 これは、バリデーションメソッドがuda train/valパイプラインの重要なコンポーネントであるという事実にもかかわらずです。 本稿では,大規模実験を通して述べる。 1) オラクル設定では, UDAアルゴリズムの精度の差は従来考えられていたよりも小さい。 2) 最先端検証手法は精度にはあまり関係がなく, 3) 検証手法による精度低下により, UDAアルゴリズムの差は小さくなる。

Interest in unsupervised domain adaptation (UDA) has surged in recent years, resulting in a plethora of new algorithms. However, as is often the case in fast-moving fields, baseline algorithms are not tested to the extent that they should be. Furthermore, little attention has been paid to validation methods, i.e. the methods for estimating the accuracy of a model in the absence of target domain labels. This is despite the fact that validation methods are a crucial component of any UDA train/val pipeline. In this paper, we show via large-scale experimentation that 1) in the oracle setting, the difference in accuracy between UDA algorithms is smaller than previously thought, 2) state-of-the-art validation methods are not well-correlated with accuracy, and 3) differences between UDA algorithms are dwarfed by the drop in accuracy caused by validation methods.
翻訳日:2021-12-01 15:58:17 公開日:2021-11-30
# 周期性を超えて - コーディネートMLPにおけるアクティベーション統合フレームワークを目指して

Beyond Periodicity: Towards a Unifying Framework for Activations in Coordinate-MLPs ( http://arxiv.org/abs/2111.15135v1 )

ライセンス: Link先を確認
Sameera Ramasinghe and Simon Lucey(参考訳) coordinate-mlpsは多次元連続信号のモデリングに有効なツールとして登場し、離散格子に基づく近似に関連する多くの欠点を克服している。 しかし、ReLUアクティベーションを持つ座標MLPは、その初歩的な形態で、高忠実度信号の表現性能の低下を示し、位置埋め込み層の必要性を促進する。 近年、Sitzmannらは、高信号忠実性を維持しながら座標MLPの位置埋め込みを省略する能力を持つ正弦波活性化関数を提案した。 この可能性にもかかわらず、ReLUは依然として座標MLPの空間を支配している。 本稿では,コーディネートmlpsにおけるアクティベーションの効果に関する現在の理解を深め,信号の符号化に適したアクティベーションのより広いクラスが存在することを示す。 このクラスでは正弦波の活性化は単一の例に過ぎないと確認し、正弦波よりもランダムな初期化に対するより堅牢な性能を実証的に示すいくつかの非周期関数を提案する。 最後に,これらの非伝統的なアクティベーション関数を用いた座標MLPへのシフトを提案する。

Coordinate-MLPs are emerging as an effective tool for modeling multidimensional continuous signals, overcoming many drawbacks associated with discrete grid-based approximations. However, coordinate-MLPs with ReLU activations, in their rudimentary form, demonstrate poor performance in representing signals with high fidelity, promoting the need for positional embedding layers. Recently, Sitzmann et al. proposed a sinusoidal activation function that has the capacity to omit positional embedding from coordinate-MLPs while still preserving high signal fidelity. Despite its potential, ReLUs are still dominating the space of coordinate-MLPs; we speculate that this is due to the hyper-sensitivity of networks -- that employ such sinusoidal activations -- to the initialization schemes. In this paper, we attempt to broaden the current understanding of the effect of activations in coordinate-MLPs, and show that there exists a broader class of activations that are suitable for encoding signals. We affirm that sinusoidal activations are only a single example in this class, and propose several non-periodic functions that empirically demonstrate more robust performance against random initializations than sinusoids. Finally, we advocate for a shift towards coordinate-MLPs that employ these non-traditional activation functions due to their high performance and simplicity.
翻訳日:2021-12-01 15:56:10 公開日:2021-11-30
# maxipデータ構造を用いた条件勾配法における線形反復コスト障壁の破却

Breaking the Linear Iteration Cost Barrier for Some Well-known Conditional Gradient Methods Using MaxIP Data-structures ( http://arxiv.org/abs/2111.15139v1 )

ライセンス: Link先を確認
Anshumali Shrivastava, Zhao Song and Zhaozhuo Xu(参考訳) 条件勾配法(CGM)は現代の機械学習で広く使われている。 CGMの全体の実行時間は、通常、イテレーションの数と各イテレーションのコストの2つの部分で構成される。 ほとんどの取り組みは、全体の実行時間を削減する手段として、イテレーションの数を減らすことに重点を置いている。 本稿では,CGMのイテレーション毎のコスト改善に焦点を当てる。 ほとんどのccmにおけるボトルネックステップは最大内積探索(maxip)であり、パラメータの線形スキャンを必要とする。 実際には、近似MaxIPデータ構造は役に立つヒューリスティックである。 しかし理論的には、近似MaxIPデータ構造とCGMの組み合わせについては何も分かっていない。 本研究では,局所性に敏感なハッシュ型近似 maxip データ構造と cgm アルゴリズムを組み合わせた形式的フレームワークを提供することで,この疑問に正の答えを得る。 その結果、Frank-Wolfeアルゴリズム、Herdingアルゴリズム、ポリシー勾配など、多くの基本的な最適化アルゴリズムに対して、イテレーション当たりのコストがパラメータ数にサブ線形である最初のアルゴリズムを示す。

Conditional gradient methods (CGM) are widely used in modern machine learning. CGM's overall running time usually consists of two parts: the number of iterations and the cost of each iteration. Most efforts focus on reducing the number of iterations as a means to reduce the overall running time. In this work, we focus on improving the per iteration cost of CGM. The bottleneck step in most CGM is maximum inner product search (MaxIP), which requires a linear scan over the parameters. In practice, approximate MaxIP data-structures are found to be helpful heuristics. However, theoretically, nothing is known about the combination of approximate MaxIP data-structures and CGM. In this work, we answer this question positively by providing a formal framework to combine the locality sensitive hashing type approximate MaxIP data-structures with CGM algorithms. As a result, we show the first algorithm, where the cost per iteration is sublinear in the number of parameters, for many fundamental optimization algorithms, e.g., Frank-Wolfe, Herding algorithm, and policy gradient.
翻訳日:2021-12-01 15:55:48 公開日:2021-11-30
# Path Integral Sampler: サンプリングのための確率的制御手法

Path Integral Sampler: a stochastic control approach for sampling ( http://arxiv.org/abs/2111.15141v1 )

ライセンス: Link先を確認
Qinsheng Zhang, Yongxin Chen(参考訳) 非正規化確率密度関数からサンプルを抽出する新しいアルゴリズムPath Integral Sampler~(PIS)を提案する。 PISは、初期分布と終端分布を考えると、拡散過程の最も可能性の高い進化を回復することを目的としたSchr\"odinger Bridge問題に基づいている。 pisは初期分布からサンプルを抽出し、その後schr\"odinger橋を介してサンプルを伝播して終端分布に到達する。 Girsanov の定理を適用すると、単純な事前拡散で PIS を確率的最適制御問題として定式化し、目標分布に応じてランニングコストが制御エネルギーであり、終端コストが選択される。 制御をニューラルネットワークとしてモデル化することにより,エンドツーエンドでトレーニング可能なサンプリングアルゴリズムを確立する。 サブオプティマ制御を用いた場合のwasserstein距離によるpiのサンプリング品質の理論的正当性を示す。 さらに、パス積分理論は、コントローラのサブ最適性と時間離散化によって引き起こされるバイアスを補うためにサンプルの重要性重みを計算するために用いられる。 PISの利点を,各種タスクにおける他の手法と比較して実験的に実証した。

We present Path Integral Sampler~(PIS), a novel algorithm to draw samples from unnormalized probability density functions. The PIS is built on the Schr\"odinger bridge problem which aims to recover the most likely evolution of a diffusion process given its initial distribution and terminal distribution. The PIS draws samples from the initial distribution and then propagates the samples through the Schr\"odinger bridge to reach the terminal distribution. Applying the Girsanov theorem, with a simple prior diffusion, we formulate the PIS as a stochastic optimal control problem whose running cost is the control energy and terminal cost is chosen according to the target distribution. By modeling the control as a neural network, we establish a sampling algorithm that can be trained end-to-end. We provide theoretical justification of the sampling quality of PIS in terms of Wasserstein distance when sub-optimal control is used. Moreover, the path integrals theory is used to compute importance weights of the samples to compensate for the bias induced by the sub-optimality of the controller and time-discretization. We experimentally demonstrate the advantages of PIS compared with other start-of-the-art sampling methods on a variety of tasks.
翻訳日:2021-12-01 15:55:32 公開日:2021-11-30
# 非並列データからの分子属性伝達

Molecular Attributes Transfer from Non-Parallel Data ( http://arxiv.org/abs/2111.15146v1 )

ライセンス: Link先を確認
Shuangjia Zheng, Ying Song, Zhang Pan, Chengtao Li, Le Song, Yuedong Yang(参考訳) 望ましい性質のために化学分子を最適化することは、薬物開発の中核である。 深層生成モデルと強化学習法による初期の成功にもかかわらず、これらの手法は主に、あらかじめ定義された属性関数や、手動でコンパイルされたオリジナルの分子と最適化された分子のペアによる並列データの要求によって制限された。 本稿では,分子最適化をスタイル伝達問題として初めて定式化し,非並列データの2つのグループ間の内部的差異を自動的に学習する新しい生成モデルを提案する。 さらに, 補助的可変オートエンコーダと生成フロー技術を組み合わせることにより, 分子コンテンツの保存と分子特性の最適化を両立する。 毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。

Optimizing chemical molecules for desired properties lies at the core of drug development. Despite initial successes made by deep generative models and reinforcement learning methods, these methods were mostly limited by the requirement of predefined attribute functions or parallel data with manually pre-compiled pairs of original and optimized molecules. In this paper, for the first time, we formulate molecular optimization as a style transfer problem and present a novel generative model that could automatically learn internal differences between two groups of non-parallel data through adversarial training strategies. Our model further enables both preservation of molecular contents and optimization of molecular properties through combining auxiliary guided-variational autoencoders and generative flow techniques. Experiments on two molecular optimization tasks, toxicity modification and synthesizability improvement, demonstrate that our model significantly outperforms several state-of-the-art methods.
翻訳日:2021-12-01 15:55:14 公開日:2021-11-30
# 単純reluネットワークのためのフィッシャー情報行列の近似スペクトル分解

Approximate Spectral Decomposition of Fisher Information Matrix for Simple ReLU Networks ( http://arxiv.org/abs/2111.15256v1 )

ライセンス: Link先を確認
Yoshinari Takeishi, Masazumi Iida, Jun'ichi Takeuchi(参考訳) 本稿では,ReLUアクティベーション機能を持つ隠蔽層ネットワークのフィッシャー情報行列(FIM)について検討し,一定の条件下でのFIMの近似スペクトル分解を求める。 この分解から、主固有値と固有ベクトルを近似することができる。 数値シミュレーションにより,隠れノード数が約10000の場合,得られた分解がほぼ正しいことを確認した。

We investigate the Fisher information matrix (FIM) of one hidden layer networks with the ReLU activation function and obtain an approximate spectral decomposition of FIM under certain conditions. From this decomposition, we can approximate the main eigenvalues and eigenvectors. We confirmed by numerical simulation that the obtained decomposition is approximately correct when the number of hidden nodes is about 10000.
翻訳日:2021-12-01 15:55:00 公開日:2021-11-30
# DeepAL: Pythonのディープラーニング

DeepAL: Deep Active Learning in Python ( http://arxiv.org/abs/2111.15258v1 )

ライセンス: Link先を確認
Kuan-Hao Huang(参考訳) 我々は,アクティブ学習のためのいくつかの共通戦略を実装したPythonライブラリであるDeepALを紹介する。 deepalはpytorchをベースにしたシンプルで統一されたフレームワークを提供し、ユーザーはカスタムデータセットの読み込み、カスタムデータハンドラの構築、コードの変更なしにカスタム戦略を設計することができる。 DeepALはGithubでオープンソースで、コントリビューションを歓迎している。

We present DeepAL, a Python library that implements several common strategies for active learning, with a particular emphasis on deep active learning. DeepAL provides a simple and unified framework based on PyTorch that allows users to easily load custom datasets, build custom data handlers, and design custom strategies without much modification of codes. DeepAL is open-source on Github and welcome any contribution.
翻訳日:2021-12-01 15:53:50 公開日:2021-11-30
# ニューラル応答を用いたディープオートエンコーダ

Deep Auto-encoder with Neural Response ( http://arxiv.org/abs/2111.15309v1 )

ライセンス: Link先を確認
Xuming Ran, Jie Zhang, Ziyuan Ye, Haiyan Wu, Qi Xu, Huihui Zhou, Quanying Liu(参考訳) 人工知能と神経科学は深く対話的である。 人工ニューラルネットワーク(anns)は、脳室の視覚の流れにおける神経表現を研究するための多用途なツールであり、神経科学の知識は、annモデルにタスクのパフォーマンスを改善する刺激を与えている。 しかし、これらの2つの方向を統一モデルにマージする方法は研究されていない。 本稿では、視覚野からの情報をANNに組み込んだディープオートエンコーダ(DAE-NR)と呼ばれるハイブリッドモデルを提案する。 具体的には、マウス脳とDAE-NRの両方に同じ視覚刺激(すなわち自然画像)が入力される。 dae−nrは、マッピング関数により、エンコーダネットワークの特定の層を、心室視覚ストリームの生物学的神経応答にマッピングし、デコーダによる視覚入力を再構築することを学ぶ。 我々の実験は、共同学習でDAE-NRが可能であることを証明している。 (i)画像再構成性能の向上及び改善 (ii) 生体ニューロンと人工ニューロンとの表現的類似性を増加させる。 DAE-NRはコンピュータビジョンと視覚神経科学の統合に関する新たな視点を提供する。

Artificial intelligence and neuroscience are deeply interactive. Artificial neural networks (ANNs) have been a versatile tool to study the neural representation in the ventral visual stream, and the knowledge in neuroscience in return inspires ANN models to improve performance in the task. However, how to merge these two directions into a unified model has less studied. Here, we propose a hybrid model, called deep auto-encoder with the neural response (DAE-NR), which incorporates the information from the visual cortex into ANNs to achieve better image reconstruction and higher neural representation similarity between biological and artificial neurons. Specifically, the same visual stimuli (i.e., natural images) are input to both the mice brain and DAE-NR. The DAE-NR jointly learns to map a specific layer of the encoder network to the biological neural responses in the ventral visual stream by a mapping function and to reconstruct the visual input by the decoder. Our experiments demonstrate that if and only if with the joint learning, DAE-NRs can (i) improve the performance of image reconstruction and (ii) increase the representational similarity between biological neurons and artificial neurons. The DAE-NR offers a new perspective on the integration of computer vision and visual neuroscience.
翻訳日:2021-12-01 15:53:42 公開日:2021-11-30
# 定常反応を持つニューロンはより一般化する

Neuron with Steady Response Leads to Better Generalization ( http://arxiv.org/abs/2111.15414v1 )

ライセンス: Link先を確認
Qiang Fu, Lun Du, Haitao Mao, Xu Chen, Wei Fang, Shi Han and Dongmei Zhang(参考訳) 正規化は、帰納バイアスを導入することによって、トレーニングと推論の間の一般化ギャップを軽減することができる。 既存の研究はすでに様々な視点から様々な帰納バイアスを提案している。 しかしながら、私たちの知る限りでは、個々のニューロンのクラス依存応答分布の観点から誘導バイアスを探索する者はいない。 本稿では,そのような分布の特性を定量的に解析する。 解析結果に基づき、ニューロンの安定性仮説を定式化し、同じクラスの例に類似した応答を持つニューロンがより一般化する。 そこで本研究では,ニューロン内応答のばらつきを低減するために,ニューロン定常正規化と呼ばれる新しい正規化手法を提案する。 我々は、多層パーセプトロン、畳み込みニューラルネットワーク、グラフニューラルネットワークに関する広範な実験を行い、さまざまなドメインの一般的なベンチマークデータセットを用いて、我々のニューロン定常正規化が、大きなゲインと低いオーバーヘッドでバニラバージョンのモデルより一貫して優れていることを示す。

Regularization can mitigate the generalization gap between training and inference by introducing inductive bias. Existing works have already proposed various inductive biases from diverse perspectives. However, to the best of our knowledge, none of them explores inductive bias from the perspective of class-dependent response distribution of individual neurons. In this paper, we conduct a substantial analysis of the characteristics of such distribution. Based on the analysis results, we articulate the Neuron Steadiness Hypothesis: the neuron with similar responses to instances of the same class leads to better generalization. Accordingly, we propose a new regularization method called Neuron Steadiness Regularization to reduce neuron intra-class response variance. We conduct extensive experiments on Multilayer Perceptron, Convolutional Neural Network, and Graph Neural Network with popular benchmark datasets of diverse domains, which show that our Neuron Steadiness Regularization consistently outperforms the vanilla version of models with significant gain and low additional overhead.
翻訳日:2021-12-01 15:53:23 公開日:2021-11-30
# 連続グラフ表現学習のための階層型プロトタイプネットワーク

Hierarchical Prototype Networks for Continual Graph Representation Learning ( http://arxiv.org/abs/2111.15422v1 )

ライセンス: Link先を確認
Xikun Zhang, Dongjin Song, Dacheng Tao(参考訳) グラフ表現学習の大幅な進歩にもかかわらず、ノードの新たなカテゴリ(引用ネットワークの新しい研究領域、あるいは共同購入ネットワークの新しいタイプの製品)とその関連エッジが継続的に出現し、それまでのカテゴリを壊滅的に忘れてしまうような、より実践的な継続的学習シナリオにはほとんど注意が払われていない。 既存の方法は、豊かなトポロジー情報を無視するか、安定性のために可塑性を犠牲にする。 この目的のために, 連続的に拡張されたグラフを表現するために, プロトタイプの形で抽象知識のレベルが異なる階層型プロトタイプネットワーク(HPN)を提案する。 具体的には,まず,要素属性情報と対象ノードの位相構造の両方をエンコードするアトミック特徴抽出器(afes)のセットを利用する。 次に,関連するAFEを適応的に選択し,各ノードを3段階のプロトタイプで表現するHPNを開発する。 このように、ノードの新たなカテゴリが与えられると、各レベルの関連するafeとプロトタイプのみが起動され、洗練され、他のノードは既存のノードのパフォーマンスを維持するために中断されない。 理論的には、HPNのメモリ消費は、どれだけのタスクに遭遇したかに関わらず制限される。 そして,軽度の制約下では,新しいタスクを学習しても,前のデータと一致したプロトタイプは変更されず,忘れる問題は解消される。 理論的な結果は5つのデータセットの実験によって支持され、HPNは最先端のベースライン技術を上回るだけでなく、メモリ消費も比較的少ないことを示している。

Despite significant advances in graph representation learning, little attention has been paid to the more practical continual learning scenario in which new categories of nodes (e.g., new research areas in citation networks, or new types of products in co-purchasing networks) and their associated edges are continuously emerging, causing catastrophic forgetting on previous categories. Existing methods either ignore the rich topological information or sacrifice plasticity for stability. To this end, we present Hierarchical Prototype Networks (HPNs) which extract different levels of abstract knowledge in the form of prototypes to represent the continuously expanded graphs. Specifically, we first leverage a set of Atomic Feature Extractors (AFEs) to encode both the elemental attribute information and the topological structure of the target node. Next, we develop HPNs to adaptively select relevant AFEs and represent each node with three levels of prototypes. In this way, whenever a new category of nodes is given, only the relevant AFEs and prototypes at each level will be activated and refined, while others remain uninterrupted to maintain the performance over existing nodes. Theoretically, we first demonstrate that the memory consumption of HPNs is bounded regardless of how many tasks are encountered. Then, we prove that under mild constraints, learning new tasks will not alter the prototypes matched to previous data, thereby eliminating the forgetting problem. The theoretical results are supported by experiments on five datasets, showing that HPNs not only outperform state-of-the-art baseline techniques but also consume relatively less memory.
翻訳日:2021-12-01 15:53:09 公開日:2021-11-30
# 気候データによる農業干ばつ分類の一般化について

On the Generalization of Agricultural Drought Classification from Climate Data ( http://arxiv.org/abs/2111.15452v1 )

ライセンス: Link先を確認
Julia Gottfriedsen, Max Berrendorf, Pierre Gentine, Markus Reichstein, Katja Weigel, Birgit Hassler, Veronika Eyring(参考訳) 気候変動は干ばつの可能性を高め、食料安全保障に深刻な影響を及ぼすと予想されている。 他の自然災害とは異なり、干ばつの発生は遅く、様々な外部要因に依存するため、気候データの干ばつ検出は困難である。 水文モデルから得られた土壌水分指数 (SMI) に基づいて, 簡易相対干ばつ指標を地中構造データとして用いた既存研究と対比した。 この指標は、植物に不足した水に直接関係している。 気象観測衛星MODISによる土地利用情報を用いた6ヶ月のERA5-Land気候入力データから、SMIに基づく干ばつ分類において、異なるモデルと逐次誘導バイアスのないモデルを比較した。 我々は,PR-AUCを評価指標として,クラス不均衡を考慮し,挑戦的な時間分割にもかかわらず有望な結果を得る。 さらに,気候モデルで頻繁に見られるような粗い解像度の入力データから,モデルが予測能力を保っていることをアブレーション研究で示している。

Climate change is expected to increase the likelihood of drought events, with severe implications for food security. Unlike other natural disasters, droughts have a slow onset and depend on various external factors, making drought detection in climate data difficult. In contrast to existing works that rely on simple relative drought indices as ground-truth data, we build upon soil moisture index (SMI) obtained from a hydrological model. This index is directly related to insufficiently available water to vegetation. Given ERA5-Land climate input data of six months with land use information from MODIS satellite observation, we compare different models with and without sequential inductive bias in classifying droughts based on SMI. We use PR-AUC as the evaluation measure to account for the class imbalance and obtain promising results despite a challenging time-based split. We further show in an ablation study that the models retain their predictive capabilities given input data of coarser resolutions, as frequently encountered in climate models.
翻訳日:2021-12-01 15:52:43 公開日:2021-11-30
# X線ディストクトグラフィーはステレオグラフィーで診断性能を向上する

X-ray Dissectography Enables Stereotography to Improve Diagnostic Performance ( http://arxiv.org/abs/2111.15040v1 )

ライセンス: Link先を確認
Chuang Niu and Ge Wang(参考訳) X線イメージングは最も人気のある医療画像技術である。 X線ラジオグラフィーは費用対効果が高いが、組織構造はX線経路に沿って重畳される。 一方,CTは内部構造を再構成するが,CTは放射線線量を増加させるため複雑で高価である。 本稿では,深層学習における立体像と断層像の分析のために,少数のx線投影から対象臓器/組織をデジタル的に抽出する「x線解剖学」を提案する。 本稿では, 一般的なX線ディストモグラフィネットワーク, 専用のX線ステレオトグラフィネットワーク, およびこれらの機能を実装するためのX線イメージングシステムを提案する。 本研究は, 肺などの摘出臓器でx線立体撮影が可能であることを示し, 従来のx線読影を分離臓器の立体視検査に変換できる可能性を示し, 感度, 特異性, および標的のトモグラフィ可視化の可能性も示唆した。 さらなる改良により、放射線線量とシステムコストが放射線画像やトモシンセティック画像に匹敵する、ctグレードの診断のための新しいx線イメージングモードが約束されている。

X-ray imaging is the most popular medical imaging technology. While x-ray radiography is rather cost-effective, tissue structures are superimposed along the x-ray paths. On the other hand, computed tomography (CT) reconstructs internal structures but CT increases radiation dose, is complicated and expensive. Here we propose "x-ray dissectography" to extract a target organ/tissue digitally from few radiographic projections for stereographic and tomographic analysis in the deep learning framework. As an exemplary embodiment, we propose a general X-ray dissectography network, a dedicated X-ray stereotography network, and the X-ray imaging systems to implement these functionalities. Our experiments show that x-ray stereography can be achieved of an isolated organ such as the lungs in this case, suggesting the feasibility of transforming conventional radiographic reading to the stereographic examination of the isolated organ, which potentially allows higher sensitivity and specificity, and even tomographic visualization of the target. With further improvements, x-ray dissectography promises to be a new x-ray imaging modality for CT-grade diagnosis at radiation dose and system cost comparable to that of radiographic or tomosynthetic imaging.
翻訳日:2021-12-01 15:51:22 公開日:2021-11-30
# 生体・人工知能における抽象的評価基準としての感情

Emotions as abstract evaluation criteria in biological and artificial intelligences ( http://arxiv.org/abs/2111.15275v1 )

ライセンス: Link先を確認
Claudius Gros(参考訳) 生物学と高度な人工知能(AI)は、どの目標を追求するかを決定する必要がある。 我々は,感情として内省的に経験する連続的な分類的重み付け機構に基づく,時間割当問題に対する自然の解法について検討する。 系統学的には、利用可能な感情状態の数が動物の認知能力と相まって増加し、インテリジェンスのレベルが上昇すると行動の選択肢がさらに大きくなることを観察する。 この視点では、潜在的に矛盾する感情を経験する能力は、より原始的な遺産の残りではなく、出生時に特定できない行動オプションに価値をもたらす一般的なメカニズムである。 この見方では、感情は心を理解するのに不可欠である。 具体的には,機能レベルで感情を模倣する枠組みを提案し,議論する。 感情安定度(TAES)による時間割当に基づいて、感情は満足度、挑戦、退屈といった抽象的な基準として実装され、実行された活動を評価するのに役立つ。 経験を積んだ感情のタイムラインは、感情状態の好ましい分布という観点から定義されるエージェントの'文字'と比較される。 エージェントの長期的な目標は、個々のタスクを選択する頻度を最適化することで、経験をキャラクタに合わせることである。 最適化されると、感情経験の統計は静止する。

Biological as well as advanced artificial intelligences (AIs) need to decide which goals to pursue. We review nature's solution to the time allocation problem, which is based on a continuously readjusted categorical weighting mechanism we experience introspectively as emotions. One observes phylogenetically that the available number of emotional states increases hand in hand with the cognitive capabilities of animals and that raising levels of intelligence entail ever larger sets of behavioral options. Our ability to experience a multitude of potentially conflicting feelings is in this view not a leftover of a more primitive heritage, but a generic mechanism for attributing values to behavioral options that can not be specified at birth. In this view, emotions are essential for understanding the mind. For concreteness, we propose and discuss a framework which mimics emotions on a functional level. Based on time allocation via emotional stationarity (TAES), emotions are implemented as abstract criteria, such as satisfaction, challenge and boredom, which serve to evaluate activities that have been carried out. The resulting timeline of experienced emotions is compared with the `character' of the agent, which is defined in terms of a preferred distribution of emotional states. The long-term goal of the agent, to align experience with character, is achieved by optimizing the frequency for selecting individual tasks. Upon optimization, the statistics of emotion experience becomes stationary.
翻訳日:2021-12-01 15:50:42 公開日:2021-11-30
# ボルツマン確率変数のサンプリングにD波コンピュータを用いる際の課題について

On the challenges of using D-Wave computers to sample Boltzmann Random Variables ( http://arxiv.org/abs/2111.15295v1 )

ライセンス: Link先を確認
Thomas Pochart, Paulin Jacquot, Joseph Mikael(参考訳) ボルツマン分布に従う確率変数のサンプリングは、特定の種類のニューラルネットワークである \textit{boltzmann machines} のトレーニングなど、様々なアプリケーションに関連するnp問題である。 このような分布をサンプルするためにd-wave量子コンピュータを使用する試みがいくつか行われており、これはこれらのアプリケーションにおいて大幅な高速化につながる可能性がある。 しかし、現在でもそのようなサンプリングを効率的に行うための課題がいくつか残っている。 各種の障害について詳述し, サンプリング問題をD波機で解く際の難しさについて解説する。

Sampling random variables following a Boltzmann distribution is an NP-hard problem involved in various applications such as training of \textit{Boltzmann machines}, a specific kind of neural network. Several attempts have been made to use a D-Wave quantum computer to sample such a distribution, as this could lead to significant speedup in these applications. Yet, at present, several challenges remain to efficiently perform such sampling. We detail the various obstacles and explain the remaining difficulties in solving the sampling problem on a D-wave machine.
翻訳日:2021-12-01 15:50:03 公開日:2021-11-30
# 量的局所多項式決定木と森林による不均質処理効果のモデル化

Modelling hetegeneous treatment effects by quantitle local polynomial decision tree and forest ( http://arxiv.org/abs/2111.15320v1 )

ライセンス: Link先を確認
Lai Xinglin(参考訳) To further develop the statistical inference problem for heterogeneous treatment effects, this paper builds on Breiman's (2001) random forest tree (RFT)and Wager et al.'s (2018) causal tree to parameterize the nonparametric problem using the excellent statistical properties of classical OLS and the division of local linear intervals based on covariate quantile points, while preserving the random forest trees with the advantages of constructible confidence intervals and asymptotic normality properties [Athey and Imbens (2016),Efron (2014),Wager et al. (2014)\citep{wager2014asymptotic}],我々は,局所サンプルの多項式推定と組み合わせた固定規則に基づく分位数分類を用いた決定木を提案し,これを分位数局所線形因果木 (qlprt) とフォレスト (qlprf) と呼ぶ。

To further develop the statistical inference problem for heterogeneous treatment effects, this paper builds on Breiman's (2001) random forest tree (RFT)and Wager et al.'s (2018) causal tree to parameterize the nonparametric problem using the excellent statistical properties of classical OLS and the division of local linear intervals based on covariate quantile points, while preserving the random forest trees with the advantages of constructible confidence intervals and asymptotic normality properties [Athey and Imbens (2016),Efron (2014),Wager et al.(2014)\citep{wager2014asymptotic}], we propose a decision tree using quantile classification according to fixed rules combined with polynomial estimation of local samples, which we call the quantile local linear causal tree (QLPRT) and forest (QLPRF).
翻訳日:2021-12-01 15:49:53 公開日:2021-11-30
# レンズ下の音声自動スコアリングシステム : 言語能力のための言語手がかりの評価と解釈

Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency ( http://arxiv.org/abs/2111.15156v1 )

ライセンス: Link先を確認
Pakhi Bamdev, Manraj Singh Grover, Yaman Kumar Singla, Payman Vafaee, Mika Hama, Rajiv Ratn Shah(参考訳) 英語の熟練度評価は、学術と産業の両方の候補をフィルタリングし、選定するために必要な指標となっている。 このような評価の需要が高まり,不整合を防止し,第2言語学習者に対する有意義なフィードバックを確保するためには,自動的な人間解釈結果を得ることがますます求められている。 特徴に基づく古典的アプローチは、スコアリングモデルが何を学習するかを理解する上でより解釈可能である。 そこで本研究では,従来の機械学習モデルを用いて,音声スコアリングタスクを分類と回帰問題の両方として定式化し,その後,言語的手がかりと話者の英語習熟度との関係を解釈・研究するための徹底的な研究を行った。 まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。 比較して,回帰に基づくモデルは分類アプローチと同等かそれ以上の性能を持つことがわかった。 第2に,各特徴カテゴリと特徴カテゴリが熟練度グルーピングのパフォーマンスに与える影響を理解するためのアブレーション研究を行った。 さらに,個々の特徴の寄与を理解するために,評価課題における最良性能アルゴリズムにおける上位特徴の重要性を示す。 第3に,部分依存プロットとshapley値を用いて特徴量について検討し,最善の性能トレーニングモデルが,本研究で使用したデータセットの採点に使用されるルーブリックを学習すると結論づける。

English proficiency assessments have become a necessary metric for filtering and selecting prospective candidates for both academia and industry. With the rise in demand for such assessments, it has become increasingly necessary to have the automated human-interpretable results to prevent inconsistencies and ensure meaningful feedback to the second language learners. Feature-based classical approaches have been more interpretable in understanding what the scoring model learns. Therefore, in this work, we utilize classical machine learning models to formulate a speech scoring task as both a classification and a regression problem, followed by a thorough study to interpret and study the relation between the linguistic cues and the English proficiency level of the speaker. First, we extract linguist features under five categories (fluency, pronunciation, content, grammar and vocabulary, and acoustic) and train models to grade responses. In comparison, we find that the regression-based models perform equivalent to or better than the classification approach. Second, we perform ablation studies to understand the impact of each of the feature and feature categories on the performance of proficiency grading. Further, to understand individual feature contributions, we present the importance of top features on the best performing algorithm for the grading task. Third, we make use of Partial Dependence Plots and Shapley values to explore feature importance and conclude that the best performing trained model learns the underlying rubrics used for grading the dataset used in this study.
翻訳日:2021-12-01 15:49:24 公開日:2021-11-30
# (参考訳) radu: tofデータデノイジングのためのレイアライン深度更新畳み込み

RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising ( http://arxiv.org/abs/2111.15513v1 )

ライセンス: CC BY 4.0
Michael Schelling, Pedro Hermosilla, Timo Ropinski(参考訳) ToF(Time-of-Flight)カメラは、MPI(Multi-Path-Interference)によるノイズや歪みのレベルが高い。 近年の研究では、2dニューラルネットワークが従来の最先端(sota)のtofデータをデノボライズする手法よりも優れていることが示されているが、奥行き画像に存在する3d情報を直接利用するための学習に基づくアプローチの研究はほとんど行われていない。 本稿では,3次元点畳み込みによって視点方向に沿った点の位置を補正し,2.5次元データから学習する3次元空間における反復的雑音化手法を提案する。 ラベル付き実世界データはこのタスクで不足しているため、ラベル付き実世界データに対して自己学習アプローチでネットワークをトレーニングし、実世界統計を考慮します。 本稿では,本手法が2つの実世界データセットと新たな大規模合成データセットを含む,複数のデータセット上でのsomaメソッドを上回ることを実証する。

Time-of-Flight (ToF) cameras are subject to high levels of noise and distortions due to Multi-Path-Interference (MPI). While recent research showed that 2D neural networks are able to outperform previous traditional State-of-the-Art (SOTA) methods on denoising ToF-Data, little research on learning-based approaches has been done to make direct use of the 3D information present in depth images. In this paper, we propose an iterative denoising approach operating in 3D space, that is designed to learn on 2.5D data by enabling 3D point convolutions to correct the points' positions along the view direction. As labeled real world data is scarce for this task, we further train our network with a self-training approach on unlabeled real world data to account for real world statistics. We demonstrate that our method is able to outperform SOTA methods on several datasets, including two real world datasets and a new large-scale synthetic data set introduced in this paper.
翻訳日:2021-12-01 15:47:31 公開日:2021-11-30
# 映像復元のための時間的アライメントの再検討

Revisiting Temporal Alignment for Video Restoration ( http://arxiv.org/abs/2111.15288v1 )

ライセンス: Link先を確認
Kun Zhou, Wenbo Li, Liying Lu, Xiaoguang Han, Jiangbo Lu(参考訳) 長時間の時間的アライメントは、ビデオ復元作業には不可欠である。 近年、長距離アライメントをいくつかのサブアライメントに分割し、徐々に処理しようとする研究もある。 この操作は遠距離対応のモデル化に有用であるが,伝播機構により誤りの蓄積は避けられない。 本稿では,サブアライメントの段階的改良を施し,より高精度な動作補償を実現する,新しい反復アライメントモジュールを提案する。 さらにアライメントの精度と時間的整合性を高めるために,各フレームの重要性を空間的に評価する非パラメトリック再重み付け手法を開発した。 提案手法により,ビデオスーパーレゾリューション,デノイング,デブロワーリングなど,様々なビデオ修復タスクにおいて,複数のベンチマークで最先端のパフォーマンスを実現する。 我々のプロジェクトは \url{https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git} で利用可能です。

Long-range temporal alignment is critical yet challenging for video restoration tasks. Recently, some works attempt to divide the long-range alignment into several sub-alignments and handle them progressively. Although this operation is helpful in modeling distant correspondences, error accumulation is inevitable due to the propagation mechanism. In this work, we present a novel, generic iterative alignment module which employs a gradual refinement scheme for sub-alignments, yielding more accurate motion compensation. To further enhance the alignment accuracy and temporal consistency, we develop a non-parametric re-weighting method, where the importance of each neighboring frame is adaptively evaluated in a spatial-wise way for aggregation. By virtue of the proposed strategies, our model achieves state-of-the-art performance on multiple benchmarks across a range of video restoration tasks including video super-resolution, denoising and deblurring. Our project is available in \url{https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git}.
翻訳日:2021-12-01 15:22:09 公開日:2021-11-30
# TridentAdapt: ソースターゲット整合と自己誘発クロスドメイン拡張によるドメイン不変性学習

TridentAdapt: Learning Domain-invariance via Source-Target Confrontation and Self-induced Cross-domain Augmentation ( http://arxiv.org/abs/2111.15300v1 )

ライセンス: Link先を確認
Fengyi Shen, Akhil Gurram, Ahmet Faruk Tuna, Onay Urfalioglu, Alois Knoll(参考訳) 地下構造ラベルを得るのが難しいため、仮想世界のデータセットから学ぶことは、セマンティックセグメンテーションのような現実世界のアプリケーションにとって大きな関心事である。 ドメイン適応の観点から、重要な課題は、仮想データから恩恵を受けるために、入力のドメインに依存しない表現を学ぶことである。 本稿では,共有特徴エンコーダを用いて対向元と対象制約を同時に満たし,ドメイン不変特徴空間を学習する,新しいトライデント型アーキテクチャを提案する。 さらに,フォワードパス時に自己誘導型クロスドメインデータ拡張を可能にする新しいトレーニングパイプラインも導入する。 これにより、ドメインギャップのさらなる削減に寄与する。 自己学習プロセスと組み合わせることで,ベンチマークデータセット(gta5や都市景観適応シンシアなど)の最先端結果を得る。 コードと事前トレーニングされたモデルはhttps://github.com/HMRC-AEL/TridentAdaptで入手できる。

Due to the difficulty of obtaining ground-truth labels, learning from virtual-world datasets is of great interest for real-world applications like semantic segmentation. From domain adaptation perspective, the key challenge is to learn domain-agnostic representation of the inputs in order to benefit from virtual data. In this paper, we propose a novel trident-like architecture that enforces a shared feature encoder to satisfy confrontational source and target constraints simultaneously, thus learning a domain-invariant feature space. Moreover, we also introduce a novel training pipeline enabling self-induced cross-domain data augmentation during the forward pass. This contributes to a further reduction of the domain gap. Combined with a self-training process, we obtain state-of-the-art results on benchmark datasets (e.g. GTA5 or Synthia to Cityscapes adaptation). Code and pre-trained models are available at https://github.com/HMRC-AEL/TridentAdapt
翻訳日:2021-12-01 15:21:54 公開日:2021-11-30
# CTブロック:ポイントクラウドのための新しいローカル・グローバル特徴抽出器

CT-block: a novel local and global features extractor for point cloud ( http://arxiv.org/abs/2111.15400v1 )

ライセンス: Link先を確認
Shangwei Guo, Jun Li, Zhengchao Lai, Xiantong Meng, Shaokun Han(参考訳) クラウドの深層学習はますます発展しつつある。 点を隣人とグループ化して畳み込みのような操作を行うと、点雲の局所的特徴を学習することができるが、この方法は長距離グローバル特徴を抽出するには弱い。 クラウド全体の注意に基づくトランスフォーマーを実行することで,そのグローバルな特徴を効果的に学習することができるが,局所的な詳細特徴を抽出することは困難である。 本稿では,ctブロックと呼ばれる局所的特徴と大域的特徴を同時に抽出し融合できるモジュールを提案する。 CTブロックは2つの分岐で構成され、C文字は畳み込みブランチ、T文字は変圧器ブランチである。 畳み込み分岐は、グループ化された隣接点上で畳み込みを行い、局所特徴を抽出する。 一方、変圧器ブランチは全点雲上でオフセットアテンション処理を行い、グローバルな特徴を抽出する。 ctブロック内の特徴伝達素子によって構築されたブリッジを介して、局所的特徴とグローバル的特徴が学習中に相互にガイドし、効果的に融合する。 ポイントクラウド分類とセグメンテーションネットワークの構築にctブロックを適用し,それらの性能をいくつかの公開データセットで評価する。 実験の結果,CTブロックで学習した特徴は表現力が高いため,点雲の分類やセグメンテーションタスクにおいて,CTブロックで構築したネットワークの性能は技術の状態を達成することがわかった。

Deep learning on the point cloud is increasingly developing. Grouping the point with its neighbors and conducting convolution-like operation on them can learn the local feature of the point cloud, but this method is weak to extract the long-distance global feature. Performing the attention-based transformer on the whole point cloud can effectively learn the global feature of it, but this method is hardly to extract the local detailed feature. In this paper, we propose a novel module that can simultaneously extract and fuse local and global features, which is named as CT-block. The CT-block is composed of two branches, where the letter C represents the convolution-branch and the letter T represents the transformer-branch. The convolution-branch performs convolution on the grouped neighbor points to extract the local feature. Meanwhile, the transformer-branch performs offset-attention process on the whole point cloud to extract the global feature. Through the bridge constructed by the feature transmission element in the CT-block, the local and global features guide each other during learning and are fused effectively. We apply the CT-block to construct point cloud classification and segmentation networks, and evaluate the performance of them by several public datasets. The experimental results show that, because the features learned by CT-block are much expressive, the performance of the networks constructed by the CT-block on the point cloud classification and segmentation tasks achieve state of the art.
翻訳日:2021-12-01 15:21:09 公開日:2021-11-30
# 意味的局所パラメトリックモデルによる3次元人物形状と姿勢の確率論的推定

Probabilistic Estimation of 3D Human Shape and Pose with a Semantic Local Parametric Model ( http://arxiv.org/abs/2111.15404v1 )

ライセンス: Link先を確認
Akash Sengupta and Ignas Budvytis and Roberto Cipolla(参考訳) 本稿では,RGB画像からの3次元人体形状とポーズ推定の問題に対処する。 この課題に対する最近のアプローチは、入力画像に条件づけられた人体モデルパラメータ上の確率分布を予測する。 これは、複数の3d再構成が画像証拠にマッチする可能性があり、特に身体の一部が局所的に遮蔽されている場合である。 しかし、広く使われている体モデル(例えばSMPL)における体形パラメータは、体表面全体の大域的な変形を制御する。 これらのグローバル形状パラメータ上の分布は、局所閉塞された身体部位に関連する形状推定の不確かさを有意義に捉えることができない。 対照的に、我々はその方法を提示します。 一 局所的な身体形状の分布を意味的身体計測の形で予測し、予測すること (II) 実測値上の局所分布をSMPL形状パラメータ上の大域分布に変換するために線形写像を用いる。 本研究では,SSP-3Dデータセットとテープ計測されたヒトのプライベートデータセットを用いて,複数の画像から予測される局所身体計測分布を確率的に組み合わせることで,身元依存の身体形状推定精度において,現在の最先端技術よりも優れていることを示す。

This paper addresses the problem of 3D human body shape and pose estimation from RGB images. Some recent approaches to this task predict probability distributions over human body model parameters conditioned on the input images. This is motivated by the ill-posed nature of the problem wherein multiple 3D reconstructions may match the image evidence, particularly when some parts of the body are locally occluded. However, body shape parameters in widely-used body models (e.g. SMPL) control global deformations over the whole body surface. Distributions over these global shape parameters are unable to meaningfully capture uncertainty in shape estimates associated with locally-occluded body parts. In contrast, we present a method that (i) predicts distributions over local body shape in the form of semantic body measurements and (ii) uses a linear mapping to transform a local distribution over body measurements to a global distribution over SMPL shape parameters. We show that our method outperforms the current state-of-the-art in terms of identity-dependent body shape estimation accuracy on the SSP-3D dataset, and a private dataset of tape-measured humans, by probabilistically-combining local body measurement distributions predicted from multiple images of a subject.
翻訳日:2021-12-01 15:20:45 公開日:2021-11-30
# シナリオ非依存混合による識別的視覚表現学習の促進

Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup ( http://arxiv.org/abs/2111.15454v1 )

ライセンス: Link先を確認
Siyuan Li, Zicheng Liu, Di Wu, Zihan Liu, Stan Z. Li(参考訳) Mixupは,2つのサブタスク,ミックスアップ生成と分類を含む,ディープニューラルネットワーク用の一般的なデータ依存拡張技術である。 コミュニティは通常、mixupを教師付き学習(sl)に定義し、生成サブタスクの目標はデータ多様体全体を考慮せずにサンプルペアに固定される。 このような制約を克服するため、2つのサブタスクの目的を体系的に研究し、SLシナリオと自己教師型学習(SSL)シナリオのシナリオにScenario-Agostic Mixupを提案する。 具体的には,ミックスアップ生成の核となる目的を,他のクラスとグローバル差別を受ける2つのクラス間の局所的な滑らかさを最適化することとして仮定し,検証する。 この発見に基づいて、2つのサブタスクの相補的なトレーニングに$\eta$- balancedmixup lossを提案する。 一方、生成するサブタスクは最適化可能なモジュールであるmixerとしてパラメータ化される。 SLタスクとSSLタスクに関する大規模な実験は、SAMixが主要なメソッドを大きなマージンで一貫して上回っていることを示している。

Mixup is a popular data-dependent augmentation technique for deep neural networks, which contains two sub-tasks, mixup generation and classification. The community typically confines mixup to supervised learning (SL) and the objective of generation sub-task is fixed to the sampled pairs instead of considering the whole data manifold. To overcome such limitations, we systematically study the objectives of two sub-tasks and propose Scenario-Agostic Mixup for both SL and Self-supervised Learning (SSL) scenarios, named SAMix. Specifically, we hypothesize and verify the core objective of mixup generation as optimizing the local smoothness between two classes subject to global discrimination from other classes. Based on this discovery, $\eta$-balanced mixup loss is proposed for complementary training of the two sub-tasks. Meanwhile, the generation sub-task is parameterized as an optimizable module, Mixer, which utilizes an attention mechanism to generate mixed samples without label dependency. Extensive experiments on SL and SSL tasks demonstrate that SAMix consistently outperforms leading methods by a large margin.
翻訳日:2021-12-01 15:20:18 公開日:2021-11-30
# FENeRF:ニューラルラジアンス分野における顔編集

FENeRF: Face Editing in Neural Radiance Fields ( http://arxiv.org/abs/2111.15490v1 )

ライセンス: Link先を確認
Jingxiang Sun, Xuan Wang, Yong Zhang, Xiaoyu Li, Qi Zhang, Yebin Liu, Jue Wang(参考訳) 従来のポートレート画像生成方法は2D GANと3D対応GANの2つのカテゴリに分類される。 2D GANは高精細なポートレートを生成できるが、視界の整合性は低い。 3d-aware ganメソッドはビュー一貫性を維持することができるが、生成された画像はローカルに編集できない。 これらの制約を克服するために、ビュー一貫性と局所編集可能なポートレート画像を生成する3D対応ジェネレータであるFENeRFを提案する。 本手法では,2つの非結合型潜伏符号を用いて,空間的に整列した3次元体積の顔のセマンティクスとテクスチャを共有幾何で生成する。 このような基礎となる3D表現から恩恵を受けるため、FENeRFは境界に沿ったイメージとセマンティックマスクを共同でレンダリングし、セマンティックマスクを使用してGANインバージョンを介して3Dボリュームを編集することができる。 さらに,このような3次元表現を,広く利用可能な単眼画像と意味マスクペアから学べることを示す。 さらに,共同学習のセマンティクスとテクスチャが,より微細な幾何学を生成するのに役立つことを明らかにした。 FENeRFは様々な顔編集タスクにおいて最先端の手法よりも優れていた。

Previous portrait image generation methods roughly fall into two categories: 2D GANs and 3D-aware GANs. 2D GANs can generate high fidelity portraits but with low view consistency. 3D-aware GAN methods can maintain view consistency but their generated images are not locally editable. To overcome these limitations, we propose FENeRF, a 3D-aware generator that can produce view-consistent and locally-editable portrait images. Our method uses two decoupled latent codes to generate corresponding facial semantics and texture in a spatial aligned 3D volume with shared geometry. Benefiting from such underlying 3D representation, FENeRF can jointly render the boundary-aligned image and semantic mask and use the semantic mask to edit the 3D volume via GAN inversion. We further show such 3D representation can be learned from widely available monocular image and semantic mask pairs. Moreover, we reveal that joint learning semantics and texture helps to generate finer geometry. Our experiments demonstrate that FENeRF outperforms state-of-the-art methods in various face editing tasks.
翻訳日:2021-12-01 15:19:50 公開日:2021-11-30
# ESL:イベントベースの構造化光

ESL: Event-based Structured Light ( http://arxiv.org/abs/2111.15510v1 )

ライセンス: Link先を確認
Manasi Muglikar, Guillermo Gallego, Davide Scaramuzza(参考訳) イベントカメラはバイオインスパイアされたセンサーであり、低レイテンシ、高時間分解能、高ダイナミックレンジなどの標準カメラに対する大きな利点を提供する。 本稿では,イベントカメラを用いた新しい構造化光システムを提案し,高精度かつ高速な深度センシングの課題に対処する。 この装置は16ミリ秒間,ラスタ走査パターンでシーンを均一に照射するイベントカメラとレーザポイントプロジェクタから構成されるので,信号遅延やジッタの存在下では,高速でノイズ深度推定を行うことができる。 対照的に、時空間整合性と呼ばれる事象相関を利用したエネルギー関数を最適化する。 この手法はイベントジッタに対して堅牢であり、より高い走査速度で性能が向上する。 提案手法は,イベントカメラを用いた高速動作と最先端の3d再構成手法を上回って,rmseを平均83%削減し,同時取得時間を短縮できることが実証された。

Event cameras are bio-inspired sensors providing significant advantages over standard cameras such as low latency, high temporal resolution, and high dynamic range. We propose a novel structured-light system using an event camera to tackle the problem of accurate and high-speed depth sensing. Our setup consists of an event camera and a laser-point projector that uniformly illuminates the scene in a raster scanning pattern during 16 ms. Previous methods match events independently of each other, and so they deliver noisy depth estimates at high scanning speeds in the presence of signal latency and jitter. In contrast, we optimize an energy function designed to exploit event correlations, called spatio-temporal consistency. The resulting method is robust to event jitter and therefore performs better at higher scanning speeds. Experiments demonstrate that our method can deal with high-speed motion and outperform state-of-the-art 3D reconstruction methods based on event cameras, reducing the RMSE by 83% on average, for the same acquisition time.
翻訳日:2021-12-01 15:18:59 公開日:2021-11-30
# 暗さの破壊による低照度画像強調

Low-light Image Enhancement via Breaking Down the Darkness ( http://arxiv.org/abs/2111.15557v1 )

ライセンス: Link先を確認
Qiming Hu, Xiaojie Guo(参考訳) 低照度環境で撮影された画像は、しばしば複雑な劣化に苦しむ。 単に光を調整すれば、必然的に隠れたノイズや色歪みが爆発する。 本稿では,劣化した入力からの照明,清潔さ,リアリズムを満足した結果を求めるため,分割・ルール原理に触発された新しい枠組みを提案し,劣化の絡み合いを緩和する。 画像がテクスチャ(ノイズあり)と色成分に分解できると仮定すると、光調整とともにノイズ除去と色補正を具体的に行うことができる。 そこで本研究では,RGB空間の画像を輝度クロミナンス画像に変換することを提案する。 調整可能なノイズ抑圧ネットワークは、輝度が明るくなるときのノイズを排除し、ノイズ上昇レベルを示すように照明マップを推定する。 強化された輝度は、実際の色を生成するための色マッパーのガイダンスとなる。 提案手法の有効性を明らかにするために, 大規模実験を行い, いくつかのベンチマークデータセットにおいて, 最先端の代替品よりも定量的, 質的に優位性を示す。 私たちのコードはhttps://github.com/mingcv/Bread.comで公開されています。

Images captured in low-light environment often suffer from complex degradation. Simply adjusting light would inevitably result in burst of hidden noise and color distortion. To seek results with satisfied lighting, cleanliness, and realism from degraded inputs, this paper presents a novel framework inspired by the divide-and-rule principle, greatly alleviating the degradation entanglement. Assuming that an image can be decomposed into texture (with possible noise) and color components, one can specifically execute noise removal and color correction along with light adjustment. Towards this purpose, we propose to convert an image from the RGB space into a luminance-chrominance one. An adjustable noise suppression network is designed to eliminate noise in the brightened luminance, having the illumination map estimated to indicate noise boosting levels. The enhanced luminance further serves as guidance for the chrominance mapper to generate realistic colors. Extensive experiments are conducted to reveal the effectiveness of our design, and demonstrate its superiority over state-of-the-art alternatives both quantitatively and qualitatively on several benchmark datasets. Our code is publicly available at https://github.com/mingcv/Bread.
翻訳日:2021-12-01 15:18:18 公開日:2021-11-30
# UAV画像による送電塔の損傷自動検査

Automated Damage Inspection of Power Transmission Towers from UAV Images ( http://arxiv.org/abs/2111.15581v1 )

ライセンス: Link先を確認
Aleixo Cambeiro Barreiro, Clemens Seibold, Anna Hilsmann, Peter Eisert(参考訳) インフラ検査は非常にコストがかかる作業であり、技術者は遠隔地や困難な場所にアクセスする必要がある。 これは、低い位置にあり、損傷を探すために訓練された労働者が登る必要がある電力送電塔のケースである。 近年,遠隔記録におけるドローンやヘリコプターの利用が増加している。 しかし、これは大量の画像を分析するという問題を残しており、自動化の可能性を秘めている。 これはいくつかの理由で難しいタスクです。 まず、無償のトレーニングデータの欠如と収集の難しさがこの問題を複雑にしている。 さらに、損傷を構成するものの境界は曖昧であり、データのラベル付けに主観性の度合いを導入する。 画像内の不均衡なクラス分布もまた、タスクの難易度を増加させる役割を担っている。 本稿では, 送電塔の構造損傷検出問題に取り組み, これらの課題に対処する。 我々の主な貢献は、遠隔取得ドローン画像における損傷検出システムの開発、データの不足と曖昧さの問題を克服するための技術の適用、およびこの問題を解決するためのアプローチの有効性の評価です。

Infrastructure inspection is a very costly task, requiring technicians to access remote or hard-to-reach places. This is the case for power transmission towers, which are sparsely located and require trained workers to climb them to search for damages. Recently, the use of drones or helicopters for remote recording is increasing in the industry, sparing the technicians this perilous task. This, however, leaves the problem of analyzing big amounts of images, which has great potential for automation. This is a challenging task for several reasons. First, the lack of freely available training data and the difficulty to collect it complicate this problem. Additionally, the boundaries of what constitutes a damage are fuzzy, introducing a degree of subjectivity in the labelling of the data. The unbalanced class distribution in the images also plays a role in increasing the difficulty of the task. This paper tackles the problem of structural damage detection in transmission towers, addressing these issues. Our main contributions are the development of a system for damage detection on remotely acquired drone images, applying techniques to overcome the issue of data scarcity and ambiguity, as well as the evaluation of the viability of such an approach to solve this particular problem.
翻訳日:2021-12-01 15:17:58 公開日:2021-11-30
# ヒューマン・インセプティブル・アタックと公平性向上への応用

Human Imperceptible Attacks and Applications to Improve Fairness ( http://arxiv.org/abs/2111.15603v1 )

ライセンス: Link先を確認
Xinru Hua, Huanzhong Xu, Jose Blanchet, Viet Nguyen(参考訳) 現代のニューラルネットワークは、オブジェクトの分類と画像生成を含む多くのタスクにおいて、少なくとも人間と同様に実行できる。 しかし、人間が知覚できない小さな摂動は、よく訓練されたディープニューラルネットワークの性能を著しく低下させる可能性がある。 我々は,人間には受け入れがたいがディープニューラルネットワークに重大なダメージを与える最適なアタックを設計するために,人間ベースの画像品質評価手法を統合する分散的ロバスト最適化(dro)フレームワークを提供する。 広範な実験により,我々の攻撃アルゴリズムは,他の最先端のヒューマン・インセプティブル・アタック手法よりも高品質な(人間に知覚できない)アタックを生成することを示した。 さらに,画像分類におけるグループフェアネスを向上させるために,最適に設計したヒト非受容的攻撃を用いたDRO訓練が有効であることを示す。 最後に,DROトレーニングを著しく高速化するアルゴリズムの実装を提案する。

Modern neural networks are able to perform at least as well as humans in numerous tasks involving object classification and image generation. However, small perturbations which are imperceptible to humans may significantly degrade the performance of well-trained deep neural networks. We provide a Distributionally Robust Optimization (DRO) framework which integrates human-based image quality assessment methods to design optimal attacks that are imperceptible to humans but significantly damaging to deep neural networks. Through extensive experiments, we show that our attack algorithm generates better-quality (less perceptible to humans) attacks than other state-of-the-art human imperceptible attack methods. Moreover, we demonstrate that DRO training using our optimally designed human imperceptible attacks can improve group fairness in image classification. Towards the end, we provide an algorithmic implementation to speed up DRO training significantly, which could be of independent interest.
翻訳日:2021-12-01 15:17:41 公開日:2021-11-30
# 完全範囲におけるロバスト部分-部分点クラウド登録

Robust Partial-to-Partial Point Cloud Registration in a Full Range ( http://arxiv.org/abs/2111.15606v1 )

ライセンス: Link先を確認
Liang Pan, Zhongang Cai, and Ziwei Liu(参考訳) 3dオブジェクトのポイントクラウド登録は、ばらばらでノイズの多い測定、不完全な観測、大きな変換のために非常に難しい。 本研究では,フルレンジ1の部分対部分点クラウド登録 (PPR) に対するポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク (GMCNet) を提案する。 ロバストな点記述子を符号化する 1)まず,様々な幾何学的特徴の変換・ロバスト性および雑音耐性を包括的に検討した。 2) 手作りの回転不変(ri$)特徴と雑音に耐性のある空間座標の両方を利用する構造関係に関する局所的な特徴を適応的に集約するために,新しいtpt(transform-robust point transformer)モジュールを用いる。 3)階層型グラフネットワークのシナジーとグラフィカルモデリングに基づいて,階層型グラフモデリング(HGM)アーキテクチャを提案し,ロバストな記述子を符号化する。 i)$ri$の機能から学んだ単項,及び 二 隣り合う点関係からTPTモジュールを通して異なるスケールで符号化された複数の滑らか度項。 さらに,仮想スキャンを用いたPPRデータセット(MVP-RG)を構築する。 GMCNetは従来のPPRの最先端手法よりも優れていた。 注目すべきは、GMCNetが個別に各ポイントクラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずにエンコードしていることだ。 コードとデータセットはhttps://github.com/paul007pl/GMCNet.comで公開されます。

Point cloud registration for 3D objects is very challenging due to sparse and noisy measurements, incomplete observations and large transformations. In this work, we propose Graph Matching Consensus Network (GMCNet), which estimates pose-invariant correspondences for fullrange 1 Partial-to-Partial point cloud Registration (PPR). To encode robust point descriptors, 1) we first comprehensively investigate transformation-robustness and noiseresilience of various geometric features. 2) Then, we employ a novel Transformation-robust Point Transformer (TPT) modules to adaptively aggregate local features regarding the structural relations, which takes advantage from both handcrafted rotation-invariant ($RI$) features and noise-resilient spatial coordinates. 3) Based on a synergy of hierarchical graph networks and graphical modeling, we propose the Hierarchical Graphical Modeling (HGM) architecture to encode robust descriptors consisting of i) a unary term learned from $RI$ features; and ii) multiple smoothness terms encoded from neighboring point relations at different scales through our TPT modules. Moreover, we construct a challenging PPR dataset (MVP-RG) with virtual scans. Extensive experiments show that GMCNet outperforms previous state-of-the-art methods for PPR. Remarkably, GMCNet encodes point descriptors for each point cloud individually without using crosscontextual information, or ground truth correspondences for training. Our code and datasets will be available at https://github.com/paul007pl/GMCNet.
翻訳日:2021-12-01 15:17:27 公開日:2021-11-30
# オブジェクト検出とインスタンス分割タスクのためのmis check-damデータセット

The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks ( http://arxiv.org/abs/2111.15613v1 )

ライセンス: Link先を確認
Chintan Tundia, Rajiv Kumar, Om Damani, G. Sivakumar(参考訳) ディープラーニングは、オブジェクト検出やインスタンスセグメンテーションなどのコンピュータビジョンタスクにおいて、近年多くの進歩をもたらした。 これらの進歩は、衛星画像の物体検出タスクにおける深層学習に基づく手法と関連する方法論の幅広い応用につながった。 本稿では,衛星画像から得られた新しいチェックダムのデータセットであるMIS Check-Damを紹介し,農業用排水構造物の重要性に着目したチェックダムの自動検出・マッピングシステムの構築について述べる。 最新のオブジェクト検出およびインスタンスセグメンテーション手法のいくつかをレビューし、その性能を新しいデータセットで評価する。 様々なネットワーク構成とバックボーンアーキテクチャにおいて,複数の単一ステージ,2ステージ,注意に基づく手法を評価した。 データセットと事前トレーニングされたモデルは、https://www.cse.iitb.ac.in/gramdrishti/で入手できる。

Deep learning has led to many recent advances in object detection and instance segmentation, among other computer vision tasks. These advancements have led to wide application of deep learning based methods and related methodologies in object detection tasks for satellite imagery. In this paper, we introduce MIS Check-Dam, a new dataset of check-dams from satellite imagery for building an automated system for the detection and mapping of check-dams, focusing on the importance of irrigation structures used for agriculture. We review some of the most recent object detection and instance segmentation methods and assess their performance on our new dataset. We evaluate several single stage, two-stage and attention based methods under various network configurations and backbone architectures. The dataset and the pre-trained models are available at https://www.cse.iitb.ac.in/gramdrishti/.
翻訳日:2021-12-01 15:17:04 公開日:2021-11-30
# (参考訳) 埋め込み原理:ディープニューラルネットワークの損失景観の階層構造

Embedding Principle: a hierarchical structure of loss landscape of deep neural networks ( http://arxiv.org/abs/2111.15527v1 )

ライセンス: CC BY 4.0
Yaoyu Zhang, Yuqing Li, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu(参考訳) 我々は,ニューラルネットワークの損失景観の階層構造を解き明かすディープニューラルネットワーク(nns)の損失景観の一般埋め込み原理を証明し,nnの損失景観はより狭いnnの全ての臨界点を含むことを示した。 この結果は、より狭いnnの臨界点を同じ出力関数を持つターゲットnnの臨界点にマッピングする臨界埋め込みのクラスを構成することによって得られる。 一般互換臨界埋め込みの広いクラスを発見することにより、より狭いnnの臨界点から埋め込まれた臨界部分多様体の次元を総括的に推定する。 さらに、臨界点のヘッセン行列の負/零/正の固有値の数が増加するが、nn が埋め込みを通じて大きくなると決して減少しないような臨界埋め込みの非可逆性性も証明する。 一般互換臨界埋め込み(general compatible critical embedded)の特別な実現により、いかなる臨界埋め込みでも厳密なサドル点にならない「真に悪い」臨界点となるための厳密な必要条件が証明される。 この結果から,広帯域NNにおける厳密なサドル点の共通位置が示唆され,実際に広く見られる広帯域NNの容易な最適化の根底にある重要な理由と考えられる。

We prove a general Embedding Principle of loss landscape of deep neural networks (NNs) that unravels a hierarchical structure of the loss landscape of NNs, i.e., loss landscape of an NN contains all critical points of all the narrower NNs. This result is obtained by constructing a class of critical embeddings which map any critical point of a narrower NN to a critical point of the target NN with the same output function. By discovering a wide class of general compatible critical embeddings, we provide a gross estimate of the dimension of critical submanifolds embedded from critical points of narrower NNs. We further prove an irreversiblility property of any critical embedding that the number of negative/zero/positive eigenvalues of the Hessian matrix of a critical point may increase but never decrease as an NN becomes wider through the embedding. Using a special realization of general compatible critical embedding, we prove a stringent necessary condition for being a "truly-bad" critical point that never becomes a strict-saddle point through any critical embedding. This result implies the commonplace of strict-saddle points in wide NNs, which may be an important reason underlying the easy optimization of wide NNs widely observed in practice.
翻訳日:2021-12-01 15:16:07 公開日:2021-11-30
# 単光子3次元イメージングのための適応ゲーティング

Adaptive Gating for Single-Photon 3D Imaging ( http://arxiv.org/abs/2111.15047v1 )

ライセンス: Link先を確認
Ryan Po, Adithya Pediredla, Ioannis Gkioulekas(参考訳) 単一光子アバランシェダイオード(SPAD)は深度感知タスクで人気が高まっている。 しかし、SPADは積み上げの影響により、高い環境光の存在に苦しむ。 従来の手法では固定ゲーティングや非同期ゲーティングを利用して積み上げ効果を最小限に抑えるが、これらのゲーティングスキームはすべて適応的ではなく、シーンプリエントや以前のフォトン検出などの要素をゲーティング戦略に組み込むことができない。 我々はトンプソンサンプリングに基づく適応ゲーティングスキームを提案する。 適応ゲーティングは、深さ誤差を最小限に抑えるために、事前光子観測に基づいてゲート位置を定期的に更新する。 実験の結果, 強い日光条件下での屋外運転においても, ゲーティング戦略により深度復元誤差と取得時間を著しく低減できることがわかった。

Single-photon avalanche diodes (SPADs) are growing in popularity for depth sensing tasks. However, SPADs still struggle in the presence of high ambient light due to the effects of pile-up. Conventional techniques leverage fixed or asynchronous gating to minimize pile-up effects, but these gating schemes are all non-adaptive, as they are unable to incorporate factors such as scene priors and previous photon detections into their gating strategy. We propose an adaptive gating scheme built upon Thompson sampling. Adaptive gating periodically updates the gate position based on prior photon observations in order to minimize depth errors. Our experiments show that our gating strategy results in significantly reduced depth reconstruction error and acquisition time, even when operating outdoors under strong sunlight conditions.
翻訳日:2021-12-01 15:12:26 公開日:2021-11-30
# AssistSR: Affordance中心の質問駆動ビデオセグメント検索

AssistSR: Affordance-centric Question-driven Video Segment Retrieval ( http://arxiv.org/abs/2111.15050v1 )

ライセンス: Link先を確認
Stan Weixian Lei, Yuxuan Wang, Dongxing Mao, Difei Gao, Mike Zheng Shou(参考訳) スマートフォンやARメガネのAIアシスタントが,“この時計の日付を調整する方法?”や“加熱期間を設定する方法?(オーブンを指さしながら)”といった質問に対して,私たちの日常生活を支援することは,依然としてパイプの夢なのです。 従来のタスク(ビデオ質問回答、ビデオ検索、モーメントローカライゼーション)で使用されるクエリは、しばしばファクトイドであり、純粋なテキストに基づいている。 対照的に、AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。 それぞれの質問はイメージボックス・テキスト・クエリであり、日々の生活におけるアイテムの余裕に焦点を合わせ、関連する回答セグメントを教育ビデオ転写セグメントのコーパスから検索することを期待している。 このAQVSRタスクの研究を支援するために、AssistSRと呼ばれる新しいデータセットを構築した。 高品質なサンプルを作成するための新しいガイドラインを設計する。 このデータセットは、1kビデオセグメントの1.4kのマルチモーダル質問を含む。 aqvsrに対処するために、我々はdme(dual multimodal encoder)と呼ばれる単純で効果的なモデルを開発しました。 さらに, 詳細なアブレーション解析を行った。 私たちのコードとデータはhttps://github.com/stanlei52/aqvsrで入手できます。

It is still a pipe dream that AI assistants on phone and AR glasses can assist our daily life in addressing our questions like "how to adjust the date for this watch?" and "how to set its heating duration? (while pointing at an oven)". The queries used in conventional tasks (i.e. Video Question Answering, Video Retrieval, Moment Localization) are often factoid and based on pure text. In contrast, we present a new task called Affordance-centric Question-driven Video Segment Retrieval (AQVSR). Each of our questions is an image-box-text query that focuses on affordance of items in our daily life and expects relevant answer segments to be retrieved from a corpus of instructional video-transcript segments. To support the study of this AQVSR task, we construct a new dataset called AssistSR. We design novel guidelines to create high-quality samples. This dataset contains 1.4k multimodal questions on 1k video segments from instructional videos on diverse daily-used items. To address AQVSR, we develop a straightforward yet effective model called Dual Multimodal Encoders (DME) that significantly outperforms several baseline methods while still having large room for improvement in the future. Moreover, we present detailed ablation analyses. Our codes and data are available at https://github.com/StanLei52/AQVSR.
翻訳日:2021-12-01 15:12:14 公開日:2021-11-30
# 最適化型メタラーニングによる映像中の3次元人物ポーズ推定

Camera Distortion-aware 3D Human Pose Estimation in Video with Optimization-based Meta-Learning ( http://arxiv.org/abs/2111.15056v1 )

ライセンス: Link先を確認
Hanbyel Cho, Yooshin Cho, Jaemyung Yu, Junmo Kim(参考訳) 歪みのないデータセットでトレーニングされた既存の3次元ポーズ推定アルゴリズムは、特定のカメラ歪みのある新しいシナリオに適用した場合、パフォーマンス低下を被る。 本稿では,代表的最適化に基づくメタ学習アルゴリズムであるMAMLを用いて,任意の歪み環境に迅速に適応可能な,映像中の3次元ポーズ推定のための簡易かつ効果的なモデルを提案する。 我々は,MAMLの単一タスクとして,特定の歪みにおける2次元キーポイントのシーケンスを考える。 しかし,歪みのある環境では大規模データセットが存在しないため,歪みのない2次元キーポイントから合成歪データを生成する効率的な手法を提案する。 本評価では,モーションキャプチャセンサが利用可能か否かに応じて,2つの実測条件を仮定する。 特に,骨長対称性と一貫性を用いた推定段階最適化を提案する。 その結果,提案手法は試験段階における様々な歪みに適応し,既存の最先端手法よりも優れていた。 提案手法は,カメラキャリブレーションや追加計算を必要としないため,実際に有用である。

Existing 3D human pose estimation algorithms trained on distortion-free datasets suffer performance drop when applied to new scenarios with a specific camera distortion. In this paper, we propose a simple yet effective model for 3D human pose estimation in video that can quickly adapt to any distortion environment by utilizing MAML, a representative optimization-based meta-learning algorithm. We consider a sequence of 2D keypoints in a particular distortion as a single task of MAML. However, due to the absence of a large-scale dataset in a distorted environment, we propose an efficient method to generate synthetic distorted data from undistorted 2D keypoints. For the evaluation, we assume two practical testing situations depending on whether a motion capture sensor is available or not. In particular, we propose Inference Stage Optimization using bone-length symmetry and consistency. Extensive evaluation shows that our proposed method successfully adapts to various degrees of distortion in the testing phase and outperforms the existing state-of-the-art approaches. The proposed method is useful in practice because it does not require camera calibration and additional computations in a testing set-up.
翻訳日:2021-12-01 15:11:49 公開日:2021-11-30
# 穴ローバストワイヤフレーム検出

Hole-robust Wireframe Detection ( http://arxiv.org/abs/2111.15064v1 )

ライセンス: Link先を確認
Naejin Kong, Kiwoong Park, Harshith Goka(参考訳) ワイヤーフレーム(Wireframe)は線分に基づく表現で、われわれを取り巻く規則的で構造的な人造シーンの大規模な視覚特性をうまく捉えている。 ワイヤーフレームとは異なり、従来のエッジやラインセグメントは、目に見えるすべてのエッジやラインに重点を置いている。 既存のワイヤフレーム検出モデルは注釈付きデータの監視に頼っているが、シーンの構造的形状を構成する方法を理解するために明示的に注意を払っていない。 さらに,背景のシーンを包含する多くの前景オブジェクトが,背後にあるシーン構造を適切に推測するのを妨げることもしばしばある。 これらの問題を解決するために,我々はまず,画像に隠された前景の物体領域など,穴によって示される閉塞を無視する方法についてモデルが理解するための新しい条件付きデータ生成とトレーニングを提案する。 さらに,GANをモデルに組み合わさることで,大穴を超えても基礎となるシーン構造をより正確に予測することができる。 また、擬似ラベリングを導入し、モデル容量をさらに拡大し、小さなラベル付きデータを克服する。 提案手法は, 従来の穴の扱いができない作業よりも大幅に優れており, また, 穴のない通常の検出精度も向上していることを示す。

"Wireframe" is a line segment based representation designed to well capture large-scale visual properties of regular, structural shaped man-made scenes surrounding us. Unlike the wireframes, conventional edges or line segments focus on all visible edges and lines without particularly distinguishing which of them are more salient to man-made structural information. Existing wireframe detection models rely on supervising the annotated data but do not explicitly pay attention to understand how to compose the structural shapes of the scene. In addition, we often face that many foreground objects occluding the background scene interfere with proper inference of the full scene structure behind them. To resolve these problems, we first time in the field, propose new conditional data generation and training that help the model understand how to ignore occlusion indicated by holes, such as foreground object regions masked out on the image. In addition, we first time combine GAN in the model to let the model better predict underlying scene structure even beyond large holes. We also introduce pseudo labeling to further enlarge the model capacity to overcome small-scale labeled data. We show qualitatively and quantitatively that our approach significantly outperforms previous works unable to handle holes, as well as improves ordinary detection without holes given.
翻訳日:2021-12-01 15:11:33 公開日:2021-11-30
# 人物再同定のための教師なしドメイン一般化:ドメイン特化適応フレームワーク

Unsupervised Domain Generalization for Person Re-identification: A Domain-specific Adaptive Framework ( http://arxiv.org/abs/2111.15077v1 )

ライセンス: Link先を確認
Lei Qi, Lei Wang, Yinghuan Shi, Xin Geng(参考訳) ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。 複数のソースドメインでトレーニングされたモデルを、未認識のターゲットドメインに一般化することを目的としている。 将来性のある進歩を達成するには、既存のメソッドは通常、ソースドメインをラベル付けする必要がある。 本稿では、ReIDの教師なし領域の一般化について、どのソースドメインにもラベルがないと仮定して検討する。 この困難な設定に対処するために、我々は、単純で効率的なドメイン固有適応フレームワークを提案し、バッチおよびインスタンス正規化技術に基づいて設計された適応正規化モジュールでそれを実現する。 そこで我々は,訓練を行う上で信頼性の高い擬似ラベルの獲得に成功し,必要に応じてモデルの領域一般化能力を向上する。 さらに,提案手法は,教師付きドメイン一般化と教師なしドメイン適応という設定の下で,対人レイドを改善するためにも適用可能であり,関連する手法に対する競争力を発揮できることを示した。 ベンチマークデータセットに関する広範な実験研究は、提案フレームワークを検証するために行われる。 私たちの研究の意義は、person reidに対する教師なしのドメイン一般化の可能性を示し、このトピックに関するさらなる研究の基盤を固めることにあります。

Domain generalization (DG) has attracted much attention in person re-identification (ReID) recently. It aims to make a model trained on multiple source domains generalize to an unseen target domain. Although achieving promising progress, existing methods usually need the source domains to be labeled, which could be a significant burden for practical ReID tasks. In this paper, we turn to investigate unsupervised domain generalization for ReID, by assuming that no label is available for any source domains. To address this challenging setting, we propose a simple and efficient domain-specific adaptive framework, and realize it with an adaptive normalization module designed upon the batch and instance normalization techniques. In doing so, we successfully yield reliable pseudo-labels to implement training and also enhance the domain generalization capability of the model as required. In addition, we show that our framework can even be applied to improve person ReID under the settings of supervised domain generalization and unsupervised domain adaptation, demonstrating competitive performance with respect to relevant methods. Extensive experimental study on benchmark datasets is conducted to validate the proposed framework. A significance of our work lies in that it shows the potential of unsupervised domain generalization for person ReID and sets a strong baseline for the further research on this topic.
翻訳日:2021-12-01 15:10:47 公開日:2021-11-30
# 深層学習を用いた下顎管経路の自動追跡

Automatic tracing of mandibular canal pathways using deep learning ( http://arxiv.org/abs/2111.15111v1 )

ライセンス: Link先を確認
Mrinal Kanti Dhar and Zeyun Yu(参考訳) 医療業界では、手作業で非効率な検出とローカライズのための自動化システムの必要性が高まっている。 歯科では, 下顎管の経路を正確に把握することが重要である。 下歯槽神経(IAN)を取り囲む下顎管の位置の適正な局所化は、歯科インプラント学における損傷リスクを低減させる。 手動による運河経路の検出は、時間と労力の面で効率的ではない。 本稿では,CBCTデータから下顎管を検出するためのディープラーニングフレームワークを提案する。 完全なエンドツーエンドの3段階のプロセスである。 地上の真理は前処理段階で生成される。 一般に用いられる固定径管状地中真理の代わりに, 下顎管の中心線を生成し, 訓練過程における地中真理として利用する。 3D U-Netアーキテクチャはモデルトレーニングに使用される。 初期予測を正すために効率的な後処理ステージを開発する。 精度、リコール、F1スコア、IoUを測定し、ボクセルレベルのセグメンテーション性能を分析する。 しかし, 距離に基づく測定を行うために, 平均曲線距離(MCD)を, 地中真理から予測, 地中真理まで算出した。 モデルの有効性を実証するための実験を行った。

There is an increasing demand in medical industries to have automated systems for detection and localization which are manually inefficient otherwise. In dentistry, it bears great interest to trace the pathway of mandibular canals accurately. Proper localization of the position of the mandibular canals, which surrounds the inferior alveolar nerve (IAN), reduces the risk of damaging it during dental implantology. Manual detection of canal paths is not an efficient way in terms of time and labor. Here, we propose a deep learning-based framework to detect mandibular canals from CBCT data. It is a 3-stage process fully automatic end-to-end. Ground truths are generated in the preprocessing stage. Instead of using commonly used fixed diameter tubular-shaped ground truth, we generate centerlines of the mandibular canals and used them as ground truths in the training process. A 3D U-Net architecture is used for model training. An efficient post-processing stage is developed to rectify the initial prediction. The precision, recall, F1-score, and IoU are measured to analyze the voxel-level segmentation performance. However, to analyze the distance-based measurements, mean curve distance (MCD) both from ground truth to prediction and prediction to ground truth is calculated. Extensive experiments are conducted to demonstrate the effectiveness of the model.
翻訳日:2021-12-01 15:10:29 公開日:2021-11-30
# ピラミッド逆行トレーニングによるvitパフォーマンス向上

Pyramid Adversarial Training Improves ViT Performance ( http://arxiv.org/abs/2111.15121v1 )

ライセンス: Link先を確認
Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun(参考訳) Aggressive Data AugmentationはVision Transformer(ViT)の強力な一般化機能の鍵となるコンポーネントである。 そのようなデータ拡張技術の一つは、敵対的なトレーニングであるが、多くの先行研究は、これはしばしばクリーンな正確さを損なうことを示している。 本研究では,VT全体の性能を向上させるための簡便かつ効果的な手法であるピラミッド適応訓練を提案する。 一致した"ドロップアウトと確率的深さ正規化とを組み合わせることで,同じドロップアウトと確率的深さ設定を,クリーンなサンプルと反対のサンプルに適用する。 AdvPropによるCNNの改善(ViTに直接適用されない)と同様に、ピラミッド・アドバイザリアル・トレーニングは、ViTと関連するアーキテクチャの分布内精度と分布外堅牢性の間のトレードオフを断ち切る。 これは、ImageNet-1Kデータのみをトレーニングした時に、ImageNet-Bモデルの絶対精度を1.82\%$で改善すると同時に、7ドルのImageNetロバストネスメトリクスのパフォーマンスを1.76\%から11.45\%$で向上させる。 ImageNet-C (41.4 mCE) と ImageNet-R (53.92 %$) と ImageNet-Sketch (41.04 %$) に新たな最先端技術を設定しました。 私たちのコードは受け入れ次第公開されます。

Aggressive data augmentation is a key component of the strong generalization capabilities of Vision Transformer (ViT). One such data augmentation technique is adversarial training; however, many prior works have shown that this often results in poor clean accuracy. In this work, we present Pyramid Adversarial Training, a simple and effective technique to improve ViT's overall performance. We pair it with a "matched" Dropout and stochastic depth regularization, which adopts the same Dropout and stochastic depth configuration for the clean and adversarial samples. Similar to the improvements on CNNs by AdvProp (not directly applicable to ViT), our Pyramid Adversarial Training breaks the trade-off between in-distribution accuracy and out-of-distribution robustness for ViT and related architectures. It leads to $1.82\%$ absolute improvement on ImageNet clean accuracy for the ViT-B model when trained only on ImageNet-1K data, while simultaneously boosting performance on $7$ ImageNet robustness metrics, by absolute numbers ranging from $1.76\%$ to $11.45\%$. We set a new state-of-the-art for ImageNet-C (41.4 mCE), ImageNet-R ($53.92\%$), and ImageNet-Sketch ($41.04\%$) without extra data, using only the ViT-B/16 backbone and our Pyramid Adversarial Training. Our code will be publicly available upon acceptance.
翻訳日:2021-12-01 15:10:13 公開日:2021-11-30
# 視覚トランスフォーマーのための統一プルーニングフレームワーク

A Unified Pruning Framework for Vision Transformers ( http://arxiv.org/abs/2111.15127v1 )

ライセンス: Link先を確認
Hao Yu, Jianxin Wu(参考訳) 近年、視覚トランスフォーマー(vit)とその変種は様々なコンピュータビジョンタスクで有望な性能を達成している。 しかし、高い計算コストとViTsのトレーニングデータ要求は、リソース制約のある設定での応用を制限する。 モデル圧縮は深層学習モデルの高速化に有効な手法であるが, 圧縮型ViTの研究はあまり行われていない。 以前の多くの作業はトークンの数を減らすことに集中している。 しかし、この攻撃線はViTの空間構造を分解し、下流のタスクに一般化することは困難である。 本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを設計する。 本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。 その結果, UP-DeiT-Tは画像ネット上で75.79%の精度を達成でき, バニラのDeiT-Tを3.59%上回る精度が得られることがわかった。 UP-PVTv2-B0はイメージネット分類においてPVTv2-B0の精度を4.83%向上させる。 一方、UP-ViTはトークン表現の一貫性を維持し、オブジェクト検出タスクの一貫性を改善している。

Recently, vision transformer (ViT) and its variants have achieved promising performances in various computer vision tasks. Yet the high computational costs and training data requirements of ViTs limit their application in resource-constrained settings. Model compression is an effective method to speed up deep learning models, but the research of compressing ViTs has been less explored. Many previous works concentrate on reducing the number of tokens. However, this line of attack breaks down the spatial structure of ViTs and is hard to be generalized into downstream tasks. In this paper, we design a unified framework for structural pruning of both ViTs and its variants, namely UP-ViTs. Our method focuses on pruning all ViTs components while maintaining the consistency of the model structure. Abundant experimental results show that our method can achieve high accuracy on compressed ViTs and variants, e.g., UP-DeiT-T achieves 75.79% accuracy on ImageNet, which outperforms the vanilla DeiT-T by 3.59% with the same computational cost. UP-PVTv2-B0 improves the accuracy of PVTv2-B0 by 4.83% for ImageNet classification. Meanwhile, UP-ViTs maintains the consistency of the token representation and gains consistent improvements on object detection tasks.
翻訳日:2021-12-01 15:09:45 公開日:2021-11-30
# 3次元仮想トライオンシステムのための単眼2次元画像からのロバスト3次元衣料デジタイズ

Robust 3D Garment Digitization from Monocular 2D Images for 3D Virtual Try-On Systems ( http://arxiv.org/abs/2111.15140v1 )

ライセンス: Link先を確認
Sahib Majithia, Sandeep N. Parameswaran, Sadbhavana Babar, Vikram Garg, Astitva Srivastava and Avinash Sharma(参考訳) 本稿では,布のテクスチャ・オクルージョンと大体ポーズのバリエーションを備えた実世界のファッションカタログ画像によく応用できる,堅牢な3次元衣料デジタル化ソリューションを開発する。 我々は、既知の衣服(Tシャツ、ズボンなど)の固定トポロジパラメトリックテンプレートメッシュモデルを想定し、入力カタログ画像から服のパラメトリックメッシュモデルに対応する紫外線マップパネルへの高品質なテクスチャマッピングを行った。 我々はまず衣服の境界に2dランドマークのばらばらな集合を予測してこれを達成する。 次に、これらのランドマークを用いて、紫外線マップパネル上で薄板スプラインベースのテクスチャ転送を行う。 その後,TPS出力における大きな穴を埋めるために,深いテクスチャ塗布網を用い,一貫した紫外線マップを生成する。 さらに,ランドマーク予測とテクスチャインペインティングタスクのために教師付き深層ネットワークを訓練するために,様々なテクスチャと様々な視点から様々なポーズで表示された画像を含む合成データ集合を作成した。 さらに、オンラインのファッションeコマースプラットフォームから収集した小さなファッションカタログ画像を手動で注釈付けし、微調整しました。 提案した3Dテクスチャのテクスチャソリューションを,ファッションカタログ画像上で,徹底的に評価し,印象的な質的結果を示す。 このような3D衣服のデジタル化は、3D仮想試着を可能にするという課題を解決するのに役立ちます。

In this paper, we develop a robust 3D garment digitization solution that can generalize well on real-world fashion catalog images with cloth texture occlusions and large body pose variations. We assumed fixed topology parametric template mesh models for known types of garments (e.g., T-shirts, Trousers) and perform mapping of high-quality texture from an input catalog image to UV map panels corresponding to the parametric mesh model of the garment. We achieve this by first predicting a sparse set of 2D landmarks on the boundary of the garments. Subsequently, we use these landmarks to perform Thin-Plate-Spline-based texture transfer on UV map panels. Subsequently, we employ a deep texture inpainting network to fill the large holes (due to view variations & self-occlusions) in TPS output to generate consistent UV maps. Furthermore, to train the supervised deep networks for landmark prediction & texture inpainting tasks, we generated a large set of synthetic data with varying texture and lighting imaged from various views with the human present in a wide variety of poses. Additionally, we manually annotated a small set of fashion catalog images crawled from online fashion e-commerce platforms to finetune. We conduct thorough empirical evaluations and show impressive qualitative results of our proposed 3D garment texture solution on fashion catalog images. Such 3D garment digitization helps us solve the challenging task of enabling 3D Virtual Try-on.
翻訳日:2021-12-01 15:09:25 公開日:2021-11-30
# 構造再構築のための熱:全体的エッジアテンショントランスフォーマ

HEAT: Holistic Edge Attention Transformer for Structured Reconstruction ( http://arxiv.org/abs/2111.15143v1 )

ライセンス: Link先を確認
Jiacheng Chen, Yiming Qian, Yasutaka Furukawa(参考訳) 本稿では,2次元ラスター画像を入力として,基礎となる幾何学構造を表す平面グラフを再構成する,新しい注意に基づく構造化再構成ニューラルネットワークを提案する。 このアプローチはコーナーを検出し、コーナー間のエッジ候補をエンドツーエンドで分類する。 私たちの貢献は包括的エッジ分類アーキテクチャです。 1) 端点の三角位置符号化により,辺候補の特徴を初期化する。 2) 画像特徴を各エッジ候補に変形可能な注意で融合させる。 3)2つのウェイトシェアリングトランスフォーマーデコーダを使用して,グラフエッジ候補の全体構造パターンを学習する。 4) マスク付き学習戦略で訓練する。 コーナー検出器はエッジ分類アーキテクチャの変種であり、コーナー候補としてピクセルで動作するように適合している。 屋外ビル建築と屋内フロアプラン平面グラフ復元の2つの構造的再構築課題について実験を行った。 広汎な質的,定量的評価は,最先端技術に対する我々のアプローチの優位性を示している。 コードとモデルを共有します。

This paper presents a novel attention-based neural network for structured reconstruction, which takes a 2D raster image as an input and reconstructs a planar graph depicting an underlying geometric structure. The approach detects corners and classifies edge candidates between corners in an end-to-end manner. Our contribution is a holistic edge classification architecture, which 1) initializes the feature of an edge candidate by a trigonometric positional encoding of its end-points; 2) fuses image feature to each edge candidate by deformable attention; 3) employs two weight-sharing Transformer decoders to learn holistic structural patterns over the graph edge candidates; and 4) is trained with a masked learning strategy. The corner detector is a variant of the edge classification architecture, adapted to operate on pixels as corner candidates. We conduct experiments on two structured reconstruction tasks: outdoor building architecture and indoor floorplan planar graph reconstruction. Extensive qualitative and quantitative evaluations demonstrate the superiority of our approach over the state of the art. We will share code and models.
翻訳日:2021-12-01 15:08:58 公開日:2021-11-30
# MMPTRACK:マルチカメラのマルチカメラによるベンチマーク

MMPTRACK: Large-scale Densely Annotated Multi-camera Multiple People Tracking Benchmark ( http://arxiv.org/abs/2111.15157v1 )

ライセンス: Link先を確認
Xiaotian Han, Quanzeng You, Chunyu Wang, Zhizheng Zhang, Peng Chu, Houdong Hu, Jiang Wang, Zicheng Liu(参考訳) 単眼型マルチオブジェクトトラッキング(mot)システムは閉塞性により混み合った環境では失敗することが多いため、摩擦のないチェックアウトなど、高品質なトラッキング結果を必要とするアプリケーションでマルチカメラトラッキングシステムが人気を集めている。 複数の重なり合うカメラは、部分的な3D情報を復元することで問題を著しく軽減することができる。 しかし、さまざまなカメラ設定と背景を備えた高品質なマルチカメラ追跡データセットを作成するコストは、このドメインのデータセットスケールを制限している。 本稿では,オートアノテーションシステムを用いて,5つの異なる環境における大規模高密度マルチカメラ追跡データセットを提案する。 システムは重なり合った深度とRGBカメラを使用して、3D追跡結果を自動生成する高性能な3Dトラッカーを構築する。 3Dトラッキングの結果は、カメラパラメータを用いて各RGBカメラビューに投影され、2Dトラッキング結果が生成される。 そして、3Dトラッキングの結果を手作業でチェックして修正し、完全な手動アノテーションよりもずっと安いラベルの品質を保証します。 我々は2つのリアルタイムマルチカメラトラッカーと、異なる設定の人物識別(ReID)モデルを用いて広範な実験を行った。 このデータセットは、乱雑で混み合った環境でマルチカメラ、マルチオブジェクトトラッキングシステムのより信頼性の高いベンチマークを提供する。 また,このデータセットにトラッカとreidモデルを適用することで,性能が大幅に向上することを示す。 私たちのデータセットは、この作業が受け入れられ次第、公開されます。

Multi-camera tracking systems are gaining popularity in applications that demand high-quality tracking results, such as frictionless checkout because monocular multi-object tracking (MOT) systems often fail in cluttered and crowded environments due to occlusion. Multiple highly overlapped cameras can significantly alleviate the problem by recovering partial 3D information. However, the cost of creating a high-quality multi-camera tracking dataset with diverse camera settings and backgrounds has limited the dataset scale in this domain. In this paper, we provide a large-scale densely-labeled multi-camera tracking dataset in five different environments with the help of an auto-annotation system. The system uses overlapped and calibrated depth and RGB cameras to build a high-performance 3D tracker that automatically generates the 3D tracking results. The 3D tracking results are projected to each RGB camera view using camera parameters to create 2D tracking results. Then, we manually check and correct the 3D tracking results to ensure the label quality, which is much cheaper than fully manual annotation. We have conducted extensive experiments using two real-time multi-camera trackers and a person re-identification (ReID) model with different settings. This dataset provides a more reliable benchmark of multi-camera, multi-object tracking systems in cluttered and crowded environments. Also, our results demonstrate that adapting the trackers and ReID models on this dataset significantly improves their performance. Our dataset will be publicly released upon the acceptance of this work.
翻訳日:2021-12-01 15:08:45 公開日:2021-11-30
# シングルビュー3次元再構成ネットワークにおける再構成頂点認識のデータセット分散的視点

A Dataset-Dispersion Perspective on Reconstruction Versus Recognition in Single-View 3D Reconstruction Networks ( http://arxiv.org/abs/2111.15158v1 )

ライセンス: Link先を確認
Yefan Zhou, Yiru Shen, Yujun Yan, Chen Feng, Yaoqing Yang(参考訳) シングルビュー3D再構成(SVR)のためのニューラルネットワーク(NN)が人気を集めている。 最近の研究によると、SVRでは、ほとんどの最先端NNは、形状再構成よりも認識(分類に基づく手法)に依存しているため、見えない物体を再構成する性能が限られている。 この問題を深く理解するために、NNが再建よりも認識を優先する時期と理由について体系的な研究を行った。 我々の発見は、認識と再構成を区別する主要な要因がトレーニングデータの分散であることを示している。 そこで本研究では,この先行要因の定量化と,そのNNへの影響を検討するために,新しいデータ駆動尺度である分散スコアを導入する。 トレーニング画像が分散し、トレーニング形状が分散しにくくなると、NNは認識に偏っているという仮説を立てる。 我々の仮説は支持され, 分散スコアは, 合成およびベンチマークデータセットの実験により有効であることが証明された。 提案手法は, 従来の再建スコアに加えて, 復元品質を解析し, 新たな情報を提供する主要な方法であることを示す。

Neural networks (NN) for single-view 3D reconstruction (SVR) have gained in popularity. Recent work points out that for SVR, most cutting-edge NNs have limited performance on reconstructing unseen objects because they rely primarily on recognition (i.e., classification-based methods) rather than shape reconstruction. To understand this issue in depth, we provide a systematic study on when and why NNs prefer recognition to reconstruction and vice versa. Our finding shows that a leading factor in determining recognition versus reconstruction is how dispersed the training data is. Thus, we introduce the dispersion score, a new data-driven metric, to quantify this leading factor and study its effect on NNs. We hypothesize that NNs are biased toward recognition when training images are more dispersed and training shapes are less dispersed. Our hypothesis is supported and the dispersion score is proved effective through our experiments on synthetic and benchmark datasets. We show that the proposed metric is a principal way to analyze reconstruction quality and provides novel information in addition to the conventional reconstruction score.
翻訳日:2021-12-01 15:08:23 公開日:2021-11-30
# CLIPがビデオキャプタを発表:属性認識表現学習が正確なキャプタリングを促進する

CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning ( http://arxiv.org/abs/2111.15162v1 )

ライセンス: Link先を確認
Bang Yang and Yuexian Zou(参考訳) ビデオキャプションでは、「事前トレーニングと微調整」がデファクトパラダイムとなり、通常はimagenet pre-training (inp) がビデオコンテンツのエンコードに使われ、タスク指向ネットワークがスクラッチから微調整されてキャプション生成に対応している。 InPと最近提案されたCLIP(Contrastive Language- Image Pre-training)を比較し,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。 特に,INP vs. CLIPに関する実証研究では,映像キャプションモデルが属性のセマンティクスを捉えやすく,無関係な背景情報に敏感であることを示す。 対照的に、CLIPのキャプション品質の大幅な向上は属性認識表現学習の重要性を強調している。 そこで本研究では,映像コンテンツと属性の対応関係と属性間の共起関係を学習するためにビデオキャプションモデルが必要となる,二重属性予測の導入を動機付ける。 ベンチマークデータセットに関する大規模な実験により、我々のアプローチは属性認識表現の学習を向上し、異なるアーキテクチャとデコードアルゴリズムを持つモデルに一貫した改善をもたらすことを示した。

For video captioning, "pre-training and fine-tuning" has become a de facto paradigm, where ImageNet Pre-training (INP) is usually used to help encode the video content, and a task-oriented network is fine-tuned from scratch to cope with caption generation. Comparing INP with the recently proposed CLIP (Contrastive Language-Image Pre-training), this paper investigates the potential deficiencies of INP for video captioning and explores the key to generating accurate descriptions. Specifically, our empirical study on INP vs. CLIP shows that INP makes video caption models tricky to capture attributes' semantics and sensitive to irrelevant background information. By contrast, CLIP's significant boost in caption quality highlights the importance of attribute-aware representation learning. We are thus motivated to introduce Dual Attribute Prediction, an auxiliary task requiring a video caption model to learn the correspondence between video content and attributes and the co-occurrence relations between attributes. Extensive experiments on benchmark datasets demonstrate that our approach enables better learning of attribute-aware representations, bringing consistent improvements on models with different architectures and decoding algorithms.
翻訳日:2021-12-01 15:08:07 公開日:2021-11-30
# 画像生成のための生成畳み込み層

Generative Convolution Layer for Image Generation ( http://arxiv.org/abs/2111.15171v1 )

ライセンス: Link先を確認
Seung Park and Yong-Goo Shin(参考訳) 本稿では,生成型畳み込み(gconv)と呼ばれる新しい畳み込み法を提案する。 標準の畳み込みとは異なり、GConvはまず与えられた潜在ベクトルと互換性のある有用なカーネルを選択し、次に選択されたカーネルを線形に組み合わせて潜在固有カーネルを作成する。 提案手法は潜時固有のカーネルを用いて,高品質な画像の生成を促す潜時固有の特徴を生成する。 このアプローチは単純ですが,驚くほど効果的です。 まず、GANの性能は若干のハードウェアコストで大幅に改善されている。 第2に、GConvはネットワークアーキテクチャを変更することなく既存の最先端のジェネレータに使用できる。 本稿では,GConvの優位性を明らかにするために,CIFAR-10,CIFAR-100,LSUN-Church,CelebA,Small-ImageNetなどの標準データセットを用いた広範な実験を行った。 定量的評価は、gconvがインセプションスコア (is) とフレシェインセプション距離 (fid) の点で、無条件および条件付きganの性能を著しく向上させることを示している。 例えば、提案手法は、小画像NetデータセットのFIDとISスコアをそれぞれ35.13から29.76、20.23から22.64に改善する。

This paper introduces a novel convolution method, called generative convolution (GConv), which is simple yet effective for improving the generative adversarial network (GAN) performance. Unlike the standard convolution, GConv first selects useful kernels compatible with the given latent vector, and then linearly combines the selected kernels to make latent-specific kernels. Using the latent-specific kernels, the proposed method produces the latent-specific features which encourage the generator to produce high-quality images. This approach is simple but surprisingly effective. First, the GAN performance is significantly improved with a little additional hardware cost. Second, GConv can be employed to the existing state-of-the-art generators without modifying the network architecture. To reveal the superiority of GConv, this paper provides extensive experiments using various standard datasets including CIFAR-10, CIFAR-100, LSUN-Church, CelebA, and tiny-ImageNet. Quantitative evaluations prove that GConv significantly boosts the performances of the unconditional and conditional GANs in terms of Inception score (IS) and Frechet inception distance (FID). For example, the proposed method improves both FID and IS scores on the tiny-ImageNet dataset from 35.13 to 29.76 and 20.23 to 22.64, respectively.
翻訳日:2021-12-01 15:07:25 公開日:2021-11-30
# cris: クリップ駆動参照画像セグメンテーション

CRIS: CLIP-Driven Referring Image Segmentation ( http://arxiv.org/abs/2111.15174v1 )

ライセンス: Link先を確認
Zhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, Tongliang Liu(参考訳) 画像のセグメンテーションは,テキストと画像の異なるデータ特性により,テキストとピクセルレベルの特徴を適切に整合させることが困難である。 既存のアプローチでは、学習を容易にするために事前訓練されたモデルを使用しているが、事前訓練されたモデルから言語/ビジョンの知識を別々に転送し、マルチモーダル対応情報を無視している。 本稿では,近年のコントラスト型言語イメージプリトレーニング(clip)の進展に触発されて,クリップ駆動参照画像セグメンテーションフレームワーク(cris)を提案する。 マルチモーダル知識を効果的に伝達するために、crisはテキストからピクセルへのアライメントを達成するために視覚言語デコードとコントラスト学習に頼る。 具体的には、テキスト表現から各ピクセルレベルのアクティベーションに微細な意味情報を伝達する視覚言語デコーダを設計し、この2つのモード間の整合性を促進する。 さらに,テキストから画素へのコントラスト学習を行い,関連する画素レベルの特徴と類似したテキスト特徴を明示的に強制する。 3つのベンチマークデータセットの実験結果から,提案するフレームワークは,ポストプロセッシングを伴わずに,最先端のパフォーマンスを大幅に向上することが示された。 コードはリリースされます。

Referring image segmentation aims to segment a referent via a natural linguistic expression.Due to the distinct data properties between text and image, it is challenging for a network to well align text and pixel-level features. Existing approaches use pretrained models to facilitate learning, yet separately transfer the language/vision knowledge from pretrained models, ignoring the multi-modal corresponding information. Inspired by the recent advance in Contrastive Language-Image Pretraining (CLIP), in this paper, we propose an end-to-end CLIP-Driven Referring Image Segmentation framework (CRIS). To transfer the multi-modal knowledge effectively, CRIS resorts to vision-language decoding and contrastive learning for achieving the text-to-pixel alignment. More specifically, we design a vision-language decoder to propagate fine-grained semantic information from textual representations to each pixel-level activation, which promotes consistency between the two modalities. In addition, we present text-to-pixel contrastive learning to explicitly enforce the text feature similar to the related pixel-level features and dissimilar to the irrelevances. The experimental results on three benchmark datasets demonstrate that our proposed framework significantly outperforms the state-of-the-art performance without any post-processing. The code will be released.
翻訳日:2021-12-01 15:07:02 公開日:2021-11-30
# plantstereo:植物表面密度再構成のためのステレオマッチングベンチマーク

PlantStereo: A Stereo Matching Benchmark for Plant Surface Dense Reconstruction ( http://arxiv.org/abs/2111.15192v1 )

ライセンス: Link先を確認
Qingyu Wang, Baojian Ma, Wei Liu, Mingzhao Lou, Mingchuan Zhou, Huanyu Jiang and Yibin Ying(参考訳) ステレオマッチングはコンピュータビジョンにおいて重要なタスクであり、何十年にもわたって研究の注目を集めてきた。 差分精度、密度、データサイズの観点からは、公開ステレオデータセットはモデルの要件を満たすことは困難である。 本稿では,データセットとモデル間の問題に対処し,プラントステレオと呼ばれる高精度な不均一な基礎的真理を持つ大規模ステレオデータセットを提案する。 我々は、カメラキャリブレーションと画像登録の後、深度画像から高精度の差画像を得ることができる半自動でデータセットを構築した。 PlantStereoには、ホウレンソウ、トマト、唐辛子、カボチャなど、さまざまな植物の812枚のイメージペアが含まれている。 まず,4種類のステレオマッチング手法を用いてPlanetStereoデータセットの評価を行った。 異なるモデルや植物に対する広範囲な実験により、整数精度の基底真理と比較して、プラントステレオが提供する高精度な不一致画像はディープラーニングモデルのトレーニング効果を著しく改善できることが示された。 本論文は,植物表面の高密度再構築を実現するための実現可能かつ信頼性の高い手法である。 PlantStereoデータセットと相対コードは、https://www.github.com/wangqingyu985/PlantStereoで入手できる。

Stereo matching is an important task in computer vision which has drawn tremendous research attention for decades. While in terms of disparity accuracy, density and data size, public stereo datasets are difficult to meet the requirements of models. In this paper, we aim to address the issue between datasets and models and propose a large scale stereo dataset with high accuracy disparity ground truth named PlantStereo. We used a semi-automatic way to construct the dataset: after camera calibration and image registration, high accuracy disparity images can be obtained from the depth images. In total, PlantStereo contains 812 image pairs covering a diverse set of plants: spinach, tomato, pepper and pumpkin. We firstly evaluated our PlantStereo dataset on four different stereo matching methods. Extensive experiments on different models and plants show that compared with ground truth in integer accuracy, high accuracy disparity images provided by PlantStereo can remarkably improve the training effect of deep learning models. This paper provided a feasible and reliable method to realize plant surface dense reconstruction. The PlantStereo dataset and relative code are available at: https://www.github.com/wangqingyu985/PlantStereo
翻訳日:2021-12-01 15:06:38 公開日:2021-11-30
# マルチスケールトークンアグリゲーションによるセルフアテンションの回避

Shunted Self-Attention via Multi-Scale Token Aggregation ( http://arxiv.org/abs/2111.15193v1 )

ライセンス: Link先を確認
Sucheng Ren, Daquan Zhou, Shengfeng He, Jiashi Feng, Xinchao Wang(参考訳) 近年のvision transformer~(vit)モデルでは,イメージパッチやトークンの長期依存関係を自己照査によってモデル化する能力により,さまざまなコンピュータビジョンタスクにおいて,成果を奨励している。 しかしながら、これらのモデルは通常、各層内の各トークンの特徴の同様の受容領域を指定する。 このような制約は必然的に、マルチスケールな特徴のキャプチャにおける各セルフ・アテンション・レイヤの能力を制限するため、異なるスケールの複数のオブジェクトで画像を扱う際のパフォーマンスの低下につながる。 この問題に対処するために,vitsが注目層毎のハイブリッドスケールで注意をモデル化できる,susted self-attention~(ssa)と呼ばれる新しい汎用戦略を提案する。 自己アテンション行列を計算する前に、トークンを選択的にマージして大きなオブジェクトの特徴を表現し、特定のトークンを保持して細かな特徴を保存する。 この新しいマージスキームにより、異なる大きさのオブジェクト間の関係を学習し、トークン数と計算コストを同時に削減することができる。 様々なタスクにわたる広範囲な実験がssaの優位を示している。 具体的には、SSAベースの変換器は、84.0\%のTop-1精度を実現し、モデルサイズと計算コストのわずか半分でImageNet上の最先端のFocal Transformerを上回り、同様のパラメータと計算コストでCOCOで1.3mAP、ADE20Kで2.9mIOUを超える。 コードはhttps://github.com/OliverRensu/Shunted-Transformer.comでリリースされた。

Recent Vision Transformer~(ViT) models have demonstrated encouraging results across various computer vision tasks, thanks to their competence in modeling long-range dependencies of image patches or tokens via self-attention. These models, however, usually designate the similar receptive fields of each token feature within each layer. Such a constraint inevitably limits the ability of each self-attention layer in capturing multi-scale features, thereby leading to performance degradation in handling images with multiple objects of different scales. To address this issue, we propose a novel and generic strategy, termed shunted self-attention~(SSA), that allows ViTs to model the attentions at hybrid scales per attention layer. The key idea of SSA is to inject heterogeneous receptive field sizes into tokens: before computing the self-attention matrix, it selectively merges tokens to represent larger object features while keeping certain tokens to preserve fine-grained features. This novel merging scheme enables the self-attention to learn relationships between objects with different sizes and simultaneously reduces the token numbers and the computational cost. Extensive experiments across various tasks demonstrate the superiority of SSA. Specifically, the SSA-based transformer achieves 84.0\% Top-1 accuracy and outperforms the state-of-the-art Focal Transformer on ImageNet with only half of the model size and computation cost, and surpasses Focal Transformer by 1.3 mAP on COCO and 2.9 mIOU on ADE20K under similar parameter and computation cost. Code has been released at https://github.com/OliverRensu/Shunted-Transformer.
翻訳日:2021-12-01 15:06:21 公開日:2021-11-30
# Affect-DML:Deep Metric Learning を用いた人間の感情の文脈認識

Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning ( http://arxiv.org/abs/2111.15271v1 )

ライセンス: Link先を確認
Kunyu Peng, Alina Roitberg, David Schneider, Marios Koulakis, Kailun Yang, Rainer Stiefelhagen(参考訳) 人間の感情認識は、心理学的ケアなど多くの応用で確立された研究分野であるが、既存の手法では、すべての感情が注釈付きトレーニング例として優先されると仮定している。 しかしながら、新しい心理学理論による人間の感情スペクトルの粒度と細分化の増大と文脈における感情の考察の増加は、データ収集とラベル付け作業にかなりのプレッシャーを与える。 本稿では,1つのサポートサンプルから,より微細な粒子レベルにおける人間の影響状態を認識することを目的とした新しい問題である,文脈における感情のワンショット認識を概念化する。 この課題に対処するために,我々は,人間の外見の相補的情報とセマンティックセグメンテーションネットワークを通じて得られるセマンティックシーンコンテキストを活用することで,同情の埋め込み距離を最小化するマルチモーダル感情埋め込み手法を導入する。 文脈認識モデルのすべてのストリームは、重み付き三重項損失と重み付きクロスエントロピー損失を用いて協調的に最適化される。 単発認識問題に適応したエメティックデータセットのカテゴリー的および数値的感情認識タスクについて、徹底的な実験を行い、一つの例から人間の影響を分類することは難しい課題であることを示した。 それでも、我々のモデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを利用して、学習した表現を一貫して改善し、最先端の感情認識を実現する。 より普遍的な人間の影響状態の表現の研究を促進するため、ベンチマークとモデルをコミュニティに公開し、https://github.com/KPeng9510/Affect-DMLで公開します。

Human affect recognition is a well-established research area with numerous applications, e.g., in psychological care, but existing methods assume that all emotions-of-interest are given a priori as annotated training examples. However, the rising granularity and refinements of the human emotional spectrum through novel psychological theories and the increased consideration of emotions in context brings considerable pressure to data collection and labeling work. In this paper, we conceptualize one-shot recognition of emotions in context -- a new problem aimed at recognizing human affect states in finer particle level from a single support sample. To address this challenging task, we follow the deep metric learning paradigm and introduce a multi-modal emotion embedding approach which minimizes the distance of the same-emotion embeddings by leveraging complementary information of human appearance and the semantic scene context obtained through a semantic segmentation network. All streams of our context-aware model are optimized jointly using weighted triplet loss and weighted cross entropy loss. We conduct thorough experiments on both, categorical and numerical emotion recognition tasks of the Emotic dataset adapted to our one-shot recognition problem, revealing that categorizing human affect from a single example is a hard task. Still, all variants of our model clearly outperform the random baseline, while leveraging the semantic scene context consistently improves the learnt representations, setting state-of-the-art results in one-shot emotion recognition. To foster research of more universal representations of human affect states, we will make our benchmark and models publicly available to the community under https://github.com/KPeng9510/Affect-DML.
翻訳日:2021-12-01 15:05:52 公開日:2021-11-30
# (参考訳) mapreader: 大規模地図の意味的探索のためのコンピュータビジョンパイプライン

MapReader: A Computer Vision Pipeline for the Semantic Exploration of Maps at Scale ( http://arxiv.org/abs/2111.15592v1 )

ライセンス: CC BY 4.0
Kasra Hosseini, Daniel C.S. Wilson, Kaspar Beelen, Katherine McDonough(参考訳) 我々は、Pythonで書かれた無料のオープンソースソフトウェアライブラリであるMapReaderを紹介します。 このライブラリは、広範で均一なマップセットを検索可能な一次情報源に変換することによって、歴史学者が地図を使用する方法を変える。 MapReaderはコンピュータービジョンの専門知識をほとんど、あるいは全く持たないユーザーに提供 一 ウェブサーバを介して地図を取得すること。 二 前処理してパッチに分割すること。 三 パッチの注釈 四 深層ニューラルネットワークモデルの列車、微調整及び評価 五 地図の内容に関する構造化データを作成すること。 MapReaderは、歴史学者が19世紀のOrdnance Survey Mapシート(30.5Mパッチ)を$\approx$16Kで解釈し、視覚マーカーを機械可読データに変換するという課題を先導する。 本稿では、これらの地図に描かれたイギリスの鉄道インフラと建物に着目したケーススタディについて述べる。 また、mapreaderパイプラインからの出力を他の外部データセットとリンクする方法を示し、その結果を豊かにし、解釈するために使用します。 ここでモデルのトレーニングと評価に使用される手作業で約62kドルのパッチをリリースします。

We present MapReader, a free, open-source software library written in Python for analyzing large map collections (scanned or born-digital). This library transforms the way historians can use maps by turning extensive, homogeneous map sets into searchable primary sources. MapReader allows users with little or no computer vision expertise to i) retrieve maps via web-servers; ii) preprocess and divide them into patches; iii) annotate patches; iv) train, fine-tune, and evaluate deep neural network models; and v) create structured data about map content. We demonstrate how MapReader enables historians to interpret a collection of $\approx$16K nineteenth-century Ordnance Survey map sheets ($\approx$30.5M patches), foregrounding the challenge of translating visual markers into machine-readable data. We present a case study focusing on British rail infrastructure and buildings as depicted on these maps. We also show how the outputs from the MapReader pipeline can be linked to other, external datasets, which we use to evaluate as well as enrich and interpret the results. We release $\approx$62K manually annotated patches used here for training and evaluating the models.
翻訳日:2021-12-01 15:03:13 公開日:2021-11-30
# ConDA: 正規化ドメイン結合によるLiDARセグメンテーションのための教師なしドメイン適応

ConDA: Unsupervised Domain Adaptation for LiDAR Segmentation via Regularized Domain Concatenation ( http://arxiv.org/abs/2111.15242v1 )

ライセンス: Link先を確認
Lingdong Kong, Niamul Quader, Venice Erin Liong(参考訳) ラベル付きソースドメインから学習した知識を、教師なしドメイン適応(UDA)のために生のターゲットドメインに転送することは、自律運転システムのスケーラブルな展開に不可欠である。 UDAの最先端のアプローチは、しばしば鍵となる概念を取り入れている: ソースドメイン(接地木)とターゲットドメイン(擬似ラベル)の両方からの共同監視信号を使って、自己学習を行う。 この作業では、この側面を改善し、拡張します。 本稿では,LiDARセマンティックセマンティックセグメンテーションのための結合型ドメイン適応フレームワークであるConDAについて述べる。(1)エゴ車両周辺のオブジェクトや背景のセマンティックコヒーレンシーを不安定にすることなく,ソース領域とターゲット領域の両方からの微細なインターチェンジ信号からなる中間ドメインを構築し,(2)自己学習に中間ドメインを利用する。 さらに、ソースドメインにおけるネットワークトレーニングと中間ドメインでの自己学習の両方を改善するために、エイリアス化アーティファクトとノイズの多いターゲット予測の有害な影響を低減するために、アンチエイリアス化正規化器とエントロピーアグリゲータを提案する。 広範な実験により,ConDAは先行技術に比べてドメインギャップを緩和する上で極めて有効であることが示された。

Transferring knowledge learned from the labeled source domain to the raw target domain for unsupervised domain adaptation (UDA) is essential to the scalable deployment of an autonomous driving system. State-of-the-art approaches in UDA often employ a key concept: utilize joint supervision signals from both the source domain (with ground-truth) and the target domain (with pseudo-labels) for self-training. In this work, we improve and extend on this aspect. We present ConDA, a concatenation-based domain adaptation framework for LiDAR semantic segmentation that: (1) constructs an intermediate domain consisting of fine-grained interchange signals from both source and target domains without destabilizing the semantic coherency of objects and background around the ego-vehicle; and (2) utilizes the intermediate domain for self-training. Additionally, to improve both the network training on the source domain and self-training on the intermediate domain, we propose an anti-aliasing regularizer and an entropy aggregator to reduce the detrimental effects of aliasing artifacts and noisy target predictions. Through extensive experiments, we demonstrate that ConDA is significantly more effective in mitigating the domain gap compared to prior arts.
翻訳日:2021-12-01 14:44:12 公開日:2021-11-30
# DiffSDFSim:不規則形状を持つ微分可能な剛体ダイナミクス

DiffSDFSim: Differentiable Rigid-Body Dynamics With Implicit Shapes ( http://arxiv.org/abs/2111.15318v1 )

ライセンス: Link先を確認
Michael Strecke and Joerg Stueckler(参考訳) 微分物理学は、シーン理解と相互作用の推論のためのコンピュータビジョンとロボット工学の強力なツールである。 既存のアプローチはしばしば、前もって知られている単純な形状や形状の物体に限られている。 本稿では,符号付き距離場(SDF)を用いて物体形状を暗黙的に表現する摩擦接触を持つ微分可能物理学に対する新しいアプローチを提案する。 本シミュレーションは,非凸形状であっても接触点計算を支援する。 さらに,物体形状のダイナミクスを微分し,勾配に基づく手法を用いて形状最適化を容易にする手法を提案する。 実験により,本手法は,様々な難解な合成シナリオと実画像列において,軌道や深度画像からの摩擦係数,質量,力,形状パラメータなどの物理パラメータのモデルベース推論を可能にすることを示した。

Differentiable physics is a powerful tool in computer vision and robotics for scene understanding and reasoning about interactions. Existing approaches have frequently been limited to objects with simple shape or shapes that are known in advance. In this paper, we propose a novel approach to differentiable physics with frictional contacts which represents object shapes implicitly using signed distance fields (SDFs). Our simulation supports contact point calculation even when the involved shapes are nonconvex. Moreover, we propose ways for differentiating the dynamics for the object shape to facilitate shape optimization using gradient-based methods. In our experiments, we demonstrate that our approach allows for model-based inference of physical parameters such as friction coefficients, mass, forces or shape parameters from trajectory and depth image observations in several challenging synthetic scenarios and a real image sequence.
翻訳日:2021-12-01 14:43:49 公開日:2021-11-30
# 高速かつ堅牢なMRI再構成のための独立繰り返し推論マシンのカスケードによるデータ一貫性の評価

Assessment of Data Consistency through Cascades of Independently Recurrent Inference Machines for fast and robust accelerated MRI reconstruction ( http://arxiv.org/abs/2111.15498v1 )

ライセンス: Link先を確認
D. Karkalousos, S. Noteboom, H. E. Hulst, F.M. Vos, M.W.A. Caan(参考訳) mri(accelerated magnetic resonance imaging)再構成のための機械学習手法を臨床応用には,解釈性とロバスト性が不可欠である。 そうすることで、解剖学と病理の迅速な高品質なイメージングが可能になる。 データ一貫性(DC)は多モードデータの一般化と病理診断における堅牢性に不可欠である。 本研究は、非ループ最適化によるDCの評価を、勾配降下により暗黙的に、設計項によって明示的に行うために、CIRIM(Cascades of Independently Recurrent Inference Machines)を提案する。 我々は,CIRIMと他の非ロール最適化手法,E2EVN(End-to-End Variational Network)とRIM,UNetとCompressed Sensing(CS)を広範囲に比較した。 評価は2段階で行われる。 まず、複数の訓練されたmriモダリティ、すなわち${t_1}$-weightingとflairコントラストを持つ脳データと${t_2}$-weighted kneeデータについて学習を評価する。 第2に, 多発性硬化症 (ms) 症例の3d flair mri における白質病変の病理組織再構成についてロバスト性について検討した。 結果は、CIRIMが直流を暗黙的に強制する場合、E2EVNは直流を明示的に定式化する必要があることを示している。 CIRIMは臨床MSデータの再構成において最も高い病変コントラスト分解能を示した。 性能はcsと比較して約11%向上し、復元時間は20倍削減されている。

Interpretability and robustness are imperative for integrating Machine Learning methods for accelerated Magnetic Resonance Imaging (MRI) reconstruction in clinical applications. Doing so would allow fast high-quality imaging of anatomy and pathology. Data Consistency (DC) is crucial for generalization in multi-modal data and robustness in detecting pathology. This work proposes the Cascades of Independently Recurrent Inference Machines (CIRIM) to assess DC through unrolled optimization, implicitly by gradient descent and explicitly by a designed term. We perform extensive comparison of the CIRIM to other unrolled optimization methods, being the End-to-End Variational Network (E2EVN) and the RIM, and to the UNet and Compressed Sensing (CS). Evaluation is done in two stages. Firstly, learning on multiple trained MRI modalities is assessed, i.e., brain data with ${T_1}$-weighting and FLAIR contrast, and ${T_2}$-weighted knee data. Secondly, robustness is tested on reconstructing pathology through white matter lesions in 3D FLAIR MRI data of relapsing remitting Multiple Sclerosis (MS) patients. Results show that the CIRIM performs best when implicitly enforcing DC, while the E2EVN requires explicitly formulated DC. The CIRIM shows the highest lesion contrast resolution in reconstructing the clinical MS data. Performance improves by approximately 11% compared to CS, while the reconstruction time is twenty times reduced.
翻訳日:2021-12-01 14:43:36 公開日:2021-11-30
# ヒンディー語文における言語的丁寧さの自動識別に向けて

Towards automatic identification of linguistic politeness in Hindi texts ( http://arxiv.org/abs/2111.15268v1 )

ライセンス: Link先を確認
Ritesh Kumar(参考訳) 本稿ではヒンディー語文における言語的丁寧さの自動識別のための分類器を提案する。 25,000以上のブログコメントを手動で注釈付けしたコーパスを使ってSVMをトレーニングしました。 論文は、丁寧さに対する非帰的かつ相互作用的なアプローチを用いて、ヒンディー語の規範的で慣習化された丁寧さの構造を例示する。 これらの手作業で認識された構造をSVMのトレーニング機能として使用すると、テストセットの分類器の性能が大幅に向上する。 訓練されたシステムは、人間の精度の2%に満たない77%以上の精度を持つ。

In this paper I present a classifier for automatic identification of linguistic politeness in Hindi texts. I have used the manually annotated corpus of over 25,000 blog comments to train an SVM. Making use of the discursive and interactional approaches to politeness the paper gives an exposition of the normative, conventionalised politeness structures of Hindi. It is seen that using these manually recognised structures as features in training the SVM significantly improves the performance of the classifier on the test set. The trained system gives a significantly high accuracy of over 77% which is within 2% of human accuracy.
翻訳日:2021-12-01 14:41:15 公開日:2021-11-30
# 比較コーパスのためのバイリンガル話題モデル

Bilingual Topic Models for Comparable Corpora ( http://arxiv.org/abs/2111.15278v1 )

ライセンス: Link先を確認
Georgios Balikas, Massih-Reza Amini, Marianne Clausel(参考訳) Latent Dirichlet Allocation (LDA)のような確率論的トピックモデルは、以前はバイリンガル設定に拡張されていた。 これらの拡張の基本的なモデリングの前提は、入力コーパスが単一のトピック分布を共有する文書ペアの形式であるということである。 しかし、この仮定は、文書を数学的に類似した範囲で構成する比較コーパスに対して強く、最も一般的に入手できるか容易に得ることができる。 本稿では,この仮定を緩和するために,ペア文書が個別に,かつ限定されたトピック分布を持つように提案する。 %であった。 境界の強さはそれぞれのペアの意味的類似性に依存するべきである。 異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。 提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。 新たなトピックモデルの性能を評価するために,フランス語,ドイツ語,イタリア語,スペイン語,ポルトガル語の5つのバイリンガルな対等なコーパスを用いて,内在的および外在的な実験を行った。 その結果,各言語対の言語間文書検索タスクにおいて,正規化ポイントワイド相互情報によって測定されたトピックコヒーレンスと,パープレキシティによって測定された一般化性能と平均相互ランクの両面でのアプローチの有効性が示された。

Probabilistic topic models like Latent Dirichlet Allocation (LDA) have been previously extended to the bilingual setting. A fundamental modeling assumption in several of these extensions is that the input corpora are in the form of document pairs whose constituent documents share a single topic distribution. However, this assumption is strong for comparable corpora that consist of documents thematically similar to an extent only, which are, in turn, the most commonly available or easy to obtain. In this paper we relax this assumption by proposing for the paired documents to have separate, yet bound topic distributions. % a binding mechanism between the distributions of the paired documents. We suggest that the strength of the bound should depend on each pair's semantic similarity. To estimate the similarity of documents that are written in different languages we use cross-lingual word embeddings that are learned with shallow neural networks. We evaluate the proposed binding mechanism by extending two topic models: a bilingual adaptation of LDA that assumes bag-of-words inputs and a model that incorporates part of the text structure in the form of boundaries of semantically coherent segments. To assess the performance of the novel topic models we conduct intrinsic and extrinsic experiments on five bilingual, comparable corpora of English documents with French, German, Italian, Spanish and Portuguese documents. The results demonstrate the efficiency of our approach in terms of both topic coherence measured by the normalized point-wise mutual information, and generalization performance measured by perplexity and in terms of Mean Reciprocal Rank in a cross-lingual document retrieval task for each of the language pairs.
翻訳日:2021-12-01 14:41:05 公開日:2021-11-30
# 非スケジュール言語LR開発における課題--マガヒを事例として

Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi ( http://arxiv.org/abs/2111.15322v1 )

ライセンス: Link先を確認
Ritesh Kumar(参考訳) マガヒ語(Magahi)はインド・アーリア語族の言語で、主にインド東部で話されている。 多くの話者がいるにもかかわらず、言語のための言語リソース(lr)や言語技術(lt)は事実上存在せず、主に非スケジュール言語としての地位にある。 本稿では,マガヒの注釈付きコーパスを開発する試みについて述べる。 データは、主にマガヒのいくつかのブログ、マガヒのいくつかの記事集、マガヒの会話の記録から収集され、BISタグセットを使用してPOSレベルで注釈付けされている。

Magahi is an Indo-Aryan Language, spoken mainly in the Eastern parts of India. Despite having a significant number of speakers, there has been virtually no language resource (LR) or language technology (LT) developed for the language, mainly because of its status as a non-scheduled language. The present paper describes an attempt to develop an annotated corpus of Magahi. The data is mainly taken from a couple of blogs in Magahi, some collection of stories in Magahi and the recordings of conversation in Magahi and it is annotated at the POS level using BIS tagset.
翻訳日:2021-12-01 14:40:38 公開日:2021-11-30
# BERTモデルとT5モデルを用いたテキストマイニング薬・化学・タンパク質相互作用

Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT and T5 Based Models ( http://arxiv.org/abs/2111.15617v1 )

ライセンス: Link先を確認
Virginia Adams, Hoo-Chang Shin, Carol Anderson, Bo Liu, Anas Abidin(参考訳) バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。 各薬物/化学およびタンパク質のインコンテキスト名付きエンティティアノテーションが提供され、14の異なる相互作用の1つが自動的に予測されなければならない。 この関係抽出タスクでは,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を併用する。 私たちのBioMegatronベースのモデルは、すべてのメトリクスで最高スコアを獲得し、0.74 F1スコアを達成しています。 我々の新しいT5テキスト・トゥ・テキスト方式はBERTベースのモデルでは性能が良くなかったが、同様のデータでトレーニングされたモデルよりも優れており、有望な結果を示し、0.65 F1のスコアを得た。 我々は、関係抽出に対するテキスト・テキスト・アプローチには競争上の優位性があり、研究の進展の余地がたくさんあると考えている。

In Track-1 of the BioCreative VII Challenge participants are asked to identify interactions between drugs/chemicals and proteins. In-context named entity annotations for each drug/chemical and protein are provided and one of fourteen different interactions must be automatically predicted. For this relation extraction task, we attempt both a BERT-based sentence classification approach, and a more novel text-to-text approach using a T5 model. We find that larger BERT-based models perform better in general, with our BioMegatron-based model achieving the highest scores across all metrics, achieving 0.74 F1 score. Though our novel T5 text-to-text method did not perform as well as most of our BERT-based models, it outperformed those trained on similar data, showing promising results, achieving 0.65 F1 score. We believe a text-to-text approach to relation extraction has some competitive advantages and there is a lot of room for research advancement.
翻訳日:2021-12-01 14:40:29 公開日:2021-11-30
# BERTとテキスト・テキスト・アプローチによる公開記事の化学的同定とインデックス化

Chemical Identification and Indexing in PubMed Articles via BERT and Text-to-Text Approaches ( http://arxiv.org/abs/2111.15622v1 )

ライセンス: Link先を確認
Virginia Adams, Hoo-Chang Shin, Carol Anderson, Bo Liu, Anas Abidin(参考訳) Biocreative VII Track-2 チャレンジは、名前付きエンティティ認識、エンティティリンク(またはエンティティ正規化)、トピックインデックスタスクで構成される。 名前付きエンティティ認識は確立された問題であり、BERTベースのBioMegatronモデルで最高の性能を達成する。 BERTベースのアプローチをエンティティリンクタスクに拡張します。 SAP(Self-alignment Pretraining)と呼ばれるメトリクス学習損失戦略でBioBERTを事前訓練した後、SAP-BioBERTワード埋め込みのコサイン類似性に基づいてエンティティをリンクする。 命名されたエンティティ認識実験の成功にもかかわらず、化学インデクシングタスクは一般的に困難である。 従来の NER 法に加えて,T5 や GPT などの生成言語モデルを用いた新しいテキスト・トゥ・テキストや "prompt" ベースの手法と,名前付きエンティティ認識とエンティティリンクの両方を試みる。 我々はこの新しいアプローチで奨励的な結果を得る。

The Biocreative VII Track-2 challenge consists of named entity recognition, entity-linking (or entity-normalization), and topic indexing tasks -- with entities and topics limited to chemicals for this challenge. Named entity recognition is a well-established problem and we achieve our best performance with BERT-based BioMegatron models. We extend our BERT-based approach to the entity linking task. After the second stage of pretraining BioBERT with a metric-learning loss strategy called self-alignment pretraining (SAP), we link entities based on the cosine similarity between their SAP-BioBERT word embeddings. Despite the success of our named entity recognition experiments, we find the chemical indexing task generally more challenging. In addition to conventional NER methods, we attempt both named entity recognition and entity linking with a novel text-to-text or "prompt" based method that uses generative language models such as T5 and GPT. We achieve encouraging results with this new approach.
翻訳日:2021-12-01 14:40:11 公開日:2021-11-30
# 名前付きエンティティ認識によるつぶやき中のメディケイト名の自動抽出

Automatic Extraction of Medication Names in Tweets as Named Entity Recognition ( http://arxiv.org/abs/2111.15641v1 )

ライセンス: Link先を確認
Carol Anderson, Bo Liu, Anas Abidin, Hoo-Chang Shin, Virginia Adams(参考訳) ソーシャルメディアの投稿には、医療状況や健康関連行動に関する潜在的に価値のある情報が含まれている。 バイオクリエイティヴVIIタスク3は、ツイート中の医薬品や栄養補助薬の言及を認識することで、この情報をマイニングすることに焦点を当てている。 複数のBERTスタイルの言語モデルを微調整してトークンレベルの分類を行い、それらをアンサンブルに組み合わせて最終的な予測を生成する。 我々の最良のシステムは、5つのメガトロン-BERT-345Mモデルで構成され、未知のテストデータに対して厳密なF1スコア0.764を達成する。

Social media posts contain potentially valuable information about medical conditions and health-related behavior. Biocreative VII Task 3 focuses on mining this information by recognizing mentions of medications and dietary supplements in tweets. We approach this task by fine tuning multiple BERT-style language models to perform token-level classification, and combining them into ensembles to generate final predictions. Our best system consists of five Megatron-BERT-345M models and achieves a strict F1 score of 0.764 on unseen test data.
翻訳日:2021-12-01 14:39:52 公開日:2021-11-30
# (参考訳) 深層ニューラルネットワークにおける学習のトポロジカルな構成の活用

Leveraging The Topological Consistencies of Learning in Deep Neural Networks ( http://arxiv.org/abs/2111.15651v1 )

ライセンス: CC BY 4.0
Stuart Synakowski, Fabian Benitez-Quiroz, Aleix M. Martinez(参考訳) 近年,その基盤となるトポロジ構造に関する統計から,特定のタスクにおけるディープニューラルネットワーク(DNN)のテスト性能を正確に予測する手法が開発されている。 しかし、時間とメモリの面で計算コストが高いため、この新たな知見を実用的応用に活用することは困難である。 本研究では,実行中に高速に計算できながら学習の進捗を正確に特徴付けるトポロジカルな特徴の新たなクラスを定義する。 さらに,提案する位相的特徴はバックプロパゲーションに容易に備えられるため,エンドツーエンドのトレーニングに組み込むことができる。 新たに開発されたDNNの実践的トポロジ的特徴により,さらなる応用が可能となった。 まず,dnnの性能をテストセットなしで,高性能コンピューティングを必要とせずに予測できることを示す。 また,DNNのトポロジ的特徴が課題類似性の推定に有効であることを示す。 最後に,DNNのトポロジ的構造を積極的に制約することで,DNNにおける学習を誘導できることを示す。 これにより、メタ学習フレームワークでDNNの基盤構造を絞る新たな道が開かれる。

Recently, methods have been developed to accurately predict the testing performance of a Deep Neural Network (DNN) on a particular task, given statistics of its underlying topological structure. However, further leveraging this newly found insight for practical applications is intractable due to the high computational cost in terms of time and memory. In this work, we define a new class of topological features that accurately characterize the progress of learning while being quick to compute during running time. Additionally, our proposed topological features are readily equipped for backpropagation, meaning that they can be incorporated in end-to-end training. Our newly developed practical topological characterization of DNNs allows for an additional set of applications. We first show we can predict the performance of a DNN without a testing set and without the need for high-performance computing. We also demonstrate our topological characterization of DNNs is effective in estimating task similarity. Lastly, we show we can induce learning in DNNs by actively constraining the DNN's topological structure. This opens up new avenues in constricting the underlying structure of DNNs in a meta-learning framework.
翻訳日:2021-12-01 14:38:11 公開日:2021-11-30
# the devil is the margin: ネットワークキャリブレーションのためのマージンベースのラベル平滑化

The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration ( http://arxiv.org/abs/2111.15430v1 )

ライセンス: Link先を確認
Bingyuan Liu, Ismail Ben Ayed, Adrian Galdran, Jose Dolz(参考訳) ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究は、それらの調整が不十分であることを示しており、過密な予測を生じさせている。 トレーニング中のクロスエントロピーの最小化により、オーバーフィッティングによってミスキャリブレーションが悪化し、予測されたソフトマックス確率を1つのホットラベル割り当てと一致させる。 これにより、残りのアクティベーションよりもはるかに大きい正しいクラスのpre-softmaxアクティベーションが得られる。 文献からの最近の証拠は、予測のエントロピーの暗黙的または明示的な最大化を埋め込んだ損失関数は、最先端のキャリブレーション性能をもたらすことを示唆している。 現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。 特に、これらの損失は、ロジット距離の等式制約を課す線形ペナルティ(あるいはラグランジアン)の近似と見なすことができる。 このことは、そのような基礎となる等式制約の重要な制限であり、従って勾配が常に非形式的解に向かって進み、勾配に基づく最適化の際の判別性能とモデルのキャリブレーションの最良の妥協点に達するのを防いでいることを示している。 本稿では,不等式制約に基づく簡易かつ柔軟な一般化を提案し,ロジット距離に制御可能なマージンを課す。 画像分類,セマンティックセグメンテーション,NLPベンチマークの総合的な実験により,本手法は識別性能に影響を与えることなく,ネットワークキャリブレーションの観点で,これらのタスクに新たな最先端結果を設定することを示した。 コードはhttps://github.com/by-liu/MbLSで公開されている。

In spite of the dominant performances of deep neural networks, recent works have shown that they are poorly calibrated, resulting in over-confident predictions. Miscalibration can be exacerbated by overfitting due to the minimization of the cross-entropy during training, as it promotes the predicted softmax probabilities to match the one-hot label assignments. This yields a pre-softmax activation of the correct class that is significantly larger than the remaining activations. Recent evidence from the literature suggests that loss functions that embed implicit or explicit maximization of the entropy of predictions yield state-of-the-art calibration performances. We provide a unifying constrained-optimization perspective of current state-of-the-art calibration losses. Specifically, these losses could be viewed as approximations of a linear penalty (or a Lagrangian) imposing equality constraints on logit distances. This points to an important limitation of such underlying equality constraints, whose ensuing gradients constantly push towards a non-informative solution, which might prevent from reaching the best compromise between the discriminative performance and calibration of the model during gradient-based optimization. Following our observations, we propose a simple and flexible generalization based on inequality constraints, which imposes a controllable margin on logit distances. Comprehensive experiments on a variety of image classification, semantic segmentation and NLP benchmarks demonstrate that our method sets novel state-of-the-art results on these tasks in terms of network calibration, without affecting the discriminative performance. The code is available at https://github.com/by-liu/MbLS .
翻訳日:2021-12-01 14:21:37 公開日:2021-11-30
# LiDARスキャン処理のための半局所畳み込み

Semi-Local Convolutions for LiDAR Scan Processing ( http://arxiv.org/abs/2111.15615v1 )

ライセンス: Link先を確認
Larissa T. Triess, David Peter, J. Marius Z\"ollner(参考訳) 移動ロボットや自動走行車などの多くのアプリケーションは、LiDARセンサーを使用して、彼らの3次元環境に関する詳細な情報を取得する。 多くの方法は画像のようなプロジェクションを使ってこれらのLiDAR測定を効率的に処理し、深層畳み込みニューラルネットワークを使ってスキャンの各点のセマンティッククラスを予測する。 空間定常仮定は畳み込みの使用を可能にする。 しかし、LiDARスキャンでは垂直軸の外観に大きな違いが見られる。 そこで本研究では,垂直方向の重量共有量を低減した半局所畳み込み層(SLC)を提案する。 私たちはまず、他のモデル変更とは無関係に、そのようなレイヤの使用を調査します。 セグメンテーションIoUや精度の観点からは,従来の畳み込み層よりも改善は見られなかった。

A number of applications, such as mobile robots or automated vehicles, use LiDAR sensors to obtain detailed information about their three-dimensional surroundings. Many methods use image-like projections to efficiently process these LiDAR measurements and use deep convolutional neural networks to predict semantic classes for each point in the scan. The spatial stationary assumption enables the usage of convolutions. However, LiDAR scans exhibit large differences in appearance over the vertical axis. Therefore, we propose semi local convolution (SLC), a convolution layer with reduced amount of weight-sharing along the vertical dimension. We are first to investigate the usage of such a layer independent of any other model changes. Our experiments did not show any improvement over traditional convolution layers in terms of segmentation IoU or accuracy.
翻訳日:2021-12-01 14:21:08 公開日:2021-11-30
# SurvODE:早期癌同定のための遺伝子発現解析

SurvODE: Extrapolating Gene Expression Distribution for Early Cancer Identification ( http://arxiv.org/abs/2111.15080v1 )

ライセンス: Link先を確認
Tong Chen, Sheng Wang(参考訳) 大規模がんゲノムデータセットがますます普及する中で、機械学習アプローチはがん発生に関する新たな洞察を明らかにする上で重要な役割を担っている。 既存の方法では、がんの生存を予測できるが、遺伝子上の分布をモデル化する上ではまだ限られている遺伝子を同定する性能が向上している。 そこで本研究では,任意の時点における遺伝子発現分布をシミュレートする新しい手法を提案する。 それぞれの患者が観察される不規則な時系列をモデル化するために,神経常微分方程式(neural ODE)をコックス回帰と統合した。 本手法をTCGAの8種類の癌に対して評価し,既存のアプローチよりも大幅に改善した。 我々の可視化結果とさらなる分析は, 早期がんにおける発現をシミュレートし, 早期がんの同定の可能性を示すものである。

With the increasingly available large-scale cancer genomics datasets, machine learning approaches have played an important role in revealing novel insights into cancer development. Existing methods have shown encouraging performance in identifying genes that are predictive for cancer survival, but are still limited in modeling the distribution over genes. Here, we proposed a novel method that can simulate the gene expression distribution at any given time point, including those that are out of the range of the observed time points. In order to model the irregular time series where each patient is one observation, we integrated a neural ordinary differential equation (neural ODE) with cox regression into our framework. We evaluated our method on eight cancer types on TCGA and observed a substantial improvement over existing approaches. Our visualization results and further analysis indicate how our method can be used to simulate expression at the early cancer stage, offering the possibility for early cancer identification.
翻訳日:2021-12-01 14:19:47 公開日:2021-11-30
# 分散マルチエージェントシステムにおける通信のパワー

The Power of Communication in a Distributed Multi-Agent System ( http://arxiv.org/abs/2111.15611v1 )

ライセンス: Link先を確認
Philipp Dominic Siedler(参考訳) シングルエージェント(sa)強化学習システムは、非定常問題に対する優れた再帰性を示している。 しかし、MARL(Multi-Agent Reinforcement Learning)は、SAシステムを概して、スケールするときに超える。 さらに、masystemsは、他人をオブザーバすることで発生するコラボレーションや、コラボレータ間の情報共有に使用される通信システムによって、スーパーパワー化することができる。 本研究では,分散化部分可観測マルコフデシジョンプロセス (dec-pomdps) とグラフニューラルネットワーク (gnns) に基づくコミュニケーション機能を備えた分散ma学習機構を開発した。 機械学習モデルのトレーニングによって消費される時間とエネルギーの最小化と、パフォーマンスの向上は協調MAメカニズムによって達成できる。 実際のシナリオでは, 分散風力発電機を含むオフショア風力発電所において, 集合的効率を最大化することを目的としており, SAシステムと比較すると, MA協力は, 未確認・スケールのシナリオにおいて, トレーニング時間と累積報酬の増大を著しく低減している。

Single-Agent (SA) Reinforcement Learning systems have shown outstanding re-sults on non-stationary problems. However, Multi-Agent Reinforcement Learning(MARL) can surpass SA systems generally and when scaling. Furthermore, MAsystems can be super-powered by collaboration, which can happen through ob-serving others, or a communication system used to share information betweencollaborators. Here, we developed a distributed MA learning mechanism withthe ability to communicate based on decentralised partially observable Markovdecision processes (Dec-POMDPs) and Graph Neural Networks (GNNs). Minimis-ing the time and energy consumed by training Machine Learning models whileimproving performance can be achieved by collaborative MA mechanisms. Wedemonstrate this in a real-world scenario, an offshore wind farm, including a set ofdistributed wind turbines, where the objective is to maximise collective efficiency.Compared to a SA system, MA collaboration has shown significantly reducedtraining time and higher cumulative rewards in unseen and scaled scenarios.
翻訳日:2021-12-01 14:18:32 公開日:2021-11-30
# 独立成分分析における最小識別情報の2次近似

Second-order Approximation of Minimum Discrimination Information in Independent Component Analysis ( http://arxiv.org/abs/2111.15060v1 )

ライセンス: Link先を確認
YunPeng Li(参考訳) ICA(Independent Component Analysis)は、相互に独立したソースを線形混合から回収することを目的としており、F astICAは最も成功したICAアルゴリズムの1つである。 より非線形な関数をネゲントロピー推定に導入することでF astICAの性能を向上させることは妥当であると思われるが、F astICAのオリジナル固定点法(近似ニュートン法)はこの状況下で退化する。 この問題を軽減するために,最小識別情報(MDI)の2次近似に基づく新しい手法を提案する。 本手法のジョイント最大化は,単重最小二乗を最小化し,不動点法による混合行列を求めることで構成する。 実験により,他のICAアルゴリズムと比較して効率を検証した。

Independent Component Analysis (ICA) is intended to recover the mutually independent sources from their linear mixtures, and F astICA is one of the most successful ICA algorithms. Although it seems reasonable to improve the performance of F astICA by introducing more nonlinear functions to the negentropy estimation, the original fixed-point method (approximate Newton method) in F astICA degenerates under this circumstance. To alleviate this problem, we propose a novel method based on the second-order approximation of minimum discrimination information (MDI). The joint maximization in our method is consisted of minimizing single weighted least squares and seeking unmixing matrix by the fixed-point method. Experimental results validate its efficiency compared with other popular ICA algorithms.
翻訳日:2021-12-01 14:18:16 公開日:2021-11-30
# 並列グラフニューラルネットワークを用いたタンパク質-リガンド相互作用の復号

Decoding the Protein-ligand Interactions Using Parallel Graph Neural Networks ( http://arxiv.org/abs/2111.15144v1 )

ライセンス: Link先を確認
Carter Knutson, Mridula Bontha, Jenna A. Bilbrey, and Neeraj Kumar(参考訳) タンパク質-リガンド相互作用(PLI)は生化学的研究の基礎であり、その同定は合理的な治療設計のための生化学的および生化学的性質を推定するために重要である。 現在、これらの特性の実験的キャラクタリゼーションは最も正確な方法であるが、非常に時間がかかり、労働集約的である。 この文脈で多くの計算手法が開発されているが、既存のPLI予測のほとんどは2Dタンパク質配列データに大きく依存している。 本稿では,PLI予測のための知識表現と推論を統合し,専門家の知識に導かれた深層学習を行い,三次元構造データから情報を得る新しい並列グラフニューラルネットワーク(GNN)を提案する。 我々は2つの異なるGNNアーキテクチャを開発し、GNNFはドメイン認識の向上に際し、GNNPは分子間相互作用の事前知識なしで予測できる新しい実装である。 総合評価の結果,GNNPはGNNFの0.979テスト精度とGNNPの0.958テスト精度でリガンドとタンパク質3D構造の二成分相互作用を捕捉し,タンパク質-リガンド複合体の活性を予測することができた。 これらのモデルは、実験的結合親和性を予測するための回帰タスクにさらに適応し、pIC50は薬物の有効性と有効性にとって重要である。 我々はPearson相関係数の0.66と0.65を実験親和性で、GNNFとGNNPのpIC50では0.50と0.51をそれぞれ達成し、同様の2Dシークエンスベースモデルを上回った。 本手法は, 先行候補の行動, 有効性, 生物物理特性を予測するための, 解釈可能かつ説明可能な人工知能(AI)ツールとして機能する。 そこで本研究では,SARS-Cov-2タンパク質ターゲットに対するGNNPの有用性を,大規模複合ライブラリをスクリーニングし,実験結果と比較した。

Protein-ligand interactions (PLIs) are fundamental to biochemical research and their identification is crucial for estimating biophysical and biochemical properties for rational therapeutic design. Currently, experimental characterization of these properties is the most accurate method, however, this is very time-consuming and labor-intensive. A number of computational methods have been developed in this context but most of the existing PLI prediction heavily depends on 2D protein sequence data. Here, we present a novel parallel graph neural network (GNN) to integrate knowledge representation and reasoning for PLI prediction to perform deep learning guided by expert knowledge and informed by 3D structural data. We develop two distinct GNN architectures, GNNF is the base implementation that employs distinct featurization to enhance domain-awareness, while GNNP is a novel implementation that can predict with no prior knowledge of the intermolecular interactions. The comprehensive evaluation demonstrated that GNN can successfully capture the binary interactions between ligand and proteins 3D structure with 0.979 test accuracy for GNNF and 0.958 for GNNP for predicting activity of a protein-ligand complex. These models are further adapted for regression tasks to predict experimental binding affinities and pIC50 is crucial for drugs potency and efficacy. We achieve a Pearson correlation coefficient of 0.66 and 0.65 on experimental affinity and 0.50 and 0.51 on pIC50 with GNNF and GNNP, respectively, outperforming similar 2D sequence-based models. Our method can serve as an interpretable and explainable artificial intelligence (AI) tool for predicted activity, potency, and biophysical properties of lead candidates. To this end, we show the utility of GNNP on SARS-Cov-2 protein targets by screening a large compound library and comparing our prediction with the experimentally measured data.
翻訳日:2021-12-01 14:18:02 公開日:2021-11-30
# (参考訳) 変分オートエンコーダの指数傾斜ガウス前置法

Exponentially Tilted Gaussian Prior for Variational Autoencoder ( http://arxiv.org/abs/2111.15646v1 )

ライセンス: CC BY 4.0
Griffin Floto and Stefan Kremer and Mihai Nica(参考訳) 深層ニューラルネットワークが持つ重要な特性は、これまで見つからなかったデータに対して、ロバストなout of distribution detection(ood)を実行する能力である。 この特性は、現実世界のアプリケーションのためにモデルをデプロイする場合の安全性に不可欠である。 近年の研究では、確率的生成モデルは、このタスクで不十分に動作できることが示されており、トレーニングデータの可能性を見積もることを考えると驚きである。 この問題を軽減するために,変分オートエンコーダ (vae) の指数的に傾いたガウス事前分布を提案する。 この先行で、VAEが自然に割り当てる負のログ可能性のみを用いて、最先端の成果を達成できますが、いくつかの競合メソッドよりも桁違いに高速です。 また,本モデルでは,標準ガウスのvaeよりも鮮明な高品質な画像サンプルを生成できることを示した。 新しい事前分布は、潜在ベクトルの長さと球面半径との差を比較する、kullback leibler divergenceを用いた非常に単純な実装を持つ。

An important propertyfor deep neural networks to possess is the ability to perform robust out of distribution detection (OOD) on previously unseen data. This property is essential for safety purposes when deploying models for real world applications. Recent studies show that probabilistic generative models can perform poorly on this task, which is surprising given that they seek to estimate the likelihood of training data. To alleviate this issue, we propose the exponentially tilted Gaussian prior distribution for the Variational Autoencoder (VAE). With this prior, we are able to achieve state-of-the art results using just the negative log likelihood that the VAE naturally assigns, while being orders of magnitude faster than some competitive methods. We also show that our model produces high quality image samples which are more crisp than that of a standard Gaussian VAE. The new prior distribution has a very simple implementation which uses a Kullback Leibler divergence that compares the difference between a latent vector's length, and the radius of a sphere.
翻訳日:2021-12-01 14:14:47 公開日:2021-11-30
# 半教師付きバウンディングボックスマイニングによるポイントクラウドインスタンスセグメンテーション

Point Cloud Instance Segmentation with Semi-supervised Bounding-Box Mining ( http://arxiv.org/abs/2111.15210v1 )

ライセンス: Link先を確認
Yongbin Liao, Hongyuan Zhu, Yanggang Zhang, Chuangguan Ye, Tao Chen, and Jiayuan Fan(参考訳) ポイントクラウドインスタンスのセグメンテーションは、ディープラーニングの出現によって大きな進歩を遂げた。 しかし、これらの手法は通常、高価で時間を要する高密度なクラウドアノテーションでデータ収集を行う。 アノテーションのコストを軽減するため、ラベルが付かない、あるいはラベルが付かないデータは、まだそのタスクで検討されていない。 本稿では,ラベル付きおよび非ラベル付きバウンディングボックスを監視として使用した,最初の半教師付きポイントクラウドインスタンスセグメンテーションフレームワーク(SPIB)を紹介する。 具体的には、SPIBアーキテクチャは2段階の学習手順を含む。 ステージ1では、摂動一貫性規則化(spcr)を備えた半教師付き設定の下で境界ボックス提案生成ネットワークを訓練する。 正規化は、入力点クラウドに適用される異なる摂動に対して境界ボックス予測の不分散を強制することにより、ネットワーク学習のための自己スーパービジョンを提供する。 ステージ2では、SPCRによるバウンディングボックスの提案をいくつかのサブセットにグループ化し、インスタンスマスクを新しいセマンティックな伝搬モジュールとプロパティ一貫性グラフモジュールで各サブセット内でマイニングする。 さらに,インスタンスマスクを改良するための改良モジュールの新規占有率について紹介する。 挑戦的なScanNet v2データセットに関する大規模な実験は、我々の手法が最近の完全教師付き手法と比較して競争性能を発揮できることを示した。

Point cloud instance segmentation has achieved huge progress with the emergence of deep learning. However, these methods are usually data-hungry with expensive and time-consuming dense point cloud annotations. To alleviate the annotation cost, unlabeled or weakly labeled data is still less explored in the task. In this paper, we introduce the first semi-supervised point cloud instance segmentation framework (SPIB) using both labeled and unlabelled bounding boxes as supervision. To be specific, our SPIB architecture involves a two-stage learning procedure. For stage one, a bounding box proposal generation network is trained under a semi-supervised setting with perturbation consistency regularization (SPCR). The regularization works by enforcing an invariance of the bounding box predictions over different perturbations applied to the input point clouds, to provide self-supervision for network learning. For stage two, the bounding box proposals with SPCR are grouped into some subsets, and the instance masks are mined inside each subset with a novel semantic propagation module and a property consistency graph module. Moreover, we introduce a novel occupancy ratio guided refinement module to refine the instance masks. Extensive experiments on the challenging ScanNet v2 dataset demonstrate our method can achieve competitive performance compared with the recent fully-supervised methods.
翻訳日:2021-12-01 13:59:12 公開日:2021-11-30
# 野生における幻覚的神経放射野

Hallucinated Neural Radiance Fields in the Wild ( http://arxiv.org/abs/2111.15246v1 )

ライセンス: Link先を確認
Xingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Feng Ying, Xuan Wang, Jue Wang(参考訳) Neural Radiance Fields (NeRF)はその印象的なビュー合成能力で最近人気を博している。 本稿では,観光画像群から現実的なNeRFを1日毎に再現する手法として,幻覚型NeRFの問題点について検討する。 既存のソリューションでは、様々な条件下で新しいビューをレンダリングするために、コントロール可能な外観の埋め込みを持つNeRFを採用しているが、見えない外観でビュー一貫性のある画像をレンダリングすることはできない。 この問題を解決するために,H-NeRFと呼ばれる幻覚型NeRFを構築するためのエンドツーエンドフレームワークを提案する。 具体的には,時間変化を処理し,新たな視点に伝達する出現幻覚モジュールを提案する。 観光画像の複雑なオクルージョンを考慮し,静的被写体を正確に分解して視認性を高めるためのアンチオクルージョンモジュールを導入した。 合成データと実際の観光写真コレクションによる実験結果から,本手法は希望する外観を幻覚させるだけでなく,異なる視点からオクルージョンフリーな画像を表示できることが示唆された。 プロジェクトと追加資料はhttps://rover-xingyu.github.io/H-NeRF/で公開されている。

Neural Radiance Fields (NeRF) has recently gained popularity for its impressive novel view synthesis ability. This paper studies the problem of hallucinated NeRF: i.e. recovering a realistic NeRF at a different time of day from a group of tourism images. Existing solutions adopt NeRF with a controllable appearance embedding to render novel views under various conditions, but cannot render view-consistent images with an unseen appearance. To solve this problem, we present an end-to-end framework for constructing a hallucinated NeRF, dubbed as H-NeRF. Specifically, we propose an appearance hallucination module to handle time-varying appearances and transfer them to novel views. Considering the complex occlusions of tourism images, an anti-occlusion module is introduced to decompose the static subjects for visibility accurately. Experimental results on synthetic data and real tourism photo collections demonstrate that our method can not only hallucinate the desired appearances, but also render occlusion-free images from different views. The project and supplementary materials are available at https://rover-xingyu.github.io/H-NeRF/.
翻訳日:2021-12-01 13:58:52 公開日:2021-11-30
# クロスデータベースマイクロ圧縮認識のための有能な顔面領域の探索

Seeking Salient Facial Regions for Cross-Database Micro-Expression Recognition ( http://arxiv.org/abs/2111.15361v1 )

ライセンス: Link先を確認
Xingxun Jiang and Yuan Zong and Wenming Zheng(参考訳) 本稿では,マイクロ表現の学習とテストのサンプルが異なるマイクロ表現データベースに属するデータベース間マイクロ表現認識の研究に焦点を当てる。 トレーニングとテストのマイクロ表現のミスマッチした特徴分布は、最も優れたマイクロ表現法の性能を低下させる。 クロスデータベースのマイクロ表現認識を扱うために,トランスファーグループスパースレグレッション(tgsr)と呼ばれる新しいドメイン適応法を提案する。 tgsrは、トレーニングセットとテストセットの適切な顔局所領域および対応する関係を選択するスパース回帰行列を学習する。 CASME IIおよびSMICデータベースにおけるTGSRモデルの評価を行った。 実験の結果,提案したTGSRは良好な性能を示し,最先端のサブスペース学習に基づくドメイン適応法よりも優れていた。

This paper focuses on the research of cross-database micro-expression recognition, in which the training and test micro-expression samples belong to different microexpression databases. Mismatched feature distributions between the training and testing micro-expression feature degrade the performance of most well-performing micro-expression methods. To deal with cross-database micro-expression recognition, we propose a novel domain adaption method called Transfer Group Sparse Regression (TGSR). TGSR learns a sparse regression matrix for selecting salient facial local regions and the corresponding relationship of the training set and test set. We evaluate our TGSR model in CASME II and SMIC databases. Experimental results show that the proposed TGSR achieves satisfactory performance and outperforms most state-of-the-art subspace learning-based domain adaption methods.
翻訳日:2021-12-01 13:58:34 公開日:2021-11-30
# 会話型eコマースシステムのためのリッチ製品記述の生成

Generating Rich Product Descriptions for Conversational E-commerce Systems ( http://arxiv.org/abs/2111.15298v1 )

ライセンス: Link先を確認
Shashank Kedia, Aditya Mantha, Sneha Gupta, Stephen Guo, Kannan Achan(参考訳) 最近の音声技術の進歩とAmazon Alexa、Apple Siri、Google Homeといったスマートアシスタントの導入により、音声コマンドを通じてさまざまなアプリケーションと対話するユーザが増えています。 eコマース企業は通常、簡潔さが必要なときに、人力で作成するかアルゴリズムで生成した短い商品タイトルをウェブページに表示する。 しかし、これらのタイトルは自然言語とは異なる。 例えば、「Lucky Charms Gluten Free Break-fast Cereal, 20.5 oz a box Lucky Charms Gluten Free」はウェブページに表示でき、音声ベースのテキスト・音声アプリケーションでは同様のタイトルは使用できない。 このような会話システムでは、「運のよいチャームの20.5オンスの箱グルテンフリーシリアル」のような理解しやすい文が好まれる。 ユーザに対して画像や詳細な製品情報を提示できる表示装置と比較して、最も重要な情報を伝える製品の短いタイトルは、音声アシスタントと対話する際に必要である。 e-commerce製品記述コーパスにbert埋め込みを事前トレーニングし、入力されたwebタイトルから短い自然言語タイトルを生成するようにモデルを微調整することで、シーケンシャル・ツー・シーケンスアプローチを提案する。 実世界の産業データセットに関する広範な実験と、モデル出力の人間による評価は、eBERTの要約が同等のベースラインモデルより優れていることを示した。 モデルの有効性のため、このモデルのバージョンは実際の設定でデプロイされている。

Through recent advancements in speech technologies and introduction of smart assistants, such as Amazon Alexa, Apple Siri and Google Home, increasing number of users are interacting with various applications through voice commands. E-commerce companies typically display short product titles on their webpages, either human-curated or algorithmically generated, when brevity is required. However, these titles are dissimilar from natural spoken language. For example, "Lucky Charms Gluten Free Break-fast Cereal, 20.5 oz a box Lucky Charms Gluten Free" is acceptable to display on a webpage, while a similar title cannot be used in a voice based text-to-speech application. In such conversational systems, an easy to comprehend sentence, such as "a 20.5 ounce box of lucky charms gluten free cereal" is preferred. Compared to display devices, where images and detailed product information can be presented to users, short titles for products which convey the most important information, are necessary when interfacing with voice assistants. We propose eBERT, a sequence-to-sequence approach by further pre-training the BERT embeddings on an e-commerce product description corpus, and then fine-tuning the resulting model to generate short, natural, spoken language titles from input web titles. Our extensive experiments on a real-world industry dataset, as well as human evaluation of model output, demonstrate that eBERT summarization outperforms comparable baseline models. Owing to the efficacy of the model, a version of this model has been deployed in real-world setting.
翻訳日:2021-12-01 13:58:23 公開日:2021-11-30
# MAPLE: レイテンシ推定のためのマイクロプロセッサ

MAPLE: Microprocessor A Priori for Latency Estimation ( http://arxiv.org/abs/2111.15106v1 )

ライセンス: Link先を確認
Saad Abbasi, Alexander Wong, and Mohammad Javad Shafiee(参考訳) 現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。 そのため、neural architecture search(nas)アルゴリズムは、これら2つの制約を考慮して、新しいアーキテクチャを生成する。 しかしながら、遅延のような効率の指標は通常、アーキテクチャのレイテンシを計測または予測するためにNASアルゴリズムを必要とするハードウェアに依存している。 評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。 本稿では、転送学習やドメイン適応に頼るのではなく、トレーニング中に事前ハードウェア特性を組み込むことで、新しいハードウェアに一般化するマイクロプロセッサA Priori for Latency Estimation MAPLEを提案する。 MAPLEは、関連するハードウェアパフォーマンスメトリクスを測定し、きめ細かな表現力のあるハードウェア記述子を生成することによって、基盤となるマイクロプロセッサを特徴付ける新しい定量的戦略を利用する。 さらに、提案されたMAPLEは、CPUとGPU間の密結合I/Oと、GPU上でのDNNレイテンシの予測と、GPUハードウェアに供給するCPUからのマイクロプロセッサパフォーマンスハードウェアカウンタの測定によるメリットがある。 ハードウェア記述子としてのこの定量的戦略を通じて、MAPLEは、いくつかのショット適応戦略によって新しいハードウェアに一般化することができる。 実験の結果, 少数のショット適応サンプルを10に増やすと, 最先端法に比べて精度が12%向上することがわかった。 さらに,MAPLEは平均8~10%の精度で,任意の適応サンプルにおいて,関連するベースラインよりも高い精度を示した。

Modern deep neural networks must demonstrate state-of-the-art accuracy while exhibiting low latency and energy consumption. As such, neural architecture search (NAS) algorithms take these two constraints into account when generating a new architecture. However, efficiency metrics such as latency are typically hardware dependent requiring the NAS algorithm to either measure or predict the architecture latency. Measuring the latency of every evaluated architecture adds a significant amount of time to the NAS process. Here we propose Microprocessor A Priori for Latency Estimation MAPLE that does not rely on transfer learning or domain adaptation but instead generalizes to new hardware by incorporating a prior hardware characteristics during training. MAPLE takes advantage of a novel quantitative strategy to characterize the underlying microprocessor by measuring relevant hardware performance metrics, yielding a fine-grained and expressive hardware descriptor. Moreover, the proposed MAPLE benefits from the tightly coupled I/O between the CPU and GPU and their dependency to predict DNN latency on GPUs while measuring microprocessor performance hardware counters from the CPU feeding the GPU hardware. Through this quantitative strategy as the hardware descriptor, MAPLE can generalize to new hardware via a few shot adaptation strategy where with as few as 3 samples it exhibits a 3% improvement over state-of-the-art methods requiring as much as 10 samples. Experimental results showed that, increasing the few shot adaptation samples to 10 improves the accuracy significantly over the state-of-the-art methods by 12%. Furthermore, it was demonstrated that MAPLE exhibiting 8-10% better accuracy, on average, compared to relevant baselines at any number of adaptation samples.
翻訳日:2021-12-01 13:57:31 公開日:2021-11-30
# 深い決定論的政策勾配を用いた連続制御

Continuous Control With Ensemble Deep Deterministic Policy Gradients ( http://arxiv.org/abs/2111.15382v1 )

ライセンス: Link先を確認
Piotr Januszewski, Mateusz Olko, Micha{\l} Kr\'olikowski, Jakub \'Swi\k{a}tkowski, Marcin Andrychowicz, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) deep reinforcement learning(rl)の成長は、この分野に複数のエキサイティングなツールとメソッドをもたらした。 この急速な拡張により、RLツールボックスの個々の要素間の相互作用を理解することが重要である。 我々は,この課題を経験的視点から,連続制御環境で研究することでアプローチする。 We present multiple insights of fundamental nature, including: an average of multiple actors trained from the same data boosts performance; the existing methods are unstable across training runs, epochs of training, and evaluation runs; a commonly used additive action noise is not required for effective training; a strategy based on posterior sampling explores better than the approximated UCB combined with the weighted Bellman backup; the weighted Bellman backup alone cannot replace the clipped double Q-Learning; the critics' initialization plays the major role in ensemble-based actor-critic exploration. 結論として,既存のツールを新たな方法で組み合わせることで,OpenAI Gym MuJoCoの継続的制御タスクに対する最先端の成果を得るために,ED2(Ensemble Deep Deterministic Policy Gradients)メソッドが導入された。 実用面では、ED2は概念的には単純で、コーディングが容易で、既存のRLツールボックス以外の知識を必要としない。

The growth of deep reinforcement learning (RL) has brought multiple exciting tools and methods to the field. This rapid expansion makes it important to understand the interplay between individual elements of the RL toolbox. We approach this task from an empirical perspective by conducting a study in the continuous control setting. We present multiple insights of fundamental nature, including: an average of multiple actors trained from the same data boosts performance; the existing methods are unstable across training runs, epochs of training, and evaluation runs; a commonly used additive action noise is not required for effective training; a strategy based on posterior sampling explores better than the approximated UCB combined with the weighted Bellman backup; the weighted Bellman backup alone cannot replace the clipped double Q-Learning; the critics' initialization plays the major role in ensemble-based actor-critic exploration. As a conclusion, we show how existing tools can be brought together in a novel way, giving rise to the Ensemble Deep Deterministic Policy Gradients (ED2) method, to yield state-of-the-art results on continuous control tasks from OpenAI Gym MuJoCo. From the practical side, ED2 is conceptually straightforward, easy to code, and does not require knowledge outside of the existing RL toolbox.
翻訳日:2021-12-01 13:56:04 公開日:2021-11-30
# Donut: OCRなしの文書理解変換器

Donut: Document Understanding Transformer without OCR ( http://arxiv.org/abs/2111.15664v1 )

ライセンス: Link先を確認
Geewook Kim, Teakgyu Hong, Moonbin Yim, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park(参考訳) 文書画像(例えば請求書)の理解は重要な研究テーマであり、文書処理自動化に多くの応用がある。 深層学習に基づく光学文字認識(OCR)の最新の進歩により、現在のビジュアル文書理解(VDU)システムはOCRに基づいて設計されるようになった。 このようなOCRベースのアプローチは妥当な性能を約束するが、OCRによって引き起こされる致命的な問題、例えば(1)高価な計算コストと(2)OCRエラーの伝播による性能劣化に悩まされる。 本稿では,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 そこで本研究では,大規模文書画像への依存を軽減するために,モデルを事前訓練するタスクと合成文書画像生成手法を提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。 広範な実験と分析を通じて,提案モデルの有効性を実証し,実世界への適用を考察した。

Understanding document images (e.g., invoices) has been an important research topic and has many applications in document processing automation. Through the latest advances in deep learning-based Optical Character Recognition (OCR), current Visual Document Understanding (VDU) systems have come to be designed based on OCR. Although such OCR-based approach promise reasonable performance, they suffer from critical problems induced by the OCR, e.g., (1) expensive computational costs and (2) performance degradation due to the OCR error propagation. In this paper, we propose a novel VDU model that is end-to-end trainable without underpinning OCR framework. To this end, we propose a new task and a synthetic document image generator to pre-train the model to mitigate the dependencies on large-scale real document images. Our approach achieves state-of-the-art performance on various document understanding tasks in public benchmark datasets and private industrial service datasets. Through extensive experiments and analysis, we demonstrate the effectiveness of the proposed model especially with consideration for a real-world application.
翻訳日:2021-12-01 13:55:47 公開日:2021-11-30
# gCastle: 因果発見のためのPythonツールボックス

gCastle: A Python Toolbox for Causal Discovery ( http://arxiv.org/abs/2111.15155v1 )

ライセンス: Link先を確認
Keli Zhang, Shengyu Zhu, Marcus Kalander, Ignavier Ng, Junjian Ye, Zhitang Chen, Lujia Pan(参考訳) $\texttt{gCastle}$は因果構造学習のためのエンドツーエンドのPythonツールボックスである。 シミュレーターまたは実世界のデータセットからデータを生成する機能、データから因果構造を学習し、学習グラフを評価する機能、事前知識挿入、事前の近所選択、偽発見を取り除くための後処理といった有用なプラクティスを提供する。 関連するパッケージと比較すると、$\texttt{gCastle}$は、オプションのGPUアクセラレーションを備えた勾配ベースの因果発見メソッドを含む。 $\texttt{gCastle}$は、コードを直接実験する研究者や、グラフィカルなユーザ干渉を持つ実践者にとって便利なものを提供する。 通信における3つの実世界のデータセットも現在のバージョンで提供されている。 https://github.com/huawei-noah/trustworthyai/tree/master/gcastle}$\texttt{gcastle}$は、apache license 2.0で利用可能である。

$\texttt{gCastle}$ is an end-to-end Python toolbox for causal structure learning. It provides functionalities of generating data from either simulator or real-world dataset, learning causal structure from the data, and evaluating the learned graph, together with useful practices such as prior knowledge insertion, preliminary neighborhood selection, and post-processing to remove false discoveries. Compared with related packages, $\texttt{gCastle}$ includes many recently developed gradient-based causal discovery methods with optional GPU acceleration. $\texttt{gCastle}$ brings convenience to researchers who may directly experiment with the code as well as practitioners with graphical user interference. Three real-world datasets in telecommunications are also provided in the current version. $\texttt{gCastle}$ is available under Apache License 2.0 at \url{https://github.com/huawei-noah/trustworthyAI/tree/master/gcastle}.
翻訳日:2021-12-01 13:55:30 公開日:2021-11-30
# 非定常性による二元独立成分分析

Binary Independent Component Analysis via Non-stationarity ( http://arxiv.org/abs/2111.15431v1 )

ライセンス: Link先を確認
Antti Hyttinen, Vit\'oria Barin-Pacela, Aapo Hyv\"arinen(参考訳) バイナリデータの独立成分分析について考察する。 実際には基本的には、このケースは連続データのためのicaよりも開発がはるかに少ない。 まず,線形混合モデルを連続値の潜在空間に仮定し,次に2値の観測モデルを仮定する。 重要なことに、この情報源は非定常であると仮定するが、これは非ガウス性は本質的にバイナライゼーションによって破壊されるためである。 興味深いことに、モデルは多変量ガウス分布の累積分布関数を利用することで閉形式可能性を実現する。 連続評価の場合とは対照的に、観測変数が少ないモデルでは非識別性が証明され、観測変数の数が増えると実験結果が識別可能であることが示唆される。 本稿では,多変量確率よりも高速に計算可能な,ペアワイズ限界のみを用いる二元ICAの実用的手法を提案する。

We consider independent component analysis of binary data. While fundamental in practice, this case has been much less developed than ICA for continuous data. We start by assuming a linear mixing model in a continuous-valued latent space, followed by a binary observation model. Importantly, we assume that the sources are non-stationary; this is necessary since any non-Gaussianity would essentially be destroyed by the binarization. Interestingly, the model allows for closed-form likelihood by employing the cumulative distribution function of the multivariate Gaussian distribution. In stark contrast to the continuous-valued case, we prove non-identifiability of the model with few observed variables; our empirical results imply identifiability when the number of observed variables is higher. We present a practical method for binary ICA that uses only pairwise marginals, which are faster to compute than the full multivariate likelihood.
翻訳日:2021-12-01 13:54:58 公開日:2021-11-30
# 運転用風力発電所からの多値電力曲線のベイズモデル

Bayesian Modelling of Multivalued Power Curves from an Operational Wind Farm ( http://arxiv.org/abs/2111.15496v1 )

ライセンス: Link先を確認
L.A. Bull, P.A. Gardner, T.J. Rogers, N. Dervilis, E.J. Cross, E. Papatheou, A.E. Maguire, C. Campos, K. Worden(参考訳) パワーカーブは、特定の風力タービンの風速と出力パワーの関係を捉えている。 この機能の正確な回帰モデルは、監視、メンテナンス、設計、計画に有用である。 しかし実際には、測定値は常に理想曲線と一致しない: パワーの削減は(付加的な)機能成分として現れる。 このような多値関係は従来の回帰ではモデル化できず、関連するデータは前処理時に削除される。 現在の研究は、削減電力データの多値関係を推定する代替手法を提案する。 人口ベースアプローチを用いて, 風力発電所内のタービンから記録された信号に対して, 重なり合う確率回帰モデルの混合を適用した。 このモデルは、人口全体にわたる実用的な電力データの正確な表現を提供する。

Power curves capture the relationship between wind speed and output power for a specific wind turbine. Accurate regression models of this function prove useful in monitoring, maintenance, design, and planning. In practice, however, the measurements do not always correspond to the ideal curve: power curtailments will appear as (additional) functional components. Such multivalued relationships cannot be modelled by conventional regression, and the associated data are usually removed during pre-processing. The current work suggests an alternative method to infer multivalued relationships in curtailed power data. Using a population-based approach, an overlapping mixture of probabilistic regression models is applied to signals recorded from turbines within an operational wind farm. The model is shown to provide an accurate representation of practical power data across the population.
翻訳日:2021-12-01 13:54:45 公開日:2021-11-30
# 双曲結び目の符号と尖点幾何学

The signature and cusp geometry of hyperbolic knots ( http://arxiv.org/abs/2111.15323v1 )

ライセンス: Link先を確認
Alex Davies, Andr\'as Juh\'asz, Marc Lackenby and Nenad Tomasev(参考訳) 我々は、3次元球面における双曲結び目の自然斜面と呼ばれる新しい実数値不変量を導入し、カスプ幾何学の観点から定義する。 その結果,2倍の結び目符号と自然勾配は,射影半径の立方体で分割された双曲体積の少なくとも1倍の値で異なることがわかった。 この不等式は機械学習を用いて様々な結び目不変量間の関係を検出することで発見された。 Dehn 手術や 4-ball 属への応用がある。 また、上界が体積の線型関数である不等式の洗練されたバージョンを示し、この傾きは、ノットを奇数の数でリンクする短い測地線に対応する用語によって補正される。

We introduce a new real-valued invariant called the natural slope of a hyperbolic knot in the 3-sphere, which is defined in terms of its cusp geometry. We show that twice the knot signature and the natural slope differ by at most a constant times the hyperbolic volume divided by the cube of the injectivity radius. This inequality was discovered using machine learning to detect relationships between various knot invariants. It has applications to Dehn surgery and to 4-ball genus. We also show a refined version of the inequality where the upper bound is a linear function of the volume, and the slope is corrected by terms corresponding to short geodesics that link the knot an odd number of times.
翻訳日:2021-12-01 13:54:34 公開日:2021-11-30
# 非知覚およびプライバシー保全画像領域からのベッド内人物ポーズ推定

In-Bed Human Pose Estimation from Unseen and Privacy-Preserving Image Domains ( http://arxiv.org/abs/2111.15124v1 )

ライセンス: Link先を確認
Ting Cao, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt-Aristizabal(参考訳) 医療応用はコンピュータビジョンの急速な進歩の恩恵を受けている。 特に患者のモニタリングにおいて、ベッド内姿勢推定は、医療状態評価において潜在的価値を持つ重要な健康関連指標を提供する。 この領域は大きな進歩を遂げているが、咬合時の曖昧さやモデルトレーニングのための大量の手作業によるラベル付きデータの欠如、特にプライバシ保護のサーマル赤外線イメージングのような領域において、非常に興味深い課題である。 データから直接特徴を学習する際の自己指導的手法の有効性を活かして、訓練中に見られるモダリティの欠如から特徴を再構築できるマルチモーダル条件変分オートエンコーダ(MC-VAE)を提案する。 このアプローチはHRNetと組み合わせて、ベッド内ポーズ推定のための単一モード推論を可能にする。 広範な評価を通じて,身体の位置を利用可能なモダリティから効果的に認識し,推定時の複数のモードへのアクセスに大きく依存するベースラインモデルと同等の結果が得られることを示す。 提案フレームワークは,単一ソースからロバストモデルを生成する自己教師型学習に向けた将来の研究を支援し,臨床環境における未知の分布を一般化することを期待している。

Medical applications have benefited from the rapid advancement in computer vision. For patient monitoring in particular, in-bed human posture estimation provides important health-related metrics with potential value in medical condition assessments. Despite great progress in this domain, it remains a challenging task due to substantial ambiguity during occlusions, and the lack of large corpora of manually labeled data for model training, particularly with domains such as thermal infrared imaging which are privacy-preserving, and thus of great interest. Motivated by the effectiveness of self-supervised methods in learning features directly from data, we propose a multi-modal conditional variational autoencoder (MC-VAE) capable of reconstructing features from missing modalities seen during training. This approach is used with HRNet to enable single modality inference for in-bed pose estimation. Through extensive evaluations, we demonstrate that body positions can be effectively recognized from the available modality, achieving on par results with baseline models that are highly dependent on having access to multiple modes at inference time. The proposed framework supports future research towards self-supervised learning that generates a robust model from a single source, and expects it to generalize over many unknown distributions in clinical environments.
翻訳日:2021-12-01 13:52:27 公開日:2021-11-30
# 挙動解析のための横弱重畳震源の自動合成

Automatic Synthesis of Diverse Weak Supervision Sources for Behavior Analysis ( http://arxiv.org/abs/2111.15186v1 )

ライセンス: Link先を確認
Albert Tseng, Jennifer J. Sun, Yisong Yue(参考訳) 大規模なトレーニングセットのためのアノテーションの取得は、特に正確なアノテーションにドメイン知識が必要となる行動分析設定において、高価である。 弱ラベルをタスクレベルのラベル付け機能から基礎的真理ラベルを拡大することにより,アノテーションコストの低減を図る。 しかし、ドメインの専門家は研究課題ごとにラベリング機能を手作りする必要がある。 データ効率のよいタスクレベルのラベリング機能を自動的に合成するフレームワークであるAutoSWAPを提案する。 提案手法の鍵となるのは、再利用可能なドメイン固有言語とドメインレベルのラベリング関数で専門家の知識を効率よく表現することであり、これにより、最先端のプログラム合成技術と小さなラベル付きデータセットを用いてラベル付け関数を生成する。 さらに,最小限のオーバーヘッドで多種多様なラベル関数を直接合成できる構造的多様性コストを提案し,さらにラベル関数データ効率を向上する。 我々はAutoSWAPを3つの行動分析領域で評価し、AutoSWAPが既存の手法より優れていることを示す。 以上の結果から,AutoSWAPはラベル付け機能を自動生成する手段として有効であることが示唆された。

Obtaining annotations for large training sets is expensive, especially in behavior analysis settings where domain knowledge is required for accurate annotations. Weak supervision has been studied to reduce annotation costs by using weak labels from task-level labeling functions to augment ground truth labels. However, domain experts are still needed to hand-craft labeling functions for every studied task. To reduce expert effort, we present AutoSWAP: a framework for automatically synthesizing data-efficient task-level labeling functions. The key to our approach is to efficiently represent expert knowledge in a reusable domain specific language and domain-level labeling functions, with which we use state-of-the-art program synthesis techniques and a small labeled dataset to generate labeling functions. Additionally, we propose a novel structural diversity cost that allows for direct synthesis of diverse sets of labeling functions with minimal overhead, further improving labeling function data efficiency. We evaluate AutoSWAP in three behavior analysis domains and demonstrate that AutoSWAP outperforms existing approaches using only a fraction of the data. Our results suggest that AutoSWAP is an effective way to automatically generate labeling functions that can significantly reduce expert effort for behavior analysis.
翻訳日:2021-12-01 13:52:05 公開日:2021-11-30
# EdiBERT : 画像編集のための生成モデル

EdiBERT, a generative model for image editing ( http://arxiv.org/abs/2111.15264v1 )

ライセンス: Link先を確認
Thibaut Issenhuth, Ugo Tanielian, J\'er\'emie Mary, David Picard(参考訳) コンピュータビジョンの進歩は、様々なタスクで詳細な画像をサンプリングする生成モデルによって、非年齢操作の限界を押し進めている。 しかし、イメージエディションのタスクの多くが類似点を共有しているにもかかわらず、特定のタスクごとに特別なモデルが開発・訓練されることが多い。 ノイズ、インペインティング、画像合成において、常に低品質の画像から現実的な画像を生成することを目指している。 本稿では,画像編集における統一的アプローチへの一歩を踏み出すことを目的とする。 そこで本稿では,ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器であるEdiBERTを提案する。 このような双方向モデルは、画像全体に対して任意のパッチを条件付きで再サンプリングできるので、画像操作に適していると論じる。 このユニークで分かりやすいトレーニング目標を用いて,得られたモデルが,画像のデノイジング,画像補完,画像合成など,さまざまなタスクにおいて最先端のパフォーマンスと一致することを示す。

Advances in computer vision are pushing the limits of im-age manipulation, with generative models sampling detailed images on various tasks. However, a specialized model is often developed and trained for each specific task, even though many image edition tasks share similarities. In denoising, inpainting, or image compositing, one always aims at generating a realistic image from a low-quality one. In this paper, we aim at making a step towards a unified approach for image editing. To do so, we propose EdiBERT, a bi-directional transformer trained in the discrete latent space built by a vector-quantized auto-encoder. We argue that such a bidirectional model is suited for image manipulation since any patch can be re-sampled conditionally to the whole image. Using this unique and straightforward training objective, we show that the resulting model matches state-of-the-art performances on a wide variety of tasks: image denoising, image completion, and image composition.
翻訳日:2021-12-01 13:51:44 公開日:2021-11-30
# 改良ビームサーチと修正安定ランクを有するディープニューラルネットワークの高効率低ランク圧縮

A Highly Effective Low-Rank Compression of Deep Neural Networks with Modified Beam-Search and Modified Stable Rank ( http://arxiv.org/abs/2111.15179v1 )

ライセンス: Link先を確認
Moonjung Eo, Suhyun Kang, Wonjong Rhee(参考訳) 圧縮は、特に計算能力とストレージ容量に制限のあるエッジデバイスにおいて、重要なディープラーニング研究トピックの1つとして現れている。 主な圧縮技術のうち、行列分解による低ランク圧縮には2つの問題があることが知られている。 まず、幅広いチューニングが必要である。 第二に、結果の圧縮性能は一般的に印象的ではない。 本研究では,変形ビーム探索を自動ランク選択に利用し,変形安定ランクを圧縮フレンドリーなトレーニングに利用する低ランク圧縮法を提案する。 結果として得られるBSR(Beam-search and Staable Rank)アルゴリズムは、所望の圧縮比を調整するために1つのハイパーパラメータのみを必要とする。 BSRの精度と圧縮比トレードオフ曲線のパフォーマンスは、これまで知られていた低ランク圧縮法よりも優れていることが判明した。 さらに、BSRは最先端の構造化プルーニング法と同等以上の性能を発揮する。 プルーニングと同様に、BSRはさらなる圧縮のために量子化と簡単に組み合わせることができる。

Compression has emerged as one of the essential deep learning research topics, especially for the edge devices that have limited computation power and storage capacity. Among the main compression techniques, low-rank compression via matrix factorization has been known to have two problems. First, an extensive tuning is required. Second, the resulting compression performance is typically not impressive. In this work, we propose a low-rank compression method that utilizes a modified beam-search for an automatic rank selection and a modified stable rank for a compression-friendly training. The resulting BSR (Beam-search and Stable Rank) algorithm requires only a single hyperparameter to be tuned for the desired compression ratio. The performance of BSR in terms of accuracy and compression ratio trade-off curve turns out to be superior to the previously known low-rank compression methods. Furthermore, BSR can perform on par with or better than the state-of-the-art structured pruning methods. As with pruning, BSR can be easily combined with quantization for an additional compression.
翻訳日:2021-12-01 13:28:19 公開日:2021-11-30
# クラウドソースによる軌道画像:ロバストな道路抽出のための新しいアプローチ

Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction ( http://arxiv.org/abs/2111.15119v1 )

ライセンス: Link先を確認
Lingbo Liu and Zewei Yang and Guanbin Li and Kuo Wang and Tianshui Chen and Liang Lin(参考訳) 陸地リモートセンシング解析は地球科学における重要な研究である。 本研究では,都市開発と拡張推定に広く応用されているリモートセンシングデータから道路の自動抽出という,土地分析の課題に焦点を当てた。 それにもかかわらず、従来の方法では、航空画像の限られた情報のみを利用するか、単にマルチモーダル情報(例えば、車両軌道)を融合させることで、制約のない道路を十分に認識できない。 そこで本研究では,この問題を解決するために,交叉型メッセージ伝達ネットワーク(cmmpnet)と呼ばれる新しいニューラルネットワークフレームワークを提案する。 具体的には、CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。 特に、各モダリティの補完情報を包括的に抽出して動的に伝播させ、他のモダリティの表現を促進する。 3つの実世界のベンチマーク実験により、画像と軌跡データまたは画像とライダーデータを用いて、異なるモーダルデータをブレンドすることによる堅牢な道路抽出に対するCMMPNetの有効性が実証された。 実験結果から,提案手法が現在の最先端手法を大きなマージンで上回っていることを確かめた。

Land remote sensing analysis is a crucial research in earth science. In this work, we focus on a challenging task of land analysis, i.e., automatic extraction of traffic roads from remote sensing data, which has widespread applications in urban development and expansion estimation. Nevertheless, conventional methods either only utilized the limited information of aerial images, or simply fused multimodal information (e.g., vehicle trajectories), thus cannot well recognize unconstrained roads. To facilitate this problem, we introduce a novel neural network framework termed Cross-Modal Message Propagation Network (CMMPNet), which fully benefits the complementary different modal data (i.e., aerial images and crowdsourced trajectories). Specifically, CMMPNet is composed of two deep Auto-Encoders for modality-specific representation learning and a tailor-designed Dual Enhancement Module for cross-modal representation refinement. In particular, the complementary information of each modality is comprehensively extracted and dynamically propagated to enhance the representation of another modality. Extensive experiments on three real-world benchmarks demonstrate the effectiveness of our CMMPNet for robust road extraction benefiting from blending different modal data, either using image and trajectory data or image and Lidar data. From the experimental results, we observe that the proposed approach outperforms current state-of-the-art methods by large margins.
翻訳日:2021-12-01 13:27:46 公開日:2021-11-30
# SmplingAug: 単一画像超解法におけるパッチサンプリング強化の重要性について

SamplingAug: On the Importance of Patch Sampling Augmentation for Single Image Super-Resolution ( http://arxiv.org/abs/2111.15185v1 )

ライセンス: Link先を確認
Shizun Wang, Ming Lu, Kaixin Chen, Jiaming Liu, Xiaoqi Li, Chuang zhang, Ming Wu(参考訳) ディープニューラルネットワーク(DNN)の開発に伴い、DNNに基づく多くの手法がSingle Image Super-Resolution(SISR)のために提案されている。 しかし、既存の手法は主に一様にサンプリングされたLR-HRパッチペアでDNNを訓練するので、画像内の情報パッチを完全に活用できない。 本稿では,単純だが効果的なデータ拡張手法を提案する。 まず,各パッチペアの重要度を評価するためのヒューリスティックな指標を考案する。 さらに,全てのパッチペアの計算コストを削減するため,積分画像によるメトリックの計算を最適化し,約2桁の高速化を実現することを提案する。 トレーニングパッチペアは,本手法の重要度に応じてサンプリングされる。 広範な実験により,我々のサンプリング拡張は,さまざまなスケーリング因子 (x2, x3, x4) をまたいだ,edsr, rcan, rdn, srcnn, espcn を含む様々な sisr アーキテクチャのコンバージェンスを一貫して改善し,性能を向上させることが示されている。 コードはhttps://github.com/littlepure2333/SamplingAugで入手できる。

With the development of Deep Neural Networks (DNNs), plenty of methods based on DNNs have been proposed for Single Image Super-Resolution (SISR). However, existing methods mostly train the DNNs on uniformly sampled LR-HR patch pairs, which makes them fail to fully exploit informative patches within the image. In this paper, we present a simple yet effective data augmentation method. We first devise a heuristic metric to evaluate the informative importance of each patch pair. In order to reduce the computational cost for all patch pairs, we further propose to optimize the calculation of our metric by integral image, achieving about two orders of magnitude speedup. The training patch pairs are sampled according to their informative importance with our method. Extensive experiments show our sampling augmentation can consistently improve the convergence and boost the performance of various SISR architectures, including EDSR, RCAN, RDN, SRCNN and ESPCN across different scaling factors (x2, x3, x4). Code is available at https://github.com/littlepure2333/SamplingAug
翻訳日:2021-12-01 13:27:22 公開日:2021-11-30
# (参考訳) OCR改善のための画像前処理と適応しきい値調整

Image preprocessing and modified adaptive thresholding for improving OCR ( http://arxiv.org/abs/2111.14075v2 )

ライセンス: CC BY 4.0
Rohan Lal Kshetry(参考訳) 本稿では,テキスト中の大きな画素強度を検出し,画像のしきい値化を行い,光学的文字認識(ocr)モデルへの利用を容易にする手法を提案する。 本手法では,画像全体を編集する代わりに,テキスト境界や色以外のすべての特徴を除去する。 本手法では,入力画像からの文字のグレースケール強度をしきい値パラメータの1つとして用いる。 PyTesseract による OCR に次いで, 画像処理を伴わない入力画像を用いて, 開発モデルの性能を検証した。 得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。

In this paper I have proposed a method to find the major pixel intensity inside the text and thresholding an image accordingly to make it easier to be used for optical character recognition (OCR) models. In our method, instead of editing whole image, I are removing all other features except the text boundaries and the color filling them. In this approach, the grayscale intensity of the letters from the input image are used as one of thresholding parameters. The performance of the developed model is finally validated with input images, with and without image processing followed by OCR by PyTesseract. Based on the results obtained, it can be observed that this algorithm can be efficiently applied in the field of image processing for OCR.
翻訳日:2021-12-01 13:26:34 公開日:2021-11-30
# (参考訳) 参考情報を用いた学術論文からのキーワード抽出の促進

Enhancing Keyphrase Extraction from Academic Articles with their Reference Information ( http://arxiv.org/abs/2111.14106v2 )

ライセンス: CC BY 4.0
Chengzhi Zhang, Lei Zhao, Mengyuan Zhao, Yingyi Zhang(参考訳) インターネット技術の発展とともに、情報過剰の現象はますます顕著になりつつある。 ユーザが必要な情報を取得するには、多くの時間が必要です。 しかし、文書情報を高度に要約するキーフレーズは、ユーザが文書を素早く入手し理解するのに役立ちます。 学術資源については、ほとんどの既存の研究が論文のタイトルと要約を通じてキーフレーズを抽出している。 参照中のタイトル情報は、著者が指定したキーフレーズも含んでいる。 そこで本研究では,参照情報を用いて,非教師付き抽出法(tf*idfとtextrank),代表的な教師付き学習アルゴリズム(na\"ive bayes and conditional random field)と教師付きディープラーニングモデル(bilstm-crf)の2つの典型的な手法を適用し,キーフレーズ抽出における基準情報の特定性能を分析する。 原文の拡張の観点からキーフレーズ認識の質を向上させることが期待されている。 実験の結果,基準情報はキーフレーズの自動抽出の精度,リコール,f1をある程度向上できることがわかった。 これは,学術論文のキーフレーズ抽出における参照情報の有用性を示し,自動キーフレーズ抽出に関する新たな研究のアイデアを提供する。

With the development of Internet technology, the phenomenon of information overload is becoming more and more obvious. It takes a lot of time for users to obtain the information they need. However, keyphrases that summarize document information highly are helpful for users to quickly obtain and understand documents. For academic resources, most existing studies extract keyphrases through the title and abstract of papers. We find that title information in references also contains author-assigned keyphrases. Therefore, this article uses reference information and applies two typical methods of unsupervised extraction methods (TF*IDF and TextRank), two representative traditional supervised learning algorithms (Na\"ive Bayes and Conditional Random Field) and a supervised deep learning model (BiLSTM-CRF), to analyze the specific performance of reference information on keyphrase extraction. It is expected to improve the quality of keyphrase recognition from the perspective of expanding the source text. The experimental results show that reference information can increase precision, recall, and F1 of automatic keyphrase extraction to a certain extent. This indicates the usefulness of reference information on keyphrase extraction of academic papers and provides a new idea for the following research on automatic keyphrase extraction.
翻訳日:2021-12-01 13:13:07 公開日:2021-11-30
# (参考訳) 対話における話題遷移の実証的研究

An Empirical Study of Topic Transition in Dialogue ( http://arxiv.org/abs/2111.14188v2 )

ライセンス: CC BY 4.0
Mayank Soni, Brendan Spillane, Emer Gilmartin, Christian Saam, Benjamin R. Cowan, Vincent Wade(参考訳) トピック間の遷移は人間と人間の対話の自然な構成要素である。 トピック・トランジションは何十年にもわたって研究されてきたが、トピック・トランジションの微妙さを調べるためのコーパスに基づく研究はごくわずかである。 そこで,本研究では,スイッチボードコーパスからの215の会話に注釈を付け,長さ,話題遷移数,参加者による話題遷移とターン/トピックの関係について検討した。 本稿では,スイッチボードコーパスにおけるトピック遷移に関する実証研究を行い,さらに,in-domain(id)テストセットでは83%,out-of-domain(ood)テストセットでは82%の精度でトピック遷移をモデル化する。 この研究は、オープンドメインダイアログシステムにおける人間のような話題遷移をエミュレートするのに役立つと期待されている。

Transitioning between topics is a natural component of human-human dialog. Although topic transition has been studied in dialogue for decades, only a handful of corpora based studies have been performed to investigate the subtleties of topic transitions. Thus, this study annotates 215 conversations from the switchboard corpus and investigates how variables such as length, number of topic transitions, topic transitions share by participants and turns/topic are related. This work presents an empirical study on topic transition in switchboard corpus followed by modelling topic transition with a precision of 83% for in-domain(id) test set and 82% on 10 out-of-domain}(ood) test set. It is envisioned that this work will help in emulating human-human like topic transition in open-domain dialog systems.
翻訳日:2021-12-01 12:54:29 公開日:2021-11-30
# (参考訳) 弱い監督によるカスタマーエージェントチャットの顧客感情分析

Customer Sentiment Analysis using Weak Supervision for Customer-Agent Chat ( http://arxiv.org/abs/2111.14282v2 )

ライセンス: CC BY 4.0
Navdeep Jain(参考訳) 弱い監督を用いた感情分析に関する以前の仕事は、主に映画(imdb)、レストラン(yelp)、製品(amazon)といった異なるレビューに焦点を当てていた。 この点に関して未検討の分野の1つは、無料の公開データがないことによるカスタマーサポートにおけるカスタマーエージェントチャットのカスタマチャットデータである。 ここでは、社内データセットの弱さを利用した顧客チャットの感情分析を行う。 我々は、弱い監督力を用いた感情分類器として、事前学習言語モデル(LM)RoBERTaを微調整する。 1) 弱い感情分類器とドメイン固有の語彙ベースのルールをラベル付け関数(LF)として使用することにより、弱い監督力を使ってかなり正確な顧客チャット感情分類器を訓練できることを示す。 2) カスタムトレーニングモデルと市販の Google クラウド NLP API を比較し,感情分析を行った。 LFを使ってドメイン固有の知識を注入することで、監督の弱い場合でも、オフザシェルフの Google クラウド NLP API よりもドメイン固有のユースケースを扱うようにモデルを訓練できることを示す。 3)チャットにおける顧客感情と課題解決との関連性についても分析を行った。

Prior work on sentiment analysis using weak supervision primarily focuses on different reviews such as movies (IMDB), restaurants (Yelp), products (Amazon).~One under-explored field in this regard is customer chat data for a customer-agent chat in customer support due to the lack of availability of free public data. Here, we perform sentiment analysis on customer chat using weak supervision on our in-house dataset. We fine-tune the pre-trained language model (LM) RoBERTa as a sentiment classifier using weak supervision. Our contribution is as follows:1) We show that by using weak sentiment classifiers along with domain-specific lexicon-based rules as Labeling Functions (LF), we can train a fairly accurate customer chat sentiment classifier using weak supervision. 2) We compare the performance of our custom-trained model with off-the-shelf google cloud NLP API for sentiment analysis. We show that by injecting domain-specific knowledge using LFs, even with weak supervision, we can train a model to handle some domain-specific use cases better than off-the-shelf google cloud NLP API. 3) We also present an analysis of how customer sentiment in a chat relates to problem resolution.
翻訳日:2021-12-01 12:46:33 公開日:2021-11-30
# (参考訳) 野生における単眼映像からの人間のパフォーマンスキャプチャ

Human Performance Capture from Monocular Video in the Wild ( http://arxiv.org/abs/2111.14672v2 )

ライセンス: CC BY 4.0
Chen Guo, Xu Chen, Jie Song and Otmar Hilliges(参考訳) 動的に変形する人間の3D形状をキャプチャすることは、VR/AR、自律運転、人間とコンピュータの相互作用など、多くのアプリケーションにとって不可欠である。 既存の方法は、高価なマルチビューイメージングシステムのような、高度に特殊な撮影装置を必要とするか、または、挑戦的なボディポーズに対する堅牢性に欠ける。 そこで本研究では,身体ポーズに挑戦する単眼映像から,追加の入力をすることなく動的3次元人体形状をキャプチャする手法を提案する。 まず,学習した回帰モデルに基づいて,被験者の3次元テンプレートヒューマンモデルを構築した。 次に,このテンプレートモデルの変形を2次元画像観察に基づく挑戦的な身体調音下で追跡する。 本手法は,人工映像データセット3dpwにおける最先端手法よりも優れている。 さらに,iPERデータセットからの映像に対するロバスト性および一般化性の有効性を示す。

Capturing the dynamically deforming 3D shape of clothed human is essential for numerous applications, including VR/AR, autonomous driving, and human-computer interaction. Existing methods either require a highly specialized capturing setup, such as expensive multi-view imaging systems, or they lack robustness to challenging body poses. In this work, we propose a method capable of capturing the dynamic 3D human shape from a monocular video featuring challenging body poses, without any additional input. We first build a 3D template human model of the subject based on a learned regression model. We then track this template model's deformation under challenging body articulations based on 2D image observations. Our method outperforms state-of-the-art methods on an in-the-wild human video dataset 3DPW. Moreover, we demonstrate its efficacy in robustness and generalizability on videos from iPER datasets.
翻訳日:2021-12-01 12:38:58 公開日:2021-11-30
# (参考訳) 動的推論

Dynamic Inference ( http://arxiv.org/abs/2111.14746v2 )

ライセンス: CC BY 4.0
Aolin Xu(参考訳) 従来の統計的推定、あるいは一般に統計的推測は、興味の量の推定が将来の量の進化を変えないという意味で静的である。 しかし、いくつかの逐次推定問題では、推定される量の将来値がその現在の値の推定に依存する状況に遭遇する。 例えば、大手投資家による株価予測、インタラクティブな製品推奨、マルチエージェントシステムの行動予測などだ。 動的推論のような問題を呼ぶことができる。 本研究では,ベイズ確率的枠組みの下でこの問題の定式化を行い,全体の推測損失を最小化するための最適推定戦略を導出する。 最適推定戦略の動作は,ストックトレンド予測と車両挙動予測の2つの例から説明される。 動的推論の基盤となるモデルが未知である場合、動的推論の学習の問題を考えることができる。 この学習問題は、教師付き学習、模倣学習、強化学習など、よく知られた機械学習問題を統一する可能性がある。

Traditional statistical estimation, or statistical inference in general, is static, in the sense that the estimate of the quantity of interest does not change the future evolution of the quantity. In some sequential estimation problems however, we encounter the situation where the future values of the quantity to be estimated depend on the estimate of its current value. Examples include stock price prediction by big investors, interactive product recommendation, and behavior prediction in multi-agent systems. We may call such problems as dynamic inference. In this work, a formulation of this problem under a Bayesian probabilistic framework is given, and the optimal estimation strategy is derived as the solution to minimize the overall inference loss. How the optimal estimation strategy works is illustrated through two examples, stock trend prediction and vehicle behavior prediction. When the underlying models for dynamic inference are unknown, we can consider the problem of learning for dynamic inference. This learning problem can potentially unify several familiar machine learning problems, including supervised learning, imitation learning, and reinforcement learning.
翻訳日:2021-12-01 12:26:16 公開日:2021-11-30
# (参考訳) UBoCo : イベント境界検出のための教師なし境界コントラスト学習

UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection ( http://arxiv.org/abs/2111.14799v2 )

ライセンス: CC BY 4.0
Hyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim(参考訳) ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクである。 自然な人間の知覚とビデオ理解のギャップを埋めるため、解釈可能で意味的に有効なビデオ解析など、さまざまな応用が考えられる。 まだ開発の初期段階では、既存のGABDソルバは、GABDの特徴を無視して、関連ビデオ理解タスクの単純な拡張である。 本稿では,時間的自己相似行列(TSM)を映像表現として用いて,教師なし・教師なしGEBDのための新しいフレームワークを提案する。 新しいRecursive TSM Parsing (RTP)アルゴリズムは、TSMの局所対角パターンを利用して境界を検出する。 我々のフレームワークは教師なし設定と教師なし設定の両方に適用でき、GEBDベンチマークで最先端の性能を達成することができる。 特に, 教師なし手法は, 従来の教師なしモデルよりも優れており, その効果が示唆されている。

Generic Event Boundary Detection (GEBD) is a newly suggested video understanding task that aims to find one level deeper semantic boundaries of events. Bridging the gap between natural human perception and video understanding, it has various potential applications, including interpretable and semantically valid video parsing. Still at an early development stage, existing GEBD solvers are simple extensions of relevant video understanding tasks, disregarding GEBD's distinctive characteristics. In this paper, we propose a novel framework for unsupervised/supervised GEBD, by using the Temporal Self-similarity Matrix (TSM) as the video representation. The new Recursive TSM Parsing (RTP) algorithm exploits local diagonal patterns in TSM to detect boundaries, and it is combined with the Boundary Contrastive (BoCo) loss to train our encoder to generate more informative TSMs. Our framework can be applied to both unsupervised and supervised settings, with both achieving state-of-the-art performance by a huge margin in GEBD benchmark. Especially, our unsupervised method outperforms the previous state-of-the-art "supervised" model, implying its exceptional efficacy.
翻訳日:2021-12-01 12:02:59 公開日:2021-11-30
# SAGCI-System: サンプル効率, 一般化, 構成, インクリメンタルロボット学習を目指して

SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning ( http://arxiv.org/abs/2111.14693v2 )

ライセンス: Link先を確認
Jun Lv, Qiaojun Yu, Lin Shao, Wenhai Liu, Wenqiang Xu, Cewu Lu(参考訳) 人間レベルで様々な環境で膨大なタスクをこなす汎用ロボットを作ることは、非常に複雑である。 ロボットの学習には、サンプル効率、一般化、構成、インクリメンタルが必要である。 本研究では,これらの4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。 本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。 本システムはURDFをロードする学習拡張型微分可能シミュレーションを採用する。 ロボットは対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。 このシミュレーションを利用して,オブジェクト中心とロボット中心の手法を組み合わせた新しいモデルベースrlアルゴリズムを提案する。 本システムは,シミュレーションと実世界の両方において,調音オブジェクト操作を行うために応用する。 広範な実験により,提案手法の有効性が実証された。 補足資料とビデオはhttps://sites.google.com/view/egci.comで入手できる。

Building general-purpose robots to perform an enormous amount of tasks in a large variety of environments at the human level is notoriously complicated. It requires the robot learning to be sample-efficient, generalizable, compositional, and incremental. In this work, we introduce a systematic learning framework called SAGCI-system towards achieving these above four requirements. Our system first takes the raw point clouds gathered by the camera mounted on the robot's wrist as the inputs and produces initial modeling of the surrounding environment represented as a URDF. Our system adopts a learning-augmented differentiable simulation that loads the URDF. The robot then utilizes the interactive perception to interact with the environments to online verify and modify the URDF. Leveraging the simulation, we propose a new model-based RL algorithm combining object-centric and robot-centric approaches to efficiently produce policies to accomplish manipulation tasks. We apply our system to perform articulated object manipulation, both in the simulation and the real world. Extensive experiments demonstrate the effectiveness of our proposed learning framework. Supplemental materials and videos are available on https://sites.google.com/view/egci.
翻訳日:2021-12-01 11:49:47 公開日:2021-11-30
# QMagFace: シンプルで正確な品質認識

QMagFace: Simple and Accurate Quality-Aware Face Recognition ( http://arxiv.org/abs/2111.13475v2 )

ライセンス: Link先を確認
Philipp Terh\"orst, Malte Ihlefeld, Marco Huber, Naser Damer, Florian Kirchbuchner, Kiran Raja, Arjan Kuijper(参考訳) 顔認識システムは、不正確なマッチング決定につながる可能性のある大きな変動(ポーズ、照度、表現など)に対処する必要がある。 これらの変動は、認識のためのサンプルの有用性によって定義される顔画像品質の観点から測定することができる。 顔認識に関する以前の研究は、この貴重な情報を使用しないか、あるいは不連続に品質推定に適合しないかのどちらかである。 本研究では,クオリティ・アウェア比較スコアと,マグニチュード・アウェア角マージン損失に基づく認識モデルを組み合わせた,簡便で効果的な顔認識ソリューション(qmag-face)を提案する。 提案手法は、制約のない状況下での認識性能を高めるために、比較過程におけるモデル固有の顔画像品質を含む。 使用損失による品質と比較スコアの線形性を利用すると,品質認識比較関数は単純かつ高一般化できる。 いくつかの顔認識データベースとベンチマークで実施された実験は、導入された品質認識が認識性能を一貫した改善をもたらすことを示した。 さらに,提案するqmagfaceアプローチは,クロスポーズやクロスエイジ,クロスクオリティといった困難な状況下では特に良好に機能する。 その結果、顔認識ベンチマークでは98.50%がageb、83.95%がxqlfq、98.74%がcfp-fpであった。 QMagFaceのコードが公開

Face recognition systems have to deal with large variabilities (such as different poses, illuminations, and expressions) that might lead to incorrect matching decisions. These variabilities can be measured in terms of face image quality which is defined over the utility of a sample for recognition. Previous works on face recognition either do not employ this valuable information or make use of non-inherently fit quality estimates. In this work, we propose a simple and effective face recognition solution (QMag-Face) that combines a quality-aware comparison score with a recognition model based on a magnitude-aware angular margin loss. The proposed approach includes model-specific face image qualities in the comparison process to enhance the recognition performance under unconstrained circumstances. Exploiting the linearity between the qualities and their comparison scores induced by the utilized loss, our quality-aware comparison function is simple and highly generalizable. The experiments conducted on several face recognition databases and benchmarks demonstrate that the introduced quality-awareness leads to consistent improvements in the recognition performance. Moreover, the proposed QMagFace approach performs especially well under challenging circumstances, such as cross-pose, cross-age, or cross-quality. Consequently, it leads to state-of-the-art performances on several face recognition benchmarks, such as 98.50% on AgeDB, 83.95% on XQLFQ, and 98.74% on CFP-FP. The code for QMagFace is publicly available
翻訳日:2021-12-01 11:49:30 公開日:2021-11-30
# 自然場面におけるケースワイズ排除と深度順序

Instance-wise Occlusion and Depth Orders in Natural Scenes ( http://arxiv.org/abs/2111.14562v2 )

ライセンス: Link先を確認
Hyunmin Lee and Jaesik Park(参考訳) 本稿では、3次元空間におけるインスタンスの空間的関係を理解するために使用できるinstaorderという新しいデータセットを提案する。 データセットは、101kの自然シーンにおけるクラスラベルインスタンスの幾何順序付けの2.9mアノテーションで構成されている。 シーンは,(1)咬合・咬合を識別する閉塞順序と,(2)カメラから相対距離を考慮した順序関係を記述する深さ順序について,3,659人の群集労働者によって注釈された。 データセットは同じインスタンスに対して2種類の順序の合同アノテーションを提供し、閉塞順序と深さ順序が相補的であることを発見した。 また,最先端手法よりも優れているinstaordernetと呼ばれる幾何学的順序予測ネットワークも導入する。 さらに,MiDaSのインスタンス単位の深度予測精度を高めるために,幾何的順序損失を用いたInstaDepthNetを提案する。 これらの幾何学的シーン理解への貢献は、様々なコンピュータビジョンタスクの精度を向上させるのに役立つ。

In this paper, we introduce a new dataset, named InstaOrder, that can be used to understand the spatial relationships of instances in a 3D space. The dataset consists of 2.9M annotations of geometric orderings for class-labeled instances in 101K natural scenes. The scenes were annotated by 3,659 crowd-workers regarding (1) occlusion order that identifies occluder/occludee and (2) depth order that describes ordinal relations that consider relative distance from the camera. The dataset provides joint annotation of two kinds of orderings for the same instances, and we discover that the occlusion order and depth order are complementary. We also introduce a geometric order prediction network called InstaOrderNet, which is superior to state-of-the-art approaches. Moreover, we propose InstaDepthNet that uses auxiliary geometric order loss to boost the instance-wise depth prediction accuracy of MiDaS. These contributions to geometric scene understanding will help to improve the accuracy of various computer vision tasks.
翻訳日:2021-12-01 11:49:08 公開日:2021-11-30
# 教師なし異常検出のためのインペイントラジオグラフィー画像

In-painting Radiography Images for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2111.13495v2 )

ライセンス: Link先を確認
Tiange Xiang, Yongyi Lu, Alan L. Yuille, Chaoyi Zhang, Weidong Cai, Zongwei Zhou(参考訳) 本研究では,X線画像(SQUIDと略す)から異常を描画・検出するための空間認識メモリキューを提案する。 放射線画像撮影プロトコルは特定の身体領域に焦点をあてるため、非常に類似した画像が生成され、患者全体の解剖学的構造が繰り返される。 この構造化情報を活用するため、SQUIDは、新しいメモリキューと、特徴空間における新しいインペイントブロックで構成される。 SQUIDは, 微細な解剖学的構造を逐次パターンに分類でき, 推測では画像中の異常(見えない/修正されたパターン)を識別できる。 SQUIDは、2つの胸部X線ベンチマークデータセットで5ポイント以上、教師なし異常検出の最先端を越えている。 さらに,胸部解剖学における空間相関と一貫した形状を合成する新しいデータセット (DigitAnatomy) も作成した。 DigitAnatomyは,特にX線撮影において,異常検出法の開発,評価,解釈を促進できることを期待している。

We propose space-aware memory queues for in-painting and detecting anomalies from radiography images (abbreviated as SQUID). Radiography imaging protocols focus on particular body regions, therefore producing images of great similarity and yielding recurrent anatomical structures across patients. To exploit this structured information, our SQUID consists of a new Memory Queue and a novel in-painting block in the feature space. We show that SQUID can taxonomize the ingrained anatomical structures into recurrent patterns; and in the inference, SQUID can identify anomalies (unseen/modified patterns) in the image. SQUID surpasses the state of the art in unsupervised anomaly detection by over 5 points on two chest X-ray benchmark datasets. Additionally, we have created a new dataset (DigitAnatomy), which synthesizes the spatial correlation and consistent shape in chest anatomy. We hope DigitAnatomy can prompt the development, evaluation, and interpretability of anomaly detection methods, particularly for radiography imaging.
翻訳日:2021-12-01 11:48:52 公開日:2021-11-30
# LiVLR:ビデオ質問応答のための軽量ビジュアル言語推論フレームワーク

LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question Answering ( http://arxiv.org/abs/2111.14547v2 )

ライセンス: Link先を確認
Jingjing Jiang, Ziyi Liu, and Nanning Zheng(参考訳) ビデオ質問回答(Video QA)は,マルチモーダルなビデオコンテンツを理解する上で,与えられた質問に正しく答えることを目的としている。 ビデオ理解の観点からは、ビデオQAフレームワークは、様々な意味レベルでビデオコンテンツを理解し、多様なビデオコンテンツを柔軟に統合し、質問関連コンテンツを蒸留する必要がある。 そこで本研究では,軽量な視覚言語推論フレームワークLiVLRを提案する。 特に、LiVLRは、まずグラフベースの視覚および言語エンコーダを使用して、多義的な視覚および言語表現を得る。 その後、得られた表現は、考案された多様性を意識した視覚言語推論モジュール(DaVL)と統合される。 davlは、異なる種類の表現の違いを考慮し、有効で一般的な表現統合法である質問関連表現を生成する際に、異なる種類の表現の重要性を柔軟に調整することができる。 提案するLiVLRは軽量で,MRSVTT-QAとKnowIT VQAの2つのベンチマークで性能上の優位性を示す。 広範なアブレーション研究はlivlr鍵成分の有効性を示している。

Video Question Answering (VideoQA), aiming to correctly answer the given question based on understanding multi-modal video content, is challenging due to the rich video content. From the perspective of video understanding, a good VideoQA framework needs to understand the video content at different semantic levels and flexibly integrate the diverse video content to distill question-related content. To this end, we propose a Lightweight Visual-Linguistic Reasoning framework named LiVLR. Specifically, LiVLR first utilizes the graph-based Visual and Linguistic Encoders to obtain multi-grained visual and linguistic representations. Subsequently, the obtained representations are integrated with the devised Diversity-aware Visual-Linguistic Reasoning module (DaVL). The DaVL considers the difference between the different types of representations and can flexibly adjust the importance of different types of representations when generating the question-related joint representation, which is an effective and general representation integration method. The proposed LiVLR is lightweight and shows its performance advantage on two VideoQA benchmarks, MRSVTT-QA and KnowIT VQA. Extensive ablation studies demonstrate the effectiveness of LiVLR key components.
翻訳日:2021-12-01 11:46:57 公開日:2021-11-30
# 医用画像分類のための弱教師付きジェネレーティブ・アドバイサル・ネットワーク

Weakly-supervised Generative Adversarial Networks for medical image classification ( http://arxiv.org/abs/2111.14605v2 )

ライセンス: Link先を確認
Jiawei Mao, Xuesong Yin, Yuanqi Chang, Qi Huang(参考訳) 弱い教師付き学習は近年、一般的な技術となっている。 本稿では,偽画像やマスク画像を生成するためにラベル無しで少数の実画像しか使用せず,トレーニングセットのサンプルサイズを拡大する,weakly supervised generative adversarial networks(wsgan)と呼ばれる新しい医用画像分類アルゴリズムを提案する。 まず,mixmatchと組み合わせて偽画像とラベルなし画像の擬似ラベルを生成し,分類を行う。 第2に, 分類精度を高めるために, コントラスト学習と自己着脱機構を導入する。 第三に、モード崩壊の問題は循環的一貫性損失によってよく解決される。 最後に,グローバルおよびローカルな分類器を設計し,分類に必要な重要な情報と相互に補完する。 4つの医用画像データセットによる実験結果から,WSGANはラベル付きおよびラベルなしの少ないデータを用いて比較的高い学習性能を得ることができることが示された。 例えば、WSGANの分類精度は、OCTデータセット上の100のラベル付き画像と1000のラベルなし画像を持つ第2級MIXMATCHの分類精度よりも11%高い。 また,本アルゴリズムの有効性を検証するため,アブレーション実験を行った。

Weakly-supervised learning has become a popular technology in recent years. In this paper, we propose a novel medical image classification algorithm, called Weakly-Supervised Generative Adversarial Networks (WSGAN), which only uses a small number of real images without labels to generate fake images or mask images to enlarge the sample size of the training set. First, we combine with MixMatch to generate pseudo labels for the fake images and unlabeled images to do the classification. Second, contrastive learning and self-attention mechanism are introduced into the proposed problem to enhance the classification accuracy. Third, the problem of mode collapse is well addressed by cyclic consistency loss. Finally, we design global and local classifiers to complement each other with the key information needed for classification. The experimental results on four medical image datasets show that WSGAN can obtain relatively high learning performance by using few labeled and unlabeled data. For example, the classification accuracy of WSGAN is 11% higher than that of the second-ranked MIXMATCH with 100 labeled images and 1000 unlabeled images on the OCT dataset. In addition, we also conduct ablation experiments to verify the effectiveness of our algorithm.
翻訳日:2021-12-01 11:46:38 公開日:2021-11-30
# 確率的二値最適化のための暗黙差分法

Amortized Implicit Differentiation for Stochastic Bilevel Optimization ( http://arxiv.org/abs/2111.14580v2 )

ライセンス: Link先を確認
Michael Arbel and Julien Mairal(参考訳) 本研究では,内部レベルの目標が強凸である場合,確率的および決定論的設定の両方において,二階最適化問題を解決するアルゴリズムのクラスについて検討する。 具体的には, 暗黙的微分に基づくアルゴリズムを考察し, 正確な勾配の推定を償却するためにウォームスタート戦略を利用する。 次に,特異摂動系(habets, 1974)の研究に触発された統一的理論的枠組みを導入し,そのような不定形化アルゴリズムを解析した。 このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセスできるオラクルメソッドの計算複雑性と一致し、2段階最適化のための既存の多くの結果より優れていることを示す。 これらの結果を合成実験で示し,数千変数を含む超パラメータ最適化実験におけるアルゴリズムの有効性を実証する。

We study a class of algorithms for solving bilevel optimization problems in both stochastic and deterministic settings when the inner-level objective is strongly convex. Specifically, we consider algorithms based on inexact implicit differentiation and we exploit a warm-start strategy to amortize the estimation of the exact gradient. We then introduce a unified theoretical framework inspired by the study of singularly perturbed systems (Habets, 1974) to analyze such amortized algorithms. By using this framework, our analysis shows these algorithms to match the computational complexity of oracle methods that have access to an unbiased estimate of the gradient, thus outperforming many existing results for bilevel optimization. We illustrate these findings on synthetic experiments and demonstrate the efficiency of these algorithms on hyper-parameter optimization experiments involving several thousands of variables.
翻訳日:2021-12-01 11:46:17 公開日:2021-11-30