このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220115となっている論文です。

PDF登録状況(公開日: 20220115)

TitleAuthorsAbstract論文公表日・翻訳日
# 高次元ブラックボックス最適化のための適応確率勾配自由アプローチ

An adaptive stochastic gradient-free approach for high-dimensional blackbox optimization ( http://arxiv.org/abs/2006.10887v2 )

ライセンス: Link先を確認
Anton Dereventsov, Clayton G. Webster, Joseph D. Daws Jr(参考訳) 本研究では,関数評価に基づく高次元非凸最適化問題に対する適応確率勾配(ASGF)手法を提案する。 勾配のサロゲートを生成する対象関数の方向ガウス平滑化を行い,損失景観の非局所情報を利用することで,局所視能の悪さを回避する。 決定論的二次スキームを適用すると、サンプル効率が高く、スペクトル精度を達成できる非常にスケーラブルな技術が得られる。 各ステップでは、主に滑らかな勾配のサロゲートに従って、ランダムに探索方向を生成します。 これにより、十分な空間探索を維持しながら勾配方向の活用が可能となり、グローバルな極端への収束を加速する。 さらに、全てのハイパーパラメータの値を適応的に調整するために、Lipschitz定数の局所近似を用いて、大規模な学習タスクに適用する場合にしばしば必要とされる現在のアルゴリズムの注意深い微調整を除去する。 したがって、ASGF戦略は、他の勾配のない方法(いわゆる「進化的戦略」を含む)と比較して高次元非凸最適化問題の解法において大きな改善をもたらすとともに、目的関数の勾配情報に依存する反復的アプローチも提供する。 本稿では, ベンチマークグローバル最適化問題と強化学習タスクに関する比較数値研究を行い, 本手法の性能改善について述べる。

In this work, we propose a novel adaptive stochastic gradient-free (ASGF) approach for solving high-dimensional nonconvex optimization problems based on function evaluations. We employ a directional Gaussian smoothing of the target function that generates a surrogate of the gradient and assists in avoiding bad local optima by utilizing nonlocal information of the loss landscape. Applying a deterministic quadrature scheme results in a massively scalable technique that is sample-efficient and achieves spectral accuracy. At each step we randomly generate the search directions while primarily following the surrogate of the smoothed gradient. This enables exploitation of the gradient direction while maintaining sufficient space exploration, and accelerates convergence towards the global extrema. In addition, we make use of a local approximation of the Lipschitz constant in order to adaptively adjust the values of all hyperparameters, thus removing the careful fine-tuning of current algorithms that is often necessary to be successful when applied to a large class of learning tasks. As such, the ASGF strategy offers significant improvements when solving high-dimensional nonconvex optimization problems when compared to other gradient-free methods (including the so called "evolutionary strategies") as well as iterative approaches that rely on the gradient information of the objective function. We illustrate the improved performance of this method by providing several comparative numerical studies on benchmark global optimization problems and reinforcement learning tasks.
翻訳日:2022-11-19 14:25:44 公開日:2022-01-15
# ターゲットVAE:因果推論のための変分学習と目標学習

Targeted VAE: Variational and Targeted Learning for Causal Inference ( http://arxiv.org/abs/2009.13472v5 )

ライセンス: Link先を確認
Matthew James Vowels and Necati Cihan Camgoz and Richard Bowden(参考訳) 観察データによる因果推論の実施は、医療、広告、マーケティング、政策作成など、幅広いタスクにおいて極めて有用である。 観察データを用いた因果推論の実施には2つの重要な課題がある: 治療代行不均一性 (\textit{i.e.}, 治療群と未治療群の違い) および反ファクトデータの欠如 (治療を受けた個人が治療を受けなかった場合、何が起こったか分からない) である。 構造化推論と目標学習を組み合わせることで,この2つの課題に対処した。 構造面では, 関節分布をリスク, コンバウンディング, インストゥルメンタル, 雑多な要因に分解し, 目標学習においては, 残留バイアスを低減するために, 影響曲線から導出した正則化器を適用する。 アブレーション調査を行い、ベンチマークデータセットの評価により、TVAEが競争力を持ち、アートパフォーマンスの状態を実証した。

Undertaking causal inference with observational data is incredibly useful across a wide range of tasks including the development of medical treatments, advertisements and marketing, and policy making. There are two significant challenges associated with undertaking causal inference using observational data: treatment assignment heterogeneity (\textit{i.e.}, differences between the treated and untreated groups), and an absence of counterfactual data (\textit{i.e.}, not knowing what would have happened if an individual who did get treatment, were instead to have not been treated). We address these two challenges by combining structured inference and targeted learning. In terms of structure, we factorize the joint distribution into risk, confounding, instrumental, and miscellaneous factors, and in terms of targeted learning, we apply a regularizer derived from the influence curve in order to reduce residual bias. An ablation study is undertaken, and an evaluation on benchmark datasets demonstrates that TVAE has competitive and state of the art performance.
翻訳日:2022-10-13 20:38:59 公開日:2022-01-15
# Labeling Trick:マルチノード表現学習におけるグラフニューラルネットワークの利用の理論

Labeling Trick: A Theory of Using Graph Neural Networks for Multi-Node Representation Learning ( http://arxiv.org/abs/2010.16103v5 )

ライセンス: Link先を確認
Muhan Zhang, Pan Li, Yinglong Xia, Kai Wang, Long Jin(参考訳) 本稿では,多ノード表現学習におけるグラフニューラルネットワーク(GNN)の利用理論について述べる(リンクなど複数のノードの集合に対する表現の学習に関心がある)。 GNNは単一ノード表現を学習するために設計されている。 複数のノードを含むノード集合表現を学習したい場合、GNNが取得した単一ノード表現を直接結合ノード集合表現に集約する、という従来の手法が一般的である。 本稿では,ノード集合内のノード間の依存を捕捉できないという,そのようなアプローチの基本的制約を示し,個々のノード表現を直接集約することは,複数のノードに対して効果的な共同表現に繋がらないと主張している。 次に,SEAL,Distance Encoding,ID-GNNなど,従来のマルチノード表現学習の成功例について述べる。 これらの手法は、gnnを適用する前に、まずターゲットノードセットとの関係に基づいてグラフ内のノードをラベル付けする。 そして、ラベル付きグラフで得られたノード表現をノード集合表現に集約する。 内部機構を調べることで、これらのノードラベリング技術を単一の最も一般的な形式 -- ラベル付けトリックに統一します。 ラベル付けトリックにより、十分に表現力のあるGNNは最も表現力のあるノード集合表現を学習し、原則としてノード集合上の共同学習タスクを解く。 重要な2ノード表現学習タスクであるリンク予測実験を行い,その理論を検証した。 本研究は,従来のノードラベル方式の優れた性能を説明し,GNNを用いたマルチノード表現学習の理論的基礎を確立する。

In this paper, we provide a theory of using graph neural networks (GNNs) for multi-node representation learning (where we are interested in learning a representation for a set of more than one node, such as link). We know that GNN is designed to learn single-node representations. When we want to learn a node set representation involving multiple nodes, a common practice in previous works is to directly aggregate the single-node representations obtained by a GNN into a joint node set representation. In this paper, we show a fundamental constraint of such an approach, namely the inability to capture the dependence between nodes in the node set, and argue that directly aggregating individual node representations does not lead to an effective joint representation for multiple nodes. Then, we notice that a few previous successful works for multi-node representation learning, including SEAL, Distance Encoding, and ID-GNN, all used node labeling. These methods first label nodes in the graph according to their relationships with the target node set before applying a GNN. Then, the node representations obtained in the labeled graph are aggregated into a node set representation. By investigating their inner mechanisms, we unify these node labeling techniques into a single and most general form -- labeling trick. We prove that with labeling trick a sufficiently expressive GNN learns the most expressive node set representations, thus in principle solves any joint learning tasks over node sets. Experiments on one important two-node representation learning task, link prediction, verified our theory. Our work explains the superior performance of previous node-labeling-based methods, and establishes a theoretical foundation of using GNNs for multi-node representation learning.
翻訳日:2022-10-01 17:12:48 公開日:2022-01-15
# 画像ベース医療レポート作成における技量とNLP測定値の検査

Inspecting state of the art performance and NLP metrics in image-based medical report generation ( http://arxiv.org/abs/2011.09257v3 )

ライセンス: Link先を確認
Pablo Pino, Denis Parra, Pablo Messina, Cecilia Besa, Sergio Uribe(参考訳) 近年,画像検査を入力としたレポート作成の問題に対処するために,いくつかのディープラーニングアーキテクチャが提案されている。 ほとんどの研究は、標準自然言語処理(NLP)メトリクス(BLEU、ROUGEなど)を使用して生成されたレポートを評価し、著しい進歩を報告している。 本稿では,SOTA(State of the Art)モデルと弱いベースラインを比較して,この進歩を対比する。 従来のNLP測定値では,SOTA性能に近い単純かつ単純なアプローチが得られた。 本研究は, 臨床検査の精度を正確に評価するためには, 医師がこの目的に貢献することが理想である。

Several deep learning architectures have been proposed over the last years to deal with the problem of generating a written report given an imaging exam as input. Most works evaluate the generated reports using standard Natural Language Processing (NLP) metrics (e.g. BLEU, ROUGE), reporting significant progress. In this article, we contrast this progress by comparing state of the art (SOTA) models against weak baselines. We show that simple and even naive approaches yield near SOTA performance on most traditional NLP metrics. We conclude that evaluation methods in this task should be further studied towards correctly measuring clinical accuracy, ideally involving physicians to contribute to this end.
翻訳日:2022-09-24 03:20:16 公開日:2022-01-15
# 統計的学習におけるリスクモノモニティ

Risk-Monotonicity in Statistical Learning ( http://arxiv.org/abs/2011.14126v5 )

ライセンス: Link先を確認
Zakaria Mhammedi(参考訳) データの獲得は機械学習の多くの応用において難しい課題であり、データポイントの増加とともに人口リスクが単調に減少(パフォーマンス向上)することを望んでいるのは当然である。 意外なことに、これは経験的リスクを最小限に抑える最も標準的なアルゴリズムでさえ、そうではない。 トレーニングにおけるリスクと不安定性の非単調な振る舞いは、二重降下の記述の下で人気のある深層学習パラダイムに現れている。 これらの問題は、現在の学習アルゴリズムの理解と一般化の欠如を浮き彫りにしている。 したがって、この懸念を追求し、そのような行動を特徴付けることが不可欠である。 本稿では,弱仮定下での一般統計学習における最初の一貫性とリスクモノトニック(高確率)アルゴリズムを導出し,その結果,リスク曲線の非モノトニックな振る舞いを回避する方法について,viering et al. 2019 が提起したいくつかの疑問に答える。 さらに, リスク単調性は, 必ずしも過大なリスク率を犠牲にしてはならないことを示した。 これを達成するために、martingale差分列のような特定の非i.i.d.過程に対する独立関心の、バーンスタインのような新しい経験的濃度不等式を導出する。

Acquisition of data is a difficult task in many applications of machine learning, and it is only natural that one hopes and expects the population risk to decrease (better performance) monotonically with increasing data points. It turns out, somewhat surprisingly, that this is not the case even for the most standard algorithms that minimize the empirical risk. Non-monotonic behavior of the risk and instability in training have manifested and appeared in the popular deep learning paradigm under the description of double descent. These problems highlight the current lack of understanding of learning algorithms and generalization. It is, therefore, crucial to pursue this concern and provide a characterization of such behavior. In this paper, we derive the first consistent and risk-monotonic (in high probability) algorithms for a general statistical learning setting under weak assumptions, consequently answering some questions posed by Viering et al. 2019 on how to avoid non-monotonic behavior of risk curves. We further show that risk monotonicity need not necessarily come at the price of worse excess risk rates. To achieve this, we derive new empirical Bernstein-like concentration inequalities of independent interest that hold for certain non-i.i.d.~processes such as Martingale Difference Sequences.
翻訳日:2022-09-19 19:20:23 公開日:2022-01-15
# (参考訳) EXSeQETIC:eQETICモデルの実装を支援するエキスパートシステム

EXSeQETIC: Expert System to Support the Implementation of eQETIC Model ( http://arxiv.org/abs/2201.13232v1 )

ライセンス: CC BY 4.0
Rogerio Rossi and Pollyana Notagiarcomo(参考訳) デジタル教育ソリューションは、高品質な機能を必要とするものが増えています。 この意味では、標準とモデルは、政府、協会、研究者によって提供され、品質管理と評価のセッションで最も使われている。 eqeticモデルは、デジタル教育ソリューションの開発と維持のために品質管理を好む継続的プロセス改善のアプローチに従って構築された。 本稿では,eQETICモデルの実装を支援するための2つのエキスパートシステムについて述べる。 2種類のシェル(SINTA/UFCとe2gLite/eXpertise2go)に基づいて開発されたこのシステムは,これらのタイプのソリューションを開発し,eQETICモデルによって提案されるルールの実装において,それらが提供するサポートについて肯定的な結果を示した専門家によって使用された。

The digital educational solutions are increasingly used demanding high quality functionalities. In this sense, standards and models are made available by governments, associations, and researchers being most used in quality control and assessment sessions. The eQETIC model was built according to the approach of continuous process improvement favoring the quality management for development and maintenance of digital educational solutions. This article presents two expert systems to support the implementation of eQETIC model and demonstrates that such systems are able to support users during the model implementation. Developed according to two types of shells (SINTA/UFC and e2gLite/eXpertise2go), the systems were used by a professional who develops these type of solutions and showed positive results regarding the support offered by them in implementing the rules proposed by eQETIC model.
翻訳日:2022-02-06 12:29:12 公開日:2022-01-15
# (参考訳) 食品レビューとレコメンデーションのための機械学習

Machine Learning for Food Review and Recommendation ( http://arxiv.org/abs/2201.10978v1 )

ライセンス: CC BY 4.0
Tan Khang Le and Siu Cheung Hui(参考訳) 食品レビューとレコメンデーションは、常にオンライン食品サービスウェブサイトにとって重要である。 しかし、異なる文脈や意味に圧倒される可能性が高いため、食品の見直しや推奨は簡単ではない。 本稿では,感情分析,自動レビュータグ生成,食品レビューの検索といった問題に対処するために,さまざまなディープラーニング手法を用いる。 我々は,南陽工業大学(NTU)において,食品選択を支援するさまざまな深層学習アプローチを取り入れた,NTU Food HunterというWebベースの食品レビューシステムを開発することを提案する。 まず、食品レビューの感情分析システムにBERTおよびLSTM深層学習モデルを実装した。 そこで我々は,POSタグと依存性解析に基づくレビュータグ生成のためのレビューコンテンツから,形容詞と名詞のペアを自動的に識別し抽出するPOSアルゴリズムを開発した。 最後に,検索結果の再ランク付けのためにranknetモデルをトレーニングし,solrベースの食品レビュー検索システムにおける精度を向上させる。 実験の結果,本提案手法は実世界の問題に適用できる可能性が示唆された。

Food reviews and recommendations have always been important for online food service websites. However, reviewing and recommending food is not simple as it is likely to be overwhelmed by disparate contexts and meanings. In this paper, we use different deep learning approaches to address the problems of sentiment analysis, automatic review tag generation, and retrieval of food reviews. We propose to develop a web-based food review system at Nanyang Technological University (NTU) named NTU Food Hunter, which incorporates different deep learning approaches that help users with food selection. First, we implement the BERT and LSTM deep learning models into the system for sentiment analysis of food reviews. Then, we develop a Part-of-Speech (POS) algorithm to automatically identify and extract adjective-noun pairs from the review content for review tag generation based on POS tagging and dependency parsing. Finally, we also train a RankNet model for the re-ranking of the retrieval results to improve the accuracy in our Solr-based food reviews search system. The experimental results show that our proposed deep learning approaches are promising for the applications of real-world problems.
翻訳日:2022-01-30 13:16:38 公開日:2022-01-15
# (参考訳) 超弾性と粘弾性の深層学習エネルギー法

A deep learning energy method for hyperelasticity and viscoelasticity ( http://arxiv.org/abs/2201.08690v1 )

ライセンス: CC BY 4.0
Diab W. Abueidda, Seid Koric, Rashid Abu Al-Rub, Corey M. Parrott, Kai A. James and Nahil A. Sobh(参考訳) ポテンシャルエネルギーの定式化と深層学習を融合して超弾性・粘弾性材料の変形を規定する偏微分方程式を解く。 提案したDeep Energy Method (DEM) は自己完結型でメッシュフリーである。 有限要素法のような古典的数値法で時間を要するトレーニングデータ生成を必要とせずに、3次元の機械的応答を正確に捉えることができる。 モデルが適切に訓練されると、応答は物理領域の任意の時点でほぼ瞬時に達成され、空間座標が与えられる。 したがって、深層エネルギー法は、材料や構造系の機械的変形やその他の物理的現象を記述する偏微分方程式を解くための有望な単独の方法である可能性がある。

The potential energy formulation and deep learning are merged to solve partial differential equations governing the deformation in hyperelastic and viscoelastic materials. The presented deep energy method (DEM) is self-contained and meshfree. It can accurately capture the three-dimensional (3D) mechanical response without requiring any time-consuming training data generation by classical numerical methods such as the finite element method. Once the model is appropriately trained, the response can be attained almost instantly at any point in the physical domain, given its spatial coordinates. Therefore, the deep energy method is potentially a promising standalone method for solving partial differential equations describing the mechanical deformation of materials or structural systems and other physical phenomena.
翻訳日:2022-01-30 13:08:19 公開日:2022-01-15
# ヘッドセットのリアルタイム3d物体検出

Realtime 3D Object Detection for Headsets ( http://arxiv.org/abs/2201.08812v1 )

ライセンス: Link先を確認
Yongjie Guan and Xueyu Hou and Nan Wu and Bo Han and Tao Han(参考訳) モバイルヘッドセットは、3Dの物理的環境を理解して、AR/MR(AR/MR)の真に没入的な体験を提供する必要がある。 しかし、それらの小さなフォームファクターと限られた計算リソースは、リアルタイムの3dビジョンアルゴリズムの実行を非常に困難にしている。 本稿では,モバイルヘッドセット上でのAR/MRのユーザエクスペリエンス向上を目的とした,移動認識,軽量,ハイブリッド3Dオブジェクト検出フレームワークであるDeepMixを提案する。 DeepMixは、最先端の3Dオブジェクト検出モデルの解析と評価により、エッジ支援された2Dオブジェクト検出と、ヘッドセットが捉えた深度データを活用する新しいオンデバイス3Dバウンディングボックス推定をインテリジェントに組み合わせている。 これにより、エンドツーエンドのレイテンシが低くなり、モバイルシナリオの検出精度が大幅に向上する。

Mobile headsets should be capable of understanding 3D physical environments to offer a truly immersive experience for augmented/mixed reality (AR/MR). However, their small form-factor and limited computation resources make it extremely challenging to execute in real-time 3D vision algorithms, which are known to be more compute-intensive than their 2D counterparts. In this paper, we propose DeepMix, a mobility-aware, lightweight, and hybrid3D object detection framework for improving the user experience of AR/MR on mobile headsets. Motivated by our analysis and evaluation of state-of-the-art 3D object detection models, DeepMix intelligently combines edge-assisted 2D object detection and novel, on-device 3D bounding box estimations that leverage depth data captured by headsets. This leads to low end-to-end latency and significantly boosts detection accuracy in mobile scenarios.
翻訳日:2022-01-30 11:35:48 公開日:2022-01-15
# (参考訳) 生成エンコーディングによるサンプル概要

Sample Summary with Generative Encoding ( http://arxiv.org/abs/2201.08233v1 )

ライセンス: CC BY 4.0
David Banh(参考訳) サンプルサイズの増加に伴い、すべてのアルゴリズムは対数的にスケールするよりも長い実行時間を必要とする。 サンプル空間を要約して、回帰タスクに使用できるコアセットにサンプルの総数を減少させる概念を紹介します。 この要約の考え方は、データを低次元の部分空間に投影するフォールディングテクニックと呼ばれ、一方展開は元の空間に投影する。 予測タスクの結果は、展開後の精度が要約なしでも予測に匹敵するので、折り畳み中に情報を保持することを示す。

With increasing sample sizes, all algorithms require longer run times that scales at best logarithmically. A concept that summarises the sample space to reduce the total number of samples into a core set that can be used for regression tasks is introduced. This idea of summarisation is called folding - the technique for projecting data into a lower dimensional subspace, whereas unfolding projects it back into the original space. Results for a prediction task show that information is retained during folding as accuracy after unfolding is still comparable to prediction without summarisation.
翻訳日:2022-01-23 18:25:00 公開日:2022-01-15
# (参考訳) ソフトウェアインシデント管理プロセスを支援するチャットボットベースのソリューション

Chatbot Based Solution for Supporting Software Incident Management Process ( http://arxiv.org/abs/2201.08167v1 )

ライセンス: CC BY 4.0
Nagib Sabbag Filho and Rogerio Rossi(参考訳) 本稿では,ソフトウェアインシデント管理プロセスにおける意思決定活動を支援するチャットボットを実現するための一連のステップを提案し,議論する。 それぞれのステップは、チャットボットの構築に使用されるプラットフォームとは独立して提示され、それぞれのアクティビティで詳述される。 提案手法は,チャットボットの継続的なトレーニングを優先し,ソフトウェアインシデント管理プロセスに携わる専門家の意図を包括的に解釈し,継続的かつ適応的な方法で実施することができる。 この実験では,ITILフレームワークに従ってソフトウェアインシデント解決プロセスが検討されている。 その結果,チャットボット構築のためのステップ,dialogflowプラットフォームに基づくソリューション,実験に基づく結論が得られた。

A set of steps for implementing a chatbot, to support decision-making activities in the software incident management process is proposed and discussed in this article. Each step is presented independently of the platform used for the construction of chatbots and are detailed with their respective activities. The proposed steps can be carried out in a continuous and adaptable way, favoring the constant training of a chatbot and allowing the increasingly cohesive interpretatin of the intentions of the specialists who work in the Software Incident Management Process. The software incident resolution process accordingly to the ITIL framework, is considered for the experiment. The results of the work present the steps for the chatbot construction, the solution based on DialogFlow platform and some conclusions based on the experiment.
翻訳日:2022-01-23 18:12:41 公開日:2022-01-15
# (参考訳) 対話型マルチモーダル学習によるマルチラベル感情認識

Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition ( http://arxiv.org/abs/2201.05834v1 )

ライセンス: CC BY 4.0
Yi Zhang, Mingyuan Chen, Jundong Shen, Chongjun Wang(参考訳) マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。 従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、各モダリティの多様性を無視し、異なる視点から各ラベルのより豊かな意味情報を取得できない全てのラベルについて同じ表現を学ぶことに焦点を当てていた。 さらに、モダリティとラベルの関連性は完全には利用されていない。 本稿では,マルチモーダル表現の洗練と各ラベルの識別能力の向上を目的として,マルチモーダル感情認識(tailor)のための多彩なマルチモーダル学習を提案する。 具体的には,異なるモダリティ間の共通性を十分に探求し,各モダリティの多様性を強化するために,逆向きのマルチモーダルリファインメントモジュールを設計する。 ラベルモーダル依存をさらに活用するために,bert様クロスモーダルエンコーダを考案し,粒度降下方式でプライベートモダリティ表現と共通モダリティ表現を徐々に融合させ,ラベルセマンティクスのガイダンスによりラベル付きデコーダを適応的に生成する。 さらに, ベンチマークMMERデータセットであるCMU-MOSEIを, 整合性および整合性の両方で実験し, TAILORが最先端技術よりも優れていることを示す。 コードはhttps://github.com/kniter1/TAILORで入手できる。

Multi-modal Multi-label Emotion Recognition (MMER) aims to identify various human emotions from heterogeneous visual, audio and text modalities. Previous methods mainly focus on projecting multiple modalities into a common latent space and learning an identical representation for all labels, which neglects the diversity of each modality and fails to capture richer semantic information for each label from different perspectives. Besides, associated relationships of modalities and labels have not been fully exploited. In this paper, we propose versaTile multi-modAl learning for multI-labeL emOtion Recognition (TAILOR), aiming to refine multi-modal representations and enhance discriminative capacity of each label. Specifically, we design an adversarial multi-modal refinement module to sufficiently explore the commonality among different modalities and strengthen the diversity of each modality. To further exploit label-modal dependence, we devise a BERT-like cross-modal encoder to gradually fuse private and common modality representations in a granularity descent way, as well as a label-guided decoder to adaptively generate a tailored representation for each label with the guidance of label semantics. In addition, we conduct experiments on the benchmark MMER dataset CMU-MOSEI in both aligned and unaligned settings, which demonstrate the superiority of TAILOR over the state-of-the-arts. Code is available at https://github.com/kniter1/TAILOR.
翻訳日:2022-01-23 16:18:27 公開日:2022-01-15
# (参考訳) パラメータフリーオンラインテストタイム適応

Parameter-free Online Test-time Adaptation ( http://arxiv.org/abs/2201.05718v1 )

ライセンス: CC BY 4.0
Malik Boudiaf, Romain Mueller, Ismail Ben Ayed, Luca Bertinetto(参考訳) 最先端のビジョンモデルのトレーニングは、研究者や実践者にとって違法に高価になっている。 アクセシビリティとリソース再利用のためには、これらのモデルをさまざまなダウンストリームシナリオに適応させることに集中することが重要です。 興味深い、実践的なパラダイムは、オンラインのテスト時間適応であり、トレーニングデータがアクセス不能であり、テストディストリビューションからのラベル付きデータは利用できず、テスト時間と少数のサンプルでのみ適応できる。 本稿では,様々な実世界のシナリオで事前学習されたモデルに対して,テスト時間適応手法が与える効果について検討し,その評価方法を大幅に拡張する。 実験では, 狭い範囲でしか動作しないが, 過パラメータがテスト中と同じシナリオで選択されない場合, 時には破滅的に失敗する。 テスト時に最終的に遭遇する条件に関する本質的不確実性に動機づけられ,ラプラシアン調整最大類似度推定(lame)の課題に対処する,特に「保守的」な手法を提案する。 モデルの出力(パラメータではなく)を適応させ、効率的な凹凸法で目的を解決することで、従来の手法よりも高い平均精度を示しつつ、メモリフットプリントも大幅に低減した。 コードはhttps://github.com/fiveai/lameで入手できる。

Training state-of-the-art vision models has become prohibitively expensive for researchers and practitioners. For the sake of accessibility and resource reuse, it is important to focus on adapting these models to a variety of downstream scenarios. An interesting and practical paradigm is online test-time adaptation, according to which training data is inaccessible, no labelled data from the test distribution is available, and adaptation can only happen at test time and on a handful of samples. In this paper, we investigate how test-time adaptation methods fare for a number of pre-trained models on a variety of real-world scenarios, significantly extending the way they have been originally evaluated. We show that they perform well only in narrowly-defined experimental setups and sometimes fail catastrophically when their hyperparameters are not selected for the same scenario in which they are being tested. Motivated by the inherent uncertainty around the conditions that will ultimately be encountered at test time, we propose a particularly "conservative" approach, which addresses the problem with a Laplacian Adjusted Maximum-likelihood Estimation (LAME) objective. By adapting the model's output (not its parameters), and solving our objective with an efficient concave-convex procedure, our approach exhibits a much higher average accuracy across scenarios than existing methods, while being notably faster and have a much lower memory footprint. Code available at https://github.com/fiveai/LAME.
翻訳日:2022-01-22 17:53:41 公開日:2022-01-15
# (参考訳) 共有自動運転車(sav)フリート管理のための深層強化学習

Deep Reinforcement Learning for Shared Autonomous Vehicles (SAV) Fleet Management ( http://arxiv.org/abs/2201.05720v1 )

ライセンス: CC BY 4.0
Sergio Sainz-Palacios(参考訳) シェアードオートモービルズ(savs)のフリート企業は全国でパイロットプロジェクトを開始している。 2020年、フェアファックス・ヴァージニア州で、バージニア州初の共有自動運転車パイロットプロジェクトが発表された。 SAVは生活の質を向上させることを約束します。 しかし、SAVは過度の走行距離(VMT)を発生させることで負の外部性も引き起こし、より多くの混雑、エネルギー消費、排出を引き起こす。 過剰なVMTは、主に空のリロケーションプロセスを介して生成される。 強化学習ベースのアルゴリズムは、これらの問題のいくつかを解決するための可能なソリューションとして研究されている。 しかし、駐車スペースの削減や空き時間削減など、強化学習を用いた研究は行われていない。 本研究は,異なる‘textbf{Reinforcement Learning】アプローチを探索し,ライダー待ち時間,駐車コスト,空旅を最小化するための最善のアプローチを決定する。

Shared Automated Vehicles (SAVs) Fleets companies are starting pilot projects nationwide. In 2020 in Fairfax Virginia it was announced the first Shared Autonomous Vehicle Fleet pilot project in Virginia. SAVs promise to improve quality of life. However, SAVs will also induce some negative externalities by generating excessive vehicle miles traveled (VMT), which leads to more congestions, energy consumption, and emissions. The excessive VMT are primarily generated via empty relocation process. Reinforcement Learning based algorithms are being researched as a possible solution to solve some of these problems: most notably minimizing waiting time for riders. But no research using Reinforcement Learning has been made about reducing parking space cost nor reducing empty cruising time. This study explores different \textbf{Reinforcement Learning approaches and then decide the best approach to help minimize the rider waiting time, parking cost, and empty travel
翻訳日:2022-01-22 17:03:03 公開日:2022-01-15
# (参考訳) ニューステキストから空間状況認識イベントを抽出する

Extracting Space Situational Awareness Events from News Text ( http://arxiv.org/abs/2201.05721v1 )

ライセンス: CC BY-SA 4.0
Zhengnan Xie, Alice Saebom Kwak, Enfa George, Laura W. Dozal, Hoang Van, Moriba Jah, Roberto Furfaro and Peter Jansen(参考訳) 宇宙の状況認識は通常、レーダー、望遠鏡、その他の資産から物理的測定を活用し、衛星やその他の宇宙船を運用、航法、防衛目的で監視する。 本研究では,空間状況認識タスクにテキスト入力を用いて検討する。 我々は2009年から2020年にかけて、既知のすべての活動衛星にまたがる48.5kのニュース記事のコーパスを構築した。 宇宙船の打ち上げ、失敗、および退役という3つのハイインパクトイベントをターゲットとして設計された依存性ルールベースの抽出システムを使用して、1,787個の宇宙事象の文を識別し、15.9kラベルのイベントスロットにアノテートする。 我々は,この低リソース・ハイインパクト領域において,1スロットあたり53~91個のf1を総合的に獲得する,最先端のニューラルネットワークの実証実験を行った。

Space situational awareness typically makes use of physical measurements from radar, telescopes, and other assets to monitor satellites and other spacecraft for operational, navigational, and defense purposes. In this work we explore using textual input for the space situational awareness task. We construct a corpus of 48.5k news articles spanning all known active satellites between 2009 and 2020. Using a dependency-rule-based extraction system designed to target three high-impact events -- spacecraft launches, failures, and decommissionings, we identify 1,787 space-event sentences that are then annotated by humans with 15.9k labels for event slots. We empirically demonstrate a state-of-the-art neural extraction system achieves an overall F1 between 53 and 91 per slot for event extraction in this low-resource, high-impact domain.
翻訳日:2022-01-22 16:46:30 公開日:2022-01-15
# (参考訳) IBAC: 警告範囲外問題を回避するインテリジェントな動的帯域幅チャネルアクセス

IBAC: An Intelligent Dynamic Bandwidth Channel Access Avoiding Outside Warning Range Problem ( http://arxiv.org/abs/2201.05727v1 )

ライセンス: CC BY 4.0
Raja Karmakar and Georges Kaddoum(参考訳) ieee 802.11axはプライマリチャネルとセカンダリチャネルの概念を使い、動的帯域幅チャネルアクセス(dbca)メカニズムを導く。 DBCAを適用することで、無線局は40/80/160MHzなどのより広いチャネル帯域を選択することができる。 しかし、チャネル結合の間、不適切な帯域幅選択は衝突を引き起こす可能性がある。 したがって、衝突を避けるために、チャネル結合機構を効果的に活用するために、メディアアクセス制御(MAC)プロトコルが重要である。 本稿では,外部警告範囲問題(OWRP)と呼ばれる,無線局が他の無線局とチャンネルボンディングを行った後に干渉した場合に発生する衝突シナリオに対処する。 そこで我々は, OWRPを回避するため, DBCA のチャネル結合レベルを適応させる MAC 層機構である Intelligent Bonding Avoiding Collision (IBAC) を提案する。 我々はまず、OWRPを避けつつ、DBCAのマルコフ連鎖に基づく理論モデルを設計する。 このモデルに基づいて,最適なチャネル結合レベルをインテリジェントに選択するために,トンプソンサンプリングに基づくベイズアプローチを設計する。 シミュレーションによりIBACの性能を解析し、他の競合メカニズムと比較してOWRPを回避することなくネットワーク性能を大幅に向上させることができることを示した。

IEEE 802.11ax uses the concept of primary and secondary channels, leading to the Dynamic Bandwidth Channel Access (DBCA) mechanism. By applying DBCA, a wireless station can select a wider channel bandwidth, such as 40/80/160 MHz, by applying the channel bonding feature. However, during channel bonding, inappropriate bandwidth selection can cause collisions. Therefore, to avoid collisions, a well-developed media access control (MAC) protocol is crucial to effectively utilize the channel bonding mechanism. In this paper, we address a collision scenario, called Outside Warning Range Problem (OWRP), that may occur during DBCA when a wireless station interferes with another wireless station after channel bonding is performed. Therefore, we propose a MAC layer mechanism, Intelligent Bonding Avoiding Collision (IBAC), that adapts the channel bonding level in DBCA in order to avoid the OWRP. We first design a theoretical model based on Markov chains for DBCA while avoiding the OWRP. Based on this model, we design a Thompson sampling based Bayesian approach to select the best possible channel bonding level intelligently. We analyze the performance of the IBAC through simulations where it is observed that, comparing to other competing mechanisms, the proposed approach can enhance the network performance significantly while avoiding the OWRP.
翻訳日:2022-01-22 16:37:03 公開日:2022-01-15
# (参考訳) ダミー教師による未ラベルレーダデータにおける物理に基づく分類器の訓練

Wrapped Classifier with Dummy Teacher for training physics-based classifier at unlabeled radar data ( http://arxiv.org/abs/2201.05735v1 )

ライセンス: CC BY 4.0
Oleg I.Berngardt, Oleg A.Kusonsky, Alexey I.Poddelsky, Alexey V.Oinats(参考訳) 本稿では,2021年におけるEKBおよびMAGW ISTP SB RASコヒーレント散乱レーダ(8-20MHz動作周波数)の受信信号の自動分類法について述べる。 本手法は,実験データのリアルタイムな分類結果の自動物理的解釈に適している。 我々はこのアルゴリズムをダミー教師によるWrapped Classifierと呼んだ。 この方法はラベルのないデータセットに基づいてトレーニングされ、クラスタ化結果を用いた最適物理ベースの分類の訓練に基づいている。 この手法は最適な埋め込み探索に近づき、埋め込みはソフトな分類のための確率のベクトルとして解釈される。 このアプローチは、物理ベースの数値シミュレーションと実験によって得られた、受信データの物理的解釈可能なパラメータに基づく最適な分類アルゴリズムを見つけることができる。 ラベルなしデータセットのラベル付けに使われるDummy Teacher Clustererはガウス混合クラスタリングアルゴリズムである。 レーダにより得られたパラメータを追加パラメータで拡張し, レーダの電波伝搬シミュレーションとIRI-2012およびIGRFモデルを用いて電離層と地球の磁場に対応して計算した。 ダミー先生によるクラスタリングには、利用可能なパラメータのデータセット全体(測定とシミュレーション)を使用します。 包み込み分類器による分類には、物理的に解釈されたパラメータのみを使用する。 その結果、分類ネットワークを訓練し、利用可能なデータの物理的観点から、よく解釈可能な11のクラスを見出した。 その他の5つの発見クラスは物理的観点からは解釈できないため、正しい分類のために電波伝播を考慮に入れることの重要性が示されている。

In the paper a method for automatic classification of signals received by EKB and MAGW ISTP SB RAS coherent scatter radars (8-20MHz operating frequency) during 2021 is described. The method is suitable for automatic physical interpretation of the resulting classification of the experimental data in realtime. We called this algorithm Wrapped Classifier with Dummy Teacher. The method is trained on unlabeled dataset and is based on training optimal physics-based classification using clusterization results. The approach is close to optimal embedding search, where the embedding is interpreted as a vector of probabilities for soft classification. The approach allows to find optimal classification algorithm, based on physically interpretable parameters of the received data, both obtained during physics-based numerical simulation and measured experimentally. Dummy Teacher clusterer used for labeling unlabeled dataset is gaussian mixture clustering algorithm. For algorithm functioning we extended the parameters obtained by the radar with additional parameters, calculated during simulation of radiowave propagation using ray-tracing and IRI-2012 and IGRF models for ionosphere and Earth's magnetic field correspondingly. For clustering by Dummy Teacher we use the whole dataset of available parameters (measured and simulated ones). For classification by Wrapped Classifier we use only well physically interpreted parameters. As a result we trained the classification network and found 11 well-interpretable classes from physical point of view in the available data. Five other found classes are not interpretable from physical point of view, demonstrating the importance of taking into account radiowave propagation for correct classification.
翻訳日:2022-01-22 16:09:11 公開日:2022-01-15
# (参考訳) スマートビデオサーベイランスにおける行動認識のための実世界グラフ畳み込みネットワーク(RW-GCN)

Real-World Graph Convolution Networks (RW-GCNs) for Action Recognition in Smart Video Surveillance ( http://arxiv.org/abs/2201.05739v1 )

ライセンス: CC BY 4.0
Justin Sanchez, Christopher Neff, Hamed Tabkhi(参考訳) アクション認識は、最先端のスマートビデオ監視およびセキュリティシステムの重要なアルゴリズム的部分である。 スケルトンベースのアクション認識は、rgbのピクセルデータを使う代わりに、適切なアクションを分類するために人間のポーズ情報に依存する魅力的なアプローチである。 しかし、既存のアルゴリズムは、ノイズ入力、レイテンシ要件、エッジリソース制約など、現実世界の制約を代表しない理想的な条件を仮定することが多い。 本稿では,Real World SkeletonベースのAction Recognitionのドメイン制約を満たすアーキテクチャレベルのソリューションであるReal-World Graph Convolution Networks (RW-GCNs)を提案する。 RW-GCNは、人間の視覚皮質におけるフィードバック接続の存在にインスパイアされ、既存のSpatial-Temporal Graph Convolution Networks (ST-GCNs)における注意的フィードバックの増大を利用する。 ST-GCNの設計選択は、エンド・ツー・エンドのリアルタイムとオン・ザ・エッジのスマートビデオシステムで通常発生する空間的ノイズと時間的ノイズの両方に対処する情報理論中心の原理から導かれる。 以上の結果から,NTU-RGB-D-120データセットに新たなSotA精度を94.1%で達成し,標準ST-GCNアプリケーションよりも32倍のレイテンシを実現するとともに,北西UCLAデータセットでは90.4%の精度を実現した。 さらにRW-GCNは10倍のコストでNVIDIA Jetson Nano(NVIDIA Xavier NXとは対照的に)を動作させることでシステムのスケーラビリティを示す一方で、リソース制約されたデバイス上では高いスループット(毎秒15.6~5.5アクション)を維持している。 コードは、https://github.com/TeCSAR-UNCC/RW-GCN.comで入手できる。

Action recognition is a key algorithmic part of emerging on-the-edge smart video surveillance and security systems. Skeleton-based action recognition is an attractive approach which, instead of using RGB pixel data, relies on human pose information to classify appropriate actions. However, existing algorithms often assume ideal conditions that are not representative of real-world limitations, such as noisy input, latency requirements, and edge resource constraints. To address the limitations of existing approaches, this paper presents Real-World Graph Convolution Networks (RW-GCNs), an architecture-level solution for meeting the domain constraints of Real World Skeleton-based Action Recognition. Inspired by the presence of feedback connections in the human visual cortex, RW-GCNs leverage attentive feedback augmentation on existing near state-of-the-art (SotA) Spatial-Temporal Graph Convolution Networks (ST-GCNs). The ST-GCNs' design choices are derived from information theory-centric principles to address both the spatial and temporal noise typically encountered in end-to-end real-time and on-the-edge smart video systems. Our results demonstrate RW-GCNs' ability to serve these applications by achieving a new SotA accuracy on the NTU-RGB-D-120 dataset at 94.1%, and achieving 32X less latency than baseline ST-GCN applications while still achieving 90.4% accuracy on the Northwestern UCLA dataset in the presence of spatial keypoint noise. RW-GCNs further show system scalability by running on the 10X cost effective NVIDIA Jetson Nano (as opposed to NVIDIA Xavier NX), while still maintaining a respectful range of throughput (15.6 to 5.5 Actions per Second) on the resource constrained device. The code is available here: https://github.com/TeCSAR-UNCC/RW-GCN.
翻訳日:2022-01-22 15:53:10 公開日:2022-01-15
# (参考訳) Moses: テンソルプログラム最適化のためのクロスデバイストランスファー可能な機能の効率的な爆発

Moses: Efficient Exploitation of Cross-device Transferable Features for Tensor Program Optimization ( http://arxiv.org/abs/2201.05752v1 )

ライセンス: CC0 1.0
Zhihe Zhao, Xian Shuai, Yang Bai, Neiwen Ling, Nan Guan, Zhenyu Yan, Guoliang Xing(参考訳) 近年,機械学習モデルの効率的な実行が注目されている。 テンソルプログラムを効率的に生成するために、DNNコンパイラの主要なコンポーネントは、特定のデバイスにおける各構成のパフォーマンスを予測できるコストモデルである。 しかし、ハードウェアプラットフォームの急速な出現により、新しいプラットフォームごとにドメイン固有の予測器をトレーニングすることがますます難しくなっている。 さらに、現在のコストモデルの設計では、異なるハードウェアアクセラレータ間で効率的に効率的に伝達可能な機能を提供できない。 本稿では,ドメイン適応によってターゲットデバイスに転送可能な機能を十分に活用した,抽選券仮説に基づく簡易かつ効率的な設計であるmosesを提案する。 最先端のアプローチと比較して、Mosesは検索段階で最大1.53倍の効率向上と、挑戦的なDNNベンチマークでの1.41倍の推論高速化を実現している。

Achieving efficient execution of machine learning models has attracted significant attention recently. To generate tensor programs efficiently, a key component of DNN compilers is the cost model that can predict the performance of each configuration on specific devices. However, due to the rapid emergence of hardware platforms, it is increasingly labor-intensive to train domain-specific predictors for every new platform. Besides, current design of cost models cannot provide transferable features between different hardware accelerators efficiently and effectively. In this paper, we propose Moses, a simple and efficient design based on the lottery ticket hypothesis, which fully takes advantage of the features transferable to the target device via domain adaptation. Compared with state-of-the-art approaches, Moses achieves up to 1.53X efficiency gain in the search stage and 1.41X inference speedup on challenging DNN benchmarks.
翻訳日:2022-01-22 15:26:16 公開日:2022-01-15
# (参考訳) ネットワークレベルの走行時間予測のためのビッグデータ応用

Big Data Application for Network Level Travel Time Prediction ( http://arxiv.org/abs/2201.05760v1 )

ライセンス: CC BY 4.0
Tianya T. Zhang, Ying Ye, Yu Kathy Zhang(参考訳) 旅行時間はadvanced traveler information systems (atis) において必須である。 本稿では,ビッグデータ分析エンジンのApache SparkとApache MXNetを用いてデータ処理とモデリングを行った。 効率性は、一般的なデータサイエンスやディープラーニングフレームワークと比較することで評価された。 階層的な特徴プーリングは、層と出力層LSTM(Long-Short-Term-Memory)の両方に対して探索される。 設計した階層型LSTM(hiLSTM)モデルは,ネットワークレベルの経路移動時間から空間的時間的相関を捉えるために,異なる時間スケールで依存関係を考慮できる。 セルフアテンションモジュールは、時間的および空間的な特徴を、完全に接続された層に結びつけ、単一のリンク/ルートではなく、すべての廊下の走行時間を予測するために使用される。 時系列データの動向を探るため,季節と自己相関を行った。 ケーススタディでは、階層型LSTM with Attention(hiLSTMat)モデルが最も良い結果を与え、ベースラインモデルより優れていた。 Caltrans Performance Measurement System (PeMS)システムからカリフォルニアベイエリア回廊走行時間データセットが4年間にわたって公表された。

Travel time is essential in advanced traveler information systems (ATIS). This paper used the big data analytics engines Apache Spark and Apache MXNet for data processing and modeling. The efficiency gain was evaluated by comparing it with popular data science and deep learning frameworks. The hierarchical feature pooling is explored for both between layer and the output layer LSTM (Long-Short-Term-Memory). The designed hierarchical LSTM (hiLSTM) model can consider the dependencies at a different time scale to capture the spatial-temporal correlations from network-level corridor travel time. A self-attention module is then used to connect temporal and spatial features to the fully connected layers, predicting travel time for all corridors instead of a single link/route. Seasonality and autocorrelation were performed to explore the trend of time-varying data. The case study shows that the Hierarchical LSTM with Attention (hiLSTMat) model gives the best result and outperforms baseline models. The California Bay Area corridor travel time dataset covering four-year periods was published from Caltrans Performance Measurement System (PeMS) system.
翻訳日:2022-01-22 15:13:21 公開日:2022-01-15
# (参考訳) RGB-Dデータセットに関する調査

A Survey on RGB-D Datasets ( http://arxiv.org/abs/2201.05761v1 )

ライセンス: CC BY 4.0
Alexandre Lopes, Roberto Souza, Helio Pedrini(参考訳) rgb-dデータはコンピュータビジョンの多くの問題を解決するために不可欠である。 屋内、屋外、航空、運転、医療などの様々な場面を含む一般向けRGB-Dデータセットが数百件提案されている。 これらのデータセットは異なるアプリケーションに有用であり、単眼深度推定のような古典的なコンピュータビジョンタスクに対処するための基礎となる。 本稿では,深度情報を含む画像データセットのレビューと分類を行った。 アクセス可能なデータを含む203のデータセットを収集し、シーン/オブジェクト、ボディ、医療の3つのカテゴリにグループ化しました。 また,様々な種類のセンサ,奥行き応用について概観し,奥行きデータを含むデータセットの利用と作成の動向と今後の方向性について検討し,単眼深度推定分野における一般化可能な機械学習モデルの開発にどのように適用できるかについて検討した。

RGB-D data is essential for solving many problems in computer vision. Hundreds of public RGB-D datasets containing various scenes, such as indoor, outdoor, aerial, driving, and medical, have been proposed. These datasets are useful for different applications and are fundamental for addressing classic computer vision tasks, such as monocular depth estimation. This paper reviewed and categorized image datasets that include depth information. We gathered 203 datasets that contain accessible data and grouped them into three categories: scene/objects, body, and medical. We also provided an overview of the different types of sensors, depth applications, and we examined trends and future directions of the usage and creation of datasets containing depth data, and how they can be applied to investigate the development of generalizable machine learning models in the monocular depth estimation field.
翻訳日:2022-01-22 15:04:47 公開日:2022-01-15
# (参考訳) 階層化クライアント選択による分散還元型ヘテロジニアスフェデレート学習

Variance-Reduced Heterogeneous Federated Learning via Stratified Client Selection ( http://arxiv.org/abs/2201.05762v1 )

ライセンス: CC BY 4.0
Guangyuan Shen, Dehong Gao, Libin Yang, Fang Zhou, Duanxiao Song, Wei Lou, Shirui Pan(参考訳) 最近のフェデレーション学習(fl)研究において、通信効率問題に対処するためにクライアント選択戦略が広く採用されている。 しかし、選択されたサブセットの更新のばらつきが大きいため、サンプリング比が限定された事前選択アプローチは、異種FLの収束と精度によく対応できない。 この問題に対処するため,本論文では,収束性の向上と精度の向上を図るために,新たな階層化クライアント選択方式を提案する。 具体的には、不均一性の影響を軽減するために、クライアントの局所データ分布に基づく成層を開発し、各成層におけるより優れた選択のための近似均質成層を導出する。 次に, 限られたサンプリング比のシナリオに焦点をあて, さらなる分散低減を約束して, 地層変動の多様性を考慮し, 最適化されたサンプルサイズ割当方式を提案する。 理論的には, 分散に関する異なる選択スキーム間の明示的な関係を, 不均質な設定下において, 選択スキームの有効性を実証する。 実験結果から,本手法は最先端手法と比較して性能が向上するだけでなく,一般的なFLアルゴリズムと互換性があることが確認された。

Client selection strategies are widely adopted to handle the communication-efficient problem in recent studies of Federated Learning (FL). However, due to the large variance of the selected subset's update, prior selection approaches with a limited sampling ratio cannot perform well on convergence and accuracy in heterogeneous FL. To address this problem, in this paper, we propose a novel stratified client selection scheme to reduce the variance for the pursuit of better convergence and higher accuracy. Specifically, to mitigate the impact of heterogeneity, we develop stratification based on clients' local data distribution to derive approximate homogeneous strata for better selection in each stratum. Concentrating on a limited sampling ratio scenario, we next present an optimized sample size allocation scheme by considering the diversity of stratum's variability, with the promise of further variance reduction. Theoretically, we elaborate the explicit relation among different selection schemes with regard to variance, under heterogeneous settings, we demonstrate the effectiveness of our selection scheme. Experimental results confirm that our approach not only allows for better performance relative to state-of-the-art methods but also is compatible with prevalent FL algorithms.
翻訳日:2022-01-22 15:03:09 公開日:2022-01-15
# (参考訳) 畳み込みとスペクトルコンテクストトランスを用いたスペクトル圧縮画像再構成

Spectral Compressive Imaging Reconstruction Using Convolution and Spectral Contextual Transformer ( http://arxiv.org/abs/2201.05768v1 )

ライセンス: CC BY 4.0
Lishun Wang, Zongliang Wu, Yong Zhong, Xin Yuan(参考訳) スペクトル圧縮イメージング(SCI)は、高次元のハイパースペクトル画像を2次元計測にエンコードし、アルゴリズムを用いてスペクトルデータキューブを再構成する。 現在、SCIの主なボトルネックは再構成アルゴリズムであり、現状のSOTA (State-of-the-art Restruction Method) は、一般に長い復元時間や細部回復の問題に直面している。 本稿では,畳み込みの局所的知覚と変圧器の大域的知覚を同時に得ることができるcscot(convolution and spectral context transformer)ブロックというハイブリッドネットワークモジュールを提案する。 提案したCSCoTブロックを一般化された交互投影アルゴリズムに基づく深層展開フレームワークに統合し,さらにGAP-CSCoTネットワークを提案する。 最後に,GAP-CSCoTアルゴリズムをSCI再構成に適用する。 大規模な合成データと実データを用いた実験により,提案モデルでは,既存のSOTAアルゴリズムよりも高い再現性(PSNRでは2dB)と実行時間の短縮を実現している。 コードとモデルは一般公開される予定だ。

Spectral compressive imaging (SCI) is able to encode the high-dimensional hyperspectral image to a 2D measurement, and then uses algorithms to reconstruct the spatio-spectral data-cube. At present, the main bottleneck of SCI is the reconstruction algorithm, and the state-of-the-art (SOTA) reconstruction methods generally face the problem of long reconstruction time and/or poor detail recovery. In this paper, we propose a novel hybrid network module, namely CSCoT (Convolution and Spectral Contextual Transformer) block, which can acquire the local perception of convolution and the global perception of transformer simultaneously, and is conducive to improving the quality of reconstruction to restore fine details. We integrate the proposed CSCoT block into deep unfolding framework based on the generalized alternating projection algorithm, and further propose the GAP-CSCoT network. Finally, we apply the GAP-CSCoT algorithm to SCI reconstruction. Through the experiments of extensive synthetic and real data, our proposed model achieves higher reconstruction quality ($>$2dB in PSNR on simulated benchmark datasets) and shorter running time than existing SOTA algorithms by a large margin. The code and models will be released to the public.
翻訳日:2022-01-22 14:41:39 公開日:2022-01-15
# (参考訳) 自由電子レーザーにおける電子束の縦断特性の混合診断

Mixed Diagnostics for Longitudinal Properties of Electron Bunches in a Free-Electron Laser ( http://arxiv.org/abs/2201.05769v1 )

ライセンス: CC BY 4.0
J. Zhu, N. M. Lockmann, M. K. Czwalinna, H. Schlarb(参考訳) 電子束の縦方向の性質は、幅広い科学施設のパフォーマンスに重要である。 例えば、フリー電子レーザーでは、既存の診断はオンラインのチューニングと最適化の間、電子束の非常に限られた縦情報しか提供しない。 実験データを用いてニューラルネットワークモデルを構築するために人工知能の力を活用し,破壊的縦断位相空間(lps)診断を仮想的にオンライン化するとともに,コヒーレント遷移放射線(ctr)スペクトロメータを用いた既存プロファイルオンライン診断を改善した。 このモデルは、アルゴリズムを効率的に効果的にテストできる実マシンのデジタルツインとしても機能する。 我々は,複数のデコーダを持つエンコーダ・デコーダモデルを用いて,LPS操作のすべての主要制御ノブをスキャンして得られる,広い範囲のLSS形状とピーク電流を有する電子束に対するメガピクセルLPS画像とコヒーレント遷移放射スペクトルの高精度な予測が可能であることをFLASH施設で実証した。 さらに,予測スペクトルと測定スペクトルを組み合わせることで,CTRのオンライン計測精度を大幅に向上する手法を提案する。 本研究は,科学施設に異種で信頼性の高い混合診断を提供するために,仮想診断と実診断を組み合わせる方法を示す。

Longitudinal properties of electron bunches are critical for the performance of a wide range of scientific facilities. In a free-electron laser, for example, the existing diagnostics only provide very limited longitudinal information of the electron bunch during online tuning and optimization. We leverage the power of artificial intelligence to build a neural network model using experimental data, in order to bring the destructive longitudinal phase space (LPS) diagnostics online virtually and improve the existing current profile online diagnostics which uses a coherent transition radiation (CTR) spectrometer. The model can also serve as a digital twin of the real machine on which algorithms can be tested efficiently and effectively. We demonstrate at the FLASH facility that the encoder-decoder model with more than one decoder can make highly accurate predictions of megapixel LPS images and coherent transition radiation spectra concurrently for electron bunches in a bunch train with broad ranges of LPS shapes and peak currents, which are obtained by scanning all the major control knobs for LPS manipulation. Furthermore, we propose a way to significantly improve the CTR spectrometer online measurement by combining the predicted and measured spectra. Our work showcases how to combine virtual and real diagnostics in order to provide heterogeneous and reliable mixed diagnostics for scientific facilities.
翻訳日:2022-01-22 14:20:07 公開日:2022-01-15
# (参考訳) KazakhTTS2: より多くのデータ、講演者、トピックでオープンソースのKazakh TTSコーパスを拡張する

KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data, Speakers, and Topics ( http://arxiv.org/abs/2201.05771v1 )

ライセンス: CC BY 4.0
Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を示す。 新しいKazakhTTS2コーパスでは、全体的なサイズが93時間から271時間に増加し、話者数は2人から5人(女性3人、男性2人)に増加し、本やウィキペディアの記事を含む新しい情報源の助けを借りて、トピックのカバレッジが多様化している。 このコーパスは、トルコ語族による中央アジアの凝集言語であるカザフ語のための高品質なTSシステムを構築するために必要である。 本稿では, コーパス構築プロセスについて述べるとともに, TTSシステムのトレーニングおよび評価手順の詳細について述べる。 実験の結果,構築したコーパスは実世界のアプリケーションで頑健なttsモデルを構築するのに十分であり,主観的平均評価スコアは5人全員で4.0以上であった。 我々のコーパスは、カザフ語や他のテュルク諸語について、言論研究や言語研究が促進されると信じている。 構築されたコーパス、コード、事前訓練されたモデルは、GitHubリポジトリで公開されています。

We present an expanded version of our previously released Kazakh text-to-speech (KazakhTTS) synthesis corpus. In the new KazakhTTS2 corpus, the overall size is increased from 93 hours to 271 hours, the number of speakers has risen from two to five (three females and two males), and the topic coverage is diversified with the help of new sources, including a book and Wikipedia articles. This corpus is necessary for building high-quality TTS systems for Kazakh, a Central Asian agglutinative language from the Turkic family, which presents several linguistic challenges. We describe the corpus construction process and provide the details of the training and evaluation procedures for the TTS system. Our experimental results indicate that the constructed corpus is sufficient to build robust TTS models for real-world applications, with a subjective mean opinion score of above 4.0 for all the five speakers. We believe that our corpus will facilitate speech and language research for Kazakh and other Turkic languages, which are widely considered to be low-resource due to the limited availability of free linguistic data. The constructed corpus, code, and pretrained models are publicly available in our GitHub repository.
翻訳日:2022-01-22 14:04:06 公開日:2022-01-15
# (参考訳) リモートセンシング画像検索のための非対称ハッシュコード学習

Asymmetric Hash Code Learning for Remote Sensing Image Retrieval ( http://arxiv.org/abs/2201.05772v1 )

ライセンス: CC BY 4.0
Weiwei Song, Zhi Gao, Renwei Dian, Pedram Ghamisi, Yongjun Zhang, and J\'on Atli Benediktsson(参考訳) リモートセンシング画像検索(RSIR)は,クエリ画像に類似した項目の集合を探索することを目的として,リモートセンシングアプリケーションにおいて非常に重要な課題である。 現在の主流手法としての深いハッシュ学習は、良好な検索性能を達成した。 一方、リモートセンシング画像の意味的特徴を抽出するために、様々なディープニューラルネットワークが使用される。 一方、ハッシュ技術はその後、高次元の深い特徴を低次元のバイナリコードにマッピングするために採用される。 この種の手法は、クエリとデータベースのサンプルの両方を対称的に1つのハッシュ関数を学習しようとする。 しかし、データベースサンプルの数が増えるにつれて、大規模なデータベース画像のハッシュコードを生成するのには通常時間がかかる。 本稿では,rsirのための非対称ハッシュコード学習(ahcl)という,新しいディープハッシュ手法を提案する。 提案したAHCLは、クエリとデータベースイメージのハッシュコードを非対称に生成する。 より詳しくは、ネットワークの出力を二元化してクエリ画像のハッシュコードを取得し、一方、データベース画像のハッシュコードは、設計された目的関数を解いて直接学習する。 さらに、各画像の意味情報と、一対の画像の類似情報を教師付き情報として組み合わせ、深層ハッシュネットワークを訓練し、深部特徴やハッシュコードの表現能力を向上させる。 3つの公開データセットに対する実験結果から,提案手法は精度と効率の点で対称法より優れていることが示された。 ソースコードは https://github.com/weiweisong415/Demo AHCL for TGRS2022 で公開されている。

Remote sensing image retrieval (RSIR), aiming at searching for a set of similar items to a given query image, is a very important task in remote sensing applications. Deep hashing learning as the current mainstream method has achieved satisfactory retrieval performance. On one hand, various deep neural networks are used to extract semantic features of remote sensing images. On the other hand, the hashing techniques are subsequently adopted to map the high-dimensional deep features to the low-dimensional binary codes. This kind of methods attempts to learn one hash function for both the query and database samples in a symmetric way. However, with the number of database samples increasing, it is typically time-consuming to generate the hash codes of large-scale database images. In this paper, we propose a novel deep hashing method, named asymmetric hash code learning (AHCL), for RSIR. The proposed AHCL generates the hash codes of query and database images in an asymmetric way. In more detail, the hash codes of query images are obtained by binarizing the output of the network, while the hash codes of database images are directly learned by solving the designed objective function. In addition, we combine the semantic information of each image and the similarity information of pairs of images as supervised information to train a deep hashing network, which improves the representation ability of deep features and hash codes. The experimental results on three public datasets demonstrate that the proposed method outperforms symmetric methods in terms of retrieval accuracy and efficiency. The source code is available at https://github.com/weiweisong415/Demo AHCL for TGRS2022.
翻訳日:2022-01-22 13:51:55 公開日:2022-01-15
# (参考訳) 自動因果推論による無作為化臨床試験への応用

Automated causal inference in application to randomized controlled clinical trials ( http://arxiv.org/abs/2201.05773v1 )

ライセンス: CC BY 4.0
Jiqing Wu, Nanda Horeweg, Marco de Bruyn, Remi A. Nout, Ina M. J\"urgenliemk-Schulz, Ludy C.H.W. Lutgens, Jan J. Jobsen, Elzbieta M. van der Steen-Banasik, Hans W. Nijman, Vincent T.H.B.M. Smit, Tjalling Bosse, Carien L. Creutzberg, Viktor H. Koelzer(参考訳) ランダム化制御試験(RCTs)は、臨床領域における因果仮説をテストするための金の標準であると考えられている。 しかし, 標準的な統計学的手法では, 患者予後の予測変数を仮説として検討することは不可能である。 本稿では,臨床試験データの因果的再解釈のための不変因果予測(ICP)フレームワーク上に構築された新しい自動因果推論手法を提案する。 既存の方法と比較すると, 子宮内膜癌患者2例において, 臨床病理学的, 分子遺伝学的に有意な差がみられ, 因果変数を効率的に決定できることがわかった。 これは非因果変数の因果確率を広いマージンで抑制することで達成される。 アブレーション研究では,AutoCIによる因果確率の割り当てが,共同創設者の存在下で一貫していることがさらに実証された。 結論として, これらの結果は, 現実臨床分析におけるAutoCIの堅牢性と将来性を示すものである。

Randomized controlled trials (RCTs) are considered as the gold standard for testing causal hypotheses in the clinical domain. However, the investigation of prognostic variables of patient outcome in a hypothesized cause-effect route is not feasible using standard statistical methods. Here, we propose a new automated causal inference method (AutoCI) built upon the invariant causal prediction (ICP) framework for the causal re-interpretation of clinical trial data. Compared to existing methods, we show that the proposed AutoCI allows to efficiently determine the causal variables with a clear differentiation on two real-world RCTs of endometrial cancer patients with mature outcome and extensive clinicopathological and molecular data. This is achieved via suppressing the causal probability of non-causal variables by a wide margin. In ablation studies, we further demonstrate that the assignment of causal probabilities by AutoCI remain consistent in the presence of confounders. In conclusion, these results confirm the robustness and feasibility of AutoCI for future applications in real-world clinical analysis.
翻訳日:2022-01-22 13:10:18 公開日:2022-01-15
# (参考訳) 将来のリアルタイム惑星探査における深層学習を実現する説明可能性ツール

Explainability Tools Enabling Deep Learning in Future In-Situ Real-Time Planetary Explorations ( http://arxiv.org/abs/2201.05775v1 )

ライセンス: CC BY 4.0
Daniel Lundstrom, Alexander Huyen, Arya Mevada, Kyongsik Yun, Thomas Lu(参考訳) ディープラーニング(DL)は、効果的な機械学習とコンピュータビジョン技術であることが証明されている。 DLベースのイメージセグメンテーション、オブジェクト認識、分類は、パス計画やアーティファクト認識/抽出といった火星のローバー作業の多くに役立つ。 しかし、ディープニューラルネットワーク(dnn)アーキテクチャのほとんどは非常に複雑であり、それらは「ブラックボックス」と見なされている。 本稿では,各ニューロンの出力クラスへの帰属を記述するために,統合勾配を用いた。 DNNのブラックボックスを開くための説明可能性ツールセット(ET)を提供するので、分類へのニューロンの個々の貢献をランク付けし視覚化することができる。 各密層内のニューロンは、真の画像ラベルが与えられたクラス投票に対するニューロンの期待寄与度を測定することにより、マッピングされ、ランク付けされる。 ニューロンの重要性は、出力クラスへの正しいまたは間違った寄与と、各クラスの大きさによって重み付けされた間違ったクラスの抑制または強化によって優先順位付けされる。 ETは、高位ニューロンを強化し、低パフォーマンスニューロンを取り除くために、ネットワークをプーンするインターフェースを提供する。 ET技術により、DNNはより小さく、より効率的に小さな組み込みシステムで実装できる。 また、検証と検証を容易にするために、より説明しやすい、テスト可能なDNNにもつながります。 ET技術の目的は、将来の惑星探査ミッションにおけるDLの採用を可能にすることである。

Deep learning (DL) has proven to be an effective machine learning and computer vision technique. DL-based image segmentation, object recognition and classification will aid many in-situ Mars rover tasks such as path planning and artifact recognition/extraction. However, most of the Deep Neural Network (DNN) architectures are so complex that they are considered a 'black box'. In this paper, we used integrated gradients to describe the attributions of each neuron to the output classes. It provides a set of explainability tools (ET) that opens the black box of a DNN so that the individual contribution of neurons to category classification can be ranked and visualized. The neurons in each dense layer are mapped and ranked by measuring expected contribution of a neuron to a class vote given a true image label. The importance of neurons is prioritized according to their correct or incorrect contribution to the output classes and suppression or bolstering of incorrect classes, weighted by the size of each class. ET provides an interface to prune the network to enhance high-rank neurons and remove low-performing neurons. ET technology will make DNNs smaller and more efficient for implementation in small embedded systems. It also leads to more explainable and testable DNNs that can make systems easier for Validation \& Verification. The goal of ET technology is to enable the adoption of DL in future in-situ planetary exploration missions.
翻訳日:2022-01-22 12:50:08 公開日:2022-01-15
# (参考訳) ニューラル特徴写像のための超平面境界

Hyperplane bounds for neural feature mappings ( http://arxiv.org/abs/2201.05799v1 )

ライセンス: CC BY 4.0
Antonio Jimeno Yepes(参考訳) 深層学習法はクロスエントロピー損失のような損失関数を用いて経験的リスクを最小化する。 経験的リスクを最小化する場合、学習関数の一般化は、依然としてトレーニングデータ、vapnik-chervonenkis(vc)-dimension of the function and the number of training examples の性能に依存する。 ニューラルネットワークには多数のパラメータがあり、これは典型的には大きすぎるが無限ではないVC次元と相関しており、効果的にトレーニングするためには多数のトレーニングインスタンスが必要である。 本研究では, ニューラルネットワークを用いた特徴マッピングの最適化について, マッピングによって生成された空間内の超平面のVC次元を効果的に削減する目的で検討する。 この研究の結果の解釈として、分離された超平面のVC次元を制御する損失を定義することができる。 このアプローチを評価し,トレーニングセットのサイズが小さい場合に,この手法を用いた場合の性能が向上することを確認した。

Deep learning methods minimise the empirical risk using loss functions such as the cross entropy loss. When minimising the empirical risk, the generalisation of the learnt function still depends on the performance on the training data, the Vapnik-Chervonenkis(VC)-dimension of the function and the number of training examples. Neural networks have a large number of parameters, which correlates with their VC-dimension that is typically large but not infinite, and typically a large number of training instances are needed to effectively train them. In this work, we explore how to optimize feature mappings using neural network with the intention to reduce the effective VC-dimension of the hyperplane found in the space generated by the mapping. An interpretation of the results of this study is that it is possible to define a loss that controls the VC-dimension of the separating hyperplane. We evaluate this approach and observe that the performance when using this method improves when the size of the training set is small.
翻訳日:2022-01-22 12:38:34 公開日:2022-01-15
# (参考訳) マルチタスクシーンにおけるマルチビュー表現学習

Multi-View representation learning in Multi-Task Scene ( http://arxiv.org/abs/2201.05829v1 )

ライセンス: CC BY 4.0
Run-kun Lu, Jian-wei Liu, Si-ming Lian, Xin Zuo(参考訳) 近年,マルチタスク学習とマルチビュー学習のいずれにおいても大きな進展が見られたが,両学習場面を同時に考える状況はあまり注目されていない。 学習タスクのパフォーマンスを改善するために、各タスクの潜在表現を複数のビューで活用する方法が課題である。 これに基づいて,共通特徴と特殊特徴に基づくマルチタスクマルチビュー学習 (multi-task multi-view learning) と呼ばれる,新しい半教師付きアルゴリズムを提案する。 一般に、マルチビューはオブジェクトの異なる側面であり、すべてのビューは、このオブジェクトの基礎となる共通情報や特別な情報を含んでいる。 その結果、各ビューの特殊特徴と全ビューの共通特徴からなる各学習タスクの複数のビューを相互に潜在する要因を発掘する。 このようにして、元のマルチタスクマルチビューデータはマルチタスクデータに分解され、複数のタスク間の相関を探索することで、学習アルゴリズムの性能を向上させることができる。 このアプローチのもう1つの明らかな利点は、ラベル付きインスタンスとの回帰タスクの制約によってラベルなしインスタンスの集合の潜在表現を得ることである。 これらの潜在表現における分類と半教師付きクラスタリングタスクの性能は、生データよりも明らかに優れている。 さらに, ノイズラベルに強い適応性を有するAN-MTMVCSFというマルチタスク・マルチタスク・マルチビュー・アルゴリズムを提案する。 これらのアルゴリズムの有効性は、実世界と合成データの両方でよく設計された実験によって証明される。

Over recent decades have witnessed considerable progress in whether multi-task learning or multi-view learning, but the situation that consider both learning scenes simultaneously has received not too much attention. How to utilize multiple views latent representation of each single task to improve each learning task performance is a challenge problem. Based on this, we proposed a novel semi-supervised algorithm, termed as Multi-Task Multi-View learning based on Common and Special Features (MTMVCSF). In general, multi-views are the different aspects of an object and every view includes the underlying common or special information of this object. As a consequence, we will mine multiple views jointly latent factor of each learning task which consists of each view special feature and the common feature of all views. By this way, the original multi-task multi-view data has degenerated into multi-task data, and exploring the correlations among multiple tasks enables to make an improvement on the performance of learning algorithm. Another obvious advantage of this approach is that we get latent representation of the set of unlabeled instances by the constraint of regression task with labeled instances. The performance of classification and semi-supervised clustering task in these latent representations perform obviously better than it in raw data. Furthermore, an anti-noise multi-task multi-view algorithm called AN-MTMVCSF is proposed, which has a strong adaptability to noise labels. The effectiveness of these algorithms is proved by a series of well-designed experiments on both real world and synthetic data.
翻訳日:2022-01-22 12:27:23 公開日:2022-01-15
# (参考訳) 不均一推薦のための深い統一表現

Deep Unified Representation for Heterogeneous Recommendation ( http://arxiv.org/abs/2201.05861v1 )

ライセンス: CC BY 4.0
Chengqiang Lu, Mingyang Yin, Shuheng Shen, Luo Ji, Qi Liu, Hongxia Yang(参考訳) レコメンデーションシステムは、学界と産業の両方で広く研究されているタスクである。 従来の研究は主に均質なレコメンデーションに焦点を当てており、異質なレコメンデーションシステムではほとんど進歩していない。 しかし、現在では商品、ビデオ、有名人の買い物ノートなど様々な種類の商品を推薦する異質な推薦が主流となっている。 state-of-the-artメソッドは、さまざまなタイプのアイテムの属性を活用できないため、データのスパーシティの問題に苦しむ。 そして、異なる特徴空間を持つアイテムを共同で表現することは、確かに非常に難しい。 この問題を解決するために、カーネルベースのニューラルネットワーク、すなわち、不均一な推薦のための深層統一表現(DURation)を提案し、元の特徴空間トポロジー構造を保ちながら、不均一な項目の統一表現を共同でモデル化する。 理論的には,提案モデルの表現能力を証明する。 さらに,実世界のデータセットを広範囲に実験する。 実験の結果, 統一表現では, 既存の最先端モデルよりも顕著な改善(AUCスコアによる4.1%~34.9%, オンラインCTRによる3.7%)が得られた。

Recommendation system has been a widely studied task both in academia and industry. Previous works mainly focus on homogeneous recommendation and little progress has been made for heterogeneous recommender systems. However, heterogeneous recommendations, e.g., recommending different types of items including products, videos, celebrity shopping notes, among many others, are dominant nowadays. State-of-the-art methods are incapable of leveraging attributes from different types of items and thus suffer from data sparsity problems. And it is indeed quite challenging to represent items with different feature spaces jointly. To tackle this problem, we propose a kernel-based neural network, namely deep unified representation (or DURation) for heterogeneous recommendation, to jointly model unified representations of heterogeneous items while preserving their original feature space topology structures. Theoretically, we prove the representation ability of the proposed model. Besides, we conduct extensive experiments on real-world datasets. Experimental results demonstrate that with the unified representation, our model achieves remarkable improvement (e.g., 4.1% ~ 34.9% lift by AUC score and 3.7% lift by online CTR) over existing state-of-the-art models.
翻訳日:2022-01-22 12:26:10 公開日:2022-01-15
# (参考訳) SDT-DCSCNによるテキスト画像の高分解能化と分解

SDT-DCSCN for Simultaneous Super-Resolution and Deblurring of Text Images ( http://arxiv.org/abs/2201.05865v1 )

ライセンス: CC BY 4.0
Hala Neji, Mohamed Ben Halima, Javier Nogueras-Iso, Tarek. M. Hamdani, Abdulrahman M. Qahtani, Omar Almutiry, Habib Dhahri, Adel M. Alimi(参考訳) 深部畳み込みニューラルネットワーク(Deep CNN)は、単一画像超解像に対して期待できる性能を達成した。 特に、Deep CNN skip Connection and Network in Network (DCSCN)アーキテクチャは、自然画像の超高解像度化に成功している。 本研究では,DCSCNに基づく低解像度のぼかし画像の高解像度化とデブロアリングを共同で行うSDT-DCSCNという手法を提案する。 提案手法では,入力画像と元のシャープ画像に,サブサンプルのぼやけた画像を用いる。 使用済みのアーキテクチャは、テキストの詳細をよりよく分析するために、入力されたcnn層でより多くのフィルタで構成されている。 異なるデータセットに対する定量的および定性的な評価は,高解像度かつ鋭いテキストイメージを再構成するためのモデルの性能を示す。 さらに, 計算時間の観点から, 提案手法は, 最先端技術と比較して, 競争性能が向上する。

Deep convolutional neural networks (Deep CNN) have achieved hopeful performance for single image super-resolution. In particular, the Deep CNN skip Connection and Network in Network (DCSCN) architecture has been successfully applied to natural images super-resolution. In this work we propose an approach called SDT-DCSCN that jointly performs super-resolution and deblurring of low-resolution blurry text images based on DCSCN. Our approach uses subsampled blurry images in the input and original sharp images as ground truth. The used architecture is consists of a higher number of filters in the input CNN layer to a better analysis of the text details. The quantitative and qualitative evaluation on different datasets prove the high performance of our model to reconstruct high-resolution and sharp text images. In addition, in terms of computational time, our proposed method gives competitive performance compared to state of the art methods.
翻訳日:2022-01-22 12:07:21 公開日:2022-01-15
# (参考訳) 大規模在庫最適化:recurrent-neural-networks-inspired simulationアプローチ

Large-Scale Inventory Optimization: A Recurrent-Neural-Networks-Inspired Simulation Approach ( http://arxiv.org/abs/2201.05868v1 )

ライセンス: CC BY 4.0
Tan Wan and L. Jeff Hong(参考訳) 多くの大規模生産ネットワークには、数千種類の最終製品と数万から数十万の原材料と中間製品が含まれる。 これらのネットワークは、在庫管理の複雑な決定に直面しており、しばしば在庫モデルには複雑であり、シミュレーションモデルには大きすぎる。 本稿では、リカレントニューラルネットワーク(RNN)の効率的な計算ツールと生産ネットワークの構造情報を組み合わせることで、既存のシミュレーション手法よりも数千倍高速で、適切な時間で大規模在庫最適化問題を解くことができるRNNインスパイアされたシミュレーション手法を提案する。

Many large-scale production networks include thousands types of final products and tens to hundreds thousands types of raw materials and intermediate products. These networks face complicated inventory management decisions, which are often too complicated for inventory models and too large for simulation models. In this paper, by combing efficient computational tools of recurrent neural networks (RNN) and the structural information of production networks, we propose a RNN inspired simulation approach that may be thousands times faster than existing simulation approach and is capable of solving large-scale inventory optimization problems in a reasonable amount of time.
翻訳日:2022-01-22 11:50:21 公開日:2022-01-15
# (参考訳) 異常セグメンテーションのためのプロトタイプガイドネットワーク

Prototype Guided Network for Anomaly Segmentation ( http://arxiv.org/abs/2201.05869v1 )

ライセンス: CC BY 4.0
Yiqing Hao and Yi Jin and Gaoyun An(参考訳) セマンティックセグメンテーション法は画像中の異常物体を直接識別することはできない。 この現実的な設定から異常分割アルゴリズムは、分布内オブジェクトと分布外オブジェクト(ood)を区別し、画素の異常確率を出力することができる。 本稿では,限定的な注釈付き画像から分布内トレーニングデータのセマンティックプロトタイプを抽出するために,PGAN(Prototype Guided Anomaly segmentation Network)を提案する。 モデルでは、プロトタイプを用いて階層的なカテゴリの意味情報をモデル化し、OODピクセルを識別する。 提案したPGANモデルはセマンティックセグメンテーションネットワークとプロトタイプ抽出ネットワークを含む。 プロトタイプの最適化には類似性対策が採用されている。 学習された意味的プロトタイプはカテゴリ意味論として使われ、テスト画像から抽出された特徴と類似性を比較し、意味的セグメンテーション予測を生成する。 提案するプロトタイプ抽出ネットワークは,ほとんどのセマンティックセグメンテーションネットワークに統合して,OODピクセルを認識することもできる。 StreetHazardsデータセットでは、提案されたPGANモデルは、異常セグメンテーションのためのmIoUを53.4%生成した。 実験の結果,PGANは異常セグメンテーションタスクにおいてSOTA性能を実現することができた。

Semantic segmentation methods can not directly identify abnormal objects in images. Anomaly Segmentation algorithm from this realistic setting can distinguish between in-distribution objects and Out-Of-Distribution (OOD) objects and output the anomaly probability for pixels. In this paper, a Prototype Guided Anomaly segmentation Network (PGAN) is proposed to extract semantic prototypes for in-distribution training data from limited annotated images. In the model, prototypes are used to model the hierarchical category semantic information and distinguish OOD pixels. The proposed PGAN model includes a semantic segmentation network and a prototype extraction network. Similarity measures are adopted to optimize the prototypes. The learned semantic prototypes are used as category semantics to compare the similarity with features extracted from test images and then to generate semantic segmentation prediction. The proposed prototype extraction network can also be integrated into most semantic segmentation networks and recognize OOD pixels. On the StreetHazards dataset, the proposed PGAN model produced mIoU of 53.4% for anomaly segmentation. The experimental results demonstrate PGAN may achieve the SOTA performance in the anomaly segmentation tasks.
翻訳日:2022-01-22 11:49:11 公開日:2022-01-15
# (参考訳) トルコ語の自動辞書化

Automatic Lexical Simplification for Turkish ( http://arxiv.org/abs/2201.05878v1 )

ライセンス: CC BY 4.0
Ahmet Yavuz Uluslu(参考訳) 本稿では,トルコ語における最初の語彙合成システムについて述べる。 最近のテキスト単純化の取り組みは、手作業による簡易コーパスと、対象テキストを単語レベルと文レベルの両方で分析できる包括的なnlpツールに依存している。 トルコ語は形態学的に豊かな凝集言語であり、屈折事件の適切な処理など独自の考察を必要とする。 利用可能なリソースと工業的強化ツールの観点からは、低リソース言語であるため、テキストの簡易化が難しくなる。 本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。

In this paper, we present the first automatic lexical simplification system for the Turkish language. Recent text simplification efforts rely on manually crafted simplified corpora and comprehensive NLP tools that can analyse the target text both in word and sentence levels. Turkish is a morphologically rich agglutinative language that requires unique considerations such as the proper handling of inflectional cases. Being a low-resource language in terms of available resources and industrial-strength tools, it makes the text simplification task harder to approach. We present a new text simplification pipeline based on pretrained representation model BERT together with morphological features to generate grammatically correct and semantically appropriate word-level simplifications.
翻訳日:2022-01-22 11:43:57 公開日:2022-01-15
# (参考訳) Out-of-distribution pseudo-inputs trainingを用いたロバスト不確実性推定

Robust uncertainty estimates with out-of-distribution pseudo-inputs training ( http://arxiv.org/abs/2201.05890v1 )

ライセンス: CC BY 4.0
Pierre Segonne, Yevgen Zainchkovskyy, S{\o}ren Hauberg(参考訳) 確率モデルはしばしばニューラルネットワークを使って予測の不確実性を制御する。 しかし、od(out-of-distribution)予測を行う場合、ニューラルネットワークの制御不能な外挿特性は不確実性予測に乏しい。 そのようなモデルは、彼らが何を知らないのかを知らないため、予期せぬ入力の堅牢性を直接制限する。 これに対抗するために,信頼度の高いデータを与えていない不確実性予測器を明示的に訓練することを提案する。 データなしではトレーニングできないので、入力空間の有益低密度領域で擬似入力を生成するメカニズムを提供し、モデルの不確実性の上に事前分布をキャストする実用的なベイズフレームワークでこれらを活用する方法を示す。 包括的評価により,回帰や生成モデリングといった多様なタスクにおける最先端の性能を維持しつつ,不確実性の頑健で解釈可能な予測が得られることを実証する。

Probabilistic models often use neural networks to control their predictive uncertainty. However, when making out-of-distribution (OOD)} predictions, the often-uncontrollable extrapolation properties of neural networks yield poor uncertainty predictions. Such models then don't know what they don't know, which directly limits their robustness w.r.t unexpected inputs. To counter this, we propose to explicitly train the uncertainty predictor where we are not given data to make it reliable. As one cannot train without data, we provide mechanisms for generating pseudo-inputs in informative low-density regions of the input space, and show how to leverage these in a practical Bayesian framework that casts a prior distribution over the model uncertainty. With a holistic evaluation, we demonstrate that this yields robust and interpretable predictions of uncertainty while retaining state-of-the-art performance on diverse tasks such as regression and generative modelling
翻訳日:2022-01-22 11:36:55 公開日:2022-01-15
# (参考訳) 構文依存アノテーションの差異の自動補正

Automatic Correction of Syntactic Dependency Annotation Differences ( http://arxiv.org/abs/2201.05891v1 )

ライセンス: CC BY 4.0
Andrew Zupon, Andrew Carnie, Michael Hammond, Mihai Surdeanu(参考訳) データセット間のアノテーションの不整合は、リソース豊富な言語に比べてノイズや一貫性のないデータが簡単に置き換えられない低リソースのNLPに問題を引き起こす可能性がある。 本稿では,依存関係解析コーパス間のアノテーションミスマッチを自動的に検出する手法と,それらのミスマッチを自動変換する3つの方法を提案する。 これら3つの手法は、新しいコーパスの見知らぬ例と既存のコーパスの同様の例を比較することに依存する。 これら3つの方法には、既存のコーパスの最も頻繁なタグを使用した単純な語彙置換、より広いサンプルプールを考慮したGloVe埋め込みベースの置換、コンテキスト化された埋め込みを使用して特定のデータに微調整された例を提供するBERT埋め込みベースの置換が含まれる。 次に、変換されたデータと変換されていないデータに基づいて、これらの変換をStanza (Qi et al. 2020) と Parsing as Tagging (PaT) (Vacareanu et al. 2020) に再トレーニングすることで評価する。 変換を適用すると、多くの場合、性能が大幅に向上することがわかった。 両者の相違点が観察された。 Stanzaは2次アルゴリズムを備えたより複雑なアーキテクチャであるため、トレーニングに時間がかかるが、少ないデータでより一般化することができる。 PaTパーサは、線形アルゴリズムでよりシンプルなアーキテクチャを持ち、トレーニング時間を短縮するが、同等またはより良いパフォーマンスに到達するためにより多くのトレーニングデータを必要とする。

Annotation inconsistencies between data sets can cause problems for low-resource NLP, where noisy or inconsistent data cannot be as easily replaced compared with resource-rich languages. In this paper, we propose a method for automatically detecting annotation mismatches between dependency parsing corpora, as well as three related methods for automatically converting the mismatches. All three methods rely on comparing an unseen example in a new corpus with similar examples in an existing corpus. These three methods include a simple lexical replacement using the most frequent tag of the example in the existing corpus, a GloVe embedding-based replacement that considers a wider pool of examples, and a BERT embedding-based replacement that uses contextualized embeddings to provide examples fine-tuned to our specific data. We then evaluate these conversions by retraining two dependency parsers -- Stanza (Qi et al. 2020) and Parsing as Tagging (PaT) (Vacareanu et al. 2020) -- on the converted and unconverted data. We find that applying our conversions yields significantly better performance in many cases. Some differences observed between the two parsers are observed. Stanza has a more complex architecture with a quadratic algorithm, so it takes longer to train, but it can generalize better with less data. The PaT parser has a simpler architecture with a linear algorithm, speeding up training time but requiring more training data to reach comparable or better performance.
翻訳日:2022-01-22 10:27:53 公開日:2022-01-15
# (参考訳) 計算モデルの非可換幾何学とフラッドクイバー変数の均一化

Noncommutative Geometry of Computational Models and Uniformization for Framed Quiver Varieties ( http://arxiv.org/abs/2201.05900v1 )

ライセンス: CC BY 4.0
George Jeffreys and Siu-Cheong Lau(参考訳) 量子オートマトンを動機とする非可換代数とニアリングを用いて計算ニューラルネットワークの数学的構成を定式化する。 対応するフレームド・クイバー表現のモジュライ空間について検討し、均一化の観点からユークリッド型および非コンパクト型のモジュライを求める。

We formulate a mathematical setup for computational neural networks using noncommutative algebras and near-rings, in motivation of quantum automata. We study the moduli space of the corresponding framed quiver representations, and find moduli of Euclidean and non-compact types in light of uniformization.
翻訳日:2022-01-22 10:17:03 公開日:2022-01-15
# (参考訳) 組織的視点を用いたオントロジー自動生成フレームワーク

An Automatic Ontology Generation Framework with An Organizational Perspective ( http://arxiv.org/abs/2201.05910v1 )

ライセンス: CC BY 4.0
Samaa Elnagar, Victoria Yoon and Manoj A.Thomas(参考訳) オントロジーは知識の意味的な表現で知られている。 オントロジは自動的に進化せず、各ドメインで起こる更新を反映する。 この制限に対処するため、研究者たちは非構造化テキストコーパスから自動オントロジー生成を要求した。 残念なことに、構造化されていないテキストコーパスからオントロジーを生成するシステムはドメイン固有であり、手動で介入する必要がある。 さらに、概念連鎖の生成の不確実性と、同じ概念の公理を見つけるのが困難である。 知識グラフ(kgs)は、知識の動的表現の強力なモデルとして登場した。 しかし、KGには多くの品質制限があり、大幅な改良が必要である。 本研究の目的は、非構造化テキストコーパスをドメイン一貫したオントロジ形式に変換する新しいドメイン非依存自動オントロジ生成フレームワークを開発することである。 このフレームワークは、非構造化テキストコーパスからkgを生成し、ドメインオントロジーと整合するように改善および修正する。 自動生成オントロジーのパワーは、kgの動的特徴とオントロジーの品質特徴を統合することである。

Ontologies have been known for their semantic representation of knowledge. ontologies cannot automatically evolve to reflect updates that occur in respective domains. To address this limitation, researchers have called for automatic ontology generation from unstructured text corpus. Unfortunately, systems that aim to generate ontologies from unstructured text corpus are domain-specific and require manual intervention. In addition, they suffer from uncertainty in creating concept linkages and difficulty in finding axioms for the same concept. Knowledge Graphs (KGs) has emerged as a powerful model for the dynamic representation of knowledge. However, KGs have many quality limitations and need extensive refinement. This research aims to develop a novel domain-independent automatic ontology generation framework that converts unstructured text corpus into domain consistent ontological form. The framework generates KGs from unstructured text corpus as well as refine and correct them to be consistent with domain ontologies. The power of the proposed automatically generated ontology is that it integrates the dynamic features of KGs and the quality features of ontologies.
翻訳日:2022-01-22 10:15:39 公開日:2022-01-15
# (参考訳) ViTBIS:バイオメディカルイメージセグメンテーションのためのビジョントランス

ViTBIS: Vision Transformer for Biomedical Image Segmentation ( http://arxiv.org/abs/2201.05920v1 )

ライセンス: CC BY 4.0
Abhinav Sagar(参考訳) 本稿では、バイオメディカルイメージセグメンテーションのためのビジョントランスフォーマー(ViTBIS)という新しいネットワークを提案する。 私たちのネットワークでは、入力機能マップをエンコーダとデコーダの両方で、1$、3$、3$、5$の3つの部分に分けています。 concatオペレータは、注意機構を内蔵した3つの連続したトランスフォーマーブロックに供給される前に、機能をマージするために使用される。 スキップ接続はエンコーダとデコーダを接続するために使用される。 同様に、変換ブロックとマルチスケールアーキテクチャは、出力セグメントマップを生成するために線形投影される前にデコーダで使用される。 我々は,Synapse Multi-organ segmentation dataset, Automated heartc diagnosis Challenge dataset, Brain tumour MRI segmentation dataset, Spleen CT segmentation datasetを用いて,我々のネットワークの性能を検証した。 ベルやホイッスルがなければ,我々のネットワークは,diceスコアとハウスドルフ距離を評価指標として,以前のart cnnおよびtransformerベースのモデルの大部分を上回っています。

In this paper, we propose a novel network named Vision Transformer for Biomedical Image Segmentation (ViTBIS). Our network splits the input feature maps into three parts with $1\times 1$, $3\times 3$ and $5\times 5$ convolutions in both encoder and decoder. Concat operator is used to merge the features before being fed to three consecutive transformer blocks with attention mechanism embedded inside it. Skip connections are used to connect encoder and decoder transformer blocks. Similarly, transformer blocks and multi scale architecture is used in decoder before being linearly projected to produce the output segmentation map. We test the performance of our network using Synapse multi-organ segmentation dataset, Automated cardiac diagnosis challenge dataset, Brain tumour MRI segmentation dataset and Spleen CT segmentation dataset. Without bells and whistles, our network outperforms most of the previous state of the art CNN and transformer based models using Dice score and the Hausdorff distance as the evaluation metrics.
翻訳日:2022-01-22 09:59:41 公開日:2022-01-15
# (参考訳) スペクトル情報に基づく大規模グラフ集合のサンプルフレシェ平均の理論的解析と計算

Theoretical analysis and computation of the sample Frechet mean for sets of large graphs based on spectral information ( http://arxiv.org/abs/2201.05923v1 )

ライセンス: CC BY 4.0
Daniel Ferguson and Francois G. Meyer(参考訳) グラフの集合の位置(平均、中央値)を特徴づけるためには、グラフ集合はユークリッド空間ではないので、計量空間に適合する中心性の概念が必要である。 標準的なアプローチは、フレシェ平均を考えることである。 本研究では,各隣接行列の固有値間のノルムによって定義される擬メトリックとグラフの集合を同値化する。 編集距離とは異なり、この擬似測度は複数スケールの構造変化を明らかにし、グラフ値データに対する様々な統計問題の研究に適している。 本稿では,この擬似メトリックを用いて,非方向の未重み付きグラフの集合のサンプルFrechet平均に対する近似を計算するアルゴリズムについて述べる。

To characterize the location (mean, median) of a set of graphs, one needs a notion of centrality that is adapted to metric spaces, since graph sets are not Euclidean spaces. A standard approach is to consider the Frechet mean. In this work, we equip a set of graphs with the pseudometric defined by the norm between the eigenvalues of their respective adjacency matrix. Unlike the edit distance, this pseudometric reveals structural changes at multiple scales, and is well adapted to studying various statistical problems for graph-valued data. We describe an algorithm to compute an approximation to the sample Frechet mean of a set of undirected unweighted graphs with a fixed size using this pseudometric.
翻訳日:2022-01-22 09:48:38 公開日:2022-01-15
# (参考訳) ビッグデータ管理の特徴付け

Characterizing Big Data Management ( http://arxiv.org/abs/2201.05929v1 )

ライセンス: CC BY 4.0
Rogerio Rossi and Kechi Hirama(参考訳) ビッグデータ管理は、多くの分野の組織にとって現実的であり、ビッグデータモデリング、ストレージと検索、分析、視覚化を含む一連の課題を表している。 しかしながら、あらゆる組織におけるビッグデータの管理を促進するためには、技術資源や人材、プロセスが不可欠であり、大量のデータからの情報や知識が意思決定を支援する。 ビッグデータ管理は,これら3つの次元 – テクノロジ,人,プロセス – でサポートすることができる。 そこで本稿では, ビッグデータのストレージ, 分析, 可視化に関連する技術次元, ビッグデータの人的側面, さらに, ビッグデータ管理の技術的・ビジネス的側面に関わるプロセス管理の側面について論じる。

Big data management is a reality for an increasing number of organizations in many areas and represents a set of challenges involving big data modeling, storage and retrieval, analysis and visualization. However, technological resources, people and processes are crucial to facilitate the management of big data in any kind of organization, allowing information and knowledge from a large volume of data to support decision-making. Big data management can be supported by these three dimensions: technology, people and processes. Hence, this article discusses these dimensions: the technological dimension that is related to storage, analytics and visualization of big data; the human aspects of big data; and, in addition, the process management dimension that involves in a technological and business approach the aspects of big data management.
翻訳日:2022-01-22 09:14:19 公開日:2022-01-15
# グラフニューラルネットワークによるエッジベーステンソル予測

Edge-based Tensor prediction via graph neural networks ( http://arxiv.org/abs/2201.05770v1 )

ライセンス: Link先を確認
Yang Zhong, Hongyu Yu, Xingao Gong, Hongjun Xiang(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は分子や結晶の物性を予測する上で極めて高い効率と精度を示しており、密度汎関数理論(DFT)の後、次世代の物質シミュレーションツールとして期待されている。 しかし、現在、結晶のテンソル特性を直接予測するための一般的なMPNNフレームワークが欠如している。 本研究では、結晶のテンソル特性を結晶中のすべての原子のテンソル寄与の平均に分解し、各原子のテンソル寄与を、原子を接続するエッジの方向のテンソル投影の和として拡張できるという、テンソル特性の予測のための一般的な枠組みを提案した。 そこで, 力ベクトル, ボルン有効電荷 (BEC) , 誘電体 (DL) および圧電体 (PZ) テンソルのエッジベース展開を提案した。 これらの展開は回転不変であるが、テンソル展開の係数は回転不変スカラーであり、生成エネルギーやバンドギャップのような物理量に類似している。 このテンソル予測フレームワークの利点は、ネットワーク自体が同変である必要はないことである。 そこで本研究では,変分グラフニューラルネットワークに基づいて,エッジベーステンソル予測グラフニューラルネットワーク(ETGNN)モデルを直接設計し,テンソルの予測を行う。 このテンソル予測フレームワークの有効性と精度は、ETGNNが拡張したシステム、ランダムな摂動構造、JARVIS-DFTデータセットで検証した。 このテンソル予測フレームワークは、ほぼすべてのGNNに対して一般的であり、将来的にはより高度なGNNで高い精度を達成することができる。

Message-passing neural networks (MPNN) have shown extremely high efficiency and accuracy in predicting the physical properties of molecules and crystals, and are expected to become the next-generation material simulation tool after the density functional theory (DFT). However, there is currently a lack of a general MPNN framework for directly predicting the tensor properties of the crystals. In this work, a general framework for the prediction of tensor properties was proposed: the tensor property of a crystal can be decomposed into the average of the tensor contributions of all the atoms in the crystal, and the tensor contribution of each atom can be expanded as the sum of the tensor projections in the directions of the edges connecting the atoms. On this basis, the edge-based expansions of force vectors, Born effective charges (BECs), dielectric (DL) and piezoelectric (PZ) tensors were proposed. These expansions are rotationally equivariant, while the coefficients in these tensor expansions are rotationally invariant scalars which are similar to physical quantities such as formation energy and band gap. The advantage of this tensor prediction framework is that it does not require the network itself to be equivariant. Therefore, in this work, we directly designed the edge-based tensor prediction graph neural network (ETGNN) model on the basis of the invariant graph neural network to predict tensors. The validity and high precision of this tensor prediction framework were shown by the tests of ETGNN on the extended systems, random perturbed structures and JARVIS-DFT datasets. This tensor prediction framework is general for nearly all the GNNs and can achieve higher accuracy with more advanced GNNs in the future.
翻訳日:2022-01-19 19:00:30 公開日:2022-01-15
# グラフに基づくうわさ検出への攻撃に対する解釈可能かつ効果的な強化学習

Interpretable and Effective Reinforcement Learning for Attacking against Graph-based Rumor Detection ( http://arxiv.org/abs/2201.05819v1 )

ライセンス: Link先を確認
Yuefei Lyu, Xiaoyu Yang, Jiaxin Liu, Sihong Xie, Xi Zhang(参考訳) ソーシャルネットワークは噂によって汚染され、機械学習モデルによって検出される。 しかし、モデルは脆弱であり、脆弱性を理解することは噂の検出に不可欠である。 特定の脆弱性は、グラフへの依存性と疑わしいランキングのためであり、限られたノイズデータからエンドツーエンドのメソッドを学ぶのが困難である。 ブラックボックス検出器を用いて, 依存関係を捕捉し, 強化学習者が検出器出力に基づいて効果的かつ解釈可能な攻撃ポリシーを学習できるように設計する。 学習をスピードアップするために (i)その効果に比例する個々人の攻撃段階に対する遅滞報酬を分解する信用割当方法 (ii) 時間依存制御は、大きなグラフと多くの攻撃ステップによるばらつきを減らすために変動する。 2つのソーシャルな噂データセットについて示す。 i) ルールベースの攻撃やエンドツーエンドアプローチと比較しての攻撃の有効性 (ii)提案のクレジット割当戦略及び制御変動の有用性 (iii)強い攻撃を発生させる際の方針の解釈可能性。

Social networks are polluted by rumors, which can be detected by machine learning models. However, the models are fragile and understanding the vulnerabilities is critical to rumor detection. Certain vulnerabilities are due to dependencies on the graphs and suspiciousness ranking and are difficult for end-to-end methods to learn from limited noisy data. With a black-box detector, we design features capturing the dependencies to allow a reinforcement learning to learn an effective and interpretable attack policy based on the detector output. To speed up learning, we devise: (i) a credit assignment method that decomposes delayed rewards to individual attacking steps proportional to their effects; (ii) a time-dependent control variate to reduce variance due to large graphs and many attacking steps. On two social rumor datasets, we demonstrate: (i) the effectiveness of the attacks compared to rule-based attacks and end-to-end approaches; (ii) the usefulness of the proposed credit assignment strategy and control variate; (iii) interpretability of the policy when generating strong attacks.
翻訳日:2022-01-19 19:00:02 公開日:2022-01-15
# Common Phone:ロバスト音響モデリングのための多言語データセット

Common Phone: A Multilingual Dataset for Robust Acoustic Modelling ( http://arxiv.org/abs/2201.05912v1 )

ライセンス: Link先を確認
Philipp Klumpp and Tom\'as Arias-Vergara and Paula Andrea P\'erez-Toro and Elmar N\"oth and Juan Rafael Orozco-Arroyave(参考訳) 芸術音響モデルの現状は、1億以上のパラメータを簡単に構成できる。 この増大する複雑性は、最終的な決定関数の適切な一般化を維持するために、より大きなトレーニングデータセットを必要とする。 理想的なデータセットは必ずしも大きなものではなく、ユニークな話者の量、ハードウェアの利用、様々な記録条件に関して大きい。 これにより、機械学習モデルはパラメータ推定中にできるだけ多くのドメイン固有の入力空間を探索できる。 これは、MozillaのCommon Voiceプロジェクトを通じて、76.000人以上のコントリビュータから録音された性別バランスのとれた多言語コーパスである。 約116時間の音声からなり、自動生成音声セグメンテーションが強化される。 Wav2Vec 2.0音響モデルはCommon Phoneで訓練され、音韻認識を行い、生成された音韻アノテーションの品質を検証する。 このアーキテクチャは、テストセット全体のPERが18.1%に達し、101のユニークな音声記号で計算され、個々の言語間でわずかに異なる。 音響モデルの研究と応用のギャップを埋めるために,Common Phoneは十分な可変性と信頼性のある音声アノテーションを提供する。

Current state of the art acoustic models can easily comprise more than 100 million parameters. This growing complexity demands larger training datasets to maintain a decent generalization of the final decision function. An ideal dataset is not necessarily large in size, but large with respect to the amount of unique speakers, utilized hardware and varying recording conditions. This enables a machine learning model to explore as much of the domain-specific input space as possible during parameter estimation. This work introduces Common Phone, a gender-balanced, multilingual corpus recorded from more than 76.000 contributors via Mozilla's Common Voice project. It comprises around 116 hours of speech enriched with automatically generated phonetic segmentation. A Wav2Vec 2.0 acoustic model was trained with the Common Phone to perform phonetic symbol recognition and validate the quality of the generated phonetic annotation. The architecture achieved a PER of 18.1 % on the entire test set, computed with all 101 unique phonetic symbols, showing slight differences between the individual languages. We conclude that Common Phone provides sufficient variability and reliable phonetic annotation to help bridging the gap between research and application of acoustic models.
翻訳日:2022-01-19 18:59:48 公開日:2022-01-15
# シンボリック音楽感情認識のための新しいマルチタスク学習法

A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition ( http://arxiv.org/abs/2201.05782v1 )

ライセンス: Link先を確認
Jibao Qiu and C. L. Philip Chen and Tong Zhang(参考訳) Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。 それまでの研究は主に(マスク)言語モデルによる事前学習を通してより良い表現を学ぶことに集中していたが、音楽の本質的な構造は無視された。 本稿では,音楽の本質的な構造から派生した感情関連補助課題に感情認識タスクを組み込んだ,SMERのためのシンプルなマルチタスクフレームワークを提案する。 その結果,マルチタスクフレームワークを異なるモデルに適用できることがわかった。 さらに,補助タスクのラベルの取得も容易であり,マルチタスクの手法では感情以外の手作業によるラベルの付与は不要である。 2つの公開データセット (EMOPIA と VGMIDI) を用いて実験を行い,本手法がSMERタスクにおいて優れた性能を示すことを示す。 具体的には、EMOPIAデータセットでは4.17絶対点から67.58点、VGMIDIデータセットでは1.97絶対点から55.85点まで精度が向上した。 本稿では,マルチタスク手法の有効性についても検討した。

Symbolic Music Emotion Recognition(SMER) is to predict music emotion from symbolic data, such as MIDI and MusicXML. Previous work mainly focused on learning better representation via (mask) language model pre-training but ignored the intrinsic structure of the music, which is extremely important to the emotional expression of music. In this paper, we present a simple multi-task framework for SMER, which incorporates the emotion recognition task with other emotion-related auxiliary tasks derived from the intrinsic structure of the music. The results show that our multi-task framework can be adapted to different models. Moreover, the labels of auxiliary tasks are easy to be obtained, which means our multi-task methods do not require manually annotated labels other than emotion. Conducting on two publicly available datasets (EMOPIA and VGMIDI), the experiments show that our methods perform better in SMER task. Specifically, accuracy has been increased by 4.17 absolute point to 67.58 in EMOPIA dataset, and 1.97 absolute point to 55.85 in VGMIDI dataset. Ablation studies also show the effectiveness of multi-task methods designed in this paper.
翻訳日:2022-01-19 18:54:52 公開日:2022-01-15
# 物理デリバティブ:物理フォワードプロパゲーションによる政策勾配の計算

Physical Derivatives: Computing policy gradients by physical forward-propagation ( http://arxiv.org/abs/2201.05830v1 )

ライセンス: Link先を確認
Arash Mehrjou, Ashkan Soleymani, Stefan Bauer, Bernhard Sch\"olkopf(参考訳) モデルフリーとモデルベース強化学習はスペクトルの2つの端である。 動的モデルなしで良いポリシーを学ぶことは、禁止的に高価である。 システムの動的モデルを学ぶことは、ポリシーを学ぶコストを削減できるが、正確でなければバイアスをもたらすこともある。 本研究では, 遷移モデルの代わりに, パラメータの摂動に対する軌道の感度を学習する中間地盤を提案する。 これにより、実際のモデルを知ることなく、名目ポリシーのセットの周りの物理システムの局所的な振る舞いを予測できる。 提案手法は、広範囲な実験において、カスタム構築された物理ロボットを用いて評価し、実際的なアプローチの実現可能性を示す。 本手法を物理システムに適用する場合の潜在的な課題を調査し,その解決法を提案する。

Model-free and model-based reinforcement learning are two ends of a spectrum. Learning a good policy without a dynamic model can be prohibitively expensive. Learning the dynamic model of a system can reduce the cost of learning the policy, but it can also introduce bias if it is not accurate. We propose a middle ground where instead of the transition model, the sensitivity of the trajectories with respect to the perturbation of the parameters is learned. This allows us to predict the local behavior of the physical system around a set of nominal policies without knowing the actual model. We assay our method on a custom-built physical robot in extensive experiments and show the feasibility of the approach in practice. We investigate potential challenges when applying our method to physical systems and propose solutions to each of them.
翻訳日:2022-01-19 18:41:26 公開日:2022-01-15
# 治療効果リスク:境界と推論

Treatment Effect Risk: Bounds and Inference ( http://arxiv.org/abs/2201.05893v1 )

ライセンス: Link先を確認
Nathan Kallus(参考訳) 平均治療効果(ATE)は社会福祉の変化を測定するため、たとえ肯定的であっても、人口の約10%に悪影響を及ぼすリスクがある。 このようなリスクを評価することは難しいが、一つの個別治療効果(ITE)が観察されないため、10%の最悪の影響は特定できない。 本稿では,ICT分布のリスク条件値(CVaR)として定式化されたこの重要なリスク尺度をどう評価するかを検討する。 我々は,前処理条件の共変量を利用して,covariate-conditional average treatment effect (cate)関数によって与えられるite-cvar上の最上下限を特徴付ける。 いくつかの境界は、複素CATE関数を単一の計量に要約したものと解釈することもでき、有界であることとは無関係に興味を持つ。 次に,これらの境界をデータから効率的に推定し,信頼区間を構築する方法について検討する。 これは、未知のCATE関数の分布を理解する必要があるため、ランダム化実験においても困難である。 我々は、この問題を克服し、CATEや他のニュアンスをブラックボックス機械学習によって推定したり、矛盾なく見積もったりしても、良好な統計特性を享受できるデバイアス法を開発した。 フランスの求職カウンセリングサービスに対する仮定的な変化を研究することで、我々の限界と推論は、小さな社会的利益が実質的な人口減少に負の影響をもたらすことを示している。

Since the average treatment effect (ATE) measures the change in social welfare, even if positive, there is a risk of negative effect on, say, some 10% of the population. Assessing such risk is difficult, however, because any one individual treatment effect (ITE) is never observed so the 10% worst-affected cannot be identified, while distributional treatment effects only compare the first deciles within each treatment group, which does not correspond to any 10%-subpopulation. In this paper we consider how to nonetheless assess this important risk measure, formalized as the conditional value at risk (CVaR) of the ITE distribution. We leverage the availability of pre-treatment covariates and characterize the tightest-possible upper and lower bounds on ITE-CVaR given by the covariate-conditional average treatment effect (CATE) function. Some bounds can also be interpreted as summarizing a complex CATE function into a single metric and are of interest independently of being a bound. We then proceed to study how to estimate these bounds efficiently from data and construct confidence intervals. This is challenging even in randomized experiments as it requires understanding the distribution of the unknown CATE function, which can be very complex if we use rich covariates so as to best control for heterogeneity. We develop a debiasing method that overcomes this and prove it enjoys favorable statistical properties even when CATE and other nuisances are estimated by black-box machine learning or even inconsistently. Studying a hypothetical change to French job-search counseling services, our bounds and inference demonstrate a small social benefit entails a negative impact on a substantial subpopulation.
翻訳日:2022-01-19 18:41:15 公開日:2022-01-15
# StolenEncoder: トレーニング済みのエンコーダをステアリング

StolenEncoder: Stealing Pre-trained Encoders ( http://arxiv.org/abs/2201.05889v1 )

ライセンス: Link先を確認
Yupei Liu and Jinyuan Jia and Hongbin Liu and Neil Zhenqiang Gong(参考訳) 事前訓練エンコーダは、多くの下流タスクに使用できる汎用機能抽出器である。 自己教師型学習の最近の進歩は、大量のラベルのないデータを使って、非常に効果的なエンコーダを事前訓練することができる。 事前トレーニングされたエンコーダは、トレーニングが大量のデータと計算リソースを必要とすることや、公開リリースがaiの誤用を促進すること、例えばディープフェイク生成(deepfakes generation)を必要とするため、機密視される可能性がある。 本稿では,事前学習した画像エンコーダを盗むStolenEncoderと呼ばれる攻撃を提案する。 我々は、Googleが事前学習したImageNetエンコーダ、OpenAIが事前学習したCLIPエンコーダ、有償のEaaSとしてデプロイされたClrifaiのGeneral Embeddingエンコーダを含む、3つの実世界のターゲットエンコーダに対して、StolenEncoderを評価する。 その結果, 盗まれたエンコーダは, ターゲットエンコーダと類似した機能を持つことがわかった。 特に、ターゲットエンコーダと盗まれたエンコーダ上に構築された下流分類器も同様の精度である。 さらに、StolenEncoderを使ってターゲットエンコーダを盗むには、スクラッチから事前トレーニングするよりも、はるかに少ないデータと計算リソースが必要になる。 また,ターゲットエンコーダが生成する特徴ベクトルを摂動する3つのディフェンスについても検討する。 我々の評価では、これらの防御はStolenEncoderを緩和するのに十分ではない。

Pre-trained encoders are general-purpose feature extractors that can be used for many downstream tasks. Recent progress in self-supervised learning can pre-train highly effective encoders using a large volume of unlabeled data, leading to the emerging encoder as a service (EaaS). A pre-trained encoder may be deemed confidential because its training often requires lots of data and computation resources as well as its public release may facilitate misuse of AI, e.g., for deepfakes generation. In this paper, we propose the first attack called StolenEncoder to steal pre-trained image encoders. We evaluate StolenEncoder on multiple target encoders pre-trained by ourselves and three real-world target encoders including the ImageNet encoder pre-trained by Google, CLIP encoder pre-trained by OpenAI, and Clarifai's General Embedding encoder deployed as a paid EaaS. Our results show that the encoders stolen by StolenEncoder have similar functionality with the target encoders. In particular, the downstream classifiers built upon a target encoder and a stolen encoder have similar accuracy. Moreover, stealing a target encoder using StolenEncoder requires much less data and computation resources than pre-training it from scratch. We also explore three defenses that perturb feature vectors produced by a target encoder. Our evaluation shows that these defenses are not enough to mitigate StolenEncoder.
翻訳日:2022-01-19 18:38:47 公開日:2022-01-15
# フレキシブルビデオ圧縮センシングのための高精度な深部展開再構成ネットワーク「Two-Stage」

Two-Stage is Enough: A Concise Deep Unfolding Reconstruction Network for Flexible Video Compressive Sensing ( http://arxiv.org/abs/2201.05810v1 )

ライセンス: Link先を確認
Siming Zheng, Xiaoyu Yang, Xin Yuan(参考訳) 本稿では,ビデオ圧縮センシング(VCS)の深部展開・ローリング構造における再構成問題について考察する。 しかし、我々は最小限のステージを用いて柔軟で簡潔なモデルを構築することを目指している。 逆問題に使用される既存のディープ・アンフォールディング・ネットワークとは異なり、2段階のディープ・アンフォールディング・ネットワークは、VCSにおける2段階のディープ・アンフォールディング・ネットワーク(SOTA)の結果(シングルステージモデルであるRevSCIよりPSNRが1.7dB上昇している)につながる可能性があることを示す。 提案手法は,新しいマスクへの適応特性を持ち,深い展開の利点を活かして,追加のトレーニングをすることなく大規模データへのスケールアップが可能となる。 さらに,提案するカラーvcのモデルを拡張し,共同再構成と復調を行う。 実験の結果、我々の2段階モデルもカラーVCS再構成においてSOTAを達成したことが示され、PSNRの2.3dBは、プラグアンドプレイフレームワークに基づく以前のSOTAアルゴリズムよりも向上した。 さらに,カラーVCS再構成のマスク変調やスケールサイズにも柔軟に対応し,異なるハードウェアシステムに単一のトレーニングネットワークを適用することができることがわかった。 コードとモデルは一般公開される予定だ。

We consider the reconstruction problem of video compressive sensing (VCS) under the deep unfolding/rolling structure. Yet, we aim to build a flexible and concise model using minimum stages. Different from existing deep unfolding networks used for inverse problems, where more stages are used for higher performance but without flexibility to different masks and scales, hereby we show that a 2-stage deep unfolding network can lead to the state-of-the-art (SOTA) results (with a 1.7dB gain in PSNR over the single stage model, RevSCI) in VCS. The proposed method possesses the properties of adaptation to new masks and ready to scale to large data without any additional training thanks to the advantages of deep unfolding. Furthermore, we extend the proposed model for color VCS to perform joint reconstruction and demosaicing. Experimental results demonstrate that our 2-stage model has also achieved SOTA on color VCS reconstruction, leading to a >2.3dB gain in PSNR over the previous SOTA algorithm based on plug-and-play framework, meanwhile speeds up the reconstruction by >17 times. In addition, we have found that our network is also flexible to the mask modulation and scale size for color VCS reconstruction so that a single trained network can be applied to different hardware systems. The code and models will be released to the public.
翻訳日:2022-01-19 17:52:51 公開日:2022-01-15
# 画像に基づくカメラポーズ推定手法の批判的解析

A Critical Analysis of Image-based Camera Pose Estimation Techniques ( http://arxiv.org/abs/2201.05816v1 )

ライセンス: Link先を確認
Meng Xu, Youchen Wang, Bin Xu, Jun Zhang, Jian Ren, Stefan Poslad, Pengfei Xu(参考訳) カメラ、および視野内のオブジェクトと関連づけられたローカライゼーションは、自動運転、ロボットナビゲーション、拡張現実(ar)など、多くのコンピュータビジョン分野に利益をもたらす可能性がある。 本調査ではまず,異なるサブタスク(学習ベース2D-2Dタスク,特徴ベース2D-3Dタスク,3D-3Dタスク)に応じて,特定のアプリケーション領域とカメラローカライズポーズの評価指標を紹介する。 次に,損失関数やニューラルネットワーク構造などのアルゴリズムのさらなる改善を刺激する手法を批判的にモデル化し,構造ベースカメラポーズ推定手法,絶対ポーズ回帰法,相対ポーズ回帰法について概説する。 さらに、カメラのローカライゼーションに使用される一般的なデータセットを要約し、これらの手法の定量的および定性的な結果と詳細な性能指標を比較する。 最後に,今後の研究可能性と応用について論じる。

Camera, and associated with its objects within the field of view, localization could benefit many computer vision fields, such as autonomous driving, robot navigation, and augmented reality (AR). In this survey, we first introduce specific application areas and the evaluation metrics for camera localization pose according to different sub-tasks (learning-based 2D-2D task, feature-based 2D-3D task, and 3D-3D task). Then, we review common methods for structure-based camera pose estimation approaches, absolute pose regression and relative pose regression approaches by critically modelling the methods to inspire further improvements in their algorithms such as loss functions, neural network structures. Furthermore, we summarise what are the popular datasets used for camera localization and compare the quantitative and qualitative results of these methods with detailed performance metrics. Finally, we discuss future research possibilities and applications.
翻訳日:2022-01-19 17:52:25 公開日:2022-01-15
# SS-3DCapsNet:低ラベルデータを用いた医用3Dカプセルネットワーク

SS-3DCapsNet: Self-supervised 3D Capsule Networks for Medical Segmentation on Less Labeled Data ( http://arxiv.org/abs/2201.05905v1 )

ライセンス: Link先を確認
Minh Tran, Loi Ly, Binh-Son Hua, Ngan Le(参考訳) カプセルネットワークは最新のディープネットワークアーキテクチャであり、医療画像のセグメンテーションタスクにうまく適用されている。 この研究は、自己教師付き学習によるボリューム医療画像セグメンテーションのためのカプセルネットワークを拡張した。 従来のカプセルネットワークと比較して重量初期化の問題を改善するために,プリテキストタスクが自己再構成によって最適化されるカプセルネットワークの事前学習に自己教師付き学習を活用する。 我々のカプセルネットワークであるSS-3DCapsNetは、3D Capsuleエンコーダと3D CNNデコーダを備えたUNetベースのアーキテクチャである。 iSeg-2017, Hippocampus, Cardiacなどの複数のデータセットを用いた実験では, 自己教師付きカプセルネットワークが従来のカプセルネットワークや3D-UNetsよりもかなり優れていることが示された。

Capsule network is a recent new deep network architecture that has been applied successfully for medical image segmentation tasks. This work extends capsule networks for volumetric medical image segmentation with self-supervised learning. To improve on the problem of weight initialization compared to previous capsule networks, we leverage self-supervised learning for capsule networks pre-training, where our pretext-task is optimized by self-reconstruction. Our capsule network, SS-3DCapsNet, has a UNet-based architecture with a 3D Capsule encoder and 3D CNNs decoder. Our experiments on multiple datasets including iSeg-2017, Hippocampus, and Cardiac demonstrate that our 3D capsule network with self-supervised pre-training considerably outperforms previous capsule networks and 3D-UNets.
翻訳日:2022-01-19 17:50:35 公開日:2022-01-15
# 割引マルコフ決定過程における平均分散最適化のための統一アルゴリズムフレームワーク

A unified algorithm framework for mean-variance optimization in discounted Markov decision processes ( http://arxiv.org/abs/2201.05737v1 )

ライセンス: Link先を確認
Shuai Ma, Xiaoteng Ma, and Li Xia(参考訳) 本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。 関連する分散計量は、プロセス全体における報酬の変動を懸念し、将来の偏差は現在の値に割引される。 この割引平均分散最適化は、割引平均に依存する報酬関数をもたらし、この依存関係は、重要な特性である時間一貫性を抑えるため、従来の動的プログラミングメソッドを適用不可能にする。 この非正則問題に対処するために,我々は,処理不能なmdpを標準形式に再定義された報酬関数で標準に変換する擬似平均を導入し,ディスカウントされた平均分散性能差式を導出する。 擬似平均を用いて、割引平均分散最適化のための二段階最適化構造を持つ統一アルゴリズムフレームワークを提案する。 このフレームワークは、リスク-逆分散と平均的MDPにおける平均分散最適化を含む、いくつかの分散関連問題に対する様々なアルゴリズムを統一する。 さらに,文献から欠落した収束解析も提案手法を補完することができる。 値反復を例として、割引平均分散値反復アルゴリズムを開発し、ベルマン局所最適方程式の助けを借りて局所最適への収束を証明した。 最後に,提案手法を検証するためにポートフォリオ管理に関する数値実験を行った。

This paper studies the risk-averse mean-variance optimization in infinite-horizon discounted Markov decision processes (MDPs). The involved variance metric concerns reward variability during the whole process, and future deviations are discounted to their present values. This discounted mean-variance optimization yields a reward function dependent on a discounted mean, and this dependency renders traditional dynamic programming methods inapplicable since it suppresses a crucial property -- time consistency. To deal with this unorthodox problem, we introduce a pseudo mean to transform the untreatable MDP to a standard one with a redefined reward function in standard form and derive a discounted mean-variance performance difference formula. With the pseudo mean, we propose a unified algorithm framework with a bilevel optimization structure for the discounted mean-variance optimization. The framework unifies a variety of algorithms for several variance-related problems including, but not limited to, risk-averse variance and mean-variance optimizations in discounted and average MDPs. Furthermore, the convergence analyses missing from the literature can be complemented with the proposed framework as well. Taking the value iteration as an example, we develop a discounted mean-variance value iteration algorithm and prove its convergence to a local optimum with the aid of a Bellman local-optimality equation. Finally, we conduct a numerical experiment on portfolio management to validate the proposed algorithm.
翻訳日:2022-01-19 17:07:48 公開日:2022-01-15
# UDC:圧縮性TinyMLモデルのための統一DNA

UDC: Unified DNAS for Compressible TinyML Models ( http://arxiv.org/abs/2201.05842v1 )

ライセンス: Link先を確認
Igor Fedorov, Ramon Matas, Hokchhay Tann, Chuteng Zhou, Matthew Mattina, Paul Whatmough(参考訳) 新たなIoT(Internet-of-Things)アプリケーションがニューラルネットワーク(NN)を高制約の低コストハードウェア(HW)プラットフォームに展開している。 このTinyMLの課題に対処するために、ニューラルプロセッシングユニット(NPU)のような新しいHWプラットフォームは、アグレッシブなネットワーク量子化と非構造化プルーニング最適化を利用するモデル圧縮をサポートしている。 NPUとHW圧縮と圧縮可能なモデルを組み合わせることで、同じメモリフットプリントにおけるより表現力の高いモデルが可能になる。 しかし、従来のNNアーキテクチャ選択の上に圧縮性のための最適化を追加することで、バランスの取れたトレードオフを行う必要がある設計空間が拡張される。 この研究は、NPU HW能力とNNモデル設計のギャップを埋めるために、ネットワーク深さ、演算子タイプ、層幅、ビット幅、空間幅などを含む大きな設計空間を効率的に探索するNASアルゴリズムを提案する。 CIFAR100, ImageNet, DIV2Kスーパーレゾリューションタスク上で, 識別可能なNAS (DNAS) にいくつかの改良を加え, 統一DNAS for Compressible Model (UDC) を実証した。 ImageNetでは、Paretoの圧縮可能なモデルの方が1.9倍小さく、5.76%精度が高い。

Emerging Internet-of-things (IoT) applications are driving deployment of neural networks (NNs) on heavily constrained low-cost hardware (HW) platforms, where accuracy is typically limited by memory capacity. To address this TinyML challenge, new HW platforms like neural processing units (NPUs) have support for model compression, which exploits aggressive network quantization and unstructured pruning optimizations. The combination of NPUs with HW compression and compressible models allows more expressive models in the same memory footprint. However, adding optimizations for compressibility on top of conventional NN architecture choices expands the design space across which we must make balanced trade-offs. This work bridges the gap between NPU HW capability and NN model design, by proposing a neural arcthiecture search (NAS) algorithm to efficiently search a large design space, including: network depth, operator type, layer width, bitwidth, sparsity, and more. Building on differentiable NAS (DNAS) with several key improvements, we demonstrate Unified DNAS for Compressible models (UDC) on CIFAR100, ImageNet, and DIV2K super resolution tasks. On ImageNet, we find Pareto dominant compressible models, which are 1.9x smaller or 5.76% more accurate.
翻訳日:2022-01-19 16:47:01 公開日:2022-01-15
# ディープラーニングにおけるトランスファービリティ:調査

Transferability in Deep Learning: A Survey ( http://arxiv.org/abs/2201.05867v1 )

ライセンス: Link先を確認
Junguang Jiang, Yang Shu, Jianmin Wang, Mingsheng Long(参考訳) ディープラーニングアルゴリズムの成功は、一般的に大規模なデータに依存するが、人間は、未認識のタスクに遭遇し解決する際に、以前の学習経験から関連する知識を認識し、適用することで、知識伝達の固有の能力を持っているように見える。 このような知識の獲得と再利用の能力は、ディープラーニングにおける伝達可能性として知られている。 それは、ディープラーニングを人間の学習と同じくらいデータ効率を上げるための長期的探求を形成し、より強力なディープラーニングアルゴリズムの実りある設計を動機付けてきた。 本研究は, 深層学習における異なる孤立領域と伝達可能性との関係を結びつけ, 深層学習のライフサイクル全体を通して, 伝達可能性の調査に統一的で完全な視点を提供する。 この調査は、コア原則とメソッドと並行して基本的な目標と課題を詳述し、ディープアーキテクチャ、事前トレーニング、タスク適応、ドメイン適応の最近の基礎を扱っている。 これは、伝達可能な知識を学習し、その知識を新しいタスクや領域に適用するための適切な目的についての未解決の疑問を強調し、破滅的な忘れと負の移動を避ける。 最後に、ベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニングメソッドを公平に評価する。

The success of deep learning algorithms generally depends on large-scale data, while humans appear to have inherent ability of knowledge transfer, by recognizing and applying relevant knowledge from previous learning experiences when encountering and solving unseen tasks. Such an ability to acquire and reuse knowledge is known as transferability in deep learning. It has formed the long-term quest towards making deep learning as data-efficient as human learning, and has been motivating fruitful design of more powerful deep learning algorithms. We present this survey to connect different isolated areas in deep learning with their relation to transferability, and to provide a unified and complete view to investigating transferability through the whole lifecycle of deep learning. The survey elaborates the fundamental goals and challenges in parallel with the core principles and methods, covering recent cornerstones in deep architectures, pre-training, task adaptation and domain adaptation. This highlights unanswered questions on the appropriate objectives for learning transferable knowledge and for adapting the knowledge to new tasks and domains, avoiding catastrophic forgetting and negative transfer. Finally, we implement a benchmark and an open-source library, enabling a fair evaluation of deep learning methods in terms of transferability.
翻訳日:2022-01-19 16:46:38 公開日:2022-01-15
# Recursive Least Squares Advantage Actor-Critic Algorithms

Recursive Least Squares Advantage Actor-Critic Algorithms ( http://arxiv.org/abs/2201.05918v1 )

ライセンス: Link先を確認
Yuan Wang, Chunyuan Zhang, Tianzong Yu, Meng Ma(参考訳) 深層強化学習において重要なアルゴリズムであるアドバンテージアクター批評家(A2C)は、原画素入力による離散的かつ連続的な制御タスクにおいて広く成功しているが、そのサンプル効率は改善する必要がある。 従来の強化学習では、アクター批判アルゴリズムは一般に再帰最小二乗法(RLS)技術を用いて、収束速度を加速するために線形関数近似器のパラメータを更新する。 しかし、A2Cアルゴリズムは、サンプル効率を改善するためにディープニューラルネットワーク(DNN)のトレーニングにこの技術を利用することはめったにない。 本稿では,RSSに基づく新しいA2Cアルゴリズムを提案する。 RLSSA2C と RLSNA2C と呼ばれる2つのアルゴリズムは、RSS法を用いて批評家ネットワークとアクターネットワークの隠蔽層を訓練する。 両者の主な違いは、政策学習の段階にある。 RLSSA2Cは、通常の一階勾配勾配アルゴリズムと標準方針勾配アルゴリズムを用いてポリシーパラメータを学習する。 RLSNA2Cは、Kronecker-factored approximation、RSS法、および自然方針勾配を用いて、互換パラメータとポリシーパラメータを学習する。 さらに,両アルゴリズムの複雑性と収束を解析し,収束速度をさらに向上させる3つの手法を提案する。 最後に,atari 2600環境における40ゲームとmujoco環境における11タスクにおける2つのアルゴリズムの有効性を示す。 実験結果から,我々の2つのアルゴリズムは,ほとんどのゲームやタスクにおいてバニラa2cよりも優れたサンプル効率を示し,他の2つの最先端アルゴリズムよりも高い計算効率を示した。

As an important algorithm in deep reinforcement learning, advantage actor critic (A2C) has been widely succeeded in both discrete and continuous control tasks with raw pixel inputs, but its sample efficiency still needs to improve more. In traditional reinforcement learning, actor-critic algorithms generally use the recursive least squares (RLS) technology to update the parameter of linear function approximators for accelerating their convergence speed. However, A2C algorithms seldom use this technology to train deep neural networks (DNNs) for improving their sample efficiency. In this paper, we propose two novel RLS-based A2C algorithms and investigate their performance. Both proposed algorithms, called RLSSA2C and RLSNA2C, use the RLS method to train the critic network and the hidden layers of the actor network. The main difference between them is at the policy learning step. RLSSA2C uses an ordinary first-order gradient descent algorithm and the standard policy gradient to learn the policy parameter. RLSNA2C uses the Kronecker-factored approximation, the RLS method and the natural policy gradient to learn the compatible parameter and the policy parameter. In addition, we analyze the complexity and convergence of both algorithms, and present three tricks for further improving their convergence speed. Finally, we demonstrate the effectiveness of both algorithms on 40 games in the Atari 2600 environment and 11 tasks in the MuJoCo environment. From the experimental results, it is shown that our both algorithms have better sample efficiency than the vanilla A2C on most games or tasks, and have higher computational efficiency than other two state-of-the-art algorithms.
翻訳日:2022-01-19 16:46:18 公開日:2022-01-15
# 合成光学流からの擬似スーパービジョンによる時間的・意味的に一貫性のないビデオ間翻訳の学習

Learning Temporally and Semantically Consistent Unpaired Video-to-video Translation Through Pseudo-Supervision From Synthetic Optical Flow ( http://arxiv.org/abs/2201.05723v1 )

ライセンス: Link先を確認
Kaihong Wang, Kumar Akash, Teruhisa Misu(参考訳) unpaired video-to-video translationは、トレーニングデータのペア化を必要とせず、ソースとターゲットドメイン間のビデオ翻訳を目的としている。 残念ながら、翻訳されたビデオは一般的に時間的かつ意味的な矛盾に苦しむ。 これを解決するため、既存の多くの研究では、運動推定に基づく時間情報を含む時空間整合性制約が採用されている。 しかし,運動推定の不正確さは,時空間的一貫性に対する指導の質を低下させ,不安定な翻訳に繋がる。 本研究では,入力ビデオ中の動きを推定するのではなく,生成した光の流れで合成することにより,時空間の一貫性を規則化する新しいパラダイムを提案する。 したがって、合成運動は正規化パラダイムにおいて、動き推定の誤りのリスクを伴わずに領域をまたいで動きを一貫性を保つために適用することができる。 その後, 両領域の時空間整合性を正確に実施するために, 合成光流による擬似スーパービジョンによって導かれる非教師なしリサイクルと非教師なし空間損失を利用する。 実験により,本手法は様々なシナリオにおいて汎用性を示し,時間的・意味的に一貫したビデオを生成する上で,最先端のパフォーマンスを実現する。 コードは、https://github.com/wangkaihong/Unsup_Recycle_GAN/で入手できる。

Unpaired video-to-video translation aims to translate videos between a source and a target domain without the need of paired training data, making it more feasible for real applications. Unfortunately, the translated videos generally suffer from temporal and semantic inconsistency. To address this, many existing works adopt spatiotemporal consistency constraints incorporating temporal information based on motion estimation. However, the inaccuracies in the estimation of motion deteriorate the quality of the guidance towards spatiotemporal consistency, which leads to unstable translation. In this work, we propose a novel paradigm that regularizes the spatiotemporal consistency by synthesizing motions in input videos with the generated optical flow instead of estimating them. Therefore, the synthetic motion can be applied in the regularization paradigm to keep motions consistent across domains without the risk of errors in motion estimation. Thereafter, we utilize our unsupervised recycle and unsupervised spatial loss, guided by the pseudo-supervision provided by the synthetic optical flow, to accurately enforce spatiotemporal consistency in both domains. Experiments show that our method is versatile in various scenarios and achieves state-of-the-art performance in generating temporally and semantically consistent videos. Code is available at: https://github.com/wangkaihong/Unsup_Recycle_GAN/.
翻訳日:2022-01-19 15:56:50 公開日:2022-01-15
# 画像操作検出のための階層グラフ表現の学習

Learning Hierarchical Graph Representation for Image Manipulation Detection ( http://arxiv.org/abs/2201.05730v1 )

ライセンス: Link先を確認
Wenyan Pan, Zhili Zhou, Miaogen Ling, Xin Geng, Q. M. Jonathan Wu(参考訳) 画像操作検出の目的は、画像内の操作された領域を識別し、特定することである。 最近のアプローチでは、主に高度な畳み込みニューラルネットワーク(cnns)を採用して、画像に残されている改ざんされたアーティファクトをキャプチャし、操作された領域を見つける。 しかし、これらの手法は特徴相関、すなわち、操作された領域と非操作された領域との間の特徴の不整合を無視し、検出性能が劣る。 この問題に対処するために、バックボーンネットワークブランチと階層グラフ表現学習(HGRL)という2つの並列ブランチからなる階層グラフ畳み込みネットワーク(HGCN-Net)を提案する。 具体的には、所定の画像の特徴マップをバックボーンネットワークブランチで抽出し、その特徴マップ内の特徴相関を、階層グラフ表現をHGRLブランチで学習するための完全連結グラフの集合としてモデル化する。 学習された階層グラフ表現は、異なるスケールにまたがる特徴相関を十分に捉えることができ、操作された領域と非操作領域を区別する高い識別性を提供する。 4つの公開データセットに対する大規模な実験により、提案されたHGCN-Netは、将来性のある検出精度を提供するだけでなく、画像操作検出のタスクにおいて、最先端技術と比較して、様々なイメージアタックの下で強力な堅牢性を実現することが示された。

The objective of image manipulation detection is to identify and locate the manipulated regions in the images. Recent approaches mostly adopt the sophisticated Convolutional Neural Networks (CNNs) to capture the tampering artifacts left in the images to locate the manipulated regions. However, these approaches ignore the feature correlations, i.e., feature inconsistencies, between manipulated regions and non-manipulated regions, leading to inferior detection performance. To address this issue, we propose a hierarchical Graph Convolutional Network (HGCN-Net), which consists of two parallel branches: the backbone network branch and the hierarchical graph representation learning (HGRL) branch for image manipulation detection. Specifically, the feature maps of a given image are extracted by the backbone network branch, and then the feature correlations within the feature maps are modeled as a set of fully-connected graphs for learning the hierarchical graph representation by the HGRL branch. The learned hierarchical graph representation can sufficiently capture the feature correlations across different scales, and thus it provides high discriminability for distinguishing manipulated and non-manipulated regions. Extensive experiments on four public datasets demonstrate that the proposed HGCN-Net not only provides promising detection accuracy, but also achieves strong robustness under a variety of common image attacks in the task of image manipulation detection, compared to the state-of-the-arts.
翻訳日:2022-01-19 15:56:27 公開日:2022-01-15
# 不確実性を考慮したマルチビュー表現学習

Uncertainty-Aware Multi-View Representation Learning ( http://arxiv.org/abs/2201.05776v1 )

ライセンス: Link先を確認
Yu Geng, Zongbo Han, Changqing Zhang, Qinghua Hu(参考訳) それらの間の相補的な情報を探索することで、異なるデータビューから学ぶことは、表現力の強い表現を与えることができる。 しかし、高次元の特徴はノイズを含む傾向があり、さらに、データの品質は(異なるビューであっても)異なるサンプルに対して異なり、あるビューは1つのサンプルに対して有益であるが、別のサンプルの場合はそうではないかもしれない。 したがって、マルチビューノイズデータを教師なし設定で統合することは極めて困難である。 従来のマルチビュー法は、各ビューを同じ重要性で扱うか、異なるビューの重みを固定値に調整するかのどちらかであり、マルチビューデータの動的ノイズを捉えるには不十分である。 本研究では,動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる,教師なしのマルチビュー学習手法を提案する。 生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。 不確実性の助けを借りて、DUA-Netはデータ品質に応じて個々のサンプルのビューを計測し、高品質なサンプル(またはビュー)をフル活用し、ノイズの多いサンプル(またはビュー)の効果を緩和する。 本モデルは広範な実験において優れた性能を達成し,ノイズデータに対するロバスト性を示す。

Learning from different data views by exploring the underlying complementary information among them can endow the representation with stronger expressive ability. However, high-dimensional features tend to contain noise, and furthermore, the quality of data usually varies for different samples (even for different views), i.e., one view may be informative for one sample but not the case for another. Therefore, it is quite challenging to integrate multi-view noisy data under unsupervised setting. Traditional multi-view methods either simply treat each view with equal importance or tune the weights of different views to fixed values, which are insufficient to capture the dynamic noise in multi-view data. In this work, we devise a novel unsupervised multi-view learning approach, termed as Dynamic Uncertainty-Aware Networks (DUA-Nets). Guided by the uncertainty of data estimated from the generation perspective, intrinsic information from multiple views is integrated to obtain noise-free representations. Under the help of uncertainty, DUA-Nets weigh each view of individual sample according to data quality so that the high-quality samples (or views) can be fully exploited while the effects from the noisy samples (or views) will be alleviated. Our model achieves superior performance in extensive experiments and shows the robustness to noisy data.
翻訳日:2022-01-19 15:54:46 公開日:2022-01-15
# リモートセンシング画像変化検出のための意味分離表現学習

Semantic decoupled representation learning for remote sensing image change detection ( http://arxiv.org/abs/2201.05778v1 )

ライセンス: Link先を確認
Hao Chen, Yifan Zao, Liqin Liu, Song Chen, Zhenwei Shi(参考訳) 変化検出(CD)におけるデータ不足を緩和する現代移動学習法は主にImageNet事前学習に基づいている。 自己教師付き学習(SSL)は、最近、ドメイン内の表現を学習するためのリモートセンシング(RS)に導入された。 本稿では,RS画像CDのセマンティックデカップリング表現学習を提案する。 通常、興味のある対象(例えば建物)は、広大な背景に比べて比較的小さい。 画像が無関係な土地被覆に支配される可能性のある1つの表現ベクトルに表現される既存の方法とは異なり、意味マスクを利用して異なる意味領域の表現をアンタングルする。 さらに,下流のcdタスクにおける関心対象の認識に有利な,異なる意味表現の識別をモデルに強制する。 我々は,事前学習のために,セマンティックマスクを用いたバイテンポラル画像のデータセットを構築した。 2つのCDデータセットの実験では、私たちのモデルはImageNet事前トレーニング、ドメイン内教師付き事前トレーニング、そして最近のSSLメソッドよりも優れています。

Contemporary transfer learning-based methods to alleviate the data insufficiency in change detection (CD) are mainly based on ImageNet pre-training. Self-supervised learning (SSL) has recently been introduced to remote sensing (RS) for learning in-domain representations. Here, we propose a semantic decoupled representation learning for RS image CD. Typically, the object of interest (e.g., building) is relatively small compared to the vast background. Different from existing methods expressing an image into one representation vector that may be dominated by irrelevant land-covers, we disentangle representations of different semantic regions by leveraging the semantic mask. We additionally force the model to distinguish different semantic representations, which benefits the recognition of objects of interest in the downstream CD task. We construct a dataset of bitemporal images with semantic masks in an effortless manner for pre-training. Experiments on two CD datasets show our model outperforms ImageNet pre-training, in-domain supervised pre-training, and several recent SSL methods.
翻訳日:2022-01-19 15:54:23 公開日:2022-01-15
# OneDConv: 変換不変表現のための一般化畳み込み

OneDConv: Generalized Convolution For Transform-Invariant Representation ( http://arxiv.org/abs/2201.05781v1 )

ライセンス: Link先を確認
Tong Zhang, Haohan Weng, Ke Yi, C. L. Philip Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々な視覚タスクにおいて大きな力を発揮している。 しかし、変換不変性の欠如は、複雑な実世界のシナリオにおけるさらなる応用を制限する。 本研究では,入力特性に基づく畳み込み核を計算的かつパラメトリックに効率的な方法で動的に変換する,新しい一般化された一次元畳み込み作用素 (onedconv) を提案する。 提案した演算子は変換不変の特徴を自然に抽出することができる。 一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を改善する。 提案する onedconv 演算子はバニラ畳み込みを置き換えることができるため、現在の一般的な畳み込みアーキテクチャや訓練されたエンドツーエンドアーキテクチャに容易に組み込むことができる。 いくつかの人気のあるベンチマークでは、OneDConvはオリジナルの畳み込み操作と、標準画像と歪んだ画像の両方で提案された他のモデルより優れている。

Convolutional Neural Networks (CNNs) have exhibited their great power in a variety of vision tasks. However, the lack of transform-invariant property limits their further applications in complicated real-world scenarios. In this work, we proposed a novel generalized one dimension convolutional operator (OneDConv), which dynamically transforms the convolution kernels based on the input features in a computationally and parametrically efficient manner. The proposed operator can extract the transform-invariant features naturally. It improves the robustness and generalization of convolution without sacrificing the performance on common images. The proposed OneDConv operator can substitute the vanilla convolution, thus it can be incorporated into current popular convolutional architectures and trained end-to-end readily. On several popular benchmarks, OneDConv outperforms the original convolution operation and other proposed models both in canonical and distorted images.
翻訳日:2022-01-19 15:54:07 公開日:2022-01-15
# 教師なし人物再識別のためのオフラインカメラ対応プロキシ

Offline-Online Associated Camera-Aware Proxies for Unsupervised Person Re-identification ( http://arxiv.org/abs/2201.05820v1 )

ライセンス: Link先を確認
Menglin Wang, Jiachen Li, Baisheng Lai, Xiaojin Gong, Xian-Sheng Hua(参考訳) 近年,ラベルフリーアプリケーションの可能性から,教師なしの人物識別(Re-ID)が注目されている。 クラスタリングによって擬似ラベルを生成し、擬似ラベルを使用してRe-IDモデルを反復的にトレーニングする。 しかしながら、ほとんどのクラスタリングベースの方法は、各クラスタを疑似idクラスとして捉え、主にカメラの変更によって引き起こされるクラスタ内分散を無視している。 この問題に対処するため、カメラビューに応じて各クラスタを複数のプロキシに分割することを提案する。 カメラアウェアプロキシはクラスタ内の局所構造を明示的にキャプチャし、id内分散とid間類似性をよりよく取り組める。 カメラ対応プロキシを用いて,オフラインとオンラインの関連結果に基づいて,プロキシレベルのコントラスト学習損失を2つ設計した。 オフラインアソシエーションはクラスタリングと分割結果に従ってプロキシを直接関連付け、オンライン戦略は最新の特徴の観点からプロキシを動的に関連付け、擬似ラベルの更新遅延によるノイズを低減する。 2つの損失の組み合わせにより、望ましいRe-IDモデルをトレーニングすることができます。 3人のRe-IDデータセットと1台のRe-IDデータセットの大規模な実験により、提案手法は最先端手法との競合性能を示すことが示された。 コードはhttps://github.com/terminator8758/o2cap。

Recently, unsupervised person re-identification (Re-ID) has received increasing research attention due to its potential for label-free applications. A promising way to address unsupervised Re-ID is clustering-based, which generates pseudo labels by clustering and uses the pseudo labels to train a Re-ID model iteratively. However, most clustering-based methods take each cluster as a pseudo identity class, neglecting the intra-cluster variance mainly caused by the change of cameras. To address this issue, we propose to split each single cluster into multiple proxies according to camera views. The camera-aware proxies explicitly capture local structures within clusters, by which the intra-ID variance and inter-ID similarity can be better tackled. Assisted with the camera-aware proxies, we design two proxy-level contrastive learning losses that are, respectively, based on offline and online association results. The offline association directly associates proxies according to the clustering and splitting results, while the online strategy dynamically associates proxies in terms of up-to-date features to reduce the noise caused by the delayed update of pseudo labels. The combination of two losses enable us to train a desirable Re-ID model. Extensive experiments on three person Re-ID datasets and one vehicle Re-ID dataset show that our proposed approach demonstrates competitive performance with state-of-the-art methods. Code will be available at: https://github.com/Terminator8758/O2CAP.
翻訳日:2022-01-19 15:53:52 公開日:2022-01-15
# ゼロショット手話認識に向けて

Towards Zero-shot Sign Language Recognition ( http://arxiv.org/abs/2201.05914v1 )

ライセンス: Link先を確認
Yunus Can Bilge, Ramazan Gokberk Cinbis, Nazli Ikizler-Cinbis(参考訳) 本稿では,ゼロショット手話認識(ZSSLR)の課題に対処し,目に見える手話クラスのインスタンスを認識するために,手話クラス上で学習したモデルを活用することを目的とする。 この文脈では、手話辞書から収集した文章的な手話記述や属性を、知識伝達のための意味クラス表現として活用する。 そこで本研究では,テキスト記述と属性記述を伴う3つのベンチマークデータセットを導入し,問題を詳細に解析する。 提案手法は体と手領域の時空間モデルを構築する。 ゼロショット学習フレームワークにおいて,記述的テキストと属性埋め込みとこれらの視覚表現を併用することにより,テキストと属性に基づくクラス定義が,これまで見つからなかったサインクラスの認識に有効な知識を提供することを示す。 さらに,直近のゼロショット予測におけるバイナリ属性の影響を解析する手法も導入する。 手話認識におけるゼロショット学習のさらなる探求のための基礎となる,導入されたアプローチと付随するデータセットが期待できる。

This paper tackles the problem of zero-shot sign language recognition (ZSSLR), where the goal is to leverage models learned over the seen sign classes to recognize the instances of unseen sign classes. In this context, readily available textual sign descriptions and attributes collected from sign language dictionaries are utilized as semantic class representations for knowledge transfer. For this novel problem setup, we introduce three benchmark datasets with their accompanying textual and attribute descriptions to analyze the problem in detail. Our proposed approach builds spatiotemporal models of body and hand regions. By leveraging the descriptive text and attribute embeddings along with these visual representations within a zero-shot learning framework, we show that textual and attribute based class definitions can provide effective knowledge for the recognition of previously unseen sign classes. We additionally introduce techniques to analyze the influence of binary attributes in correct and incorrect zero-shot predictions. We anticipate that the introduced approaches and the accompanying datasets will provide a basis for further exploration of zero-shot learning in sign language recognition.
翻訳日:2022-01-19 15:53:28 公開日:2022-01-15
# 多段階2次Few-shot Learning

Multi-level Second-order Few-shot Learning ( http://arxiv.org/abs/2201.05916v1 )

ライセンス: Link先を確認
Hongguang Zhang, Hongdong Li, Piotr Koniusz(参考訳) 教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次学習ネットワーク(MlSo)を提案する。 我々は、いわゆるパワー正規化二階ベース学習ストリームと、複数のレベルの視覚抽象化を表現した特徴を組み合わせて活用し、自己教師付き判別機構を用いる。 SoP(Second-order Pooling)は画像認識に人気があるため、パイプラインに基本的な要素ワイドなバリエーションを採用しています。 マルチレベル機能設計の目標は、複数の階層レベルのCNNで特徴表現を抽出し、複数のレベルの視覚的抽象化を実現し、堅牢な数ショット学習を実現することである。 SoPは様々な空間サイズの畳み込み特徴写像を扱えるので、MlSoに複数の空間スケールで画像入力を導入する。 マルチレベルおよびマルチスケールの機能から識別情報を活用すべく,各ブランチを重み付けする特徴マッチング(FM)モジュールを開発した。 また,空間レベルと抽象化のスケールを判別する自己教師付きステップも導入する。 私たちのパイプラインはエンドツーエンドでトレーニングされています。 簡単なアーキテクチャで,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。

We propose a Multi-level Second-order (MlSo) few-shot learning network for supervised or unsupervised few-shot image classification and few-shot action recognition. We leverage so-called power-normalized second-order base learner streams combined with features that express multiple levels of visual abstraction, and we use self-supervised discriminating mechanisms. As Second-order Pooling (SoP) is popular in image recognition, we employ its basic element-wise variant in our pipeline. The goal of multi-level feature design is to extract feature representations at different layer-wise levels of CNN, realizing several levels of visual abstraction to achieve robust few-shot learning. As SoP can handle convolutional feature maps of varying spatial sizes, we also introduce image inputs at multiple spatial scales into MlSo. To exploit the discriminative information from multi-level and multi-scale features, we develop a Feature Matching (FM) module that reweights their respective branches. We also introduce a self-supervised step, which is a discriminator of the spatial level and the scale of abstraction. Our pipeline is trained in an end-to-end manner. With a simple architecture, we demonstrate respectable results on standard datasets such as Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, fine-grained datasets such as CUB Birds, Stanford Dogs and Cars, and action recognition datasets such as HMDB51, UCF101, and mini-MIT.
翻訳日:2022-01-19 15:53:13 公開日:2022-01-15
# 自律型マルチUAV制御による信頼性サーベイランスのための協調型マルチエージェント深層強化学習

Cooperative Multi-Agent Deep Reinforcement Learning for Reliable Surveillance via Autonomous Multi-UAV Control ( http://arxiv.org/abs/2201.05843v1 )

ライセンス: Link先を確認
Won Joon Yun, Soohyun Park, Joongheon Kim, MyungJae Shin, Soyi Jung, David A. Mohaisen, Jae-Hyun Kim(参考訳) 無人航空機(UAV)を用いたCCTVによる監視は、スマートシティ環境におけるセキュリティの鍵となる技術であると考えられている。 本稿では, CCTVカメラを搭載したUAVが都市部を飛行し, フレキシブルで信頼性の高い監視サービスを行う事例を提示する。 UAVは、信頼性の高い監視システムのために、重複と影の面積を最小限に抑えながら、広範囲をカバーするために配備されるべきである。 しかし、UAVの運用には高い不確実性があり、自律回収システムが必要である。 本研究は、スマートシティアプリケーションにおける信頼性の高い産業監視のためのマルチエージェント深層学習に基づく管理手法を開発する。 この論文が採用する中核的な考え方は、UAVの不十分なネットワーク要件を自律的に通信で補うことである。 集中シミュレーションにより,提案アルゴリズムは,監視範囲,ユーザサポート機能,計算コストの面で最先端アルゴリズムを上回っている。

CCTV-based surveillance using unmanned aerial vehicles (UAVs) is considered a key technology for security in smart city environments. This paper creates a case where the UAVs with CCTV-cameras fly over the city area for flexible and reliable surveillance services. UAVs should be deployed to cover a large area while minimize overlapping and shadow areas for a reliable surveillance system. However, the operation of UAVs is subject to high uncertainty, necessitating autonomous recovery systems. This work develops a multi-agent deep reinforcement learning-based management scheme for reliable industry surveillance in smart city applications. The core idea this paper employs is autonomously replenishing the UAV's deficient network requirements with communications. Via intensive simulations, our proposed algorithm outperforms the state-of-the-art algorithms in terms of surveillance coverage, user support capability, and computational costs.
翻訳日:2022-01-19 15:07:11 公開日:2022-01-15
# Kformer: トランスフォーマーフィードフォワード層における知識注入

Kformer: Knowledge Injection in Transformer Feed-Forward Layers ( http://arxiv.org/abs/2201.05742v1 )

ライセンス: Link先を確認
Yunzhi Yao, Shaohan Huang, Ningyu Zhang, Li Dong, Furu Wei, Huajun Chen(参考訳) 知識強化モデルは、異なる知識ソース上での知識統合のための様々な技術セットを開発した。 しかし、ほとんどの以前の作品は言語モデルの能力を無視し、単に外部の知識を入力にまとめている。 最近の研究では、事前学習された言語モデルにおけるフィードフォワードネットワーク(ffn)は、事実的知識を格納したメモリと見なすことができる。 本研究では,変圧器のffnを探索し,変圧器のフィードフォワード層を介して外部知識を組み込んだ新しい知識融合モデルであるkformerを提案する。 FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合手法が促進される。 我々は,コモンセンス推論(SocialIQA)と医療質問応答(MedQA-USMLE)の2つのベンチマークの結果から,Kformerが外部知識を深く活用し,これらのタスクの絶対的改善を実現することを示す。

Knowledge-Enhanced Model have developed a diverse set of techniques for knowledge integration on different knowledge sources. However, most previous work neglect the language model's own ability and simply concatenate external knowledge at the input. Recent work proposed that Feed Forward Network (FFN) in pre-trained language model can be seen as an memory that stored factual knowledge. In this work, we explore the FFN in Transformer and propose a novel knowledge fusion model, namely Kformer, which incorporates external knowledge through the feed-forward layer in Transformer. We empirically find that simply injecting knowledge into FFN can enhance the pre-trained language model's ability and facilitate current knowledge fusion methods. Our results on two benchmarks in the commonsense reasoning (i.e., SocialIQA) and medical question answering (i.e., MedQA-USMLE) domains demonstrate that Kformer can utilize external knowledge deeply and achieves absolute improvements in these tasks.
翻訳日:2022-01-19 15:06:14 公開日:2022-01-15
# 効率良く正確なランク付けタスクのためのアンサンブルトランスフォーマー:質問応答システムへの応用

Ensemble Transformer for Efficient and Accurate Ranking Tasks: an Application to Question Answering Systems ( http://arxiv.org/abs/2201.05767v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Luca Soldaini, Eric Lind, Alessandro Moschitti(参考訳) 大規模なトランスモデルは、Answer Sentence Selection (AS2)タスクを高度に改善することができるが、その高い計算コストは、多くの現実世界のアプリケーションでの使用を妨げている。 本稿では,モデル複雑性を大幅に増大させることなく,AS2モデルをより正確にする方法について検討する。 そこで本研究では,大規模トランスフォーマーのアンサンブルを1つの小さなモデルに蒸留する効率的なニューラルネットワークであるmultiple heads student architecture (mhs)を提案する。 MHSモデルは、入力をエンコードするために使用される変圧器層のスタックと、ランキングヘッドのセットの2つのコンポーネントから構成され、それぞれが異なる大きな変圧器アーキテクチャを蒸留することによって訓練される。 従来の蒸留法とは異なり,本手法では,アンサンブルメンバーの多様性を保ちつつ,個々のモデルを教師として利用する。 得られたモデルは、いくつかの余分なパラメータを使って、異なるタイプのトランスフォーマーモデルの知識をキャプチャする。 提案手法は2.7倍のパラメータを持ち2.5倍遅く動作する最先端の大型AS2モデルに匹敵するものである。

Large transformer models can highly improve Answer Sentence Selection (AS2) task, but their high computational costs prevent their use in many real world applications. In this paper, we explore the following research question: How can we make the AS2models more accurate without significantly increasing their model complexity? To address the question, we propose a Multiple Heads Student architecture (MHS), an efficient neural network designed to distill an ensemble of large transformers into a single smaller model. An MHS model consists of two components: a stack of transformer layers that is used to encode inputs, and a set of ranking heads; each of them is trained by distilling a different large transformer architecture. Unlike traditional distillation techniques, our approach leverages individual models in ensemble as teachers in a way that preserves the diversity of the ensemble members. The resulting model captures the knowledge of different types of transformer models by using just a few extra parameters. We show the effectiveness of MHS on three English datasets for AS2; our proposed approach outperforms all single-model distillations we consider, rivaling the state-of-the-art large AS2 models that have 2.7x more parameters and run 2.5x slower.
翻訳日:2022-01-19 15:05:57 公開日:2022-01-15
# 対話状態追跡のためのプロンプト学習

Prompt Learning for Few-Shot Dialogue State Tracking ( http://arxiv.org/abs/2201.05780v1 )

ライセンス: Link先を確認
Yuting Yang, Wenqiang Lei, Juan Cao, Jintao Li and Tat-Seng Chua(参考訳) 対話状態追跡(dst)モデルを学ぶための対話状態ラベル、スロット、値の収集は、特に新しいリスニング領域における対話システムの幅広い適用において、コストがかかる。 本稿では,限定ラベルデータを用いてdstモデルを効率的に学習する方法に着目する。 本稿では,2つの主要なコンポーネントである値ベースプロンプトと逆プロンプト機構からなる,数ショットDSTのためのプロンプト学習フレームワークを設計する。 このフレームワークは、事前学習された言語モデル(PLM)の言語理解と生成能力を活用することを目的としている。 まず、スロットの既知のオントロジーに依存しないPLMからDST関連の知識を探索するための値ベースのプロンプト関数を設計する。 さらに、逆プロンプト機構を用いて「急速」知識を自己チェックし、PLMがDSTタスクの本質をさらに理解できるようにする。 実験により、我々のモデルは未確認のスロットを生成し、既存の最先端の数ショット法より優れていることが示された。 PLMからDST関連の知識を探索し,高速学習の助けを借りて,低リソースDSTに効率的に対処できることが示唆された。

Collecting dialogue state labels, slots and values, for learning dialogue state tracking (DST) models can be costly, especially with the wide application of dialogue systems in new-rising domains. In this paper, we focus on how to learn a DST model efficiently with limited labeled data. We design a prompt learning framework for few-shot DST, which consists of two main components: value-based prompt and inverse prompt mechanism. This framework aims to utilize the language understanding and generation ability of pre-trained language models (PLM). First, we design value-based prompt functions to probe the DST-related knowledge from PLM, which do not rely on the known ontology of slots. Further, an inverse prompt mechanism is utilized to self-check the "prompted" knowledge and help the PLM understand the essence of DST task further. Experiments show that our model can generate unseen slots and outperforms existing state-of-the-art few-shot methods. It indicates that DST-related knowledge can be probed from PLM and utilized to address low-resource DST efficiently with the help of prompt learning.
翻訳日:2022-01-19 15:05:36 公開日:2022-01-15
# テーブルとテキストのオープンドメインQAのためのハイブリッドチェインの推論

Reasoning over Hybrid Chain for Table-and-Text Open Domain QA ( http://arxiv.org/abs/2201.05880v1 )

ライセンス: Link先を確認
Wanjun Zhong, Junjie Huang, Qian Liu, Ming Zhou, Jiahai Wang, Jian Yin, and Nan Duan(参考訳) 表構造と表とテキスト間の接続を考慮し、不均一な情報に対する推論を行うシステムを必要とする。 本稿では,ChAin中心のReasoning and Pre-training framework (CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。 また,クロスモダリティ推論プロセスの同定とデータスパーシティ問題の軽減において,事前学習モデルを強化する新しい連鎖中心事前学習法を提案する。 本手法は,Wikipediaから擬似異種推論経路を合成し,対応する質問を生成することにより,大規模推論コーパスを構築する。 我々は,大規模テーブル・アンド・テキスト・オープンドメイン質問応答ベンチマークであるOTT-QAを用いて,本システムの評価を行った。 さらなる分析により、明示的なハイブリッドチェーンは中間推論プロセスの実質的な性能向上と解釈を提供し、連鎖中心の事前学習は連鎖抽出の性能を高めることが示されている。

Tabular and textual question answering requires systems to perform reasoning over heterogeneous information, considering table structure, and the connections among table and text. In this paper, we propose a ChAin-centric Reasoning and Pre-training framework (CARP). CARP utilizes hybrid chain to model the explicit intermediate reasoning process across table and text for question answering. We also propose a novel chain-centric pre-training method, to enhance the pre-trained model in identifying the cross-modality reasoning process and alleviating the data sparsity problem. This method constructs the large-scale reasoning corpus by synthesizing pseudo heterogeneous reasoning paths from Wikipedia and generating corresponding questions. We evaluate our system on OTT-QA, a large-scale table-and-text open-domain question answering benchmark, and our system achieves the state-of-the-art performance. Further analyses illustrate that the explicit hybrid chain offers substantial performance improvement and interpretablity of the intermediate reasoning process, and the chain-centric pre-training boosts the performance on the chain extraction.
翻訳日:2022-01-19 15:05:17 公開日:2022-01-15
# 観測されていない局所構造は組成の一般化を困難にする

Unobserved Local Structures Make Compositional Generalization Hard ( http://arxiv.org/abs/2201.05899v1 )

ライセンス: Link先を確認
Ben Bogin, Shivanshu Gupta, Jonathan Berant(参考訳) 最近の研究は、シーケンシャル・ツー・シーケンス・モデルが新しい合成への一般化に苦しむこと(合成一般化が決定される)を説得的に示しているが、作曲一般化を特定のテストインスタンスで難しいものにする方法についてはほとんど分かっていない。 本研究では,特定のテストインスタンスの一般化を困難にする要因について検討する。 私たちはまず、異なるモデルが一貫して同じテストインスタンスで失敗するか成功することを示すことによって、いくつかの例が他の例よりも難しいことを証明します。 テストインスタンスがトレーニング時に観測されなかったローカル構造を含む場合、テストインスタンスは困難である。 この基準に基づいて簡単な決定ルールを定式化し、5つの異なるセマンティック解析データセットでインスタンスレベルの一般化を予測できることを示す。 最後に, 局所構造を, 難易度の高い構成分割の生成に活用し, 訓練セットの具体例を戦略的に選択することにより, 限られた訓練予算で構成一般化を改善できることを示す。

While recent work has convincingly showed that sequence-to-sequence models struggle to generalize to new compositions (termed compositional generalization), little is known on what makes compositional generalization hard on a particular test instance. In this work, we investigate what are the factors that make generalization to certain test instances challenging. We first substantiate that indeed some examples are more difficult than others by showing that different models consistently fail or succeed on the same test instances. Then, we propose a criterion for the difficulty of an example: a test instance is hard if it contains a local structure that was not observed at training time. We formulate a simple decision rule based on this criterion and empirically show it predicts instance-level generalization well across 5 different semantic parsing datasets, substantially better than alternative decision rules. Last, we show local structures can be leveraged for creating difficult adversarial compositional splits and also to improve compositional generalization under limited training budgets by strategically selecting examples for the training set.
翻訳日:2022-01-19 15:04:09 公開日:2022-01-15
# 言語間ヘイト音声検出の課題への取り組み

Addressing the Challenges of Cross-Lingual Hate Speech Detection ( http://arxiv.org/abs/2201.05922v1 )

ライセンス: Link先を確認
Irina Bigoulaeva, Viktor Hangya, Iryna Gurevych, Alexander Fraser(参考訳) ヘイトスピーチ検出の目的は、特定のグループを対象としたネガティブなオンラインコンテンツをフィルタリングすることだ。 ソーシャルメディアプラットフォームのアクセシビリティは容易であるため、幅広い言語でヘイトスピーチ検出システムを構築する必要があるすべての人々を保護することが不可欠である。 しかし、ラベル付きヘイトスピーチデータセットは制限されており、多くの言語でシステムを構築するのに問題がある。 本稿では,低リソース言語におけるヘイトスピーチ検出を支援する言語間移動学習に着目した。 私たちは、言語間の単語埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。 次に、異なるモデルアーキテクチャのアンサンブルを使用してラベルをブートストラップすることで、さらなるモデル改善のためにラベルなしのターゲット言語データを取り込む。 さらに,ヘイトサンプルに対する非ヘイトサンプルの比率が高いとモデル性能が低下することが多いため,ヘイト音声データセットのラベル不均衡の問題についても検討した。 簡単なデータアンサンプリングとオーバーサンプリングをテストし,その効果を示す。

The goal of hate speech detection is to filter negative online content aiming at certain groups of people. Due to the easy accessibility of social media platforms it is crucial to protect everyone which requires building hate speech detection systems for a wide range of languages. However, the available labeled hate speech datasets are limited making it problematic to build systems for many languages. In this paper we focus on cross-lingual transfer learning to support hate speech detection in low-resource languages. We leverage cross-lingual word embeddings to train our neural network systems on the source language and apply it to the target language, which lacks labeled examples, and show that good performance can be achieved. We then incorporate unlabeled target language data for further model improvements by bootstrapping labels using an ensemble of different model architectures. Furthermore, we investigate the issue of label imbalance of hate speech datasets, since the high ratio of non-hate examples compared to hate examples often leads to low model performance. We test simple data undersampling and oversampling techniques and show their effectiveness.
翻訳日:2022-01-19 15:03:47 公開日:2022-01-15
# CUHK型変形型音声認識システムの最近の進歩

Recent Progress in the CUHK Dysarthric Speech Recognition System ( http://arxiv.org/abs/2201.05845v1 )

ライセンス: Link先を確認
Shansong Liu, Mengzhe Geng, Shoukang Hu, Xurong Xie, Mingyu Cui, Jianwei Yu, Xunying Liu and Helen Meng(参考訳) 過去数十年間、自動音声認識(ASR)技術の急速な進歩にもかかわらず、混乱した音声の認識は依然として非常に難しい課題である。 障害音声は、通常音声を主にターゲットとする現在のデータ集約型ディープニューラルネットワーク(DNN)ベースのASR技術に対して、幅広い課題を提示している。 本稿では,中国香港大学(cuhk)において,広範に利用可能なuaspeech dysarthric音声コーパスにおける不規則音声認識システムの性能向上に向けた最近の研究成果について述べる。 上記の課題に対処するために,ニューラルアーキテクチャ探索,スペクトル時間摂動を用いたデータ拡張,モデルに基づく話者適応,および音声視覚音声認識(AVSR)システムフレームワーク内の視覚特徴のクロスドメイン生成などの新しいモデリング手法を用いた。 これらの技術の組み合わせは、uaspeechテストセット16の単語誤り率(wer)の最低25.21%、および6方向dnnシステムの組み合わせとドメイン外正規音声データトレーニングシステムの相互適応を特徴とするcuhk 2018のdysarthric音声認識システムに対して、全体的なwarの絶対値(17.6%相対値)が5.4%減少した。 ベイズモデルによる適応により、個々の関節症話者に対して、わずか3.06秒の音声で迅速な適応を行うことができる。 これらの手法の有効性は、cudys cantonese dysarthric speech recognition taskでさらに実証された。

Despite the rapid progress of automatic speech recognition (ASR) technologies in the past few decades, recognition of disordered speech remains a highly challenging task to date. Disordered speech presents a wide spectrum of challenges to current data intensive deep neural networks (DNNs) based ASR technologies that predominantly target normal speech. This paper presents recent research efforts at the Chinese University of Hong Kong (CUHK) to improve the performance of disordered speech recognition systems on the largest publicly available UASpeech dysarthric speech corpus. A set of novel modelling techniques including neural architectural search, data augmentation using spectra-temporal perturbation, model based speaker adaptation and cross-domain generation of visual features within an audio-visual speech recognition (AVSR) system framework were employed to address the above challenges. The combination of these techniques produced the lowest published word error rate (WER) of 25.21% on the UASpeech test set 16 dysarthric speakers, and an overall WER reduction of 5.4% absolute (17.6% relative) over the CUHK 2018 dysarthric speech recognition system featuring a 6-way DNN system combination and cross adaptation of out-of-domain normal speech data trained systems. Bayesian model adaptation further allows rapid adaptation to individual dysarthric speakers to be performed using as little as 3.06 seconds of speech. The efficacy of these techniques were further demonstrated on a CUDYS Cantonese dysarthric speech recognition task.
翻訳日:2022-01-19 14:49:46 公開日:2022-01-15
# 暗号通貨市場取引における深層強化学習による利益戦略設計

Profitable Strategy Design by Using Deep Reinforcement Learning for Trades on Cryptocurrency Markets ( http://arxiv.org/abs/2201.05906v1 )

ライセンス: Link先を確認
Mohsen Asgari, Seyed Hossein Khasteh(参考訳) 深層強化学習ソリューションは、パフォーマンスと有望な結果を伴う様々な制御問題に適用されている。 本研究は,3つの暗号市場の戦略設計問題に対して,プロキシマルポリシー最適化,ソフトアクタクリティカル,ジェネレーティブ・アドバイサル・イミテーション・ラーニングを適用した。 入力データには価格データと技術指標が含まれています。 我々は、暗号通貨市場に基づくジム環境を実装し、アルゴリズムで使用しました。 未確認データに対するテスト結果は、投資家が市場を搾取し利益を得るためのエキスパートシステムを構築する上で、このアプローチの大きな可能性を示している。 66日間の最高利益は1万ドル投資当たり4850米ドルである。 また,環境設計における特定のハイパーパラメータを用いて,生成した戦略のリスクを調整する方法について論じる。

Deep Reinforcement Learning solutions have been applied to different control problems with outperforming and promising results. In this research work we have applied Proximal Policy Optimization, Soft Actor-Critic and Generative Adversarial Imitation Learning to strategy design problem of three cryptocurrency markets. Our input data includes price data and technical indicators. We have implemented a Gym environment based on cryptocurrency markets to be used with the algorithms. Our test results on unseen data shows a great potential for this approach in helping investors with an expert system to exploit the market and gain profit. Our highest gain for an unseen 66 day span is 4850 US dollars per 10000 US dollars investment. We also discuss on how a specific hyperparameter in the environment design can be used to adjust risk in the generated strategies.
翻訳日:2022-01-19 14:49:18 公開日:2022-01-15
# バランス効果による公平ニューラルネットワークの訓練

Training Fair Deep Neural Networks by Balancing Influence ( http://arxiv.org/abs/2201.05759v1 )

ライセンス: Link先を確認
Haonan Wang, Ziwei Wu, Jingrui He(参考訳) 最も公平な機械学習手法は、トレーニングサンプルのセンシティブな情報に依存するか、ターゲットモデルに大きな修正を必要とするかのいずれかで、実用的利用を妨げる。 そこで本研究では,FAIRIFという2段階学習アルゴリズムを提案する。 サンプルの重みを計算した再重み付けデータセット(第2段階)の損失を最小限に抑え、さまざまな人口統計グループ(第1段階)でモデルのパフォーマンスのバランスをとる。 FAIRIFは、モデルを変更することなく確率勾配降下によって訓練された幅広いモデルに適用できるが、サンプル重量を計算するために小さな検証セットに対してのみグループアノテーションを必要とする。 理論的には、分類設定において、異なる群間の不一致の3つの概念は、重みの訓練によって緩和できることを示す。 合成データセットに関する実験により、fairifは様々な種類のバイアスに対してより公平な利用のトレードオフを持つモデルをもたらすことが示され、実世界のデータセットではfairifの有効性と拡張性を示す。 さらに、事前訓練されたモデルの実験によって証明されたように、FAIRIFは、事前訓練されたモデルの不公平さを、性能を損なうことなく軽減することができる。

Most fair machine learning methods either highly rely on the sensitive information of the training samples or require a large modification on the target models, which hinders their practical application. To address this issue, we propose a two-stage training algorithm named FAIRIF. It minimizes the loss over the reweighted data set (second stage) where the sample weights are computed to balance the model performance across different demographic groups (first stage). FAIRIF can be applied on a wide range of models trained by stochastic gradient descent without changing the model, while only requiring group annotations on a small validation set to compute sample weights. Theoretically, we show that, in the classification setting, three notions of disparity among different groups can be mitigated by training with the weights. Experiments on synthetic data sets demonstrate that FAIRIF yields models with better fairness-utility trade-offs against various types of bias; and on real-world data sets, we show the effectiveness and scalability of FAIRIF. Moreover, as evidenced by the experiments with pretrained models, FAIRIF is able to alleviate the unfairness issue of pretrained models without hurting their performance.
翻訳日:2022-01-19 14:43:55 公開日:2022-01-15
# 畳み込みニューラルネットワークを用いたヘイズ条件下でのスマートパーキング空間検出:新しいアプローチ

Smart Parking Space Detection under Hazy conditions using Convolutional Neural Networks: A Novel Approach ( http://arxiv.org/abs/2201.05858v1 )

ライセンス: Link先を確認
Gaurav Satyanath, Jajati Keshari Sahoo and Rajendra Kumar Roul(参考訳) 都市化と組み合わされた限られた都市駐車場空間は、エンドユーザに駐車スペースの可用性を伝えるスマート駐車場システムの開発を必要としている。 そこで, 畳み込みニューラルネットワークを用いた様々な深層学習型ソリューションが, 駐車スペースの占有検知のために提案されている。 これらのアプローチは部分的な障害物や照明条件に対して堅牢であるが、それらの性能はヘイズ条件の存在下で劣化する。 そこで,本稿では,駐車空間占有者分類器の性能を向上させるデヘイジングネットワークの利用について検討する。 また,非ヘイズ条件とヘイズ条件の両方でシステムの性能を最大化するために,デヘイズネットワークのためのトレーニング手順を提案する。 提案されたシステムは、数百台の駐車スペースを監視するために限られた数のカメラを使用する既存のスマート駐車システムの一部としてデプロイ可能である。 提案手法の有効性を検証するため,Reside-\b{eta}データセットの実際のタスク駆動テストセットから,独自のヘイズパーキングシステムデータセットを開発した。 提案手法は、CNRPark-EXTおよびハジーパーキングシステムデータセット上の既存の最先端の駐車スペース検出器に対して試験される。 実験結果から,hazy parking systemデータセットにおける提案手法の精度が大幅に向上したことが示唆された。

Limited urban parking space combined with urbanization has necessitated the development of smart parking systems that can communicate the availability of parking slots to the end users. Towards this, various deep learning based solutions using convolutional neural networks have been proposed for parking space occupation detection. Though these approaches are robust to partial obstructions and lighting conditions, their performance is found to degrade in the presence of haze conditions. Looking in this direction, this paper investigates the use of dehazing networks that improves the performance of parking space occupancy classifier under hazy conditions. Additionally, training procedures are proposed for dehazing networks to maximize the performance of the system on both hazy and non-hazy conditions. The proposed system is deployable as part of existing smart parking systems where limited number of cameras are used to monitor hundreds of parking spaces. To validate our approach, we have developed a custom hazy parking system dataset from real-world task-driven test set of RESIDE-\b{eta} dataset. The proposed approach is tested against existing state-of-the-art parking space detectors on CNRPark-EXT and hazy parking system datasets. Experimental results indicate that there is a significant accuracy improvement of the proposed approach on the hazy parking system dataset.
翻訳日:2022-01-19 14:25:36 公開日:2022-01-15
# 双方向クロスアテンション変換器によるドメイン適応

Domain Adaptation via Bidirectional Cross-Attention Transformer ( http://arxiv.org/abs/2201.05887v1 )

ライセンス: Link先を確認
Xiyu Wang, Pengxin Guo, and Yu Zhang(参考訳) ドメイン適応(DA)は、十分なラベル付きデータを持つソースドメインから学習した知識を、ラベルなしデータのみを持つターゲットドメインに活用することを目的としている。 DAに関する既存の研究のほとんどは、畳み込みベースのニューラルネットワークに基づくドメインギャップを最小限にすることで、両方のドメインに対するドメイン不変の特徴表現の学習に貢献している。 近年,視覚トランスフォーマは複数の視覚タスクの性能を大幅に改善している。 本稿では,視覚変換器をベースとしたDA用双方向クロスアテンション変換器(BCAT)を提案する。 BCATでは、アテンション機構が暗黙のソースとターゲットの混合特徴表現を抽出し、ドメインの差を狭めることができる。 具体的には、BCATにおいて、ドメイン不変の特徴表現を学習するための双方向のクロスアテンション機構を備えた重み共有四重分岐変換器を設計する。 大規模な実験により、提案したBCATモデルは、畳み込みやトランスフォーマーに基づく既存の最先端のDAメソッドよりも、4つのベンチマークデータセットで優れた性能を発揮することが示された。

Domain Adaptation (DA) aims to leverage the knowledge learned from a source domain with ample labeled data to a target domain with unlabeled data only. Most existing studies on DA contribute to learning domain-invariant feature representations for both domains by minimizing the domain gap based on convolution-based neural networks. Recently, vision transformers significantly improved performance in multiple vision tasks. Built on vision transformers, in this paper we propose a Bidirectional Cross-Attention Transformer (BCAT) for DA with the aim to improve the performance. In the proposed BCAT, the attention mechanism can extract implicit source and target mix-up feature representations to narrow the domain discrepancy. Specifically, in BCAT, we design a weight-sharing quadruple-branch transformer with a bidirectional cross-attention mechanism to learn domain-invariant feature representations. Extensive experiments demonstrate that the proposed BCAT model achieves superior performance on four benchmark datasets over existing state-of-the-art DA methods that are based on convolutions or transformers.
翻訳日:2022-01-19 14:25:14 公開日:2022-01-15
# ドメイン適応のためのSPDマニフォールドの深部輸送

Deep Optimal Transport on SPD Manifolds for Domain Adaptation ( http://arxiv.org/abs/2201.05745v1 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 対称正定値(SPD)多様体上のドメイン適応(DA)問題は、多くの非定常的シナリオにおけるSPD行列表現の可能性の増大により、機械学習コミュニティへの関心が高まっている。 本稿では,SPD多様体上のソースドメインとターゲットドメインを整合させるJDAを一般化し,一般化されたJDAと既存のSPD多様体上のディープネットワークアーキテクチャを用いて,ディープネットワークアーキテクチャ,Deep Optimal Transport(DOT)を提案する。 DOTの特定のアーキテクチャにより、SPD多様体上のDA問題に対する近似最適輸送(OT)解を学習することができる。 実験では、DOTは脳-コンピュータインタフェース(BCI)における2つの高い非定常的クロスセッションシナリオにおいて平均精度に対して2.32%と2.92%の増加を示した。 変換前後のソースドメインとターゲットドメインの可視化結果もまた、DOTの有効性を示している。

The domain adaption (DA) problem on symmetric positive definite (SPD) manifolds has raised interest in the machine learning community because of the growing potential for the SPD-matrix representations across many non-stationary applicable scenarios. This paper generalizes the joint distribution adaption (JDA) to align the source and target domains on SPD manifolds and proposes a deep network architecture, Deep Optimal Transport (DOT), using the generalized JDA and the existing deep network architectures on SPD manifolds. The specific architecture in DOT enables it to learn an approximate optimal transport (OT) solution to the DA problems on SPD manifolds. In the experiments, DOT exhibits a 2.32% and 2.92% increase on the average accuracy in two highly non-stationary cross-session scenarios in brain-computer interfaces (BCIs), respectively. The visualizational results of the source and target domains before and after the transformation also demonstrate the validity of DOT.
翻訳日:2022-01-19 14:18:51 公開日:2022-01-15
# ブロックポリシーミラー降下

Block Policy Mirror Descent ( http://arxiv.org/abs/2201.05756v1 )

ライセンス: Link先を確認
Guanghui Lan, Yan Li, Tuo Zhao(参考訳) 本稿では,(強い)凸正則化器を用いた規則化強化学習(RL)のクラスを解くために,ブロックポリシーミラー降下法(BPMD)という新しいポリシー勾配法を提案する。 バッチ更新ルールを持つ従来のPGメソッドと比較して、BPMDメソッドは、サンプリングされた状態のポリシー更新を実行する部分更新ルールを介して、各状態のポリシーを訪問して更新する。 問題の非凸の性質と部分的な更新規則にもかかわらず、BPMD法はグローバルな最適性への高速な線形収束を実現する。 さらに、サンプルから構築した確率的一階情報を利用して、bpmd法を確率的設定にまで拡張する。 我々は$\cO(1/\epsilon)$ (resp)を確立する。 $\cO(1/\epsilon^2)$) 強い凸 (resp. non-strongly convex) 正規化子に対するサンプルの複雑さは、確率的な一階情報を構成するための異なる手順を持つ。 我々の知る限り、強化学習における政策最適化のために、ブロック座標降下法が開発され、分析されたのはこれが初めてである。

In this paper, we present a new class of policy gradient (PG) methods, namely the block policy mirror descent (BPMD) methods for solving a class of regularized reinforcement learning (RL) problems with (strongly) convex regularizers. Compared to the traditional PG methods with batch update rule, which visit and update the policy for every state, BPMD methods have cheap per-iteration computation via a partial update rule that performs the policy update on a sampled state. Despite the nonconvex nature of the problem and a partial update rule, BPMD methods achieve fast linear convergence to the global optimality. We further extend BPMD methods to the stochastic setting, by utilizing stochastic first-order information constructed from samples. We establish $\cO(1/\epsilon)$ (resp. $\cO(1/\epsilon^2)$) sample complexity for the strongly convex (resp. non-strongly convex) regularizers, with different procedures for constructing the stochastic first-order information, where $\epsilon$ denotes the target accuracy. To the best of our knowledge, this is the first time that block coordinate descent methods have been developed and analyzed for policy optimization in reinforcement learning.
翻訳日:2022-01-19 14:18:36 公開日:2022-01-15
# 異常検出モデルのロバストトレーニングのための簡潔対数損失関数

Concise Logarithmic Loss Function for Robust Training of Anomaly Detection Model ( http://arxiv.org/abs/2201.05748v1 )

ライセンス: Link先を確認
YeongHyeon Park(参考訳) 近年,タスクのドメイン知識が最小限でなくても,異常検出モデルを構築できるという利点により,ディープラーニングに基づくアルゴリズムが広く採用されている。 代わりに、ニューラルネットワークのトレーニングをより安定させるには、適切なニューラルネットワーク構造や損失関数を定義する方がよいでしょう。 トレーニング異常検出モデルでは,平均二乗誤差(MSE)関数が広く採用されている。 一方,新たな損失関数である対数平均二乗誤差(LMSE)は,ニューラルネットワークをより安定に訓練するために提案されている。 本研究は, 数学的比較, バックプロパゲーションのための差分領域の可視化, トレーニング過程における損失収束, 異常検出性能など, 様々な比較を行った。 全体として、LMSEは損失収束の強さ、異常検出性能の観点から、既存のMSE関数よりも優れている。 lmse関数は、異常検出モデルだけでなく、一般生成ニューラルネットワークのトレーニングにも応用できると期待されている。

Recently, deep learning-based algorithms are widely adopted due to the advantage of being able to establish anomaly detection models without or with minimal domain knowledge of the task. Instead, to train the artificial neural network more stable, it should be better to define the appropriate neural network structure or the loss function. For the training anomaly detection model, the mean squared error (MSE) function is adopted widely. On the other hand, the novel loss function, logarithmic mean squared error (LMSE), is proposed in this paper to train the neural network more stable. This study covers a variety of comparisons from mathematical comparisons, visualization in the differential domain for backpropagation, loss convergence in the training process, and anomaly detection performance. In an overall view, LMSE is superior to the existing MSE function in terms of strongness of loss convergence, anomaly detection performance. The LMSE function is expected to be applicable for training not only the anomaly detection model but also the general generative neural network.
翻訳日:2022-01-19 13:41:47 公開日:2022-01-15
# 決めないことを決める

Deciding Not To Decide ( http://arxiv.org/abs/2201.05818v1 )

ライセンス: Link先を確認
Florian Ellsaesser, Guido Fioretti(参考訳) 予期せぬ 斬新で 想像もつかない出来事が 人生に入ります 通常私たちの行動を導く原因と効果のマッピングは破壊されます。 想像もしなかった可能性に驚き、ショックを受けました。 その中には、企業や経済全般の長期的な存続に欠かせない投資を行うなどの決定がある。 実用性最大化の標準的な機械は適用されないと提案するが、シナリオ計画とグラフ解析にインスパイアされた対策を提案し、機械学習で検討されている解決策を指摘する。

Sometimes unexpected, novel, unconceivable events enter our lives. The cause-effect mappings that usually guide our behaviour are destroyed. Surprised and shocked by possibilities that we had never imagined, we are unable to make any decision beyond mere routine. Among them there are decisions, such as making investments, that are essential for the long-term survival of businesses as well as the economy at large. We submit that the standard machinery of utility maximization does not apply, but we propose measures inspired by scenario planning and graph analysis, pointing to solutions being explored in machine learning.
翻訳日:2022-01-19 13:41:30 公開日:2022-01-15
# lidarデータを用いた信号交差点における歩行者のサブクラス化と到着時刻予測の枠組み

A Framework for Pedestrian Sub-classification and Arrival Time Prediction at Signalized Intersection Using Preprocessed Lidar Data ( http://arxiv.org/abs/2201.05877v1 )

ライセンス: Link先を確認
Tengfeng Lin, Zhixiong Jin, Seongjin Choi and Hwasoo Yeo(参考訳) 車椅子を用いた歩行者死亡率は、全人口の歩行者死亡率よりも36%高かった。 しかし、被害者の車椅子使用の有無や障害の有無を警察の報告では記録していないことが多いため、死亡事故と非死亡事故の両方で歩行者のカテゴリーを明確にするデータは存在しない。 現在、インフラ側に設置された高度な交通センサを用いて、脆弱な道路利用者をリアルタイムに検出することは、交差点での交通安全を大幅に改善する大きな可能性を秘めている。 本研究では,障害者と通常の歩行歩行者を区別し,交差点の向こう側に到達するのに要する時間を予測するために,機械学習とディープラーニングモデルを組み合わせた体系的枠組みを開発した。 提案フレームワークは,脆弱なユーザ分類と到着時刻予測精度の両方において高い性能を示す。

The mortality rate for pedestrians using wheelchairs was 36% higher than the overall population pedestrian mortality rate. However, there is no data to clarify the pedestrians' categories in both fatal and nonfatal accidents, since police reports often do not keep a record of whether a victim was using a wheelchair or has a disability. Currently, real-time detection of vulnerable road users using advanced traffic sensors installed at the infrastructure side has a great potential to significantly improve traffic safety at the intersection. In this research, we develop a systematic framework with a combination of machine learning and deep learning models to distinguish disabled people from normal walk pedestrians and predict the time needed to reach the next side of the intersection. The proposed framework shows high performance both at vulnerable user classification and arrival time prediction accuracy.
翻訳日:2022-01-19 13:41:21 公開日:2022-01-15
# 知識ベースに関する時間的質問の一般化と解釈のためのベンチマーク

A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases ( http://arxiv.org/abs/2201.05793v1 )

ライセンス: Link先を確認
Sumit Neelam, Udit Sharma, Hima Karanam, Shajith Ikbal, Pavan Kapanipathi, Ibrahim Abdelaziz, Nandana Mihindukulasooriya, Young-Suk Lee, Santosh Srivastava, Cezar Pendus, Saswati Dana, Dinesh Garg, Achille Fokoue, G P Shrivatsa Bhargav, Dinesh Khandelwal, Srinivas Ravishankar, Sairam Gurajada, Maria Chang, Rosario Uceda-Sosa, Salim Roukos, Alexander Gray, Guilherme Lima, Ryan Riegel, Francois Luus, L Venkata Subramaniam(参考訳) 複雑な推論を含む知識ベース質問回答(KBQA)タスクが重要な研究方向として浮上している。 しかしながら、既存のKBQAデータセットのほとんどは、主に、時間的、空間的、および分類学的推論のような他の推論タイプを無視した、明示的な事実に対する一般的なマルチホップ推論に焦点を当てている。 本稿では,時間的推論のためのベンチマークデータセットであるTempQA-WDを提案する。 特に、我々のベンチマークは、以下の利点を持つデータセットに答える一時的な質問です。 (a)wikidataがベースで、最も頻繁にキュレートされ、オープンに入手可能な知識ベースである。 (b)KBQAに対する意味解析に基づくアプローチの評価を容易にする中間的なスパーククエリを含む。 (c) Freebase と Wikidata の複数の知識ベースに一般化する。 TempQA-WDデータセットはhttps://github.com/IBM/tempqa-wd.comで公開されている。

Knowledge Base Question Answering (KBQA) tasks that involve complex reasoning are emerging as an important research direction. However, most existing KBQA datasets focus primarily on generic multi-hop reasoning over explicit facts, largely ignoring other reasoning types such as temporal, spatial, and taxonomic reasoning. In this paper, we present a benchmark dataset for temporal reasoning, TempQA-WD, to encourage research in extending the present approaches to target a more challenging set of complex reasoning tasks. Specifically, our benchmark is a temporal question answering dataset with the following advantages: (a) it is based on Wikidata, which is the most frequently curated, openly available knowledge base, (b) it includes intermediate sparql queries to facilitate the evaluation of semantic parsing based approaches for KBQA, and (c) it generalizes to multiple knowledge bases: Freebase and Wikidata. The TempQA-WD dataset is available at https://github.com/IBM/tempqa-wd.
翻訳日:2022-01-19 13:13:31 公開日:2022-01-15
# CLIP-TD:視覚言語タスクのためのCLIPターゲット蒸留

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks ( http://arxiv.org/abs/2201.05729v1 )

ライセンス: Link先を確認
Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Jianwei Yang, Xiyang Dai, Bin Xiao, Haoxuan You, Shih-Fu Chang, Lu Yuan(参考訳) 対照的に、CLIP(Contrastive Language-image Pretraining)は、視覚と言語モダリティを統合的な埋め込み空間にリンクし、視覚言語(VL)タスクの膨大な可能性をもたらす。 初期の同時作業はタスクのサブセットでこの可能性を研究し始めたが、重要な疑問は残る。 1) 未調査VLタスクにおけるCLIPの利点は何か? 2) CLIPはローショットやドメインシフトのシナリオでメリットがあるか? 3) CLIPは推論や事前学習の複雑さに影響を与えることなく既存のアプローチを改善することができるか? 本稿では,2つの重要なコントリビューションを通じて,これらの質問に答える。 まず,VCR(Visual Commonsense Reasoning),SNLI-VE(Visual Entailment),VQA(Visual Question Answering)などを含む,さまざまなデータ可用性制約とドメインシフト条件に関する評価プロトコルを紹介する。 次に,CLIIP-TD (CLIP Targeted Distillation) という手法を提案し,CLIPから既存のアーキテクチャに知識をインテリジェントに蒸留し,動的に重み付けされた目的をインスタンス毎に適応的に選択したトークンに適用する。 実験により、提案したCLIP-TDは、VCRの低ショット(51.9%)とドメインシフト(71.3%)の条件で例外的に向上し、同時に標準の完全教師付き条件(最大2%)下での性能向上を実現し、画像テキストデータのみで事前訓練された他のシングルモデルと比較して、VCR上での最先端のパフォーマンスを達成することができた。 SNLI-VEでは、CLIP-TDは低撮影条件(最大6.6%)と全監督条件(最大3%)で著しく上昇する。 VQAでは、CLIP-TDはローショット(最大9%)とフル教師付き(最大1.3%)の改善を提供する。 最後に、CLIP-TDは、CLIPを微調整に利用すると同時に、ベースラインナイーブ蒸留法よりも優れている。 コードは利用可能になる。

Contrastive language-image pretraining (CLIP) links vision and language modalities into a unified embedding space, yielding the tremendous potential for vision-language (VL) tasks. While early concurrent works have begun to study this potential on a subset of tasks, important questions remain: 1) What is the benefit of CLIP on unstudied VL tasks? 2) Does CLIP provide benefit in low-shot or domain-shifted scenarios? 3) Can CLIP improve existing approaches without impacting inference or pretraining complexity? In this work, we seek to answer these questions through two key contributions. First, we introduce an evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of data availability constraints and conditions of domain shift. Second, we propose an approach, named CLIP Targeted Distillation (CLIP-TD), to intelligently distill knowledge from CLIP into existing architectures using a dynamically weighted objective applied to adaptively selected tokens per instance. Experiments demonstrate that our proposed CLIP-TD leads to exceptional gains in the low-shot (up to 51.9%) and domain-shifted (up to 71.3%) conditions of VCR, while simultaneously improving performance under standard fully-supervised conditions (up to 2%), achieving state-of-art performance on VCR compared to other single models that are pretrained with image-text data only. On SNLI-VE, CLIP-TD produces significant gains in low-shot conditions (up to 6.6%) as well as fully supervised (up to 3%). On VQA, CLIP-TD provides improvement in low-shot (up to 9%), and in fully-supervised (up to 1.3%). Finally, CLIP-TD outperforms concurrent works utilizing CLIP for finetuning, as well as baseline naive distillation approaches. Code will be made available.
翻訳日:2022-01-19 12:59:16 公開日:2022-01-15
# 重み付けとプルーニングに基づく表データ分類のためのアンサンブル深部ランダムベクトル関数型リンクネットワーク

Weighting and Pruning based Ensemble Deep Random Vector Functional Link Network for Tabular Data Classification ( http://arxiv.org/abs/2201.05809v1 )

ライセンス: Link先を確認
Qiushi Shi, Ponnuthurai Nagaratnam Suganthan, Rakesh Katuwal(参考訳) 本稿では,まずedrvflネットワークにバッチ正規化を導入する。 この再正規化手法は、ネットワークが隠れた特徴のばらつきを避けるのに役立つ。 次に,アンサンブル深部ランダムベクトル汎関数リンク(edrvfl)の新たな変種を提案する。 重み付きEDRVFL (WedRVFL) は、重み付け法を用いて、サンプルが前層で確実に分類された方法に応じて異なる重みのトレーニングサンプルを与えることにより、アンサンブルの多様性と精度を高める。 さらに、プルーニングベースのEDRVFL(PedRVFL)も提案されている。 次に隠れた層を生成する前に、分類の重要性に基づいて下層ニューロンをプルーピングする。 この方法により、ランダムに生成された劣等な特徴がより深い層に伝播しないようにする。 次に,重み付けと刈り込みを併用し,重み付けと刈り込みに基づく深層ランダムベクトル汎関数リンクネットワーク(wpedrvfl)を提案する。 それらの性能を、24の表付きUCI分類データセット上で、最先端のディープフィードフォワードニューラルネットワーク(FNN)と比較する。 実験結果は,提案手法の優れた性能を示す。

In this paper, we first introduce batch normalization to the edRVFL network. This re-normalization method can help the network avoid divergence of the hidden features. Then we propose novel variants of Ensemble Deep Random Vector Functional Link (edRVFL). Weighted edRVFL (WedRVFL) uses weighting methods to give training samples different weights in different layers according to how the samples were classified confidently in the previous layer thereby increasing the ensemble's diversity and accuracy. Furthermore, a pruning-based edRVFL (PedRVFL) has also been proposed. We prune some inferior neurons based on their importance for classification before generating the next hidden layer. Through this method, we ensure that the randomly generated inferior features will not propagate to deeper layers. Subsequently, the combination of weighting and pruning, called Weighting and Pruning based Ensemble Deep Random Vector Functional Link Network (WPedRVFL), is proposed. We compare their performances with other state-of-the-art deep feedforward neural networks (FNNs) on 24 tabular UCI classification datasets. The experimental results illustrate the superior performance of our proposed methods.
翻訳日:2022-01-19 12:57:30 公開日:2022-01-15