このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211127となっている論文です。

PDF登録状況(公開日: 20211127)

TitleAuthorsAbstract論文公表日・翻訳日
# 構文の階層構造

The Hierarchical Organization of Syntax ( http://arxiv.org/abs/2112.05783v1 )

ライセンス: Link先を確認
Babak Ravandi and Valentina Concu(参考訳) 階層は複雑なシステムのバックボーンであり、その分析によってそれらの構造とどのように進化するかをより深く理解することができる。 言語も複雑な適応システムであると考えている。 そこで,11世紀から17世紀にかけてのテキストのコーパスから作成されたドイツ語の歴史的構文ネットワークの階層構造を分析した。 これらのネットワークにおける構文構造の出現を追跡し、特定のコミュニケーションニーズにマッピングした。 これらの新興構造をコミュニケーティブ階層と名付けました 話者のコミュニケーションニーズは構文の組織的力であると仮定する。 我々は,これら複数階層の出現は構文を形作るものであり,それらの階層がzipfの法則の前提条件であることを示す。 コミュニケーション階層の出現は、言語進化の目的が情報伝達の効率を高めることだけではないことを示している。 言語はまた、種として進化するにつれて、より洗練された抽象化を伝える能力を高めるために進化しています。

Hierarchies are the backbones of complex systems and their analysis allows for a deeper understanding of their structure and how they evolve. We consider languages to be also complex adaptive systems. Hence, we analyzed the hierarchical organization of historical syntactic networks from German that were created from a corpus of texts from the 11th to 17th centuries. We tracked the emergence of syntactic structures in these networks and mapped them to specific communicative needs. We named these emerging structures communicative hierarchies. We hypothesise that the communicative needs of speakers are the organizational force of syntax. We propose that the emergence of these multiple communicative hierarchies is what shapes syntax, and that these hierarchies are the prerequisite to the Zipf's law. The emergence of communicative hierarchies indicates that the objective of language evolution is not only to increase the efficiency of transferring information. Language is also evolving to increase our capacity to communicate more sophisticated abstractions as we advance as a species.
翻訳日:2021-12-19 12:56:50 公開日:2021-11-27
# 量子ブラーの有用性の検討

Investigating the usefulness of Quantum Blur ( http://arxiv.org/abs/2112.01646v1 )

ライセンス: Link先を確認
James R. Wootton and Marcel Pfaffhauser(参考訳) 量子計算が従来の計算に勝る前には数年が残っているが、様々な分野の探索目的には既にリソースを提供している。 これには、コンピュータゲーム、音楽、芸術における手続き生成のための特定のタスクが含まれる。 量子ボケ法(quantum blur method)は、量子ソフトウェアの原理を用いて手続き生成の手法を設計するのに有用であることを示すために、原理実証の例として導入された。 ここでは,手法の効果を分析し,従来のぼやけた効果と比較する。 また,量子重ね合わせと絡み合いの操作による効果の導出についても検討した。

Though some years remain before quantum computation can outperform conventional computation, it already provides resources that be used for exploratory purposes in various fields. This includes certain tasks for procedural generation in computer games, music and art. The Quantum Blur method was introduced as a proof-of-principle example, to show that it can be useful to design methods for procedural generation using the principles of quantum software. Here we analyse the effects of the method and compare it to conventional blur effects. We also determine how the effects seen derive from the manipulation of quantum superposition and entanglement.
翻訳日:2021-12-12 15:18:58 公開日:2021-11-27
# 機械学習の物理:物理科学者のための直感的入門

The Physics of Machine Learning: An Intuitive Introduction for the Physical Scientist ( http://arxiv.org/abs/2112.00851v1 )

ライセンス: Link先を確認
Stephon Alexander, Sarah Bawabe, Batia Friedman-Shaw, Michael W. Toomey(参考訳) この記事では、我々が最もよく知っている分野、物理学を通じて提示する機械学習アルゴリズムについて深い洞察を得たい物理科学者を対象としています。 まず、エネルギーベースの機械学習アルゴリズムであるホップフィールドネットワークとボルツマンマシンのレビューと、Isingモデルとの関係について述べる。 これは学習の現象をより一般に理解するための基礎となる。 この直観を備えることで、feedforwardニューラルネットワーク、畳み込みニューラルネットワーク、オートエンコーダといった、さらに"実践的"な機械学習アーキテクチャを探求します。 また、勾配勾配によるニューラルネットワークのトレーニングを明示的に示すコードも提供しています。

This article is intended for physical scientists who wish to gain deeper insights into machine learning algorithms which we present via the domain they know best, physics. We begin with a review of two energy-based machine learning algorithms, Hopfield networks and Boltzmann machines, and their connection to the Ising model. This serves as a foundation to understand the phenomenon of learning more generally. Equipped with this intuition we then delve into additional, more "practical," machine learning architectures including feedforward neural networks, convolutional neural networks, and autoencoders. We also provide code that explicitly demonstrates training a neural network with gradient descent.
翻訳日:2021-12-06 00:45:27 公開日:2021-11-27
# (参考訳) 学習機械から学ぶ:科学のニーズを満たす新しい世代のAI技術 [全文訳有]

Learning from learning machines: a new generation of AI technology to meet the needs of science ( http://arxiv.org/abs/2111.13786v1 )

ライセンス: CC BY 4.0
Luca Pion-Tonachini, Kristofer Bouchard, Hector Garcia Martin, Sean Peisert, W. Bradley Holtz, Anil Aswani, Dipankar Dwivedi, Haruko Wainwright, Ghanshyam Pilania, Benjamin Nachman, Babetta L. Marrone, Nicola Falco, Prabhat, Daniel Arnold, Alejandro Wolf-Yadlin, Sarah Powers, Sharlee Climer, Quinn Jackson, Ty Carlson, Michael Sohn, Petrus Zwart, Neeraj Kumar, Amy Justice, Claire Tomlin, Daniel Jacobson, Gos Micklem, Georgios V. Gkoutos, Peter J. Bickel, Jean-Baptiste Cazier, Juliane M\"uller, Bobbie-Jo Webb-Robertson, Rick Stevens, Mark Anderson, Ken Kreutz-Delgado, Michael W. Mahoney, James B. Brown(参考訳) 科学的な発見のためのAIの有用性を高めるための新たな機会と課題を概説する。 産業におけるAIの目標と科学におけるAIの目標の区別は、データ内のパターンを識別することと、データから世界のパターンを発見することとの間に緊張を生じさせる。 ドメイン駆動型科学モデルとデータ駆動型AI学習マシンの「ギャップを埋める」ことに関連する根本的な課題に対処するならば、これらのAIモデルは仮説生成、科学的発見、科学プロセス自体を変えることができるだろう。

We outline emerging opportunities and challenges to enhance the utility of AI for scientific discovery. The distinct goals of AI for industry versus the goals of AI for science create tension between identifying patterns in data versus discovering patterns in the world from data. If we address the fundamental challenges associated with "bridging the gap" between domain-driven scientific models and data-driven AI learning machines, then we expect that these AI models can transform hypothesis generation, scientific discovery, and the scientific process itself.
翻訳日:2021-12-04 17:39:53 公開日:2021-11-27
# (参考訳) lafite: テキスト対画像生成のための言語フリートレーニングに向けて [全文訳有]

LAFITE: Towards Language-Free Training for Text-to-Image Generation ( http://arxiv.org/abs/2111.13792v1 )

ライセンス: CC BY 4.0
Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, Tong Sun(参考訳) テキスト-画像生成モデルのトレーニングにおける大きな課題の1つは、多数の高品質の画像-テキストペアの必要性である。 画像サンプルは容易にアクセス可能であることが多いが、関連するテキスト記述は通常、注意深い人間のキャプションを必要とする。 本稿では,テキストデータを用いずにテキスト対画像生成モデルを訓練する最初の手法を提案する。 提案手法では,画像特徴量からテキスト特徴量を生成することで,テキストコンディショニングの要件をシームレスに緩和する。 提案手法の有効性を説明するため,広範な実験を行った。 標準テキスト対画像生成タスクにおいて最先端の結果を得る。 重要なことに、提案された言語フリーモデルは、フルイメージテキストペアでトレーニングされた既存のモデルよりも優れている。 さらに,本手法を微調整事前学習モデルに適用することにより,テキスト・画像生成モデルのトレーニング時間とコストを削減できる。 事前学習したモデルは,ms-cocoデータセット上でゼロショットテキスト対画像生成の競合結果を得るが,提案する大規模dall-eモデルと比較して,モデルサイズとトレーニングデータサイズの1%程度しか得られない。

One of the major challenges in training text-to-image generation models is the need of a large number of high-quality image-text pairs. While image samples are often easily accessible, the associated text descriptions typically require careful human captioning, which is particularly time- and cost-consuming. In this paper, we propose the first work to train text-to-image generation models without any text data. Our method leverages the well-aligned multi-modal semantic space of the powerful pre-trained CLIP model: the requirement of text-conditioning is seamlessly alleviated via generating text features from image features. Extensive experiments are conducted to illustrate the effectiveness of the proposed method. We obtain state-of-the-art results in the standard text-to-image generation tasks. Importantly, the proposed language-free model outperforms most existing models trained with full image-text pairs. Furthermore, our method can be applied in fine-tuning pre-trained models, which saves both training time and cost in training text-to-image generation models. Our pre-trained model obtains competitive results in zero-shot text-to-image generation on the MS-COCO dataset, yet with around only 1% of the model size and training data size relative to the recently proposed large DALL-E model.
翻訳日:2021-12-04 17:02:06 公開日:2021-11-27
# (参考訳) 金融分野におけるグラフニューラルネットワーク手法の展望

A Review on Graph Neural Network Methods in Financial Applications ( http://arxiv.org/abs/2111.15367v1 )

ライセンス: CC BY 4.0
Jianian Wang, Sheng Zhang, Yanghua Xiao, Rui Song(参考訳) 個々の特徴と複雑な関係を保ちながら、グラフデータを広く利用し、研究している。 ノードの表現を更新して集約することで構造情報をキャプチャできるため、グラフニューラルネットワーク(GNN)モデルが人気を集めている。 財務的な文脈では、グラフは現実世界のデータに基づいて構築され、複雑なグラフ構造につながり、洗練された方法論を必要とする。 本稿では,近年の財務状況におけるGNNモデルの包括的レビューを行う。 まず、よく使われる財務グラフを分類し、各ノードの特徴処理ステップを要約する。 次に,グラフタイプ毎のGNN手法を要約し,いくつかの潜在的研究領域を提案する。

Keeping the individual features and the complicated relations, graph data are widely utilized and investigated. Being able to capture the structural information by updating and aggregating nodes' representations, graph neural network (GNN) models are gaining popularity. In the financial context, the graph is constructed based on real-world data, which leads to complex graph structure and thus requires sophisticated methodology. In this work, we provide a comprehensive review of GNN models in recent financial context. We first categorize the commonly-used financial graphs and summarize the feature processing step for each node. Then we summarize the GNN methodology for each graph type, application in each area, and propose some potential research areas.
翻訳日:2021-12-04 16:39:01 公開日:2021-11-27
# (参考訳) マルチタスク学習による交通予測のための移動学習 [全文訳有]

Learning to Transfer for Traffic Forecasting via Multi-task Learning ( http://arxiv.org/abs/2111.15542v1 )

ライセンス: CC BY 4.0
Yichao Lu(参考訳) ディープニューラルネットワークは短期トラフィック予測において優れた性能を示している。 しかし、既存の交通予測システムの多くは、トレーニングデータとテストデータは、基礎となる同じ分布から引き出されており、実際の適用性が制限されていると仮定している。 NeurIPS 2021 Traffic4castチャレンジは、空間と時間のドメインシフトに対するトラフィック予測モデルの堅牢性を評価するための最初の試みである。 この技術的レポートは、この課題に対する我々の解決策を説明している。 特に,トラヒック予測モデルの時間的および時空間的領域適応のためのマルチタスク学習フレームワークを提案する。 実験の結果,マルチタスク学習手法は,多くのベースライン領域適応法よりも高い性能を示しながら,高い効率を保っていることがわかった。 このテクニカルレポートのソースコードはhttps://github.com/y ichaolu/traffic4cast 2021で入手できる。

Deep neural networks have demonstrated superior performance in short-term traffic forecasting. However, most existing traffic forecasting systems assume that the training and testing data are drawn from the same underlying distribution, which limits their practical applicability. The NeurIPS 2021 Traffic4cast challenge is the first of its kind dedicated to benchmarking the robustness of traffic forecasting models towards domain shifts in space and time. This technical report describes our solution to this challenge. In particular, we present a multi-task learning framework for temporal and spatio-temporal domain adaptation of traffic forecasting models. Experimental results demonstrate that our multi-task learning approach achieves strong empirical performance, outperforming a number of baseline domain adaptation methods, while remaining highly efficient. The source code for this technical report is available at https://github.com/Y ichaoLu/Traffic4cast 2021.
翻訳日:2021-12-04 16:38:05 公開日:2021-11-27
# (参考訳) 因子化フーリエニューラル演算子 [全文訳有]

Factorized Fourier Neural Operators ( http://arxiv.org/abs/2111.13802v1 )

ライセンス: CC BY 4.0
Alasdair Tran, Alexander Mathews, Lexing Xie, Cheng Soon Ong(参考訳) Fourier Neural Operator (FNO) は偏微分方程式を効率的にシミュレートする学習法である。 本稿では,より深いネットワークでより優れた一般化を可能にする因子化フーリエニューラル演算子(f-fno)を提案する。 すべての層にまたがる共有カーネル積分演算子であるフーリエ分解とマルコフ特性と残差接続を慎重に組み合わせることで、F-FNOはナビエ・ストークスベンチマークデータセットの最も乱流的な設定でエラーを6倍に減らすことができる。 本モデルでは,粘度や時変力などの付加的な文脈を含む問題設定が拡張された場合でも,数値解法よりも桁違いに高速に動作しながら,誤差率2%を維持できることを示す。 これにより、同じ事前訓練されたニューラルネットワークが、非常に異なる条件をモデル化できる。

The Fourier Neural Operator (FNO) is a learning-based method for efficiently simulating partial differential equations. We propose the Factorized Fourier Neural Operator (F-FNO) that allows much better generalization with deeper networks. With a careful combination of the Fourier factorization, a shared kernel integral operator across all layers, the Markov property, and residual connections, F-FNOs achieve a six-fold reduction in error on the most turbulent setting of the Navier- Stokes benchmark dataset. We show that our model maintains an error rate of 2% while still running an order of magnitude faster than a numerical solver, even when the problem setting is extended to include additional contexts such as viscosity and time-varying forces. This enables the same pretrained neural network to model vastly different conditions.
翻訳日:2021-12-04 16:15:45 公開日:2021-11-27
# (参考訳) オフラインのニューラルネットワーク帯域:ペシミズム、最適化、一般化 [全文訳有]

Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization ( http://arxiv.org/abs/2111.13807v1 )

ライセンス: CC BY 4.0
Thanh Nguyen-Tang, Sunil Gupta, A.Tuan Nguyen, Svetha Venkatesh(参考訳) オフラインポリシー学習(OPL)は、アクティブな探索なしにポリシー最適化のために収集された既存のデータを活用する。 この問題の流行と近年の関心にもかかわらず、関数近似設定における理論的およびアルゴリズム的基礎は未開発のままである。 本稿では,ニューラルネットワークを用いたオフラインコンテキスト帯域における分布シフト,最適化,一般化の軸について考察する。 特に,報酬に機能的な仮定を必要とせず,ニューラルネットワーク関数近似を用いた,効率的なオフラインコンテキストバンディットを提案する。 提案手法は,既存のOPL法よりも分布シフトの軽度条件下で,不明瞭な文脈に対して有効に一般化可能であることを示す。 特に,他のOPL手法と異なり,本手法は確率勾配降下法を用いてオフラインデータから学習し,オンライン学習の利点をオフライン環境に活用することができる。 さらに,本手法はより計算効率が高く,オンライン手法よりもニューラルネットワークの有効次元への依存度が高いことを示す。 最後に, 実世界のOPL問題において, 提案手法の実証的有効性を示す。

Offline policy learning (OPL) leverages existing data collected a priori for policy optimization without any active exploration. Despite the prevalence and recent interest in this problem, its theoretical and algorithmic foundations in function approximation settings remain under-developed. In this paper, we consider this problem on the axes of distributional shift, optimization, and generalization in offline contextual bandits with neural networks. In particular, we propose a provably efficient offline contextual bandit with neural network function approximation that does not require any functional assumption on the reward. We show that our method provably generalizes over unseen contexts under a milder condition for distributional shift than the existing OPL works. Notably, unlike any other OPL method, our method learns from the offline data in an online manner using stochastic gradient descent, allowing us to leverage the benefits of online learning into an offline setting. Moreover, we show that our method is more computationally efficient and has a better dependence on the effective dimension of the neural network than an online counterpart. Finally, we demonstrate the empirical effectiveness of our method in a range of synthetic and real-world OPL problems.
翻訳日:2021-12-04 16:06:57 公開日:2021-11-27
# (参考訳) 環境マッピングとトポロジマッチングのための平均外向きフラックス骨格 [全文訳有]

Average Outward Flux Skeletons for Environment Mapping and Topology Matching ( http://arxiv.org/abs/2111.13826v1 )

ライセンス: CC BY 4.0
Morteza Rezanejad, Babak Samari, Elham Karimi, Ioannis Rekleitis, Gregory Dudek, Kaleem Siddiqi(参考訳) 我々は,まず未知の2次元環境の道路地図(トポロジカル表現としても知られる)を,その境界の縮小を堅牢に計算するオンライン手続きを通して直接抽出する方法を検討する。 本稿では,まず,トポロジカルマップのオンライン構築と,ロボットを最寄りの未探索領域まで誘導する制御則の実装について述べる。 提案手法では,ロボットが部分的に構築された地図上に自在に配置し,未探索の環境(前線)への経路を計算し,環境を十分に探索した際に頑健な終了条件を計算し,ループ閉鎖検出を実現する。 提案アルゴリズムは,ロボットのナビゲーションニーズに対して,スムーズな経路を実現する。 提案したアプローチは、取得されるレーザースキャンデータからトポロジカルマップをアクティブに作成できるという利点を持つ任意の時間アルゴリズムである。 また,ロボットが空空間に開放されたトポロジカルマップのノードに向けられるヒューリスティックに基づくナビゲーション戦略を提案する。 次に, 特定のスペクトル対応法 [2] の強度を生かしたトポロジマッチングアルゴリズムを提案することにより, [1] の処理を拡張し, トポロジ生成アルゴリズムから生成されたマッピング環境に適合させる。 そこで我々は,AOFスケルトンを用いて地図化された環境のトポロジに適合するシステムの実装に集中した。 2つの与えられた地図とそれらのAOF骨格のトポロジーマッチングにおいて、まず2つの異なる環境のAOF骨格の点間の対応を見出す。 次に、環境自体の(2D)ポイントを調整します。 また, 抽出したAOF骨格とそのトポロジに基づいて, 与えられた2つの環境間の距離を, 対応する点間の一致誤差の和として計算する。

We consider how to directly extract a road map (also known as a topological representation) of an initially-unknown 2-dimensional environment via an online procedure that robustly computes a retraction of its boundaries. In this article, we first present the online construction of a topological map and the implementation of a control law for guiding the robot to the nearest unexplored area, first presented in [1]. The proposed method operates by allowing the robot to localize itself on a partially constructed map, calculate a path to unexplored parts of the environment (frontiers), compute a robust terminating condition when the robot has fully explored the environment, and achieve loop closure detection. The proposed algorithm results in smooth safe paths for the robot's navigation needs. The presented approach is any time algorithm that has the advantage that it allows for the active creation of topological maps from laser scan data, as it is being acquired. We also propose a navigation strategy based on a heuristic where the robot is directed towards nodes in the topological map that open to empty space. We then extend the work in [1] by presenting a topology matching algorithm that leverages the strengths of a particular spectral correspondence method [2], to match the mapped environments generated from our topology-making algorithm. Here, we concentrated on implementing a system that could be used to match the topologies of the mapped environment by using AOF Skeletons. In topology matching between two given maps and their AOF skeletons, we first find correspondences between points on the AOF skeletons of two different environments. We then align the (2D) points of the environments themselves. We also compute a distance measure between two given environments, based on their extracted AOF skeletons and their topology, as the sum of the matching errors between corresponding points.
翻訳日:2021-12-04 15:20:25 公開日:2021-11-27
# (参考訳) デザイン研究における自然言語処理

Natural Language Processing in-and-for Design Research ( http://arxiv.org/abs/2111.13827v1 )

ライセンス: CC BY 4.0
L Siddharth, Lucienne T. M. Blessing, Jianxi Luo(参考訳) 設計プロセスを支援するために自然言語処理(NLP)手法を利用した学術的貢献についてレビューする。 ヒューリスティックなアプローチを用いて,32誌および1991年現在までの223記事を収集した。 我々は,これらの論文を,内部報告,設計概念,談話書き起こし,技術出版,消費者の意見など,自然言語テキストソースの種類に応じてレビューすることによって,最先端のNLPイン・フォー・デザイン研究を提示する。 これらのコントリビューションのギャップを要約して識別すると、既存のデザイン革新フレームワークを使用して、現在NLPがサポートしているアプリケーションを特定します。 次に,今後のnlp設計研究のための方法論的・理論的方向性を提案する。

We review the scholarly contributions that utilise Natural Language Processing (NLP) methods to support the design process. Using a heuristic approach, we collected 223 articles published in 32 journals and within the period 1991-present. We present state-of-the-art NLP in-and-for design research by reviewing these articles according to the type of natural language text sources: internal reports, design concepts, discourse transcripts, technical publications, consumer opinions, and others. Upon summarizing and identifying the gaps in these contributions, we utilise an existing design innovation framework to identify the applications that are currently being supported by NLP. We then propose a few methodological and theoretical directions for future NLP in-and-for design research.
翻訳日:2021-12-04 15:08:50 公開日:2021-11-27
# (参考訳) 対話生成のためのパートナーペルソナ生成 [全文訳有]

Partner Personas Generation for Diverse Dialogue Generation ( http://arxiv.org/abs/2111.13833v1 )

ライセンス: CC BY 4.0
Hongyuan Lu, Wai Lam, Hong Cheng, Helen M. Meng(参考訳) ペルソナ情報を組み込むことで、対話応答生成における多様で魅力的な応答が可能になる。 残念ながら、以前の作品は主に自己ペルソナに焦点を当てており、パートナーペルソナの価値を見落としている。 さらに,実践的応用においては,真理パートナーペルソナが利用できることはしばしばない。 本稿では,対話生成の促進に自動パートナーペルソナ生成を活用する新しいフレームワークを提供することにより,これらの課題に対処しようとする。 報酬判断のための強化学習を,特別に設計された批判ネットワークに組み込む。 自動評価と人間評価の両方による実験結果 a) 基礎的真理パートナーペルソナと比較しても,関連し,情報的かつ一貫性のあるパートナペルソナを生成することができる。 b) 生成したパートナーペルソナは、後続の応答生成を強化し、推論段階でパートナーペルソナが欠落したときのベースラインおよび比較モデルを超えます。 c)本フレームワークは,推論中に真実のパートナーペルソナを前提としたベースラインよりも,より情報的かつ活発な応答を生成する。 d) 専門的に設計された批評家ネットワークは,我々の枠組みを効果的に強化する。 最後に、我々のフレームワークは、より良い説明可能性を提供し、パートナーペルソナの外部データベースに対する要求を減らします。

Incorporating personas information allows diverse and engaging responses in dialogue response generation. Unfortunately, prior works have primarily focused on self personas and have overlooked the value of partner personas. Moreover, in practical applications, the availability of ground truth partner personas is often not the case. This paper attempts to tackle these issues by offering a novel framework that leverages automatic partner personas generation to enhance the succeeding dialogue generation. We incorporate reinforcement learning with a dedicatedly designed critic network for reward judgement. Experimental results from both automatic and human evaluation demonstrate a) Our framework is capable of generating relevant, informative and coherent partner personas, even compared to the ground truth partner personas. b) Generated partner personas enhance the succeeding response generation, thus surpassing our baselines and comparison model when partner personas are missing during the inference stage. c) Our framework generates responses that are more informative and engaging than our baseline conditioned on the ground truth partner personas during inference. d) Our dedicatedly designed critic network reinforces our framework effectively. Finally, our framework gives better explainability and reduces the demands for external databases for partner personas.
翻訳日:2021-12-04 15:07:44 公開日:2021-11-27
# (参考訳) 複数のデータセットを用いたディープラーニング: 重み付き目標プログラミングアプローチ [全文訳有]

Deep Learning with Multiple Data Set: A Weighted Goal Programming Approach ( http://arxiv.org/abs/2111.13834v1 )

ライセンス: CC BY-SA 4.0
Marco Repetto, Davide La Torre, Muhammad Tariq(参考訳) 大規模データ分析は、我々の社会でデータが急増するにつれて、指数的に成長している。 この膨大なデータには、意思決定者が以前禁止されていたシナリオで複雑なモデルを実装することができるという利点がある。 同時に、そのような量のデータは分散思考アプローチを必要とする。 実際、ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。 本稿では分散学習のためのマルチ基準アプローチを提案する。 私たちのアプローチでは、Chebyshevの定式化にWeighted Goal Programmingアプローチを使用して、優先順位に定義されたパフォーマンスメトリクスを最適化する決定ルールの集合を構築しています。 このような定式化は、モデルと計量非依存の両方であり、意思決定者に対して解釈可能な出力を提供するので有益である。 我々は、電力需要予測の実践的応用を示すことによって、我々のアプローチをテストする。 以上の結果から,データセットの分割重なりを許容すると,提案手法の性能は,データセット全体でトレーニングされたベースラインモデルよりも一貫して向上することが示唆された。

Large-scale data analysis is growing at an exponential rate as data proliferates in our societies. This abundance of data has the advantage of allowing the decision-maker to implement complex models in scenarios that were prohibitive before. At the same time, such an amount of data requires a distributed thinking approach. In fact, Deep Learning models require plenty of resources, and distributed training is needed. This paper presents a Multicriteria approach for distributed learning. Our approach uses the Weighted Goal Programming approach in its Chebyshev formulation to build an ensemble of decision rules that optimize aprioristically defined performance metrics. Such a formulation is beneficial because it is both model and metric agnostic and provides an interpretable output for the decision-maker. We test our approach by showing a practical application in electricity demand forecasting. Our results suggest that when we allow for dataset split overlapping, the performances of our methodology are consistently above the baseline model trained on the whole dataset.
翻訳日:2021-12-04 14:54:20 公開日:2021-11-27
# (参考訳) dsc:大規模位置認識のためのdeep scan context descriptor [全文訳有]

DSC: Deep Scan Context Descriptor for Large-Scale Place Recognition ( http://arxiv.org/abs/2111.13838v1 )

ライセンス: CC BY 4.0
Jiafeng Cui, Tengfei Huang, Yingfeng Cai, Junqiao Zhao, Lu Xiong and Zhuoping Yu(参考訳) LiDARに基づく位置認識はループ閉鎖検出とグローバル再局在において必須かつ困難な課題である。 本稿では,ポイントクラウドのセグメント間の関係を捉える汎用かつ判別可能なグローバルディスクリプタであるdeep scan context(dsc)を提案する。 位置認識にセマンティクスや隣接するポイントクラウドのシーケンスを使用する従来の方法とは異なり、競合的な結果を得るためには生のポイントクラウドのみを使用します。 具体的には、まず点雲を自己中心的に分割し、セグメントのセントロイドと固有値を取得する。 次に,これらの特徴を埋め込み表現に集約するグラフニューラルネットワークを提案する。 KITTIデータセットで実施された大規模な実験により、DSCはシーンの変動に対して堅牢であり、既存の手法よりも優れていることが示された。

LiDAR-based place recognition is an essential and challenging task both in loop closure detection and global relocalization. We propose Deep Scan Context (DSC), a general and discriminative global descriptor that captures the relationship among segments of a point cloud. Unlike previous methods that utilize either semantics or a sequence of adjacent point clouds for better place recognition, we only use raw point clouds to get competitive results. Concretely, we first segment the point cloud egocentrically to acquire centroids and eigenvalues of the segments. Then, we introduce a graph neural network to aggregate these features into an embedding representation. Extensive experiments conducted on the KITTI dataset show that DSC is robust to scene variants and outperforms existing methods.
翻訳日:2021-12-04 14:45:13 公開日:2021-11-27
# (参考訳) 産業設計のための新しい知識グラフ開発--間接的石炭液化過程を事例として [全文訳有]

A novel knowledge graph development for industry design: A case study on indirect coal liquefaction process ( http://arxiv.org/abs/2111.13854v1 )

ライセンス: CC BY 4.0
Zhenhua Wang, Beike Zhang, Dong Gao(参考訳) hazop は産業安全工学における顕著な代表であり、hazop 報告書には産業安全知識(isk)の優れた保管庫が含まれている。 ISKの価値を解放し、HAZOP効率を向上させるために、産業安全のための新しい知識グラフ開発(ISKG)を提案する。 第1に,国際標準IEC61882によると,我々はトップダウンアプローチを用いて,オントロジーライブラリを構成する多段階情報を用いて,ハズオプを危険事象に分解する。 次に,ボトムアップアプローチと自然言語処理技術を用いて,ハイブリッド深層学習に基づくhainexと呼ばれる巧妙な情報抽出モデルを提案する。 簡単に言うと、HAINEXは、意味的特徴を抽出する産業用双方向エンコーダの改善、文脈表現を得るための双方向長短期記憶ネットワーク、工業的損失関数を改良した条件付きランダムフィールドに基づくデコーダからなる。 最後に、構築されたHAZOPトリプルをグラフデータベースにインポートする。 実験によりHAINEXは高度で信頼性が高いことが示された。 間接石炭液化プロセスについて,ISKGの開発を事例として考察する。 iskビジュアライゼーション、isk検索、補助hazopおよびハザード伝播推論のようなiskg指向のアプリケーションは、iskの可能性を発掘し、産業安全の強化において重要なhazop効率を向上させることができる。 さらに、ISKGに基づく質問応答システムは、安全知識の普及と非専門職の予防意識向上のための指導指導に応用できる。

Hazard and operability analysis (HAZOP) is a remarkable representative in industrial safety engineering, the HAZOP report contains a great storehouse of industrial safety knowledge (ISK). In order to unlock the value of ISK and improve HAZOP efficiency, a novel knowledge graph development for industrial safety (ISKG) is proposed. Firstly, according to the international standard IEC61882, we use the top-down approach to disintegrate HAZOP into hazard events with multi-level information, which constructs the ontology library. Secondly, using the bottom-up approach and natural language processing technology, we present an ingenious information extraction model termed HAINEX based on hybrid deep learning. Briefly, the HAINEX consists of the following modules: an improved industrial bidirectional encoder for extracting semantic features, a bidirectional long short-term memory network for obtaining the context representation, and a decoder based on conditional random field with an improved industrial loss function. Finally, the constructed HAZOP triples are imported into the graph database. Experiments show that HAINEX is advanced and reliable. We take the indirect coal liquefaction process as a case study to develop ISKG. ISKG oriented applications, such as ISK visualization, ISK retrieval, auxiliary HAZOP and hazard propagation reasoning, can mine the potential of ISK and improve HAZOP efficiency, which is of great significance in strengthening industrial safety. What is more, the ISKG based question-answering system can be applied to teaching guidance to popularize the safety knowledge and enhance prevention awareness for non-professionals.
翻訳日:2021-12-03 12:13:03 公開日:2021-11-27
# (参考訳) なぜMDAC? 多領域活性化関数 [全文訳有]

Why MDAC? A Multi-domain Activation Function ( http://arxiv.org/abs/2111.13858v1 )

ライセンス: CC BY 4.0
Zhenhua Wang, Dong Gao, Haozhe Liu, Fanglin Liu(参考訳) 本研究では,mdacと呼ばれる新規で汎用的で独創的な活性化関数を提案し,勾配消失と非微分的存在の問題を克服する。 MDACは指数的活性化関数(Tanh family など)と部分的線形活性化関数(ReLU family など)の性質をほぼ継承する。 特に正の領域では、適応線形構造は様々な領域分布に対応するように設計されている。 負の領域では指数と線形性の組み合わせは勾配の消失の障害を克服すると考えられている。 さらに、微分不可能な存在は滑らかな近似によって排除される。 実験により、MDACはアクティベーション関数を単に変更することで、6つのドメインデータセットにおける古典モデルと事前学習最適化モデルの両方の性能を改善し、MDACの有効性とプログレッシブ性を示す。 MDACは、ロバスト性や一般化において他の一般的なアクティベーション関数よりも優れており、複数のドメインで優れたアクティベーション性能を反映することができる。

In this study, a novel, general and ingenious activation function termed MDAC is proposed to surmount the troubles of gradient vanishing and non-differentiable existence. MDAC approximately inherits the properties of exponential activation function (such as Tanh family) and piecewise linear activation function (such as ReLU family). Specifically, in the positive region, the adaptive linear structure is designed to respond to various domain distributions. In the negative region, the combination of exponent and linearity is considered to conquer the obstacle of gradient vanishing. Furthermore, the non-differentiable existence is eliminated by smooth approximation. Experiments show that MDAC improves performance on both classical models and pre-training optimization models in six domain datasets by simply changing the activation function, which indicates MDAC's effectiveness and pro-gressiveness. MDAC is superior to other prevalent activation functions in robustness and generalization, and can reflect excellent activation performance in multiple domains.
翻訳日:2021-12-03 11:47:00 公開日:2021-11-27
# (参考訳) AIS:産業安全工学における非線形活性化機能 [全文訳有]

AIS: A nonlinear activation function for industrial safety engineering ( http://arxiv.org/abs/2111.13861v1 )

ライセンス: CC BY 4.0
Zhenhua Wang, Beike Zhang, Dong Gao(参考訳) 深層学習に基づく中国語名称のエンティティ認識のタスクでは、アクティベーション関数は置換不能な役割を担い、ニューラルネットワークに非線形特性を導入し、様々なタスクに適合したモデルを適用することができる。 However, the information density of industrial safety analysis text is relatively high, and the correlation and similarity between the information are large, which is easy to cause the problem of high deviation and high standard deviation of the model, no specific activation function has been designed in previous studies, and the traditional activation function has the problems of gradient vanishing and negative region, which also lead to the recognition accuracy of the model can not be further improved. そこで本稿では,新たなアクティベーション関数aisを提案する。 AISは産業安全工学に応用された活性化関数であり、2つの非線形関数からなる。 正の領域では、指数関数と二次関数を組み合わせた構造を用いて偏差と標準偏差の問題を緩和し、線形関数を加えて修正することにより、全体の活性化関数をより滑らかにし、勾配消滅の問題を克服する。 負の領域では、立方体関数構造を用いて負の領域問題を解き、モデルの収束を加速する。 BERT-BiLSTM-CRFのディープラーニングモデルに基づいてAISの性能を評価する。 その結果,AISは他のアクティベーション関数と比較して,勾配消滅や負領域の問題を克服し,モデルの偏差を低減し,モデルフィッティングを高速化し,産業用モデルの抽出能力を向上させることがわかった。

In the task of Chinese named entity recognition based on deep learning, activation function plays an irreplaceable role, it introduces nonlinear characteristics into neural network, so that the fitted model can be applied to various tasks. However, the information density of industrial safety analysis text is relatively high, and the correlation and similarity between the information are large, which is easy to cause the problem of high deviation and high standard deviation of the model, no specific activation function has been designed in previous studies, and the traditional activation function has the problems of gradient vanishing and negative region, which also lead to the recognition accuracy of the model can not be further improved. To solve these problems, a novel activation function AIS is proposed in this paper. AIS is an activation function applied in industrial safety engineering, which is composed of two piecewise nonlinear functions. In the positive region, the structure combining exponential function and quadratic function is used to alleviate the problem of deviation and standard deviation, and the linear function is added to modify it, which makes the whole activation function smoother and overcomes the problem of gradient vanishing. In the negative region, the cubic function structure is used to solve the negative region problem and accelerate the convergence of the model. Based on the deep learning model of BERT-BiLSTM-CRF, the performance of AIS is evaluated. The results show that, compared with other activation functions, AIS overcomes the problems of gradient vanishing and negative region, reduces the deviation of the model, speeds up the model fitting, and improves the extraction ability of the model for industrial entities.
翻訳日:2021-12-03 11:32:44 公開日:2021-11-27
# (参考訳) 協調aiへの挑戦としての規範的不一致 [全文訳有]

Normative Disagreement as a Challenge for Cooperative AI ( http://arxiv.org/abs/2111.13872v1 )

ライセンス: CC BY 4.0
Julian Stastny, Maxime Rich\'e, Alexander Lyzhov, Johannes Treutlein, Allan Dafoe, Jesse Clifton(参考訳) エージェントが共通の関心と相反する関心(混合モチベーション環境)を持つ環境での協調は、近年、マルチエージェント学習において大きな注目を集めている。 しかし、混合動機環境は通常、すべてのエージェントが合意できる単一の協調的な結果をもたらす。 多くの現実世界のマルチエージェント環境は、代わりに問題(BP)に直面している。 我々は、複数の競合する協調平衡が存在することにつながる規範的不一致の余地がある場合、典型的な協調誘導学習アルゴリズムはBPで協調することができないと論じ、この問題を実証的に説明する。 この問題を解決するために,規範適応政策の概念を導入する。 ノルム適応政策は異なる状況下で異なる規範に従って行動し、規範的不一致を解決する機会を生み出すことができる。 我々は,規範適応ポリシーのクラスを開発し,協調性が著しく向上することを示す。 しかし、ノルム適応性は、エクスプロイラビリティと協調的ロバストネスの根本的なトレードオフから生じる残差の解消には対処できない。

Cooperation in settings where agents have both common and conflicting interests (mixed-motive environments) has recently received considerable attention in multi-agent learning. However, the mixed-motive environments typically studied have a single cooperative outcome on which all agents can agree. Many real-world multi-agent environments are instead bargaining problems (BPs): they have several Pareto-optimal payoff profiles over which agents have conflicting preferences. We argue that typical cooperation-inducing learning algorithms fail to cooperate in BPs when there is room for normative disagreement resulting in the existence of multiple competing cooperative equilibria, and illustrate this problem empirically. To remedy the issue, we introduce the notion of norm-adaptive policies. Norm-adaptive policies are capable of behaving according to different norms in different circumstances, creating opportunities for resolving normative disagreement. We develop a class of norm-adaptive policies and show in experiments that these significantly increase cooperation. However, norm-adaptiveness cannot address residual bargaining failure arising from a fundamental tradeoff between exploitability and cooperative robustness.
翻訳日:2021-12-03 11:15:51 公開日:2021-11-27
# (参考訳) 2次元ニュートン法に基づく大規模線形制約群スパース群ラッソ問題に対する拡張ラグランジアン法

A dual semismooth Newton based augmented Lagrangian method for large-scale linearly constrained sparse group square-root Lasso problems ( http://arxiv.org/abs/2111.13878v1 )

ライセンス: CC0 1.0
Chengjing Wang and Peipei Tang(参考訳) 平方根ラッソ問題は頑健な回帰問題である。 さらに、構造化スパーシティを持つ二乗根回帰問題もまた、統計と機械学習において重要な役割を果たす。 本稿では,大規模線形制約付きスパース群二乗根ラッソ問題の数値計算に着目する。 目的関数に2つの非平滑項が存在することの難しさを克服するために,2つの半平滑ニュートン(SSN)に基づく拡張ラグランジアン法(ALM)を提案する。 すなわち、サブプロブレムをSSN法で解いた双対問題にALMを適用する。 SSN法を適用するためには、一般化されたヤコビアンの正の定性が非常に重要である。 したがって、その正定値性の同値性と対応する主問題の制約非退化条件を特徴付ける。 数値計算では,ニュートン方向を効率よく得られるように,第2次空間を十分に活用する。 数値実験により提案アルゴリズムの有効性が示された。

Square-root Lasso problems are proven robust regression problems. Furthermore, square-root regression problems with structured sparsity also plays an important role in statistics and machine learning. In this paper, we focus on the numerical computation of large-scale linearly constrained sparse group square-root Lasso problems. In order to overcome the difficulty that there are two nonsmooth terms in the objective function, we propose a dual semismooth Newton (SSN) based augmented Lagrangian method (ALM) for it. That is, we apply the ALM to the dual problem with the subproblem solved by the SSN method. To apply the SSN method, the positive definiteness of the generalized Jacobian is very important. Hence we characterize the equivalence of its positive definiteness and the constraint nondegeneracy condition of the corresponding primal problem. In numerical implementation, we fully employ the second order sparsity so that the Newton direction can be efficiently obtained. Numerical experiments demonstrate the efficiency of the proposed algorithm.
翻訳日:2021-12-03 10:56:37 公開日:2021-11-27
# (参考訳) 認知Wi-FiネットワークにおけるMLによるハンドオーバ予測とAP選択 [全文訳有]

ML-based Handover Prediction and AP Selection in Cognitive Wi-Fi Networks ( http://arxiv.org/abs/2111.13879v1 )

ライセンス: CC BY 4.0
Muhammad Asif Khan, Ridha Hamila, Adel Gastli, Serkan Kiranyaz and Nasser Ahmed Al-Emadi(参考訳) 密集したWi-Fiネットワークにおけるデバイスモビリティにはいくつかの課題がある。 デバイスモビリティに関連する2つのよく知られた問題は、ハンドオーバ予測とアクセスポイント選択である。 無線環境の複雑な性質から、解析モデルは無線チャネルを特徴付けない可能性があるため、これらの問題を解決することは極めて困難である。 近年,高度な学習技術を用いたコグニティブネットワークアーキテクチャが,このような問題にますます適用されている。 本稿では、WLANネットワークにおけるこれらの問題を効率的に解くためのデータ駆動機械学習(ML)手法を提案する。 提案手法を評価し, 従来の問題に対するアプローチと比較した。 その結果,提案手法の適用によりネットワーク性能が大幅に向上した。 例えば、ハンドオーバ予測のための提案手法は、不要ハンドオーバの数を60%と50%減らし、従来の方法、すなわちRSS法と走行距離法より優れている。 同様にAP選択において、提案手法はSSFとLLFのアルゴリズムよりも高いスループットをそれぞれ9.2%と8%に向上させる。

Device mobility in dense Wi-Fi networks offers several challenges. Two well-known problems related to device mobility are handover prediction and access point selection. Due to the complex nature of the radio environment, analytical models may not characterize the wireless channel, which makes the solution of these problems very difficult. Recently, cognitive network architectures using sophisticated learning techniques are increasingly being applied to such problems. In this paper, we propose a data-driven machine learning (ML) schemes to efficiently solve these problems in WLAN networks. The proposed schemes are evaluated and results are compared with traditional approaches to the aforementioned problems. The results report significant improvement in network performance by applying the proposed schemes. For instance, the proposed scheme for handover prediction outperforms traditional methods i.e. RSS method and traveling distance method by reducing the number of unnecessary handovers by 60% and 50% respectively. Similarly, in AP selection, the proposed scheme outperforms the SSF and LLF algorithms by achieving higher throughput gains upto 9.2% and 8% respectively.
翻訳日:2021-12-03 10:55:40 公開日:2021-11-27
# (参考訳) エンコーダデコーダに基づく異常検出によるアンテナ自動テスト [全文訳有]

Automated Antenna Testing Using Encoder-Decoder-base d Anomaly Detection ( http://arxiv.org/abs/2111.13884v1 )

ライセンス: CC BY 4.0
Hans Hao-Hsun Hsu, Jiawen Xu, Ravi Sama and Matthias Kovatsch(参考訳) 吸収材料を用いて放射電磁界(EM)を記録し、条件エンコーダデコーダモデルを用いてAIを介して得られた熱画像系列を評価するアンテナアレイの試験方法を提案する。 各配列要素に供給される信号のパワーと位相を考えると、トレーニングしたモデルを通じて正規シーケンスを再構築し、熱カメラで観測された実シーケンスと比較することができる。 これらのサーモグラムは、様々な形状のブロブのような低レベルのパターンのみを含む。 輪郭型異常検出器は、再構成誤差行列を異常スコアにマッピングし、故障アンテナアレイを特定し、分類F測定(F-M)を最大46%向上させることができる。 本稿では,アンテナ試験システムで収集した時系列サーモグラムについて述べる。 従来、変動型オートエンコーダ(VAE)学習観測ノイズは、一定のノイズ仮定を持つVAEよりもよい結果が得られる。 しかし,このような低レベルパターンの異常検出には2つの理由がある。 第1に、学習された観測ノイズを組み込んだベースラインメトリック再構成確率は、異常パターンの識別に失敗する。 第2に、観測ノイズの仮定が低いvaeの受信機動作特性(roc)曲線の下の領域は、学習ノイズのvaeのそれよりも11.83%高い。

We propose a new method for testing antenna arrays that records the radiating electromagnetic (EM) field using an absorbing material and evaluating the resulting thermal image series through an AI using a conditional encoder-decoder model. Given the power and phase of the signals fed into each array element, we are able to reconstruct normal sequences through our trained model and compare it to the real sequences observed by a thermal camera. These thermograms only contain low-level patterns such as blobs of various shapes. A contour-based anomaly detector can then map the reconstruction error matrix to an anomaly score to identify faulty antenna arrays and increase the classification F-measure (F-M) by up to 46%. We show our approach on the time series thermograms collected by our antenna testing system. Conventionally, a variational autoencoder (VAE) learning observation noise may yield better results than a VAE with a constant noise assumption. However, we demonstrate that this is not the case for anomaly detection on such low-level patterns for two reasons. First, the baseline metric reconstruction probability, which incorporates the learned observation noise, fails to differentiate anomalous patterns. Second, the area under the receiver operating characteristic (ROC) curve of a VAE with a lower observation noise assumption achieves 11.83% higher than that of a VAE with learned noise.
翻訳日:2021-12-03 10:39:40 公開日:2021-11-27
# (参考訳) ディープキャラクタアニメーションのための階層認識ポーズ表現 [全文訳有]

A Hierarchy-Aware Pose Representation for Deep Character Animation ( http://arxiv.org/abs/2111.13907v1 )

ライセンス: CC BY 4.0
Nefeli Andreou, Andreas Lazarou, Andreas Aristidou, Yiorgos Chrysanthou(参考訳) データ駆動のキャラクターアニメーション技術は、そのリッチなコンテキストを記述することができる、適切に確立された動きモデルの存在に依存している。 しかし、一般的に使われる動き表現は、運動の完全な調音や現在あるアーティファクトを正確にエンコードできないことが多い。 本研究では,深部キャラクタアニメーションに適した動きモデリングのためのロバストなポーズ表現を見出すという基本的な問題に対処し,ポーズを制約し,骨格特性に関連付けられたニュアンスを忠実に捉えた。 我々の表現は、回転方向と位置方向を同時にエンコードし、ルートを中心とした階層認識エンコーディングを可能にする、明確に定義された操作を持つ数学的抽象化である双四元数に基づいている。 我々の表現は共通の動きを克服し、他の一般的な表現と比較してその性能を評価する。 我々は,学習中に取り入れられる様々な損失の影響を評価するためのアブレーション研究を行っている。 我々の表現が骨格の運動特性を暗黙的に符号化しているという事実を活用して、我々は異なる比率の骨格からなるデータセット上でネットワークを訓練する。 滑らかで自然なポーズが実現できることを示し、魅力的なアプリケーションへの道を開く。

Data-driven character animation techniques rely on the existence of a properly established model of motion, capable of describing its rich context. However, commonly used motion representations often fail to accurately encode the full articulation of motion, or present artifacts. In this work, we address the fundamental problem of finding a robust pose representation for motion modeling, suitable for deep character animation, one that can better constrain poses and faithfully capture nuances correlated with skeletal characteristics. Our representation is based on dual quaternions, the mathematical abstractions with well-defined operations, which simultaneously encode rotational and positional orientation, enabling a hierarchy-aware encoding, centered around the root. We demonstrate that our representation overcomes common motion artifacts, and assess its performance compared to other popular representations. We conduct an ablation study to evaluate the impact of various losses that can be incorporated during learning. Leveraging the fact that our representation implicitly encodes skeletal motion attributes, we train a network on a dataset comprising of skeletons with different proportions, without the need to retarget them first to a universal skeleton, which causes subtle motion elements to be missed. We show that smooth and natural poses can be achieved, paving the way for fascinating applications.
翻訳日:2021-12-03 10:22:46 公開日:2021-11-27
# (参考訳) 学習曲線クロスバリデーションを用いた素早い情報モデル選択 [全文訳有]

Fast and Informative Model Selection using Learning Curve Cross-Validation ( http://arxiv.org/abs/2111.13914v1 )

ライセンス: CC BY 4.0
Felix Mohr, Jan N. van Rijn(参考訳) k-foldクロスバリデーションやモンテカルロクロスバリデーションのような共通クロスバリデーション(cv)法は、与えられたデータの大部分で繰り返しトレーニングし、残りのデータでテストすることで学習者の予測性能を推定する。 これらの技法には2つの大きな欠点がある。 まず、大きなデータセットでは不必要に遅くなります。 第二に、最終的なパフォーマンスを見積もる以外に、検証されたアルゴリズムの学習プロセスに関する洞察はほとんど与えられません。 本稿では,学習曲線(LCCV)に基づく検証手法を提案する。 LCCVは、トレーニングデータの大部分で列車-テスト分割を作成する代わりに、反復的にトレーニングに使用されるインスタンスの数を増やす。 モデル選択の文脈では、競合になりそうにないモデルを破棄します。 AutoMLベンチマークから67のデータセットに対して大規模な実験を行い、LCCVを使用するケースの90%以上で、5/10倍のCVを使用する場合と同様のパフォーマンス(最大1.5%の差)が得られることを実証した。 しかし、これは平均で20%以上の実行時削減をもたらす。 さらに、例えばより多くのデータを取得することのメリットを評価するために、重要な洞察を提供する。 これらの結果はAutoMLの分野での他の進歩と直交している。

Common cross-validation (CV) methods like k-fold cross-validation or Monte-Carlo cross-validation estimate the predictive performance of a learner by repeatedly training it on a large portion of the given data and testing on the remaining data. These techniques have two major drawbacks. First, they can be unnecessarily slow on large datasets. Second, beyond an estimation of the final performance, they give almost no insights into the learning process of the validated algorithm. In this paper, we present a new approach for validation based on learning curves (LCCV). Instead of creating train-test splits with a large portion of training data, LCCV iteratively increases the number of instances used for training. In the context of model selection, it discards models that are very unlikely to become competitive. We run a large scale experiment on the 67 datasets from the AutoML benchmark and empirically show that in over 90% of the cases using LCCV leads to similar performance (at most 1.5% difference) as using 5/10-fold CV. However, it yields substantial runtime reductions of over 20% on average. Additionally, it provides important insights, which for example allow assessing the benefits of acquiring more data. These results are orthogonal to other advances in the field of AutoML.
翻訳日:2021-12-03 10:01:43 公開日:2021-11-27
# (参考訳) ハイパースペクトル画像分類のためのスパース部分空間クラスタリング親しみやすい深部辞書学習 [全文訳有]

Sparse Subspace Clustering Friendly Deep Dictionary Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2111.13920v1 )

ライセンス: CC BY 4.0
Anurag Goel and Angshul Majumdar(参考訳) サブスペースクラスタリング技術は、ハイパースペクトル画像のセグメンテーションにおいて有望である。 サブスペースクラスタリングの基本的な前提は、異なるクラスタ/セグメントに属するサンプルが分離可能なサブスペースにあることである。 もしこの状態が持続しなかったら? 仮に条件が元の空間に収まらないとしても、データは非線型に部分空間に分離できる空間に変換される可能性があると推測する。 本研究では,深層辞書学習(deep dictionary learning, ddl)のテンテットに基づくトランスフォーメーションを提案する。 特に,DDLの定式化において,スパース部分空間クラスタリング(SSC)損失を考慮に入れた。 ここで、ddlは(データの)変換された表現が部分空間に分離できるようなデータを非線形に変換する。 提案手法は,ハイパースペクトル画像クラスタリングにおける最先端の深層学習技術よりも優れていることを示す。

Subspace clustering techniques have shown promise in hyperspectral image segmentation. The fundamental assumption in subspace clustering is that the samples belonging to different clusters/segments lie in separable subspaces. What if this condition does not hold? We surmise that even if the condition does not hold in the original space, the data may be nonlinearly transformed to a space where it will be separable into subspaces. In this work, we propose a transformation based on the tenets of deep dictionary learning (DDL). In particular, we incorporate the sparse subspace clustering (SSC) loss in the DDL formulation. Here DDL nonlinearly transforms the data such that the transformed representation (of the data) is separable into subspaces. We show that the proposed formulation improves over the state-of-the-art deep learning techniques in hyperspectral image clustering.
翻訳日:2021-12-03 09:36:11 公開日:2021-11-27
# (参考訳) 変換K平均クラスタリング [全文訳有]

Transformed K-means Clustering ( http://arxiv.org/abs/2111.13921v1 )

ライセンス: CC BY 4.0
Anurag Goel and Angshul Majumdar(参考訳) 本研究では,変換学習のパラダイムに基づくクラスタリングフレームワークを提案する。 簡単に言えば、変換学習からの表現はk平均クラスタリングに使用されるが、そのようなna\"ive piecemealの方法では解決されない。 K平均クラスタリング損失を変換学習フレームワークに埋め込み、乗算器の交互方向法を用いて結合問題を解く。 文書クラスタリングの結果,提案手法は最先端技術よりも改善されている。

In this work we propose a clustering framework based on the paradigm of transform learning. In simple terms the representation from transform learning is used for K-means clustering; however, the problem is not solved in such a na\"ive piecemeal fashion. The K-means clustering loss is embedded into the transform learning framework and the joint problem is solved using the alternating direction method of multipliers. Results on document clustering show that our proposed approach improves over the state-of-the-art.
翻訳日:2021-12-03 09:25:17 公開日:2021-11-27
# (参考訳) ハイパースペクトル画像超解像に先立つ3D-CNNと変圧器の学習 [全文訳有]

Learning A 3D-CNN and Transformer Prior for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2111.13923v1 )

ライセンス: CC BY 4.0
Qing Ma and Junjun Jiang and Xianming Liu and Jiayi Ma(参考訳) ハイパースペクトル画像超解像(HSISR)の不正な問題を解決するために、通常、ハイパースペクトル画像(HSI)の事前情報を正規化語として使用して目的関数を制約する。 手作りの先行値を用いたモデルに基づく手法は、HSIの特性を完全に特徴づけることができない。 学習ベースの手法は通常、HSIの暗黙の事前学習に畳み込みニューラルネットワーク(CNN)を使用する。 しかし、cnnの学習能力は限られており、hsisの空間特性のみを考慮し、スペクトル特性を無視し、畳み込みは長距離依存性モデリングには有効ではない。 まだ改善の余地はたくさんあります。 本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。 具体的には、まずHSISRモデルを解くために近似勾配アルゴリズムを使用し、次に展開ネットワークを用いて反復解過程をシミュレートする。 Transformerの自己アテンション層は、空間的グローバルな相互作用を可能にする。 さらにトランスフォーマー層に3D-CNNを加えて、HSIの時空間相関をよりよく調べる。 2つの広く使われているhsiデータセットと実世界のデータセットの定量的および視覚的な結果は、最も競争の激しい従来の方法や最近提案された深層学習に基づく方法を含む全ての主流アルゴリズムと比較して、提案手法が相当な向上を達成していることを示している。

To solve the ill-posed problem of hyperspectral image super-resolution (HSISR), an usually method is to use the prior information of the hyperspectral images (HSIs) as a regularization term to constrain the objective function. Model-based methods using hand-crafted priors cannot fully characterize the properties of HSIs. Learning-based methods usually use a convolutional neural network (CNN) to learn the implicit priors of HSIs. However, the learning ability of CNN is limited, it only considers the spatial characteristics of the HSIs and ignores the spectral characteristics, and convolution is not effective for long-range dependency modeling. There is still a lot of room for improvement. In this paper, we propose a novel HSISR method that uses Transformer instead of CNN to learn the prior of HSIs. Specifically, we first use the proximal gradient algorithm to solve the HSISR model, and then use an unfolding network to simulate the iterative solution processes. The self-attention layer of Transformer makes it have the ability of spatial global interaction. In addition, we add 3D-CNN behind the Transformer layers to better explore the spatio-spectral correlation of HSIs. Both quantitative and visual results on two widely used HSI datasets and the real-world dataset demonstrate that the proposed method achieves a considerable gain compared to all the mainstream algorithms including the most competitive conventional methods and the recently proposed deep learning-based methods.
翻訳日:2021-12-03 08:52:41 公開日:2021-11-27
# (参考訳) 単一画像超解像のための実践的コントラスト学習フレームワーク [全文訳有]

A Practical Contrastive Learning Framework for Single Image Super-Resolution ( http://arxiv.org/abs/2111.13924v1 )

ライセンス: CC BY 4.0
Gang Wu and Junjun Jiang and Xianming Liu and Jiayi Ma(参考訳) 対照的な学習は様々なハイレベルなタスクで顕著な成功を収めてきたが、低レベルなタスクに対して提案される手法は少ない。 獲得したグローバルな視覚表現は、リッチなテクスチャやコンテキスト情報を必要とする低レベルなタスクには不十分であるため、高レベルな視覚タスクに対して提案されるバニラコントラスト学習技術を採用することは困難である。 本稿では,単一画像超解像(SISR)のための新しいコントラスト学習フレームワークを提案する。 比較学習に基づくsisrについて,サンプル構築と特徴埋め込みという2つの視点から検討する。 既存の手法では,低品質な入力を負のサンプルとして,地味の真理を正のサンプルとして検討するなど,単純なサンプル構築手法が提案されており,先行モデル(事前学習VGGモデルなど)を採用して,タスクフレンドリーなサンプルを探索する代わりに,特徴埋め込みを実現する。 そこで本研究では,周波数空間における多くの情報的正負および強負のサンプルの生成を含む,SISRの実践的コントラスト学習フレームワークを提案する。 追加の事前学習されたネットワークを利用する代わりに、識別器ネットワークから継承される単純で効果的な埋め込みネットワークを設計し、プライマリのsrネットワークで反復的に最適化することでタスクを一般化できる。 最後に,本手法をベンチマーク法と比較して広範囲に実験的に評価し,SISRの最先端手法に比べて最大0.21dBの顕著な向上を示した。

Contrastive learning has achieved remarkable success on various high-level tasks, but there are fewer methods proposed for low-level tasks. It is challenging to adopt vanilla contrastive learning technologies proposed for high-level visual tasks straight to low-level visual tasks since the acquired global visual representations are insufficient for low-level tasks requiring rich texture and context information. In this paper, we propose a novel contrastive learning framework for single image super-resolution (SISR). We investigate the contrastive learning-based SISR from two perspectives: sample construction and feature embedding. The existing methods propose some naive sample construction approaches (e.g., considering the low-quality input as a negative sample and the ground truth as a positive sample) and they adopt a prior model (e.g., pre-trained VGG model) to obtain the feature embedding instead of exploring a task-friendly one. To this end, we propose a practical contrastive learning framework for SISR that involves the generation of many informative positive and hard negative samples in frequency space. Instead of utilizing an additional pre-trained network, we design a simple but effective embedding network inherited from the discriminator network and can be iteratively optimized with the primary SR network making it task-generalizable. Finally, we conduct an extensive experimental evaluation of our method compared with benchmark methods and show remarkable gains of up to 0.21 dB over the current state-of-the-art approaches for SISR.
翻訳日:2021-12-03 08:37:46 公開日:2021-11-27
# (参考訳) 非線形回帰のためのリソースアウェア非同期オンライン連合学習 [全文訳有]

Resource-Aware Asynchronous Online Federated Learning for Nonlinear Regression ( http://arxiv.org/abs/2111.13931v1 )

ライセンス: CC BY 4.0
Francois Gauthier, Vinay Chakravarthi Gogineni, Stefan Werner, Yih-Fang Huang, Anthony Kuh(参考訳) 連合学習文学における多くの仮定は、現実世界のほとんどのアプリケーションでは満足できない最良のシナリオを示す。 非同期設定は、連合学習方法が確実に動作しなくてはならない現実的な環境を反映している。 参加者の非iidデータの量の違いに加えて、利用可能な計算能力とバッテリ制約による異種クライアント参加モデルや、クライアントとサーバ間の通信の遅延も考慮される。 非同期オンラインフェデレーション学習(ASO-Fed)に関連する通信オーバーヘッドを低減するために,部分共有型通信の原理を用いる。 このようにして、参加者のコミュニケーション負荷を低減し、学習課題への参加をよりアクセスしやすいものにする。 提案するASO-Fedの収束性を証明し,その挙動をさらに解析するためのシミュレーションを提供する。 シミュレーションにより、非同期環境では、通信の10倍を減らしながら、連合確率勾配(Online-FedSGD)と同じ収束を実現することができる。

Many assumptions in the federated learning literature present a best-case scenario that can not be satisfied in most real-world applications. An asynchronous setting reflects the realistic environment in which federated learning methods must be able to operate reliably. Besides varying amounts of non-IID data at participants, the asynchronous setting models heterogeneous client participation due to available computational power and battery constraints and also accounts for delayed communications between clients and the server. To reduce the communication overhead associated with asynchronous online federated learning (ASO-Fed), we use the principles of partial-sharing-base d communication. In this manner, we reduce the communication load of the participants and, therefore, render participation in the learning task more accessible. We prove the convergence of the proposed ASO-Fed and provide simulations to analyze its behavior further. The simulations reveal that, in the asynchronous setting, it is possible to achieve the same convergence as the federated stochastic gradient (Online-FedSGD) while reducing the communication tenfold.
翻訳日:2021-12-03 08:22:51 公開日:2021-11-27
# Edge AIのロードマップ - Dagstuhl氏の見解

Roadmap for Edge AI: A Dagstuhl Perspective ( http://arxiv.org/abs/2112.00616v1 )

ライセンス: Link先を確認
Aaron Yi Ding, Ella Peltonen, Tobias Meuser, Atakan Aral, Christian Becker, Schahram Dustdar, Thomas Hiessl, Dieter Kranzlmuller, Madhusanka Liyanage, Setareh Magshudi, Nitinder Mohan, Joerg Ott, Jan S. Rellermeyer, Stefan Schulte, Henning Schulzrinne, Gurkan Solmaz, Sasu Tarkoma, Blesson Varghese, Lars Wolf(参考訳) 本稿では,Dagtuhl Seminar (21342) の総合的な入力に基づき,エッジAI(エッジAI)と呼ばれるエッジコンピューティングの文脈におけるAI手法と能力に関する包括的議論を行う。 簡単に言うと、Edge AIは、データ駆動アプリケーションへの適応を提供し、ネットワークと無線アクセスを強化し、所定の品質のエクスペリエンス、信頼性、セキュリティ、プライバシの目標を備えた分散AI/MLパイプラインの作成、最適化、デプロイを可能にします。 Edge AIコミュニティは、エッジコンピューティング環境のための新しいMLメソッドを調査し、コンピュータサイエンス、エンジニアリング、ICTの複数のサブフィールドにまたがる。 目標は、主要なアクターとイネーブラーがEdge AIのドメインをさらに前進させるためのロードマップを共有することだ。

Based on the collective input of Dagstuhl Seminar (21342), this paper presents a comprehensive discussion on AI methods and capabilities in the context of edge computing, referred as Edge AI. In a nutshell, we envision Edge AI to provide adaptation for data-driven applications, enhance network and radio access, and allow the creation, optimization, and deployment of distributed AI/ML pipelines with given quality of experience, trust, security and privacy targets. The Edge AI community investigates novel ML methods for the edge computing environment, spanning multiple sub-fields of computer science, engineering and ICT. The goal is to share an envisioned roadmap that can bring together key actors and enablers to further advance the domain of Edge AI.
翻訳日:2021-12-02 15:28:13 公開日:2021-11-27
# 離散強度オンリー測定による連続3次元屈折率図のゼロショット学習

Zero-Shot Learning of Continuous 3D Refractive Index Maps from Discrete Intensity-Only Measurements ( http://arxiv.org/abs/2112.00002v1 )

ライセンス: Link先を確認
Renhao Liu, Yu Sun, Jiabei Zhu, Lei Tian, Ulugbek Kamilov(参考訳) インテンシティ回折トモグラフィ(Intensity diffraction tomography、IDT)は、試料の3次元屈折率(RI)分布を2次元強度のみの測定値から撮像する光学顕微鏡技術である。 非アーティファクトRIマップの再構成は、位相情報の欠落とコーンの欠落によるIDTの根本的な課題である。 ニューラルネットワーク(NF)は、外部トレーニングデータセットなしで複雑な3Dシーンの連続表現を学習するための新しいディープラーニング(DL)パラダイムとして最近登場した。 我々は, RI体積の高次連続表現を, その強度のみおよび制限角の測定から直接学習できる最初のNF-based IDT法としてDeCAFを提案する。 我々は,DECAFが高コントラストかつ非アーティファクトなRIマップを生成できる3つの異なるIDTモダリティと複数の生物学的サンプルを示す。

Intensity diffraction tomography (IDT) refers to a class of optical microscopy techniques for imaging the 3D refractive index (RI) distribution of a sample from a set of 2D intensity-only measurements. The reconstruction of artifact-free RI maps is a fundamental challenge in IDT due to the loss of phase information and the missing cone problem. Neural fields (NF) has recently emerged as a new deep learning (DL) paradigm for learning continuous representations of complex 3D scenes without external training datasets. We present DeCAF as the first NF-based IDT method that can learn a high-quality continuous representation of a RI volume directly from its intensity-only and limited-angle measurements. We show on three different IDT modalities and multiple biological samples that DeCAF can generate high-contrast and artifact-free RI maps.
翻訳日:2021-12-02 15:26:55 公開日:2021-11-27
# (参考訳) 一般化された人物再同定のためのキャリブレーション特徴分解 [全文訳有]

Calibrated Feature Decomposition for Generalizable Person Re-Identification ( http://arxiv.org/abs/2111.13945v1 )

ライセンス: CC BY 4.0
Kecheng Zheng, Jiawei Liu, Wei Wu, Liang Li, Zheng-jun Zha(参考訳) 個人表現をドメイン関連干渉やアイデンティティ関連特徴へと直接切り離すことを目的とする。 しかし、ドメイン関連干渉とアイデンティティ関連の特徴の両方において、いくつかの重要な特徴が頑固に絡み合っていることを無視している。 本稿では,よりジュディショナルな特徴分解と強化戦略により,人物再識別の一般化能力の向上に焦点をあてた,シンプルで効果的なキャリブレーション機能分解(CFD)モジュールを提案する。 具体的には、キャリブレーション・アンド・スタンダード化バッチ正規化(CSBN)は、ドメイン内キャリブレーションとマルチソースドメイン機能のドメイン間標準化を共同で探索することにより、キャリブレーションされた人物表現を学習するように設計されている。 CSBNは各ドメインの特徴分布のインスタンスレベルの矛盾を制限し、固有のドメインレベルの特定の統計をキャプチャする。 校正された人物表現は、アイデンティティ関連特徴、ドメイン特徴、および残りの絡み合った特徴に下位に分解される。 一般化能力を高め、アイデンティティ関連特徴の高い識別を確保するため、識別ID関連情報を強制し、ID関連情報をフィルタリングするために校正インスタンス正規化(CIN)を導入し、残りの絡み合い特徴からの豊富な補完的手がかりを更に活用して強化する。 広範な実験が我々のフレームワークの強力な一般化能力を示している。 cfdモジュールによって強化された我々のモデルは、複数の広く使用されているベンチマークで最先端のドメイン一般化アプローチを著しく上回っている。 コードは公開される。 https://github.com/z kcys001/CFD。

Existing disentangled-based methods for generalizable person re-identification aim at directly disentangling person representations into domain-relevant interference and identity-relevant feature. However, they ignore that some crucial characteristics are stubbornly entwined in both the domain-relevant interference and identity-relevant feature, which are intractable to decompose in an unsupervised manner. In this paper, we propose a simple yet effective Calibrated Feature Decomposition (CFD) module that focuses on improving the generalization capacity for person re-identification through a more judicious feature decomposition and reinforcement strategy. Specifically, a calibrated-and-stand ardized Batch normalization (CSBN) is designed to learn calibrated person representation by jointly exploring intra-domain calibration and inter-domain standardization of multi-source domain features. CSBN restricts instance-level inconsistency of feature distribution for each domain and captures intrinsic domain-level specific statistics. The calibrated person representation is subtly decomposed into the identity-relevant feature, domain feature, and the remaining entangled one. For enhancing the generalization ability and ensuring high discrimination of the identity-relevant feature, a calibrated instance normalization (CIN) is introduced to enforce discriminative id-relevant information, and filter out id-irrelevant information, and meanwhile the rich complementary clues from the remaining entangled feature are further employed to strengthen it. Extensive experiments demonstrate the strong generalization capability of our framework. Our models empowered by CFD modules significantly outperform the state-of-the-art domain generalization approaches on multiple widely-used benchmarks. Code will be made public: https://github.com/z kcys001/CFD.
翻訳日:2021-12-02 13:01:52 公開日:2021-11-27
# (参考訳) ab initio型深層ニューラルネットワークによるmg$_n$h$_{2n}$ナノクラスターの水素脱離特性に対する無調和効果の理解 [全文訳有]

Understanding Anharmonic Effects on Hydrogen Desorption Characteristics of Mg$_n$H$_{2n}$ Nanoclusters by ab initio trained Deep Neural Network ( http://arxiv.org/abs/2111.13956v1 )

ライセンス: CC BY 4.0
Andrea Pedrielli, Paolo E. Trevisanutto, Lorenzo Monacelli, Giovanni Garberoglio, Nicola M. Pugno, Simone Taioli(参考訳) 水素化マグネシウム(MgH$_2$)は効率的な水素貯蔵のために広く研究されている。 しかし、そのバルク脱離温度(553K)は実用には高すぎると考えられている。 ドーピングの他に、水素を放出する反応エネルギーを減少させる戦略として、MgH$_2$-based nano Particles (NPs) を用いる。 本稿では,第一原理からのmg$_n$h$_{2n}$ nps(n<10$)の熱力学的性質,特に確率的自己整合調和近似(sscha)によるエンタルピー,エントロピー,熱膨張に対するアンハーモニック効果について検討した。 後者の手法は、分子力学と準調和近似に基づく従来のアプローチを超越し、完全調和自由エネルギーのab initio計算を可能にする。 原子間結合長の温度にほぼ線形な依存性があり、相対的な変化は300Kを超えるが、Mg-H結合の結合距離は減少する。 MgH$_2$から水素脱離実験に向け,NPのサイズを増大させるために,計算効率の良い機械学習モデルを考案し,力と総エネルギー(ポテンシャルエネルギー面)を正確に決定し,後者をSSCHAモデルに統合し,非調和効果を完全に含むようにした。 サブナノメトリッククラスタのh-脱離温度は、n \leq 10$でmg$_n$h$_{2n}$であり、非無視できるが、非調和性(最大10%)による影響はほとんどない。

Magnesium hydride (MgH$_2$) has been widely studied for effective hydrogen storage. However, its bulk desorption temperature (553 K) is deemed too high for practical applications. Besides doping, a strategy to decrease such reaction energy for releasing hydrogen is the use of MgH$_2$-based nanoparticles (NPs). Here, we investigate first the thermodynamic properties of Mg$_n$H$_{2n}$ NPs ($n<10$) from first-principles, in particular by assessing the anharmonic effects on the enthalpy, entropy and thermal expansion by means of the Stochastic Self Consistent Harmonic Approximation (SSCHA). The latter method goes beyond previous approaches, typically based on molecular mechanics and the quasi-harmonic approximation, allowing the ab initio calculation of the fully-anharmonic free energy. We find an almost linear dependence on temperature of the interatomic bond lengths - with a relative variation of few percent over 300K -, alongside with a bond distance decrease of the Mg-H bonds. In order to increase the size of NPs toward experiments of hydrogen desorption from MgH$_2$ we devise a computationally effective Machine Learning model trained to accurately determine the forces and total energies (i.e. the potential energy surfaces), integrating the latter with the SSCHA model to fully include the anharmonic effects. We find a significative decrease of the H-desorption temperature for sub-nanometric clusters Mg$_n$H$_{2n}$ with $n \leq 10$, with a non-negligible, although little effect due to anharmonicities (up to 10%).
翻訳日:2021-12-02 12:36:19 公開日:2021-11-27
# (参考訳) スパース条件付ランダムフィールドの安全スクリーニング [全文訳有]

Safe Screening for Sparse Conditional Random Fields ( http://arxiv.org/abs/2111.13958v1 )

ライセンス: CC BY 4.0
Weizhong Zhang and Shuang Qiu(参考訳) スパース条件ランダム場(Sparse Conditional Random Field, CRF)は、構造化予測のためのコンピュータビジョンと自然言語処理において強力な技術である。 しかし、大規模アプリケーションにおけるスパースCRFの解決は依然として困難である。 本稿では, トレーニング過程における不適切な特徴を特定し, 除去するために, 高精度な二重最適推定を利用する新しい安全な動的スクリーニング手法を提案する。 これにより、問題のサイズを連続的に削減でき、最終的に学習したモデルの精度を犠牲にすることなく、計算コストを大幅に節約することができる。 本手法は, 静的スクリーニング法において, 静的スクリーニング法において, 強い凸性と複雑な構造を慎重に探索し, 活用することにより, 二重最適推定手法を導入する最初のスクリーニング手法である。 このようにして、静的および動的スクリーニングメソッドの利点を吸収し、それらの欠点を避けることができる。 我々の推定は、双対性ギャップに基づいて開発されたものよりもずっと正確で、より強力なスクリーニング規則に寄与する。 さらに,本手法は,スパースCRFや構造予測モデルにおいて,最初のスクリーニング手法でもある。 合成および実世界の両方のデータセットに対する実験結果から,本手法による高速化が重要であることが示された。

Sparse Conditional Random Field (CRF) is a powerful technique in computer vision and natural language processing for structured prediction. However, solving sparse CRFs in large-scale applications remains challenging. In this paper, we propose a novel safe dynamic screening method that exploits an accurate dual optimum estimation to identify and remove the irrelevant features during the training process. Thus, the problem size can be reduced continuously, leading to great savings in the computational cost without sacrificing any accuracy on the finally learned model. To the best of our knowledge, this is the first screening method which introduces the dual optimum estimation technique -- by carefully exploring and exploiting the strong convexity and the complex structure of the dual problem -- in static screening methods to dynamic screening. In this way, we can absorb the advantages of both the static and dynamic screening methods and avoid their drawbacks. Our estimation would be much more accurate than those developed based on the duality gap, which contributes to a much stronger screening rule. Moreover, our method is also the first screening method in sparse CRFs and even structure prediction models. Experimental results on both synthetic and real-world datasets demonstrate that the speedup gained by our method is significant.
翻訳日:2021-12-02 12:24:20 公開日:2021-11-27
# (参考訳) label assistant: 画像分割タスクにおけるデータアノテーションを支援するワークフロー [全文訳有]

Label Assistant: A Workflow for Assisted Data Annotation in Image Segmentation Tasks ( http://arxiv.org/abs/2111.13970v1 )

ライセンス: CC BY 4.0
Marcel P. Schilling, Luca Rettenberger, Friedrich M\"unke, Haijun Cui, Anna A. Popova, Pavel A. Levkin, Ralf Mikut, Markus Reischl(参考訳) コンピュータビジョンの分野における最近の研究は、画像処理問題に取り組むためのディープラーニングアーキテクチャに重点を置いている。 ディープニューラルネットワークはしばしば複雑な画像処理シナリオにおいて考慮される。なぜなら従来のコンピュータビジョンアプローチは複雑な関係のために開発や限界に達するのに高価であるからである。 しかし、一般的な批判は、ロバストパラメータを決定するために大きな注釈付きデータセットが必要であることである。 人間の専門家による画像の注釈付けは時間がかかり、手間がかかり、費用がかかる。 したがって、アノテーションの簡素化、ユーザの効率向上、アノテーションの品質向上をサポートする必要がある。 本稿では,アノテーションプロセスを支援する汎用ワークフローを提案し,抽象レベルでメソッドについて議論する。 そこで我々は,将来性のあるサンプル,画像前処理,ラベル前処理,ラベル検査,アノテーションの後処理などに注目した。 さらに,ハイブリッドタッチスクリーン/ラップトップデバイスにネストしたフレキシブルで拡張可能なソフトウェアプロトタイプの開発により,提案手法の実装を提案する。

Recent research in the field of computer vision strongly focuses on deep learning architectures to tackle image processing problems. Deep neural networks are often considered in complex image processing scenarios since traditional computer vision approaches are expensive to develop or reach their limits due to complex relations. However, a common criticism is the need for large annotated datasets to determine robust parameters. Annotating images by human experts is time-consuming, burdensome, and expensive. Thus, support is needed to simplify annotation, increase user efficiency, and annotation quality. In this paper, we propose a generic workflow to assist the annotation process and discuss methods on an abstract level. Thereby, we review the possibilities of focusing on promising samples, image pre-processing, pre-labeling, label inspection, or post-processing of annotations. In addition, we present an implementation of the proposal by means of a developed flexible and extendable software prototype nested in hybrid touchscreen/laptop device.
翻訳日:2021-12-02 11:55:43 公開日:2021-11-27
# (参考訳) プレポジションセンス曖昧化のためのテーピングBERT [全文訳有]

Tapping BERT for Preposition Sense Disambiguation ( http://arxiv.org/abs/2111.13972v1 )

ライセンス: CC BY 4.0
Siddhesh Pawar, Shyam Thombre, Anirudh Mittal, Girishkumar Ponkiya, Pushpak Bhattacharyya(参考訳) 前置詞はしばしば多義語である。 前置詞の曖昧さは、意味的な役割のラベル付け、質問応答、テキストのエンテーメント、名詞の複合表現といったタスクにおいて重要である。 本稿では,言語ツールを使用しないPSD(preposition sense disambiguation)の新たな方法論を提案する。 教師付き設定では、前置詞に感覚を付加した文を機械学習モデルに提示する。 これらの感覚は、The Preposition Project (TPP)と呼ばれる分野のIDである。 我々は、事前訓練されたBERTとBERTの層表現を使用する。 次に、潜在表現をMulti Layer Perceptronを使用して正しいセンスIDに分類する。 このタスクで使用されるデータセットはsemeval-2007 task-6からである。 我々の手法は86.85%の精度を与え、最先端技術よりも優れている。

Prepositions are frequently occurring polysemous words. Disambiguation of prepositions is crucial in tasks like semantic role labelling, question answering, text entailment, and noun compound paraphrasing. In this paper, we propose a novel methodology for preposition sense disambiguation (PSD), which does not use any linguistic tools. In a supervised setting, the machine learning model is presented with sentences wherein prepositions have been annotated with senses. These senses are IDs in what is called The Preposition Project (TPP). We use the hidden layer representations from pre-trained BERT and BERT variants. The latent representations are then classified into the correct sense ID using a Multi Layer Perceptron. The dataset used for this task is from SemEval-2007 Task-6. Our methodology gives an accuracy of 86.85% which is better than the state-of-the-art.
翻訳日:2021-12-02 11:44:53 公開日:2021-11-27
# (参考訳) ディープQラーニングに基づくネットワーク侵入検出のための強化学習アプローチ [全文訳有]

Deep Q-Learning based Reinforcement Learning Approach for Network Intrusion Detection ( http://arxiv.org/abs/2111.13978v1 )

ライセンス: CC BY 4.0
Hooman Alavizadeh, Julian Jang-Jaccard, and Hootan Alavizadeh(参考訳) 新たな世代のサイバー脅威の台頭は、人間の専門家の知識なしに意思決定を学べる自律エージェントを備えた、より洗練されたインテリジェントなサイバー防衛ソリューションを要求する。 近年,自動ネットワーク侵入タスクのための強化学習手法(例えばマルコフ)が提案されている。 本稿では,q学習に基づく強化学習と,ネットワーク侵入検出のためのディープフィードフォワードニューラルネットワーク法を組み合わせた,新たなネットワーク侵入検出手法を提案する。 提案したDeep Q-Learning(DQL)モデルは,自動試行錯誤アプローチを用いてさまざまなタイプのネットワーク侵入を検出し,その検出能力を継続的に強化するネットワーク環境に対して,継続的な自動学習機能を提供する。 より効果的な自己学習のために、DQLモデルに関わる微調整された異なるハイパーパラメータの詳細を提供する。 NSL-KDDデータセットに基づく広範囲な実験結果から,250回以下のトレーニングで0.001以下と設定された低い割引係数が最高の成績をもたらすことを確認した。 実験の結果,提案したDQLは,異なる侵入クラスを検出し,他の類似した機械学習手法よりも優れていることがわかった。

The rise of the new generation of cyber threats demands more sophisticated and intelligent cyber defense solutions equipped with autonomous agents capable of learning to make decisions without the knowledge of human experts. Several reinforcement learning methods (e.g., Markov) for automated network intrusion tasks have been proposed in recent years. In this paper, we introduce a new generation of network intrusion detection methods that combines a Q-learning-based reinforcement learning with a deep-feed forward neural network method for network intrusion detection. Our proposed Deep Q-Learning (DQL) model provides an ongoing auto-learning capability for a network environment that can detect different types of network intrusions using an automated trial-error approach and continuously enhance its detection capabilities. We provide the details of fine-tuning different hyperparameters involved in the DQL model for more effective self-learning. According to our extensive experimental results based on the NSL-KDD dataset, we confirm that the lower discount factor which is set as 0.001 under 250 episodes of training yields the best performance results. Our experimental results also show that our proposed DQL is highly effective in detecting different intrusion classes and outperforms other similar machine learning approaches.
翻訳日:2021-12-02 11:37:34 公開日:2021-11-27
# (参考訳) va医療システムにおける毎日のcovid-19関連コールの予測--予測モデル開発 [全文訳有]

Forecasting Daily COVID-19 Related Calls in VA Health Care System: Predictive Model Development ( http://arxiv.org/abs/2111.13980v1 )

ライセンス: CC BY 4.0
Weipeng Zhou, Paul L. Hebert, Gang Luo(参考訳) 背景:covid-19は世界中で課題となり、医療資源の適切な計画がcovid-19対策の鍵となっている。 アメリカ退役軍人保健医療システム(VA)では、多くの入学者が新型コロナウイルスに罹患している。 新型コロナウイルス(COVID-19)が医療資源の割り当てを急ぐことが重要な問題となっている。 VA登録者が新型コロナウイルスの症状を患う場合、その最初のステップはVAコールセンターを呼び出すことだと推奨されている。 感染が確認された患者は、最初の症状から入院までの中央値は7日間であった。 新型コロナウイルス関連の電話の数を予測することで、医療利用の急激な急増を予測し、今後の医療資源を計画できる。 目的: 本研究の目的は, 医療センター110カ所の1日当たりの新型コロナウイルス関連呼出数を予測する方法の開発である。 方法: 提案手法では, 医療センターのクラスタを用いてモデルを事前訓練し, 個別の医療センター向けに微調整した。 クラスタレベルでは,重要な特徴の選択とハイパーパラメータの自動探索を行い,モデルに最適なハイパーパラメータ値の組み合わせを選択する。 結論:本研究は,va医療センターにおけるcovid-19関連電話の日数を予測するための正確な方法を提案する。 提案手法は、類似の医療センターをクラスタにグループ化してトレーニングモデルのデータセットを拡大し、ハイパーパラメータ検索を用いてモデルに対する最適なハイパーパラメータ値の組み合わせを自動的に見つけることによって、モデリングの課題を克服する。 提案手法では, 今後, 医療の急増を予測できる。 これにより、医療従事者は医療資源の計画を改善し、covid-19と闘うことができる。

Background: COVID-19 has become a challenge worldwide and properly planning of medical resources is the key to combating COVID-19. In the US Veteran Affairs Health Care System (VA), many of the enrollees are susceptible to COVID-19. Predicting the COVID-19 to allocate medical resources promptly becomes a critical issue. When the VA enrollees have COVID-19 symptoms, it is recommended that their first step should be to call the VA Call Center. For confirmed COVID-19 patients, the median time from the first symptom to hospital admission was seven days. By predicting the number of COVID-19 related calls, we could predict imminent surges in healthcare use and plan medical resources ahead. Objective: The study aims to develop a method to forecast the daily number of COVID-19 related calls for each of the 110 VA medical centers. Methods: In the proposed method, we pre-trained a model using a cluster of medical centers and fine-tuned it for individual medical centers. At the cluster level, we performed feature selection to select significant features and automatic hyper-parameter search to select optimal hyper-parameter value combinations for the model. Conclusions: This study proposed an accurate method to forecast the daily number of COVID-19 related calls for VA medical centers. The proposed method was able to overcome modeling challenges by grouping similar medical centers into clusters to enlarge the dataset for training models, and using hyper-parameter search to automatically find optimal hyper-parameter value combinations for models. With the proposed method, surges in health care can be predicted ahead. This allows health care practitioners to better plan medical resources and combat COVID-19.
翻訳日:2021-12-02 11:04:56 公開日:2021-11-27
# (参考訳) NCVX: 機械学習における非凸最適化のためのユーザフレンドリーでスケーラブルなパッケージ [全文訳有]

NCVX: A User-Friendly and Scalable Package for Nonconvex Optimization in Machine Learning ( http://arxiv.org/abs/2111.13984v1 )

ライセンス: CC BY 4.0
Buyun Liang, Ju Sun(参考訳) 非凸(NCVX)問題の最適化、特に非滑らか(NSMT)と制約付き(CSTR)は、機械学習とディープラーニングの重要な部分である。 しかし、このタイプの問題を最適化の専門知識なしで確実に解決することは難しい。 既存の汎用NCVX最適化パッケージは強力だが、通常非滑らか性を扱うことはできない。 GRANSOは、NCVX、NSMT、CSTR問題をターゲットにした最初のパッケージである。 しかし、自動微分やgpuアクセラレーションの欠如など、非専門家による広範なデプロイメントを妨げるいくつかの制限がある。 マシンラーニングコミュニティの技術的な障壁を低くするために、gransoを、自動微分、gpuアクセラレーション、テンソル入力、スケーラブルなqpソルバ、プロプライエタリパッケージへの依存性ゼロを特徴とする、ユーザフレンドリーでスケーラブルなpythonパッケージncvxにリニューアルしました。 強調として、NCVXは、最初のCSTRディープラーニング問題を解くことができる。 NCVXはhttps://ncvx.orgで公開されており、詳細なドキュメンテーションと機械学習やその他の分野からの多くの例がある。

Optimizing nonconvex (NCVX) problems, especially those nonsmooth (NSMT) and constrained (CSTR), is an essential part of machine learning and deep learning. But it is hard to reliably solve this type of problems without optimization expertise. Existing general-purpose NCVX optimization packages are powerful, but typically cannot handle nonsmoothness. GRANSO is among the first packages targeting NCVX, NSMT, CSTR problems. However, it has several limitations such as the lack of auto-differentiation and GPU acceleration, which preclude the potential broad deployment by non-experts. To lower the technical barrier for the machine learning community, we revamp GRANSO into a user-friendly and scalable python package named NCVX, featuring auto-differentiation , GPU acceleration, tensor input, scalable QP solver, and zero dependency on proprietary packages. As a highlight, NCVX can solve general CSTR deep learning problems, the first of its kind. NCVX is available at https://ncvx.org, with detailed documentation and numerous examples from machine learning and other fields.
翻訳日:2021-12-02 10:51:51 公開日:2021-11-27
# (参考訳) AMR要約のための文書グラフ構築法の解析 [全文訳有]

An analysis of document graph construction methods for AMR summarization ( http://arxiv.org/abs/2111.13993v1 )

ライセンス: CC BY-SA 4.0
Fei-Tzin Lee, Chris Kedzie, Nakul Verma, Kathleen McKeown(参考訳) 意味表現(英語: meaning representation、amr)は、意味関係によって関連付けられた概念の集合からなる文のグラフに基づく意味表現である。 AMRベースのアプローチは、様々なアプリケーションで成功したが、文書レベルのコンテキストを必要とするタスクでそれを使うことの課題は、個々の文のみを表現することである。 AMRに基づく要約における先行研究は、個々の文グラフを文書グラフに自動的にマージするが、マージ方法とその要約内容選択への影響は独立に評価されていない。 本稿では,(1)マージ戦略の評価に使用可能な一対の文書のノードと要約のアライメントと,(2)マージまたは未マージされたamrグラフのノード上でのコンテンツ選択手法の性能とからなる新しいデータセットを提案する。 本稿では,これらの2種類の評価方法とノードマージの新しい手法を適用し,新しい手法が従来の方法よりもはるかに優れた性能を示すことを示す。

Meaning Representation (AMR) is a graph-based semantic representation for sentences, composed of collections of concepts linked by semantic relations. AMR-based approaches have found success in a variety of applications, but a challenge to using it in tasks that require document-level context is that it only represents individual sentences. Prior work in AMR-based summarization has automatically merged the individual sentence graphs into a document graph, but the method of merging and its effects on summary content selection have not been independently evaluated. In this paper, we present a novel dataset consisting of human-annotated alignments between the nodes of paired documents and summaries which may be used to evaluate (1) merge strategies; and (2) the performance of content selection methods over nodes of a merged or unmerged AMR graph. We apply these two forms of evaluation to prior work as well as a new method for node merging and show that our new method has significantly better performance than prior work.
翻訳日:2021-12-02 10:44:07 公開日:2021-11-27
# (参考訳) ロングテール認識のための教師付きコントラスト学習 [全文訳有]

Targeted Supervised Contrastive Learning for Long-Tailed Recognition ( http://arxiv.org/abs/2111.13998v1 )

ライセンス: CC BY 4.0
Tianhong Li, Peng Cao, Yuan Yuan, Lijie Fan, Yuzhe Yang, Rogerio Feris, Piotr Indyk, Dina Katabi(参考訳) 実世界のデータは、多くのクラスがトレーニングプロセスを支配し、マイノリティクラスの決定境界を変更することができる、重いクラス不均衡を伴う長い尾の分布を示すことが多い。 近年,ロングテール認識のための教師付きコントラスト学習の可能性が調査され,高い性能向上が期待できることを示した。 本稿では,教師付きコントラスト学習が性能向上に寄与する一方で,不均衡なデータ分布による過去のベースラインの不均一さに悩まされていることを示す。 この貧弱な均一性は、特徴空間における分離性の低いマイノリティクラスのサンプルに現れる。 この問題に対処するために,超球面上の特徴分布の均一性を改善するための教師付きコントラスト学習(TSC)を提案する。 TSCはまず、超球面上に均一に分布するターゲットの集合を生成する。 そして、トレーニング中に異なるクラスの特徴をこれらの異なる、均一に分散したターゲットに収束させる。 これにより、マイノリティクラスを含むすべてのクラスは、特徴空間における均一な分布を維持し、クラス境界を改善し、ロングテールデータの存在下でもより良い一般化を提供する。 複数のデータセットの実験により、TSCは長い尾の認識タスクで最先端のパフォーマンスを達成することが示された。

Real-world data often exhibits long tail distributions with heavy class imbalance, where the majority classes can dominate the training process and alter the decision boundaries of the minority classes. Recently, researchers have investigated the potential of supervised contrastive learning for long-tailed recognition, and demonstrated that it provides a strong performance gain. In this paper, we show that while supervised contrastive learning can help improve performance, past baselines suffer from poor uniformity brought in by imbalanced data distribution. This poor uniformity manifests in samples from the minority class having poor separability in the feature space. To address this problem, we propose targeted supervised contrastive learning (TSC), which improves the uniformity of the feature distribution on the hypersphere. TSC first generates a set of targets uniformly distributed on a hypersphere. It then makes the features of different classes converge to these distinct and uniformly distributed targets during training. This forces all classes, including minority classes, to maintain a uniform distribution in the feature space, improves class boundaries, and provides better generalization even in the presence of long-tail data. Experiments on multiple datasets show that TSC achieves state-of-the-art performance on long-tailed recognition tasks.
翻訳日:2021-12-02 10:26:35 公開日:2021-11-27
# (参考訳) 大規模商用応答提案のための低コスト変圧器モデル圧縮の検討 [全文訳有]

Exploring Low-Cost Transformer Model Compression for Large-Scale Commercial Reply Suggestions ( http://arxiv.org/abs/2111.13999v1 )

ライセンス: CC BY 4.0
Vaishnavi Shrivastava, Radhika Gaonkar, Shashank Gupta, Abhishek Jha(参考訳) 事前学習された言語モデルの微調整は、商用リプライ提案システムの品質を向上させるが、持続不可能なトレーニング時間のコストがかかる。 一般的なトレーニング時間削減アプローチはリソース集約型であるため,レイヤドロップやレイヤ凍結といった低コストなモデル圧縮手法について検討する。 提案手法の有効性を大規模シナリオで実証し,提案手法の有効性やユーザエンゲージメントに影響を与えることなく,商用メール応答提案システムのトレーニング時間を42%削減できることを示した。 さらに、これらの技術が事前訓練されたモデルとデータセットサイズアブレーションに対して堅牢であることについて研究し、商用アプリケーションに対するいくつかの洞察とレコメンデーションを共有する。

Fine-tuning pre-trained language models improves the quality of commercial reply suggestion systems, but at the cost of unsustainable training times. Popular training time reduction approaches are resource intensive, thus we explore low-cost model compression techniques like Layer Dropping and Layer Freezing. We demonstrate the efficacy of these techniques in large-data scenarios, enabling the training time reduction for a commercial email reply suggestion system by 42%, without affecting the model relevance or user engagement. We further study the robustness of these techniques to pre-trained model and dataset size ablation, and share several insights and recommendations for commercial applications.
翻訳日:2021-12-02 10:09:49 公開日:2021-11-27
# (参考訳) 電子商取引における複数の情報ソースを用いた質問に対する回答生成 [全文訳有]

Answer Generation for Questions With Multiple Information Sources in E-Commerce ( http://arxiv.org/abs/2111.14003v1 )

ライセンス: CC BY 4.0
Anand A. Rajasekar, Nikesh Garera(参考訳) ユーザーが購入に興味を持つ製品について投稿した数百万の質問を考えると、自動質問応答はeコマースにおいて重要かつ困難なタスクである。 したがって、製品に関する関連情報を用いて迅速な応答を提供する自動回答生成システムに対する大きな需要がある。 ユーザが投稿したクエリに回答するための知識ソースは3つあり、レビュー、重複または類似の質問、仕様である。 これらの情報ソースを効果的に活用することは、複雑な質問に答えるのに大いに役立ちます。 しかし、これらのソースを利用する際には、主な課題が2つある。 (i)無関係な情報の存在、及び (II) 評論や同様の質問に感情の曖昧さが存在すること。 本研究は, 応答を生成する前に, 関連性および曖昧性予測を別々に行うことにより, 上記ソースに存在する豊富な情報を利用する新しいパイプライン (MSQAP) を提案する。 実験結果から,我々の関係予測モデル (BERT-QA) は他の変種よりも優れており, BERTベースラインと比較してF1スコアが12.36%向上していることがわかった。 我々の生成モデル(T5-QA)は,BLEU,ROUGEなどのコンテンツ保存指標のベースラインを上回り,ROUGEの35.02%,BLEUの198.75%を最高パフォーマンスベースライン(HSSC-q)と比較して平均的に改善している。 パイプラインの人間による評価は、生成モデル(T5-QA)よりも精度が30.7%向上していることを示し、その結果、完全なパイプラインベースのアプローチ(MSQAP)により、より正確な回答が得られます。 私たちの知る限りでは、仕様や類似の質問、レビューデータなど、さまざまなソースに存在する情報を組み合わせることで自然言語による回答を自動的に生成する、eコマースドメインにおける最初の作業です。

Automatic question answering is an important yet challenging task in E-commerce given the millions of questions posted by users about the product that they are interested in purchasing. Hence, there is a great demand for automatic answer generation systems that provide quick responses using related information about the product. There are three sources of knowledge available for answering a user posted query, they are reviews, duplicate or similar questions, and specifications. Effectively utilizing these information sources will greatly aid us in answering complex questions. However, there are two main challenges present in exploiting these sources: (i) The presence of irrelevant information and (ii) the presence of ambiguity of sentiment present in reviews and similar questions. Through this work we propose a novel pipeline (MSQAP) that utilizes the rich information present in the aforementioned sources by separately performing relevancy and ambiguity prediction before generating a response. Experimental results show that our relevancy prediction model (BERT-QA) outperforms all other variants and has an improvement of 12.36% in F1 score compared to the BERT-base baseline. Our generation model (T5-QA) outperforms the baselines in all content preservation metrics such as BLEU, ROUGE and has an average improvement of 35.02% in ROUGE and 198.75% in BLEU compared to the highest performing baseline (HSSC-q). Human evaluation of our pipeline shows us that our method has an overall improvement in accuracy of 30.7% over the generation model (T5-QA), resulting in our full pipeline-based approach (MSQAP) providing more accurate answers. To the best of our knowledge, this is the first work in the e-commerce domain that automatically generates natural language answers combining the information present in diverse sources such as specifications, similar questions, and reviews data.
翻訳日:2021-12-02 09:57:49 公開日:2021-11-27
# (参考訳) 特徴表現のためのエントロピー重み付き非負行列分解アルゴリズム [全文訳有]

An Entropy Weighted Nonnegative Matrix Factorization Algorithm for Feature Representation ( http://arxiv.org/abs/2111.14007v1 )

ライセンス: CC BY 4.0
Jiao Wei, Can Tong, Bingxue Wu, Qiang He, Shouliang Qi, Yudong Yao, and Yueyang Teng(参考訳) 非負行列分解(NMF)は、データの低次元表現の学習に広く用いられている。 しかし、NMFはデータポイントのすべての属性に同じ注意を払うため、必然的に不正確な表現につながる。 例えば、人間の顔のデータセットでは、画像が頭に帽子を含んでいる場合、帽子を除去するか、行列分解時に対応する属性の重要性を減らすべきである。 本稿では,各データポイントの属性ごとに最適化可能な重み付けを用いたエントロピー重み付きNMF (EWNMF) という新しいタイプのNMFを提案する。 このプロセスは、コスト関数にエントロピー正則化器を追加し、その問題を解決するためにラグランジュ乗算法を使用する。 いくつかのデータセットによる実験結果から,提案手法の有効性と有効性を示した。 コードはhttps://github.com/P oisson-EM/Entropy-we ighted-NMFで公開しています。

Nonnegative matrix factorization (NMF) has been widely used to learn low-dimensional representations of data. However, NMF pays the same attention to all attributes of a data point, which inevitably leads to inaccurate representation. For example, in a human-face data set, if an image contains a hat on the head, the hat should be removed or the importance of its corresponding attributes should be decreased during matrix factorizing. This paper proposes a new type of NMF called entropy weighted NMF (EWNMF), which uses an optimizable weight for each attribute of each data point to emphasize their importance. This process is achieved by adding an entropy regularizer to the cost function and then using the Lagrange multiplier method to solve the problem. Experimental results with several data sets demonstrate the feasibility and effectiveness of the proposed method. We make our code available at https://github.com/P oisson-EM/Entropy-we ighted-NMF.
翻訳日:2021-12-02 09:46:19 公開日:2021-11-27
# ニューラルネットワークにおける非パラメトリックトポロジカル層

Nonparametric Topological Layers in Neural Networks ( http://arxiv.org/abs/2111.14829v1 )

ライセンス: Link先を確認
Dongfang Zhao(参考訳) 様々なトポロジカルな技術やツールは、ネットワークの複雑さ、説明可能性、パフォーマンスの観点からニューラルネットワークに適用されている。 この研究の基本的な前提の一つは、位相層が構築される大域的(ユークリッド的)座標系の存在である。 有望な結果にもかかわらず、このような \textit{topologization} 法はまだ広く採用されていない。なぜなら、トポロライズ層のパラメトリゼーションにはかなりの時間を要するため、より重要なことに、ニューラルネットワークの性能が副最適性能しか達成できないという理論的基礎が欠如しているからだ。 本稿では、ユークリッド空間を必要としないニューラルネットワークのための学習可能なトポロジー層を提案する。 したがって、提案する位相層のパラメータは、コストのかかるパラメータ化段階と、それに対応するサブオプティマイズネットワークの可能性を妨げるユーザ特定ハイパーパラメータを含まない。

Various topological techniques and tools have been applied to neural networks in terms of network complexity, explainability, and performance. One fundamental assumption of this line of research is the existence of a global (Euclidean) coordinate system upon which the topological layer is constructed. Despite promising results, such a \textit{topologization} method has yet to be widely adopted because the parametrization of a topologization layer takes a considerable amount of time and more importantly, lacks a theoretical foundation without which the performance of the neural network only achieves suboptimal performance. This paper proposes a learnable topological layer for neural networks without requiring a Euclidean space; Instead, the proposed construction requires nothing more than a general metric space except for an inner product, i.e., a Hilbert space. Accordingly, the according parametrization for the proposed topological layer is free of user-specified hyperparameters, which precludes the costly parametrization stage and the corresponding possibility of suboptimal networks.
翻訳日:2021-12-01 15:58:06 公開日:2021-11-27
# ISNAS-DIP:Deep Image Priorのための画像特異的ニューラルネットワーク探索

ISNAS-DIP: Image-Specific Neural Architecture Search for Deep Image Prior ( http://arxiv.org/abs/2111.15362v1 )

ライセンス: Link先を確認
Metin Ersin Arican, Ozgur Kara, Gustav Bredell and Ender Konukoglu(参考訳) 近年の研究では、畳み込みニューラルネットワーク(CNN)アーキテクチャは低周波に対するスペクトルバイアスを有しており、Deep Image Prior(DIP)フレームワークの様々な画像復元タスクに活用されている。 ネットワークがdipフレームワークに課す帰納バイアスの利点は、アーキテクチャに依存する。 そこで研究者らは、最適な性能モデルを決定するために、探索の自動化方法を研究した。 しかし、common neural architecture search (nas)技術はリソースと時間集約である。 さらに、最高のパフォーマンスモデルは、画像ごとに独立してではなく、画像のデータセット全体に対して決定される。 本稿ではまず,dipフレームワークにおける最適なニューラルアーキテクチャが画像依存であることを示す。 この知見を生かして、DIPフレームワークのためのイメージ固有のNAS戦略を提案し、典型的なNASアプローチよりもトレーニングをかなり少なくし、画像固有のNASを有効にする。 与えられた画像に対して、ノイズは訓練されていないCNNの大規模なセットに供給され、出力のパワースペクトル密度(PSD)は、様々なメトリクスを用いて劣化した画像と比較される。 これに基づいて、画像固有のアーキテクチャの小さなコホートを選択して、破損した画像を再構築する訓練を行う。 このコホートのうち、復元された画像の平均に最も近いモデルが最終モデルとして選択される。 提案手法の有効性を,(1)特定の検索空間から500以上のモデルを含むdip用nasデータセットで実証し,(2)画像のデニュージング,インパインティング,および超解像タスクに関する広範囲な実験を行うことにより正当化する。 実験の結果,画像特異的な指標は探索空間を小さなコホートモデルに還元し,最も優れたモデルが現在のNAS手法より画像復元に優れていることがわかった。

Recent works show that convolutional neural network (CNN) architectures have a spectral bias towards lower frequencies, which has been leveraged for various image restoration tasks in the Deep Image Prior (DIP) framework. The benefit of the inductive bias the network imposes in the DIP framework depends on the architecture. Therefore, researchers have studied how to automate the search to determine the best-performing model. However, common neural architecture search (NAS) techniques are resource and time-intensive. Moreover, best-performing models are determined for a whole dataset of images instead of for each image independently, which would be prohibitively expensive. In this work, we first show that optimal neural architectures in the DIP framework are image-dependent. Leveraging this insight, we then propose an image-specific NAS strategy for the DIP framework that requires substantially less training than typical NAS approaches, effectively enabling image-specific NAS. For a given image, noise is fed to a large set of untrained CNNs, and their outputs' power spectral densities (PSD) are compared to that of the corrupted image using various metrics. Based on this, a small cohort of image-specific architectures is chosen and trained to reconstruct the corrupted image. Among this cohort, the model whose reconstruction is closest to the average of the reconstructed images is chosen as the final model. We justify the proposed strategy's effectiveness by (1) demonstrating its performance on a NAS Dataset for DIP that includes 500+ models from a particular search space (2) conducting extensive experiments on image denoising, inpainting, and super-resolution tasks. Our experiments show that image-specific metrics can reduce the search space to a small cohort of models, of which the best model outperforms current NAS approaches for image restoration.
翻訳日:2021-12-01 15:21:39 公開日:2021-11-27
# boosting based と bert based モデルを用いた urdu における攻撃的・脅迫的言語検出 : 比較アプローチ

Abusive and Threatening Language Detection in Urdu using Boosting based and BERT based models: A Comparative Approach ( http://arxiv.org/abs/2111.14830v1 )

ライセンス: Link先を確認
Mithun Das, Somnath Banerjee, Punyajoy Saha(参考訳) オンラインの憎しみは多くのソーシャルメディアプラットフォームに対する懸念が高まっている。 この問題に対処するため、さまざまなソーシャルメディアプラットフォームがこのようなコンテンツに対するモデレーションポリシーを導入している。 また、モデレーターを雇い、モデレーションポリシーに違反したポストをチェックし、適切な行動を取ることができる。 虐待言語研究分野の学者も、そのようなコンテンツをよりよく検出するために様々な研究を行っている。 英語では乱用言語検出には広範な研究があるが、ヒンディー語、ウルドゥー語などの低資源言語では乱用言語検出にはラグナが存在する。 この FIRE 2021 共有タスク "HASOC-Abusive and Threatening Language Detection in Urdu" では,言語検出を脅かすとともに,ウルドゥーにおける乱用言語検出データセットを提案する。 本稿では,XGboost,LGBM,m-BERT などの機械学習モデルを用いて,共有タスクに基づくUrduにおけるコンテンツ検出を悪用・脅迫する手法を提案する。 アラビア語の乱用言語データセットに特化してトレーニングされたTransformerモデルは、最高のパフォーマンスを得るのに役立ちます。 私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。

Online hatred is a growing concern on many social media platforms. To address this issue, different social media platforms have introduced moderation policies for such content. They also employ moderators who can check the posts violating moderation policies and take appropriate action. Academicians in the abusive language research domain also perform various studies to detect such content better. Although there is extensive research in abusive language detection in English, there is a lacuna in abusive language detection in low resource languages like Hindi, Urdu etc. In this FIRE 2021 shared task - "HASOC- Abusive and Threatening language detection in Urdu" the organizers propose an abusive language detection dataset in Urdu along with threatening language detection. In this paper, we explored several machine learning models such as XGboost, LGBM, m-BERT based models for abusive and threatening content detection in Urdu based on the shared task. We observed the Transformer model specifically trained on abusive language dataset in Arabic helps in getting the best performance. Our model came First for both abusive and threatening content detection with an F1scoreof 0.88 and 0.54, respectively.
翻訳日:2021-12-01 14:42:45 公開日:2021-11-27
# チープデータを用いたPV電力の高精度ランダム化プロセスモデルの実現:SDEと天気予報の活用

Achieving an Accurate Random Process Model for PV Power using Cheap Data: Leveraging the SDE and Public Weather Reports ( http://arxiv.org/abs/2111.13812v1 )

ライセンス: Link先を確認
Yiwei Qiu (1), Jin Lin (2), Zhipeng Zhou (3), Ningyi Dai (3), Feng Liu (2), Yonghua Song (3 and 2) ((1) College of Electrical Engineering, Sichuan University, (2) State Key Laboratory of the Control and Simulation of Power Systems and Generation Equipment, Tsinghua University, (3) State Key Laboratory of Internet of Things for Smart City, University of Macau)(参考訳) 揮発性再生可能エネルギー源(RES)の確率微分方程式(SDE)に基づくランダムプロセスモデルは、連続時間における進化確率分布と時間相関を共同で捉える。 近年,電力系統の動的不確かさの定量化と最適化性能が著しく向上している。 しかし、PVの非均一なランダムプロセスの性質を考えると、特に高分解能数値天気予報(NWP)が多くの分散プラントで利用できない場合、そのオンライン運用における気象依存性の不確かさを反映した現実的で正確な太陽光発電用SDEモデルをどのように得ることができるのかという課題が残る。 このギャップを埋めるために、本稿では、低解像度の公共天気予報からの安価なデータのみを用いて、PV電力の正確なSDEモデルを構築することができることを示す。 具体的には,1日のpv変動の時間パターンを再現するために,時間毎のパラメータ化ヤコビ拡散プロセスを構築した。 そのパラメータは、様々な気象条件を反映する極端学習機械(ELM)のアンサンブルを使用して、公共の天気予報からマッピングされる。 SDEモデルは、日内と時間内ボラティリティを共同でキャプチャする。 マカオで収集された実世界のデータに基づく統計的検証は、提案手法が最先端のディープラーニングに基づく時系列予測手法の選択よりも優れていることを示している。

The stochastic differential equation (SDE)-based random process models of volatile renewable energy sources (RESs) jointly capture the evolving probability distribution and temporal correlation in continuous time. It has enabled recent studies to remarkably improve the performance of power system dynamic uncertainty quantification and optimization. However, considering the non-homogeneous random process nature of PV, there still remains a challenging question: how can a realistic and accurate SDE model for PV power be obtained that reflects its weather-dependent uncertainty in online operation, especially when high-resolution numerical weather prediction (NWP) is unavailable for many distributed plants? To fill this gap, this article finds that an accurate SDE model for PV power can be constructed by only using the cheap data from low-resolution public weather reports. Specifically, an hourly parameterized Jacobi diffusion process is constructed to recreate the temporal patterns of PV volatility during a day. Its parameters are mapped from the public weather report using an ensemble of extreme learning machines (ELMs) to reflect the varying weather conditions. The SDE model jointly captures intraday and intrahour volatility. Statistical examination based on real-world data collected in Macau shows the proposed approach outperforms a selection of state-of-the-art deep learning-based time-series forecast methods.
翻訳日:2021-11-30 19:05:57 公開日:2021-11-27
# 衛星による沿岸観測のためのレコメンダシステムによるクラウドデータ充足方式

A Recommender System-Inspired Cloud Data Filling Scheme for Satellite-based Coastal Observation ( http://arxiv.org/abs/2111.13955v1 )

ライセンス: Link先を確認
Ruo-Qian Wang(参考訳) 衛星画像の雲に覆われた領域に欠落したデータを埋め込むことは、地球観測を強化するためのデータ量と品質を改善する重要な課題である。 従来の雲充填研究は、開海での温度やシアノバクテリア濃度などの連続的な数値データに焦点を当てていた。 海洋イメージングにおける雲データ充填問題は、複雑な景観のため、あまり研究されていない。 オンラインショッピング用に設計されたレコメンダシステムにおけるデータインプテーション手法の成功に触発されて,本研究は,衛星クラウドデータフィリングタスクへの応用を考察した。 各種データフィリング方式の性能を調べるため, 合成雲をカバーしたLandSatデータセットを用いて数値実験を行い, 実験を行った。 DINEOF(Data Interpolating Empirical Orthogonal Function)の従来のデータフィリング方式やDatawigの深層学習手法よりも,複雑な沿岸部におけるランドスケープタイプを復元する作業において,Funk-SVDと呼ばれるシステムインスパイアされた行列分解アルゴリズムは,計算精度と効率が優れていた。 この新しい手法は最高のフィリング精度を達成し、DINEOFに匹敵する速度に達し、ディープラーニングよりもはるかに高速になった。 DINEOFの誤り伝播を解析するために理論的な枠組みが作られ、アルゴリズムは基底の真理に収束するために修正する必要があることが分かった。 本研究は,Funk-SVDがクラウドデータ充填性能を向上させる大きな可能性を秘めており,有用なアルゴリズムの改良と共有を促進するために,レコメンダシステムとクラウドフィリングの分野を結びつけていることを示す。

Filling missing data in cloud-covered areas of satellite imaging is an important task to improve data quantity and quality for enhanced earth observation. Traditional cloud filling studies focused on continuous numerical data such as temperature and cyanobacterial concentration in the open ocean. Cloud data filling issues in coastal imaging is far less studied because of the complex landscape. Inspired by the success of data imputation methods in recommender systems that are designed for online shopping, the present study explored their application to satellite cloud data filling tasks. A numerical experiment was designed and conducted for a LandSat dataset with a range of synthetic cloud covers to examine the performance of different data filling schemes. The recommender system-inspired matrix factorization algorithm called Funk-SVD showed superior performance in computational accuracy and efficiency for the task of recovering landscape types in a complex coastal area than the traditional data filling scheme of DINEOF (Data Interpolating Empirical Orthogonal Functions) and the deep learning method of Datawig. The new method achieved the best filling accuracy and reached a speed comparable to DINEOF and much faster than deep learning. A theoretical framework was created to analyze the error propagation in DINEOF and found the algorithm needs to be modified to converge to the ground truth. The present study showed that Funk-SVD has great potential to enhance cloud data filling performance and connects the fields of recommender systems and cloud filling to promote the improvement and sharing of useful algorithms.
翻訳日:2021-11-30 19:05:35 公開日:2021-11-27
# 標準相関解析法による多モード融合 : 病理組織学およびゲノム学による乳癌生存予測への応用

Multi-modality fusion using canonical correlation analysis methods: Application in breast cancer survival prediction from histology and genomics ( http://arxiv.org/abs/2111.13987v1 )

ライセンス: Link先を確認
Vaishnavi Subramanian, Tanveer Syeda-Mahmood, and Minh N. Do(参考訳) マルチモダリティデータセットの可用性は、より包括的に複数の視点を用いて、同じ関心対象を特徴付けるユニークな機会を提供する。 本研究では, 2つのモードの融合にカノニカル相関解析(CCA)と, CCAの変種(pCCA)を併用することを検討した。 2モードデータ生成のための簡単なグラフィカルモデルについて検討する。 モデルパラメータが既知の場合,両様相を共用する後方平均推定器が,潜在変数予測において単一様相後方推定器の任意の線形混合よりも優れていることを解析的に示す。 ドメイン知識を組み込んだCCA(pCCA)のペナル化拡張は、高次元の低サンプルデータとの相関を発見できるが、従来のCCAは適用できない。 pCCAによる多次元埋め込みの創出を容易にするため,CCAが提示する望ましい特性を強制する2つの行列デフレ方式を提案する。 本稿では,これらすべてを組み合わせ,デフレで生成されたpCCA埋め込みを用いた2段階予測パイプラインを提案する。 シミュレーションデータでは,提案モデルが潜在変数予測における平均二乗誤差を大幅に低減する。 The Cancer Genome Atlas (TCGA) 乳癌患者の病理組織データとRNAシークエンシングデータに適用すると、生存予測において同じ次元の主成分分析(PCA)埋め込みよりも優れている。

The availability of multi-modality datasets provides a unique opportunity to characterize the same object of interest using multiple viewpoints more comprehensively. In this work, we investigate the use of canonical correlation analysis (CCA) and penalized variants of CCA (pCCA) for the fusion of two modalities. We study a simple graphical model for the generation of two-modality data. We analytically show that, with known model parameters, posterior mean estimators that jointly use both modalities outperform arbitrary linear mixing of single modality posterior estimators in latent variable prediction. Penalized extensions of CCA (pCCA) that incorporate domain knowledge can discover correlations with high-dimensional, low-sample data, whereas traditional CCA is inapplicable. To facilitate the generation of multi-dimensional embeddings with pCCA, we propose two matrix deflation schemes that enforce desirable properties exhibited by CCA. We propose a two-stage prediction pipeline using pCCA embeddings generated with deflation for latent variable prediction by combining all the above. On simulated data, our proposed model drastically reduces the mean-squared error in latent variable prediction. When applied to publicly available histopathology data and RNA-sequencing data from The Cancer Genome Atlas (TCGA) breast cancer patients, our model can outperform principal components analysis (PCA) embeddings of the same dimension in survival prediction.
翻訳日:2021-11-30 19:05:04 公開日:2021-11-27
# 絡み合った社会システムにおける人間決定予測のための量子的モデル

A Quantum-like Model for Predicting Human Decisions in the Entangled Social Systems ( http://arxiv.org/abs/2111.13902v1 )

ライセンス: Link先を確認
Aghdas. Meghdadi, M. R. Akbarzadeh-T. and Kourosh Javidan(参考訳) ソーシャルネットワーク、モノのインターネット、医療システムといった人間中心のシステムのシステムは、現代生活の主要な側面になりつつある。 このようなシステムにおける人間の行動の現実的なモデルは、正確なモデリングと予測において重要な役割を果たす。 しかし、不確実性の下での人間の行動は、しばしば従来の確率モデルによる予測に反する。 近年、量子的な決定理論は、量子確率を適用することで人間の行動の矛盾を説明するかなりの可能性を示している。 しかし、現状を説明するのではなく、予測できる量子的な決定理論を提供することは、まだ未解決の課題の1つだ。 量子情報理論における絡み合い概念に触発された絡み合ったベイズネットワークを導入し, それぞれの人間が社会全体の一部であることを示す。 したがって、意思決定過程のダイナミックな進化に対する社会の影響は、意思決定理論ではあまり考慮されないが、絡み合いの尺度によってモデル化される。 提案手法は,22種類の実験課題に対して,量子交絡型ベイジアンネットワーク (PEQBN) の評価を行う。 その結果、PEQBNは古典的ベイズ的ネットワークと最近の3つの量子的アプローチと比較して、不確実性の下での人間の決定をより現実的に予測できることを確認した。

Human-centered systems of systems such as social networks, Internet of Things, or healthcare systems are growingly becoming major facets of modern life. Realistic models of human behavior in such systems play a significant role in their accurate modeling and prediction. Yet, human behavior under uncertainty often violates the predictions by the conventional probabilistic models. Recently, quantum-like decision theories have shown a considerable potential to explain the contradictions in human behavior by applying quantum probability. But providing a quantum-like decision theory that could predict, rather than describe the current, state of human behavior is still one of the unsolved challenges. The main novelty of our approach is introducing an entangled Bayesian network inspired by the entanglement concept in quantum information theory, in which each human is a part of the entire society. Accordingly, society's effect on the dynamic evolution of the decision-making process, which is less often considered in decision theories, is modeled by the entanglement measures. The proposed predictive entangled quantum-like Bayesian network (PEQBN) is evaluated on 22 experimental tasks. Results confirm that PEQBN provides more realistic predictions of human decisions under uncertainty, when compared with classical Bayesian networks and three recent quantum-like approaches.
翻訳日:2021-11-30 18:59:06 公開日:2021-11-27
# モデルサイズが個人別分類に与える影響の理解に向けて

Towards Understanding the Impact of Model Size on Differential Private Classification ( http://arxiv.org/abs/2111.13895v1 )

ライセンス: Link先を確認
Yinchen Shen, Zhiguo Wang, Ruoyu Sun, Xiaojing Shen(参考訳) ディファレンシャルプライバシ(dp)は、プライバシ保存に不可欠なテクニックである。 プライバシ保護のためにトレーニングされた大規模なモデルは、小さなモデルよりもパフォーマンスが悪くなっている(例えば、ResNet50はResNet18よりもパフォーマンスが悪くなっている)。 この現象をよりよく理解するために,一般化の観点から高次元DP学習を研究する。 理論的には、dpノイズが小さい単純なガウスモデルの場合、次元が十分大きい場合、分類誤差はランダムな推測と同じくらい悪い可能性がある。 そこで本研究では,分類精度とプライバシ保護をトレードオフする新たな指標に基づいて,モデルのサイズを縮小する特徴選択手法を提案する。 実データ実験は理論的な結果をサポートし,提案手法の利点を実証する。

Differential privacy (DP) is an essential technique for privacy-preserving. It was found that a large model trained for privacy preserving performs worse than a smaller model (e.g. ResNet50 performs worse than ResNet18). To better understand this phenomenon, we study high dimensional DP learning from the viewpoint of generalization. Theoretically, we show that for the simple Gaussian model with even small DP noise, if the dimension is large enough, then the classification error can be as bad as the random guessing. Then we propose a feature selection method to reduce the size of the model, based on a new metric which trades off the classification accuracy and privacy preserving. Experiments on real data support our theoretical results and demonstrate the advantage of the proposed method.
翻訳日:2021-11-30 18:34:48 公開日:2021-11-27
# stack overflowで議論されたapiを要約するために教師なし学習を活用する

Leveraging Unsupervised Learning to Summarize APIs Discussed in Stack Overflow ( http://arxiv.org/abs/2111.13962v1 )

ライセンス: Link先を確認
AmirHossein Naghshzan, Latifa Guerrouj, Olga Baysal(参考訳) ソースコードの自動要約は、これらのコードエンティティの理解を支援するために、メソッドやクラスの目的、使用、実装に関する要約情報を生成するタスクである。 コード要約における教師付き学習と教師なし学習のために、複数のアプローチとテクニックが提案されているが、それらは主にコードの要約の作成に集中していた。 さらに、非公式な文書を活用できる作品はほとんどない。 本稿では,stack overflowで議論されているandroid apiメソッドを自動的かつ新規に要約する手法を提案する。 提案手法では,APIメソッドの名称を入力として,そのAPIメソッドに関するStack Overflowの議論に基づいて自然言語要約を生成する。 我々は16人のAndroid開発者が自動生成された要約の品質を評価し、それらを公式のAndroidドキュメントと比較する調査を実施した。 我々の結果は、開発者は公式のドキュメントが一般的により有用であるのに対して、生成した要約は特に実装の詳細を提供するために競争力があり、ソフトウェア開発やメンテナンスタスクで開発者を導くための補完的なソースとして利用できます。

Automated source code summarization is a task that generates summarized information about the purpose, usage, and--or implementation of methods and classes to support understanding of these code entities. Multiple approaches and techniques have been proposed for supervised and unsupervised learning in code summarization, however, they were mostly focused on generating a summary for a piece of code. In addition, very few works have leveraged unofficial documentation. This paper proposes an automatic and novel approach for summarizing Android API methods discussed in Stack Overflow that we consider as unofficial documentation in this research. Our approach takes the API method's name as an input and generates a natural language summary based on Stack Overflow discussions of that API method. We have conducted a survey that involves 16 Android developers to evaluate the quality of our automatically generated summaries and compare them with the official Android documentation. Our results demonstrate that while developers find the official documentation more useful in general, the generated summaries are also competitive, in particular for offering implementation details, and can be used as a complementary source for guiding developers in software development and maintenance tasks.
翻訳日:2021-11-30 18:34:37 公開日:2021-11-27
# 異なる化学空間からの大規模admeデータセットを用いた4つのグラフニューラルネットワークのベンチマーク精度と一般化性

Benchmarking Accuracy and Generalizability of Four Graph Neural Networks Using Large In Vitro ADME Datasets from Different Chemical Spaces ( http://arxiv.org/abs/2111.13964v1 )

ライセンス: Link先を確認
Fabio Broccatelli, Richard Trager, Michael Reutlinger, George Karypis, Mufei Li(参考訳) 本研究では,人間工学的分子機能を用いた低バール・高バール機械学習アプローチに対して,多タスクグラフニューラルネットワーク(gnn)モデルをベンチマークした。 グラフ畳み込みネットワーク(gcn)、グラフアテンションネットワーク(gat)、メッセージパッシングニューラルネットワーク(mpnn)、注意指紋(attentivefp)の4つのgnn変種を検討した。 これまでのディープラーニングモデルは、指紋のみに基づくローバーの伝統的なモデルを使用してベンチマークされてきたが、より現実的なベンチマークでは、指紋、全分子記述子、関連するエンドポイント(例えばLogD7.4)からの予測は、工業用ADMEデータセットでは不足しているようである。 Genentechデータに基づく時間分割テストセットに加えて、この研究は、外部化学空間(Rocheデータ)からの測定が利用可能であることの恩恵を受ける。 我々は、GATをディープラーニングモデルの実装における有望なアプローチとみなしている。 すべてのGNNモデルは指紋のみに基づく従来のベンチマークモデルよりも大幅に優れているが、高バーベンチマークのベンチマークモデルよりも小さなが一貫した改善を提供するのはGATのみである。 最後に、同じ実験エンドポイントを予測する異なる実験室のin vitroアッセイの精度は、gatシングルタスクモデルの精度と同等であり、モデルから観測された誤差のほとんどは実験誤差伝播の関数であることを示唆している。

In this work, we benchmark a variety of single- and multi-task graph neural network (GNN) models against lower-bar and higher-bar traditional machine learning approaches employing human engineered molecular features. We consider four GNN variants -- Graph Convolutional Network (GCN), Graph Attention Network (GAT), Message Passing Neural Network (MPNN), and Attentive Fingerprint (AttentiveFP). So far deep learning models have been primarily benchmarked using lower-bar traditional models solely based on fingerprints, while more realistic benchmarks employing fingerprints, whole-molecule descriptors and predictions from other related endpoints (e.g., LogD7.4) appear to be scarce for industrial ADME datasets. In addition to time-split test sets based on Genentech data, this study benefits from the availability of measurements from an external chemical space (Roche data). We identify GAT as a promising approach to implementing deep learning models. While all GNN models significantly outperform lower-bar benchmark traditional models solely based on fingerprints, only GATs seem to offer a small but consistent improvement over higher-bar benchmark traditional models. Finally, the accuracy of in vitro assays from different laboratories predicting the same experimental endpoints appears to be comparable with the accuracy of GAT single-task models, suggesting that most of the observed error from the models is a function of the experimental error propagation.
翻訳日:2021-11-30 18:34:18 公開日:2021-11-27
# 簡単な強化スケジュールの定量的記述のための計算シミュレーションと探索

Computational simulation and the search for a quantitative description of simple reinforcement schedules ( http://arxiv.org/abs/2111.13943v1 )

ライセンス: Link先を確認
Paulo Sergio Panse Silveira, Jos\'e de Oliveira Siqueira, Jo\~ao Lucas Bernardy, Jessica Santiago, Thiago Cersosimo Meneses, Bianca Sanches Portela, Marcelo Frota Benvenuti(参考訳) 本研究の目的は,計算シミュレーションの利点を議論しながら,これらのスケジュールの実装に関する現実的な制限を指摘する理論的・実践的な条件で強化のスケジュールについて議論することである。 本稿では,強化のスケジュールと相互作用する動作の頻度をシミュレートするために,BeakというRスクリプトを提案する。 Beakを使って、異なる強化フィードバック機能(RFF)の評価を可能にするデータをシミュレートした。 シミュレーションは膨大なデータサンプルを提供し、さらに重要なことに、生成する補強によってシミュレーションされた動作は変更されない。 そのため、系統的に異なることができる。 RIスケジュールの異なるRFFを、意味、精度、パーシモニー、一般性といった基準として比較しました。 この結果から, RIスケジュールの最適フィードバック関数はBaum (1981) によって発表された。 また, killeen (1975) が用いたモデルがrdrlスケジュールに対して有効なフィードバック関数であることを示す。 我々は、Beakが強化スケジュールの理解を深め、スケジュールの量的特徴に関する未解決の問題に対処する道を開いたと主張している。 また、理論と方法論のツールとしてスケジュールを使用する将来の実験もガイドできる。

We aim to discuss schedules of reinforcement in its theoretical and practical terms pointing to practical limitations on implementing those schedules while discussing the advantages of computational simulation. In this paper, we present a R script named Beak, built to simulate rates of behavior interacting with schedules of reinforcement. Using Beak, we've simulated data that allows an assessment of different reinforcement feedback functions (RFF). This was made with unparalleled precision, since simulations provide huge samples of data and, more importantly, simulated behavior isn't changed by the reinforcement it produces. Therefore, we can vary it systematically. We've compared different RFF for RI schedules, using as criteria: meaning, precision, parsimony and generality. Our results indicate that the best feedback function for the RI schedule was published by Baum (1981). We also propose that the model used by Killeen (1975) is a viable feedback function for the RDRL schedule. We argue that Beak paves the way for greater understanding of schedules of reinforcement, addressing still open questions about quantitative features of schedules. Also, they could guide future experiments that use schedules as theoretical and methodological tools.
翻訳日:2021-11-30 18:11:54 公開日:2021-11-27
# 顔のランドマーク検出のためのベンチマークシャドウ除去

Benchmarking Shadow Removal for Facial Landmark Detection and Beyond ( http://arxiv.org/abs/2111.13790v1 )

ライセンス: Link先を確認
Lan Fu, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang(参考訳) 顔のランドマーク検出は、非常に基本的で重要なビジョン課題であり、多くの重要な応用がある。 実際には、顔の目印検出は多くの自然劣化の影響を受けうる。 最も一般的で重要な劣化の1つは、光源遮断によって引き起こされる影である。 近年,画像品質回復のために多くの高度な影除去法が提案されているが,顔のランドマーク検出に対する効果は十分に研究されていない。 例えば、影の除去が顔のランドマーク検出の堅牢性を多様な影パターンに高めるかどうかは不明だ。 本研究では,最初の試みとして,2つの独立したタスク(影除去と顔のランドマーク検出)をリンクする新しいベンチマークを構築した。 特に、提案するベンチマークは、強度、サイズ、形状、位置の異なるさまざまな顔影をカバーする。 さらに,顔のランドマーク検出に対するハードシャドウパターンをマイニングするために,包括的解析のためにベンチマークの挑戦的なサブセットを構築するための新しい手法(逆影攻撃)を提案する。 構築したベンチマークを用いて,最先端のシャドー除去法と3つのランドマーク検出法について詳細な解析を行った。 本研究の成果は, 影の除去を促進し, 高い復元精度を達成し, 展開された顔ランドマーク検出器の影の堅牢性を高める, 新たな検出対応陰影除去フレームワークを設計する動機となる。

Facial landmark detection is a very fundamental and significant vision task with many important applications. In practice, facial landmark detection can be affected by a lot of natural degradations. One of the most common and important degradations is the shadow caused by light source blocking. While many advanced shadow removal methods have been proposed to recover the image quality in recent years, their effects to facial landmark detection are not well studied. For example, it remains unclear whether shadow removal could enhance the robustness of facial landmark detection to diverse shadow patterns or not. In this work, for the first attempt, we construct a novel benchmark to link two independent but related tasks (i.e., shadow removal and facial landmark detection). In particular, the proposed benchmark covers diverse face shadows with different intensities, sizes, shapes, and locations. Moreover, to mine hard shadow patterns against facial landmark detection, we propose a novel method (i.e., adversarial shadow attack), which allows us to construct a challenging subset of the benchmark for a comprehensive analysis. With the constructed benchmark, we conduct extensive analysis on three state-of-the-art shadow removal methods and three landmark detectors. The observation of this work motivates us to design a novel detection-aware shadow removal framework, which empowers shadow removal to achieve higher restoration quality and enhance the shadow robustness of deployed facial landmark detectors.
翻訳日:2021-11-30 17:13:41 公開日:2021-11-27
# Aesthetic-Guided Image Augmentation を用いた文書レイアウト解析

Document Layout Analysis with Aesthetic-Guided Image Augmentation ( http://arxiv.org/abs/2111.13809v1 )

ライセンス: Link先を確認
Tianlong Ma, Xingjiao Wu, Xin Li, Xiangcheng Du, Zhao Zhou, Liang Xue, Cheng Jin(参考訳) 文書レイアウト解析(DLA)は情報抽出と文書理解において重要な役割を果たす。 現在、文書レイアウト分析はマイルストーンに達しているが、非manhattanの文書レイアウト分析は依然として課題である。 本稿では,この課題に対処するための画像層モデリング手法を提案する。 提案する画像層モデリング手法を,fpdという,手作業による非マンタンレイアウトの細粒度セグメンテーションデータセットを提案する。 私たちが知る限り、FPDは、手動でラベル付けされた非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットである。 文書のきめ細かい特徴を効果的に抽出するために,L-E^3Netというエッジ埋め込みネットワークを提案する。 実験により,提案手法が非マンタンレイアウトのきめ細かなセグメンテーション文書にうまく対応できることが証明された。

Document layout analysis (DLA) plays an important role in information extraction and document understanding. At present, document layout analysis has reached a milestone achievement, however, document layout analysis of non-Manhattan is still a challenge. In this paper, we propose an image layer modeling method to tackle this challenge. To measure the proposed image layer modeling method, we propose a manually-labeled non-Manhattan layout fine-grained segmentation dataset named FPD. As far as we know, FPD is the first manually-labeled non-Manhattan layout fine-grained segmentation dataset. To effectively extract fine-grained features of documents, we propose an edge embedding network named L-E^3Net. Experimental results prove that our proposed image layer modeling method can better deal with the fine-grained segmented document of the non-Manhattan layout.
翻訳日:2021-11-30 17:13:18 公開日:2021-11-27
# ビデオフレーム補間変換器

Video Frame Interpolation Transformer ( http://arxiv.org/abs/2111.13817v1 )

ライセンス: Link先を確認
Zhihao Shi, Xiangyu Xu, Xiaohong Liu, Jun Chen, Ming-Hsuan Yang(参考訳) ビデオ補間のための既存の手法は深い畳み込みニューラルネットワークに大きく依存しており、コンテンツに依存しないカーネル重みや制限された受容野といった固有の制限に苦しめられている。 そこで本研究では,コンテンツ認識型アグレゲーション重み付けと,セルフアテクション操作との長距離依存性を考慮したトランスフォーマティブベースのビデオ補間フレームワークを提案する。 グローバルな自己注意の計算コストが高くなるのを避けるため,ビデオ補間における局所的注意の概念を導入し,空間時間領域に拡張する。 さらに,メモリ使用量を削減するための時空間分離戦略を提案する。 さらに,トランスのポテンシャルを十分に実現するためのマルチスケールフレーム合成手法を開発した。 大規模な実験により、提案モデルは様々なベンチマークデータセット上で定量的かつ質的に、最先端の手法に対して好適に機能することを示した。

Existing methods for video interpolation heavily rely on deep convolution neural networks, and thus suffer from their intrinsic limitations, such as content-agnostic kernel weights and restricted receptive field. To address these issues, we propose a Transformer-based video interpolation framework that allows content-aware aggregation weights and considers long-range dependencies with the self-attention operations. To avoid the high computational cost of global self-attention, we introduce the concept of local attention into video interpolation and extend it to the spatial-temporal domain. Furthermore, we propose a space-time separation strategy to save memory usage, which also improves performance. In addition, we develop a multi-scale frame synthesis scheme to fully realize the potential of Transformers. Extensive experiments demonstrate the proposed model performs favorably against the state-of-the-art methods both quantitatively and qualitatively on a variety of benchmark datasets.
翻訳日:2021-11-30 17:13:05 公開日:2021-11-27
# 交通カメラ映像を用いた道路部における歩行者活動の認識と分析

Recognition and Co-Analysis of Pedestrian Activities in Different Parts of Road using Traffic Camera Video ( http://arxiv.org/abs/2111.13818v1 )

ライセンス: Link先を確認
Weijia Xu, Heidi Ross, Joel Meyer, Kelly Pierce, Natalia Ruiz Juri, Jennifer Duthie(参考訳) 歩行者の安全は交通システムの管理者やオペレーターにとって最優先事項であり、テキサス州オースチン市が採用するビジョンゼロ戦略の主な焦点である。 歩行者の安全を効果的に改善するための治療法や技術は数多く存在するが、これらの治療がもっとも必要とされている場所を特定することは課題である。 現在のプラクティスでは、限られた期間の候補場所を手動で観察する必要があるため、時間を要する識別プロセス、時間の経過とともにトラフィックパターンが変化し、スケーラビリティが欠如している。 安全対策が最も必要とされるミッドブロックの場所は、特に識別と監視が困難である。 本研究の目的は、バス停位置と中間交差点の相関関係を把握し、交通技術者が歩行者の安全を改善するためのビジョンゼロ戦略を実施するのを支援することである。 従来,交通カメラ映像による歩行者横断イベントの検出ツールとして,ディープニューラルネットワークモデルを用いて,横断イベントを識別する手法を開発した。 本稿では,近くの交差点に設置したcctv pan-tilt-zoom (ptz) 交通監視カメラを用いて,トラヒックカメラ映像を用いてバス停使用量を特定する手法を拡張した。 停留所付近のミッドブロック交差点における映像検出結果と,ミッドブロック交差点の両側のバス停での歩行者活動とを比較した。 また、横断イベントのみを表示するビデオクリップの作成を自動化し、歩行者行動検出の手動レビューを容易にするwebポータルを実装し、人間のレビュープロセスの効率を大幅に向上させた。

Pedestrian safety is a priority for transportation system managers and operators, and a main focus of the Vision Zero strategy employed by the City of Austin, Texas. While there are a number of treatments and technologies to effectively improve pedestrian safety, identifying the location where these treatments are most needed remains a challenge. Current practice requires manual observation of candidate locations for limited time periods, leading to an identification process that is time consuming, lags behind traffic pattern changes over time, and lacks scalability. Mid-block locations, where safety countermeasures are often needed the most, are especially hard to identify and monitor. The goal for this research is to understand the correlation between bus stop locations and mid-block crossings, so as to assist traffic engineers in implementing Vision Zero strategies to improve pedestrian safety. In a prior work, we have developed a tool to detect pedestrian crossing events with traffic camera video using a deep neural network model to identify crossing events. In this paper, we extend the methods to identify bus stop usage with traffic camera video from off-the-shelf CCTV pan-tilt-zoom (PTZ) traffic monitoring cameras installed at nearby intersections. We correlate the video detection results for mid-block crossings near a bus stop, with pedestrian activity at the bus stops in each side of the mid-block crossing. We also implement a web portal to facilitate manual review of pedestrian activity detections by automating creation of video clips that show only crossing events, thereby vastly improving the efficiency of the human review process.
翻訳日:2021-11-30 17:12:50 公開日:2021-11-27
# FQ-ViT:リトレーニングなし完全量子化ビジョントランス

FQ-ViT: Fully Quantized Vision Transformer without Retraining ( http://arxiv.org/abs/2111.13824v1 )

ライセンス: Link先を確認
Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou(参考訳) ネットワーク量子化はモデル推論の複雑さを大幅に減らし、現実世界のデプロイメントで広く利用されている。 しかし、既存の量子化手法の多くは畳み込みニューラルネットワーク(cnn)を中心に開発・テストされており、トランスフォーマーベースのアーキテクチャに適用すると深刻な劣化を被っている。 本研究では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。 特に、ハードウェアフレンドリーな方法でLayerNorm入力のチャネル間重大変動に対処するために、Powers-of-Two Scale (PTS)を提案する。 さらに,4ビット量子化とビットシフト演算子を用いて推論を簡素化しながら,注目マップの非一様分布を極端に維持できるLog-Int-Softmax(LIS) を提案する。 様々なTransformerベースのアーキテクチャとベンチマークに関する総合的な実験により,本手法はアテンションマップのビット幅をさらに小さくして,従来の手法よりも優れた性能を示した。 例えば、ImageNetではViT-Lで85.17%、COCOではCascade Mask R-CNN(Swin-S)で51.4mAPに達しています。 我々の知る限り、完全に量子化された視覚変換器上で、我々は初めて、比較精度の劣化(~1%)を達成した。 コードはhttps://github.com/l inyang-zhh/fq-vitで入手できる。

Network quantization significantly reduces model inference complexity and has been widely used in real-world deployments. However, most existing quantization methods have been developed and tested mainly on Convolutional Neural Networks (CNN), and suffer severe degradation when applied to Transformer-based architectures. In this work, we present a systematic method to reduce the performance degradation and inference complexity of Quantized Transformers. In particular, we propose Powers-of-Two Scale (PTS) to deal with the serious inter-channel variation of LayerNorm inputs in a hardware-friendly way. In addition, we propose Log-Int-Softmax (LIS) that can sustain the extreme non-uniform distribution of the attention maps while simplifying inference by using 4-bit quantization and the BitShift operator. Comprehensive experiments on various Transformer-based architectures and benchmarks show that our methods outperform previous works in performance while using even lower bit-width in attention maps. For instance, we reach 85.17% Top-1 accuracy with ViT-L on ImageNet and 51.4 mAP with Cascade Mask R-CNN (Swin-S) on COCO. To our knowledge, we are the first to achieve comparable accuracy degradation (~1%) on fully quantized Vision Transformers. Code is available at https://github.com/l inyang-zhh/FQ-ViT.
翻訳日:2021-11-30 17:12:26 公開日:2021-11-27
# 逆行性攻撃に対する適応的摂動

Adaptive Perturbation for Adversarial Attack ( http://arxiv.org/abs/2111.13841v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Shiguang Shan(参考訳) 近年、ディープラーニングモデルのセキュリティは、敵の例に弱いニューラルネットワークの急速な発展によって、ますます注目を集めている。 既存のグラデーションベースの攻撃手法のほとんどすべてが生成時の符号関数を使用して、$l_\infty$ のノルムに対する摂動予算の要件を満たす。 しかし, 符号関数は, 正確な勾配方向を変更するため, 逆例生成には不適切である可能性がある。 本稿では,逆摂動を発生させるスケーリング係数を用いて,符号関数を除去し,正確な勾配方向を直接利用し,より少ない摂動でも対向例の攻撃成功率を向上させることを提案する。 また、最適なスケーリング係数が画像によって異なることを考慮し、各画像に対して適切なスケーリング係数を求める適応スケーリング係数生成器を提案し、スケーリング係数を手動で検索する計算コストを回避する。 本手法は,攻撃成功率を改善するため,既存の攻撃手法のほとんどすべてと統合することができる。 CIFAR10とImageNetデータセットの大規模な実験により、我々の手法は高い転送可能性を示し、最先端の手法よりも優れていることが示された。

In recent years, the security of deep learning models achieves more and more attentions with the rapid development of neural networks, which are vulnerable to adversarial examples. Almost all existing gradient-based attack methods use the sign function in the generation to meet the requirement of perturbation budget on $L_\infty$ norm. However, we find that the sign function may be improper for generating adversarial examples since it modifies the exact gradient direction. We propose to remove the sign function and directly utilize the exact gradient direction with a scaling factor for generating adversarial perturbations, which improves the attack success rates of adversarial examples even with fewer perturbations. Moreover, considering that the best scaling factor varies across different images, we propose an adaptive scaling factor generator to seek an appropriate scaling factor for each image, which avoids the computational cost for manually searching the scaling factor. Our method can be integrated with almost all existing gradient-based attack methods to further improve the attack success rates. Extensive experiments on the CIFAR10 and ImageNet datasets show that our method exhibits higher transferability and outperforms the state-of-the-art methods.
翻訳日:2021-11-30 17:11:59 公開日:2021-11-27
# 移動型対向攻撃に対する適応的画像変換

Adaptive Image Transformations for Transfer-based Adversarial Attack ( http://arxiv.org/abs/2111.13844v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Shiguang Shan(参考訳) 敵対的攻撃は、ディープラーニングモデルの堅牢性を研究する良い方法を提供する。 転送ベースのブラックボックス攻撃の方法の1つのカテゴリは、いくつかの画像変換操作を使用して、逆例の転送性を改善するが、入力画像の特定の特性を考慮していない。 本研究では,異なる画像変換操作を統合されたフレームワークに組み込んだ新しいアーキテクチャであるAdaptive Image Transformation Learner (AITL)を提案する。 既存の作業で用いられる固定組合せ変換とは異なり、精巧に設計された変換学習者は、入力画像固有の画像変換の最も効果的な組み合わせを適応的に選択する。 ImageNetの大規模な実験により,通常訓練されたモデルと防御モデルの両方の攻撃成功率を,様々な条件下で大幅に向上することが示された。

Adversarial attacks provide a good way to study the robustness of deep learning models. One category of methods in transfer-based black-box attack utilizes several image transformation operations to improve the transferability of adversarial examples, which is effective, but fails to take the specific characteristic of the input image into consideration. In this work, we propose a novel architecture, called Adaptive Image Transformation Learner (AITL), which incorporates different image transformation operations into a unified framework to further improve the transferability of adversarial examples. Unlike the fixed combinational transformations used in existing works, our elaborately designed transformation learner adaptively selects the most effective combination of image transformations specific to the input image. Extensive experiments on ImageNet demonstrate that our method significantly improves the attack success rates on both normally trained models and defense models under various settings.
翻訳日:2021-11-30 17:11:41 公開日:2021-11-27
# 画像デコンボリューションのための識別的収縮深度ネットワークの学習

Learning Discriminative Shrinkage Deep Networks for Image Deconvolution ( http://arxiv.org/abs/2111.13876v1 )

ライセンス: Link先を確認
Pin-Hung Kuo, Jinshan Pan, Shao-Yi Chien and Ming-Hsuan Yang(参考訳) 非ブリンドデコンボリューションは不適切な問題である。 ほとんどの既存手法は、通常、この問題を最大ポストエリリフレームワークに定式化し、潜伏したクリアイメージの正規化項やデータ項を設計して対処する。 本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。 深層畳み込みニューラルネットワーク(cnns)やラジアル基底関数を用いて、単に正規化項を学習する既存の方法とは異なり、データ項と正規化項の両方を定式化し、逆畳みモデルを乗算器の交互方向法に従ってデータ関連および正規化関連部分問題に分割する。 我々はmaxout関数の性質を調べ、maxout層を持つ深いcnnモデルを開発し、識別的縮小関数を学習し、これら2つのサブプロブレムの解を直接近似する。 さらに, 高速フーリエ変換に基づく画像復元は, 共役勾配に基づく画像復元に時間を要する間, 通常は着信アーティファクトを生じさせるが, 共役勾配ネットワークを開発し, 潜在クリア画像を効果的かつ効率的に復元する。 実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。

Non-blind deconvolution is an ill-posed problem. Most existing methods usually formulate this problem into a maximum-a-posteriori framework and address it by designing kinds of regularization terms and data terms of the latent clear images. In this paper, we propose an effective non-blind deconvolution approach by learning discriminative shrinkage functions to implicitly model these terms. In contrast to most existing methods that use deep convolutional neural networks (CNNs) or radial basis functions to simply learn the regularization term, we formulate both the data term and regularization term and split the deconvolution model into data-related and regularization-relat ed sub-problems according to the alternating direction method of multipliers. We explore the properties of the Maxout function and develop a deep CNN model with a Maxout layer to learn discriminative shrinkage functions to directly approximate the solutions of these two sub-problems. Moreover, given the fast Fourier transform based image restoration usually leads to ringing artifacts while conjugate gradient-based image restoration is time-consuming, we develop the conjugate gradient network to restore the latent clear images effectively and efficiently. Experimental results show that the proposed method performs favorably against the state-of-the-art ones in terms of efficiency and accuracy.
翻訳日:2021-11-30 17:11:28 公開日:2021-11-27
# 頭と体:メディアにおける人物検索のための統一検出器とグラフネットワーク

Head and Body: Unified Detector and Graph Network for Person Search in Media ( http://arxiv.org/abs/2111.13888v1 )

ライセンス: Link先を確認
Xiujun Shu, Yusheng Tao, Ruizhi Qiao, Bo Ke, Wei Wen, Bo Ren(参考訳) メディアにおける人物検索は、ビデオクリップやキャラクタコレクションなど、インターネットアプリケーションでポテンシャルが高まっている。 このタスクは一般的だが、監視シーンに焦点を当てた以前の人物検索作業では見過ごされている。 メディアのシナリオには、監視シーンといくつかの異なる課題がある。 例えば、服を頻繁に着替えることがある。 この問題を軽減するために,メディア内の人物検索のための統一検出器とグラフネットワーク(UDGNet)を提案する。 UDGNetは人体と頭部を同時に検出し再識別する最初の人体検索フレームワークである。 具体的には、まず、人間の体と頭を検出する統一ネットワークに基づいて2つの枝を作り、その後、検出された体と頭が再同定に使用される。 このデュアルタスクアプローチは、差別学習を著しく向上させることができる。 布交換問題に対処するため、udgnetは布交換サンプル間の信頼できるリンクを調べるために2つのグラフを構築し、グラフネットワークを利用してより優れた埋め込みを学ぶ。 このデザインは、人物探索の頑健さを布の変形問題に効果的に向上させる。 さらに、UDGNetはアンカーベースとアンカーフリーの両方の人物検索フレームワークで実装でき、さらに性能改善が達成できることを示した。 本稿では,メディアにおける人物検索のための大規模データセット(psm)も提供し,ボディアノテーションとヘッドアノテーションの両方を提供する。 これは、メディアにおける人物検索の最大のデータセットである。 実験の結果、UDGNetはアンカーフリーモデルのAlignPSをmAPで12.1%改善した。 一方、監視と長期シナリオにまたがる優れた一般化を示す。 データセットとコードは、https://github.com/s huxjweb/psm.gitで入手できる。

Person search in media has seen increasing potential in Internet applications, such as video clipping and character collection. This task is common but overlooked by previous person search works which focus on surveillance scenes. The media scenarios have some different challenges from surveillance scenes. For example, a person may change his clothes frequently. To alleviate this issue, this paper proposes a Unified Detector and Graph Network (UDGNet) for person search in media. UDGNet is the first person search framework to detect and re-identify the human body and head simultaneously. Specifically, it first builds two branches based on a unified network to detect the human body and head, then the detected body and head are used for re-identification. This dual-task approach can significantly enhance discriminative learning. To tackle the cloth-changing issue, UDGNet builds two graphs to explore reliable links among cloth-changing samples and utilizes a graph network to learn better embeddings. This design effectively enhances the robustness of person search to cloth-changing challenges. Besides, we demonstrate that UDGNet can be implemented with both anchor-based and anchor-free person search frameworks and further achieve performance improvement. This paper also contributes a large-scale dataset for Person Search in Media (PSM), which provides both body and head annotations. It is by far the largest dataset for person search in media. Experiments show that UDGNet improves the anchor-free model AlignPS by 12.1% in mAP. Meanwhile, it shows good generalization across surveillance and longterm scenarios. The dataset and code will be available at: https://github.com/s huxjweb/PSM.git.
翻訳日:2021-11-30 17:11:03 公開日:2021-11-27
# 暗黙関数による連続環境場学習

Learning Continuous Environment Fields via Implicit Functions ( http://arxiv.org/abs/2111.13997v1 )

ライセンス: Link先を確認
Xueting Li, Shalini De Mello, Xiaolong Wang, Ming-Hsuan Yang, Jan Kautz, Sifei Liu(参考訳) 本研究では,到達距離(シーン内の任意の位置から目標までの距離)を,実現可能な軌道に沿って符号化する新しいシーン表現を提案する。 本研究では,2次元迷路や室内3次元シーンにおけるエージェントの動的挙動を直接導出できることを実証する。 我々の環境分野は連続的な表現であり、個別にサンプル化したトレーニングデータを用いてニューラル暗黙関数を通して学習する。 2次元迷路におけるエージェントナビゲーションおよび3次元室内環境における人間の軌道予測への応用について紹介する。 人間にとって物理的に有理で自然な軌道を生成するために、人間の出現する領域を予測する生成モデルを学び、その領域内で環境領域を定義することを強制する。 広範な実験により,提案手法が効率的に高精度に実現可能な軌道を生成できることが実証された。

We propose a novel scene representation that encodes reaching distance -- the distance between any position in the scene to a goal along a feasible trajectory. We demonstrate that this environment field representation can directly guide the dynamic behaviors of agents in 2D mazes or 3D indoor scenes. Our environment field is a continuous representation and learned via a neural implicit function using discretely sampled training data. We showcase its application for agent navigation in 2D mazes, and human trajectory prediction in 3D indoor environments. To produce physically plausible and natural trajectories for humans, we additionally learn a generative model that predicts regions where humans commonly appear, and enforce the environment field to be defined within such regions. Extensive experiments demonstrate that the proposed method can generate both feasible and plausible trajectories efficiently and accurately.
翻訳日:2021-11-30 17:10:39 公開日:2021-11-27
# 因子増強木のアンサンブル

Factor-augmented tree ensembles ( http://arxiv.org/abs/2111.14000v1 )

ライセンス: Link先を確認
Filippo Pellegrino(参考訳) 本稿では,季節や周期の周期的パターンの欠如,非定常傾向などの不規則性を示す予測子を扱うために,標準時系列回帰木モデリングの拡張を提案する。 このアプローチでは、観測されていないコンポーネントを介してツリーベースの自己回帰で使用される情報集合を拡張できる。 さらに本書は,アンサンブル学習に基づく過剰フィッティングの制御と,近年のジャックニフ文学の発展にも関連するアプローチを示している。 これは、ベンチマークの再サンプリング法と比較して観察された期間の数が少なく、有利な場合に非常に有益である。 実証的な結果は、より単純なベンチマークに関して、自己の過去の関数として正方形リターンを予測する利点と、因子増分木アンサンブルによるマクロ経済データの集合を示す。 副産物として、このアプローチは、株式ボラティリティに対する経済ニュースのリアルタイムの重要性を研究することができる。

This article proposes an extension for standard time-series regression tree modelling to handle predictors that show irregularities such as missing observations, periodic patterns in the form of seasonality and cycles, and non-stationary trends. In doing so, this approach permits also to enrich the information set used in tree-based autoregressions via unobserved components. Furthermore, this manuscript also illustrates a relevant approach to control over-fitting based on ensemble learning and recent developments in the jackknife literature. This is strongly beneficial when the number of observed time periods is small and advantageous compared to benchmark resampling methods. Empirical results show the benefits of predicting equity squared returns as a function of their own past and a set of macroeconomic data via factor-augmented tree ensembles, with respect to simpler benchmarks. As a by-product, this approach allows to study the real-time importance of economic news on equity volatility.
翻訳日:2021-11-30 16:35:21 公開日:2021-11-27
# 学習ビデオ圧縮のための時間文脈マイニング

Temporal Context Mining for Learned Video Compression ( http://arxiv.org/abs/2111.13850v1 )

ライセンス: Link先を確認
Xihua Sheng, Jiahao Li, Bin Li, Li Li, Dong Liu, Yan Lu(参考訳) 我々は、学習の質の向上と時間的文脈の活用に特化して、エンドツーエンドの学習ビデオ圧縮に対処する。 時間的文脈マイニングのために,前回再構成されたフレームだけでなく,伝搬された特徴を一般化されたデコードされた画像バッファに格納する。 蓄積された特徴から,多スケールの時間的文脈を学習し,学習した時間的文脈をコンテクストエンコーダ・デコーダ,フレーム生成器,時間的文脈エンコーダなど,圧縮スキームのモジュールに再充填することを提案する。 並列化非フレンドリな自己回帰エントロピーモデルを捨て,より実用的な復号時間を求める。 提案手法を x264 と x265 (それぞれ H.264 と H.265 の産業用ソフトウェアを表す) および H.264 と H.265 と H.266 (それぞれ JM, HM, VTM) の公式リファレンスソフトウェアと比較する。 イントラ周期が32でPSNRが14.4%、MS-SSIMが21.1%、H.266--VTMが21.1%、H.265--HMが14.4%である。

We address end-to-end learned video compression with a special focus on better learning and utilizing temporal contexts. For temporal context mining, we propose to store not only the previously reconstructed frames, but also the propagated features into the generalized decoded picture buffer. From the stored propagated features, we propose to learn multi-scale temporal contexts, and re-fill the learned temporal contexts into the modules of our compression scheme, including the contextual encoder-decoder, the frame generator, and the temporal context encoder. Our scheme discards the parallelization-unfr iendly auto-regressive entropy model to pursue a more practical decoding time. We compare our scheme with x264 and x265 (representing industrial software for H.264 and H.265, respectively) as well as the official reference software for H.264, H.265, and H.266 (JM, HM, and VTM, respectively). When intra period is 32 and oriented to PSNR, our scheme outperforms H.265--HM by 14.4% bit rate saving; when oriented to MS-SSIM, our scheme outperforms H.266--VTM by 21.1% bit rate saving.
翻訳日:2021-11-30 16:33:39 公開日:2021-11-27
# AdaDM:画像超解像の正規化の実現

AdaDM: Enabling Normalization for Image Super-Resolution ( http://arxiv.org/abs/2111.13905v1 )

ライセンス: Link先を確認
Jie Liu, Jie Tang, Gangshan Wu(参考訳) バッチ正規化(bn)のような正規化は、ディープラーニングにおける中間層の分布を正規化し、より高速なトレーニングとより良い一般化精度を実現するためのマイルストーンテクニックである。 しかし、忠実度画像超解法(SR)では、正規化層は特徴を正規化することで範囲柔軟性を排除し、現代のSRネットワークから簡単に除去できると考えられている。 本稿では,この現象を定量的かつ質的に研究する。 その結果, 残差の標準偏差は正規化層後に大きく減少し, SRネットワークの性能劣化の原因となることがわかった。 標準偏差は画素値の変動の量を反映する。 変動が小さくなると、エッジはネットワークが解決する上での識別性が低下する。 この問題に対処するために,変調係数を適応的に予測して画素偏差を増幅する適応偏差変調器 (AdaDM) を提案する。 一般化性能の向上のために,提案したAdaDMを用いた最先端SRネットワークにBNを適用した。 一方、AdaDMにおける偏差増幅戦略は、特徴のエッジ情報をより区別しやすくする。 その結果、BNとAdaDMを備えたSRネットワークは、ベンチマークデータセットで大幅に性能が向上する。 本手法の有効性を示すため, 大規模な実験を行った。

Normalization like Batch Normalization (BN) is a milestone technique to normalize the distributions of intermediate layers in deep learning, enabling faster training and better generalization accuracy. However, in fidelity image Super-Resolution (SR), it is believed that normalization layers get rid of range flexibility by normalizing the features and they are simply removed from modern SR networks. In this paper, we study this phenomenon quantitatively and qualitatively. We found that the standard deviation of the residual feature shrinks a lot after normalization layers, which causes the performance degradation in SR networks. Standard deviation reflects the amount of variation of pixel values. When the variation becomes smaller, the edges will become less discriminative for the network to resolve. To address this problem, we propose an Adaptive Deviation Modulator (AdaDM), in which a modulation factor is adaptively predicted to amplify the pixel deviation. For better generalization performance, we apply BN in state-of-the-art SR networks with the proposed AdaDM. Meanwhile, the deviation amplification strategy in AdaDM makes the edge information in the feature more distinguishable. As a consequence, SR networks with BN and our AdaDM can get substantial performance improvements on benchmark datasets. Extensive experiments have been conducted to show the effectiveness of our method.
翻訳日:2021-11-30 16:33:05 公開日:2021-11-27
# 英語とインド・アーリア語におけるヘイトスピーチと不快コンテンツの識別のためのトランスフォーマーモデルの検討

Exploring Transformer Based Models to Identify Hate Speech and Offensive Content in English and Indo-Aryan Languages ( http://arxiv.org/abs/2111.13974v1 )

ライセンス: Link先を確認
Somnath Banerjee, Maulindu Sarkar, Nancy Agrawal, Punyajoy Saha, Mithun Das(参考訳) ヘイトスピーチは、現在オンラインソーシャルメディアで起きている主要な問題の一つと考えられている。 ヘイトスピーチへの繰り返しの露出は、ターゲットユーザーに対して生理学的な効果をもたらすことが示されている。 したがって、ヘイトスピーチは、健康を維持するために、あらゆる形でこれらのプラットフォームに対処すべきである。 本稿では,英語およびインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツの検出のためのトランスフォーマーベースの機械学習モデルについて,fire 2021において検討した。 我々は,mBERT,XLMR-large,XL MR-baseなどのモデルをチーム名"Super Mario"で探索する。 2位はコード混合データセット(macro f1: 0.7107)、2位はヒンディー語の2級分類(macro f1: 0.7797)、4位は英語の4級分類(macro f1: 0.8006)、12位は英語の2級分類(macro f1: 0.6447)である。

Hate speech is considered to be one of the major issues currently plaguing online social media. Repeated and repetitive exposure to hate speech has been shown to create physiological effects on the target users. Thus, hate speech, in all its forms, should be addressed on these platforms in order to maintain good health. In this paper, we explored several Transformer based machine learning models for the detection of hate speech and offensive content in English and Indo-Aryan languages at FIRE 2021. We explore several models such as mBERT, XLMR-large, XLMR-base by team name "Super Mario". Our models came 2nd position in Code-Mixed Data set (Macro F1: 0.7107), 2nd position in Hindi two-class classification(Macro F1: 0.7797), 4th in English four-class category (Macro F1: 0.8006) and 12th in English two-class category (Macro F1: 0.6447).
翻訳日:2021-11-30 16:28:09 公開日:2021-11-27
# 領域一般化のための原理的絡み合いに向けて

Towards Principled Disentanglement for Domain Generalization ( http://arxiv.org/abs/2111.13839v1 )

ライセンス: Link先を確認
Hanlin Zhang, Yi-Fan Zhang, Weiyang Liu, Adrian Weller, Bernhard Sch\"olkopf, Eric P. Xing(参考訳) 機械学習モデルの基本的な課題は、分散(ood)データへの一般化である。 この課題に取り組むため,まずood一般化問題を制約付き最適化として定式化し,ddg (disentanglement-con strained domain generalization) と呼ぶ。 この非自明な制約付き最適化を有限次元のパラメータ化と経験的近似を伴う扱いやすい形式に緩和する。 次に、上記の変換が元の問題から逸脱する程度に関する理論的解析を提供する。 この変換に基づいて、結合表現の不絡と領域一般化のための原始双対アルゴリズムを提案する。 ドメインの敵対的トレーニングやドメインラベルに基づく従来のアプローチとは対照的に、DDGは意味的エンコーダと変分エンコーダを共同で学習し、トレーニングデータに対する柔軟な操作と拡張を可能にする。 DDGは、ニュアンス因子に不変であり、異なる領域にわたって一般化可能な意味概念の固有の表現を学習することを目的としている。 一般的なベンチマークに関する包括的な実験は、ddgがデータ内で競合するood性能と解釈可能なサルエント構造を達成できることを示しています。

A fundamental challenge for machine learning models is generalizing to out-of-distribution (OOD) data, in part due to spurious correlations. To tackle this challenge, we first formalize the OOD generalization problem as constrained optimization, called Disentanglement-cons trained Domain Generalization (DDG). We relax this non-trivial constrained optimization to a tractable form with finite-dimensional parameterization and empirical approximation. Then a theoretical analysis of the extent to which the above transformations deviates from the original problem is provided. Based on the transformation, we propose a primal-dual algorithm for joint representation disentanglement and domain generalization. In contrast to traditional approaches based on domain adversarial training and domain labels, DDG jointly learns semantic and variation encoders for disentanglement, enabling flexible manipulation and augmentation on training data. DDG aims to learn intrinsic representations of semantic concepts that are invariant to nuisance factors and generalizable across different domains. Comprehensive experiments on popular benchmarks show that DDG can achieve competitive OOD performance and uncover interpretable salient structures within data.
翻訳日:2021-11-30 15:40:54 公開日:2021-11-27
# omitrans: 生成型adversarial networksベースのomics-to-omics翻訳フレームワーク

OmiTrans: generative adversarial networks based omics-to-omics translation framework ( http://arxiv.org/abs/2111.13785v1 )

ライセンス: Link先を確認
Xiaoyu Zhang and Yike Guo(参考訳) 高スループット実験技術の急速な発展により、臨床サンプルから様々な種類のオミクス(ゲノム学、エピゲノミクス、転写学、プロテオミクス、メタボロミクス)データを生成することができる。 異なるオデック型間の相関は、多くの研究の関心を集めているが、ゲノム全体のオデックデータ変換(つまり、別の種類のオデックデータからの1つのオデックデータの生成と予測)は、ほとんど空白である。 画像から画像への変換やテキストから画像への変換などにおいて大きな成功を収めた,最先端のディープラーニング技術の1つである。 そこで我々は,omic-to-omics翻訳を実現するために,生成型adversarial networkのアイデアを採用したディープラーニングフレームワークである omitrans を提案する。 実験で示されたように,OmiTransはDNAメチル化データから遺伝子発現プロファイルを高精度かつ優れたモデル一般化で忠実に再構築することができた。

With the rapid development of high-throughput experimental technologies, different types of omics (e.g., genomics, epigenomics, transcriptomics, proteomics, and metabolomics) data can be produced from clinical samples. The correlations between different omics types attracts a lot of research interest, whereas the stduy on genome-wide omcis data translation (i.e, generation and prediction of one type of omics data from another type of omics data) is almost blank. Generative adversarial networks and the variants are one of the most state-of-the-art deep learning technologies, which have shown great success in image-to-image translation, text-to-image translation, etc. Here we proposed OmiTrans, a deep learning framework adopted the idea of generative adversarial networks to achieve omics-to-omics translation with promising results. OmiTrans was able to faithfully reconstruct gene expression profiles from DNA methylation data with high accuracy and great model generalisation, as demonstrated in the experiments.
翻訳日:2021-11-30 15:37:36 公開日:2021-11-27
# 出力適応弾性ネットを用いた高次元観測データからの因果推論の特徴選択

Feature Selection for Causal Inference from High Dimensional Observational Data with Outcome Adaptive Elastic Net ( http://arxiv.org/abs/2111.13800v1 )

ライセンス: Link先を確認
Md Saiful Islam, Md. Noor-E-Alam(参考訳) 機能選択(feature selection)は、最も高い予測力を提供する機能のサブセットを特定することを目的として、機械学習文献で広く研究されているテクニックである。 しかし、因果推論では、治療変数と結果(つまり共同設立者)の両方に関連付けられた変数のセットを特定することが目標です。 共起変数の制御は因果効果の偏りのない推定値を達成するのに有効であるが,最近の研究では,共同設立者とともに純粋に結果予測因子の制御が推定値のばらつきを低減できることが示されている。 本稿では,因果推論に特化して設計した Outcome Adaptive Elastic-Net (OAENet) 手法を提案する。 OAENetは既存の手法に対して2つの大きな利点を提供している。 さらに、oaenetは最先端の手法と比較して計算効率が良い。

Feature selection is an extensively studied technique in the machine learning literature where the main objective is to identify the subset of features that provides the highest predictive power. However, in causal inference, our goal is to identify the set of variables that are associated with both the treatment variable and outcome (i.e., the confounders). While controlling for the confounding variables helps us to achieve an unbiased estimate of causal effect, recent research shows that controlling for purely outcome predictors along with the confounders can reduce the variance of the estimate. In this paper, we propose an Outcome Adaptive Elastic-Net (OAENet) method specifically designed for causal inference to select the confounders and outcome predictors for inclusion in the propensity score model or in the matching mechanism. OAENet provides two major advantages over existing methods: it performs superiorly on correlated data, and it can be applied to any matching method and any estimates. In addition, OAENet is computationally efficient compared to state-of-the-art methods.
翻訳日:2021-11-30 15:37:15 公開日:2021-11-27
# 複数のソースを持つ転送学習のためのドメイン不変表現の学習について

On Learning Domain-Invariant Representations for Transfer Learning with Multiple Sources ( http://arxiv.org/abs/2111.13822v1 )

ライセンス: Link先を確認
Trung Phung, Trung Le, Long Vuong, Toan Tran, Anh Tran, Hung Bui, Dinh Phung(参考訳) ドメイン適応(da)は、その洞察力のある特徴と様々な側面、例えばドメイン不変表現の学習とそのトレードオフを研究する厳密な理論的研究から恩恵を受ける。 しかし、マルチソースDAとドメイン一般化(DG)設定は、複数のソースドメインが関与し、トレーニング中にターゲットドメインが利用できない可能性があるため、非常に複雑で洗練されているようには見えない。 本稿では,2種類のドメイン不変表現を定義することを望む,対象の一般損失に対する新たな上限を開発する。 さらに、各ドメイン不変表現を学習させることの利点と欠点、およびトレードオフについて研究する。 最後に,これらの表現のトレードオフを検証し,実際に使用する方法に関する実践的なヒントを提供し,開発理論の他の興味深い性質を探求する実験を行う。

Domain adaptation (DA) benefits from the rigorous theoretical works that study its insightful characteristics and various aspects, e.g., learning domain-invariant representations and its trade-off. However, it seems not the case for the multiple source DA and domain generalization (DG) settings which are remarkably more complicated and sophisticated due to the involvement of multiple source domains and potential unavailability of target domain during training. In this paper, we develop novel upper-bounds for the target general loss which appeal to us to define two kinds of domain-invariant representations. We further study the pros and cons as well as the trade-offs of enforcing learning each domain-invariant representation. Finally, we conduct experiments to inspect the trade-off of these representations for offering practical hints regarding how to use them in practice and explore other interesting properties of our developed theory.
翻訳日:2021-11-30 15:02:47 公開日:2021-11-27
# オープンボキャブラリニューラル推論のための常識知識学習 : 慢性疾患文学への第一歩

Common Sense Knowledge Learning for Open Vocabulary Neural Reasoning: A First View into Chronic Disease Literature ( http://arxiv.org/abs/2111.13781v1 )

ライセンス: Link先を確認
Ignacio Arroyo-Fern\'andez, Jos\'e Armando S\'anchez-Rojas, Arturo Tellez-Vel\'azquez, Flavio Ju\'arez-Mart\'inez, Ra\'ul Cruz-Barbosa, Enrique Guzm\'an-Ram\'irez, Yalbi Itzel Balderas-Mart\'inez(参考訳) 本稿では,最先端ニューラルネットワークモデル(NLM)を用いたオープン語彙知識ベース(openKB)の推論タスクと科学文献への応用について述べる。 この目的のために、自己注意に基づくNLMは、ソースタスクとして常識KBを用いて訓練される。 NLMは、最も一般的な慢性疾患(非感染性疾患、NCDとも呼ばれる)に関連する科学的知識を含むオープン語彙推論タスクのターゲットKBでテストされる。 本研究は,ソースタスクとターゲットタスクの知識推論において,一貫して,かつ有意な性能を持つnlmを同定した。 さらに,検査による分析では,モデルが学習した意味的正則性と推論能力について検討し,ncd研究を支援するアプローチの潜在的メリットについて,最初の知見を示した。

In this paper, we address reasoning tasks from open vocabulary Knowledge Bases (openKBs) using state-of-the-art Neural Language Models (NLMs) with applications in scientific literature. For this purpose, self-attention based NLMs are trained using a common sense KB as a source task. The NLMs are then tested on a target KB for open vocabulary reasoning tasks involving scientific knowledge related to the most prevalent chronic diseases (also known as non-communicable diseases, NCDs). Our results identified NLMs that performed consistently and with significance in knowledge inference for both source and target tasks. Furthermore, in our analysis by inspection we discussed the semantic regularities and reasoning capabilities learned by the models, while showing a first insight into the potential benefits of our approach to aid NCD research.
翻訳日:2021-11-30 14:55:20 公開日:2021-11-27
# ポーランド語における単語感覚の曖昧さの言語モデル

Language models in word sense disambiguation for Polish ( http://arxiv.org/abs/2111.13982v1 )

ライセンス: Link先を確認
Agnieszka Mykowiecka, Agnieszka A. Mykowiecka, Piotr Rychlik(参考訳) 本稿ではポーランド語における「教師なし」単語感覚曖昧化課題に対する2つの異なるアプローチを検証した。 どちらの手法でも、曖昧な単語と類似した単語を予測するためにニューラルネットワークモデルを使用し、これらの単語に基づいて、異なる方法で単語知覚の分割を予測する。 第1の方法では、類似した単語をクラスタリングし、第2の方法では、それらのサブセットを表すベクトルをクラスタ化する。 この評価はplWordNetに注釈を付けたテキストで行われ、比較的良い結果が得られた(すべての曖昧な単語に対してF1=0.68)。 この結果は, \cite{waw:myk:17:sense} で提案したニューラルモデルに基づく非教師なし法に比べて有意に優れており,そこで提示される教師付き手法のレベルである。 提案手法は, 注釈付きデータに欠ける言語に対して, 単語感覚の曖昧さを解消する方法である。

In the paper, we test two different approaches to the {unsupervised} word sense disambiguation task for Polish. In both methods, we use neural language models to predict words similar to those being disambiguated and, on the basis of these words, we predict the partition of word senses in different ways. In the first method, we cluster selected similar words, while in the second, we cluster vectors representing their subsets. The evaluation was carried out on texts annotated with plWordNet senses and provided a relatively good result (F1=0.68 for all ambiguous words). The results are significantly better than those obtained for the neural model-based unsupervised method proposed in \cite{waw:myk:17:Sense} and are at the level of the supervised method presented there. The proposed method may be a way of solving word sense disambiguation problem for languages that lack sense annotated data.
翻訳日:2021-11-30 14:55:06 公開日:2021-11-27
# ディープラーニングを用いた映像コンテンツ分類

Video Content Classification using Deep Learning ( http://arxiv.org/abs/2111.13813v1 )

ライセンス: Link先を確認
Pradyumn Patil, Vishwajeet Pawar, Yashraj Pawar and Shruti Pisal(参考訳) 映像コンテンツ分類はコンピュータビジョンにおいて重要な研究内容であり、画像やビデオ検索、コンピュータビジョンなど多くの分野で広く利用されている。 本稿では,コンボリューショナルニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて,映像コンテンツのタイプを特定し,それを「アニメーション,ゲーム,自然コンテンツ,フラットコンテンツ」などのカテゴリに分類する深層学習ネットワークを開発し,訓練し,最適化するモデルを提案する。 キーフレームのみを分類するために、新規なキーフレーム抽出方法の性能を高めるため、重要な性能を犠牲にすることなく、全体の処理時間を短縮する。

Video content classification is an important research content in computer vision, which is widely used in many fields, such as image and video retrieval, computer vision. This paper presents a model that is a combination of Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) which develops, trains, and optimizes a deep learning network that can identify the type of video content and classify them into categories such as "Animation, Gaming, natural content, flat content, etc". To enhance the performance of the model novel keyframe extraction method is included to classify only the keyframes, thereby reducing the overall processing time without sacrificing any significant performance.
翻訳日:2021-11-30 14:52:54 公開日:2021-11-27