このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211114となっている論文です。

PDF登録状況(公開日: 20211114)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) BioLeaF: スパイクニューラルネットワークのトレーニングのための生物工学的学習フレームワーク [全文訳有]

BioLeaF: A Bio-plausible Learning Framework for Training of Spiking Neural Networks ( http://arxiv.org/abs/2111.13188v1 )

ライセンス: CC0 1.0
Yukun Yang, Peng Li(参考訳) 私たちの脳は、正確なスパイクタイミングを通して情報をコードする生物学的ニューロンで構成されています。 スパイキングニューラルネットワーク(SNN)を高い精度で訓練できるバックプロパゲーションベース(BPベース)手法の最近の開発と比較すると、生物学的に妥当な手法はまだ初期段階にある。 本研究は, BP法則で訓練されたSNNと同等の精度を生検機構で達成できるかどうかを問うものである。 本稿では,新しいアーキテクチャと学習ルールをサポートする2つのコンポーネントからなる,生物工学的な新しい学習フレームワークを提案する。 2種類のセルと4種類のシナプス接続により、局所的なフィードバック接続を通じてエラー信号を計算・伝播し、グローバルに定義されたスパイクエラー関数を持つ多層SNNのトレーニングを支援することができる。 当社のマイクロサーキットアーキテクチャでは,局所的なコンパートメントで動作するspike-timing-depende nt-plasticity(stdp)ルールを用いてシナプス重みを更新し,生物学的に妥当な方法で教師あり学習を実現する。 最後に,提案フレームワークを最適化の観点から解釈し,特別な状況下でbpルールと等価性を示す。 実験の結果,本フレームワークはbpベースのルールに匹敵する学習精度を示し,生体システムにおける学習の体系化に関する新たな知見を与える可能性が示唆された。

Our brain consists of biological neurons encoding information through accurate spike timing, yet both the architecture and learning rules of our brain remain largely unknown. Comparing to the recent development of backpropagation-base d (BP-based) methods that are able to train spiking neural networks (SNNs) with high accuracy, biologically plausible methods are still in their infancy. In this work, we wish to answer the question of whether it is possible to attain comparable accuracy of SNNs trained by BP-based rules with bio-plausible mechanisms. We propose a new bio-plausible learning framework, consisting of two components: a new architecture, and its supporting learning rules. With two types of cells and four types of synaptic connections, the proposed local microcircuit architecture can compute and propagate error signals through local feedback connections and support training of multi-layers SNNs with a globally defined spiking error function. Under our microcircuit architecture, we employ the Spike-Timing-Depende nt-Plasticity (STDP) rule operating in local compartments to update synaptic weights and achieve supervised learning in a biologically plausible manner. Finally, We interpret the proposed framework from an optimization point of view and show the equivalence between it and the BP-based rules under a special circumstance. Our experiments show that the proposed framework demonstrates learning accuracy comparable to BP-based rules and may provide new insights on how learning is orchestrated in biological systems.
翻訳日:2021-12-06 03:29:59 公開日:2021-11-14
# unified encoder-decoder architecture を用いた複雑な電子健康記録データベースに対する質問応答

Question Answering for Complex Electronic Health Records Database using Unified Encoder-Decoder Architecture ( http://arxiv.org/abs/2111.14703v1 )

ライセンス: Link先を確認
Seongsu Bae, Daeyoung Kim, Jiho Kim, Edward Choi(参考訳) 電子健康記録(EHR-QA)に基づく人間の質問に答えられるインテリジェントマシンは、臨床診断のサポート、病院管理の管理、医療チャットボットなど、非常に実践的な価値がある。 しかし、テーブル質問をテーブルクエリ(NLQ2SQL)に翻訳することに焦点を当てたテーブルベースのQA研究は、複雑で専門的な医療用語によるEHRデータの独特な性質に悩まされており、復号の難しさが増している。 本稿では,自然言語質問をSQLやSPARQLなどのクエリに変換するEHR-QAのための統一エンコーダデコーダアーキテクチャUniQAを設計する。 また、複雑な医療用語や様々なタイプミスに対処し、SQL/SPARQL構文をよりよく学習するための、シンプルで効果的な入力マスキング(IM)を提案する。 統合アーキテクチャと効果的な補助訓練の目標を組み合わせることで、MIMICSQL*の以前の最先端モデル(14.2%のゲイン)、EHRドメインで最も複雑なNLQ2SQLデータセット、そしてタイポライデンバージョン(約28.8%のゲイン)に対する大幅なパフォーマンス向上を実証した。 さらに、グラフベースのEHR-QAデータセットMIMICSPARQL*の一貫性のある結果を確認した。

An intelligent machine that can answer human questions based on electronic health records (EHR-QA) has a great practical value, such as supporting clinical decisions, managing hospital administration, and medical chatbots. Previous table-based QA studies focusing on translating natural questions into table queries (NLQ2SQL), however, suffer from the unique nature of EHR data due to complex and specialized medical terminology, hence increased decoding difficulty. In this paper, we design UniQA, a unified encoder-decoder architecture for EHR-QA where natural language questions are converted to queries such as SQL or SPARQL. We also propose input masking (IM), a simple and effective method to cope with complex medical terms and various typos and better learn the SQL/SPARQL syntax. Combining the unified architecture with an effective auxiliary training objective, UniQA demonstrated a significant performance improvement against the previous state-of-the-art model for MIMICSQL* (14.2% gain), the most complex NLQ2SQL dataset in the EHR domain, and its typo-ridden versions (approximately 28.8% gain). In addition, we confirmed consistent results for the graph-based EHR-QA dataset, MIMICSPARQL*.
翻訳日:2021-12-06 01:22:04 公開日:2021-11-14
# (参考訳) ビジュアルデザインの直感:生断面画像からのビームの動的特性の予測 [全文訳有]

Visual design intuition: Predicting dynamic properties of beams from raw cross-section images ( http://arxiv.org/abs/2111.09701v1 )

ライセンス: CC BY 4.0
Philippe M. Wyder, Hod Lipson(参考訳) 本研究は,視覚検査と経験のみからデザインの性能を推定する直観的能力の人間性を模倣することを目的としている。 本研究では,畳み込みニューラルネットワークが生の断面画像からカンチレバービームの静的および動的特性を直接予測する能力について検討する。 画素を唯一の入力として用いた結果のモデルは、有限要素解析(FEA)手法と比較して、最大偏向量や固有周波数をそれぞれ4.54%と1.43%の平均平均誤差(MAPE)で予測する。 これらのモデルのトレーニングでは、理論や関連する幾何学的性質に関する事前の知識は必要とせず、むしろシミュレーションや経験的なデータにのみ依存し、理論的な知識ではなく「経験」に基づく予測を行う。 このアプローチはfeaの1000倍以上高速であるため、同様のジオメトリの連続的な評価が必要となる予備最適化研究を高速化するサーロゲートモデルの作成に採用することができる。 このモデリングアプローチは、複雑な構造や理論モデルが利用できない物理現象を含む最適化問題に対処するのに役立つと提案する。

In this work we aim to mimic the human ability to acquire the intuition to estimate the performance of a design from visual inspection and experience alone. We study the ability of convolutional neural networks to predict static and dynamic properties of cantilever beams directly from their raw cross-section images. Using pixels as the only input, the resulting models learn to predict beam properties such as volume maximum deflection and eigenfrequencies with 4.54% and 1.43% Mean Average Percentage Error (MAPE) respectively, compared to the Finite Element Analysis (FEA) approach. Training these models doesn't require prior knowledge of theory or relevant geometric properties, but rather relies solely on simulated or empirical data, thereby making predictions based on "experience" as opposed to theoretical knowledge. Since this approach is over 1000 times faster than FEA, it can be adopted to create surrogate models that could speed up the preliminary optimization studies where numerous consecutive evaluations of similar geometries are required. We suggest that this modeling approach would aid in addressing challenging optimization problems involving complex structures and physical phenomena for which theoretical models are unavailable.
翻訳日:2021-11-20 02:16:55 公開日:2021-11-14
# イベント抽出による原油価格予測

Forecasting Crude Oil Price Using Event Extraction ( http://arxiv.org/abs/2111.09111v1 )

ライセンス: Link先を確認
Jiangwei Liu and Xiaohong Huang(参考訳) 原油価格予測に関する研究は、世界経済に大きな影響を与えたため、学者や政策立案者から大きな注目を集めている。 原油価格は需給の他に、経済発展、金融市場、紛争、戦争、政治イベントなど様々な要因に影響を受けている。 これまでのほとんどの研究は、原油価格予測を時系列または計量変動予測問題として扱う。 近年,リアルタイムニュースイベントの効果を考察する研究が盛んに行われているが,これらの研究の大部分は生ニュースの見出しや話題モデルを用いて,イベント情報を深く探ることなくテキストの特徴を抽出している。 本研究では,新たな原油価格予測フレームワークであるAGESLを提案し,この問題に対処した。 提案手法では,オープンドメインイベント抽出アルゴリズムを用いて関連するイベントを抽出し,大量のニュースから感情を抽出するテキスト感情分析アルゴリズムを用いる。 そして、将来の原油価格を予測するために、ニュースイベント機能、センチメンタル機能、歴史的な価格機能を統合するディープニューラルネットワークを構築します。 ウェスト・テキサス・インターミディエート(WTI)原油価格データを用いて実験を行い,本手法がいくつかのベンチマーク手法と比較して優れた性能を示した。

Research on crude oil price forecasting has attracted tremendous attention from scholars and policymakers due to its significant effect on the global economy. Besides supply and demand, crude oil prices are largely influenced by various factors, such as economic development, financial markets, conflicts, wars, and political events. Most previous research treats crude oil price forecasting as a time series or econometric variable prediction problem. Although recently there have been researches considering the effects of real-time news events, most of these works mainly use raw news headlines or topic models to extract text features without profoundly exploring the event information. In this study, a novel crude oil price forecasting framework, AGESL, is proposed to deal with this problem. In our approach, an open domain event extraction algorithm is utilized to extract underlying related events, and a text sentiment analysis algorithm is used to extract sentiment from massive news. Then a deep neural network integrating the news event features, sentimental features, and historical price features is built to predict future crude oil prices. Empirical experiments are performed on West Texas Intermediate (WTI) crude oil price data, and the results show that our approach obtains superior performance compared with several benchmark methods.
翻訳日:2021-11-18 13:49:11 公開日:2021-11-14
# (参考訳) 条件付き暗黙的表現を用いた軽量制御可能な音声合成に向けて [全文訳有]

Towards Lightweight Controllable Audio Synthesis with Conditional Implicit Neural Representations ( http://arxiv.org/abs/2111.08462v1 )

ライセンス: CC BY 4.0
Jan Zuiderveld, Marco Federici, Erik J. Bekkers(参考訳) 音声の高時間分解能と波形の小さな不規則性に対する知覚感度は、高サンプリングレートでの合成を複雑で計算集約的なタスクとし、多くのアプローチにおいてリアルタイムで制御可能な合成を禁止している。 本研究は、音声合成のための生成フレームワークにおける軽量なバックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てることを目的としている。 Inlicit Neural representations (INR) は低次元関数を近似するために使用されるニューラルネットワークであり、入力座標を入力位置の構造情報にマッピングすることで単一の幾何学的対象を表現するように訓練されている。 幾何学的オブジェクトを表現する他のニューラルネットワークとは異なり、オブジェクトをパラメータ化するために必要なメモリは解像度とは独立しており、その複雑さでしかスケールしない。 これは INR が無限分解能を持つからであり、任意の分解能でサンプル化することができる。 生成領域にINRの概念を適用するために、生成モデリングは連続関数の分布を学ぶためのものである。 これはINRに条件付きメソッドを導入することで実現できる。 実験の結果,PCINRはパラメータ数に等しい変換畳み込みニューラルネットワークよりも高速に学習し,定量的に優れた音声再構成を実現することがわかった。 しかし、それらのパフォーマンスはアクティベーションスケーリングハイパーパラメータに非常に敏感である。 より均一な集合を表現することを学ぶとき、PCINRは再構成に人工的な高周波成分を導入する傾向がある。 我々は,PCINRの合成深度を低下させたり,トレーニング中に標準重量正規化を適用することで,このノイズを最小化できることを確認した。

The high temporal resolution of audio and our perceptual sensitivity to small irregularities in waveforms make synthesizing at high sampling rates a complex and computationally intensive task, prohibiting real-time, controllable synthesis within many approaches. In this work we aim to shed light on the potential of Conditional Implicit Neural Representations (CINRs) as lightweight backbones in generative frameworks for audio synthesis. Implicit neural representations (INRs) are neural networks used to approximate low-dimensional functions, trained to represent a single geometric object by mapping input coordinates to structural information at input locations. In contrast with other neural methods for representing geometric objects, the memory required to parameterize the object is independent of resolution, and only scales with its complexity. A corollary of this is that INRs have infinite resolution, as they can be sampled at arbitrary resolutions. To apply the concept of INRs in the generative domain we frame generative modelling as learning a distribution of continuous functions. This can be achieved by introducing conditioning methods to INRs. Our experiments show that Periodic Conditional INRs (PCINRs) learn faster and generally produce quantitatively better audio reconstructions than Transposed Convolutional Neural Networks with equal parameter counts. However, their performance is very sensitive to activation scaling hyperparameters. When learning to represent more uniform sets, PCINRs tend to introduce artificial high-frequency components in reconstructions. We validate this noise can be minimized by applying standard weight regularization during training or decreasing the compositional depth of PCINRs, and suggest directions for future research.
翻訳日:2021-11-18 08:24:04 公開日:2021-11-14
# (参考訳) モデルに基づく強化学習による自由意志の信念 [全文訳有]

Free Will Belief as a consequence of Model-based Reinforcement Learning ( http://arxiv.org/abs/2111.08435v1 )

ライセンス: CC BY 4.0
Erik M. Rehn(参考訳) 人間に自由意志があるかどうかという議論は、何世紀も続いている。 人間が自由意志を持つことは不可能であるという観点から、自然の法則に対する我々の現在の理解に基づく良い議論があるが、ほとんどの人はそう信じている。 この矛盾は説明を求めます。 もし私たちが自由意志を持っていないと認めるなら、我々は2つの問題に直面している:(1)自由は直感的に誰もが理解できる非常によく使われる概念であるが、アクションや選択が「自由」であると言うとき、実際に何を参照しているのか? そして(2)自由という信念はなぜそんなに一般的なのか? この信念はどこから来るのか、その目的は何なのか。 本稿では,これらの課題を強化学習(RL)の観点から検討する。 RLはもともと人工知能エージェントの訓練用に開発されたフレームワークである。 However, it can also be used as a computational model of human decision making and learning, and by doing so, we propose that the first problem can be answered by observing that people's common sense understanding of freedom is closely related to the information entropy of an RL agent's normalized action values, while the second can be explained by the necessity for agents to model themselves as if they could have taken decisions other than those they actually took, when dealing with the temporal credit assignment problem. 簡単に言えば、人間の学習のモデルとしてRLフレームワークを適用することで、効率よく学習し、インテリジェントになるためには、自由意志を持つかのように自分自身を見極める必要があることが明らかになります。

The debate on whether or not humans have free will has been raging for centuries. Although there are good arguments based on our current understanding of the laws of nature for the view that it is not possible for humans to have free will, most people believe they do. This discrepancy begs for an explanation. If we accept that we do not have free will, we are faced with two problems: (1) while freedom is a very commonly used concept that everyone intuitively understands, what are we actually referring to when we say that an action or choice is "free" or not? And, (2) why is the belief in free will so common? Where does this belief come from, and what is its purpose, if any? In this paper, we examine these questions from the perspective of reinforcement learning (RL). RL is a framework originally developed for training artificial intelligence agents. However, it can also be used as a computational model of human decision making and learning, and by doing so, we propose that the first problem can be answered by observing that people's common sense understanding of freedom is closely related to the information entropy of an RL agent's normalized action values, while the second can be explained by the necessity for agents to model themselves as if they could have taken decisions other than those they actually took, when dealing with the temporal credit assignment problem. Put simply, we suggest that by applying the RL framework as a model for human learning it becomes evident that in order for us to learn efficiently and be intelligent we need to view ourselves as if we have free will.
翻訳日:2021-11-18 08:13:55 公開日:2021-11-14
# (参考訳) ディープニューラルネットワークタスクを普遍的に拡張するレイヤストレス学習フレームワーク [全文訳有]

A layer-stress learning framework universally augments deep neural network tasks ( http://arxiv.org/abs/2111.08597v1 )

ライセンス: CC BY 4.0
Shihao Shao, Yong Liu, Qinghua Cui(参考訳) MLP(Multi-Layer Perception)やCNN(Convolutional Neural Networks)といったディープニューラルネットワークは、最も確立されたディープラーニングアルゴリズムの1つである。 隠れたレイヤの数がネットワークアーキテクチャとパフォーマンスに与える影響を考えると、隠れたレイヤの数を選択することは非常に重要ですが、それでも深刻な課題です。 さらに重要なことに,現在のネットワークアーキテクチャでは,機能抽出の最後のレイヤからのみ情報を処理することが可能です。 本稿では,層分割型深層学習フレームワーク(x-nn)について紹介する。深層ネットワークにおける浅層あるいは深層機能マップの自動的かつ賢明な深さ決定を,まず十分な数の層を設計し,次にマルチヘッドアテンションブロックで切り換える。 x-nnはアテンションアロケーションを通じてさまざまな深さ層からの機能を利用することができ、最終的な決定にも役立ちます。 その結果、x-NNはアルツハイマー病分類技術チャレンジ(PRCV 2021)において優れた予測能力を示し、この結果、他のAIモデルよりも優れていた。 さらに、x-NNの性能は、1つのADニューロイメージングデータセットや他のAIタスクによって検証された。

Deep neural networks (DNN) such as Multi-Layer Perception (MLP) and Convolutional Neural Networks (CNN) represent one of the most established deep learning algorithms. Given the tremendous effects of the number of hidden layers on network architecture and performance, it is very important to choose the number of hidden layers but still a serious challenge. More importantly, the current network architectures can only process the information from the last layer of the feature extractor, which greatly limited us to further improve its performance. Here we presented a layer-stress deep learning framework (x-NN) which implemented automatic and wise depth decision on shallow or deep feature map in a deep network through firstly designing enough number of layers and then trading off them by Multi-Head Attention Block. The x-NN can make use of features from various depth layers through attention allocation and then help to make final decision as well. As a result, x-NN showed outstanding prediction ability in the Alzheimer's Disease Classification Technique Challenge PRCV 2021, in which it won the top laurel and outperformed all other AI models. Moreover, the performance of x-NN was verified by one more AD neuroimaging dataset and other AI tasks.
翻訳日:2021-11-18 07:57:08 公開日:2021-11-14
# 理論誘導型畳み込みエンコーダ・デコーダネットワークを用いた3次元不均質構造における不確かさの定量化と逆解析

Uncertainty quantification and inverse modeling for subsurface flow in 3D heterogeneous formations using a theory-guided convolutional encoder-decoder network ( http://arxiv.org/abs/2111.08691v1 )

ライセンス: Link先を確認
Rui Xu, Dongxiao Zhang, Nanzhe Wang(参考訳) 複数の垂直生産井を有する動的3次元単相流問題に対するサロゲートモデルを構築した。 シュロゲートモデルは、確率的透水性場、任意の井戸位置と貫入長さ、入力としてのタイムステップ行列が与えられた任意の時点における全体形成の効率的な圧力推定を提供する。 ウェル生産率またはボトムホール圧力はピースマンの公式に基づいて決定できる。 元の代理モデリングタスクは畳み込みエンコーダ・デコーダニューラルネットワークアーキテクチャを用いて画像から画像への回帰問題に変換される。 離散化形式における支配フロー方程式の残差を損失関数に組み込んでモデルトレーニングプロセスに理論的指導を課す。 その結果、訓練されたサロゲートモデルの精度と一般化能力は、完全なデータ駆動モデルよりも大幅に向上した。 また、異なる統計量を持つフィールドを透過する柔軟な外挿能力を持つことも示されている。 確率的透過性場を考慮した不確実性定量化を行うとともに、限られたウェル生産データと形成特性の観測データに基づいて未知の透過性情報を推定するためにサロゲートモデルを用いる。 結果は従来の数値シミュレーションツールとよく一致しているが、計算効率は劇的に向上している。

We build surrogate models for dynamic 3D subsurface single-phase flow problems with multiple vertical producing wells. The surrogate model provides efficient pressure estimation of the entire formation at any timestep given a stochastic permeability field, arbitrary well locations and penetration lengths, and a timestep matrix as inputs. The well production rate or bottom hole pressure can then be determined based on Peaceman's formula. The original surrogate modeling task is transformed into an image-to-image regression problem using a convolutional encoder-decoder neural network architecture. The residual of the governing flow equation in its discretized form is incorporated into the loss function to impose theoretical guidance on the model training process. As a result, the accuracy and generalization ability of the trained surrogate models are significantly improved compared to fully data-driven models. They are also shown to have flexible extrapolation ability to permeability fields with different statistics. The surrogate models are used to conduct uncertainty quantification considering a stochastic permeability field, as well as to infer unknown permeability information based on limited well production data and observation data of formation properties. Results are shown to be in good agreement with traditional numerical simulation tools, but computational efficiency is dramatically improved.
翻訳日:2021-11-17 16:12:09 公開日:2021-11-14
# (参考訳) Meta-Voice:メタラーニングを用いた表現的音声クローニングのための高速数ショットスタイル転送 [全文訳有]

Meta-Voice: Fast few-shot style transfer for expressive voice cloning using meta learning ( http://arxiv.org/abs/2111.07218v1 )

ライセンス: CC BY 4.0
Songxiang Liu, Dan Su, Dong Yu(参考訳) text-to-speech(tts)合成における音声クローニングのための少数ショットスタイル転送の課題は、任意の音源話者の発話スタイルを、非常に限られた中性データを使用してターゲット話者の声に転送することである。 学習アルゴリズムは、わずかな声のクローンと話者-韻律の不一致を同時に扱う必要があるため、これは非常に難しい課題です。 新しいターゲットスピーカーの適応プロセスを加速することは、現実世界のアプリケーションでは重要だが、さらに難しい。 本稿では,メタラーニングを用いた音声クローン処理における高速な数ショットスタイル転送手法を提案する。 モデル非依存型メタラーニング(maml)アルゴリズムと事前学習されたマルチスピーカーおよびマルチプロトコルベースttsモデルのメタトランスファーについて検討し,サンプル数が少ない適応に対して高い感度を示す。 ドメイン逆訓練機構と直交制約により、話者と韻律表現を区別し、効果的なクロススピーカースタイル転送を行う。 実験結果から,提案手法は,100ステップの適応ステップで,対象話者から5例(約12秒音声データ)のサンプルのみを用いて,高速音声クローンが可能であった。 オーディオサンプルはオンラインで入手できる。

The task of few-shot style transfer for voice cloning in text-to-speech (TTS) synthesis aims at transferring speaking styles of an arbitrary source speaker to a target speaker's voice using very limited amount of neutral data. This is a very challenging task since the learning algorithm needs to deal with few-shot voice cloning and speaker-prosody disentanglement at the same time. Accelerating the adaptation process for a new target speaker is of importance in real-world applications, but even more challenging. In this paper, we approach to the hard fast few-shot style transfer for voice cloning task using meta learning. We investigate the model-agnostic meta-learning (MAML) algorithm and meta-transfer a pre-trained multi-speaker and multi-prosody base TTS model to be highly sensitive for adaptation with few samples. Domain adversarial training mechanism and orthogonal constraint are adopted to disentangle speaker and prosody representations for effective cross-speaker style transfer. Experimental results show that the proposed approach is able to conduct fast voice cloning using only 5 samples (around 12 second speech data) from a target speaker, with only 100 adaptation steps. Audio samples are available online.
翻訳日:2021-11-17 11:30:13 公開日:2021-11-14
# (参考訳) 表情認識のための局所的マルチヘッドチャネル自己認識 [全文訳有]

Local Multi-Head Channel Self-Attention for Facial Expression Recognition ( http://arxiv.org/abs/2111.07224v1 )

ライセンス: CC BY 4.0
Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo(参考訳) 2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョンの分野で自己注意パラダイムを導入する試みが数多く行われている。 本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。 第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。 lhc-net では,これまでの sota と比較した場合の計算コストの観点から,複雑性と `‘host'' アーキテクチャへの影響を大幅に低減した,有名な fer2013 データセット の新たな最先端を実現することができました。

Since the Transformer architecture was introduced in 2017 there has been many attempts to bring the self-attention paradigm in the field of computer vision. In this paper we propose a novel self-attention module that can be easily integrated in virtually every convolutional neural network and that is specifically designed for computer vision, the LHC: Local (multi) Head Channel (self-attention). LHC is based on two main ideas: first, we think that in computer vision the best way to leverage the self-attention paradigm is the channel-wise application instead of the more explored spatial attention and that convolution will not be replaced by attention modules like recurrent networks were in NLP; second, a local approach has the potential to better overcome the limitations of convolution than global attention. With LHC-Net we managed to achieve a new state of the art in the famous FER2013 dataset with a significantly lower complexity and impact on the ``host'' architecture in terms of computational cost when compared with the previous SOTA.
翻訳日:2021-11-17 11:19:51 公開日:2021-11-14
# (参考訳) FACOS: セマンティックおよび構文解析によるスタックオーバーフロー上のAPI関連コンテンツ発見 [全文訳有]

FACOS: Finding API Relevant Contents on Stack Overflow with Semantic and Syntactic Analysis ( http://arxiv.org/abs/2111.07238v1 )

ライセンス: CC BY 4.0
Kien Luong, Mohammad Hadi, Ferdian Thung, Fatemeh Fard, and David Lo(参考訳) Stack Overflowのような会場での議論よりも、特定のAPIメソッドに関連するAPIの例や使用状況、言及を収集することは、簡単な問題ではありません。 議論が開発者やツールが探しているAPIメソッドを指すかどうかを正しく認識するには、努力が必要である。 スレッドの内容は、議論におけるAPIメソッドの関与を記述したテキスト段落と、API呼び出しを含むコードスニペットの両方からなり、与えられたAPIメソッドを参照することができる。 この観察を活かして、議論の中でパラグラフとコードスニペットの意味的および構文的情報をキャプチャするコンテキスト固有のアルゴリズムであるfacosを開発した。 FACOSは、構文的な単語ベースのスコアと、CodeBERTから微調整された予測モデルからのスコアを組み合わせる。 facosはf1-scoreで最先端のアプローチを13.9%上回っている。

Collecting API examples, usages, and mentions relevant to a specific API method over discussions on venues such as Stack Overflow is not a trivial problem. It requires efforts to correctly recognize whether the discussion refers to the API method that developers/tools are searching for. The content of the thread, which consists of both text paragraphs describing the involvement of the API method in the discussion and the code snippets containing the API invocation, may refer to the given API method. Leveraging this observation, we develop FACOS, a context-specific algorithm to capture the semantic and syntactic information of the paragraphs and code snippets in a discussion. FACOS combines a syntactic word-based score with a score from a predictive model fine-tuned from CodeBERT. FACOS beats the state-of-the-art approach by 13.9% in terms of F1-score.
翻訳日:2021-11-17 11:02:40 公開日:2021-11-14
# (参考訳) スコアマッチングによる拡散ブリッジのシミュレーション [全文訳有]

Simulating Diffusion Bridges with Score Matching ( http://arxiv.org/abs/2111.07243v1 )

ライセンス: CC BY 4.0
Valentin De Bortoli, Arnaud Doucet, Jeremy Heng, James Thornton(参考訳) 拡散ブリッジのシミュレーション,すなわち2つの状態において初期化と終了を条件とした拡散過程の問題を考察する。 拡散橋シミュレーションは様々な科学分野に応用され、離散観測された拡散の統計的推論に重要な役割を果たしている。 この問題は、過去20年で大きな注目を集めてきた難しい問題として知られている。 本研究では,無条件拡散過程を時間反転できる場合,時間反転拡散ブリッジ法をシミュレートできることを最初に示す。 本稿では,難易度を回避するためのスコアマッチング法に依拠した時間反転学習のための変分定式法を提案する。 次に、拡散ブリッジプロセスを定義するDoobの$h$-transformを近似するために提案手法の別のイテレーションを検討する。 提案手法は,拡散過程の軽微な仮定の下で一般的に適用できるため,既存の手法やフレームワークにおける提案ブリッジプロセスの改善に容易に利用できる。 アルゴリズム的考察と拡張について検討し,いくつかの数値計算結果を示す。

We consider the problem of simulating diffusion bridges, i.e. diffusion processes that are conditioned to initialize and terminate at two given states. Diffusion bridge simulation has applications in diverse scientific fields and plays a crucial role for statistical inference of discretely-observed diffusions. This is known to be a challenging problem that has received much attention in the last two decades. In this work, we first show that the time-reversed diffusion bridge process can be simulated if one can time-reverse the unconditioned diffusion process. We introduce a variational formulation to learn this time-reversal that relies on a score matching method to circumvent intractability. We then consider another iteration of our proposed methodology to approximate the Doob's $h$-transform defining the diffusion bridge process. As our approach is generally applicable under mild assumptions on the underlying diffusion process, it can easily be used to improve the proposal bridge process within existing methods and frameworks. We discuss algorithmic considerations and extensions, and present some numerical results.
翻訳日:2021-11-17 10:38:49 公開日:2021-11-14
# (参考訳) 動的特徴集合を用いた背景認識3次元点雲分割 [全文訳有]

Background-Aware 3D Point Cloud Segmentationwith Dynamic Point Feature Aggregation ( http://arxiv.org/abs/2111.07248v1 )

ライセンス: CC BY 4.0
Jiajing Chen, Burak Kakillioglu, Senem Velipasalar(参考訳) Lidarセンサーと3Dビジョンカメラの普及に伴い、3Dポイントクラウド分析は近年大きな注目を集めている。 先駆的な研究であるPointNetの成功の後、ディープラーニングベースの手法は、3Dポイントクラウドセグメンテーションや3Dオブジェクト分類など、様々なタスクにますます適用されてきた。 本稿では,動的プーリングとアテンション機構を備えた近傍特徴集約を選択的に行うことにより,動的ポイント特徴集約ネットワーク(DPFA-Net)と呼ばれる新しい3Dポイントクラウド学習ネットワークを提案する。 DPFA-Netにはセマンティックセグメンテーションと3Dポイントクラウドの分類のための2つのバリエーションがある。 DPFA-Netのコアモジュールとして,各点の動的近傍の特徴を自己認識機構を介して集約する特徴集約層を提案する。 固定近傍の特徴を集約する他のセグメンテーションモデルとは対照的に、我々のアプローチは、クエリポイントに対してより選択的でより広い視点を提供する異なる階層の隣人からの特徴を集約し、より局所的な特徴にフォーカスすることができる。 さらに,提案したセマンティックセグメンテーションモデルの性能向上のために,背景情報を活用するために,2段階BF-NetとBF-Regularizationという2つの新しい手法を提案する。 実験結果から,提案したDPFA-Netは,S3DISデータセット上でのセマンティックセグメンテーションの総合的精度スコアを達成し,セマンティックセグメンテーション,パートセグメンテーション,3次元オブジェクト分類のさまざまなタスクに一貫した満足な性能を提供する。 また、他の方法に比べて計算効率が良い。

With the proliferation of Lidar sensors and 3D vision cameras, 3D point cloud analysis has attracted significant attention in recent years. After the success of the pioneer work PointNet, deep learning-based methods have been increasingly applied to various tasks, including 3D point cloud segmentation and 3D object classification. In this paper, we propose a novel 3D point cloud learning network, referred to as Dynamic Point Feature Aggregation Network (DPFA-Net), by selectively performing the neighborhood feature aggregation with dynamic pooling and an attention mechanism. DPFA-Net has two variants for semantic segmentation and classification of 3D point clouds. As the core module of the DPFA-Net, we propose a Feature Aggregation layer, in which features of the dynamic neighborhood of each point are aggregated via a self-attention mechanism. In contrast to other segmentation models, which aggregate features from fixed neighborhoods, our approach can aggregate features from different neighbors in different layers providing a more selective and broader view to the query points, and focusing more on the relevant features in a local neighborhood. In addition, to further improve the performance of the proposed semantic segmentation model, we present two novel approaches, namely Two-Stage BF-Net and BF-Regularization to exploit the background-foregroun d information. Experimental results show that the proposed DPFA-Net achieves the state-of-the-art overall accuracy score for semantic segmentation on the S3DIS dataset, and provides a consistently satisfactory performance across different tasks of semantic segmentation, part segmentation, and 3D object classification. It is also computationally more efficient compared to other methods.
翻訳日:2021-11-17 10:16:23 公開日:2021-11-14
# (参考訳) 文学作品におけるテキスト世界のアノテーションを目指して [全文訳有]

Towards annotation of text worlds in a literary work ( http://arxiv.org/abs/2111.07256v1 )

ライセンス: CC BY 4.0
Elena Mikhalkova, Timofei Protasov, Anastasiia Drozdova, Anastasiia Bashmakova, Polina Gavin(参考訳) 文学テキストは通常意味に富み、その解釈はコーパス研究と自動処理を複雑にする。 著者の言動、登場人物、出来事、場面など文学的要素の注釈を付した文学的テキストのコレクションを作成する試みが何度か行われている。 しかし、それらは小さなコレクションとアノテーションの独立したルールを生み出した。 本稿では,文学作品におけるテキスト世界の語彙的アノテーションの実験とその比較方法について述べる。 この実験は、タグ割り当てアノテーションルールがより厳格に設定されるべきであることを示している。 しかし、テキストの世界と他の要素の境界が主観的な解釈の結果であるならば、それらはファジィエンティティとしてモデル化されるべきである。

Literary texts are usually rich in meanings and their interpretation complicates corpus studies and automatic processing. There have been several attempts to create collections of literary texts with annotation of literary elements like the author's speech, characters, events, scenes etc. However, they resulted in small collections and standalone rules for annotation. The present article describes an experiment on lexical annotation of text worlds in a literary work and quantitative methods of their comparison. The experiment shows that for a well-agreed tag assignment annotation rules should be set much more strictly. However, if borders between text worlds and other elements are the result of a subjective interpretation, they should be modeled as fuzzy entities.
翻訳日:2021-11-17 09:50:17 公開日:2021-11-14
# (参考訳) 階層的時空間グラフニューラルネットワークによる手話翻訳

Sign Language Translation with Hierarchical Spatio-TemporalGraph Neural Network ( http://arxiv.org/abs/2111.07258v1 )

ライセンス: CC BY 4.0
Jichao Kan, Kun Hu, Markus Hagenbuchner, Ah Chung Tsoi, Mohammed Bennamounm, Zhiyong Wang(参考訳) 手話翻訳(slt、英語: sign language translation)は、手話の視覚的な内容から音声言語でテキストを生成するもので、コミュニケーションの難聴者コミュニティを支援するために重要である。 ニューラルマシン翻訳(nmt)に触発され、既存のslt研究のほとんどはシーケンス学習戦略に一般的なシーケンスを採用した。 しかし、手話言語は複数の視覚的な側面を通してメッセージを伝達するため、sltは一般的なnmtタスクと大きく異なる。 そこで本研究では,これらの手話の特徴を階層的時空間グラフ表現として定式化し,頂点が特定の身体部分とエッジを特徴付ける高次グラフと細部グラフを含む。 特に、高レベルグラフは、手や顔などの領域のパターンを表し、細レベルグラフは、手と顔の領域のランドマークの関節を考慮する。 これらのグラフパターンを学習するために,階層型時空間グラフニューラルネットワーク(HST-GNN)と呼ばれる新しいディープラーニングアーキテクチャを提案する。 局所グラフ特性とグローバルグラフ特性の両方を特徴付けるために、グラフ畳み込みと近傍コンテキストによるグラフ自己アテンションを提案する。 評価実験の結果,提案手法の有効性が示された。

Sign language translation (SLT), which generates text in a spoken language from visual content in a sign language, is important to assist the hard-of-hearing community for their communications. Inspired by neural machine translation (NMT), most existing SLT studies adopted a general sequence to sequence learning strategy. However, SLT is significantly different from general NMT tasks since sign languages convey messages through multiple visual-manual aspects. Therefore, in this paper, these unique characteristics of sign languages are formulated as hierarchical spatio-temporal graph representations, including high-level and fine-level graphs of which a vertex characterizes a specified body part and an edge represents their interactions. Particularly, high-level graphs represent the patterns in the regions such as hands and face, and fine-level graphs consider the joints of hands and landmarks of facial regions. To learn these graph patterns, a novel deep learning architecture, namely hierarchical spatio-temporal graph neural network (HST-GNN), is proposed. Graph convolutions and graph self-attentions with neighborhood context are proposed to characterize both the local and the global graph properties. Experimental results on benchmark datasets demonstrated the effectiveness of the proposed method.
翻訳日:2021-11-17 09:40:58 公開日:2021-11-14
# (参考訳) 参加予算で何を最適化すべきか? 実験的検討 [全文訳有]

What Should We Optimize in Participatory Budgeting? An Experimental Study ( http://arxiv.org/abs/2111.07308v1 )

ライセンス: CC BY 4.0
Ariel Rosenfeld, Nimrod Talmon(参考訳) 参加予算(英: participatory budgeting、pb)は、一般市民(特に一部の自治体の住民)が地方予算のごく一部を決定するために行う予算の配分方法を決定するプロセスである。 社会的選択の観点から、PBに関する既存の研究は、研究コミュニティによって「望ましい」と見なされる特定の公理特性を満たす計算効率のよい集約手法を設計することに集中している。 我々の研究は、ユーザスタディ(N = 215)を通じてこの研究の行を補完し、単純なPB設定で、潜在的有権者(すなわち非専門家)が公正であるか、望ましいかを識別するいくつかの実験を行った。 以上の結果から,最近のPBアグリゲーション技術はユーザの期待と大きく異なるが,他の標準手法ではより整合した結果が得られることがわかった。 また、非専門家が‘say{desirable’とみなすものと、PB文脈における“fairness”の概念をどう知覚するかの間には、いくつかの相違点がある。 共同研究により,本研究は研究コミュニティが実際に使用する適切なpb集約方法を特定するのに役立つ。

Participatory Budgeting (PB) is a process in which voters decide how to allocate a common budget; most commonly it is done by ordinary people -- in particular, residents of some municipality -- to decide on a fraction of the municipal budget. From a social choice perspective, existing research on PB focuses almost exclusively on designing computationally-effi cient aggregation methods that satisfy certain axiomatic properties deemed "desirable" by the research community. Our work complements this line of research through a user study (N = 215) involving several experiments aimed at identifying what potential voters (i.e., non-experts) deem fair or desirable in simple PB settings. Our results show that some modern PB aggregation techniques greatly differ from users' expectations, while other, more standard approaches, provide more aligned results. We also identify a few possible discrepancies between what non-experts consider \say{desirable} and how they perceive the notion of "fairness" in the PB context. Taken jointly, our results can be used to help the research community identify appropriate PB aggregation methods to use in practice.
翻訳日:2021-11-17 09:39:56 公開日:2021-11-14
# (参考訳) マルチエージェント強化学習による相対分布形成と障害物回避 [全文訳有]

Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2111.07334v1 )

ライセンス: CC BY 4.0
Yuzi Yan, Xiaoxiang Li, Xinyou Qiu, Jiantao Qiu, Jian Wang, Yu Wang, Yuan Shen(参考訳) マルチエージェント形成と障害物回避は、マルチエージェントシステムの分野で最も活発に研究されているトピックの1つである。 モデル予測制御(mpc)やファジィ制御のような古典的なコントローラは一定の成功尺度を達成しているが、そのほとんどは厳しい環境ではアクセスできない正確なグローバル情報を必要とする。 一方、強化学習(RL)に基づくアプローチでは、異なるエージェントの行動を組織するためにリーダー・フォロワー構造を採用しており、それによってエージェント間の協力が犠牲になり、操作性や堅牢性のボトルネックに悩まされる。 本稿では,マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。 システム内のエージェントは、ローカルおよび相対的な情報のみを使用して意思決定を行い、自らを分配的に制御する。 マルチエージェントシステムのエージェントは、どれかが切断された場合、すぐに新しいトポロジーに再編成される。 提案手法は, 従来の制御法とRL法の両方と比較して, 障害物回避の誤差, 生成収束率, オンパー成功率に関する性能を向上する。 Ackermann-steering vehicle を用いたシミュレーションとハードウェア実装により本手法の有効性を検証した。

Multi-agent formation as well as obstacle avoidance is one of the most actively studied topics in the field of multi-agent systems. Although some classic controllers like model predictive control (MPC) and fuzzy control achieve a certain measure of success, most of them require precise global information which is not accessible in harsh environments. On the other hand, some reinforcement learning (RL) based approaches adopt the leader-follower structure to organize different agents' behaviors, which sacrifices the collaboration between agents thus suffering from bottlenecks in maneuverability and robustness. In this paper, we propose a distributed formation and obstacle avoidance method based on multi-agent reinforcement learning (MARL). Agents in our system only utilize local and relative information to make decisions and control themselves distributively. Agent in the multi-agent system will reorganize themselves into a new topology quickly in case that any of them is disconnected. Our method achieves better performance regarding formation error, formation convergence rate and on-par success rate of obstacle avoidance compared with baselines (both classic control methods and another RL-based method). The feasibility of our method is verified by both simulation and hardware implementation with Ackermann-steering vehicles.
翻訳日:2021-11-17 09:20:59 公開日:2021-11-14
# (参考訳) $p$-Laplacianベースのグラフニューラルネットワーク

$p$-Laplacian Based Graph Neural Networks ( http://arxiv.org/abs/2111.07337v1 )

ライセンス: CC BY 4.0
Guoji Fu and Peilin Zhao and Yatao Bian(参考訳) グラフニューラルネットワーク(GNN)は、ノードの特徴と位相情報を同時に活用する能力により、グラフ上の半教師付きノード分類において優れた性能を示す。 しかし、ほとんどのGNNは、グラフ内のノードとその隣人のラベルは同一または一貫したものであると暗黙的に仮定している。 したがって、トポロジがラベル予測に非形式的である場合、通常のGNNは、各ノードに多層パーセプトロン(MLP)を単に適用するよりも、はるかに悪く動作する可能性がある。 上記の問題に対処するために, メッセージパッシング機構は離散正規化フレームワークから派生し, $p$-laplacian のスペクトル領域で定義される多項式グラフフィルタの近似として理論的に説明できる, $^p$gnn と呼ばれる新しい $p$-laplacian ベースの gnn モデルを提案する。 スペクトル分析により、新しいメッセージパッシング機構は低域通過フィルタと高域通過フィルタを同時に行うことが示され、したがって、$^p$GNNsはホモ親和性グラフとヘテロ親和性グラフの両方に有効である。 実世界のデータセットと合成データセットに関する実証研究は、我々の研究成果を検証し、同好性ベンチマークにおける競合性能を達成しつつ、異好性ベンチマークにおける最先端のGNNアーキテクチャを著しく上回っていることを実証した。 さらに$^p$gnnはアグレゲーション重みを適応的に学習でき、騒がしいエッジに対して頑健である。

Graph neural networks (GNNs) have demonstrated superior performance for semi-supervised node classification on graphs, as a result of their ability to exploit node features and topological information simultaneously. However, most GNNs implicitly assume that the labels of nodes and their neighbors in a graph are the same or consistent, which does not hold in heterophilic graphs, where the labels of linked nodes are likely to differ. Hence, when the topology is non-informative for label prediction, ordinary GNNs may work significantly worse than simply applying multi-layer perceptrons (MLPs) on each node. To tackle the above problem, we propose a new $p$-Laplacian based GNN model, termed as $^p$GNN, whose message passing mechanism is derived from a discrete regularization framework and could be theoretically explained as an approximation of a polynomial graph filter defined on the spectral domain of $p$-Laplacians. The spectral analysis shows that the new message passing mechanism works simultaneously as low-pass and high-pass filters, thus making $^p$GNNs are effective on both homophilic and heterophilic graphs. Empirical studies on real-world and synthetic datasets validate our findings and demonstrate that $^p$GNNs significantly outperform several state-of-the-art GNN architectures on heterophilic benchmarks while achieving competitive performance on homophilic benchmarks. Moreover, $^p$GNNs can adaptively learn aggregation weights and are robust to noisy edges.
翻訳日:2021-11-17 09:07:42 公開日:2021-11-14
# (参考訳) クロスオーガニズム推論のための不変リスク最小化:ヒトリスク要因発見におけるヒトデータに対するマウスデータ置換 [全文訳有]

Invariant Risk Minimisation for Cross-Organism Inference: Substituting Mouse Data for Human Data in Human Risk Factor Discovery ( http://arxiv.org/abs/2111.07348v1 )

ライセンス: CC BY 4.0
Odhran O'Donoghue, Paul Duckworth, Giuseppe Ughi, Linus Scheibenreif, Kia Khezeli, Adrienne Hoarfrost, Samuel Budd, Patrick Foley, Nicholas Chia, John Kalantari, Graham Mackintosh, Frank Soboczenski, Lauren Sanders(参考訳) 人間の医療データは、データのプライバシの懸念、特定の種類の実験の難しさ、あるいは関連するコストのために取得するのが困難である。 多くの環境では、動物モデルや生体内細胞からのデータを使って、人間のデータの理解を深めることができます。 しかし、このデータは人間のデータに比べてエチオロジーの妥当性が低いことが知られている。 本研究では,生体内データと動物モデルを用いて,小型のヒト医療データセットを増強する。 Invariant Risk Minimisation (IRM) を用いて、異なるデータ生成環境に属する組織間データを考慮し、不変性を解明する。 我々のモデルはヒトの癌発生に関連する遺伝子を同定する。 ヒトとマウスのデータ量の違いによる一貫性の度合いを観察するが、決定的な洞察を得るためにはさらなる作業が必要である。 コントリビューションとして、既存のオープンソースデータセットを強化し、2つの一様処理されたクロスオーガニゼーション、ホモログ遺伝子マッチングデータセットをコミュニティに提供する。

Human medical data can be challenging to obtain due to data privacy concerns, difficulties conducting certain types of experiments, or prohibitive associated costs. In many settings, data from animal models or in-vitro cell lines are available to help augment our understanding of human data. However, this data is known for having low etiological validity in comparison to human data. In this work, we augment small human medical datasets with in-vitro data and animal models. We use Invariant Risk Minimisation (IRM) to elucidate invariant features by considering cross-organism data as belonging to different data-generating environments. Our models identify genes of relevance to human cancer development. We observe a degree of consistency between varying the amounts of human and mouse data used, however, further work is required to obtain conclusive insights. As a secondary contribution, we enhance existing open source datasets and provide two uniformly processed, cross-organism, homologue gene-matched datasets to the community.
翻訳日:2021-11-17 09:06:10 公開日:2021-11-14
# (参考訳) 深層学習に基づく物体検出モデルを用いた手首x線画像の骨折検出 [全文訳有]

Fracture Detection in Wrist X-ray Images Using Deep Learning-Based Object Detection Models ( http://arxiv.org/abs/2111.07355v1 )

ライセンス: CC BY 4.0
F{\i}rat Hardala\c{c}, Fatih Uysal, Ozan Peker, Murat \c{C}i\c{c}eklida\u{g}, Tolga Tolunay, Nil Tokg\"oz, U\u{g}urhan Kutbay, Boran Demirciler and Fatih Mert(参考訳) 手首骨折は病院、特に救急サービスでよく発生する。 医師は様々な医療機器の画像を必要としており、患者はこれらの骨折を正しく診断し、適切な治療を施す。 本研究の目的は,手首X線画像の深部学習による骨折検出を行うことであり,特に救急医療における治療,特に骨折の診断を支援することである。 この目的のために, ガジ大学病院から得られた手首x線画像のデータセット上で, 深層学習に基づく物体検出モデルを用いて20種類の異なる検出手順を行った。 DCN, Dynamic R_CNN, Faster R_CNN, FSAF, Libra R_CNN, PAA, RetinaNet, RegNet, SABLといった様々なバックボーンを持つディープラーニングに基づくオブジェクト検出モデルを用いた。 さらに,本研究では,5種類のアンサンブルモデルを開発し,その後,アンサンブルモデルを改良し,手首骨折検出コンボ(WFD_C)と題する本研究特有の検出モデルを開発した。 26の異なる骨折が検出された結果, wfd_cモデルでは, 0.8639 平均精度 (ap50) が得られた。 この研究は、Gazi University、Huawei、Medskorの協力プロジェクト071813の範囲内でHuawei Turkey R&D Centerが支援している。

Wrist fractures are common cases in hospitals, particularly in emergency services. Physicians need images from various medical devices, and patients medical history and physical examination to diagnose these fractures correctly and apply proper treatment. This study aims to perform fracture detection using deep learning on wrist Xray images to assist physicians not specialized in the field, working in emergency services in particular, in diagnosis of fractures. For this purpose, 20 different detection procedures were performed using deep learning based object detection models on dataset of wrist Xray images obtained from Gazi University Hospital. DCN, Dynamic R_CNN, Faster R_CNN, FSAF, Libra R_CNN, PAA, RetinaNet, RegNet and SABL deep learning based object detection models with various backbones were used herein. To further improve detection procedures in the study, 5 different ensemble models were developed, which were later used to reform an ensemble model to develop a detection model unique to our study, titled wrist fracture detection combo (WFD_C). Based on detection of 26 different fractures in total, the highest result of detection was 0.8639 average precision (AP50) in WFD_C model developed. This study is supported by Huawei Turkey R&D Center within the scope of the ongoing cooperation project coded 071813 among Gazi University, Huawei and Medskor.
翻訳日:2021-11-17 08:56:46 公開日:2021-11-14
# (参考訳) 「このショートカットは見つけましたか?」 テキスト分類のための入力サリエンス手法の忠実度評価のためのプロトコル [全文訳有]

"Will You Find These Shortcuts?" A Protocol for Evaluating the Faithfulness of Input Salience Methods for Text Classification ( http://arxiv.org/abs/2111.07367v1 )

ライセンス: CC BY 4.0
Jasmijn Bastings, Sebastian Ebert, Polina Zablotskaia, Anders Sandholm, Katja Filippova(参考訳) 特徴の帰属 a.k.a. 特徴に重要スコアを割り当てる入力サリエンスメソッドは豊富であるが、同じ入力で同じモデルに対して驚くほど異なる結果を生み出す可能性がある。 異なる重要性の定義が仮定される場合、違いは期待できるが、ほとんどのメソッドは忠実な属性を提供し、モデルの予測に最も関係のある特徴を指摘する。 忠実度評価に関する既存の作業は決定的ではなく、どのように異なる方法を比較するべきかに関して明確な答えを提供していない。 テキスト分類とモデルデバッグシナリオに着目し,機能重要度ランキングのための基礎的真理を得るために,部分的な合成データを用いた忠実度評価のためのプロトコルを提案する。 提案プロトコルに従って,BERT および LSTM モデルのデータセットおよびショートカットの4つの標準サリエンスメソッドクラスを詳細に解析し,最も一般的なメソッド構成のいくつかは,最も単純なショートカットであっても結果が悪いことを実証する。 ショートカットを識別する最良の方法を見つけるために、新しいタスクとモデルの組み合わせごとにプロトコルに従うことを推奨する。

Feature attribution a.k.a. input salience methods which assign an importance score to a feature are abundant but may produce surprisingly different results for the same model on the same input. While differences are expected if disparate definitions of importance are assumed, most methods claim to provide faithful attributions and point at the features most relevant for a model's prediction. Existing work on faithfulness evaluation is not conclusive and does not provide a clear answer as to how different methods are to be compared. Focusing on text classification and the model debugging scenario, our main contribution is a protocol for faithfulness evaluation that makes use of partially synthetic data to obtain ground truth for feature importance ranking. Following the protocol, we do an in-depth analysis of four standard salience method classes on a range of datasets and shortcuts for BERT and LSTM models and demonstrate that some of the most popular method configurations provide poor results even for simplest shortcuts. We recommend following the protocol for each new task and model combination to find the best method for identifying shortcuts.
翻訳日:2021-11-17 08:37:14 公開日:2021-11-14
# (参考訳) 深層学習を用いた骨盤x線写真からの臼蓋骨片推定 [全文訳有]

Estimation of Acetabular Version from Anteroposterior Pelvic Radiograph Employing Deep Learning ( http://arxiv.org/abs/2111.07369v1 )

ライセンス: CC BY 4.0
Ata Jodeiri, Hadi Seyedarabi, Fatemeh Shahbazi, Seyed Mohammad Mahdi Hashemi, Seyyedhossein Shafiei(参考訳) 背景と目的: 人工股関節全置換術において重要な因子であるAcetabular はCTスキャンで金標準として測定される。 放射線線量とCTの高価さは, 骨盤前部X線撮影を適切な代替方法とする。 本研究では,解剖学的バージョンを測定するために骨盤x線を用いた深層学習法を適用し,ct検査の必要をなくした。 方法:300例の股関節の左右臼蓋のバージョン角をCT画像を用いて算出した。 骨年齢に対する事前訓練vgg16に着目した深層学習モデルを提案する。 これらの人々の年齢と性別は他の2つの入力として、最後の完全に接続された注意層に追加される。 出力として、両股関節の角度が予測される。 結果:ctで算出したヒップの角度は,男性で16.54および16.11(左右の角度),データセットで女性で20.61および19.55と,年齢とともに増加する。 深層学習法を用いて左右の角度を推定する際の予測誤差は, 精度の高い誤差領域(<=3°) であり, 提案手法がAP画像に基づいて解剖学的バージョンを測定する能力を示す。 結論: 提案アルゴリズムは, 患者骨盤のAP画像にvgg16を適用し, 年齢, 性別を考慮した注意モデルを用いて, CTスキャンの必要性を回避しつつ, APラジオグラフのみを用いてバージョンを正確に評価することができる。 ap pelvic像に基づく解剖学的寛骨臼バージョン推定法について,dlアプローチを用いて著者の知識を最大限に活用する手法は,まだ発表されていない。

Background and Objective: The Acetabular version, an essential factor in total hip arthroplasty, is measured by CT scan as the gold standard. The dose of radiation and expensiveness of CT make anterior-posterior pelvic radiograph an appropriate alternative procedure. In this study, we applied a deep learning approach on anteroposterior pelvic X-rays to measure anatomical version, eliminating the necessity of using Computed tomography scan. Methods: The right and left acetabular version angles of the hips of 300 patients are computed using their CT images. The proposed deep learning model, Attention on Pretrained-VGG16 for Bone Age, is applied to the AP images of the included population. The age and gender of these people are added as two other inputs to the last fully connected layer of attention mechanism. As the output, the angles of both hips are predicted. Results: The angles of hips computed on CT increase as people get older with the mean values of 16.54 and 16.11 (right and left angles) for men and 20.61 and 19.55 for women in our dataset. The predicted errors in the estimation of right and left angles using the proposed method of deep learning are in the accurate region of error (<=3 degrees) which shows the ability of the proposed method in measuring anatomical version based on AP images. Conclusion: The suggested algorithm, applying pre-trained vgg16 on the AP images of the pelvis of patients followed by an attention model considering age and gender of patients, can assess version accurately using only AP radiographs while obviating the need for CT scan. The applied technique of estimation of anatomical acetabular version based on AP pelvic images using DL approaches, to the best of authors' knowledge, has not been published yet.
翻訳日:2021-11-17 08:19:32 公開日:2021-11-14
# (参考訳) ビデオベースコンピュータビジョンタスクのためのコセグメンテーションインスパイアされた注意モジュール [全文訳有]

Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks ( http://arxiv.org/abs/2111.07370v1 )

ライセンス: CC BY 4.0
Arulkumar Subramaniam, Jayesh Vaidya, Muhammed Abdul Majeed Ameen, Athira Nambiar and Anurag Mittal(参考訳) コンピュータビジョンタスクは、突出したオブジェクト領域の推定と、それらのオブジェクト領域間のインタラクションの恩恵を受ける。 オブジェクト領域を特定するには、事前訓練されたモデルを使用してオブジェクト検出、オブジェクトセグメンテーション、および/またはオブジェクトポーズ推定を行う。 ただし、実際には以下の理由により実現不可能である。 1) 訓練済みモデルのトレーニングデータセットのオブジェクトカテゴリは、一般的なコンピュータビジョンタスクに必要なすべてのオブジェクトカテゴリを網羅するものではない。 2)訓練済みモデルのトレーニングデータセットと目標タスクのデータセットのドメインギャップは,性能に悪影響を及ぼす可能性がある。 3)事前訓練されたモデルに存在するバイアスとばらつきは、意図しないバイアスのあるターゲットモデルにつながるターゲットタスクに漏れる可能性がある。 これらの欠点を克服するために、映像フレームのシーケンスが共通のオブジェクトの集合をキャプチャし、それらの相互作用を相互に持つという共通の理論的根拠を生かして、映像フレーム特徴の共セグメンテーションの概念は、モデルにサリエント領域に自動的に焦点を合わせ、エンド・ツー・エンドでタスクの性能を向上させる能力を与える。 そこで本研究では,CNNにプラグイン可能なCOSAM(Co-Segmentatio n Activation Module)と呼ばれる汎用モジュールを提案する。 ビデオベースタスクである3つのタスクにおけるCOSAMの適用例を示す。 1)ビデオベースの人物再識別 2)ビデオキャプション,&3)ビデオアクションの分類と,cosamがビデオフレームの突出した領域をキャプチャできることの実証により,注意マップの解釈が容易になるとともに,注目すべきパフォーマンス向上が達成された。

Computer vision tasks can benefit from the estimation of the salient object regions and interactions between those object regions. Identifying the object regions involves utilizing pretrained models to perform object detection, object segmentation and/or object pose estimation. However, it is infeasible in practice due to the following reasons: 1) The object categories of pretrained models' training dataset may not cover all the object categories exhaustively needed for general computer vision tasks, 2) The domain gap between pretrained models' training dataset and target task's dataset may differ and negatively impact the performance, 3) The bias and variance present in pretrained models may leak into target task leading to an inadvertently biased target model. To overcome these downsides, we propose to utilize the common rationale that a sequence of video frames capture a set of common objects and interactions between them, thus a notion of co-segmentation between the video frame features may equip the model with the ability to automatically focus on salient regions and improve underlying task's performance in an end-to-end manner. In this regard, we propose a generic module called "Co-Segmentation Activation Module" (COSAM) that can be plugged-in to any CNN to promote the notion of co-segmentation based attention among a sequence of video frame features. We show the application of COSAM in three video based tasks namely 1) Video-based person re-ID, 2) Video captioning, & 3) Video action classification and demonstrate that COSAM is able to capture salient regions in the video frames, thus leading to notable performance improvements along with interpretable attention maps.
翻訳日:2021-11-17 08:06:19 公開日:2021-11-14
# (参考訳) 弱混合時間境界を用いたギブズ分割関数推定のための高速2倍適応MCMC [全文訳有]

Fast Doubly-Adaptive MCMC to Estimate the Gibbs Partition Function with Weak Mixing Time Bounds ( http://arxiv.org/abs/2111.07372v1 )

ライセンス: CC BY 4.0
Shahrzad Haddadan, Yue Zhuang, Cyrus Cousins, Eli Upfal(参考訳) 本稿では,Gibs (Boltzmann) 分布の分割関数 (正規化定数) を厳密に推定し,確率的グラフィカルモデルに普遍的に現れる計算複雑性を低減する手法を提案する。 Gibbs分布の実践的応用に対する大きな障害は、それらの分割関数を見積もる必要があることである。 この問題に対処する技術の現状は、冷却スケジュールとスケジュールの各ステップの平均推定器で構成されるマルチステージアルゴリズムである。 これらのアルゴリズムの冷却スケジュールは適応的であるが、平均推定計算ではMCMCをブラックボックスとして使用して近似サンプルを描画する。 我々は,適応冷却スケジュールと適応MCMC平均推定器を組み合わせた2重適応型手法を開発し,マルコフ連鎖のステップの数を基底鎖に動的に適応させる。 厳密な理論的分析を通じて,本手法は,(1)計算複雑性が小さく,(2)混合時間に係わるゆるい境界に敏感でないこと,(3)高精度推定の最も困難な状況において,本手法が得られた改善が特に重要であることを証明した。 投票モデルやイジングモデルなど,古典的因子グラフ上で実施する実験において,本手法の利点を実証する。

We present a novel method for reducing the computational complexity of rigorously estimating the partition functions (normalizing constants) of Gibbs (Boltzmann) distributions, which arise ubiquitously in probabilistic graphical models. A major obstacle to practical applications of Gibbs distributions is the need to estimate their partition functions. The state of the art in addressing this problem is multi-stage algorithms, which consist of a cooling schedule, and a mean estimator in each step of the schedule. While the cooling schedule in these algorithms is adaptive, the mean estimation computations use MCMC as a black-box to draw approximate samples. We develop a doubly adaptive approach, combining the adaptive cooling schedule with an adaptive MCMC mean estimator, whose number of Markov chain steps adapts dynamically to the underlying chain. Through rigorous theoretical analysis, we prove that our method outperforms the state of the art algorithms in several factors: (1) The computational complexity of our method is smaller; (2) Our method is less sensitive to loose bounds on mixing times, an inherent component in these algorithms; and (3) The improvement obtained by our method is particularly significant in the most challenging regime of high-precision estimation. We demonstrate the advantage of our method in experiments run on classic factor graphs, such as voting models and Ising models.
翻訳日:2021-11-17 07:03:44 公開日:2021-11-14
# (参考訳) 近傍グラフ上のラプラシアン固有写像によるソボレフ空間上のミニマックス最適回帰

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs ( http://arxiv.org/abs/2111.07394v1 )

ライセンス: CC BY 4.0
Alden Green, Sivaraman Balakrishnan, Ryan J. Tibshirani(参考訳) 本稿では,ラプラシアン固有写像(LE)に基づく非パラメトリック回帰法であるPCR-LEを用いた主成分回帰の統計的性質について検討する。 pcr-le は、観察された応答のベクトル ${\bf y} = (y_1,\ldots,y_n)$ を、近傍グラフラプラシアンのある固有ベクトルにまたがる部分空間に投影する。 pcr-le はソボレフ空間上のランダム設計回帰に対して最小収束率を達成する。 設計密度$p$の十分な滑らかさ条件の下では、PCR-LE は両方の推定(正方形$L^2$ノルムの最適レートが$n^{-2s/(2s + d)}$、良質な試験(n^{-4s/(4s + d)}$)の最適レートを達成する。 また、PCR-LE が \emph{manifold Adaptive} であること、すなわち、設計が小さな内在次元の多様体上でサポートされている状況を考えると、PCR-LE がより高速な最小値推定(n^{-2s/(2s + m)}$)を達成し、収束率(n^{-4s/(4s + m)}$)をテストすることを保証する上限を与える。 興味深いことに、これらの速度は、既知のグラフラプラシア固有ベクトルの集団レベルの限界への収束率よりも常に速く、言い換えれば、推定された特徴によるこの問題の回帰は、特徴自体を推定するよりもずっと簡単で統計的に話すことができる。 我々はこれらの理論結果を実証的な証拠で支持する。

In this paper we study the statistical properties of Principal Components Regression with Laplacian Eigenmaps (PCR-LE), a method for nonparametric regression based on Laplacian Eigenmaps (LE). PCR-LE works by projecting a vector of observed responses ${\bf Y} = (Y_1,\ldots,Y_n)$ onto a subspace spanned by certain eigenvectors of a neighborhood graph Laplacian. We show that PCR-LE achieves minimax rates of convergence for random design regression over Sobolev spaces. Under sufficient smoothness conditions on the design density $p$, PCR-LE achieves the optimal rates for both estimation (where the optimal rate in squared $L^2$ norm is known to be $n^{-2s/(2s + d)}$) and goodness-of-fit testing ($n^{-4s/(4s + d)}$). We also show that PCR-LE is \emph{manifold adaptive}: that is, we consider the situation where the design is supported on a manifold of small intrinsic dimension $m$, and give upper bounds establishing that PCR-LE achieves the faster minimax estimation ($n^{-2s/(2s + m)}$) and testing ($n^{-4s/(4s + m)}$) rates of convergence. Interestingly, these rates are almost always much faster than the known rates of convergence of graph Laplacian eigenvectors to their population-level limits; in other words, for this problem regression with estimated features appears to be much easier, statistically speaking, than estimating the features itself. We support these theoretical results with empirical evidence.
翻訳日:2021-11-17 05:49:18 公開日:2021-11-14
# (参考訳) ニューラルキャパシティ推定器 - 信頼性はどの程度か? [全文訳有]

Neural Capacity Estimators: How Reliable Are They? ( http://arxiv.org/abs/2111.07401v1 )

ライセンス: CC BY 4.0
Farhad Mirkarimi, Stefano Rini, Nariman Farsad(参考訳) 近年,深層ニューラルネットワークを用いてサンプルデータからの相互情報を推定する手法が提案されている。 この分類は神経相互情報推定器(neural mutual information estimator)と呼ばれる。 非常に有望な技術ではあるが, 共同最大化フレームワークであるキャパシティ推定の有効性, 実装容易性, 安定性を確立するために, 厳密なベンチマークを付けていない。 本稿では,文献で提案されている能力推定手法を比較し,その有効性に関する実践的視点を提供する。 特に、相互情報ニューラル推定器(MINE)、スムーズな相互情報ローバウンド推定器(SMILE)、有向情報ニューラル推定器(DINE)の性能を調査し、InfoNCEに関する知見を提供する。 我々はこれらのアルゴリズムを,AWGNチャネル,光強度チャネル,ピーク電力制約AWGNチャネルに近づいている入力分布を学習する能力の観点から評価した。 どちらのシナリオでも、安定性、初期化に対する感受性など、トレーニングプロセスのさまざまな側面に関する洞察に富んだコメントを提供します。

Recently, several methods have been proposed for estimating the mutual information from sample data using deep neural networks and without the knowing closed form distribution of the data. This class of estimators is referred to as neural mutual information estimators. Although very promising, such techniques have yet to be rigorously bench-marked so as to establish their efficacy, ease of implementation, and stability for capacity estimation which is joint maximization frame-work. In this paper, we compare the different techniques proposed in the literature for estimating capacity and provide a practitioner perspective on their effectiveness. In particular, we study the performance of mutual information neural estimator (MINE), smoothed mutual information lower-bound estimator (SMILE), and directed information neural estimator (DINE) and provide insights on InfoNCE. We evaluated these algorithms in terms of their ability to learn the input distributions that are capacity approaching for the AWGN channel, the optical intensity channel, and peak power-constrained AWGN channel. For both scenarios, we provide insightful comments on various aspects of the training process, such as stability, sensitivity to initialization.
翻訳日:2021-11-17 05:47:40 公開日:2021-11-14
# (参考訳) タイム・ウェイト・フォー・ノー・ワン! 時間的過失の分析と課題 [全文訳有]

Time Waits for No One! Analysis and Challenges of Temporal Misalignment ( http://arxiv.org/abs/2111.07408v1 )

ライセンス: CC BY 4.0
Kelvin Luu, Daniel Khashabi, Suchin Gururangan, Karishma Mandyam, Noah A. Smith(参考訳) ある期間のテキストデータに基づいてNLPモデルをトレーニングし、別の期間のデータに対してテストまたはデプロイした場合、結果として生じる時間的ミスアライメントは、エンドタスクのパフォーマンスを劣化させる可能性がある。 本研究では,様々な分野 (ソーシャルメディア, 科学論文, ニュース, レビュー) にまたがる8つのタスク群と, 期間 (5年以上) を設定し, 時間的不一致の効果を定量化する。 本研究は,事前学習モデルが継続したドメイン固有事前学習とタスク固有微調整によって任意に適応されるユビキタスな設定に着目した。 我々は、現代のNLPシステムにおける時間的不整合を研究するために、複数のドメインにまたがる一連のタスクを確立する。 時間的ずれがタスクパフォーマンスに与える影響は,以前報告されたよりも強い。 また、継続事前訓練による時間適応は有効であるが、これらの利得は、目標時間からのデータに対するタスク固有の微調整に比べて小さい。 本研究はnlpモデルの時間的ロバスト性を改善するための研究を継続する動機となった。

When an NLP model is trained on text data from one time period and tested or deployed on data from another, the resulting temporal misalignment can degrade end-task performance. In this work, we establish a suite of eight diverse tasks across different domains (social media, science papers, news, and reviews) and periods of time (spanning five years or more) to quantify the effects of temporal misalignment. Our study is focused on the ubiquitous setting where a pretrained model is optionally adapted through continued domain-specific pretraining, followed by task-specific finetuning. We establish a suite of tasks across multiple domains to study temporal misalignment in modern NLP systems. We find stronger effects of temporal misalignment on task performance than have been previously reported. We also find that, while temporal adaptation through continued pretraining can help, these gains are small compared to task-specific finetuning on data from the target time period. Our findings motivate continued research to improve temporal robustness of NLP models.
翻訳日:2021-11-17 05:35:54 公開日:2021-11-14
# (参考訳) 自己再生による複数段階タスクの学習 [全文訳有]

Learning Multi-Stage Tasks with One Demonstration via Self-Replay ( http://arxiv.org/abs/2111.07447v1 )

ライセンス: CC BY 4.0
Norman Di Palo and Edward Johns(参考訳) そこで本研究では,事前のオブジェクト知識を必要とせず,人間の1つのデモンストレーションから日常的な多段階タスクを学習する新しい手法を提案する。 近年の細かな模倣学習法に触発されて,模倣学習を学習対象の到達段階としてモデル化し,実演者の行動のオープンループ再生を行った。 人間の実演の後、ロボットは次の物体に連続して到達し、デモを再生し、タスクのすべての段階に対してループを繰り返すことで、マルチステージタスク全体の画像データを自律的に収集することができる。 本研究では,日常的なマルチステージタスクを実世界の実験で評価し,本手法が1つの実演から解けることを示す。 ビデオと補足資料はhttps://www.robot-le arning.uk/self-repla yで見ることができる。

In this work, we introduce a novel method to learn everyday-like multi-stage tasks from a single human demonstration, without requiring any prior object knowledge. Inspired by the recent Coarse-to-Fine Imitation Learning method, we model imitation learning as a learned object reaching phase followed by an open-loop replay of the demonstrator's actions. We build upon this for multi-stage tasks where, following the human demonstration, the robot can autonomously collect image data for the entire multi-stage task, by reaching the next object in the sequence and then replaying the demonstration, and then repeating in a loop for all stages of the task. We evaluate with real-world experiments on a set of everyday-like multi-stage tasks, which we show that our method can solve from a single demonstration. Videos and supplementary material can be found at https://www.robot-le arning.uk/self-repla y.
翻訳日:2021-11-17 05:19:44 公開日:2021-11-14
# (参考訳) 分散5gエッジネットワークにおける概念ドリフトのための注意フェデレーション学習 [全文訳有]

Attentive Federated Learning for Concept Drift in Distributed 5G Edge Networks ( http://arxiv.org/abs/2111.07457v1 )

ライセンス: CC BY 4.0
Amir Hossein Estiri, Muthucumaru Maheswaran(参考訳) 機械学習(ML)は5Gエッジコンピューティングにおいて大きな役割を果たすことが期待されている。 様々な研究により、MLはエッジコンピューティングシステムの最適化に非常に適していることが示されている。 MLが最良のソリューションを提供するためには、変更シナリオを含むように、MLモデルを継続的にトレーニングすることが重要です。 変化するシナリオ(例えば5gベースステーション障害)によって引き起こされるデータ分布の急激な変化は概念ドリフトと呼ばれ、継続的な学習にとって大きな課題である。 MLモデルは、ドリフトが発生しながら高いエラー率を示し、モデルが分布を学習した後のみエラーが減少する。 この問題は、さまざまな異種データセットに複数のMLモデルを使用しており、最終的なモデルはすべてのコンセプトドリフトをキャプチャする必要がある分散環境でより顕著である。 本稿では,federated learning (fl) における注意力の利用が,概念ドリフトを扱う効率的な方法であることを示す。 5gネットワークトラフィックデータセットを使用して,概念ドリフトをシミュレートし,さまざまなシナリオをテストする。 その結果,FLのドリフトハンドリング能力は,注意が著しく向上することが示唆された。

Machine learning (ML) is expected to play a major role in 5G edge computing. Various studies have demonstrated that ML is highly suitable for optimizing edge computing systems as rapid mobility and application-induced changes occur at the edge. For ML to provide the best solutions, it is important to continually train the ML models to include the changing scenarios. The sudden changes in data distributions caused by changing scenarios (e.g., 5G base station failures) is referred to as concept drift and is a major challenge to continual learning. The ML models can present high error rates while the drifts take place and the errors decrease only after the model learns the distributions. This problem is more pronounced in a distributed setting where multiple ML models are being used for different heterogeneous datasets and the final model needs to capture all concept drifts. In this paper, we show that using Attention in Federated Learning (FL) is an efficient way of handling concept drifts. We use a 5G network traffic dataset to simulate concept drift and test various scenarios. The results indicate that Attention can significantly improve the concept drift handling capability of FL.
翻訳日:2021-11-17 05:04:12 公開日:2021-11-14
# (参考訳) 過パラメータクラスタリングによる電力負荷予測のためのフェデレーション学習 [全文訳有]

Federated Learning with Hyperparameter-based Clustering for Electrical Load Forecasting ( http://arxiv.org/abs/2111.07462v1 )

ライセンス: CC BY 4.0
Nastaran Gholizadeh, Petr Musilek(参考訳) 電力負荷予測は電力系統運用の不可欠な部分となっている。 ディープラーニングモデルは、この目的のために人気がある。 しかし、望ましい予測精度を達成するには、トレーニングに大量のデータが必要である。 負荷予測のために家庭ごとの電力消費データを共有することは、ユーザのプライバシーを損なう可能性がある。 そのため,フェデレートラーニングなどのエッジコンピューティング手法が,この目的のためにますます重要になっている。 これらのメソッドは、データを集中的に保存することなく、データを活用することができる。 本稿では,個別住宅負荷と集約負荷の短期予測のためのフェデレーション学習の性能を評価する。 本手法の利点とデメリットを,集中型および局所的な学習手法と比較することにより論じる。 さらに,フェデレート学習の収束時間を削減するために,新たなクライアントクラスタリング手法を提案する。 その結果,フェデレート学習は,各負荷予測における最小ルート平均二乗誤差(RMSE)0.117kWhで良好な性能を示した。

Electrical load prediction has become an integral part of power system operation. Deep learning models have found popularity for this purpose. However, to achieve a desired prediction accuracy, they require huge amounts of data for training. Sharing electricity consumption data of individual households for load prediction may compromise user privacy and can be expensive in terms of communication resources. Therefore, edge computing methods, such as federated learning, are gaining more importance for this purpose. These methods can take advantage of the data without centrally storing it. This paper evaluates the performance of federated learning for short-term forecasting of individual house loads as well as the aggregate load. It discusses the advantages and disadvantages of this method by comparing it to centralized and local learning schemes. Moreover, a new client clustering method is proposed to reduce the convergence time of federated learning. The results show that federated learning has a good performance with a minimum root mean squared error (RMSE) of 0.117kWh for individual load forecasting.
翻訳日:2021-11-17 04:54:45 公開日:2021-11-14
# (参考訳) 架空のVARモデリングによる因果分解

Decoding Causality by Fictitious VAR Modeling ( http://arxiv.org/abs/2111.07465v1 )

ライセンス: CC BY 4.0
Xingwei Hu(参考訳) 予測や政策分析のために多変量時系列をモデル化する場合、データ内の因果関係を理解することは有益である。 しかし回帰分析は一般に相関関係のためであり、因果関係発見の分散分析に焦点を当てた研究はほとんどない。 まず, 仮想ベクトル自己回帰モデルを用いて, 原因効果関係の平衡を設定した。 平衡において、長期の関係はノイズから特定され、突発関係は無視的に0に近い。 因果分布と呼ばれるこの解は、全ての級数または特定の影響を受けるものの動きを引き起こす相対的な強度を測定する。 ある外因性データ群が他に影響を与えるが逆ではない場合、理論的には、他の変数の因果分布は必ず 0 である。 ゼロ因果性の仮説テストは、変数が内在的かどうかを決定する規則である。 我々の新しい手法はシミュレーション研究におけるデータ間の真の因果関係の同定に高い精度を持つ。 また,気候変動に対する因果要因の寄与度を推定する手法を適用した。

In modeling multivariate time series for either forecast or policy analysis, it would be beneficial to have figured out the cause-effect relations within the data. Regression analysis, however, is generally for correlation relation, and very few researches have focused on variance analysis for causality discovery. We first set up an equilibrium for the cause-effect relations using a fictitious vector autoregressive model. In the equilibrium, long-run relations are identified from noise, and spurious ones are negligibly close to zero. The solution, called causality distribution, measures the relative strength causing the movement of all series or specific affected ones. If a group of exogenous data affects the others but not vice versa, then, in theory, the causality distribution for other variables is necessarily zero. The hypothesis test of zero causality is the rule to decide a variable is endogenous or not. Our new approach has high accuracy in identifying the true cause-effect relations among the data in the simulation studies. We also apply the approach to estimating the causal factors' contribution to climate change.
翻訳日:2021-11-17 04:42:35 公開日:2021-11-14
# (参考訳) 大規模コンテキストニューラルネットを用いた12時間雨量予測

Skillful Twelve Hour Precipitation Forecasts using Large Context Neural Networks ( http://arxiv.org/abs/2111.07470v1 )

ライセンス: CC BY 4.0
Lasse Espeholt, Shreya Agrawal, Casper S{\o}nderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Jason Hickey, Aaron Bell, Nal Kalchbrenner(参考訳) 天気予報の問題は、人間の生活、輸送、食料生産、エネルギー管理などに大きな影響を与えるため、何世紀にもわたって科学的に研究されてきた。 現在の運用予測モデルは物理学に基づいており、スーパーコンピュータを使って大気をシミュレートし、予報に数時間と数日を費やす。 物理ベースの予測の改善には、モデル自体の改善が必要であり、これは大きな科学的課題であり、基礎となる分解能の改善であり、計算的に禁止される可能性がある。 ニューラルネットワークに基づく新たなタイプの気象モデルは、天気予報のパラダイムシフトを表している。モデルは、手書きの物理学に頼るのではなく、データから必要な変換を学習し、計算効率が向上する。 しかし、ニューラルモデルでは、より大きな空間コンテキストをキャプチャし、予測の不確実性を高める必要があるため、追加のリード時間毎に大きな課題が生じる。 本研究では,米国大陸で運用されている最新の物理モデルであるhrrrとhrefよりも,最大12時間前の大規模降水予測が可能なニューラルネットワークを提案する。 解釈可能性分析は、モデルが高度な物理学原理をエミュレートすることを学ぶ観察を強化する。 これらの結果は、ニューラルネットワークによる効率的な予測の新しいパラダイムを確立するための重要なステップである。

The problem of forecasting weather has been scientifically studied for centuries due to its high impact on human lives, transportation, food production and energy management, among others. Current operational forecasting models are based on physics and use supercomputers to simulate the atmosphere to make forecasts hours and days in advance. Better physics-based forecasts require improvements in the models themselves, which can be a substantial scientific challenge, as well as improvements in the underlying resolution, which can be computationally prohibitive. An emerging class of weather models based on neural networks represents a paradigm shift in weather forecasting: the models learn the required transformations from data instead of relying on hand-coded physics and are computationally efficient. For neural models, however, each additional hour of lead time poses a substantial challenge as it requires capturing ever larger spatial contexts and increases the uncertainty of the prediction. In this work, we present a neural network that is capable of large-scale precipitation forecasting up to twelve hours ahead and, starting from the same atmospheric state, the model achieves greater skill than the state-of-the-art physics-based models HRRR and HREF that currently operate in the Continental United States. Interpretability analyses reinforce the observation that the model learns to emulate advanced physics principles. These results represent a substantial step towards establishing a new paradigm of efficient forecasting with neural networks.
翻訳日:2021-11-17 04:41:20 公開日:2021-11-14
# 制限ボルツマンマシンを用いた特徴量に基づくロバスト無教師アンサンブル

A Robust Unsupervised Ensemble of Feature-Based Explanations using Restricted Boltzmann Machines ( http://arxiv.org/abs/2111.07379v1 )

ライセンス: Link先を確認
Vadim Borisov, Johannes Meier, Johan van den Heuvel, Hamed Jalali, Gjergji Kasneci(参考訳) ディープニューラルネットワークの結果を理解することは、ディープラーニングアルゴリズムを広く受け入れる上で不可欠なステップである。 多くのアプローチは、ニューラルネットワークの解釈の問題に対処するが、しばしば異なる説明を提供する。 さらに、説明法の異なるハイパーパラメータは、矛盾する解釈につながる可能性がある。 本稿では,Restricted Boltzmann Machines (RBMs) を用いて,様々な説明アルゴリズムの特徴属性を集約し,より信頼性が高く堅牢な深層ニューラルネットワーク解釈を実現する手法を提案する。 実世界のデータセットにおけるいくつかの挑戦的な実験により、提案手法は一般的な特徴帰属法や基本アンサンブル手法よりも優れていることが示された。

Understanding the results of deep neural networks is an essential step towards wider acceptance of deep learning algorithms. Many approaches address the issue of interpreting artificial neural networks, but often provide divergent explanations. Moreover, different hyperparameters of an explanatory method can lead to conflicting interpretations. In this paper, we propose a technique for aggregating the feature attributions of different explanatory algorithms using Restricted Boltzmann Machines (RBMs) to achieve a more reliable and robust interpretation of deep neural networks. Several challenging experiments on real-world datasets show that the proposed RBM method outperforms popular feature attribution methods and basic ensemble techniques.
翻訳日:2021-11-16 17:56:03 公開日:2021-11-14
# 連合学習による6g通信のためのエッジネイティブインテリジェンス--トレンドと課題の調査

Edge-Native Intelligence for 6G Communications Driven by Federated Learning: A Survey of Trends and Challenges ( http://arxiv.org/abs/2111.07392v1 )

ライセンス: Link先を確認
Mohammad Al-Quraan, Lina Mohjazi, Lina Bariah, Anthony Centeno, Ahmed Zoha, Sami Muhaidat, M\'erouane Debbah, and Muhammad Ali Imran(参考訳) 人工知能(AI)によって強化された無線ネットワークにおけるデータ量の増加は、ユビキタスなデータ駆動インテリジェントサービスを提供するための新たな地平を開く。 従来のクラウド中心機械学習(ML)ベースのサービスは、データセットを収集してモデルをトレーニングすることによって実装されている。 しかし、この従来の訓練手法には2つの課題がある。 (i)データ通信の増加による通信とエネルギーコストの増大。 (ii)信頼できない者がこの情報を利用できるようにすることで、データのプライバシーを脅かす。 近年,これらの制約を考慮して,フェデレートラーニング(FL)と呼ばれる新たな技術が出現し,MLを無線ネットワークのエッジに導入している。 FLサーバによって編成されたグローバルモデルを分散的にトレーニングすることで,データサイロのメリットを抽出することができる。 FLは、データプライバシを損なうことなく汎用MLモデルを開発するために、参加するクライアントの分散データセットとコンピューティングリソースの両方を活用する。 本稿では,FLの基本と実現技術に関する総合的な調査を紹介する。 さらに、無線ネットワークにおけるFLの様々な応用を詳述し、その課題と限界を明らかにする。 flの有効性は、第5世代(b5g)および第6世代(6g)通信システムでさらに探究される。 本調査の目的は、このトピックをしっかり理解するための基盤となる主要な無線技術におけるFLアプリケーションの最先端の概要を提供することである。 最後に,今後の研究方向への道筋を示す。

The unprecedented surge of data volume in wireless networks empowered with artificial intelligence (AI) opens up new horizons for providing ubiquitous data-driven intelligent services. Traditional cloud-centric machine learning (ML)-based services are implemented by collecting datasets and training models centrally. However, this conventional training technique encompasses two challenges: (i) high communication and energy cost due to increased data communication, (ii) threatened data privacy by allowing untrusted parties to utilise this information. Recently, in light of these limitations, a new emerging technique, coined as federated learning (FL), arose to bring ML to the edge of wireless networks. FL can extract the benefits of data silos by training a global model in a distributed manner, orchestrated by the FL server. FL exploits both decentralised datasets and computing resources of participating clients to develop a generalised ML model without compromising data privacy. In this article, we introduce a comprehensive survey of the fundamentals and enabling technologies of FL. Moreover, an extensive study is presented detailing various applications of FL in wireless networks and highlighting their challenges and limitations. The efficacy of FL is further explored with emerging prospective beyond fifth generation (B5G) and sixth generation (6G) communication systems. The purpose of this survey is to provide an overview of the state-of-the-art of FL applications in key wireless technologies that will serve as a foundation to establish a firm understanding of the topic. Lastly, we offer a road forward for future research directions.
翻訳日:2021-11-16 17:52:24 公開日:2021-11-14
# 逆学習を用いた認知症検出における音声ポーズの解釈可能性の検討

Towards Interpretability of Speech Pause in Dementia Detection using Adversarial Learning ( http://arxiv.org/abs/2111.07454v1 )

ライセンス: Link先を確認
Youxiang Zhu, Bang Tran, Xiaohui Liang, John A. Batsis, Robert M. Roth(参考訳) 発話停止は認知症検出に有効なバイオマーカーである。 近年の深層学習モデルは、高い精度の認知症検出を実現するために、音声ポーズを利用するが、音声ポーズの解釈可能性、すなわち、音声ポーズの位置と長さが認知症検出の結果に与える影響を活用していない。 本稿では,認知症に敏感なポーズの位置と長さについて,敵対的学習手法を用いて検討する。 具体的には,まず,テストサンプルの音声ポーズに摂動を付加して,検出モデルの信頼性レベルを低下させることにより,対角攻撃アプローチを利用する。 次に, 学習サンプルの摂動が検出モデルに与える影響を評価するために, 逆訓練手法を適用した。 モデル精度,停止状況,停止時間の観点から,解釈可能性について検討する。 いくつかのポーズは、モデルの観点から見た他のポーズよりも認知症に敏感であることがわかった。 敏感なポーズの長さの増加や敏感なポーズの追加はアルツハイマー病のモデル推論につながり、敏感なポーズの長さの減少や敏感なポーズの削除は非adに繋がる。

Speech pause is an effective biomarker in dementia detection. Recent deep learning models have exploited speech pauses to achieve highly accurate dementia detection, but have not exploited the interpretability of speech pauses, i.e., what and how positions and lengths of speech pauses affect the result of dementia detection. In this paper, we will study the positions and lengths of dementia-sensitive pauses using adversarial learning approaches. Specifically, we first utilize an adversarial attack approach by adding the perturbation to the speech pauses of the testing samples, aiming to reduce the confidence levels of the detection model. Then, we apply an adversarial training approach to evaluate the impact of the perturbation in training samples on the detection model. We examine the interpretability from the perspectives of model accuracy, pause context, and pause length. We found that some pauses are more sensitive to dementia than other pauses from the model's perspective, e.g., speech pauses near to the verb "is". Increasing lengths of sensitive pauses or adding sensitive pauses leads the model inference to Alzheimer's Disease, while decreasing the lengths of sensitive pauses or deleting sensitive pauses leads to non-AD.
翻訳日:2021-11-16 17:49:20 公開日:2021-11-14
# 画像処理におけるモーメント変換に基づく圧縮センシング

Moment Transform-Based Compressive Sensing in Image Processing ( http://arxiv.org/abs/2111.07254v1 )

ライセンス: Link先を確認
T. Kalampokas and G.A. Papakostas(参考訳) 過去数十年間、画像は多くの領域において重要な情報源となり、その高品質さがより良い情報を得るために必要となってきた。 重要な問題の1つは、不正確なサンプルおよび/または部分的に測定されたサンプルからの信号の復元である。 この解釈は、信号がスパースである場合、元の信号はいくつかの測定値から得ることができ、シャノンのサンプリング理論のような他のよく使われる理論よりもはるかに少ないことを示唆する、革命的技術である圧縮センシング理論と非常に相関している。 圧縮センシング(cs)理論における最もスパースな解と破損画像からのノイズ除去を達成する強力な要因は基底辞書の選択である。 本稿では, 離散コサイン変換 (DCT) とモーメント変換 (Tchebichef, Krawtchouk) を比較し, 圧縮センシングおよびスパース近似理論に基づくガウス加法的白色雑音の画像分解を実現する。 実験の結果,モーメント変換によって構築された基本辞書は従来のDCTと競合することがわかった。 後者の変換は30.82dBのPSNRが高く、チェビシェフ変換と同じ0.91SSIM値を示す。 さらに、空間性の観点からは、KrawtchoukモーメントはDCTよりも約20~30%スパースな結果をもたらす。

Over the last decades, images have become an important source of information in many domains, thus their high quality has become necessary to acquire better information. One of the important issues that arise is image denoising, which means recovering a signal from inaccurately and/or partially measured samples. This interpretation is highly correlated to the compressive sensing theory, which is a revolutionary technology and implies that if a signal is sparse then the original signal can be obtained from a few measured values, which are much less, than the ones suggested by other used theories like Shannon's sampling theories. A strong factor in Compressive Sensing (CS) theory to achieve the sparsest solution and the noise removal from the corrupted image is the selection of the basis dictionary. In this paper, Discrete Cosine Transform (DCT) and moment transform (Tchebichef, Krawtchouk) are compared in order to achieve image denoising of Gaussian additive white noise based on compressive sensing and sparse approximation theory. The experimental results revealed that the basis dictionaries constructed by the moment transform perform competitively to the traditional DCT. The latter transform shows a higher PSNR of 30.82 dB and the same 0.91 SSIM value as the Tchebichef transform. Moreover, from the sparsity point of view, Krawtchouk moments provide approximately 20-30% more sparse results than DCT.
翻訳日:2021-11-16 17:48:08 公開日:2021-11-14
# 単一ショットにおける深部関節脱臼と高ダイナミックレンジイメージング

Deep Joint Demosaicing and High Dynamic Range Imaging within a Single Shot ( http://arxiv.org/abs/2111.07281v1 )

ライセンス: Link先を確認
Yilun Xu, Ziyang Liu, Xingming Wu, Weihai Chen, Changyun Wen and Zhengguo Li(参考訳) 空間変動露光(SVE)は高ダイナミックレンジイメージング(HDRI)において有望な選択である。 SVEベースのHDRIはシングルショットHDRIと呼ばれ、ゴーストアーティファクトを避けるための効率的なソリューションである。 しかし、SVEで実世界の画像からフル解像度のHDR画像を復元することは、非常に困難である。 a) 露出の異なる画素の3分の1のみが,バイヤーパターンでカメラによって撮影される。 b) 捕獲された画素のいくつかは過剰に露出し、露出しない。 従来の課題では、空間的に変化する畳み込み(SVC)は、様々な露出でバイエル像を処理するように設計されていた。 後者では,過剰および低露光画素からの干渉に対する露光誘導法を提案する。 最後に、2つの新しいコンポーネントを組み込んで、エンドツーエンドのシングルショットHDRIを実現するための共同デモとHDRIディープラーニングフレームワークを形式化する。 実験の結果,提案フレームワークは累積誤差の問題を回避し,関連する最先端手法を上回った。

Spatially varying exposure (SVE) is a promising choice for high-dynamic-range (HDR) imaging (HDRI). The SVE-based HDRI, which is called single-shot HDRI, is an efficient solution to avoid ghosting artifacts. However, it is very challenging to restore a full-resolution HDR image from a real-world image with SVE because: a) only one-third of pixels with varying exposures are captured by camera in a Bayer pattern, b) some of the captured pixels are over- and under-exposed. For the former challenge, a spatially varying convolution (SVC) is designed to process the Bayer images carried with varying exposures. For the latter one, an exposure-guidance method is proposed against the interference from over- and under-exposed pixels. Finally, a joint demosaicing and HDRI deep learning framework is formalized to include the two novel components and to realize an end-to-end single-shot HDRI. Experiments indicate that the proposed end-to-end framework avoids the problem of cumulative errors and surpasses the related state-of-the-art methods.
翻訳日:2021-11-16 17:47:45 公開日:2021-11-14
# 損傷画像情報に対する効率的な商品検索サービスに関する研究

A Study on the Efficient Product Search Service for the Damaged Image Information ( http://arxiv.org/abs/2111.07346v1 )

ライセンス: Link先を確認
Yonghyun Kim(参考訳) 情報通信技術の発展とスマートフォンの普及、特に画像検索がインターネットを通じて可能になった今、電子商取引市場はさまざまな製品の購入サービスを活性化している。 しかし、望ましい製品のイメージが損なわれ、検索エンジンが適切に認識していないことがしばしば発生する。 本研究の目的は,損傷画像に対する画像前処理と画像インパインティングアルゴリズムを用いて,画像復元による製品検索を支援することである。 より正確な画像検索システムを提供することで、ユーザーが欲しいアイテムを簡単に購入できる。 また, カテゴリー別に効率的に情報を表示する利点があり, 登録情報の効率的な販売が可能となる。

With the development of Information and Communication Technologies and the dissemination of smartphones, especially now that image search is possible through the internet, e-commerce markets are more activating purchasing services for a wide variety of products. However, it often happens that the image of the desired product is impaired and that the search engine does not recognize it properly. The idea of this study is to help search for products through image restoration using an image pre-processing and image inpainting algorithm for damaged images. It helps users easily purchase the items they want by providing a more accurate image search system. Besides, the system has the advantage of efficiently showing information by category, so that enables efficient sales of registered information.
翻訳日:2021-11-16 17:46:52 公開日:2021-11-14
# TANDEM:Deep Multi-view Stereo を用いたリアルタイムトラッキングとDense Mapping

TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo ( http://arxiv.org/abs/2111.07418v1 )

ライセンス: Link先を確認
Lukas Koestler, Nan Yang, Niclas Zeller, Daniel Cremers(参考訳) 本稿では,リアルタイムな単分子追跡と高密度マッピングフレームワークTANDEMを提案する。 ポーズ推定のために、タンデムはキーフレームのスライドウィンドウに基づいて測光束調整を行う。 強靭性を高めるために,高密度深度予測から漸進的に構築した大域モデルから描画した深度マップを用いて,高密度直接画像アライメントを行う新しいトラッキングフロントエンドを提案する。 本研究では,3dコストボリュームと適応的ビューアグリゲーションを階層的に構築することにより,キーフレーム間の異なるステレオベースラインのバランスをとることにより,アクティブなキーフレームウィンドウ全体を活用するカスケードビューアグリゲーションmvsnet(cva-mvsnet)を提案する。 最後に、予測された深度マップを、切り離された符号付き距離関数(TSDF)ボクセルグリッドとして表される一貫したグローバルマップに融合する。 実験の結果,TANDEMはカメラトラッキングの点から,従来型および学習型単眼視機能検査(VO)法よりも優れていた。 さらにタンデムは最先端のリアルタイム3d再構成性能を示す。

In this paper, we present TANDEM a real-time monocular tracking and dense mapping framework. For pose estimation, TANDEM performs photometric bundle adjustment based on a sliding window of keyframes. To increase the robustness, we propose a novel tracking front-end that performs dense direct image alignment using depth maps rendered from a global model that is built incrementally from dense depth predictions. To predict the dense depth maps, we propose Cascade View-Aggregation MVSNet (CVA-MVSNet) that utilizes the entire active keyframe window by hierarchically constructing 3D cost volumes with adaptive view aggregation to balance the different stereo baselines between the keyframes. Finally, the predicted depth maps are fused into a consistent global map represented as a truncated signed distance function (TSDF) voxel grid. Our experimental results show that TANDEM outperforms other state-of-the-art traditional and learning-based monocular visual odometry (VO) methods in terms of camera tracking. Moreover, TANDEM shows state-of-the-art real-time 3D reconstruction performance.
翻訳日:2021-11-16 17:46:42 公開日:2021-11-14
# 指紋画像品質推定法の比較検討

A Comparative Study of Fingerprint Image-Quality Estimation Methods ( http://arxiv.org/abs/2111.07432v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez, Javier Ortega-Garcia, Joaquin Gonzalez-Rodriguez, Hartwig Fronthaler, Klaus Kollreider, Josef Bigun(参考訳) 指紋認証のオープンな問題の1つは、画質劣化に対する堅牢性の欠如である。 画質の悪い画像は、突発的で欠落した特徴をもたらし、システム全体の性能を低下させる。 したがって、指紋認識システムは、取得した指紋画像の品質と妥当性を推定することが重要である。 本稿では, 指紋画像品質推定のための既存手法について, 公表された尺度の根拠や, 異なる品質条件下での指紋画像の挙動を示す視覚的な例などについて概説する。 また,指紋画像品質推定アルゴリズムの選定も行った。 実験にはBioSecのマルチモーダルベースラインコーパスを使用し、2回のセッションで取得した200人の指紋画像を3つのセンサーで19200枚を含む。 選択した品質指標の挙動を比較し、ほとんどの場合においてそれらの相関が高いことを示す。 低品質のサンプルが検証性能に及ぼす影響は、広く利用可能なminutiaeベースの指紋照合システムでも研究されている。

One of the open issues in fingerprint verification is the lack of robustness against image-quality degradation. Poor-quality images result in spurious and missing features, thus degrading the performance of the overall system. Therefore, it is important for a fingerprint recognition system to estimate the quality and validity of the captured fingerprint images. In this work, we review existing approaches for fingerprint image-quality estimation, including the rationale behind the published measures and visual examples showing their behavior under different quality conditions. We have also tested a selection of fingerprint image-quality estimation algorithms. For the experiments, we employ the BioSec multimodal baseline corpus, which includes 19200 fingerprint images from 200 individuals acquired in two sessions with three different sensors. The behavior of the selected quality measures is compared, showing high correlation between them in most cases. The effect of low-quality samples in the verification performance is also studied for a widely available minutiae-based fingerprint matching system.
翻訳日:2021-11-16 17:46:21 公開日:2021-11-14
# 予め計算不能な目的関数を持つマルチロボットアプリケーションのための分散プラグnプレイアルゴリズム

A distributed, plug-n-play algorithm for multi-robot applications with a priori non-computable objective functions ( http://arxiv.org/abs/2111.07441v1 )

ライセンス: Link先を確認
Athanasios Ch. Kapoutsis, Savvas A. Chatzichristofis and Elias B. Kosmatopoulos(参考訳) 本稿では,多様なマルチロボット応用に適用可能な分散アルゴリズムを提案する。 このようなマルチロボットアプリケーションでは、ミッションのユーザ定義の目的を、ロボットごとのサブタスクの明示的なガイドラインを使わずに、汎用的な最適化問題とすることができる。 未知の環境、未知のロボット力学、センサの非線形性等により、最適化コスト関数の解析形式は事前に利用できない。 したがって、これらの問題には標準勾配差型アルゴリズムは適用できない。 そこで本研究では,各ロボットのサブコスト関数を慎重に設計するアルゴリズムを提案する。 そこで本研究では,各ロボットのコスト関数の進化を近似し,その決定変数(ロボット動作)を適切に最適化する,認知型適応最適化(cao)アルゴリズムに基づく分散手法を提案する。 後者は、ミッション目標達成に影響を及ぼす問題固有の特徴のみをオンライン学習によって達成することができる。 全体としては、複雑さの低いアルゴリズムは、いかなる操作制約も簡単に組み込むことができ、フォールトトレラントであり、時変コスト関数を適切に取り扱うことができる。 このアプローチの要点は、ブロック座標降下アルゴリズムと同じ収束特性を共有することである。 提案アルゴリズムは,汎用アルゴリズムと問題特定アルゴリズムの両方に対して,複数のシナリオで3つの不均一シミュレーションにより評価される。 ソースコードは \url{https://github.com/a thakapo/a-distribute d-plug-n-play-algori thm-for-multi-robot- applications} で入手できる。

This paper presents a distributed algorithm applicable to a wide range of practical multi-robot applications. In such multi-robot applications, the user-defined objectives of the mission can be cast as a general optimization problem, without explicit guidelines of the subtasks per different robot. Owing to the unknown environment, unknown robot dynamics, sensor nonlinearities, etc., the analytic form of the optimization cost function is not available a priori. Therefore, standard gradient-descent-lik e algorithms are not applicable to these problems. To tackle this, we introduce a new algorithm that carefully designs each robot's subcost function, the optimization of which can accomplish the overall team objective. Upon this transformation, we propose a distributed methodology based on the cognitive-based adaptive optimization (CAO) algorithm, that is able to approximate the evolution of each robot's cost function and to adequately optimize its decision variables (robot actions). The latter can be achieved by online learning only the problem-specific characteristics that affect the accomplishment of mission objectives. The overall, low-complexity algorithm can straightforwardly incorporate any kind of operational constraint, is fault tolerant, and can appropriately tackle time-varying cost functions. A cornerstone of this approach is that it shares the same convergence characteristics as those of block coordinate descent algorithms. The proposed algorithm is evaluated in three heterogeneous simulation set-ups under multiple scenarios, against both general-purpose and problem-specific algorithms. Source code is available at \url{https://github.com/a thakapo/A-distribute d-plug-n-play-algori thm-for-multi-robot- applications}.
翻訳日:2021-11-16 17:43:49 公開日:2021-11-14
# TEA: 一時的な集約によるシーケンスレコメンデーションフレームワーク

TEA: A Sequential Recommendation Framework via Temporally Evolving Aggregations ( http://arxiv.org/abs/2111.07378v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Fengzhu Wu, Sili Zhang, Hao Gu, Yuexing Hao, Yuguang(参考訳) シークエンシャルレコメンデーション(Sequential recommendation)は,特定のタイムスタンプにおいて,ユーザに適したアイテムを選択することを目的としている。 既存のメソッドは通常、markov chainのようなトランジッションベースのメソッドに基づいてユーザーの振る舞いシーケンスをモデル化する。 しかし,これらの手法は,ユーザ間の影響を考慮せずに,ユーザ同士の独立性を暗黙的に仮定する。 実際、この影響は、ユーザの行動が他人の影響を受けやすいため、シーケンスレコメンデーションにおいて重要な役割を果たす。 したがって、時間的に進化し、ユーザとアイテムの不均一なグラフに関係するユーザ行動とユーザ間の影響の両方を集約することが望ましい。 本稿では,動的ユーザアイコン不均質グラフを組み込んで,新しいシーケンシャルレコメンデーションフレームワークを提案する。 その結果、歴史的行動やユーザ間の影響も考慮に入れることができる。 そこで我々はまず,時間的動的不均一グラフとユーザ行動系列の条件付き確率を推定する問題としてシーケンシャルレコメンデーションを定式化する。 その後,条件付き確率場を利用して不均質なグラフとユーザの振る舞いを確率推定に集約し,従属的対象関数を導出する擬似的類似化手法を用いた。 最後に、提案フレームワークのスケーラブルで柔軟な実装を提供する。 3つの実世界のデータセットにおける実験結果は,提案手法の有効性を示すだけでなく,逐次推薦に関する洞察的な発見も提供する。

Sequential recommendation aims to choose the most suitable items for a user at a specific timestamp given historical behaviors. Existing methods usually model the user behavior sequence based on the transition-based methods like Markov Chain. However, these methods also implicitly assume that the users are independent of each other without considering the influence between users. In fact, this influence plays an important role in sequence recommendation since the behavior of a user is easily affected by others. Therefore, it is desirable to aggregate both user behaviors and the influence between users, which are evolved temporally and involved in the heterogeneous graph of users and items. In this paper, we incorporate dynamic user-item heterogeneous graphs to propose a novel sequential recommendation framework. As a result, the historical behaviors as well as the influence between users can be taken into consideration. To achieve this, we firstly formalize sequential recommendation as a problem to estimate conditional probability given temporal dynamic heterogeneous graphs and user behavior sequences. After that, we exploit the conditional random field to aggregate the heterogeneous graphs and user behaviors for probability estimation, and employ the pseudo-likelihood approach to derive a tractable objective function. Finally, we provide scalable and flexible implementations of the proposed framework. Experimental results on three real-world datasets not only demonstrate the effectiveness of our proposed method but also provide some insightful discoveries on sequential recommendation.
翻訳日:2021-11-16 17:40:03 公開日:2021-11-14
# モデル不整合による連合学習におけるセキュアアグリゲーションの解明

Eluding Secure Aggregation in Federated Learning via Model Inconsistency ( http://arxiv.org/abs/2111.07380v1 )

ライセンス: Link先を確認
Dario Pasquini, Danilo Francati and Giuseppe Ateniese(参考訳) フェデレートされた学習により、ユーザーはプライベートトレーニングデータセット上でディープニューラルネットワークをトレーニングできる。 プロトコルの間、データセットは各ユーザのデバイスを離れることはない。 これは、各ユーザが中央サーバに"のみ"モデルの更新を送信し、それを集約して、ディープニューラルネットワークのパラメータを更新することで実現される。 しかしながら、各モデル更新は、ユーザのデータセット(例えば、勾配反転攻撃)に関するセンシティブな情報を運ぶことが示されている。 フェデレートされた学習の最先端の実装は、セキュアなアグリゲーションを活用することによって、これらのモデル更新を保護している。 セキュアアグリゲーションは、サーバがユーザが提供する個々のモデル更新の価値とソースを学ぶのを妨げ、推論とデータ帰属攻撃を防ぐため、ユーザのプライバシを保護する上で重要なものだ。 本研究では,悪意のあるサーバがセキュアなアグリゲーションを容易に回避できることを示す。 セキュアアグリゲーションに参加するユーザ数とは無関係に,個々のプライベートトレーニングデータセットに関する情報を推測可能な2つの攻撃を考案する。 これにより、大規模な実世界のフェデレーション学習アプリケーションにおいて、具体的な脅威となる。 攻撃は汎用的で、特定のセキュアアグリゲーションプロトコルを対象としない。 セキュアアグリゲーションプロトコルが完璧なセキュリティレベルを提供する理想的な機能に置き換えられたとしても、同等に有効です。 私たちの研究は、セキュアアグリゲーションが誤ってフェデレーション学習と組み合わされ、現在の実装は"偽りのセキュリティ感覚"しか提供していないことを示しています。

Federated learning allows a set of users to train a deep neural network over their private training datasets. During the protocol, datasets never leave the devices of the respective users. This is achieved by requiring each user to send "only" model updates to a central server that, in turn, aggregates them to update the parameters of the deep neural network. However, it has been shown that each model update carries sensitive information about the user's dataset (e.g., gradient inversion attacks). The state-of-the-art implementations of federated learning protect these model updates by leveraging secure aggregation: A cryptographic protocol that securely computes the aggregation of the model updates of the users. Secure aggregation is pivotal to protect users' privacy since it hinders the server from learning the value and the source of the individual model updates provided by the users, preventing inference and data attribution attacks. In this work, we show that a malicious server can easily elude secure aggregation as if the latter were not in place. We devise two different attacks capable of inferring information on individual private training datasets, independently of the number of users participating in the secure aggregation. This makes them concrete threats in large-scale, real-world federated learning applications. The attacks are generic and do not target any specific secure aggregation protocol. They are equally effective even if the secure aggregation protocol is replaced by its ideal functionality that provides the perfect level of security. Our work demonstrates that secure aggregation has been incorrectly combined with federated learning and that current implementations offer only a "false sense of security".
翻訳日:2021-11-16 17:39:40 公開日:2021-11-14
# 未知線形安全制約を持つ安全なオンライン凸最適化

Safe Online Convex Optimization with Unknown Linear Safety Constraints ( http://arxiv.org/abs/2111.07430v1 )

ライセンス: Link先を確認
Sapana Chaudhary and Dileep Kalathil(参考訳) 本研究では,各ステップの動作が線形安全制約を満たさなければならないオンライン凸最適化の問題点について検討する。 目標は、(高い確率で)安全制約に違反することなく、後悔を最小限に抑える一連の行動を選択することである。 線形安全性制約を指定するパラメータはアルゴリズムでは未知である。 アルゴリズムは、選択されたアクションに対する制約のノイズの観察のみにアクセスできる。 この問題に対処するアルゴリズムとして, {Safe Online Projected Gradient Descent} (SO-PGD) アルゴリズムを提案する。 安全なベースライン動作が可能であると仮定すると、SO-PGDアルゴリズムは後悔する$O(T^{2/3})を達成できることを示す。 文献には安全制約を伴うオンライン凸最適化(OCO)問題に対する多くのアルゴリズムがあるが、学習・最適化中に制約違反を許容し、累積制約違反の特徴付けに重点を置いている。 私たちの知る限りでは、あらゆる段階において(高い確率で)線形安全性の制約に違反することなく、後悔に対する証明可能な保証をアルゴリズムに提供する最初の研究です。

We study the problem of safe online convex optimization, where the action at each time step must satisfy a set of linear safety constraints. The goal is to select a sequence of actions to minimize the regret without violating the safety constraints at any time step (with high probability). The parameters that specify the linear safety constraints are unknown to the algorithm. The algorithm has access to only the noisy observations of constraints for the chosen actions. We propose an algorithm, called the {Safe Online Projected Gradient Descent} (SO-PGD) algorithm, to address this problem. We show that, under the assumption of the availability of a safe baseline action, the SO-PGD algorithm achieves a regret $O(T^{2/3})$. While there are many algorithms for online convex optimization (OCO) problems with safety constraints available in the literature, they allow constraint violations during learning/optimizatio n, and the focus has been on characterizing the cumulative constraint violations. To the best of our knowledge, ours is the first work that provides an algorithm with provable guarantees on the regret, without violating the linear safety constraints (with high probability) at any time step.
翻訳日:2021-11-16 17:39:14 公開日:2021-11-14
# SDnDTI : 拡散テンソルMRIのための自己教師型深層学習に基づく denoising

SDnDTI: Self-supervised deep learning-based denoising for diffusion tensor MRI ( http://arxiv.org/abs/2111.07220v1 )

ライセンス: Link先を確認
Qiyuan Tian, Ziyu Li, Qiuyun Fan, Jonathan R. Polimeni, Berkin Bilgic, David H. Salat, Susie Y. Huang(参考訳) 拡散強調画像(DWI)のノイズは拡散テンソル磁気共鳴画像(DTI)由来の微細構造パラメータの精度と精度を低下させ、改良された信号対雑音比(SNR)を達成するための長い取得時間をもたらす。 畳み込みニューラルネットワーク(cnns)を用いた深層学習に基づく画像デノイジングは優れた性能を持つが、cnnのトレーニングを監視するために高snrデータが必要である場合が多く、実用性が低下する。 本研究では,DTIデータに付加的な高SNRデータを必要としない自己教師型深層学習手法「SDnDTI」を開発した。 具体的には、多方向dtiデータを、テンソルフィッティングのノイズにロバストな最適な選択された拡散エンコーディング方向に沿って6つのdwiボリュームからなる多くのサブセットに分割し、データの各サブセットをcnnの入力データとして使用する拡散テンソルから取得したすべての方向に沿ってdwiボリュームを合成する。 一方、SDnDTIは、取得したデータをすべてトレーニング対象とする拡散テンソルから高SNRの拡散符号化方向に沿ってDWIボリュームを合成する。 SDnDTIは、深度3次元CNNを用いて合成DWIボリュームの各サブセットからノイズを取り除き、よりクリーンなターゲットDWIボリュームの品質に適合し、さらに高SNRを実現する。 SDnDTIの有効性は、Human Connectome Project(HCP)とLifespan HCP(Aging)の2つのデータセットで実証されている。 SDnDTIの結果は画像のシャープさとテクスチャの細部を保存し、生データから大幅に改善する。 sdndtiの結果は、bm4d、aonlm、mppcaなどの最先端のデノイジングアルゴリズムよりも、教師付き学習に基づくデノイジングの結果に匹敵する。

The noise in diffusion-weighted images (DWIs) decreases the accuracy and precision of diffusion tensor magnetic resonance imaging (DTI) derived microstructural parameters and leads to prolonged acquisition time for achieving improved signal-to-noise ratio (SNR). Deep learning-based image denoising using convolutional neural networks (CNNs) has superior performance but often requires additional high-SNR data for supervising the training of CNNs, which reduces the practical feasibility. We develop a self-supervised deep learning-based method entitled "SDnDTI" for denoising DTI data, which does not require additional high-SNR data for training. Specifically, SDnDTI divides multi-directional DTI data into many subsets, each consisting of six DWI volumes along optimally chosen diffusion-encoding directions that are robust to noise for the tensor fitting, and then synthesizes DWI volumes along all acquired directions from the diffusion tensors fitted using each subset of the data as the input data of CNNs. On the other hand, SDnDTI synthesizes DWI volumes along acquired diffusion-encoding directions with higher SNR from the diffusion tensors fitted using all acquired data as the training target. SDnDTI removes noise from each subset of synthesized DWI volumes using a deep 3-dimensional CNN to match the quality of the cleaner target DWI volumes and achieves even higher SNR by averaging all subsets of denoised data. The denoising efficacy of SDnDTI is demonstrated on two datasets provided by the Human Connectome Project (HCP) and the Lifespan HCP in Aging. The SDnDTI results preserve image sharpness and textural details and substantially improve upon those from the raw data. The results of SDnDTI are comparable to those from supervised learning-based denoising and outperform those from state-of-the-art conventional denoising algorithms including BM4D, AONLM and MPPCA.
翻訳日:2021-11-16 17:32:01 公開日:2021-11-14
# 低分解能領域壁シンプスに基づくディープニューラルネットワークによるエネルギー効率学習

Energy Efficient Learning with Low Resolution Stochastic Domain Wall Synapse Based Deep Neural Networks ( http://arxiv.org/abs/2111.07284v1 )

ライセンス: Link先を確認
Walid A. Misba, Mark Lozano, Damien Querlioz, Jayasimha Atulasimha(参考訳) ドメインウォール(DW)位置の確率変動が大きい超低分解能(少なくとも5状態)シナプスは、浮遊精度のシナプス重みを用いた同様の大きさのディープニューラルネットワーク(DNN)と比較して、エネルギー効率が高く、高い検定精度が得られることを示した。 特に、電圧制御dwデバイスは、微小磁気シミュレーションで厳密にモデル化された確率的挙動を示し、限られた状態しかエンコードできないが、訓練と推論の両方において極めてエネルギー効率が良い。 学習アルゴリズムに適切な修正を適用することで,確率的行動に対処し,低分解能化の効果を緩和し,高いテスト精度を達成することができることを示す。 本研究では,Hubaraらが提案するアルゴリズムの修正に基づいて,in-situおよびex-situのトレーニングアルゴリズムを提案する。 [1] はシナプス重みの量子化とよく機能する。 MNISTデータセット上で,2,3,5状態DWデバイスをシナプスとして,複数の5層DNNをトレーニングする。 その場トレーニングでは、重み勾配を保存・蓄積するために別個の高精度メモリユニットを採用し、それを量子化し、低精度DWデバイスをプログラムする。 さらに,本質的なプログラミングノイズに対処するために,トレーニング中に小型の耐雑音限界を用いる。 元situトレーニングでは、先駆的dnnは、先駆的dwデバイスモデルとノイズ許容マージンに基づいてトレーニングされる。 注目すべきは、in-situ推論では、デバイスをプログラムするためのエネルギー散逸は、トレーニングがMNISTデータセット全体にわたって10時間にわたって実行されることを考えると、推測当たり13 pJである。

We demonstrate that extremely low resolution quantized (nominally 5-state) synapses with large stochastic variations in Domain Wall (DW) position can be both energy efficient and achieve reasonably high testing accuracies compared to Deep Neural Networks (DNNs) of similar sizes using floating precision synaptic weights. Specifically, voltage controlled DW devices demonstrate stochastic behavior as modeled rigorously with micromagnetic simulations and can only encode limited states; however, they can be extremely energy efficient during both training and inference. We show that by implementing suitable modifications to the learning algorithms, we can address the stochastic behavior as well as mitigate the effect of their low-resolution to achieve high testing accuracies. In this study, we propose both in-situ and ex-situ training algorithms, based on modification of the algorithm proposed by Hubara et al. [1] which works well with quantization of synaptic weights. We train several 5-layer DNNs on MNIST dataset using 2-, 3- and 5-state DW device as synapse. For in-situ training, a separate high precision memory unit is adopted to preserve and accumulate the weight gradients, which are then quantized to program the low precision DW devices. Moreover, a sizeable noise tolerance margin is used during the training to address the intrinsic programming noise. For ex-situ training, a precursor DNN is first trained based on the characterized DW device model and a noise tolerance margin, which is similar to the in-situ training. Remarkably, for in-situ inference the energy dissipation to program the devices is only 13 pJ per inference given that the training is performed over the entire MNIST dataset for 10 epochs.
翻訳日:2021-11-16 17:31:23 公開日:2021-11-14
# 足関節運動予測のための運動人工関節の共有モデル学習

Learning a Shared Model for Motorized Prosthetic Joints to Predict Ankle-Joint Motion ( http://arxiv.org/abs/2111.07419v1 )

ライセンス: Link先を確認
Sharmita Dey, Sabri Boughorbel, Arndt F. Schilling(参考訳) アクティブ義足や装具の制御戦略は、センサ入力を使用してユーザの機関車の意図を認識し、所望のロコモーションを生成するための対応する制御コマンドを生成する。 本稿では,歩行,階段上昇,階段降下,斜面上昇,斜面降下などの異なる歩行モードに対して,それらの分類を必要とせずに足首関節運動を予測するための学習に基づく共有モデルを提案する。 膝関節角運動から抽出された特徴は、フィードフォワードニューラルネットワークを用いた共有モデルを用いて足首角度とモーメントを連続的に予測する。 共有モデルは,異なる移動モードの足首の角度やモーメントを,モードを明示的に分類することなく予測するのに適していることを示す。 提案された戦略は、異なるロコモーションモードに適応可能なインテリジェントな義足用のハイレベルコントローラを開発する可能性を示している。

Control strategies for active prostheses or orthoses use sensor inputs to recognize the user's locomotive intention and generate corresponding control commands for producing the desired locomotion. In this paper, we propose a learning-based shared model for predicting ankle-joint motion for different locomotion modes like level-ground walking, stair ascent, stair descent, slope ascent, and slope descent without the need to classify between them. Features extracted from hip and knee joint angular motion are used to continuously predict the ankle angles and moments using a Feed-Forward Neural Network-based shared model. We show that the shared model is adequate for predicting the ankle angles and moments for different locomotion modes without explicitly classifying between the modes. The proposed strategy shows the potential for devising a high-level controller for an intelligent prosthetic ankle that can adapt to different locomotion modes.
翻訳日:2021-11-16 17:30:52 公開日:2021-11-14
# 自己知識蒸留によるロバスト・高精度物体検出

Robust and Accurate Object Detection via Self-Knowledge Distillation ( http://arxiv.org/abs/2111.07239v1 )

ライセンス: Link先を確認
Weipeng Xu, Pengzhi Chu, Renhao Xie, Xiongziyan Xiao, Hongcheng Huang(参考訳) オブジェクト検出は、クリーンデータセット上で有望なパフォーマンスを達成したが、敵のロバスト性とクリーンな精度とのトレードオフを改善する方法はまだ検討されていない。 敵対的なトレーニングは、堅牢性を改善するための主流の方法ですが、ほとんどの作業は、標準的なトレーニングよりも堅牢性を得るために、クリーンな精度を犠牲にします。 本稿では, 自己認識蒸留と対向学習を組み合わせたオブジェクト検出手法の組合せを十分に検討し, 従来の方法よりも優れた性能を実現する新しいファインチューニングパラダイムであるUDFAを提案する。 まず,事前学習済み検出器からの清潔な特徴表現と学生検出器からの敵対的特徴表現との間の自己認識蒸留分枝を構築するために,分離フォア/バックグラウンド機能を用いた。 次に, 自己知識蒸留を新しい角度から探索し, 元の枝を自己教師付き学習枝と新しい自己知識蒸留枝に分離する。 PASCAL-VOC と MS-COCO のベンチマーク実験により,UDFA は対象検出のための標準トレーニングおよび最先端の対向訓練手法を超越できることを示した。 例えば,教師検出装置と比較して,resnet-50を用いたgflv2のアプローチでは,pascal-vocにおける2.2apのクリーン精度向上が図られ,sotaの逆訓練法に比べ,1.5apのクリーン精度向上と0.5apの逆ロバスト性向上が期待できる。 私たちのコードはhttps://github.com/g rispeut/udfaで利用可能です。

Object detection has achieved promising performance on clean datasets, but how to achieve better tradeoff between the adversarial robustness and clean precision is still under-explored. Adversarial training is the mainstream method to improve robustness, but most of the works will sacrifice clean precision to gain robustness than standard training. In this paper, we propose Unified Decoupled Feature Alignment (UDFA), a novel fine-tuning paradigm which achieves better performance than existing methods, by fully exploring the combination between self-knowledge distillation and adversarial training for object detection. We first use decoupled fore/back-ground features to construct self-knowledge distillation branch between clean feature representation from pretrained detector (served as teacher) and adversarial feature representation from student detector. Then we explore the self-knowledge distillation from a new angle by decoupling original branch into a self-supervised learning branch and a new self-knowledge distillation branch. With extensive experiments on the PASCAL-VOC and MS-COCO benchmarks, the evaluation results show that UDFA can surpass the standard training and state-of-the-art adversarial training methods for object detection. For example, compared with teacher detector, our approach on GFLV2 with ResNet-50 improves clean precision by 2.2 AP on PASCAL-VOC; compared with SOTA adversarial training methods, our approach improves clean precision by 1.6 AP, while improving adversarial robustness by 0.5 AP. Our code will be available at https://github.com/g rispeut/udfa.
翻訳日:2021-11-16 16:19:25 公開日:2021-11-14
# 画像インパインティングのための補助損失適応

Auxiliary Loss Adaption for Image Inpainting ( http://arxiv.org/abs/2111.07279v1 )

ライセンス: Link先を確認
Siqi Hui, Sanping Zhou, Xingyu Wan, Jixin Wang, Ye Deng, Yang Wu, Zhenghao Gong, Jinjun Wang(参考訳) 画像の塗装によく用いられる補助的損失は、欠落した領域の事前知識を取り入れることで、より良い復元性能をもたらす。 しかし、不適切に重み付けされた補助損失は、塗装作業からモデルを邪魔し、訓練過程において補助損失の有効性が異なるため、通常、補助損失の可能性を完全に活用するには多くの労力を要する。 さらに、補助損失の設計はドメインの専門知識を必要とする。 そこで本研究では,補助損失適応(adaption)アルゴリズムを導入し,補助損失のパラメータを動的に調整し,一次タスクを支援する。 本アルゴリズムは,いくつかの段階の勾配降下による主損失の増大に寄与する,優れた補助損失の原理に基づいている。 次に, 塗布の補助的損失を2回検討し, パラメータの適応に \ac{ALA} を用いた。 実験の結果, alaは補助損失よりも高い競合性を示すことがわかった。 特に, 既存の塗装法では, 補助損失を ac{ALA} と組み合わせれば, 繊細なネットワーク設計や構造知識を事前に明示的に組み込むことなく, 高い性能を実現することができる。

Auxiliary losses commonly used in image inpainting lead to better reconstruction performance by incorporating prior knowledge of missing regions. However, it usually takes a lot of effort to fully exploit the potential of auxiliary losses, since improperly weighted auxiliary losses would distract the model from the inpainting task, and the effectiveness of an auxiliary loss might vary during the training process. Furthermore, the design of auxiliary losses takes domain expertise. In this work, we introduce the Auxiliary Loss Adaption (Adaption) algorithm to dynamically adjust the parameters of the auxiliary loss, to better assist the primary task. Our algorithm is based on the principle that better auxiliary loss is the one that helps increase the performance of the main loss through several steps of gradient descent. We then examined two commonly used auxiliary losses in inpainting and use \ac{ALA} to adapt their parameters. Experimental results show that ALA induces more competitive inpainting results than fixed auxiliary losses. In particular, simply combining auxiliary loss with \ac{ALA}, existing inpainting methods can achieve increased performances without explicitly incorporating delicate network design or structure knowledge prior.
翻訳日:2021-11-16 16:18:36 公開日:2021-11-14
# HDRパノラマイメージングのためのカラーマッピング機能:重み付きヒストグラム平均化

Color Mapping Functions For HDR Panorama Imaging: Weighted Histogram Averaging ( http://arxiv.org/abs/2111.07283v1 )

ライセンス: Link先を確認
Yilun Xu, Zhengguo Li, Weihai Chen and Changyun Wen(参考訳) 入力画像の最も明るい領域と暗い領域における色歪みや詳細の喪失により、異なる露出で複数の画像を縫合することは困難である。 本稿では,新しいカラーマッピングアルゴリズムを提案し,まず,重み付きヒストグラム平均化(WHA)の概念を導入する。 提案したWHAアルゴリズムは,カラーマッピング関数(CMF)の非減少特性を用いて構築した2つの画像のヒストグラムビン間の対応性を利用する。 WHAアルゴリズムは、異なる露光パノラマ画像の集合を合成するために使用される。 中間パノラマ画像は、最終的に最先端のマルチスケール露光融合(MEF)アルゴリズムで融合され、最終的なパノラマ画像を生成する。 広範な実験により、whaアルゴリズムは関連する最先端カラーマッピング法を大幅に上回っていることが示された。 MEFに基づくハイダイナミックレンジ(HDR)縫合アルゴリズムも,入力画像の最も明るい領域と暗い領域の詳細をよく保存する。 関連資料は、再現可能な研究のためにhttps://github.com/y ilun-xu/WHAで公開されている。

It is challenging to stitch multiple images with different exposures due to possible color distortion and loss of details in the brightest and darkest regions of input images. In this paper, a novel color mapping algorithm is first proposed by introducing a new concept of weighted histogram averaging (WHA). The proposed WHA algorithm leverages the correspondence between the histogram bins of two images which are built up by using the non-decreasing property of the color mapping functions (CMFs). The WHA algorithm is then adopted to synthesize a set of differently exposed panorama images. The intermediate panorama images are finally fused via a state-of-the-art multi-scale exposure fusion (MEF) algorithm to produce the final panorama image. Extensive experiments indicate that the proposed WHA algorithm significantly surpasses the related state-of-the-art color mapping methods. The proposed high dynamic range (HDR) stitching algorithm based on MEF also preserves details in the brightest and darkest regions of the input images well. The related materials will be publicly accessible at https://github.com/y ilun-xu/WHA for reproducible research.
翻訳日:2021-11-16 16:18:15 公開日:2021-11-14
# スパースステアブル・コンボリューション:3次元空間における物体電位の推定と追跡のためのSE(3)-等価特徴の効率的な学習

Sparse Steerable Convolutions: An Efficient Learning of SE(3)-Equivariant Features for Estimation and Tracking of Object Poses in 3D Space ( http://arxiv.org/abs/2111.07383v1 )

ライセンス: Link先を確認
Jiehong Lin, Hongyang Li, Ke Chen, Jiangbo Lu, Kui Jia(参考訳) se(3)同変深層特徴学習の基本成分として、ステアブル畳み込みは3次元意味解析の利点を最近実証している。 しかし、その利点は、密度の高い体積データに対する高価な計算によってもたらされ、本質的に疎い3Dデータの効率的な処理に実用的利用を妨げている。 本稿では,ss-convがスパーステンソルとのステアブル畳み込みを著しく促進し,se(3)-共分散の性質を厳密に保ちながら,スパースステアブル畳み込み(ss-conv)の新たな設計を提案する。 ss-convに基づいて,se(3)-同分散を最大限に活用し,効率的なポーズ改善が可能な機能ステアリングモジュールをキー設計とする,オブジェクトポーズの高精度推定のための一般的なパイプラインを提案する。 本研究は,3次元オブジェクトセマンティック分析の3つの課題について,事例レベルの6Dポーズ推定,カテゴリレベルの6Dポーズとサイズ推定,カテゴリレベルの6Dポーズトラッキングを含む徹底的な実験を行った。 提案したSS-Convに基づくパイプラインは,3つのタスクで評価された指標のほとんどすべてにおいて,既存の手法よりも優れている。 また, アブレーション研究は, ss-convの精度と効率の両面において, 代替畳み込みよりも優れていることを示した。 私たちのコードはhttps://github.com/G orilla-Lab-SCUT/SS-C onv.comで公開されています。

As a basic component of SE(3)-equivariant deep feature learning, steerable convolution has recently demonstrated its advantages for 3D semantic analysis. The advantages are, however, brought by expensive computations on dense, volumetric data, which prevent its practical use for efficient processing of 3D data that are inherently sparse. In this paper, we propose a novel design of Sparse Steerable Convolution (SS-Conv) to address the shortcoming; SS-Conv greatly accelerates steerable convolution with sparse tensors, while strictly preserving the property of SE(3)-equivariance. Based on SS-Conv, we propose a general pipeline for precise estimation of object poses, wherein a key design is a Feature-Steering module that takes the full advantage of SE(3)-equivariance and is able to conduct an efficient pose refinement. To verify our designs, we conduct thorough experiments on three tasks of 3D object semantic analysis, including instance-level 6D pose estimation, category-level 6D pose and size estimation, and category-level 6D pose tracking. Our proposed pipeline based on SS-Conv outperforms existing methods on almost all the metrics evaluated by the three tasks. Ablation studies also show the superiority of our SS-Conv over alternative convolutions in terms of both accuracy and efficiency. Our code is released publicly at https://github.com/G orilla-Lab-SCUT/SS-C onv.
翻訳日:2021-11-16 16:17:57 公開日:2021-11-14
# ディープフェイク検出器の識別性能に及ぼす良性修飾の影響

Impact of Benign Modifications on Discriminative Performance of Deepfake Detectors ( http://arxiv.org/abs/2111.07468v1 )

ライセンス: Link先を確認
Yuhang Lu, Evgeniy Upenik, Touradj Ebrahimi(参考訳) ディープフェイクはエンタテインメントや画像やビデオの偽造といった悪意ある操作といった善意のアプリケーションで人気が高まっている。 主に後者に動機づけられた多くのディープフェイク検出器が近年、そのような内容を特定するために提案されている。 これらの検出器の性能はさらに改善される必要があるが、単純なシナリオで評価されることが多い。 特に、トランスコーディング、デノージング、リサイズ、エンハンスメントなどの良性処理操作の影響は十分に研究されていない。 本稿では,より現実的な状況下でのディープフェイク検出器の性能を評価するための,より厳密で体系的な枠組みを提案する。 それぞれの良性処理アプローチが最先端のディープフェイク検出方法に与える影響を定量的に測定する。 我々のベンチマークでは、人気のあるディープフェイク検出器を用いて、検出器のロバスト性を評価するためのフレームワークを提案し、より効率的なディープフェイク検出器の設計に有用な洞察を提供する。

Deepfakes are becoming increasingly popular in both good faith applications such as in entertainment and maliciously intended manipulations such as in image and video forgery. Primarily motivated by the latter, a large number of deepfake detectors have been proposed recently in order to identify such content. While the performance of such detectors still need further improvements, they are often assessed in simple if not trivial scenarios. In particular, the impact of benign processing operations such as transcoding, denoising, resizing and enhancement are not sufficiently studied. This paper proposes a more rigorous and systematic framework to assess the performance of deepfake detectors in more realistic situations. It quantitatively measures how and to which extent each benign processing approach impacts a state-of-the-art deepfake detection method. By illustrating it in a popular deepfake detector, our benchmark proposes a framework to assess robustness of detectors and provides valuable insights to design more efficient deepfake detectors.
翻訳日:2021-11-16 16:17:31 公開日:2021-11-14
# pr\"uferシーケンスを用いたコード表現学習

Code Representation Learning with Pr\"ufer Sequences ( http://arxiv.org/abs/2111.07263v1 )

ライセンス: Link先を確認
Tenzin Jinpa and Yong Gao(参考訳) コンピュータプログラムのソースコードの効率的かつ効率的なエンコーディングは、自動コード要約やドキュメントなど、コンピュータプログラム理解におけるタスクのシーケンスからシーケンスまでのディープニューラルネットワークモデルの成功に不可欠である。 重要な課題は、コンピュータプログラムの構造/構文情報をキャプチャし、学習モデルのトレーニングを容易にする逐次表現を見つけることである。 本稿では,コンピュータプログラムの抽象構文木(ast)のpr\"uferシーケンスを用いて,構造情報をastに保存する逐次表現スキームを設計することを提案する。 この表現は,学習例の語彙トークンによって伝達される信号が,その構文的役割と重要性に基づいて,自動的に選択的に活用できるディープラーニングモデルの開発を可能にする。 最近提案された他のアプローチとは異なり、ASTの構造情報に関して、我々の表現は簡潔でロスレスである。 コード要約のために設計したシーケンスからシーケンスへの学習モデルを用いて、実世界のベンチマークデータセットに関する実証研究により、我々のpr\"ufer-sequenceベースの表現は確かに非常に効果的で効率的であり、ベースラインモデルとして最近提示されたすべてのディープラーニングモデルよりもかなり優れています。

An effective and efficient encoding of the source code of a computer program is critical to the success of sequence-to-sequence deep neural network models for tasks in computer program comprehension, such as automated code summarization and documentation. A significant challenge is to find a sequential representation that captures the structural/syntactic information in a computer program and facilitates the training of the learning models. In this paper, we propose to use the Pr\"ufer sequence of the Abstract Syntax Tree (AST) of a computer program to design a sequential representation scheme that preserves the structural information in an AST. Our representation makes it possible to develop deep-learning models in which signals carried by lexical tokens in the training examples can be exploited automatically and selectively based on their syntactic role and importance. Unlike other recently-proposed approaches, our representation is concise and lossless in terms of the structural information of the AST. Empirical studies on real-world benchmark datasets, using a sequence-to-sequence learning model we designed for code summarization, show that our Pr\"ufer-sequence-based representation is indeed highly effective and efficient, outperforming significantly all the recently-proposed deep-learning models we used as the baseline models.
翻訳日:2021-11-16 15:19:17 公開日:2021-11-14
# 臨床試験設計におけるリクルート予測のための機械学習アプローチ

A Machine Learning Approach for Recruitment Prediction in Clinical Trial Design ( http://arxiv.org/abs/2111.07407v1 )

ライセンス: Link先を確認
Jingshu Liu, Patricia J Allen, Luke Benz, Daniel Blickstein, Evon Okidi, Xiao Shi(参考訳) 近年,治験における患者採用の最適化が目覚ましい進歩を遂げているが,治験現場選択支援や治験設計段階における適切な登録タイムラインの推定には,患者採用予測の改善が必要である。 本稿では, 数千の歴史的臨床試験から得られたデータを用いて, 臨床試験場において臨床試験期間を通じて, 月間登録患者数を予測する機械学習手法について検討する。 これらの手法は,現在の業界標準で観測される誤差を低減し,さらなる改善の機会を提案する。

Significant advancements have been made in recent years to optimize patient recruitment for clinical trials, however, improved methods for patient recruitment prediction are needed to support trial site selection and to estimate appropriate enrollment timelines in the trial design stage. In this paper, using data from thousands of historical clinical trials, we explore machine learning methods to predict the number of patients enrolled per month at a clinical trial site over the course of a trial's enrollment duration. We show that these methods can reduce the error that is observed with current industry standards and propose opportunities for further improvement.
翻訳日:2021-11-16 14:59:05 公開日:2021-11-14
# ニューラルネットワークを用いた帯域制限面の生成

Generating Band-Limited Adversarial Surfaces Using Neural Networks ( http://arxiv.org/abs/2111.07424v1 )

ライセンス: Link先を確認
Roee Ben Shlomo, Yevgeniy Men, Ido Imanuel(参考訳) 敵対的な例を生成する技術は、ニューラルネットワークの入力信号に付加されるノイズを生成し、それによってネットワークの分類を変更しながら、ノイズを可能な限り厳しく保つ技術である。 被験者は2D政権でよく研究されているが、3D政権では遅れている。すなわち、3Dポイントクラウドやメッシュで動作する分類ネットワークを攻撃し、例えば人々の3Dスキャンのポーズを分類する。 現在、この体制における敵攻撃を記述したほとんどの論文は、最適化の方法によって機能している。 本報告では,攻撃を発生させるニューラルネットワークを提案する。 このネットワークはpointnetのアーキテクチャにいくつかの変更を加えている。 従来の論文では各形状を個別に最適化する必要があり、例えば学習せずに個々の入力に対してスクラッチから攻撃を調整しなければなりませんでしたが、単一のフォワードランで必要な対向例を推論できる統一モデルを作成しようとします。

Generating adversarial examples is the art of creating a noise that is added to an input signal of a classifying neural network, and thus changing the network's classification, while keeping the noise as tenuous as possible. While the subject is well-researched in the 2D regime, it is lagging behind in the 3D regime, i.e. attacking a classifying network that works on 3D point-clouds or meshes and, for example, classifies the pose of people's 3D scans. As of now, the vast majority of papers that describe adversarial attacks in this regime work by methods of optimization. In this technical report we suggest a neural network that generates the attacks. This network utilizes PointNet's architecture with some alterations. While the previous articles on which we based our work on have to optimize each shape separately, i.e. tailor an attack from scratch for each individual input without any learning, we attempt to create a unified model that can deduce the needed adversarial example with a single forward run.
翻訳日:2021-11-16 14:54:57 公開日:2021-11-14
# 3D ConvNet のためのビデオリターゲティングにおける教師なしアクションローカライゼーション

Unsupervised Action Localization Crop in Video Retargeting for 3D ConvNets ( http://arxiv.org/abs/2111.07426v1 )

ライセンス: Link先を確認
Prithwish Jana, Swarnabja Bhaumik and Partha Pratim Mohanta(参考訳) ソーシャルメディアやロボットや監視カメラで撮影したビデオは、さまざまなアスペクト比を持っている。 しかし、3D CNNは、空間次元が元のものよりも小さい正方形のビデオを必要とする。 ランダムまたはセンタークロッピング技術は、ビデオの主題を完全に排除する可能性がある。 そこで本研究では,これを再ターゲット化およびビデオ間合成問題として,教師なしのビデオトリミング手法を提案する。 合成ビデオは1:1アスペクト比を維持し、サイズが小さく、全期間にわたってビデオオブジェクトをターゲットにしている。 まず、均質な動きパターンを有するパッチを識別し、個々のフレームに対するアクションローカライズを行い、単一のサルエントパッチをピンポイントする。 視点ジッタやフレッカリングアーティファクトを避けるため、パッチ間のフレーム間スケールや位置変更は時間とともに徐々に行われる。 この問題は、選択したピボットタイムスタンプを通過する3次元空間のポリベジエフィッティングによって解決され、その形状は相互制御タイムスタンプの影響を受けている。 提案手法の有効性を明らかにするため,UCF-101,HMDB-51,Act ivityNet v1.3の3つのベンチマークデータセット上で,動的トリミングと静的ランダムを比較して映像分類タスクを評価する。 クリップ精度と動画分類のtop-1精度は、ランダムな作物を含む同サイズの入力で3d cnnのパフォーマンスを上回っており、時にはより大きなランダムな作物サイズを超えることもある。

Untrimmed videos on social media or those captured by robots and surveillance cameras are of varied aspect ratios. However, 3D CNNs require a square-shaped video whose spatial dimension is smaller than the original one. Random or center-cropping techniques in use may leave out the video's subject altogether. To address this, we propose an unsupervised video cropping approach by shaping this as a retargeting and video-to-video synthesis problem. The synthesized video maintains 1:1 aspect ratio, smaller in size and is targeted at the video-subject throughout the whole duration. First, action localization on the individual frames is performed by identifying patches with homogeneous motion patterns and a single salient patch is pin-pointed. To avoid viewpoint jitters and flickering artifacts, any inter-frame scale or position changes among the patches is performed gradually over time. This issue is addressed with a poly-Bezier fitting in 3D space that passes through some chosen pivot timestamps and its shape is influenced by in-between control timestamps. To corroborate the effectiveness of the proposed method, we evaluate the video classification task by comparing our dynamic cropping with static random on three benchmark datasets: UCF-101, HMDB-51 and ActivityNet v1.3. The clip accuracy and top-1 accuracy for video classification after our cropping, outperform 3D CNN performances for same-sized inputs with random crop; sometimes even surpassing larger random crop sizes.
翻訳日:2021-11-16 14:54:41 公開日:2021-11-14
# 誤分類コスト問題に対するニューラルネットワークの適応的コスト感学習

Adaptive Cost-Sensitive Learning in Neural Networks for Misclassification Cost Problems ( http://arxiv.org/abs/2111.07382v1 )

ライセンス: Link先を確認
Ohad Volk, Gonen Singer(参考訳) 種々のエラーの結果から得られた誤分類インスタンスのコストを削減しようとする,誤り分類コスト問題に対する適応学習アルゴリズムを設計する。 本アルゴリズム (adaptive cost sensitive learning - adacsl) は、学習中のサンプルのサブグループ間のクラス分布と、予測された確率(すなわち、局所的なトレーニングとテストのクラス分布のミスマッチ)との違いを橋渡しするように、損失関数を適応的に調整する。 本稿では,提案アルゴリズムの理論的性能保証と,提案アルゴリズムで使用されるディープニューラルネットワークが,クラス不均衡分布とクラス不均衡分布を持つ複数のバイナリ分類データセットに対して,他のアプローチと比較して,より良いコスト効果をもたらすことを示す。

We design a new adaptive learning algorithm for misclassification cost problems that attempt to reduce the cost of misclassified instances derived from the consequences of various errors. Our algorithm (adaptive cost sensitive learning - AdaCSL) adaptively adjusts the loss function such that the classifier bridges the difference between the class distributions between subgroups of samples in the training and test data sets with similar predicted probabilities (i.e., local training-test class distribution mismatch). We provide some theoretical performance guarantees on the proposed algorithm and present empirical evidence that a deep neural network used with the proposed AdaCSL algorithm yields better cost results on several binary classification data sets that have class-imbalanced and class-balanced distributions compared to other alternative approaches.
翻訳日:2021-11-16 14:36:54 公開日:2021-11-14
# had-net: グルコースレベル予測のためのハイブリッド注意型拡散ネットワーク

HAD-Net: Hybrid Attention-based Diffusion Network for Glucose Level Forecast ( http://arxiv.org/abs/2111.07455v1 )

ライセンス: Link先を確認
Quentin Blampey and Mehdi Rahim(参考訳) グルコースレベル予測のためのデータ駆動モデルは、正確な予測にもかかわらず、しばしば有意義な洞察を提供しない。 しかし、医学における文脈理解は特に糖尿病管理において重要である。 本稿では,生理学的モデルから知識を深層ニューラルネットワークに抽出するハイブリッドモデルであるHAD-Netを紹介する。 グルコース、インスリン、炭水化物の拡散を、odeの専門家モデルによって制約されたリカレントアテンションネットワークで調整された、生物学的にインスパイアされたディープラーニングアーキテクチャを通してモデル化する。 2型糖尿病患者の血糖値予測にHAD-Netを適用した。 インスリンと炭水化物の拡散を時間とともに測定し、競争力を発揮する。

Data-driven models for glucose level forecast often do not provide meaningful insights despite accurate predictions. Yet, context understanding in medicine is crucial, in particular for diabetes management. In this paper, we introduce HAD-Net: a hybrid model that distills knowledge into a deep neural network from physiological models. It models glucose, insulin and carbohydrates diffusion through a biologically inspired deep learning architecture tailored with a recurrent attention network constrained by ODE expert models. We apply HAD-Net for glucose level forecast of patients with type-2 diabetes. It achieves competitive performances while providing plausible measurements of insulin and carbohydrates diffusion over time.
翻訳日:2021-11-16 14:36:36 公開日:2021-11-14
# 報酬汚染下の確率的バンディットにおける平均ベースベストアーム識別

Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination ( http://arxiv.org/abs/2111.07458v1 )

ライセンス: Link先を確認
Arpan Mukherjee, Ali Tajer, Pin-Yu Chen and Payel Das(参考訳) 本稿では,$\textit{contaminated}$ stochastic multi-arm banditsにおける最適な腕識別の問題について検討する。 この設定では、任意の腕から得られる報酬は、確率 $\varepsilon$ の逆モデルからのサンプルに置き換えられる。 学習者の目標は、最大平均値の腕を特定することである。 報酬の対向的な汚染のため、各腕の平均は部分的に識別できるだけである。 本稿では,サブゲージバンドイットにおける最良アーム識別のためのギャップベースアルゴリズムと逐次除去アルゴリズムの2つのアルゴリズムを提案する。 これらのアルゴリズムは、推定と漸近的に真の平均のずれに対する最適な誤差保証を達成する平均推定を含む。 さらに、これらのアルゴリズムは最適なサンプル複雑性を漸近的に達成する。 特に、ギャップに基づくアルゴリズムでは、サンプルの複雑性は定数まで漸近的に最適であるが、逐次除去に基づくアルゴリズムでは対数係数まで最適である。 最後に,既存のベースラインと比較してアルゴリズムの利得を示す数値実験を行った。

This paper investigates the problem of best arm identification in $\textit{contaminated}$ stochastic multi-arm bandits. In this setting, the rewards obtained from any arm are replaced by samples from an adversarial model with probability $\varepsilon$. A fixed confidence (infinite-horizon) setting is considered, where the goal of the learner is to identify the arm with the largest mean. Owing to the adversarial contamination of the rewards, each arm's mean is only partially identifiable. This paper proposes two algorithms, a gap-based algorithm and one based on the successive elimination, for best arm identification in sub-Gaussian bandits. These algorithms involve mean estimates that achieve the optimal error guarantee on the deviation of the true mean from the estimate asymptotically. Furthermore, these algorithms asymptotically achieve the optimal sample complexity. Specifically, for the gap-based algorithm, the sample complexity is asymptotically optimal up to constant factors, while for the successive elimination-based algorithm, it is optimal up to logarithmic factors. Finally, numerical experiments are provided to illustrate the gains of the algorithms compared to the existing baselines.
翻訳日:2021-11-16 14:36:26 公開日:2021-11-14
# プライバシ保護による影響認識を目指して--2レベルディープラーニングアーキテクチャ

Towards Privacy-Preserving Affect Recognition: A Two-Level Deep Learning Architecture ( http://arxiv.org/abs/2111.07344v1 )

ライセンス: Link先を確認
Jimiama M. Mase, Natalie Leesakul, Fan Yang, Grazziela P. Figueredo, Mercedes Torres Torres(参考訳) イメージとコンピュータビジョンを用いた人間の感情状態の自動理解と認識は、人間とコンピュータとロボットの相互作用を改善する。 しかし、感情的なモデルを訓練するのに使用される人々の身元が、その過程で明らかになるため、プライバシーは大きな問題となっている。 例えば、悪意のある個人は、ユーザーの画像を悪用し、身元を推定することができる。 さらに、画像を用いた感情認識は、人種、性別、年齢などの特定の情報を顔の特徴に基づいて推定できるため、識別バイアスやアルゴリズムバイアスにつながる可能性がある。 ユーザのプライバシーを保護し、そのアイデンティティの誤用を避けるための可能な解決策は、1)画像データベースから匿名化された顔特徴、すなわちアクションユニット(au)を抽出し、画像を捨てて処理とトレーニングにausを使用する、(2)フェデレート学習(fl)、すなわちユーザのローカルマシン(ローカル処理)で生画像を処理し、ローカルに訓練されたモデルを集約(中央処理)するための主処理マシンに送信する、である。 本稿では,AUをレベル1で,FLをレベル2で使用してユーザの身元を保護する2段階のディープラーニングアーキテクチャを提案する。 アーキテクチャは、特徴間の時間的関係を捕捉し、価と覚醒的感情状態を予測するために、繰り返しニューラルネットワークで構成される。 実験では,汎用的なマルチモーダル感情データベースであるrecola上で,再帰ニューラルネットワークのさまざまなバリエーションを用いて,プライバシ保存アーキテクチャの性能を評価する。 この結果から,コンコーダンス相関係数評価指標を用いて,ヴァレンスで0.426$,覚醒で0.401$の最先端性能を示し,精度とプライバシを両立した感情認識モデルの開発可能性を示す。

Automatically understanding and recognising human affective states using images and computer vision can improve human-computer and human-robot interaction. However, privacy has become an issue of great concern, as the identities of people used to train affective models can be exposed in the process. For instance, malicious individuals could exploit images from users and assume their identities. In addition, affect recognition using images can lead to discriminatory and algorithmic bias, as certain information such as race, gender, and age could be assumed based on facial features. Possible solutions to protect the privacy of users and avoid misuse of their identities are to: (1) extract anonymised facial features, namely action units (AU) from a database of images, discard the images and use AUs for processing and training, and (2) federated learning (FL) i.e. process raw images in users' local machines (local processing) and send the locally trained models to the main processing machine for aggregation (central processing). In this paper, we propose a two-level deep learning architecture for affect recognition that uses AUs in level 1 and FL in level 2 to protect users' identities. The architecture consists of recurrent neural networks to capture the temporal relationships amongst the features and predict valence and arousal affective states. In our experiments, we evaluate the performance of our privacy-preserving architecture using different variations of recurrent neural networks on RECOLA, a comprehensive multimodal affective database. Our results show state-of-the-art performance of $0.426$ for valence and $0.401$ for arousal using the Concordance Correlation Coefficient evaluation metric, demonstrating the feasibility of developing models for affect recognition that are both accurate and ensure privacy.
翻訳日:2021-11-16 14:33:32 公開日:2021-11-14
# 線形、または非線形、それは質問です!

Linear, or Non-Linear, That is the Question! ( http://arxiv.org/abs/2111.07265v1 )

ライセンス: Link先を確認
Taeyong Kong, Taeri Kim, Jinsung Jeon, Jeongwhan Choi, Yeon-Chang Lee, Noseong Park, Sang-Wook Kim(参考訳) GCNの非線形埋め込み伝播がGCNベースのレコメンデータシステムに適切かどうかについては激しい議論があった。 近年, 線形埋め込み伝播は非線形埋め込み伝播よりも精度が高いことが判明した。 この現象は特にレコメンダシステムで発見されたため,線形性と非線形性の問題について慎重に分析する必要がある。 この研究において、我々は問題を再考する。 一 直線的又は非線形的伝播のどちらがよいか、及び 二 埋め込み伝播の線形性又は非線形性を決定するユーザ・項目の要因 本稿では,HMLET(Hybrid Method of Linear and non-linEar collaborative filTering method)を提案する。 本設計では,各ユーザまたはアイテムノードを処理する場合,線形および非線形の伝搬ステップがあり,ガティングモジュールはそれらのうちの1つを選択し,線形および非線形gcnに基づく協調フィルタリング(cf)のハイブリッドモデルを生成する。 提案モデルは3つの公開ベンチマークデータセットで最高の精度が得られる。 さらに、ユーザ/イテムは、ゲーティングモジュールの選択によって、FNL(Full-Non-Lineari ty)、PNL(Partial-Non-Line arity)、FL(Full-Linearity)の3つのクラスに分類する。 その結果、ノードの集中性とクラスメンバシップとの間には強い相関関係があること、すなわち、重要なユーザ/テーマノードは伝播ステップにおいて非線形性に対してより好意的であることが判明した。 我々の知る限りでは,ハイブリッド手法を最初に設計し,グラフ中心性とノードの線形性/非線型性の関係を報告する。 すべてのHMLETコードは、https://github.com/q bxlvnf11/HMLETで利用可能である。

There were fierce debates on whether the non-linear embedding propagation of GCNs is appropriate to GCN-based recommender systems. It was recently found that the linear embedding propagation shows better accuracy than the non-linear embedding propagation. Since this phenomenon was discovered especially in recommender systems, it is required that we carefully analyze the linearity and non-linearity issue. In this work, therefore, we revisit the issues of i) which of the linear or non-linear propagation is better and ii) which factors of users/items decide the linearity/non-linear ity of the embedding propagation. We propose a novel Hybrid Method of Linear and non-linEar collaborative filTering method (HMLET, pronounced as Hamlet). In our design, there exist both linear and non-linear propagation steps, when processing each user or item node, and our gating module chooses one of them, which results in a hybrid model of the linear and non-linear GCN-based collaborative filtering (CF). The proposed model yields the best accuracy in three public benchmark datasets. Moreover, we classify users/items into the following three classes depending on our gating modules' selections: Full-Non-Linearity (FNL), Partial-Non-Linearit y (PNL), and Full-Linearity (FL). We found that there exist strong correlations between nodes' centrality and their class membership, i.e., important user/item nodes exhibit more preferences towards the non-linearity during the propagation steps. To our knowledge, we are the first who designs a hybrid method and reports the correlation between the graph centrality and the linearity/non-linear ity of nodes. All HMLET codes and datasets are available at: https://github.com/q bxlvnf11/HMLET.
翻訳日:2021-11-16 14:29:53 公開日:2021-11-14
# クエリベースの潜在空間トラバーサル(qLST)による解釈可能なECG分類

Interpretable ECG classification via a query-based latent space traversal (qLST) ( http://arxiv.org/abs/2111.07386v1 )

ライセンス: Link先を確認
Melle B. Vessies, Sharvaree P. Vadgama, Rutger R. van de Leur, Pieter A. Doevendans, Rutger J. Hassink, Erik Bekkers, Ren\'e van Es(参考訳) 心電図 (ECG) は、心臓の電気活動を測定する効果的な非侵襲的診断ツールである。 様々な異常を検出するためのECG信号の解釈は、専門知識を必要とする課題である。 近年,心電図分類における深層ニューラルネットワークの利用が普及しているが,そのブラックボックスの性質が臨床効果を阻害している。 いくつかのサリエンシーに基づく解釈技術が提案されているが、それらは実際の特徴ではなく重要な特徴の場所を示すだけである。 我々は,任意のecg分類モデルに対して説明可能なクエリベースの潜在空間トラバーサル手法であるqlstと呼ばれる新しい解釈可能性手法を提案する。 qLSTを用いて、28の疾患に対して80,000以上のECGを注釈付けした大病院のデータセットでトレーニングされた変分オートエンコーダの潜時空間での走行を学習するニューラルネットワークを訓練する。 これらのトラバーサルを通してECGを生成することにより、異なるブラックボックス分類器を説明できることを示す。

Electrocardiography (ECG) is an effective and non-invasive diagnostic tool that measures the electrical activity of the heart. Interpretation of ECG signals to detect various abnormalities is a challenging task that requires expertise. Recently, the use of deep neural networks for ECG classification to aid medical practitioners has become popular, but their black box nature hampers clinical implementation. Several saliency-based interpretability techniques have been proposed, but they only indicate the location of important features and not the actual features. We present a novel interpretability technique called qLST, a query-based latent space traversal technique that is able to provide explanations for any ECG classification model. With qLST, we train a neural network that learns to traverse in the latent space of a variational autoencoder trained on a large university hospital dataset with over 800,000 ECGs annotated for 28 diseases. We demonstrate through experiments that we can explain different black box classifiers by generating ECGs through these traversals.
翻訳日:2021-11-16 14:29:23 公開日:2021-11-14
# Explicit Explore, Exploit, or Escape(E^4$):多項式時間における準最適安全制約強化学習

Explicit Explore, Exploit, or Escape ($E^4$): near-optimal safety-constrained reinforcement learning in polynomial time ( http://arxiv.org/abs/2111.07395v1 )

ライセンス: Link先を確認
David M. Bossens and Nicholas Bishop(参考訳) 強化学習(RL)では、エージェントは望ましい振る舞いを学ぶために、当初未知の環境を探さなければならない。 RLエージェントが実環境にデプロイされる場合、安全性が主な関心事である。 制約付きマルコフ決定プロセス(cmdps)は長期的な安全性の制約を提供するが、エージェントはその環境を探索するために制約に違反する可能性がある。 本稿では,explore explore, exploit, あるいは escape(e^{4}$)と呼ばれるモデルベースのrlアルゴリズムを提案し,explore, exploit(e^{3}$)アルゴリズムを堅牢なcmdp設定に拡張する。 E^4$は、CMDPを明示的に分離し、既知の州間の政策改善、未知の州の発見、および既知の州への安全な復帰を目標とする政策を可能にする。 E^4$は、配置環境の実証的な観察と整合した一連のCMDPモデルから、最悪のCMDP上のこれらのポリシーを強く最適化する。 E^4$は, 学習過程を通じて安全性の制約を満たすとともに, 多項式時間内にほぼ最適な制約満足ポリシーを求める。 本稿では、ロバスト制約付きオフライン最適化アルゴリズムと、経験的推論と事前知識に基づいて未知状態の遷移力学に不確実性を組み込む方法について論じる。

In reinforcement learning (RL), an agent must explore an initially unknown environment in order to learn a desired behaviour. When RL agents are deployed in real world environments, safety is of primary concern. Constrained Markov decision processes (CMDPs) can provide long-term safety constraints; however, the agent may violate the constraints in an effort to explore its environment. This paper proposes a model-based RL algorithm called Explicit Explore, Exploit, or Escape ($E^{4}$), which extends the Explicit Explore or Exploit ($E^{3}$) algorithm to a robust CMDP setting. $E^4$ explicitly separates exploitation, exploration, and escape CMDPs, allowing targeted policies for policy improvement across known states, discovery of unknown states, as well as safe return to known states. $E^4$ robustly optimises these policies on the worst-case CMDP from a set of CMDP models consistent with the empirical observations of the deployment environment. Theoretical results show that $E^4$ finds a near-optimal constraint-satisfyin g policy in polynomial time whilst satisfying safety constraints throughout the learning process. We discuss robust-constrained offline optimisation algorithms as well as how to incorporate uncertainty in transition dynamics of unknown states based on empirical inference and prior knowledge.
翻訳日:2021-11-16 14:29:08 公開日:2021-11-14
# 深層移動と表現学習による複合活動分類の改善

Improving Compound Activity Classification via Deep Transfer and Representation Learning ( http://arxiv.org/abs/2111.07439v1 )

ライセンス: Link先を確認
Vishal Dey, Raghu Machiraju and Xia Ning(参考訳) 分子機械学習の最近の進歩、特にグラフニューラルネットワーク(GNN)のような深層ニューラルネットワークによる構造活性関係(SAR)の予測は、コンピュータ支援薬物発見において大きな可能性を示している。 しかし、そのような深層ニューラルネットワークの適用性は、大量のトレーニングデータの要求によって制限される。 対象タスクの限られた訓練データに対処するため,SARモデリングのための伝達学習が最近導入され,関連するタスクのデータからの情報を活用するようになった。 本研究では,事前学習などのパラメータに基づく伝達学習とは対照的に,ソースドメインデータを活用し,有用な情報を対象ドメインに転送する,新しい深層移動学習手法TAcとTAc-fcを開発する。 TAcは、あるドメインから別のドメインへうまく一般化できる効果的な分子的特徴を生成し、ターゲットドメインの分類性能を高めることを学ぶ。 さらに、TAc-fcは新規なコンポーネントを組み込むことでTAcを拡張し、機能的および複合的なトランスファービリティを選択的に学習する。 我々は,pubchemのバイオアッセイスクリーニングデータを用いて,各組の活性化合物が不活性化合物よりも互いに類似している120組のバイオアッセイを同定した。 総じて、TAcは平均ROC-AUC 0.801で最高のパフォーマンスを達成し、最高のベースラインであるFCN-dmpna (DT) と比較して83%の目標タスクのROC-AUCを7.102%改善した。 実験の結果,TAcは多数の目標タスクにおいて,すべてのベースラインに対して大幅な改善を達成していることが明らかとなった。 さらに、tac-fcは平均でtac-auc (0.798 vs 0.801) をわずかに下回っているが、他の手法と比較してもpr-aucとf1のタスクで最高の性能を達成している。

Recent advances in molecular machine learning, especially deep neural networks such as Graph Neural Networks (GNNs) for predicting structure activity relationships (SAR) have shown tremendous potential in computer-aided drug discovery. However, the applicability of such deep neural networks are limited by the requirement of large amounts of training data. In order to cope with limited training data for a target task, transfer learning for SAR modeling has been recently adopted to leverage information from data of related tasks. In this work, in contrast to the popular parameter-based transfer learning such as pretraining, we develop novel deep transfer learning methods TAc and TAc-fc to leverage source domain data and transfer useful information to the target domain. TAc learns to generate effective molecular features that can generalize well from one domain to another, and increase the classification performance in the target domain. Additionally, TAc-fc extends TAc by incorporating novel components to selectively learn feature-wise and compound-wise transferability. We used the bioassay screening data from PubChem, and identified 120 pairs of bioassays such that the active compounds in each pair are more similar to each other compared to its inactive compounds. Overall, TAc achieves the best performance with average ROC-AUC of 0.801; it significantly improves ROC-AUC of 83% target tasks with average task-wise performance improvement of 7.102%, compared to the best baseline FCN-dmpna (DT). Our experiments clearly demonstrate that TAc achieves significant improvement over all baselines across a large number of target tasks. Furthermore, although TAc-fc achieves slightly worse ROC-AUC on average compared to TAc (0.798 vs 0.801), TAc-fc still achieves the best performance on more tasks in terms of PR-AUC and F1 compared to other methods.
翻訳日:2021-11-16 14:28:46 公開日:2021-11-14
# ニューラルナイーブベイズモデルを用いた通常のナイーブベイズ分類器の性能改善

Improving usual Naive Bayes classifier performances with Neural Naive Bayes based models ( http://arxiv.org/abs/2111.07307v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) ネイブ・ベイズ(Naive Bayes)は、その単純さと解釈可能性で評価される確率モデルである。 しかし、関連する分類器の通常の形式は2つの大きな問題に直面している。 第一に、観測の法則に注意を払って、複雑な特徴を考慮できない。 さらに、隠れ変数が与えられた観測の条件的独立性も考慮する。 本稿では,ニューラルネットワーク機能を持つニューラルネイブベイズから誘導される分類器のパラメータをモデル化したニューラルネイブベイズについて紹介する。 これにより、最初の問題を修正できる。 また,ニューラルプールマルコフ連鎖モデルを導入し,独立条件を緩和する。 我々はこれらのモデルの利点を実証的に研究し、FastText埋め込みを用いてIMDBデータセット上で通常の分類器の誤り率を4.5に分割する。

Naive Bayes is a popular probabilistic model appreciated for its simplicity and interpretability. However, the usual form of the related classifier suffers from two major problems. First, as caring about the observations' law, it cannot consider complex features. Moreover, it considers the conditional independence of the observations given the hidden variable. This paper introduces the original Neural Naive Bayes, modeling the parameters of the classifier induced from the Naive Bayes with neural network functions. This allows to correct the first problem. We also introduce new Neural Pooled Markov Chain models, alleviating the independence condition. We empirically study the benefits of these models for Sentiment Analysis, dividing the error rate of the usual classifier by 4.5 on the IMDB dataset with the FastText embedding.
翻訳日:2021-11-16 14:04:48 公開日:2021-11-14
# 線形鎖条件付きランダム場と隠れマルコフ連鎖の同値性について

On equivalence between linear-chain conditional random fields and hidden Markov chains ( http://arxiv.org/abs/2111.07376v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) 実践者は60年ほどの間、隠れマルコフ連鎖(HMC)を様々な問題でうまく利用した。 HMCは生成モデルのファミリーに属し、条件付きランダムフィールド(CRF)のような識別モデルと比較されることが多い。 著者は通常、CRF を HMC とは全く異なるものとみなし、CRF は HMC の代替としてしばしば興味深いものとして提示される。 自然言語処理(nlp)のようないくつかの領域では、識別モデルは生成モデルを完全に置き換えている。 しかし、最近の結果から、どちらのモデルもそれほど違いがなく、どちらも同一の処理能力に繋がる可能性があることが示されている。 本稿では, 単純な線形鎖 CRF と基本 HMC を比較する。 それぞれのCRFに対して,同じ後部分布を有するHMCを明示的に構築する。 したがって、HMC と線形鎖 CRF は異なるのではなく、単に異なるパラメトリゼーションモデルである。

Practitioners successfully use hidden Markov chains (HMCs) in different problems for about sixty years. HMCs belong to the family of generative models and they are often compared to discriminative models, like conditional random fields (CRFs). Authors usually consider CRFs as quite different from HMCs, and CRFs are often presented as interesting alternative to HMCs. In some areas, like natural language processing (NLP), discriminative models have completely supplanted generative models. However, some recent results show that both families of models are not so different, and both of them can lead to identical processing power. In this paper we compare the simple linear-chain CRFs to the basic HMCs. We show that HMCs are identical to CRFs in that for each CRF we explicitly construct an HMC having the same posterior distribution. Therefore, HMCs and linear-chain CRFs are not different but just differently parametrized models.
翻訳日:2021-11-16 14:04:36 公開日:2021-11-14
# CDM:定義モデリングのための抽出と生成の組み合わせ

CDM: Combining Extraction and Generation for Definition Modeling ( http://arxiv.org/abs/2111.07267v1 )

ライセンス: Link先を確認
Jie Huang, Hanyin Shao, Kevin Chen-Chuan Chang(参考訳) 定義は項理解に不可欠である。 近年,用語の定義を自動的に抽出・生成することへの関心が高まっている。 しかし、このタスクに対する既存のアプローチは抽出的または抽象的であり、定義はコーパスから抽出されるか、言語生成モデルによって生成される。 本稿では,定義モデリングのための抽出と生成を組み合わせることを提案する。まず,対象用語の自己および相関的定義情報をwebから抽出し,抽出した定義情報を組み込んだ最終定義を生成する。 実験により、我々のフレームワークは、技術的用語の高品質な定義を生成できることを示した。

Definitions are essential for term understanding. Recently, there is an increasing interest in extracting and generating definitions of terms automatically. However, existing approaches for this task are either extractive or abstractive - definitions are either extracted from a corpus or generated by a language generation model. In this paper, we propose to combine extraction and generation for definition modeling: first extract self- and correlative definitional information of target terms from the Web and then generate the final definitions by incorporating the extracted definitional information. Experiments demonstrate our framework can generate high-quality definitions for technical terms and outperform state-of-the-art models for definition modeling significantly.
翻訳日:2021-11-16 13:52:47 公開日:2021-11-14
# deep: ニューラルマシン翻訳のためのエンティティ事前トレーニング

DEEP: DEnoising Entity Pre-training for Neural Machine Translation ( http://arxiv.org/abs/2111.07393v1 )

ライセンス: Link先を確認
Junjie Hu, Hiroaki Hayashi, Kyunghyun Cho, Graham Neubig(参考訳) 機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。 初期の名前付きエンティティ翻訳は、主に翻訳の文文脈を無視し、ドメインや言語のカバレッジに制限がある音素翻訳に焦点を当てていた。 この制限に対処するために,大量のモノリンガルデータと知識ベースを活用するDenoising Entity Pre-training法であるDEEPを提案し,文中の名前付きエンティティ翻訳精度を向上させる。 さらに,エンティティ拡張単言語データと並列データの両方に基づいて,事前学習されたニューラルネットワーク翻訳モデルを微調整し,エンティティ翻訳をさらに改善するマルチタスク学習戦略を検討する。 3つの言語ペアの実験の結果、\method は、英語とロシア語の翻訳において最大 1.3 bleu と 9.2 のエンティティ精度ポイントを持つ強力な自動エンコーディングベースラインよりも大幅に改善されていることが示されている。

It has been shown that machine translation models usually generate poor translations for named entities that are infrequent in the training corpus. Earlier named entity translation methods mainly focus on phonetic transliteration, which ignores the sentence context for translation and is limited in domain and language coverage. To address this limitation, we propose DEEP, a DEnoising Entity Pre-training method that leverages large amounts of monolingual data and a knowledge base to improve named entity translation accuracy within sentences. Besides, we investigate a multi-task learning strategy that finetunes a pre-trained neural machine translation model on both entity-augmented monolingual data and parallel data to further improve entity translation. Experimental results on three language pairs demonstrate that \method results in significant improvements over strong denoising auto-encoding baselines, with a gain of up to 1.3 BLEU and up to 9.2 entity accuracy points for English-Russian translation.
翻訳日:2021-11-16 13:52:39 公開日:2021-11-14
# コントラストクラスタリング:感情・感覚分類のための教師なしバイアス削減に向けて

Contrastive Clustering: Toward Unsupervised Bias Reduction for Emotion and Sentiment Classification ( http://arxiv.org/abs/2111.07448v1 )

ライセンス: Link先を確認
Jared Mowery(参考訳) 背景: ニューラルネットワークの感情と感情分類器が公衆衛生情報学研究に使用される場合、分類器に存在するバイアスは不注意に誤解を招く結果を生み出す可能性がある。 目的:本研究は、新型コロナウイルスのトピックに対するバイアスの影響を評価し、ソーシャルメディアのテキストに適用した場合にバイアスを減らす自動アルゴリズムを示す。 これは公衆衛生情報学の研究が危機時によりタイムリーな結果をもたらすのに役立つ可能性がある。 方法:無監督のコントラストクラスタリングを用いた分類器の脱湿前後に感情分類器と感情分類器を適用した。 コントラストクラスタリング(Contrastive clustering)は、トークンが感情や感情と因果関係を示す程度を近似し、トークンの相対的なサリエンスをトピックと感情や感情と対比する。 結果: コントラストクラスタリングは, F1スコア0.753のトークンの因果関係と相関関係を区別する。 分類器入力からのマスキングバイアスは、分類器全体のf1スコアを0.02(アンガー)および0.033(ネガティブ感情)に減少させるが、バイアスに注釈された文のf1スコアを0.155(アンガー)および0.103(ネガティブ感情)に改善する。 話題を平均すると、デバイアスは怒りの見積もりを14.4%、ネガティブな感情を8.0%減少させる。 結論:コントラストクラスタリングは、新型コロナウイルスのパンデミックに関連するソーシャルメディアテキストに対する感情と感情の分類におけるアルゴリズム的バイアスを減少させる。 公衆衛生情報学の研究は、様々なトピックで流行しているため、バイアスを考慮すべきである。 バイアス低減技術の改善や、公衆衛生情報分析に対するバイアスの悪影響を探るためには、さらなる研究が必要である。

Background: When neural network emotion and sentiment classifiers are used in public health informatics studies, biases present in the classifiers could produce inadvertently misleading results. Objective: This study assesses the impact of bias on COVID-19 topics, and demonstrates an automatic algorithm for reducing bias when applied to COVID-19 social media texts. This could help public health informatics studies produce more timely results during crises, with a reduced risk of misleading results. Methods: Emotion and sentiment classifiers were applied to COVID-19 data before and after debiasing the classifiers using unsupervised contrastive clustering. Contrastive clustering approximates the degree to which tokens exhibit a causal versus correlational relationship with emotion or sentiment, by contrasting the tokens' relative salience to topics versus emotions or sentiments. Results: Contrastive clustering distinguishes correlation from causation for tokens with an F1 score of 0.753. Masking bias prone tokens from the classifier input decreases the classifier's overall F1 score by 0.02 (anger) and 0.033 (negative sentiment), but improves the F1 score for sentences annotated as bias prone by 0.155 (anger) and 0.103 (negative sentiment). Averaging across topics, debiasing reduces anger estimates by 14.4% and negative sentiment estimates by 8.0%. Conclusions: Contrastive clustering reduces algorithmic bias in emotion and sentiment classification for social media text pertaining to the COVID-19 pandemic. Public health informatics studies should account for bias, due to its prevalence across a range of topics. Further research is needed to improve bias reduction techniques and to explore the adverse impact of bias on public health informatics analyses.
翻訳日:2021-11-16 13:52:14 公開日:2021-11-14
# 分解表現と離散表現を用いた無文音声感情変換

Textless Speech Emotion Conversion using Decomposed and Discrete Representations ( http://arxiv.org/abs/2111.07402v1 )

ライセンス: Link先を確認
Felix Kreuk, Adam Polyak, Jade Copet, Eugene Kharitonov, Tu-Anh Nguyen, Morgane Rivi\`ere, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux, Yossi Adi(参考訳) 音声の感情変換は、語彙の内容と話者のアイデンティティを保ちながら、発話の知覚的な感情を変更するタスクである。 本研究では,音声翻訳課題として感情変換の問題を提起した。 音声を,コンテンツ単位,f0,話者,感情からなる,離散的かつ不連続な学習表現に分解する。 まず、コンテンツ単位を対象感情に翻訳し、これらの単位に基づいて韻律的特徴を予測することにより、音声コンテンツを修正する。 最後に、予測された表現をニューラルネットワークボコーダに供給して音声波形を生成する。 このようなパラダイムにより、信号のスペクトルおよびパラメトリック変化を超えて、笑い挿入やあくび除去などの非言語発声をモデル化することができる。 本研究では,提案手法が感情や音質の知覚において,ベースラインよりも優れていることを客観的かつ主観的に示す。 このような複雑なシステムの全ての構成要素を厳密に評価し,提案手法のアーキテクチャ的選択,長所,短所をより強調するために,広範なモデル解析およびアブレーション研究を行った。 サンプルとコードは以下のリンクで公開されている。

Speech emotion conversion is the task of modifying the perceived emotion of a speech utterance while preserving the lexical content and speaker identity. In this study, we cast the problem of emotion conversion as a spoken language translation task. We decompose speech into discrete and disentangled learned representations, consisting of content units, F0, speaker, and emotion. First, we modify the speech content by translating the content units to a target emotion, and then predict the prosodic features based on these units. Finally, the speech waveform is generated by feeding the predicted representations into a neural vocoder. Such a paradigm allows us to go beyond spectral and parametric changes of the signal, and model non-verbal vocalizations, such as laughter insertion, yawning removal, etc. We demonstrate objectively and subjectively that the proposed method is superior to the baselines in terms of perceived emotion and audio quality. We rigorously evaluate all components of such a complex system and conclude with an extensive model analysis and ablation study to better emphasize the architectural choices, strengths and weaknesses of the proposed method. Samples and code will be publicly available under the following link: https://speechbot.gi thub.io/emotion.
翻訳日:2021-11-16 13:36:22 公開日:2021-11-14
# 視覚・言語ナビゲーションのためのカリキュラム学習

Curriculum Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2111.07228v1 )

ライセンス: Link先を確認
Jiwen Zhang, Zhongyu Wei, Jianqing Fan, Jiajie Peng(参考訳) VLN(Vision-and-Langu age Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。 従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性がある。 そこで本研究では,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。 カリキュラム設計の原理を開発し,カリキュラムトレーニングに適したベンチマークRoom-to-Room(R2R)データセットを再配置する。 実験により,本手法はモデル非依存であり,モデルの複雑さを増すことなく,現在のナビゲーションエージェントの性能,汎用性,トレーニング効率を大幅に向上できることを示した。

Vision-and-Language Navigation (VLN) is a task where an agent navigates in an embodied indoor environment under human instructions. Previous works ignore the distribution of sample difficulty and we argue that this potentially degrade their agent performance. To tackle this issue, we propose a novel curriculum-based training paradigm for VLN tasks that can balance human prior knowledge and agent learning progress about training samples. We develop the principle of curriculum design and re-arrange the benchmark Room-to-Room (R2R) dataset to make it suitable for curriculum training. Experiments show that our method is model-agnostic and can significantly improve the performance, the generalizability, and the training efficiency of current state-of-the-art navigation agents without increasing model complexity.
翻訳日:2021-11-16 13:23:38 公開日:2021-11-14
# サプレッサー変数を用いた線形地中データを用いたxaiの精査

Scrutinizing XAI using linear ground-truth data with suppressor variables ( http://arxiv.org/abs/2111.07473v1 )

ライセンス: Link先を確認
Rick Wilming, C\'eline Budding, Klaus-Robert M\"uller, Stefan Haufe(参考訳) 機械学習(ML)は、高い意思決定を伝えるために使われることが多い。 複雑なMLモデル(例えば、ディープニューラルネットワーク)はブラックボックスと見なされることが多いため、内部の動作や予測の方法に光を当てるための豊富な手順が開発され、"説明可能なAI"(XAI)の分野を定義している。 衛生手法は「重要」の指標によって入力特徴をランク付けする。 このような手法は、機能の重要性の正式な定義が欠如しているため、検証が難しい。 予測対象(圧力変数)と統計的に無関係な特徴を強調できるサリエンシ法が存在することが実証されている。 このような振る舞いによる誤解を避けるために,このような関連の存在を必要条件として,特徴量に対する客観的な予備定義として提案する。 我々は、全ての統計依存が十分に定義され線形である基底データセットを慎重に作成し、抑圧変数の問題を研究するためのベンチマークとして機能した。 目的の定義に関して, lrp, dtd, patternnet, patternattribution, lime, anchors, shap, and permutation-based methodsなどの一般的な説明法を評価した。 これらの手法のほとんどは,この設定において重要な特徴と抑制要因を区別できないことを示す。

Machine learning (ML) is increasingly often used to inform high-stakes decisions. As complex ML models (e.g., deep neural networks) are often considered black boxes, a wealth of procedures has been developed to shed light on their inner workings and the ways in which their predictions come about, defining the field of 'explainable AI' (XAI). Saliency methods rank input features according to some measure of 'importance'. Such methods are difficult to validate since a formal definition of feature importance is, thus far, lacking. It has been demonstrated that some saliency methods can highlight features that have no statistical association with the prediction target (suppressor variables). To avoid misinterpretations due to such behavior, we propose the actual presence of such an association as a necessary condition and objective preliminary definition for feature importance. We carefully crafted a ground-truth dataset in which all statistical dependencies are well-defined and linear, serving as a benchmark to study the problem of suppressor variables. We evaluate common explanation methods including LRP, DTD, PatternNet, PatternAttribution, LIME, Anchors, SHAP, and permutation-based methods with respect to our objective definition. We show that most of these methods are unable to distinguish important features from suppressors in this setting.
翻訳日:2021-11-16 13:22:22 公開日:2021-11-14
# HDRシーンのLDR画像のためのハイブリッド飽和復元

Hybrid Saturation Restoration for LDR Images of HDR Scenes ( http://arxiv.org/abs/2111.06038v2 )

ライセンス: Link先を確認
Chaobing Zheng, Zhengguo Li, and Shiqian Wu(参考訳) 低ダイナミックレンジ(LDR)画像には、ハイダイナミックレンジ(HDR)シーンからキャプチャされる影とハイライト領域がある。 LDR画像の飽和領域を復元するには不適切な問題である。 本稿では,LDR画像の飽和領域をモデルベースおよびデータ駆動アプローチの融合により復元する。 このような神経拡張により、2つの合成LDR画像がモデルベースアプローチを介して基礎となるLDR画像から生成される。 1つは、シャドウ領域を復元するための入力画像より明るく、もう1つは、入力画像よりも暗く、高照度領域を復元する。 両方の合成画像は、新しい露出認識飽和回復ネットワーク(EASRN)を介して精製される。 最後に、2つの合成画像と入力画像がHDR合成アルゴリズムまたはマルチスケール露光融合アルゴリズムを介して結合される。 提案アルゴリズムは,任意のスマートフォンやデジタルカメラに組み込み,情報豊富なldr画像を生成することができる。

There are shadow and highlight regions in a low dynamic range (LDR) image which is captured from a high dynamic range (HDR) scene. It is an ill-posed problem to restore the saturated regions of the LDR image. In this paper, the saturated regions of the LDR image are restored by fusing model-based and data-driven approaches. With such a neural augmentation, two synthetic LDR images are first generated from the underlying LDR image via the model-based approach. One is brighter than the input image to restore the shadow regions and the other is darker than the input image to restore the high-light regions. Both synthetic images are then refined via a novel exposedness aware saturation restoration network (EASRN). Finally, the two synthetic images and the input image are combined together via an HDR synthesis algorithm or a multi-scale exposure fusion algorithm. The proposed algorithm can be embedded in any smart phones or digital cameras to produce an information-enriched LDR image.
翻訳日:2021-11-16 11:44:23 公開日:2021-11-14