このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211120となっている論文です。

PDF登録状況(公開日: 20211120)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) データマイニングによる学生のパフォーマンス予測 [全文訳有]

Predicting Student's Performance Through Data Mining ( http://arxiv.org/abs/2112.01247v1 )

ライセンス: CC BY 4.0
Aaditya Bhusal(参考訳) 教育機関の最大の課題の一つは、できるだけ早くかつ正確に生徒の成績を予測することである。 早期の成績分析は,学生の強みと弱みを見出すのに役立ち,試験の成績が向上するのに役立つ。 機械学習を用いることで、学習管理システム(lms)から収集したデータを用いて、生徒のパフォーマンスを予測することができる。 lmssから収集されたデータは、試験の成績が良いか悪いかという学生の行動に関する洞察を提供することができ、その結果、試験の成績が良くない学生の成績が良くなるよう研究し、利用することができる。

Predicting the performance of students early and as accurately as possible is one of the biggest challenges of educational institutions. Analyzing the performance of students early can help in finding the strengths and weakness of students and help the perform better in examinations. Using machine learning the student's performance can be predicted with the help of students' data collected from Learning Management Systems (LMS). The data collected from LMSs can provide insights about student's behavior that will result in good or bad performance in examinations which then can be studied and used in helping students performing poorly in examinations to perform better.
翻訳日:2021-12-06 02:44:43 公開日:2021-11-20
# (参考訳) 電力系統における侵入検出強化のためのドメイン間融合--エビデンス理論とメタヒューリスティックアプローチ [全文訳有]

Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems: An Evidence Theoretic and Meta-Heuristic Approach ( http://arxiv.org/abs/2111.10484v1 )

ライセンス: CC BY 4.0
Abhijeet Sahu and Katherine Davis(参考訳) ICSネットワークの不正な構成や不正なIDSによる偽の警告は、経済的および運用上の重大な損害をもたらす可能性がある。 この問題を解決するために、研究は誤報を減らす深層学習技術を活用することに注力してきた。 しかし欠点は、これらの作業が物理的およびサイバーセンサーが信頼できるものであると暗黙的に仮定することが多いことだ。 CPSのセキュリティに人工知能や機械学習を使用する場合、データの不正な信頼は大きな問題である。 この欠点に対処するために、不確実性に対して適切な意思決定を行う方法が再検討されている。 そして、決定は検出され、不確実性には、MLベースのIDSに使用されるデータが損なわれているかどうかが含まれる。 そこで本研究では,CPS電力系統における誤報を,事前の警告分布の知識を必要とせず,不確実性に対処して低減する手法を提案する。 具体的には,Dempster Shaferの組み合わせルールを利用したエビデンス理論に基づくアプローチを提案する。 教師付き学習分類器から得られる確率スコアを利用する多仮説質量関数モデルが設計されている。 このモデルを用いて、ドメイン間およびドメイン内センサーから複数のエビデンスを融合させる、位置領域ベース融合フレームワークを提案し、異なる組み合わせルールで評価する。 このアプローチは、大規模な合成電力グリッドで中間者攻撃エミュレーションをテストしたサイバー物理電力システムで実証されている。 性能評価には, 信頼性, 信条, 便宜性などの指標を判定関数として検討する。 適合度関数として決定指標を考慮し,特徴選択のための多目的遺伝的アルゴリズムを提案する。

False alerts due to misconfigured/ compromised IDS in ICS networks can lead to severe economic and operational damage. To solve this problem, research has focused on leveraging deep learning techniques that help reduce false alerts. However, a shortcoming is that these works often require or implicitly assume the physical and cyber sensors to be trustworthy. Implicit trust of data is a major problem with using artificial intelligence or machine learning for CPS security, because during critical attack detection time they are more at risk, with greater likelihood and impact, of also being compromised. To address this shortcoming, the problem is reframed on how to make good decisions given uncertainty. Then, the decision is detection, and the uncertainty includes whether the data used for ML-based IDS is compromised. Thus, this work presents an approach for reducing false alerts in CPS power systems by dealing uncertainty without the knowledge of prior distribution of alerts. Specifically, an evidence theoretic based approach leveraging Dempster Shafer combination rules are proposed for reducing false alerts. A multi-hypothesis mass function model is designed that leverages probability scores obtained from various supervised-learning classifiers. Using this model, a location-cum-domain based fusion framework is proposed and evaluated with different combination rules, that fuse multiple evidence from inter-domain and intra-domain sensors. The approach is demonstrated in a cyber-physical power system testbed with Man-In-The-Middle attack emulation in a large-scale synthetic electric grid. For evaluating the performance, plausibility, belief, pignistic, etc. metrics as decision functions are considered. To improve the performance, a multi-objective based genetic algorithm is proposed for feature selection considering the decision metrics as the fitness function.
翻訳日:2021-11-26 06:00:50 公開日:2021-11-20
# (参考訳) ロボット組立におけるコンプライアンスの模倣と指導的学習 [全文訳有]

Imitation and Supervised Learning of Compliance for Robotic Assembly ( http://arxiv.org/abs/2111.10488v1 )

ライセンス: CC BY 4.0
Devesh K. Jha, Diego Romeres, William Yerazunis and Daniel Nikovski(参考訳) 本稿では,産業用ロボットの組立操作のための学習型コンプライアンスコントローラの設計について述べる。 本稿では,教師による実演を通じて名目上の軌跡を提示する「学習から学習」(lfd)の一般設定における解法を提案する。 これは、例えばペグ・イン・ホール(PiH)挿入タスクの穴のような、組み立てに関わる部分の1つの新しい位置に一般化できるスキルの適切な表現を学ぶのに使用できる。 この新たな位置が視覚や他のセンサーシステムによって完全に正確に推定されないことを期待すると、ロボットは、ロボットの手首に装着された力トルク(F/T)センサーまたは他の適切な位置によって測定された力の読み取りに応じて、生成された軌跡を更に修正する必要がある。 組立中の基準軌道を走行する一定の速度を仮定し,ロボットが異なる接触形態を安全に探索できる新しい収容力制御器を提案する。 この制御器を用いて収集したデータはガウス過程モデルを訓練し、ターゲットホールに対するペグの位置のずれを予測する。 提案手法は,PiHタスクにおける組立部品間の不整合に起因する様々な接触構成を補正し,挿入時に高い成功率が得られることを示す。 本手法は,産業用マニピュレータアームを用いて,訓練された機械学習モデルからの力フィードバックを用いて適応的な挿入を行うことができることを示す。

We present the design of a learning-based compliance controller for assembly operations for industrial robots. We propose a solution within the general setting of learning from demonstration (LfD), where a nominal trajectory is provided through demonstration by an expert teacher. This can be used to learn a suitable representation of the skill that can be generalized to novel positions of one of the parts involved in the assembly, for example the hole in a peg-in-hole (PiH) insertion task. Under the expectation that this novel position might not be entirely accurately estimated by a vision or other sensing system, the robot will need to further modify the generated trajectory in response to force readings measured by means of a force-torque (F/T) sensor mounted at the wrist of the robot or another suitable location. Under the assumption of constant velocity of traversing the reference trajectory during assembly, we propose a novel accommodation force controller that allows the robot to safely explore different contact configurations. The data collected using this controller is used to train a Gaussian process model to predict the misalignment in the position of the peg with respect to the target hole. We show that the proposed learning-based approach can correct various contact configurations caused by misalignment between the assembled parts in a PiH task, achieving high success rate during insertion. We show results using an industrial manipulator arm, and demonstrate that the proposed method can perform adaptive insertion using force feedback from the trained machine learning models.
翻訳日:2021-11-26 05:40:13 公開日:2021-11-20
# (参考訳) ニューラルネットワークサロゲートを含むモデリング設計と制御問題 [全文訳有]

Modeling Design and Control Problems Involving Neural Network Surrogates ( http://arxiv.org/abs/2111.10489v1 )

ライセンス: CC BY 4.0
Dominic Yang, Prasanna Balaprakash, Sven Leyffer(参考訳) ニューラルネットワークで表される代理モデルを含む非線形最適化問題を考察する。 まず、ニューラルネットワーク評価を直接最適化モデルに組み込む方法を示し、収束を防止できるこのアプローチの難しさを強調し、そのようなモデルの定常性を特徴づける。 次に,reluアクティベーションを伴うフィードフォワードニューラルネットワークの特定の場合において,これらの問題に対する2つの代替的定式化を示す:混合整数最適化問題と相補性制約を持つ数学的プログラムである。 後者の定式化について、この問題の点における定常性は埋め込み定式化の定常性に対応することを証明する。 それぞれの定式化は最先端の最適化手法で解き、これらの方法に対して優れた初期実現可能な解を得る方法を示す。 我々は, 燃焼機関の設計と制御, 分類器ネットワークに対する対角攻撃の発生, 油井ネットワークにおける最適流れの決定における3つの実用的応用について, 定式化を比較した。

We consider nonlinear optimization problems that involve surrogate models represented by neural networks. We demonstrate first how to directly embed neural network evaluation into optimization models, highlight a difficulty with this approach that can prevent convergence, and then characterize stationarity of such models. We then present two alternative formulations of these problems in the specific case of feedforward neural networks with ReLU activation: as a mixed-integer optimization problem and as a mathematical program with complementarity constraints. For the latter formulation we prove that stationarity at a point for this problem corresponds to stationarity of the embedded formulation. Each of these formulations may be solved with state-of-the-art optimization methods, and we show how to obtain good initial feasible solutions for these methods. We compare our formulations on three practical applications arising in the design and control of combustion engines, in the generation of adversarial attacks on classifier networks, and in the determination of optimal flows in an oil well network.
翻訳日:2021-11-26 05:26:30 公開日:2021-11-20
# (参考訳) トランスファーラーニングと入力データ Perseverationを併用したリカレントニューラルネットワークを用いたICUにおける高流動鼻腔損傷の予測:振り返り解析 [全文訳有]

Predicting High-Flow Nasal Cannula Failure in an ICU Using a Recurrent Neural Network with Transfer Learning and Input Data Perseveration: A Retrospective Analysis ( http://arxiv.org/abs/2111.11846v1 )

ライセンス: CC BY 4.0
George A. Pappy, Melissa D. Aczon, Randall C. Wetzel, David R. Ledbetter(参考訳) HFNC(High Flow Nasal Cannula)は、他の非侵襲的(NIV)技術よりも容易にそれに耐えられる重篤な小児に非侵襲的呼吸支援を提供する。 HFNCの故障のタイムリーな予測は、呼吸サポートの増加の指標となる。 この研究は、HFNCの故障を予測する機械学習モデルを開発し、比較した。 2010年1月から2020年2月にかけて第3回小児icu入院患者のemrを用いた回顧調査を行った。 長短期記憶(LSTM)モデルは、HFNC故障の継続的な予測を生成するために訓練された。 HFNC開始後, 受信操作曲線 (AUROC) 下において, 様々な時間で性能評価を行った。 また, HFNC開始2時間後の予測の感度, 特異性, 正および負の予測値 (PPV, NPV) も評価した。 これらの指標は、主に呼吸診断を伴うコホートでも計算された。 834 HFNC 試験 (455 トレーニング, 173 検証, 206 テスト) は, 包含基準を満たし, その内175 [103, 30, 42] (21.0%) がNIV あるいは インキュベーションにエスカレーションされた。 トランスファーラーニングで訓練されたLSTMモデルは一般的にLRモデルより優れており、最高のLSTMモデルはAUROCが0.78、LRが0.66、開始から2時間後である。 EMRデータを用いてトレーニングされた機械学習モデルは、開始から24時間以内にHFNCが故障するリスクのある子供を特定することができた。 トランスファーラーニング, 入力データの持続性, エンサンブルを取り入れたLSTMモデルは, LRモデルや標準LSTMモデルよりも優れた性能を示した。

High Flow Nasal Cannula (HFNC) provides non-invasive respiratory support for critically ill children who may tolerate it more readily than other Non-Invasive (NIV) techniques. Timely prediction of HFNC failure can provide an indication for increasing respiratory support. This work developed and compared machine learning models to predict HFNC failure. A retrospective study was conducted using EMR of patients admitted to a tertiary pediatric ICU from January 2010 to February 2020. A Long Short-Term Memory (LSTM) model was trained to generate a continuous prediction of HFNC failure. Performance was assessed using the area under the receiver operating curve (AUROC) at various times following HFNC initiation. The sensitivity, specificity, positive and negative predictive values (PPV, NPV) of predictions at two hours after HFNC initiation were also evaluated. These metrics were also computed in a cohort with primarily respiratory diagnoses. 834 HFNC trials [455 training, 173 validation, 206 test] met the inclusion criteria, of which 175 [103, 30, 42] (21.0%) escalated to NIV or intubation. The LSTM models trained with transfer learning generally performed better than the LR models, with the best LSTM model achieving an AUROC of 0.78, vs 0.66 for the LR, two hours after initiation. Machine learning models trained using EMR data were able to identify children at risk for failing HFNC within 24 hours of initiation. LSTM models that incorporated transfer learning, input data perseveration and ensembling showed improved performance than the LR and standard LSTM models.
翻訳日:2021-11-26 04:54:40 公開日:2021-11-20
# (参考訳) エンティティ解決のためのデータ駆動監督とヒューマン・イン・ザ・ループフィードバックの組み合わせ [全文訳有]

Combining Data-driven Supervision with Human-in-the-loop Feedback for Entity Resolution ( http://arxiv.org/abs/2111.10497v1 )

ライセンス: CC BY 4.0
Wenpeng Yin, Shelby Heinecke, Jia Li, Nitish Shirish Keskar, Michael Jones, Shouzhong Shi, Stanislav Georgiev, Kurt Milich, Joseph Esposito, Caiming Xiong(参考訳) トレーニングデータセットとプロダクションで遭遇したデータとの分散ギャップはよく認識されている。 トレーニングデータセットは、ラベル付けされたデータを注意深くキュレートすることで、一定期間にわたって構築されることが多い。 したがって、トレーニングデータセットには、実運用環境で遭遇する可能性のあるデータのあらゆるバリエーションが含まれない可能性がある。 エンティティレゾリューションシステム(同じ人を表すデータポイントを識別し統合するモデル)の構築に携わった私たちの最初のモデルは、明確なトレーニングとプロダクションのパフォーマンスギャップを示しました。 このケーススタディでは、トレーニング・プロダクション性能のばらつきを解消するための、人間のループで有効でデータ中心のソリューションについて論じる。 私たちは、データ中心の学習全般に適用できる取り組みで締めくくります。

The distribution gap between training datasets and data encountered in production is well acknowledged. Training datasets are often constructed over a fixed period of time and by carefully curating the data to be labeled. Thus, training datasets may not contain all possible variations of data that could be encountered in real-world production environments. Tasked with building an entity resolution system - a model that identifies and consolidates data points that represent the same person - our first model exhibited a clear training-production performance gap. In this case study, we discuss our human-in-the-loop enabled, data-centric solution to closing the training-production performance divergence. We conclude with takeaways that apply to data-centric learning at large.
翻訳日:2021-11-26 04:43:06 公開日:2021-11-20
# (参考訳) データ処理の課題:WMT'21のためのSRPH-Konvergen AIの機械翻訳システム [全文訳有]

Data Processing Matters: SRPH-Konvergen AI's Machine Translation System for WMT'21 ( http://arxiv.org/abs/2111.10513v1 )

ライセンス: CC BY-SA 4.0
Lintang Sutawika and Jan Christian Blaise Cruz(参考訳) 本稿では,Samsung Research Philippines-Konverge n AIチームのWMT'21 Large Scale Multilingual Translation Task - Small Track 2への参加について述べる。 私たちは、トレーニングやアーキテクチャのトリックなしで、共有タスクに標準のseq2seqトランスフォーマーモデルを提出します。 我々の最終提出モデルはFLORES-101で平均BLEU22.92点、大会の隠れテストセットで平均BLEU22.97点、総合6位となった。 標準的なTransformerのみを使用しても、私たちのモデルはインドネシアで最初にJavaneseにランクインし、データ前処理がエッジモデルアーキテクチャやトレーニングテクニックよりも重要であることを示した。

In this paper, we describe the submission of the joint Samsung Research Philippines-Konverge n AI team for the WMT'21 Large Scale Multilingual Translation Task - Small Track 2. We submit a standard Seq2Seq Transformer model to the shared task without any training or architecture tricks, relying mainly on the strength of our data preprocessing techniques to boost performance. Our final submission model scored 22.92 average BLEU on the FLORES-101 devtest set, and scored 22.97 average BLEU on the contest's hidden test set, ranking us sixth overall. Despite using only a standard Transformer, our model ranked first in Indonesian to Javanese, showing that data preprocessing matters equally, if not more, than cutting edge model architectures and training techniques.
翻訳日:2021-11-26 04:35:22 公開日:2021-11-20
# (参考訳) 階層的依存構造とグラフアテンションネットワークによるソースコード文脈意味論の精密学習 [全文訳有]

Precise Learning of Source Code Contextual Semantics via Hierarchical Dependence Structure and Graph Attention Networks ( http://arxiv.org/abs/2111.11435v1 )

ライセンス: CC BY 4.0
Zhehao Zhao, Bo Yang, Ge Li, Huai Liu, Zhi Jin(参考訳) ディープラーニングは、プログラム分類や欠陥予測など、さまざまなソフトウェアエンジニアリングタスクで広く使用されている。 このテクニックは、機能エンジニアリングに必要なプロセスを排除するが、ソースコードモデルの構築は、それらのタスクのパフォーマンスに大きく影響する。 最近の研究は主に、CFGから抽出されたコンテキスト依存を導入することで、ASTベースのソースコードモデルを補完することに焦点を当てている。 しかしながら、それらすべてが、コンテキスト依存の基盤である基本ブロックの表現にほとんど注意を払っていない。 本稿では,ASTとCFGを統合し,階層的依存関係を組み込んだ新しいソースコードモデルを提案する。 それに基づいて,グラフアテンション機構に依存するニューラルネットワークも設計した。具体的には,十分な情報を提供し,ギャップを埋めるために,基本ブロック,すなわち対応するastの構文構造をソースコードモデルに導入した。 我々はこのモデルを実用的ソフトウェア工学の3つのタスクで評価し,他の最先端手法と比較した。 その結果,モデルの性能は大幅に向上した。 例えば、最高の性能のベースラインと比較して、我々のモデルはパラメータのスケールを50\%削減し、プログラム分類タスクの精度を4\%向上させる。

Deep learning is being used extensively in a variety of software engineering tasks, e.g., program classification and defect prediction. Although the technique eliminates the required process of feature engineering, the construction of source code model significantly affects the performance on those tasks. Most recent works was mainly focused on complementing AST-based source code models by introducing contextual dependencies extracted from CFG. However, all of them pay little attention to the representation of basic blocks, which are the basis of contextual dependencies. In this paper, we integrated AST and CFG and proposed a novel source code model embedded with hierarchical dependencies. Based on that, we also designed a neural network that depends on the graph attention mechanism.Specifical ly, we introduced the syntactic structural of the basic block, i.e., its corresponding AST, in source code model to provide sufficient information and fill the gap. We have evaluated this model on three practical software engineering tasks and compared it with other state-of-the-art methods. The results show that our model can significantly improve the performance. For example, compared to the best performing baseline, our model reduces the scale of parameters by 50\% and achieves 4\% improvement on accuracy on program classification task.
翻訳日:2021-11-26 04:26:11 公開日:2021-11-20
# (参考訳) 安全、説明可能、規制された自動運転を目指して [全文訳有]

Towards safe, explainable, and regulated autonomous driving ( http://arxiv.org/abs/2111.10518v1 )

ライセンス: CC BY 4.0
Shahin Atakishiyev, Mohammad Salameh, Hengshuai Yao, Randy Goebel(参考訳) 近年、強力な人工知能(ai)アプローチ、特に深層学習や強化学習の応用によって実証的な成功が奨励され、現代の道路網における自動運転車の開発と展開への関心が高まっている。 しかし、この技術が広く一般に受け入れられることを防ぐ「自動走行」車による道路事故がいくつかある。 AIがこれらの車両のインテリジェントナビゲーションシステムの背後にある主要な推進力であるため、利害関係者と交通機関の両方が、AI駆動のソフトウェアアーキテクチャを安全、説明可能、規制に準拠させる必要がある。 我々は、自律的な制御、説明可能なAIアーキテクチャ、規制コンプライアンスを統合し、この問題に対処し、この観点からさらにいくつかの概念モデルを提供し、将来の研究方向性の導出を支援するフレームワークを提案する。

There has been growing interest in the development and deployment of autonomous vehicles on modern road networks over the last few years, encouraged by the empirical successes of powerful artificial intelligence approaches (AI), especially in the applications of deep and reinforcement learning. However, there have been several road accidents with ``autonomous'' cars that prevent this technology from being publicly acceptable at a wider level. As AI is the main driving force behind the intelligent navigation systems of such vehicles, both the stakeholders and transportation jurisdictions require their AI-driven software architecture to be safe, explainable, and regulatory compliant. We present a framework that integrates autonomous control, explainable AI architecture, and regulatory compliance to address this issue and further provide several conceptual models from this perspective, to help guide future research directions.
翻訳日:2021-11-26 04:01:42 公開日:2021-11-20
# (参考訳) 動的パターン抽出による非定常時間系列の学習 [全文訳有]

Learning Non-Stationary Time-Series with Dynamic Pattern Extractions ( http://arxiv.org/abs/2111.10559v1 )

ライセンス: CC BY 4.0
Xipei Wang, Haoyu Zhang, Yuanbo Zhang, Meng Wang, Jiarui Song, Tin Lai, Matloob Khushi(参考訳) 情報爆発の時代は、静止と非定常の時系列データを含む膨大な時系列データの蓄積を促した。 最先端のアルゴリズムは、定常時間データを扱うのに十分な性能を達成した。 しかし、固定時系列を扱う従来のアルゴリズムは、forexトレーディングのような非定常時系列には適用されない。 本稿では,非定常時系列系列の予測精度を向上させるモデルについて検討する。 特に,潜在的なモデルを特定し,過去のデータからパターンを認識する効果について検討する。 RNNに基づくrebuttal{the} seq2seqモデルと、動的時間ワープとジグザグピークバレーインジケータによって抽出された注目機構と強化されたセット特徴の組み合わせを提案する。 カスタマイズされた損失関数と評価指標は、予測シーケンスのピークとバレーポイントをより重視するように設計されている。 提案手法は,外国為替取引の意思決定を支援する現実的なシナリオにおいて不可欠であるforexデータセットにおいて,精度の高い4時間将来トレンドを予測できることを示す。 さらに, 各種損失関数, 評価指標, モデル変種, および構成成分がモデル性能に及ぼす影響について評価する。

The era of information explosion had prompted the accumulation of a tremendous amount of time-series data, including stationary and non-stationary time-series data. State-of-the-art algorithms have achieved a decent performance in dealing with stationary temporal data. However, traditional algorithms that tackle stationary time-series do not apply to non-stationary series like Forex trading. This paper investigates applicable models that can improve the accuracy of forecasting future trends of non-stationary time-series sequences. In particular, we focus on identifying potential models and investigate the effects of recognizing patterns from historical data. We propose a combination of \rebuttal{the} seq2seq model based on RNN, along with an attention mechanism and an enriched set features extracted via dynamic time warping and zigzag peak valley indicators. Customized loss functions and evaluating metrics have been designed to focus more on the predicting sequence's peaks and valley points. Our results show that our model can predict 4-hour future trends with high accuracy in the Forex dataset, which is crucial in realistic scenarios to assist foreign exchange trading decision making. We further provide evaluations of the effects of various loss functions, evaluation metrics, model variants, and components on model performance.
翻訳日:2021-11-26 03:53:26 公開日:2021-11-20
# (参考訳) DeepCapをもっと深く見てみよう [全文訳有]

A Deeper Look into DeepCap ( http://arxiv.org/abs/2111.10563v1 )

ライセンス: CC BY 4.0
Marc Habermann, Weipeng Xu, Michael Zollhoefer, Gerard Pons-Moll, Christian Theobalt(参考訳) 人間のパフォーマンスキャプチャは、映画制作やバーチャル/拡張現実における多くの応用において、非常に重要なコンピュータビジョン問題である。 以前の多くのパフォーマンスキャプチャアプローチでは、高価なマルチビューの設定が必要か、フレーム間対応で密集した時空コヒーレント形状を回復しなかった。 本稿では,単眼高密度ヒトパフォーマンスキャプチャのための新しい深層学習手法を提案する。 提案手法は,3次元基底真理アノテーションを用いたトレーニングデータを完全に除去する多視点監視に基づいて,弱教師付きで訓練される。 ネットワークアーキテクチャは、タスクをポーズ推定と非剛性表面変形ステップに切り離す2つの別々のネットワークに基づいている。 広範な質的・定量的評価は,我々のアプローチが品質と堅牢性の観点から,芸術の状態を上回っていることを示している。 この作業はDeepCapの拡張バージョンで、アプリケーションだけでなく、より詳細な説明、比較、結果を提供します。

Human performance capture is a highly important computer vision problem with many applications in movie production and virtual/augmented reality. Many previous performance capture approaches either required expensive multi-view setups or did not recover dense space-time coherent geometry with frame-to-frame correspondences. We propose a novel deep learning approach for monocular dense human performance capture. Our method is trained in a weakly supervised manner based on multi-view supervision completely removing the need for training data with 3D ground truth annotations. The network architecture is based on two separate networks that disentangle the task into a pose estimation and a non-rigid surface deformation step. Extensive qualitative and quantitative evaluations show that our approach outperforms the state of the art in terms of quality and robustness. This work is an extended version of DeepCap where we provide more detailed explanations, comparisons and results as well as applications.
翻訳日:2021-11-26 03:40:41 公開日:2021-11-20
# (参考訳) 車両用可視光通信ノイズ解析とオートエンコーダによるデニュージング [全文訳有]

Vehicular Visible Light Communications Noise Analysis and Autoencoder Based Denoising ( http://arxiv.org/abs/2111.10588v1 )

ライセンス: CC BY 4.0
Bugra Turan, O. Nuri Koc, Emrah Kar and Sinem Coleri(参考訳) 車両間可視光通信(V-VLC)は、発光ダイオード(LED)を利用した車両間通信(V2V)および車両間可視光通信(V2I)のための有望なインテリジェント輸送システム(ITS)技術である。 v-vlcシステムの性能低下の主な要因はノイズである。 従来のrfベースシステムとは異なり、v-vlcシステムは太陽放射、車両からの背景照明、通り、駐車場、トンネル灯など多くのノイズ源を含んでいる。 従来のV-VLCシステムノイズモデリングは、ショットノイズとサーマルノイズという形で付加的な白色ガウスノイズ仮定に基づいている。 本稿では,V-VLCチャネルの時間関連ノイズ成分と白色ノイズ成分について検討するため,データからノイズを識別するための時系列解析手法であるAllan variance (AVAR) に基づくノイズ分析を提案する。 また、Wenerプロセスに基づくV-VLCチャネルノイズ合成手法を提案し、異なるノイズ成分を生成する。 さらに,V-VLC信号ノイズを低減するための畳み込みオートエンコーダ(CAE)に基づく復調方式を提案し,室内および屋外のチャネルに対してそれぞれ0.0442と0.00474の再構成ルート平均二乗誤差(RMSE)を実現する。

Vehicular visible light communications (V-VLC) is a promising intelligent transportation systems (ITS) technology for vehicle-to-vehicle (V2V) and vehicle-to-infrastru cture (V2I) communications with the utilization of light-emitting diodes (LEDs). The main degrading factor for the performance of V-VLC systems is noise. Unlike traditional radio frequency (RF) based systems, V-VLC systems include many noise sources: solar radiation, background lighting from vehicles, streets, parking garages, and tunnel lights. Traditional V-VLC system noise modeling is based on the additive white Gaussian noise assumption in the form of shot and thermal noise. In this paper, to investigate both time-correlated and white noise components of the V-VLC channel, we propose a noise analysis based on Allan variance (AVAR), which provides a time-series analysis method to identify noise from the data. We also propose a generalized Wiener process-based V-VLC channel noise synthesis methodology to generate different noise components. We further propose a convolutional autoencoder(CAE) based denoising scheme to reduce V-VLC signal noise, which achieves reconstruction root mean square error (RMSE) of 0.0442 and 0.0474 for indoor and outdoor channels, respectively.
翻訳日:2021-11-26 03:06:47 公開日:2021-11-20
# 人間ライクな一般化のためのオブジェクトベース因果プログラムの構築

Building Object-based Causal Programs for Human-like Generalization ( http://arxiv.org/abs/2111.12560v1 )

ライセンス: Link先を確認
Bonan Zhao, Christopher G. Lucas, Neil R. Bramley(参考訳) 単一観察に基づく物体の因果力を一般化する新しい課題を提案する(実験)。 1)または少数の(実験) 2)オブジェクトペア間の因果相互作用。 本研究では,タスク設定において人間のような一般化パターンを合成し,因果関数やカテゴリの合成空間を効率的に操作できる計算モデリングフレームワークを提案する。 我々のモデリングフレームワークは,エージェントと受信者の特徴と関係を利用する因果関数生成器と,類似性に基づく一般化の度合いを規定するベイズ非パラメトリック推論プロセスを組み合わせる。 本モデルでは, 参加者, 特に一般化順序効果を再現し, 行動実験で観察される因果的非対称性を再現する, ナイーブ・ベイズ的説明に勝る, 自然な「資源的」変種を有する。 このモデリングフレームワークは実世界の因果一般化のための計算学的に妥当なメカニズムを提供する。

We present a novel task that measures how people generalize objects' causal powers based on observing a single (Experiment 1) or a few (Experiment 2) causal interactions between object pairs. We propose a computational modeling framework that can synthesize human-like generalization patterns in our task setting, and sheds light on how people may navigate the compositional space of possible causal functions and categories efficiently. Our modeling framework combines a causal function generator that makes use of agent and recipient objects' features and relations, and a Bayesian non-parametric inference process to govern the degree of similarity-based generalization. Our model has a natural "resource-rational&qu ot; variant that outperforms a naive Bayesian account in describing participants, in particular reproducing a generalization-order effect and causal asymmetry observed in our behavioral experiments. We argue that this modeling framework provides a computationally plausible mechanism for real world causal generalization.
翻訳日:2021-11-25 16:13:27 公開日:2021-11-20
# (参考訳) AGA-GAN: 顔の幻覚のためのU-Netによる注意誘導型生成対向ネットワーク [全文訳有]

AGA-GAN: Attribute Guided Attention Generative Adversarial Network with U-Net for Face Hallucination ( http://arxiv.org/abs/2111.10591v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Sukalpa Chanda, Umapada Pal(参考訳) 顔の超解像法の性能は、顔の構造と正常な特徴を効果的に回復する能力に依存している。 畳み込みニューラルネットワークと生成的敵ネットワークベースの手法は、顔の幻覚タスクにおいて印象的なパフォーマンスを提供するが、低解像度画像に関連する属性を使用してパフォーマンスを改善する能力は不十分である。 本稿では,新しい属性誘導型注意(aga)モジュールを用いて,画像中の様々な顔特徴に対して生成過程を識別し,焦点を合わせる属性誘導型注意生成支援ネットワークを提案する。 複数のAGAモジュールを積み重ねることで、ハイレベルとローレベルの両方の顔構造の回復が可能になる。 我々は,高解像度画像とそれに対応する顔属性アノテーションの関係を利用した識別特徴を学習するための識別器を設計する。 次に、既存の予測を洗練し、さらに顔の詳細を合成するためのU-Netアーキテクチャの利用について検討する。 AGA-GANとAGA-GAN+U-Netフレームワークは、いくつかの最先端の顔幻覚の最先端の手法よりも優れていることを示す。 また,すべての属性記述子が不明な場合,実際のシナリオでアプリケーションを確立することで,その実現可能性を示す。

The performance of facial super-resolution methods relies on their ability to recover facial structures and salient features effectively. Even though the convolutional neural network and generative adversarial network-based methods deliver impressive performances on face hallucination tasks, the ability to use attributes associated with the low-resolution images to improve performance is unsatisfactory. In this paper, we propose an Attribute Guided Attention Generative Adversarial Network which employs novel attribute guided attention (AGA) modules to identify and focus the generation process on various facial features in the image. Stacking multiple AGA modules enables the recovery of both high and low-level facial structures. We design the discriminator to learn discriminative features exploiting the relationship between the high-resolution image and their corresponding facial attribute annotations. We then explore the use of U-Net based architecture to refine existing predictions and synthesize further facial details. Extensive experiments across several metrics show that our AGA-GAN and AGA-GAN+U-Net framework outperforms several other cutting-edge face hallucination state-of-the-art methods. We also demonstrate the viability of our method when every attribute descriptor is not known and thus, establishing its application in real-world scenarios.
翻訳日:2021-11-25 14:06:38 公開日:2021-11-20
# (参考訳) 最適化問題における品質と計算時間 [全文訳有]

Quality and Computation Time in Optimization Problems ( http://arxiv.org/abs/2111.10595v1 )

ライセンス: CC BY 4.0
Zhicheng He(参考訳) 最適化問題は人工知能において重要である。 最適化アルゴリズムは一般的に、入力を出力にマッピングする誤差を最小限に抑えるために人工知能モデルの性能を調整するために使用される。 最適化アルゴリズムの現在の評価手法は一般に品質の観点から性能を考慮する。 しかし、全てのテストケースの最適化アルゴリズムが品質から等しく評価されるわけではないので、最適化タスクには計算時間も考慮すべきである。 本稿では,最適化問題における最適化アルゴリズムの品質と計算時間について,品質の1対1の評価に代えて検討する。 ベイジアン最適化と進化的アルゴリズム(Bayesian Optimization and Evolution Algorithm)を選択し,ベンチマークテスト関数上で品質と計算時間の観点から評価する。 その結果,boは限られた機能評価において所望の品質を得るのに必要な最適化タスクに適用に適しており,easは十分な機能評価で最適な解を求めることができるタスクの最適を探索するのに適していることがわかった。 本稿では,様々な関数評価を用いた最適化問題に対して適切な最適化アルゴリズムを選択することを推奨する。

Optimization problems are crucial in artificial intelligence. Optimization algorithms are generally used to adjust the performance of artificial intelligence models to minimize the error of mapping inputs to outputs. Current evaluation methods on optimization algorithms generally consider the performance in terms of quality. However, not all optimization algorithms for all test cases are evaluated equal from quality, the computation time should be also considered for optimization tasks. In this paper, we investigate the quality and computation time of optimization algorithms in optimization problems, instead of the one-for-all evaluation of quality. We select the well-known optimization algorithms (Bayesian optimization and evolutionary algorithms) and evaluate them on the benchmark test functions in terms of quality and computation time. The results show that BO is suitable to be applied in the optimization tasks that are needed to obtain desired quality in the limited function evaluations, and the EAs are suitable to search the optimal of the tasks that are allowed to find the optimal solution with enough function evaluations. This paper provides the recommendation to select suitable optimization algorithms for optimization problems with different numbers of function evaluations, which contributes to the efficiency that obtains the desired quality with less computation time for optimization problems.
翻訳日:2021-11-25 13:46:46 公開日:2021-11-20
# (参考訳) 2次元CNN事前学習に基づくベイズニューラルネットワークによる半教師付きインピーダンスインバージョン [全文訳有]

Semi-supervised Impedance Inversion by Bayesian Neural Network Based on 2-d CNN Pre-training ( http://arxiv.org/abs/2111.10596v1 )

ライセンス: CC0 1.0
Muyang Ge, Wenlong Wang and Wangxiangming Zheng(参考訳) 地震インピーダンスインバージョンは、ラベルとしてログを数個しか必要とせず、過度に適合しない半教師付き学習アルゴリズムで実行することができる。 しかし、古典的な半教師付き学習アルゴリズムは通常、予測インピーダンス画像上のアーチファクトにつながる。 本稿では2つの側面から半教師付き学習を改善する。 まず、深層学習構造における1次元畳み込みニューラルネットワーク(cnn)層を2次元cnn層と2次元maxpooling層に置き換えることで、予測精度を向上させる。 第二に、ベイズ推論フレームワークにネットワークを埋め込むことで予測の不確実性を推定することもできる。 サンプリングコストを削減するために、ネットワークの前方伝播中に局所的なパラメータ化トリックが使用される。 Marmousi2モデルとSEAMモデルによるテストは、提案された戦略の実現可能性を検証する。

Seismic impedance inversion can be performed with a semi-supervised learning algorithm, which only needs a few logs as labels and is less likely to get overfitted. However, classical semi-supervised learning algorithm usually leads to artifacts on the predicted impedance image. In this artical, we improve the semi-supervised learning from two aspects. First, by replacing 1-d convolutional neural network (CNN) layers in deep learning structure with 2-d CNN layers and 2-d maxpooling layers, the prediction accuracy is improved. Second, prediction uncertainty can also be estimated by embedding the network into a Bayesian inference framework. Local reparameterization trick is used during forward propagation of the network to reduce sampling cost. Tests with Marmousi2 model and SEAM model validate the feasibility of the proposed strategy.
翻訳日:2021-11-25 12:26:46 公開日:2021-11-20
# (参考訳) デバイスフリージェスチャ認識のための教師なし領域適応 [全文訳有]

Unsupervised Domain Adaptation for Device-free Gesture Recognition ( http://arxiv.org/abs/2111.10602v1 )

ライセンス: CC BY 4.0
Bin-Bin Zhang, Dongheng Zhang, Yadong Li, Yang Hu, and Yan Chen(参考訳) 無線信号を用いたデバイスフリーなジェスチャー認識は,rf信号の全能性,プライバシ保護,広範にわたる範囲性などにより,高い評価を得ている。 しかしながら、特定のドメインから収集したデータによる認識のためにトレーニングされたニューラルネットワークモデルは、新しいドメインに適用される場合、パフォーマンスが著しく低下する。 この課題に対処するために、未ラベルのターゲットドメインデータを効果的に活用することにより、デバイスフリージェスチャー認識のための教師なしドメイン適応フレームワークを提案する。 具体的には、擬似ラベリングと整合性正規化を対象ドメインデータに精巧な設計で適用し、擬似ラベルを生成し、対象ドメインのインスタンス特徴を整合させる。 そして、入力データをランダムに消去し、モデルの堅牢性を高める2つのデータ拡張手法を設計する。 さらに,信頼度制御制約を適用し,自信過剰問題に取り組む。 公共Wi-Fiデータセットと公共ミリ波レーダデータセットについて広範な実験を行った。 実験の結果,提案手法の有効性が示された。

Device free human gesture recognition with Radio Frequency signals has attained acclaim due to the omnipresence, privacy protection, and broad coverage nature of RF signals. However, neural network models trained for recognition with data collected from a specific domain suffer from significant performance degradation when applied to a new domain. To tackle this challenge, we propose an unsupervised domain adaptation framework for device free gesture recognition by making effective use of the unlabeled target domain data. Specifically, we apply pseudo labeling and consistency regularization with elaborated design on target domain data to produce pseudo labels and align instance feature of the target domain. Then, we design two data augmentation methods by randomly erasing the input data to enhance the robustness of the model. Furthermore, we apply a confidence control constraint to tackle the overconfidence problem. We conduct extensive experiments on a public WiFi dataset and a public millimeter wave radar dataset. The experimental results demonstrate the superior effectiveness of the proposed framework.
翻訳日:2021-11-25 12:14:04 公開日:2021-11-20
# (参考訳) テキスト非依存ライタ識別のためのマルチスケール融合・空間的注意・パッチ相互作用手法の活用 [全文訳有]

Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction Techniques for Text-Independent Writer Identification ( http://arxiv.org/abs/2111.10605v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Sukalpa Chanda, Umapada Pal(参考訳) テキスト独立したライター識別は、手書きテキストの作者を決定するために異なる手書きスタイルを区別する難しい問題である。 初期の作家の識別は、作家間の違いを明らかにするために手作りの特徴に頼っていた。 畳み込みニューラルネットワークの出現に伴い、ディープラーニングベースの手法が進化している。 本稿では,著者の筆跡の違いを効果的に把握するために,空間的注意機構,マルチスケール特徴融合,パッチベースCNNの3つの異なる深層学習手法を提案する。 本手法は,手書きテキスト画像が筆跡スタイルに特有の特定の空間領域を有するという仮説に基づいており,マルチスケール機能は個々の筆跡に関して特徴的特徴を広め,パッチベース機能は異なる筆跡から筆跡を識別するための汎用的かつ堅牢な表現を与える。 提案手法は, CVL, Firemaker, CERUG-ENデータセットの3つの公開データセット上で, 単語レベルおよびページレベルライター識別手法の様々な最先端手法よりも優れており, IAMデータセットに匹敵する性能を示している。

Text independent writer identification is a challenging problem that differentiates between different handwriting styles to decide the author of the handwritten text. Earlier writer identification relied on handcrafted features to reveal pieces of differences between writers. Recent work with the advent of convolutional neural network, deep learning-based methods have evolved. In this paper, three different deep learning techniques - spatial attention mechanism, multi-scale feature fusion and patch-based CNN were proposed to effectively capture the difference between each writer's handwriting. Our methods are based on the hypothesis that handwritten text images have specific spatial regions which are more unique to a writer's style, multi-scale features propagate characteristic features with respect to individual writers and patch-based features give more general and robust representations that helps to discriminate handwriting from different writers. The proposed methods outperforms various state-of-the-art methodologies on word-level and page-level writer identification methods on three publicly available datasets - CVL, Firemaker, CERUG-EN datasets and give comparable performance on the IAM dataset.
翻訳日:2021-11-25 11:46:45 公開日:2021-11-20
# (参考訳) 超高速画像認識のためのデータ駆動バイニングを用いた光センサ [全文訳有]

A photosensor employing data-driven binning for ultrafast image recognition ( http://arxiv.org/abs/2111.10612v1 )

ライセンス: CC BY 4.0
Lukas Mennel, Aday J. Molina-Mendoza, Matthias Paur, Dmitry K. Polyushkin, Dohyun Kwak, Miriam Giparakis, Maximilian Beiser, Aaron Maxwell Andrews, Thomas Mueller(参考訳) ピクセルビンニング(Pixel binning)は、光学画像の取得と分光において広く用いられる技術であり、画像センサの隣接検出器要素をより大きなピクセルに結合する。 これにより、処理すべきデータ量とノイズの影響は低減されるが、情報の損失のコストがかかる。 ここでは、センサー要素の大部分を1つのスーパーピクセルに組み合わせ、チップの全面にわたって拡張することで、ビンニングの概念を限界まで押し上げる。 与えられたパターン認識タスクでは、機械学習アルゴリズムを用いてトレーニングデータから最適な形状を決定する。 ナノ秒時間スケールでのMNISTデータセットからの光投影画像の分類を,感度を向上し,分類精度を損なうことなく示す。 我々の概念はイメージングのみに限らず、光学分光法や他のセンシング用途にも応用できる。

Pixel binning is a technique, widely used in optical image acquisition and spectroscopy, in which adjacent detector elements of an image sensor are combined into larger pixels. This reduces the amount of data to be processed as well as the impact of noise, but comes at the cost of a loss of information. Here, we push the concept of binning to its limit by combining a large fraction of the sensor elements into a single superpixel that extends over the whole face of the chip. For a given pattern recognition task, its optimal shape is determined from training data using a machine learning algorithm. We demonstrate the classification of optically projected images from the MNIST dataset on a nanosecond timescale, with enhanced sensitivity and without loss of classification accuracy. Our concept is not limited to imaging alone but can also be applied in optical spectroscopy or other sensing applications.
翻訳日:2021-11-25 11:36:11 公開日:2021-11-20
# (参考訳) gmsrf-net : ポリプセグメンテーションのためのグローバルマルチスケール残差核融合ネットワークによる汎用性の向上 [全文訳有]

GMSRF-Net: An improved generalizability with global multi-scale residual fusion network for polyp segmentation ( http://arxiv.org/abs/2111.10614v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Sukalpa Chanda, Debesh Jha, Umapada Pal, and Sharib Ali(参考訳) 大腸内視鏡は金の標準法であるが、操作性は高い。 前駆体であるポリープの検出とセグメンテーションを自動化し、ミスレートを効果的に最小化する試みがなされている。 エンコーダデコーダによって動作させるコンピュータ支援型ポリプセグメンテーションシステムは,精度で高い性能を実現している。 しかし、様々な中心から収集されたポリプセグメンテーションデータセットは、データ分布の違いにつながる様々なイメージングプロトコルに従うことができる。 その結果、ほとんどのメソッドはパフォーマンス低下に苦しめられ、特定のデータセットごとに再トレーニングが必要となる。 本稿では,グローバルマルチスケール残差核融合ネットワーク(GMSRF-Net)を提案することで,この一般化可能性問題に対処する。 提案するネットワークは高分解能表現を維持しつつ,全解像度スケールのマルチスケール融合操作を行う。 スケール情報を活用するために,gmsrf-net 内のクロスマルチスケールアテンション (cmsa) とマルチスケール機能選択 (msfs) モジュールを設計した。 CMSAとMSFSによる繰り返し融合操作により、ネットワークの一般化性が向上した。 2つの異なるポリープセグメンテーションデータセットを用いて行った実験により,提案したGMSRF-Netは,従来よりも8.34%,10.31%向上した。

Colonoscopy is a gold standard procedure but is highly operator-dependent. Efforts have been made to automate the detection and segmentation of polyps, a precancerous precursor, to effectively minimize missed rate. Widely used computer-aided polyp segmentation systems actuated by encoder-decoder have achieved high performance in terms of accuracy. However, polyp segmentation datasets collected from varied centers can follow different imaging protocols leading to difference in data distribution. As a result, most methods suffer from performance drop and require re-training for each specific dataset. We address this generalizability issue by proposing a global multi-scale residual fusion network (GMSRF-Net). Our proposed network maintains high-resolution representations while performing multi-scale fusion operations for all resolution scales. To further leverage scale information, we design cross multi-scale attention (CMSA) and multi-scale feature selection (MSFS) modules within the GMSRF-Net. The repeated fusion operations gated by CMSA and MSFS demonstrate improved generalizability of the network. Experiments conducted on two different polyp segmentation datasets show that our proposed GMSRF-Net outperforms the previous top-performing state-of-the-art method by 8.34% and 10.31% on unseen CVC-ClinicDB and unseen Kvasir-SEG, in terms of dice coefficient.
翻訳日:2021-11-25 11:26:43 公開日:2021-11-20
# (参考訳) PAANet: 自動医用画像分割のための進歩的代替注意 [全文訳有]

PAANet: Progressive Alternating Attention for Automatic Medical Image Segmentation ( http://arxiv.org/abs/2111.10618v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Sukalpa Chanda, Debesh Jha, Michael A. Riegler, P{\aa}l Halvorsen, Dag Johansen, and Umapada Pal(参考訳) 医用画像セグメンテーションは、発見の詳細な位置が重要であるシナリオに有用な臨床分析のための詳細な情報を提供することができる。 病気の位置を知ることは、治療と意思決定において重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)に基づくエンコーダデコーダ技術は、自動化された医用画像セグメンテーションシステムの性能を向上した。 CNNに基づくいくつかの手法は、空間的注意やチャネル的注意などの手法を用いて性能を向上させる。 近年注目されているもう1つのテクニックは、密度密度ブロック(RDB)である。 密結合ブロックにおける連続した畳み込み層は、様々な受容場を持つ多様な特徴を抽出し、性能を向上させることができる。 しかし、連続的に積み重ねられた畳み込み演算子は必ずしも対象構造の識別を容易にする特徴を生成するとは限らない。 本稿では,PAANet(Progressive alternating attention network)を提案する。 我々は,全規模の特徴を用いて,高密度ブロック内の各畳み込み層の後,誘導注意マップ(GAM)を構成するPAADブロックを開発する。 GAMは、密度の高いブロック内の以下の層がターゲット領域に関連する空間的位置に集中できるようにする。 それぞれのPAADブロックはGAMを反転させ、後続するレイヤをガイドして境界情報とエッジ関連情報を抽出し、セグメント化プロセスを洗練する。 3つの異なるバイオメディカルイメージセグメンテーションデータセットを用いた実験により、PAANetは他の最先端の手法と比較して良好な性能が得られることが示された。

Medical image segmentation can provide detailed information for clinical analysis which can be useful for scenarios where the detailed location of a finding is important. Knowing the location of disease can play a vital role in treatment and decision-making. Convolutional neural network (CNN) based encoder-decoder techniques have advanced the performance of automated medical image segmentation systems. Several such CNN-based methodologies utilize techniques such as spatial- and channel-wise attention to enhance performance. Another technique that has drawn attention in recent years is residual dense blocks (RDBs). The successive convolutional layers in densely connected blocks are capable of extracting diverse features with varied receptive fields and thus, enhancing performance. However, consecutive stacked convolutional operators may not necessarily generate features that facilitate the identification of the target structures. In this paper, we propose a progressive alternating attention network (PAANet). We develop progressive alternating attention dense (PAAD) blocks, which construct a guiding attention map (GAM) after every convolutional layer in the dense blocks using features from all scales. The GAM allows the following layers in the dense blocks to focus on the spatial locations relevant to the target region. Every alternate PAAD block inverts the GAM to generate a reverse attention map which guides ensuing layers to extract boundary and edge-related information, refining the segmentation process. Our experiments on three different biomedical image segmentation datasets exhibit that our PAANet achieves favourable performance when compared to other state-of-the-art methods.
翻訳日:2021-11-25 11:17:19 公開日:2021-11-20
# (参考訳) 脊椎:ソフトな断片的な解釈可能な神経方程式

SPINE: Soft Piecewise Interpretable Neural Equations ( http://arxiv.org/abs/2111.10622v1 )

ライセンス: CC BY 4.0
Jasdeep Singh Grover, Harsh Minesh Domadia, Raj Anant Tapase and Grishma Sharma(参考訳) Relu Fully Connected Networks はユビキタスだが、多層構造やモデルの重みの複雑な相互作用から生じる分別線形関数に適合する。 本稿では,個々の部品(部品)の集合演算を用いて,各部品に適合する新しい手法を提案する。 これは正準正規形式を近似し、その結果をモデルとして利用する。 これは特別な利点を与えます (a)適合関数の部分に対するパラメータの強い対応(高解釈可能性) (b) 連続関数の組合せをピースワイズ関数として適合させることができないこと(設計の方法) (c)ドメインのターゲット領域に新たな非線形性を追加することができないこと(ターゲット学習) (d)階層化を避ける方程式の単純性。 これはまた、理論的な容易さと信頼性を与える分数次線型関数の一般最大値表現で表すこともできる。 このアーキテクチャは、UCIデータセット、MNIST、FMNIST、CIFAR 10を含むシミュレーション回帰および分類タスクとベンチマークデータセットでテストされている。 このパフォーマンスは、完全に接続されたアーキテクチャと同等です。 完全に接続されたレイヤを解釈可能なレイヤに置き換えなければならない、さまざまなアプリケーションを見つけることができる。

Relu Fully Connected Networks are ubiquitous but uninterpretable because they fit piecewise linear functions emerging from multi-layered structures and complex interactions of model weights. This paper takes a novel approach to piecewise fits by using set operations on individual pieces(parts). This is done by approximating canonical normal forms and using the resultant as a model. This gives special advantages like (a)strong correspondence of parameters to pieces of the fit function(High Interpretability); (b)ability to fit any combination of continuous functions as pieces of the piecewise function(Ease of Design); (c)ability to add new non-linearities in a targeted region of the domain(Targeted Learning); (d)simplicity of an equation which avoids layering. It can also be expressed in the general max-min representation of piecewise linear functions which gives theoretical ease and credibility. This architecture is tested on simulated regression and classification tasks and benchmark datasets including UCI datasets, MNIST, FMNIST, and CIFAR 10. This performance is on par with fully connected architectures. It can find a variety of applications where fully connected layers must be replaced by interpretable layers.
翻訳日:2021-11-25 11:08:43 公開日:2021-11-20
# (参考訳) 知識グラフに基づく強化学習推論による説明可能なバイオメディカルレコメンデーション [全文訳有]

Explainable Biomedical Recommendations via Reinforcement Learning Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2111.10625v1 )

ライセンス: CC BY 4.0
Gavin Edwards, Sebastian Nilsson, Benedek Rozemberczki, Eliseo Papa(参考訳) 人工知能が生物学や医学に大きな影響を与えるためには、推奨事項が正確かつ透明であることが不可欠である。 他の領域では、知識グラフに基づくマルチホップ推論のニューロシンボリックアプローチが透明な説明をもたらすことが示されている。 しかし、複雑な生体医学データセットや問題に適用する研究が不足している。 本稿では,その適用性に関する確固たる結論を創薬に導くためのアプローチを探究する。 複数のバイオメディカルデータセットや推奨タスクに、公正なベンチマーク比較で、初めて体系的に適用した。 このアプローチは、新しい生物学的な説明を生み出しながら、平均して21.7%のベースラインを上回ります。

For Artificial Intelligence to have a greater impact in biology and medicine, it is crucial that recommendations are both accurate and transparent. In other domains, a neurosymbolic approach of multi-hop reasoning on knowledge graphs has been shown to produce transparent explanations. However, there is a lack of research applying it to complex biomedical datasets and problems. In this paper, the approach is explored for drug discovery to draw solid conclusions on its applicability. For the first time, we systematically apply it to multiple biomedical datasets and recommendation tasks with fair benchmark comparisons. The approach is found to outperform the best baselines by 21.7% on average whilst producing novel, biologically relevant explanations.
翻訳日:2021-11-25 11:07:43 公開日:2021-11-20
# (参考訳) MARLによる合意の計算:公共財の協調的ガバナンスの合法化 [全文訳有]

Calculus of Consent via MARL: Legitimating the Collaborative Governance Supplying Public Goods ( http://arxiv.org/abs/2111.10627v1 )

ライセンス: CC BY 4.0
Yang Hu, Zhui Zhu, Sirui Song, Xue Liu, Yang Yu(参考訳) 公共財を供給する公共政策、特に個人の自由を制限することで協力する政策は、常に統治の合法性に関する論争を引き起こす。 マルチエージェント強化学習(marl)法は、個人の利益を犠牲にして公共財を供給する公共政策の正当性を支持するのに適切である。 こうした政策の中で、地域間協力型パンデミックコントロールは顕著な例であり、新型コロナウイルス(COVID-19)のような世界的なパンデミックに直面している相互接続の世界にとって、ますます重要になっている。 地域によって異なる協力戦略のパターンが観察されているが、それらの戦略の正当性を説明する分析過程が欠如している。 本稿では,地域間協力をパンデミックコントロールに利用して,MARLの推論の必要性を実証し,地域間協力を強制する政策の正当性を示す。 実証的な環境下での実験結果から,我々のMARLアプローチは,公共商品の協調供給における個人の自由に対する制約の有効性と必要性を実証できることが示された。 異なる協力レベルでのMARLエージェントによって異なる最適政策が学習され、異なるタイプの地域が被った損失のバランスを保ち、その結果、全体的な福祉を促進するための、解釈可能な協調パターンが変化します。 一方、より高い協力水準で学んだ政策は、より高いグローバル報酬をもたらし、それによって地域間協力の正当性の新たな正当化を提供する。 そこで本手法は, ノーベル賞受賞者のJ. M. Buchananによって開発された, 同意の計算理論のモデル化と支援におけるMARLの有効性を示す。

Public policies that supply public goods, especially those involve collaboration by limiting individual liberty, always give rise to controversies over governance legitimacy. Multi-Agent Reinforcement Learning (MARL) methods are appropriate for supporting the legitimacy of the public policies that supply public goods at the cost of individual interests. Among these policies, the inter-regional collaborative pandemic control is a prominent example, which has become much more important for an increasingly inter-connected world facing a global pandemic like COVID-19. Different patterns of collaborative strategies have been observed among different systems of regions, yet it lacks an analytical process to reason for the legitimacy of those strategies. In this paper, we use the inter-regional collaboration for pandemic control as an example to demonstrate the necessity of MARL in reasoning, and thereby legitimizing policies enforcing such inter-regional collaboration. Experimental results in an exemplary environment show that our MARL approach is able to demonstrate the effectiveness and necessity of restrictions on individual liberty for collaborative supply of public goods. Different optimal policies are learned by our MARL agents under different collaboration levels, which change in an interpretable pattern of collaboration that helps to balance the losses suffered by regions of different types, and consequently promotes the overall welfare. Meanwhile, policies learned with higher collaboration levels yield higher global rewards, which illustrates the benefit of, and thus provides a novel justification for the legitimacy of, promoting inter-regional collaboration. Therefore, our method shows the capability of MARL in computationally modeling and supporting the theory of calculus of consent, developed by Nobel Prize winner J. M. Buchanan.
翻訳日:2021-11-25 10:45:56 公開日:2021-11-20
# フェデレーション学習のインセンティブメカニズム:経済とゲーム理論の観点から

Incentive Mechanisms for Federated Learning: From Economic and Game Theoretic Perspective ( http://arxiv.org/abs/2111.11850v1 )

ライセンス: Link先を確認
Xuezhen Tu, Kun Zhu, Nguyen Cong Luong, Dusit Niyato, Yang Zhang, and Juan Li(参考訳) フェデレートラーニング(FL)が普及し、所有者の生データを公開せずに大規模機械学習(ML)モデルをトレーニングする大きな可能性を示している。 flでは、データオーナは自身のローカルデータに基づいてmlモデルをトレーニングし、集約のために生データではなくモデルアップデートのみをモデルオーナに送ることができる。 モデル精度とトレーニング完了時間の観点から学習性能を向上させるためには,十分な参加者を募集することが不可欠である。 一方、データ所有者は合理的であり、リソース消費のために協調学習プロセスに参加することを望まないかもしれない。 この問題に対処するために、最近、データ所有者がリソースに寄与する動機づけとなる様々な取り組みが提案されている。 本稿では、FLトレーニングプロセスにデータ所有者が参加するための様々なスキームを設計するために、文献で提案されている経済理論とゲーム理論のアプローチを総合的にレビューする。 特に,インセンティブ機構設計において一般的に用いられる経済理論であるflの基礎と背景を最初に提示する。 そこで我々は,FLのインセンティブメカニズム設計にゲーム理論と経済的なアプローチを適用した。 最後に,FLのインセンティブメカニズム設計に関するオープンな課題と今後の研究方向性について述べる。

Federated learning (FL) becomes popular and has shown great potentials in training large-scale machine learning (ML) models without exposing the owners' raw data. In FL, the data owners can train ML models based on their local data and only send the model updates rather than raw data to the model owner for aggregation. To improve learning performance in terms of model accuracy and training completion time, it is essential to recruit sufficient participants. Meanwhile, the data owners are rational and may be unwilling to participate in the collaborative learning process due to the resource consumption. To address the issues, there have been various works recently proposed to motivate the data owners to contribute their resources. In this paper, we provide a comprehensive review for the economic and game theoretic approaches proposed in the literature to design various schemes for stimulating data owners to participate in FL training process. In particular, we first present the fundamentals and background of FL, economic theories commonly used in incentive mechanism design. Then, we review applications of game theory and economic approaches applied for incentive mechanisms design of FL. Finally, we highlight some open issues and future research directions concerning incentive mechanism design of FL.
翻訳日:2021-11-24 15:58:32 公開日:2021-11-20
# ニューラルネットワークを用いた微分方程式の逆サンプリング

Adversarial Sampling for Solving Differential Equations with Neural Networks ( http://arxiv.org/abs/2111.12024v1 )

ライセンス: Link先を確認
Kshitij Parwani, Pavlos Protopapas(参考訳) 微分方程式を解くニューラルネットワークに基づく手法が注目を集めている。 彼らは、各イテレーションの点のサンプル上でニューラルネットワークの微分方程式残差を改善することで機能する。 しかし、そのほとんどは等間隔点の均一化や摂動といった標準的なサンプリング方式を採用している。 本稿では,現在の解推定の損失を最大化するために,反対に点をサンプリングする新しいサンプリング方式を提案する。 サンプルアーキテクチャは、トレーニングに使用される損失項とともに記述される。 最後に,このスキームが既存のスキームよりも多くの問題で比較することにより,既存のスキームを上回ることを実証する。

Neural network-based methods for solving differential equations have been gaining traction. They work by improving the differential equation residuals of a neural network on a sample of points in each iteration. However, most of them employ standard sampling schemes like uniform or perturbing equally spaced points. We present a novel sampling scheme which samples points adversarially to maximize the loss of the current solution estimate. A sampler architecture is described along with the loss terms used for training. Finally, we demonstrate that this scheme outperforms pre-existing schemes by comparing both on a number of problems.
翻訳日:2021-11-24 14:30:35 公開日:2021-11-20
# (参考訳) 顔サブスペースによる身元保存型ポスロバスト顔幻覚 [全文訳有]

Identity-Preserving Pose-Robust Face Hallucination Through Face Subspace Prior ( http://arxiv.org/abs/2111.10634v1 )

ライセンス: CC BY 4.0
Ali Abbasi and Mohammad Rahmati(参考訳) 過去数十年にわたり、高解像度 (HR) の顔画像が対応する低解像度 (LR) の画像から復元される問題に対処するために、多くの試みがなされてきた。 位置マッチングと深層学習に基づく手法によって達成された印象的な性能にもかかわらず、これらの技術のほとんどは、顔のアイデンティティ固有の特徴を回復することができない。 前者のアルゴリズム群は、特に高いレベルの劣化の存在下において、ぼやけた過剰な出力をしばしば生成するが、後者は入力画像の個人に決して似ていないような顔を生成する。 本稿では,新しい顔超解像法を導入し,ハロゲン化顔が利用可能な訓練顔にまたがる部分空間に置かれることを強制する。 したがって、既存の幻覚技術の大半とは対照的に、この顔のサブスペースにより、単に画像の定量的なスコアを上げるのではなく、人物特有の顔の特徴を回復することを好む。 さらに,近年の3次元顔再構成領域の進展に触発されて,非制御条件下での低解像度顔の処理が可能な効率的な3次元辞書アライメント手法も提案されている。 提案アルゴリズムは,複数のよく知られた顔データセットに対して行われた広範囲な実験において,定量評価と定性評価の両方において,最先端の顔幻覚アルゴリズムよりも優れる,詳細かつ近接した真実結果を生成することにより,顕著な性能を示す。

Over the past few decades, numerous attempts have been made to address the problem of recovering a high-resolution (HR) facial image from its corresponding low-resolution (LR) counterpart, a task commonly referred to as face hallucination. Despite the impressive performance achieved by position-patch and deep learning-based methods, most of these techniques are still unable to recover identity-specific features of faces. The former group of algorithms often produces blurry and oversmoothed outputs particularly in the presence of higher levels of degradation, whereas the latter generates faces which sometimes by no means resemble the individuals in the input images. In this paper, a novel face super-resolution approach will be introduced, in which the hallucinated face is forced to lie in a subspace spanned by the available training faces. Therefore, in contrast to the majority of existing face hallucination techniques and thanks to this face subspace prior, the reconstruction is performed in favor of recovering person-specific facial features, rather than merely increasing image quantitative scores. Furthermore, inspired by recent advances in the area of 3D face reconstruction, an efficient 3D dictionary alignment scheme is also presented, through which the algorithm becomes capable of dealing with low-resolution faces taken in uncontrolled conditions. In extensive experiments carried out on several well-known face datasets, the proposed algorithm shows remarkable performance by generating detailed and close to ground truth results which outperform the state-of-the-art face hallucination algorithms by significant margins both in quantitative and qualitative evaluations.
翻訳日:2021-11-24 14:01:52 公開日:2021-11-20
# (参考訳) HeterPS:異種環境における強化学習に基づくスケジューリングによる分散ディープラーニング [全文訳有]

HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments ( http://arxiv.org/abs/2111.10635v1 )

ライセンス: CC BY 4.0
Ji Liu, Zhihua Wu, Dianhai Yu, Yanjun Ma, Danlei Feng, Minxu Zhang, Xinxuan Wu, Xuefeng Yao, Dejing Dou(参考訳) ディープニューラルネットワーク(DNN)は多くのレイヤと多数のパラメータを利用して優れたパフォーマンスを実現する。 dnnモデルのトレーニングプロセスは一般的に、多くのスパースな機能を持つ大規模な入力データを処理し、高い入出力(io)コストを発生させるが、いくつかの層は計算集約的である。 トレーニングプロセスは一般的に分散コンピューティングリソースを利用してトレーニング時間を短縮する。 さらに、分散トレーニングプロセスには、CPU、複数のタイプのGPUなどの異種コンピューティングリソースが利用できる。 したがって、トレーニングプロセスにおいて、多様なコンピューティングリソースに対する複数のレイヤのスケジューリングが重要となる。 異種計算資源を用いてDNNモデルを効率的に訓練するために,分散アーキテクチャと強化学習(RL)に基づくスケジューリング手法からなる分散フレームワークであるPaddle-Heterogeneous Parameter Server(Paddle-HeterP S)を提案する。 Paddle-HeterPSの利点は、既存のフレームワークと比べて3倍である。 まず、Paddle-HeterPSは異種コンピューティングリソースを用いた多様なワークロードの効率的なトレーニングプロセスを実現する。 第二に、Paddle-HeterPS は RL ベースの手法を利用して、スループットの制約を満たしながらコストを最小限に抑えるため、各レイヤのワークロードを適切な計算リソースに効率的にスケジュールする。 第3に、Paddle-HeterPSは分散コンピューティングリソース間のデータストレージとデータ通信を管理する。 我々は、パドル・ヘターPSがスループット(14.5倍)と金銭的コスト(312.3%以下)で最先端のアプローチを著しく上回ることを示す広範な実験を行った。 フレームワークのコードは、https://github.com/P addlePaddle/Paddle.c omで公開されている。

Deep neural networks (DNNs) exploit many layers and a large number of parameters to achieve excellent performance. The training process of DNN models generally handles large-scale input data with many sparse features, which incurs high Input/Output (IO) cost, while some layers are compute-intensive. The training process generally exploits distributed computing resources to reduce training time. In addition, heterogeneous computing resources, e.g., CPUs, GPUs of multiple types, are available for the distributed training process. Thus, the scheduling of multiple layers to diverse computing resources is critical for the training process. To efficiently train a DNN model using the heterogeneous computing resources, we propose a distributed framework, i.e., Paddle-Heterogeneous Parameter Server (Paddle-HeterPS), composed of a distributed architecture and a Reinforcement Learning (RL)-based scheduling method. The advantages of Paddle-HeterPS are three-fold compared with existing frameworks. First, Paddle-HeterPS enables efficient training process of diverse workloads with heterogeneous computing resources. Second, Paddle-HeterPS exploits an RL-based method to efficiently schedule the workload of each layer to appropriate computing resources to minimize the cost while satisfying throughput constraints. Third, Paddle-HeterPS manages data storage and data communication among distributed computing resources. We carry out extensive experiments to show that Paddle-HeterPS significantly outperforms state-of-the-art approaches in terms of throughput (14.5 times higher) and monetary cost (312.3% smaller). The codes of the framework are publicly available at: https://github.com/P addlePaddle/Paddle.
翻訳日:2021-11-24 13:31:27 公開日:2021-11-20
# (参考訳) キーワードスポッティングとデバイス指向音声検出のための入射音響エコーキャンセラ [全文訳有]

Implicit Acoustic Echo Cancellation for Keyword Spotting and Device-Directed Speech Detection ( http://arxiv.org/abs/2111.10639v1 )

ライセンス: CC BY 4.0
Samuele Cornell, Thomas Balestri, Thibaud S\'en\'echal(参考訳) 多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザの音声はデバイス再生オーディオと重複する可能性がある。 これらの例では、キーワードスポッティング(KWS)やデバイス指向音声検出(DDD)といったタスクのパフォーマンスが著しく低下する可能性がある。 この問題に対処するために,ニューラルネットワークが参照マイクロホンチャネルからの付加情報を活用して干渉信号を無視し,検出性能を向上させるために,暗黙の音響エコーキャンセリング(iAEC)フレームワークを提案する。 KWSとDDDのタスクに対して,Google Speech Commands v2の拡張バージョンと実世界のAlexaデバイスデータセットを用いて,このフレームワークについて検討する。 特に,デバイス再生条件下でのDDDタスクに対する偽リジェクト率の5,6\%の削減を示す。 また、KWSタスクに対して、強力なエンドツーエンドのニューラルエコーキャンセル+KWSベースラインよりも、桁違いに少ない計算要求で同等または優れた性能を示す。

In many speech-enabled human-machine interaction scenarios, user speech can overlap with the device playback audio. In these instances, the performance of tasks such as keyword-spotting (KWS) and device-directed speech detection (DDD) can degrade significantly. To address this problem, we propose an implicit acoustic echo cancellation (iAEC) framework where a neural network is trained to exploit the additional information from a reference microphone channel to learn to ignore the interfering signal and improve detection performance. We study this framework for the tasks of KWS and DDD on, respectively, an augmented version of Google Speech Commands v2 and a real-world Alexa device dataset. Notably, we show a $56\%$ reduction in false-reject rate for the DDD task during device playback conditions. We also show comparable or superior performance over a strong end-to-end neural echo cancellation + KWS baseline for the KWS task with an order of magnitude less computational requirements.
翻訳日:2021-11-24 13:10:49 公開日:2021-11-20
# (参考訳) シミュレーションlidar再配置:新しい点雲データ拡張法 [全文訳有]

Simulated LiDAR Repositioning: a novel point cloud data augmentation method ( http://arxiv.org/abs/2111.10650v1 )

ライセンス: CC BY 4.0
Xavier Morin-Duchesne (1) and Michael S Langer (1) ((1) McGill University)(参考訳) 我々はLiDARのデータ拡張問題に対処する。 ある位置からシーンのLiDARスキャンをすると、そのシーンの異なる二次的な位置からの新しいスキャンをシミュレートするにはどうすればよいのか? この方法は有効な二次位置を選択するための基準を定義し、次に元の点雲からのどの点がこれらの位置からスキャナーによって取得されるかを推定する。 本手法を合成シーンを用いて検証し,生成した点雲の類似性がスキャナ距離,咬合,角分解能に依存するかを検討する。 本手法は近距離において精度が高く,また,元の点雲に対して高いスキャナ分解能を有することが,生成した点雲の類似性に大きな影響を与えることを示した。 また,本手法が自然景観統計にどのように適用できるかを実証し,特に,スキャナを水平および垂直に配置し,地上および非地上物体の点を別々に考慮し,これら2種類の点に対する距離分布への影響について述べる。

We address a data augmentation problem for LiDAR. Given a LiDAR scan of a scene from some position, how can one simulate new scans of that scene from different, secondary positions? The method defines criteria for selecting valid secondary positions, and then estimates which points from the original point cloud would be acquired by a scanner from these positions. We validate the method using synthetic scenes, and examine how the similarity of generated point clouds depends on scanner distance, occlusion, and angular resolution. We show that the method is more accurate at short distances, and that having a high scanner resolution for the original point clouds has a strong impact on the similarity of generated point clouds. We also demonstrate how the method can be applied to natural scene statistics: in particular, we apply our method to reposition the scanner horizontally and vertically, separately consider points belonging to the ground and to non-ground objects, and describe the impact on the distributions of distances to these two classes of points.
翻訳日:2021-11-24 12:10:34 公開日:2021-11-20
# (参考訳) CDR-H3ループ構造予測のための簡易エンドツーエンドディープラーニングモデル [全文訳有]

Simple End-to-end Deep Learning Model for CDR-H3 Loop Structure Prediction ( http://arxiv.org/abs/2111.10656v1 )

ライセンス: CC BY 4.0
Natalia Zenkova, Ekaterina Sedykh, Tatiana Shugaeva, Vladislav Strashko, Timofei Ermak, Aleksei Shpilman(参考訳) 抗体の構造をその配列から予測することは、健康産業において重要な役割を果たす合成抗体の設計プロセスを改善するために重要である。 抗体の構造のほとんどは保守的である。 最も可変で予測が難しい部分は、抗体重鎖の3番目の相補性決定領域(CDR H3)である。 近年,CDR H3予測の課題を解決するためにディープラーニングが採用されている。 しかし、現在の最先端の手法はエンドツーエンドではなく、3d構造の予測に統計学的および物理学的手法とともにこの追加情報を使用するrosettaantibodyパッケージに、residue間距離と向きを出力している。 これにより高速なスクリーニングは不可能であり、そのため標的となる合成抗体の開発を阻害する。 本研究では,cdr h3ループ構造を予測するためのエンド・ツー・エンドモデルを提案する。 また、一般的なRosettaAntibodyベンチマークでは、データリーク、すなわち、列車とテストデータセットに同じシーケンスが存在するという問題も提起しています。

Predicting a structure of an antibody from its sequence is important since it allows for a better design process of synthetic antibodies that play a vital role in the health industry. Most of the structure of an antibody is conservative. The most variable and hard-to-predict part is the {\it third complementarity-dete rmining region of the antibody heavy chain} (CDR H3). Lately, deep learning has been employed to solve the task of CDR H3 prediction. However, current state-of-the-art methods are not end-to-end, but rather they output inter-residue distances and orientations to the RosettaAntibody package that uses this additional information alongside statistical and physics-based methods to predict the 3D structure. This does not allow a fast screening process and, therefore, inhibits the development of targeted synthetic antibodies. In this work, we present an end-to-end model to predict CDR H3 loop structure, that performs on par with state-of-the-art methods in terms of accuracy but an order of magnitude faster. We also raise an issue with a commonly used RosettaAntibody benchmark that leads to data leaks, i.e., the presence of identical sequences in the train and test datasets.
翻訳日:2021-11-24 11:57:46 公開日:2021-11-20
# (参考訳) 分散グラフを用いたグラフニューラルネットワークの一般化 [全文訳有]

Generalizing Graph Neural Networks on Out-Of-Distribution Graphs ( http://arxiv.org/abs/2111.10657v1 )

ライセンス: CC BY 4.0
Shaohua Fan, Xiao Wang, Chuan Shi, Peng Cui and Bai Wang(参考訳) グラフニューラルネットワーク(GNN)は,トレーニンググラフとテストグラフの非依存的な分布変化を考慮せずに提案され,OF-Distribution(OOD )設定上でのGNNの一般化能力の低下を招く。 このような退化の根本的な理由は、ほとんどのGNNがI.I.D仮説に基づいて開発されているからである。 このような設定では、gnnはスプリアス相関であるにもかかわらず、トレーニングセットに存在する微妙な統計相関を予測のために利用する傾向がある。 しかし、このような急激な相関関係はテスト環境で変化し、GNNの失敗につながる可能性がある。 したがって、スプリアス相関の影響の排除は安定gnnにとって不可欠である。 そこで我々は,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。 主なアイデアは、まずグラフデータからハイレベルな表現を抽出し、モデルがスプリアス相関を取り除くのを助けるために因果推論の識別能力に頼ることである。 特に,グラフプーリング層を用いてグラフベース表現を高レベル表現として抽出する。 さらに,偏りのあるトレーニング分布を補正するための因果変数識別正規化器を提案する。 したがって、GNNはより安定した相関に集中する。 合成および実世界のoodグラフデータセットの広範な実験により、提案フレームワークの有効性、柔軟性、解釈性が検証された。

Graph Neural Networks (GNNs) are proposed without considering the agnostic distribution shifts between training and testing graphs, inducing the degeneration of the generalization ability of GNNs on Out-Of-Distribution (OOD) settings. The fundamental reason for such degeneration is that most GNNs are developed based on the I.I.D hypothesis. In such a setting, GNNs tend to exploit subtle statistical correlations existing in the training set for predictions, even though it is a spurious correlation. However, such spurious correlations may change in testing environments, leading to the failure of GNNs. Therefore, eliminating the impact of spurious correlations is crucial for stable GNNs. To this end, we propose a general causal representation framework, called StableGNN. The main idea is to extract high-level representations from graph data first and resort to the distinguishing ability of causal inference to help the model get rid of spurious correlations. Particularly, we exploit a graph pooling layer to extract subgraph-based representations as high-level representations. Furthermore, we propose a causal variable distinguishing regularizer to correct the biased training distribution. Hence, GNNs would concentrate more on the stable correlations. Extensive experiments on both synthetic and real-world OOD graph datasets well verify the effectiveness, flexibility and interpretability of the proposed framework.
翻訳日:2021-11-24 11:52:09 公開日:2021-11-20
# (参考訳) 少ないことによるさらなる実践: 構造化された部分的バックプロパゲーションがディープラーニングクラスタをどのように改善するか [全文訳有]

Doing More by Doing Less: How Structured Partial Backpropagation Improves Deep Learning Clusters ( http://arxiv.org/abs/2111.10672v1 )

ライセンス: CC BY 4.0
Adarsh Kumar, Kausik Subramanian, Shivaram Venkataraman, Aditya Akella(参考訳) 多くの組織は、分散形式でディープラーニングモデルをトレーニングするために、GPUやTPUなどのアクセラレータを備えた計算クラスタを使用している。 トレーニングはリソース集約であり、重要な計算、メモリ、ネットワークリソースを消費する。 品質に影響を与えることなく、トレーニングリソースのフットプリントを削減する方法については、多くの先行研究が検討されているが、ボトルネックのサブセット(通常はネットワークのみ)にフォーカスすることで、クラスタ利用全体の改善能力が制限されている。 本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を体系的に制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。 これにより、ネットワーク帯域幅、計算利用率、メモリフットプリントを同時に削減し、モデル品質を維持できる。 クラスタレベルでのSPBの利点を効果的に活用するために,本研究では,DLT(Deep Learning Training)ジョブのイテレーションレベルでスケジューリングを行うSPB対応スケジューラであるJigSawを紹介する。 JigSawは,最大28\%の大規模クラスタ効率を向上できることがわかった。

Many organizations employ compute clusters equipped with accelerators such as GPUs and TPUs for training deep learning models in a distributed fashion. Training is resource-intensive, consuming significant compute, memory, and network resources. Many prior works explore how to reduce training resource footprint without impacting quality, but their focus on a subset of the bottlenecks (typically only the network) limits their ability to improve overall cluster utilization. In this work, we exploit the unique characteristics of deep learning workloads to propose Structured Partial Backpropagation(SPB) , a technique that systematically controls the amount of backpropagation at individual workers in distributed training. This simultaneously reduces network bandwidth, compute utilization, and memory footprint while preserving model quality. To efficiently leverage the benefits of SPB at cluster level, we introduce JigSaw, a SPB aware scheduler, which does scheduling at the iteration level for Deep Learning Training(DLT) jobs. We find that JigSaw can improve large scale cluster efficiency by as high as 28\%.
翻訳日:2021-11-24 11:26:10 公開日:2021-11-20
# (参考訳) VideoPose:ビデオから6Dオブジェクトのポーズを推定する [全文訳有]

VideoPose: Estimating 6D object pose from videos ( http://arxiv.org/abs/2111.10677v1 )

ライセンス: CC BY 4.0
Apoorva Beedu, Zhile Ren, Varun Agrawal, Irfan Essa(参考訳) 本稿では,畳み込みニューラルネットワークを用いて映像から物体のポーズを直接推定する,単純かつ効果的なアルゴリズムを提案する。 提案手法はビデオシーケンスからの時間情報を活用し,ロボットとARドメインをサポートするために計算効率が高く,堅牢である。 提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、繰り返しニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。 YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。 さらに、30fpsの速度では最先端技術よりも効率が高く、したがってリアルタイムオブジェクトのポーズ推定を必要とする様々なアプリケーションに適用できる。

We introduce a simple yet effective algorithm that uses convolutional neural networks to directly estimate object poses from videos. Our approach leverages the temporal information from a video sequence, and is computationally efficient and robust to support robotic and AR domains. Our proposed network takes a pre-trained 2D object detector as input, and aggregates visual features through a recurrent neural network to make predictions at each frame. Experimental evaluation on the YCB-Video dataset show that our approach is on par with the state-of-the-art algorithms. Further, with a speed of 30 fps, it is also more efficient than the state-of-the-art, and therefore applicable to a variety of applications that require real-time object pose estimation.
翻訳日:2021-11-24 11:12:21 公開日:2021-11-20
# (参考訳) 深層学習による磁気共鳴前立腺画像の分割 [全文訳有]

A Review on The Division of Magnetic Resonant Prostate Images with Deep Learning ( http://arxiv.org/abs/2111.10683v1 )

ライセンス: CC BY 4.0
Elcin Huseyn, Emin Mammadov, Mohammad Hoseini(参考訳) 深層学習(Deep Learning):バイオメディカル分野の画像の過程の分割によく用いられる。 近年,他の画像分割法と比較して,深層学習を用いた前立腺画像の分割処理が増加していることが観察されている。 文献を見てみると,深層学習による前立腺画像の分割は,前立腺癌の診断と治療において重要なステップであると考えられる。 そこで本研究では, 将来的な分割操作の源泉となるため, 磁気共鳴(MRI)撮像装置から得られた前立腺画像の深層学習分割処理について検討した。

Deep learning; it is often used in dividing processes on images in the biomedical field. In recent years, it has been observed that there is an increase in the division procedures performed on prostate images using deep learning compared to other methods of image division. Looking at the literature; It is seen that the process of dividing prostate images, which are carried out with deep learning, is an important step for the diagnosis and treatment of prostate cancer. For this reason, in this study; to be a source for future splitting operations; deep learning splitting procedures on prostate images obtained from magnetic resonance (MRI) imaging devices were examined.
翻訳日:2021-11-24 11:01:33 公開日:2021-11-20
# (参考訳) ランダム重み付け特徴ネットワークを用いた視覚関係検出のための事前知識表現 [全文訳有]

Representing Prior Knowledge Using Randomly, Weighted Feature Networks for Visual Relationship Detection ( http://arxiv.org/abs/2111.10686v1 )

ライセンス: CC BY-SA 4.0
Jinyung Hong, Theodore P. Pavlic(参考訳) RWFN (Randomly Weighted Feature Network) は,Hong and Pavlic (2021) が導入した,リレーショナル学習タスクのための神経テンソルネットワークアプローチの代替として開発された。 比較的小さなフットプリントと2つのランダム化された入力プロジェクション(昆虫脳にインスパイアされた入力表現とランダムなフーリエ特徴)を組み合わせることで、比較的低いトレーニングコストでリレーショナル学習のためのリッチな表現性を実現できる。 特にHongとPavlicは、RWFNと論理テンソルネットワーク(LTN)を比較して、画像から構造的意味記述を抽出するSII(Semantic Image Interpretation)タスクについて、RWFNの統合により、学習可能なパラメータがはるかに少ないにもかかわらず、より高速なトレーニングプロセスで、入力間の関係をよりよく捉えることを示した。 本稿では、より困難なSIIタスクである視覚的関係検出(VRD)タスクの実行にRWFNを使用する。 ゼロショット学習アプローチは、トレーニングセットに現れないトリプルを予測する能力を達成するために、他の見られる関係や背景知識(主題、関係、オブジェクト間の論理的制約で表現される)と類似性を利用することができるRWFNで使用される。 統計関係学習フレームワークの1つであるRWFNとLTNのパフォーマンスを比較するためのVisual Relation Datasetの実験では、RWFNは適応可能なパラメータの少ない(1:56比)で、述語検出タスクにおいてLTNよりも優れていた。 さらに、RWFNsの空間的複雑さがLTNs(1:27比)よりもはるかに小さいにもかかわらず、トレーニングセットの不完全性を緩和するためにRWFNsで表される背景知識を使用することができる。

The single-hidden-layer Randomly Weighted Feature Network (RWFN) introduced by Hong and Pavlic (2021) was developed as an alternative to neural tensor network approaches for relational learning tasks. Its relatively small footprint combined with the use of two randomized input projections -- an insect-brain-inspire d input representation and random Fourier features -- allow it to achieve rich expressiveness for relational learning with relatively low training cost. In particular, when Hong and Pavlic compared RWFN to Logic Tensor Networks (LTNs) for Semantic Image Interpretation (SII) tasks to extract structured semantic descriptions from images, they showed that the RWFN integration of the two hidden, randomized representations better captures relationships among inputs with a faster training process even though it uses far fewer learnable parameters. In this paper, we use RWFNs to perform Visual Relationship Detection (VRD) tasks, which are more challenging SII tasks. A zero-shot learning approach is used with RWFN that can exploit similarities with other seen relationships and background knowledge -- expressed with logical constraints between subjects, relations, and objects -- to achieve the ability to predict triples that do not appear in the training set. The experiments on the Visual Relationship Dataset to compare the performance between RWFNs and LTNs, one of the leading Statistical Relational Learning frameworks, show that RWFNs outperform LTNs for the predicate-detection task while using fewer number of adaptable parameters (1:56 ratio). Furthermore, background knowledge represented by RWFNs can be used to alleviate the incompleteness of training sets even though the space complexity of RWFNs is much smaller than LTNs (1:27 ratio).
翻訳日:2021-11-24 10:56:58 公開日:2021-11-20
# (参考訳) テキストからトリプルへ:AI TextBookからトリプルの形で知識グラフを作成する [全文訳有]

Textbook to triples: Creating knowledge graph in the form of triples from AI TextBook ( http://arxiv.org/abs/2111.10692v1 )

ライセンス: CC0 1.0
Aman Kumar, Swathi Dinakaran(参考訳) 知識グラフは、エンティティ認識、検索、質問応答に優れた応用を持つ、必要不可欠なトレンド技術である。 名前付きエンティティ認識のタスクを実行するための自然言語処理には多くの方法がありますが、ドメイン固有のテキストにトリプルを提供する方法はほとんどありません。 本稿では,ある教科書のテキストを知識グラフとして視覚化し,さらなる応用に利用できる3つのテキストに変換するシステムを開発するための取り組みを行った。 最初の評価と評価は、F1スコアが82%の有望な結果となった。

A knowledge graph is an essential and trending technology with great applications in entity recognition, search, or question answering. There are a plethora of methods in natural language processing for performing the task of Named entity recognition; however, there are very few methods that could provide triples for a domain-specific text. In this paper, an effort has been made towards developing a system that could convert the text from a given textbook into triples that can be used to visualize as a knowledge graph and use for further applications. The initial assessment and evaluation gave promising results with an F1 score of 82%.
翻訳日:2021-11-24 10:40:39 公開日:2021-11-20
# (参考訳) 分子特性予測のための画像的グラフ表現 [全文訳有]

Image-Like Graph Representations for Improved Molecular Property Prediction ( http://arxiv.org/abs/2111.10695v1 )

ライセンス: CC BY 4.0
Toni Sagayaraj, Carsten Eickhoff(参考訳) 分子特性予測のためのディープラーニングモデルの研究は主に、より良いグラフニューラルネットワーク(GNN)アーキテクチャの開発に焦点を当てている。 新しいGNNの変種は性能を改善し続けているが、それらの修正は、その基本的なグラフ-グラフの性質に固有の問題を緩和する共通のテーマを共有している。 本研究では,これらの制限を検証し,gnnの必要性を完全に回避する新しい分子表現,cubemolを提案する。 我々の定次元確率表現は、変圧器モデルと組み合わせると、最先端のGNNモデルの性能を超え、拡張性を提供する。

Research into deep learning models for molecular property prediction has primarily focused on the development of better Graph Neural Network (GNN) architectures. Though new GNN variants continue to improve performance, their modifications share a common theme of alleviating problems intrinsic to their fundamental graph-to-graph nature. In this work, we examine these limitations and propose a new molecular representation that bypasses the need for GNNs entirely, dubbed CubeMol. Our fixed-dimensional stochastic representation, when paired with a transformer model, exceeds the performance of state-of-the-art GNN models and provides a path for scalability.
翻訳日:2021-11-24 10:33:58 公開日:2021-11-20
# (参考訳) Contrastive Adjusted Zooming を用いたグラフ自己監督学習に向けて [全文訳有]

Towards Graph Self-Supervised Learning with Contrastive Adjusted Zooming ( http://arxiv.org/abs/2111.10698v1 )

ライセンス: CC BY 4.0
Yizhen Zheng, Ming Jin, Shirui Pan, Yuan-Fang Li, Hao Peng, Ming Li, Zhao Li(参考訳) グラフ構造データ解析にはグラフ表現学習(grl)が不可欠である。 しかし、既存のグラフニューラルネットワーク(GNN)のほとんどはラベル付け情報に大きく依存しており、これは現実世界で入手するのに通常高価である。 既存の教師なしGRL法は、モノトーンのコントラスト性やスケーラビリティの制限など、一定の制限に悩まされている。 本稿では、グラフコントラスト学習の最近の進歩を踏まえて、グラフコントラスト調整ズームによる自己教師ありグラフ表現学習アルゴリズム、すなわちg-zoomを導入し、提案する調整ズーム方式を利用してノード表現を学習する。 具体的には、G-Zoomは、マイクロ(ノードレベル)、メソ(近隣レベル)、マクロ(サブグラフレベル)の複数のスケールから、グラフから自己超越信号を探索し抽出することができる。 まず、2つの異なるグラフ拡張により、入力グラフの2つの拡張ビューを生成する。 そして、上記の3つの尺度に対して、ノード、近傍、サブグラフレベルから段階的に3つの異なるコントラスト性を確立し、スケール間のグラフ表現の一致を最大化する。 マイクロとマクロの観点で与えられたグラフから貴重な手がかりを抽出できるが、近傍のコントラスト性はG-Zoomに、調整されたズーム方式に基づくカスタマイズ可能なオプションの能力を提供し、マイクロとマクロの視点の間にある最適な視点を手動で選択し、グラフデータをよりよく理解する。 さらに,我々のモデルを大規模グラフにスケーラブルにするために,グラフサイズからモデルのトレーニングを分離するために,並列グラフ拡散アプローチを用いる。 我々は,実世界のデータセットに関する広範な実験を行い,提案モデルが常に最先端の手法より優れていることを示す。

Graph representation learning (GRL) is critical for graph-structured data analysis. However, most of the existing graph neural networks (GNNs) heavily rely on labeling information, which is normally expensive to obtain in the real world. Existing unsupervised GRL methods suffer from certain limitations, such as the heavy reliance on monotone contrastiveness and limited scalability. To overcome the aforementioned problems, in light of the recent advancements in graph contrastive learning, we introduce a novel self-supervised graph representation learning algorithm via Graph Contrastive Adjusted Zooming, namely G-Zoom, to learn node representations by leveraging the proposed adjusted zooming scheme. Specifically, this mechanism enables G-Zoom to explore and extract self-supervision signals from a graph from multiple scales: micro (i.e., node-level), meso (i.e., neighbourhood-level) , and macro (i.e., subgraph-level). Firstly, we generate two augmented views of the input graph via two different graph augmentations. Then, we establish three different contrastiveness on the above three scales progressively, from node, neighbouring, to subgraph level, where we maximize the agreement between graph representations across scales. While we can extract valuable clues from a given graph on the micro and macro perspectives, the neighbourhood-level contrastiveness offers G-Zoom the capability of a customizable option based on our adjusted zooming scheme to manually choose an optimal viewpoint that lies between the micro and macro perspectives to better understand the graph data. Additionally, to make our model scalable to large graphs, we employ a parallel graph diffusion approach to decouple model training from the graph size. We have conducted extensive experiments on real-world datasets, and the results demonstrate that our proposed model outperforms state-of-the-art methods consistently.
翻訳日:2021-11-24 10:27:17 公開日:2021-11-20
# グラフネットワークを用いた非LTE合成と逆変換の高速化

Accelerating non-LTE synthesis and inversions with graph networks ( http://arxiv.org/abs/2111.10552v1 )

ライセンス: Link先を確認
A. Vicente Ar\'evalo, A. Asensio Ramos, and S. Esteban Pozuelo(参考訳) コンテキスト: 高速非LTE合成の計算コストは、2Dおよび3Dインバージョンコードの開発を制限する課題の1つである。 また、色圏と遷移領域で形成された線の観察を遅くて計算に費用がかかるプロセスとし、これは比較的小さな視野での物理的性質の推測を制限する。 LTE体制から離脱係数による逸脱を高速に計算する手段にアクセスできると、この問題は大幅に軽減される。 Aims: 非LTE問題を解くことなく、原子レベルの人口を迅速に予測するグラフネットワークを構築し、訓練することを提案する。 方法: モデル大気の物理状態から原子のレベルからの離脱係数を予測するためのグラフネットワークのための最適なアーキテクチャを見出す。 潜在的なモデル雰囲気の代表的なサンプルを持つ適切なデータセットがトレーニングに使用される。 このデータセットは、既存の非LTE合成コードを用いて計算されている。 結果: グラフネットワークは \caii の特定の場合の既存の合成および反転符号に統合されている。 我々は計算速度の桁違いな向上を示す。 グラフネットワークの一般化能力を解析し、未知のモデルに対して優れた予測出発係数を生成することを示す。 本稿では,この手法をhazel\ で実装し,標準の非LTEインバージョンコードと比較した。 我々の近似法は,時間進化を伴う視野の大きな色圏から物理情報を抽出する可能性を開く。 これにより、大きな空間的・時間的スケールが重要である太陽のこの領域をよりよく理解することができます。

Context: The computational cost of fast non-LTE synthesis is one of the challenges that limits the development of 2D and 3D inversion codes. It also makes the interpretation of observations of lines formed in the chromosphere and transition region a slow and computationally costly process, which limits the inference of the physical properties on rather small fields of view. Having access to a fast way of computing the deviation from the LTE regime through the departure coefficients could largely alleviate this problem. Aims: We propose to build and train a graph network that quickly predicts the atomic level populations without solving the non-LTE problem. Methods: We find an optimal architecture for the graph network for predicting the departure coefficients of the levels of an atom from the physical conditions of a model atmosphere. A suitable dataset with a representative sample of potential model atmospheres is used for training. This dataset has been computed using existing non-LTE synthesis codes. Results: The graph network has been integrated into existing synthesis and inversion codes for the particular case of \caii. We demonstrate orders of magnitude gain in computing speed. We analyze the generalization capabilities of the graph network and demonstrate that it produces good predicted departure coefficients for unseen models. We implement this approach in \hazel\ and show how the inversions nicely compare with those obtained with standard non-LTE inversion codes. Our approximate method opens up the possibility of extracting physical information from the chromosphere on large fields-of-view with time evolution. This allows us to understand better this region of the Sun, where large spatial and temporal scales are crucial.
翻訳日:2021-11-23 17:29:55 公開日:2021-11-20
# deep spokenキーワードスポッティング:概要

Deep Spoken Keyword Spotting: An Overview ( http://arxiv.org/abs/2111.10592v1 )

ライセンス: Link先を確認
Iv\'an L\'opez-Espejo and Zheng-Hua Tan and John Hansen and Jesper Jensen(参考訳) Spokenキーワードスポッティング(KWS)は、オーディオストリーム内のキーワードの識別を扱うもので、数年前にディープラーニングによって導入されたパラダイムシフトによって急速に成長する技術となっている。 これにより、音声アシスタントのアクティベートなど、さまざまな目的の小さな電子デバイスに、深いKWSを迅速に組み込むことが可能になった。 このテクノロジーの社会的利用に関して、持続的な成長が見込まれている。 したがって、深いkwsが、常にkwsのパフォーマンス向上と計算複雑性の低減を追求する音声科学者の間でホットな研究テーマになっていることは驚くにあたらない。 この文脈は,この技術に興味を持つ実践者や研究者を支援するために,深い音声kwに関する文献レビューを行う動機となっている。 具体的には、この概要は、深いKWSシステム(音声特徴、音響モデリング、後処理を含む)、堅牢性手法、アプリケーション、データセット、評価指標、深いKWSシステムの性能およびオーディオ視覚KWSを網羅的に分析することで包括的特性を有する。 本稿では,音声認識研究から採用される方向や,音声KWSの課題に特有の方向など,今後の研究の方向性について分析する。

Spoken keyword spotting (KWS) deals with the identification of keywords in audio streams and has become a fast-growing technology thanks to the paradigm shift introduced by deep learning a few years ago. This has allowed the rapid embedding of deep KWS in a myriad of small electronic devices with different purposes like the activation of voice assistants. Prospects suggest a sustained growth in terms of social use of this technology. Thus, it is not surprising that deep KWS has become a hot research topic among speech scientists, who constantly look for KWS performance improvement and computational complexity reduction. This context motivates this paper, in which we conduct a literature review into deep spoken KWS to assist practitioners and researchers who are interested in this technology. Specifically, this overview has a comprehensive nature by covering a thorough analysis of deep KWS systems (which includes speech features, acoustic modeling and posterior handling), robustness methods, applications, datasets, evaluation metrics, performance of deep KWS systems and audio-visual KWS. The analysis performed in this paper allows us to identify a number of directions for future research, including directions adopted from automatic speech recognition research and directions that are unique to the problem of spoken KWS.
翻訳日:2021-11-23 17:29:33 公開日:2021-11-20
# フレーゲシステムの学習アルゴリズムと自動化性

Learning algorithms versus automatability of Frege systems ( http://arxiv.org/abs/2111.10626v1 )

ライセンス: Link先を確認
J\'an Pich, Rahul Santhanam(参考訳) 命題証明システムにおける証明探索を自動化する学習アルゴリズムとアルゴリズムを接続する: 十分に強力で十分に整備された命題証明システム $p$ に対して、次の文が等価であることを証明する 1. 証明可能な学習: $p$ は、メンバーシップクエリを伴う一様分布上のサブ指数回路によってpサイズ回路が学習できることを効率的に証明する。 2. 確率的自動化性:$P$は、pサイズの回路の下位境界を表す命題式上の一様でない回路によって自動化可能であることを効率よく証明する。 ここでは、$P$は十分強力で、ぼくなら十分だ。 -III。 hold: i. $p$ p-simulates je\v{r}\'abek's system $wf$ (これは拡大フレージ系$ef$ を単射的な弱ピローホール原理で強化する) ii。 p$ は p-simulate $wf$; iii という標準証明システムの基本的な性質を満たす。 p$ は、いくつかのブール関数 $h$ に対して効率的に証明され、$h$ は、サブ指数サイズの回路では平均で難しい。 例えば、III の場合。 1 と 2 は $p=wf$ と等価である。 もし関数 $h\in NE\cap coNE$ が存在して、大きさが 2^{n/4}$ の回路では平均的に困難であるなら、各大きな$n$ に対して、プロパティ I を満たす明示的な命題証明システム $P$ が存在する。 -III。 つまり、アイテム1と2の等価性が$P$である。

We connect learning algorithms and algorithms automating proof search in propositional proof systems: for every sufficiently strong, well-behaved propositional proof system $P$, we prove that the following statements are equivalent, 1. Provable learning: $P$ proves efficiently that p-size circuits are learnable by subexponential-size circuits over the uniform distribution with membership queries. 2. Provable automatability: $P$ proves efficiently that $P$ is automatable by non-uniform circuits on propositional formulas expressing p-size circuit lower bounds. Here, $P$ is sufficiently strong and well-behaved if I.-III. holds: I. $P$ p-simulates Je\v{r}\'abek's system $WF$ (which strengthens the Extended Frege system $EF$ by a surjective weak pigeonhole principle); II. $P$ satisfies some basic properties of standard proof systems which p-simulate $WF$; III. $P$ proves efficiently for some Boolean function $h$ that $h$ is hard on average for circuits of subexponential size. For example, if III. holds for $P=WF$, then Items 1 and 2 are equivalent for $P=WF$. If there is a function $h\in NE\cap coNE$ which is hard on average for circuits of size $2^{n/4}$, for each sufficiently big $n$, then there is an explicit propositional proof system $P$ satisfying properties I.-III., i.e. the equivalence of Items 1 and 2 holds for $P$.
翻訳日:2021-11-23 17:29:13 公開日:2021-11-20
# 相関クラスタリングとクラスタ削除のための高速決定論的近似アルゴリズム

Faster Deterministic Approximation Algorithms for Correlation Clustering and Cluster Deletion ( http://arxiv.org/abs/2111.10699v1 )

ライセンス: Link先を確認
Nate Veldt(参考訳) 相関クラスタリングは、ペアワイズ類似性と異種性スコアに基づくデータセットのパーティショニングのためのフレームワークであり、バイオインフォマティクス、ソーシャルネットワーク分析、コンピュータビジョンにおける多様な応用に使われている。 多くの近似アルゴリズムがこの問題のために設計されているが、最も理論的な結果は高価な線形プログラミング緩和による下界の獲得に依存している。 本稿では, 相関クラスタリング問題と強三進的閉包の原理に関連するエッジラベリング問題との新たな関係性を示す。 我々はこれらの接続を用いて、決定論的定数係数近似を保証する相関クラスタリングの新しい近似アルゴリズムを開発し、標準線形プログラミング緩和を回避する。 当社のアプローチは,クラスタ内に負のエッジを置くことを厳格に禁止する,クラスタ削除という,相関クラスタの変種にも拡張しています。 その結果,正規緩和よりも制約がはるかに少ない単純な線形プログラムに基づいて,クラスタ欠失と相関クラスタリングのための4近似アルゴリズムが得られた。 さらに重要なことは、ある種の補助グラフやハイパーグラフにおける最大マッチングの計算に基づいて、純粋に組合せ可能な高速な手法を開発することである。 これは完全な非重み付き相関クラスタリングの組合せ 6-近似につながり、線形プログラミングに依存しない任意のメソッドに対して最も決定論的結果となる。 また、クラスタ削除のための最初の組合せ定数係数近似も提示する。

Correlation clustering is a framework for partitioning datasets based on pairwise similarity and dissimilarity scores, and has been used for diverse applications in bioinformatics, social network analysis, and computer vision. Although many approximation algorithms have been designed for this problem, the best theoretical results rely on obtaining lower bounds via expensive linear programming relaxations. In this paper we prove new relationships between correlation clustering problems and edge labeling problems related to the principle of strong triadic closure. We use these connections to develop new approximation algorithms for correlation clustering that have deterministic constant factor approximation guarantees and avoid the canonical linear programming relaxation. Our approach also extends to a variant of correlation clustering called cluster deletion, that strictly prohibits placing negative edges inside clusters. Our results include 4-approximation algorithms for cluster deletion and correlation clustering, based on simplified linear programs with far fewer constraints than the canonical relaxations. More importantly, we develop faster techniques that are purely combinatorial, based on computing maximal matchings in certain auxiliary graphs and hypergraphs. This leads to a combinatorial 6-approximation for complete unweighted correlation clustering, which is the best deterministic result for any method that does not rely on linear programming. We also present the first combinatorial constant factor approximation for cluster deletion.
翻訳日:2021-11-23 17:28:40 公開日:2021-11-20
# 四元系グラフ畳み込みネットワークによる推薦

Quaternion-Based Graph Convolution Network for Recommendation ( http://arxiv.org/abs/2111.10536v1 )

ライセンス: Link先を確認
Yaxing Fang, Pengpeng Zhao, Guanfeng Liu, Yanchi Liu, Victor S. Sheng, Lei Zhao, Xiaofang Zhou(参考訳) グラフ畳み込みネットワーク(GCN)は,ユーザおよびアイテムの埋め込みにおける表現学習能力の推奨システムに広く応用されている。 しかし、GCNはその再帰的なメッセージ伝達機構のため、実世界で一般的なノイズや不完全グラフに対して脆弱である。 文献では、メッセージ伝達中の特徴変換を削除することを提案するが、グラフ構造的特徴を効果的に捉えることはできない。 さらに、ユークリッド空間のユーザやアイテムをモデル化し、複雑なグラフをモデリングする際に高い歪みがあることが示され、グラフ構造的特徴を捉える能力が劣化し、準最適性能がもたらされる。 そこで本稿では,単純な四元系グラフ畳み込みネットワーク(qgcn)レコメンデーションモデルを提案する。 提案モデルでは,ハイパーコンプレックス四元数空間を用いてユーザとアイテムの表現と特徴変換を学習し,性能とロバスト性の両方を改善する。 具体的には、まずすべてのユーザとアイテムを四元数空間に埋め込む。 次に,4次特徴変換を伴う4次埋め込み伝搬層を導入し,メッセージ伝搬を行う。 最後に、各層で生成された埋め込みと平均プール戦略を組み合わせることで、最終的な埋め込みを推薦する。 3つのベンチマークデータセットに関する広範な実験は、提案するqgcnモデルがベースラインメソッドよりも大きなマージンで優れていることを示している。

Graph Convolution Network (GCN) has been widely applied in recommender systems for its representation learning capability on user and item embeddings. However, GCN is vulnerable to noisy and incomplete graphs, which are common in real world, due to its recursive message propagation mechanism. In the literature, some work propose to remove the feature transformation during message propagation, but making it unable to effectively capture the graph structural features. Moreover, they model users and items in the Euclidean space, which has been demonstrated to have high distortion when modeling complex graphs, further degrading the capability to capture the graph structural features and leading to sub-optimal performance. To this end, in this paper, we propose a simple yet effective Quaternion-based Graph Convolution Network (QGCN) recommendation model. In the proposed model, we utilize the hyper-complex Quaternion space to learn user and item representations and feature transformation to improve both performance and robustness. Specifically, we first embed all users and items into the Quaternion space. Then, we introduce the quaternion embedding propagation layers with quaternion feature transformation to perform message propagation. Finally, we combine the embeddings generated at each layer with the mean pooling strategy to obtain the final embeddings for recommendation. Extensive experiments on three public benchmark datasets demonstrate that our proposed QGCN model outperforms baseline methods by a large margin.
翻訳日:2021-11-23 17:20:10 公開日:2021-11-20
# 逐次レコメンデーションのためのエッジエンハンスドグローバル不等角グラフニューラルネットワーク

Edge-Enhanced Global Disentangled Graph Neural Network for Sequential Recommendation ( http://arxiv.org/abs/2111.10539v1 )

ライセンス: Link先を確認
Yunyi Li, Pengpeng Zhao, Guanfeng Liu, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Xiaofang Zhou(参考訳) 逐次レコメンデーションは、レコメンデーションシステムで広く使われているトピックである。 既存の研究は、リカレントネットワークやセルフアテンション機構といった様々な手法に基づく逐次レコメンデーションシステムの予測能力の向上に寄与している。 しかし、ユーザ行動の動機となる要因として、アイテム間のさまざまな関係を発見して区別することができない。 本稿では,グローバルアイテム表現用項目とローカルユーザ意図学習の関係情報を取得するために,エッジ拡張グローバルディスタングルグラフニューラルネットワーク(EGD-GNN)モデルを提案する。 グローバルレベルでは、アイテムの関係をモデル化するために、すべてのシーケンスにグローバルリンクグラフを構築します。 次に, エッジ情報を異なるチャネルに分解し, 対象項目を隣接ノードから表現できるように, チャネルアウェア不連続学習層を設計した。 ローカルレベルでは、変動型自動エンコーダフレームワークを適用し、現在のシーケンスに関するユーザの意図を学習する。 提案手法を実世界の3つのデータセットで評価する。 実験の結果,本モデルは最先端のベースラインよりも重要な改善が得られ,項目の特徴を識別できることがわかった。

Sequential recommendation has been a widely popular topic of recommender systems. Existing works have contributed to enhancing the prediction ability of sequential recommendation systems based on various methods, such as recurrent networks and self-attention mechanisms. However, they fail to discover and distinguish various relationships between items, which could be underlying factors which motivate user behaviors. In this paper, we propose an Edge-Enhanced Global Disentangled Graph Neural Network (EGD-GNN) model to capture the relation information between items for global item representation and local user intention learning. At the global level, we build a global-link graph over all sequences to model item relationships. Then a channel-aware disentangled learning layer is designed to decompose edge information into different channels, which can be aggregated to represent the target item from its neighbors. At the local level, we apply a variational auto-encoder framework to learn user intention over the current sequence. We evaluate our proposed method on three real-world datasets. Experimental results show that our model can get a crucial improvement over state-of-the-art baselines and is able to distinguish item features.
翻訳日:2021-11-23 17:19:48 公開日:2021-11-20
# フェデレーション学習を用いた衛星ベースの計算ネットワーク

Satellite Based Computing Networks with Federated Learning ( http://arxiv.org/abs/2111.10586v1 )

ライセンス: Link先を確認
Hao Chen, Ming Xiao, and Zhibo Pang(参考訳) データ駆動アプリケーションの普及と普及により、新しい世代の無線通信、人工知能(AI)によって強化された第6世代(6G)モバイルシステムは、かなりの研究関心を集めている。 6gの様々な候補技術のうち、低軌道(leo)衛星はユビキタス無線アクセスの特徴を持っている。 しかし、衛星通信(SatCom)のコストは、地上の移動ネットワークと比較して依然として高い。 知的適応学習を備えた大規模相互接続デバイスをサポートし,SatComにおける高価なトラフィックを削減するため,LEOベースの衛星通信ネットワークにおけるフェデレーション学習(FL)を提案する。 まず、最先端のLEOベースのSatComとその機械学習(ML)技術について概説し、次に、MLと衛星ネットワークを組み合わせる4つの方法を分析する。 提案手法の学習性能をシミュレーションにより評価し,FLベースのコンピューティングネットワークが通信オーバヘッドと遅延性能を向上させることを示した。 最後に,今後の研究の方向性について論じる。

Driven by the ever-increasing penetration and proliferation of data-driven applications, a new generation of wireless communication, the sixth-generation (6G) mobile system enhanced by artificial intelligence (AI), has attracted substantial research interests. Among various candidate technologies of 6G, low earth orbit (LEO) satellites have appealing characteristics of ubiquitous wireless access. However, the costs of satellite communication (SatCom) are still high, relative to counterparts of ground mobile networks. To support massively interconnected devices with intelligent adaptive learning and reduce expensive traffic in SatCom, we propose federated learning (FL) in LEO-based satellite communication networks. We first review the state-of-the-art LEO-based SatCom and related machine learning (ML) techniques, and then analyze four possible ways of combining ML with satellite networks. The learning performance of the proposed strategies is evaluated by simulation and results reveal that FL-based computing networks improve the performance of communication overheads and latency. Finally, we discuss future research topics along this research direction.
翻訳日:2021-11-23 17:19:03 公開日:2021-11-20
# 実世界のセマンティックグラフプ検出

Real-World Semantic Grasping Detection ( http://arxiv.org/abs/2111.10522v1 )

ライセンス: Link先を確認
Mingshuai Dong, Shimin Wei, Jianqin Yin, Xiuli Yu(参考訳) 対象のセマンティック情報に応じた把握検出範囲の縮小が重要であり、把握検出モデルの精度を改善し、適用範囲を広げる。 研究者たちは、これらの機能をエンドツーエンドのネットワークに組み合わせて、散らかったシーンで特定のオブジェクトを効率的に把握しようとしている。 本稿では,意味認識と把持検出を両立できるエンドツーエンド意味把握検出モデルを提案する。 また,目的の特徴フィルタリング機構を設計し,検出を把握するための意味情報に基づき,単一のオブジェクトの特徴のみを保持する。 この方法はターゲットオブジェクトと弱い相関を持つ背景特徴を効果的に低減し、特徴をよりユニークにし、把持検出の精度と効率を保証する。 実験の結果,提案手法はコーネル把握データセットにおいて98.38%の精度を達成でき,さらに異なるデータセットや評価指標を用いた結果から,提案手法の領域適応性を示した。

Reducing the scope of grasping detection according to the semantic information of the target is significant to improve the accuracy of the grasping detection model and expand its application. Researchers have been trying to combine these capabilities in an end-to-end network to grasp specific objects in a cluttered scene efficiently. In this paper, we propose an end-to-end semantic grasping detection model, which can accomplish both semantic recognition and grasping detection. And we also design a target feature filtering mechanism, which only maintains the features of a single object according to the semantic information for grasping detection. This method effectively reduces the background features that are weakly correlated to the target object, thus making the features more unique and guaranteeing the accuracy and efficiency of grasping detection. Experimental results show that the proposed method can achieve 98.38% accuracy in Cornell grasping dataset Furthermore, our results on different datasets or evaluation metrics show the domain adaptability of our method over the state-of-the-art.
翻訳日:2021-11-23 16:53:50 公開日:2021-11-20
# stylepart: 画像ベースの形状部分操作

StylePart: Image-based Shape Part Manipulation ( http://arxiv.org/abs/2111.10520v1 )

ライセンス: Link先を確認
I-Chao Shen, Li-Wen Su, Yu-Ting Wu, Bing-Yu Chen(参考訳) 画像ベースの「部品制御装置」の欠如により、椅子の背もたれのリサイズやカップハンドルの交換といった人工形状画像の形状操作は、画像ベースの部品コントローラの欠如のため直感的ではない。 そこで本稿では,画像と3次元形状の生成モデルを利用して,画像の直接形状操作を可能にするフレームワークstylepartを提案する。 我々の重要な貢献は、画像生成潜時空間と3次元人造形状属性潜時空間を接続する形状一貫性潜時写像関数である。 本手法は, 形状部を容易に操作できる3次元形状属性に対して, 画像内容を「フォワードマップ」する。 そして、操作された3D形状の属性コードを画像潜在コードに「後方マッピング」して最終操作画像を得る。 提案手法は,部分置換,部分リサイズ,視点操作など様々な操作タスクを通じて実証し,広範なアブレーション研究を通じてその効果を評価する。

Due to a lack of image-based "part controllers", shape manipulation of man-made shape images, such as resizing the backrest of a chair or replacing a cup handle is not intuitive because of the lack of image-based part controllers. To tackle this problem, we present StylePart, a framework that enables direct shape manipulation of an image by leveraging generative models of both images and 3D shapes. Our key contribution is a shape-consistent latent mapping function that connects the image generative latent space and the 3D man-made shape attribute latent space. Our method "forwardly maps" the image content to its corresponding 3D shape attributes, where the shape part can be easily manipulated. The attribute codes of the manipulated 3D shape are then "backwardly mapped" to the image latent code to obtain the final manipulated image. We demonstrate our approach through various manipulation tasks, including part replacement, part resizing, and viewpoint manipulation, and evaluate its effectiveness through extensive ablation studies.
翻訳日:2021-11-23 16:51:15 公開日:2021-11-20
# 不均衡医用画像分類のための医学知識誘導深層学習

Medical Knowledge-Guided Deep Learning for Imbalanced Medical Image Classification ( http://arxiv.org/abs/2111.10620v1 )

ライセンス: Link先を確認
Long Gao, Chang Liu, Dooman Arefan, Ashok Panigrahy, Margarita L. Zuley, Shandong Wu(参考訳) ディープラーニングモデルは、さまざまな画像分類タスクで著しくパフォーマンスが向上した。 しかし、多くのモデルでは、データが不均衡である場合、臨床や医療の状況で性能が低下する。 この課題に対処するために、分類タスクのドメイン固有の知識を活用してモデルの性能を高める医療知識に基づく一級分類手法を提案する。 このアプローチの背景にある根拠は、既存の医学知識の一部がデータ駆動ディープラーニングに組み込まれ、モデル学習が容易になるということです。 本研究では,不均衡画像分類のための深層学習型1クラス分類パイプラインの設計を行い,さらに中間クラスを生成し,高い分類性能を達成することにより,各分類タスクの医学的知識をどのように活用するかを3つのユースケースで示す。 3つの異なる臨床画像分類タスク(合計8459画像)に対するアプローチを評価し,6つの最先端手法と比較して優れたモデル性能を示す。 この作業のすべてのコードは、論文の受理時に公開される。

Deep learning models have gained remarkable performance on a variety of image classification tasks. However, many models suffer from limited performance in clinical or medical settings when data are imbalanced. To address this challenge, we propose a medical-knowledge-gu ided one-class classification approach that leverages domain-specific knowledge of classification tasks to boost the model's performance. The rationale behind our approach is that some existing prior medical knowledge can be incorporated into data-driven deep learning to facilitate model learning. We design a deep learning-based one-class classification pipeline for imbalanced image classification, and demonstrate in three use cases how we take advantage of medical knowledge of each specific classification task by generating additional middle classes to achieve higher classification performances. We evaluate our approach on three different clinical image classification tasks (a total of 8459 images) and show superior model performance when compared to six state-of-the-art methods. All codes of this work will be publicly available upon acceptance of the paper.
翻訳日:2021-11-23 16:50:58 公開日:2021-11-20
# 点クラウド幾何圧縮のためのスパーステンソルに基づく多スケール表現

Sparse Tensor-based Multiscale Representation for Point Cloud Geometry Compression ( http://arxiv.org/abs/2111.10633v1 )

ライセンス: Link先を確認
Jianqiang Wang, Dandan Ding, Zhu Li, Xiaoxing Feng, Chuntong Cao, Zhan Ma(参考訳) 本研究では,sparsepcgcと呼ばれるvoxelized pcgのsparse tensor processing (stp) に基づくマルチスケール表現による統一点クラウド幾何(pcg)圧縮法を開発した。 STPの適用は、Mest-Probable Positively-Occupied Voxels (MP-POV)を中心とした畳み込みのみを実行するため、複雑さを大幅に減らす。 そして、マルチスケール表現により、スケールワイドMP-POVを徐々に圧縮する。 全体的な圧縮効率は各MP-POVの占有確率の近似精度に大きく依存する。 そこで我々は,スパース畳み込みとボクセル再サンプリングからなるスパース畳み込み型ニューラルネットワーク(SparseCNN)を設計し,先行を広範囲に活用する。 次にsparsecnnに基づく占有確率近似 (sopa) モデルを開発し, 自己回帰的近傍を段階的に活用することにより, クロススケール前または多段階のみで占有確率を単段的に推定する。 さらに,sparsecnnベースの局所的近傍埋め込み (slne) を提案し,局所的な空間的変動をsopaを改善するための特徴属性として特徴付ける。 我々は,MPEG G-PCCと他の一般的な学習ベース圧縮方式と比較して,高密度PCG (8iVFB, Owlii) と疎LiDAR PCG (KITTI, Ford) を含む多種多様なデータセットのロスレス圧縮モードおよびロスリー圧縮モードにおける最先端性能を示す。 さらに,提案手法は,ポイントワイド計算による軽量な複雑性と,全スケールにわたるモデル共有による小さな記憶欲求を示す。 再現可能な研究のために、すべての資料をhttps://github.com/N JUVISION/SparsePCGCで公開しています。

This study develops a unified Point Cloud Geometry (PCG) compression method through Sparse Tensor Processing (STP) based multiscale representation of voxelized PCG, dubbed as the SparsePCGC. Applying the STP reduces the complexity significantly because it only performs the convolutions centered at Most-Probable Positively-Occupied Voxels (MP-POV). And the multiscale representation facilitates us to compress scale-wise MP-POVs progressively. The overall compression efficiency highly depends on the approximation accuracy of occupancy probability of each MP-POV. Thus, we design the Sparse Convolution based Neural Networks (SparseCNN) consisting of sparse convolutions and voxel re-sampling to extensively exploit priors. We then develop the SparseCNN based Occupancy Probability Approximation (SOPA) model to estimate the occupancy probability in a single-stage manner only using the cross-scale prior or in multi-stage by step-wisely utilizing autoregressive neighbors. Besides, we also suggest the SparseCNN based Local Neighborhood Embedding (SLNE) to characterize the local spatial variations as the feature attribute to improve the SOPA. Our unified approach shows the state-of-art performance in both lossless and lossy compression modes across a variety of datasets including the dense PCGs (8iVFB, Owlii) and the sparse LiDAR PCGs (KITTI, Ford) when compared with the MPEG G-PCC and other popular learning-based compression schemes. Furthermore, the proposed method presents lightweight complexity due to point-wise computation, and tiny storage desire because of model sharing across all scales. We make all materials publicly accessible at https://github.com/N JUVISION/SparsePCGC for reproducible research.
翻訳日:2021-11-23 16:48:30 公開日:2021-11-20
# 視覚トランスフォーマーは摂動をパッチするのに堅牢か?

Are Vision Transformers Robust to Patch Perturbations? ( http://arxiv.org/abs/2111.10659v1 )

ライセンス: Link先を確認
Jindong Gu, Volker Tresp, Yao Qin(参考訳) Vision Transformer(ViT)の最近の進歩は、画像分類における印象的なパフォーマンスを示しており、畳み込みニューラルネットワーク(CNN)の代替として有望である。 CNNとは異なり、ViTは入力イメージをイメージパッチのシーケンスとして表現する。 個々の入力イメージパッチが自然の腐敗や逆の摂動によって乱される場合、ViTはCNNと比較してどのように機能するのか? 本研究では,パッチワイド摂動に対する視覚変換器の堅牢性について検討する。 驚いたことに、視覚トランスフォーマーはcnnよりも自然に破損したパッチの方が頑丈であるのに対し、逆のパッチの方が脆弱である。 さらに,摂動にパッチを当てる際のロバスト性を理解するために,広範に定性的かつ定量的な実験を行う。 我々は,ViTの自然劣化パッチに対する強い堅牢性と,敵パッチに対する高い脆弱性が,どちらも注意機構によって引き起こされることを明らかにした。 特に、注意モデルは、自然に破損したパッチを効果的に無視することにより、視覚トランスフォーマーのロバスト性を改善するのに役立つ。 しかし、視覚変換器が敵に攻撃されると、注意機構は容易に騙され、敵に乱れたパッチに集中し、誤りを引き起こす。

The recent advances in Vision Transformer (ViT) have demonstrated its impressive performance in image classification, which makes it a promising alternative to Convolutional Neural Network (CNN). Unlike CNNs, ViT represents an input image as a sequence of image patches. The patch-wise input image representation makes the following question interesting: How does ViT perform when individual input image patches are perturbed with natural corruptions or adversarial perturbations, compared to CNNs? In this work, we study the robustness of vision transformers to patch-wise perturbations. Surprisingly, we find that vision transformers are more robust to naturally corrupted patches than CNNs, whereas they are more vulnerable to adversarial patches. Furthermore, we conduct extensive qualitative and quantitative experiments to understand the robustness to patch perturbations. We have revealed that ViT's stronger robustness to natural corrupted patches and higher vulnerability against adversarial patches are both caused by the attention mechanism. Specifically, the attention model can help improve the robustness of vision transformers by effectively ignoring natural corrupted patches. However, when vision transformers are attacked by an adversary, the attention mechanism can be easily fooled to focus more on the adversarially perturbed patches and cause a mistake.
翻訳日:2021-11-23 16:47:54 公開日:2021-11-20
# 全文記事の化学識別におけるタグ一貫性とエンティティ被覆の改善

Improving Tagging Consistency and Entity Coverage for Chemical Identification in Full-text Articles ( http://arxiv.org/abs/2111.10584v1 )

ライセンス: Link先を確認
Hyunjae Kim, Mujeen Sung, Wonjin Yoon, Sungjoon Park, Jaewoo Kang(参考訳) 本論文は,BioCreative VII Track 2 チャレンジの化学識別タスクに提案されたシステムに関する技術的報告である。 この課題の主な特徴は、データがフルテキストの記事で構成されていることであるが、現在のデータセットは通常、タイトルと抽象だけで構成されている。 この問題を効果的に解決するために,同記事内の多数決投票(NER)や,正規化のための辞書とニューラルモデルを組み合わせたハイブリッドアプローチなどを用いて,タグの一貫性とエンティティカバレッジを改善することを目的とする。 NLM-Chemデータセットを用いた実験により,提案手法はモデルの性能,特にリコールの観点から向上することを示した。 最後に,課題に対する公式評価において,本システムは,ベースラインモデルと16チームから80以上の応募を上回って,nerで1位にランクインした。

This paper is a technical report on our system submitted to the chemical identification task of the BioCreative VII Track 2 challenge. The main feature of this challenge is that the data consists of full-text articles, while current datasets usually consist of only titles and abstracts. To effectively address the problem, we aim to improve tagging consistency and entity coverage using various methods such as majority voting within the same articles for named entity recognition (NER) and a hybrid approach that combines a dictionary and a neural model for normalization. In the experiments on the NLM-Chem dataset, we show that our methods improve models' performance, particularly in terms of recall. Finally, in the official evaluation of the challenge, our system was ranked 1st in NER by significantly outperforming the baseline model and more than 80 submissions from 16 teams.
翻訳日:2021-11-23 16:09:25 公開日:2021-11-20
# ドメイン一般化による連合学習

Federated Learning with Domain Generalization ( http://arxiv.org/abs/2111.10487v1 )

ライセンス: Link先を確認
Liling Zhang, Xinyu Lei, Yichun Shi, Hongyu Huang and Chao Chen(参考訳) フェデレートラーニング(FL)は、集中型サーバの助けを借りて、機械学習モデルを共同でトレーニングすることを可能にする。 クライアントはトレーニング中にローカルデータをサーバに送信する必要がないため、クライアントのローカルトレーニングデータは保護される。 FLでは、分散クライアントはローカルデータを独立して収集するので、各クライアントのデータセットは自然に異なるソースドメインを形成します。 実際には、複数のソースドメインでトレーニングされたモデルは、未知のターゲットドメインの一般化性能が低くなる可能性がある。 この問題に対処するため,フェデレーション学習とドメイン一般化能力の両立を図ったFedADGを提案する。 FedADGは、各分布を基準分布に合わせることで、異なるソースドメイン間の分布を測定し調整するために、フェデレーション付き逆学習アプローチを採用している。 参照分布はアライメント中の領域シフト距離を最小化するために(すべてのソース領域に適応して)適応的に生成される。 FedADGでは、各クラスは独立してアライメントされるので、アライメントはきめ細やかである。 このように、学習された特徴表現は普遍的であるはずなので、目に見えない領域でうまく一般化できる。 さまざまなデータセットに関する広範な実験は、集中型データアクセスを可能にする追加のアドバンテージがあるとしても、feedadgが以前のほとんどのソリューションよりも優れたパフォーマンスを示している。 研究再現性をサポートするために、プロジェクトのコードはhttps://github.com/w zml/FedADGで入手できる。

Federated Learning (FL) enables a group of clients to jointly train a machine learning model with the help of a centralized server. Clients do not need to submit their local data to the server during training, and hence the local training data of clients is protected. In FL, distributed clients collect their local data independently, so the dataset of each client may naturally form a distinct source domain. In practice, the model trained over multiple source domains may have poor generalization performance on unseen target domains. To address this issue, we propose FedADG to equip federated learning with domain generalization capability. FedADG employs the federated adversarial learning approach to measure and align the distributions among different source domains via matching each distribution to a reference distribution. The reference distribution is adaptively generated (by accommodating all source domains) to minimize the domain shift distance during alignment. In FedADG, the alignment is fine-grained since each class is aligned independently. In this way, the learned feature representation is supposed to be universal, so it can generalize well on the unseen domains. Extensive experiments on various datasets demonstrate that FedADG has better performance than most of the previous solutions even if they have an additional advantage that allows centralized data access. To support study reproducibility, the project codes are available in https://github.com/w zml/FedADG
翻訳日:2021-11-23 16:09:10 公開日:2021-11-20
# PCAとFRSDを用いたクラスタリングの特徴選択・抽出決定プロセス

Feature selection or extraction decision process for clustering using PCA and FRSD ( http://arxiv.org/abs/2111.10492v1 )

ライセンス: Link先を確認
Jean-Sebastien Dessureault, Daniel Massicotte(参考訳) 本稿では,クラスタリングアルゴリズムを適用する前に特徴を抽出あるいは選択する決定過程について述べる。 もっとも一般的な手法は、通常、教師付き学習技術プロセスのために行われるため、機能の重要性を評価することは明らかではない。 クラスタリングアルゴリズムは教師なしの手法である。 これは、入力データにマッチする既知の出力ラベルがないことを意味する。 本稿では,最後にクラスタリングプロセスを適用することを目的として,データ科学者のパラメータに従って最適な次元削減手法(選択や抽出)を選択する方法を提案する。 Silhouette Decomposition (FRSD) アルゴリズム、主成分分析 (PCA) アルゴリズム、K-Means アルゴリズム、およびその計量である Silhouette Index (SI) を用いる。 本稿では,スマートシティデータセットに基づく5つのユースケースを提案する。 本研究は,教師なし学習プロセスにおける各選択の影響,長所,短所についても検討することを目的としている。

This paper concerns the critical decision process of extracting or selecting the features before applying a clustering algorithm. It is not obvious to evaluate the importance of the features since the most popular methods to do it are usually made for a supervised learning technique process. A clustering algorithm is an unsupervised method. It means that there is no known output label to match the input data. This paper proposes a new method to choose the best dimensionality reduction method (selection or extraction) according to the data scientist's parameters, aiming to apply a clustering process at the end. It uses Feature Ranking Process Based on Silhouette Decomposition (FRSD) algorithm, a Principal Component Analysis (PCA) algorithm, and a K-Means algorithm along with its metric, the Silhouette Index (SI). This paper presents 5 use cases based on a smart city dataset. This research also aims to discuss the impacts, the advantages, and the disadvantages of each choice that can be made in this unsupervised learning process.
翻訳日:2021-11-23 16:08:46 公開日:2021-11-20
# 安全なマルチタスク学習

Safe Multi-Task Learning ( http://arxiv.org/abs/2111.10601v1 )

ライセンス: Link先を確認
Pengxin Guo, Feiyang Ye, and Yu Zhang(参考訳) 近年,Multi-Task Learning (MTL) が注目されている。 しかし、既存のMTLモデルでは、各タスクにおけるシングルタスクモデルよりもパフォーマンスが悪くないことを保証することはできない。 この現象はいくつかの研究で実証的に観察されているが,本論文では負の共有として正式に定義された結果の問題に対処することを目的とした研究はほとんどない。 そこで我々は,すべてのタスク,プライベートエンコーダ,ゲート,プライベートデコーダによって共有される公開エンコーダからなる,安全なマルチタスク学習(SMTL)モデルを提案する。 具体的には、各タスクにはプライベートエンコーダ、ゲート、プライベートデコーダがあり、ゲートは下流のプライベートデコーダに対してプライベートエンコーダとパブリックエンコーダを組み合わせる方法を学ぶ。 推論段階での保存コストを低減するため,公開エンコーダと対応するプライベートエンコーダのいずれかを選択することができるSMTLのライトバージョンが提案されている。 さらに,全てのタスクのデコーダの後に全てのゲートを配置するSMTLの変種を提案する。 いくつかのベンチマークデータセットの実験では,提案手法の有効性が示されている。

In recent years, Multi-Task Learning (MTL) attracts much attention due to its good performance in many applications. However, many existing MTL models cannot guarantee that its performance is no worse than its single-task counterpart on each task. Though this phenomenon has been empirically observed by some works, little work aims to handle the resulting problem, which is formally defined as negative sharing in this paper. To achieve safe multi-task learning where no \textit{negative sharing} occurs, we propose a Safe Multi-Task Learning (SMTL) model, which consists of a public encoder shared by all the tasks, private encoders, gates, and private decoders. Specifically, each task has a private encoder, a gate, and a private decoder, where the gate is to learn how to combine the private encoder and public encoder for the downstream private decoder. To reduce the storage cost during the inference stage, a lite version of SMTL is proposed to allow the gate to choose either the public encoder or the corresponding private encoder. Moreover, we propose a variant of SMTL to place all the gates after decoders of all the tasks. Experiments on several benchmark datasets demonstrate the effectiveness of the proposed methods.
翻訳日:2021-11-23 16:08:31 公開日:2021-11-20
# マルチタスク学習における損失重み付けについて

A Closer Look at Loss Weighting in Multi-Task Learning ( http://arxiv.org/abs/2111.10603v1 )

ライセンス: Link先を確認
Baijiong Lin, Feiyang Ye, and Yu Zhang(参考訳) マルチタスク学習(mtl)は様々な分野で大きな成功を収めているが、ネガティブな効果を避けるために異なるタスクのバランスをとる方法が依然として重要な問題である。 タスクバランスを達成するために、タスクの損失や勾配のバランスをとる作業が数多く存在する。 本稿では,損失重み付けの観点から8つの代表的タスクバランス手法を統一し,一貫した実験比較を行う。 さらに,分布からサンプリングしたランダムな重み付きMLLモデルのトレーニングは,最先端のベースラインよりも高い性能を達成できることがわかった。 そこで本研究では,既存の作業に対して1行追加のコードでのみ実装可能な,ランダム損失重み付け (rlw) と呼ばれる簡易かつ効果的な重み付け戦略を提案する。 理論的には、RLWの収束を解析し、RLWが既存のタスク重み付きモデルよりも局所最小値から逃れる確率が高いことを明らかにする。 XTREMEベンチマークから提案した6つの画像データセットと4つの多言語タスクに対するRLW手法を実験的に評価し,最先端戦略と比較した場合のRLW手法の有効性を示した。

Multi-Task Learning (MTL) has achieved great success in various fields, however, how to balance different tasks to avoid negative effects is still a key problem. To achieve the task balancing, there exist many works to balance task losses or gradients. In this paper, we unify eight representative task balancing methods from the perspective of loss weighting and provide a consistent experimental comparison. Moreover, we surprisingly find that training a MTL model with random weights sampled from a distribution can achieve comparable performance over state-of-the-art baselines. Based on this finding, we propose a simple yet effective weighting strategy called Random Loss Weighting (RLW), which can be implemented in only one additional line of code over existing works. Theoretically, we analyze the convergence of RLW and reveal that RLW has a higher probability to escape local minima than existing models with fixed task weights, resulting in a better generalization ability. Empirically, we extensively evaluate the proposed RLW method on six image datasets and four multilingual tasks from the XTREME benchmark to show the effectiveness of the proposed RLW strategy when compared with state-of-the-art strategies.
翻訳日:2021-11-23 16:08:11 公開日:2021-11-20
# flowvos:ディテール保存と時間一貫性のある1ショットビデオオブジェクトセグメンテーションのための弱い教師付きビジュアルワーピング

FlowVOS: Weakly-Supervised Visual Warping for Detail-Preserving and Temporally Consistent Single-Shot Video Object Segmentation ( http://arxiv.org/abs/2111.10621v1 )

ライセンス: Link先を確認
Julia Gong, F. Christopher Holsinger, Serena Yeung(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)の課題について考察する。 我々のアプローチは、視覚ワープを用いた詳細な保存と時間的整合性に対処することで、以前のVOS作業の欠点を軽減する。 フルオプティカルフローを用いた以前の作業とは対照的に、VOSデータからフローフィールドを学習する、新しいフォアグラウンドターゲットのビジュアルワープアプローチを導入する。 2つの弱い教師付き損失を用いてフレーム間の詳細な動きをキャプチャするためにフローモジュールを訓練する。 従来のフォアグラウンドオブジェクトマスクをターゲットフレームの位置に反動させるオブジェクト指向アプローチは,フロー監視を余分に必要とせずに,高速ランタイムによる詳細なマスク改善を可能にします。 また、最先端のセグメンテーションネットワークに直接統合することもできる。 DAVIS17とYouTubeVOSのベンチマークでは、余分なデータを使用しない最先端のオフラインメソッドや、余分なデータを使用するオンラインメソッドよりも優れています。 定性的に、我々のアプローチは高詳細かつ時間的整合性を持ったセグメンテーションを生成することも示している。

We consider the task of semi-supervised video object segmentation (VOS). Our approach mitigates shortcomings in previous VOS work by addressing detail preservation and temporal consistency using visual warping. In contrast to prior work that uses full optical flow, we introduce a new foreground-targeted visual warping approach that learns flow fields from VOS data. We train a flow module to capture detailed motion between frames using two weakly-supervised losses. Our object-focused approach of warping previous foreground object masks to their positions in the target frame enables detailed mask refinement with fast runtimes without using extra flow supervision. It can also be integrated directly into state-of-the-art segmentation networks. On the DAVIS17 and YouTubeVOS benchmarks, we outperform state-of-the-art offline methods that do not use extra data, as well as many online methods that use extra data. Qualitatively, we also show our approach produces segmentations with high detail and temporal consistency.
翻訳日:2021-11-23 15:50:45 公開日:2021-11-20
# 大規模知識グラフ検索のためのグラフ強化学習

Graph-augmented Learning to Rank for Querying Large-scale Knowledge Graph ( http://arxiv.org/abs/2111.10541v1 )

ライセンス: Link先を確認
Hanning Gao, Lingfei Wu, Po Hu, Zhihua Wei, Fangli Xu and Bo Long(参考訳) 情報検索に基づく知識グラフ質問応答(KGQA)は,大規模知識グラフから回答を取得して回答することを目的としている。 既存の手法の多くは、まず候補回答を含む知識サブグラフ(ksg)を大まかに取得し、それからサブグラフの正確な回答を検索する。 しかしながら、粗い検索されたKSGは、クエリに関わる知識グラフが大規模であることが多いため、数千の候補ノードを含む可能性がある。 この問題に対処するために,我々はまず,検索したKSGを,新しいサブグラフ分割アルゴリズムによって複数の小さなサブKSGに分割し,グラフ拡張学習をランキングモデルに提示し,上位のサブKSGを選択する。 提案モデルでは,新たなサブグラフマッチングネットワークを用いて,問合せとサブグラフの双方のグローバルな相互作用を捉える。 最後に,提案手法の有効性を検証するために,全KSGと上位KSGに回答選択モデルを適用した。 複数のベンチマークデータセットの実験結果から,本手法の有効性が示された。

Knowledge graph question answering (i.e., KGQA) based on information retrieval aims to answer a question by retrieving answer from a large-scale knowledge graph. Most existing methods first roughly retrieve the knowledge subgraphs (KSG) that may contain candidate answer, and then search for the exact answer in the subgraph. However, the coarsely retrieved KSG may contain thousands of candidate nodes since the knowledge graph involved in querying is often of large scale. To tackle this problem, we first propose to partition the retrieved KSG to several smaller sub-KSGs via a new subgraph partition algorithm and then present a graph-augmented learning to rank model to select the top-ranked sub-KSGs from them. Our proposed model combines a novel subgraph matching networks to capture global interactions in both question and subgraphs and an Enhanced Bilateral Multi-Perspective Matching model to capture local interactions. Finally, we apply an answer selection model on the full KSG and the top-ranked sub-KSGs respectively to validate the effectiveness of our proposed graph-augmented learning to rank method. The experimental results on multiple benchmark datasets have demonstrated the effectiveness of our approach.
翻訳日:2021-11-23 15:27:48 公開日:2021-11-20
# 離散表現は視覚トランスフォーマーのロバスト性を強化する

Discrete Representations Strengthen Vision Transformer Robustness ( http://arxiv.org/abs/2111.10493v1 )

ライセンス: Link先を確認
Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul Sukthankar, Irfan Essa(参考訳) Vision Transformer (ViT)は、画像認識のための最先端アーキテクチャとして登場しつつある。 近年の研究では、ViTは畳み込みよりも頑丈であることが示唆されているが、我々の実験では、ViTは局所的な特徴(例えば、核分裂やテクスチャ)に過度に依存しており、グローバルな文脈(例えば、形状と構造)を適切に利用できない。 結果として、ViTは配布外の実世界のデータに一般化できない。 この不足に対処するために,ベクトル量子化エンコーダによって生成された離散トークンを追加することで,vitの入力層をシンプルかつ効果的なアーキテクチャ修正する。 標準の連続画素トークンとは異なり、離散トークンは小さな摂動の下で不変であり、個別に情報を含まないため、vitsは不変であるグローバル情報を学ぶことができる。 実験結果から,4つのアーキテクチャバリアントに離散表現を追加することで,ImageNetのパフォーマンスを維持しながら,7つのImageNetロバストネスベンチマークにおいて,ViTロバストネスが最大12%向上することが示された。

Vision Transformer (ViT) is emerging as the state-of-the-art architecture for image recognition. While recent studies suggest that ViTs are more robust than their convolutional counterparts, our experiments find that ViTs are overly reliant on local features (e.g., nuisances and texture) and fail to make adequate use of global context (e.g., shape and structure). As a result, ViTs fail to generalize to out-of-distribution, real-world data. To address this deficiency, we present a simple and effective architecture modification to ViT's input layer by adding discrete tokens produced by a vector-quantized encoder. Different from the standard continuous pixel tokens, discrete tokens are invariant under small perturbations and contain less information individually, which promote ViTs to learn global information that is invariant. Experimental results demonstrate that adding discrete representation on four architecture variants strengthens ViT robustness by up to 12% across seven ImageNet robustness benchmarks while maintaining the performance on ImageNet.
翻訳日:2021-11-23 15:21:47 公開日:2021-11-20
# CamLiFlow: 双方向カメラ-LiDAR融合による共同光流とシーンフロー推定

CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation ( http://arxiv.org/abs/2111.10502v1 )

ライセンス: Link先を確認
Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Wenjie Li, Lijun Chen(参考訳) 本稿では,同期2次元データと3次元データから光の流れとシーンの流れを同時推定する問題について検討する。 従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使うか、2Dおよび3D情報を `early-fusion' または `late-fusion' の方法でフューズする。 このような1つの大きさのアプローチは、各モダリティの特性を完全に活用したり、モダリティ間の相補性を最大限にするために失敗するジレンマに悩まされる。 そこで我々はCamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。 2Dブランチと3Dブランチで構成され、複数の双方向接続を特定のレイヤで接続する。 従来の研究とは違って,幾何学的特徴をよりよく抽出する点ベース3D分岐を適用し,高密度画像特徴と疎点特徴を融合する対称学習可能な演算子を設計する。 また、3D-2Dプロジェクションの非線形問題を解くために点雲の変換を提案する。 実験の結果、CamLiFlowはより少ないパラメータでより良いパフォーマンスを実現している。 提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。 コードは利用可能になる。

In this paper, we study the problem of jointly estimating the optical flow and scene flow from synchronized 2D and 3D data. Previous methods either employ a complex pipeline which splits the joint task into independent stages, or fuse 2D and 3D information in an ``early-fusion'' or ``late-fusion'' manner. Such one-size-fits-all approaches suffer from a dilemma of failing to fully utilize the characteristic of each modality or to maximize the inter-modality complementarity. To address the problem, we propose a novel end-to-end framework, called CamLiFlow. It consists of 2D and 3D branches with multiple bidirectional connections between them in specific layers. Different from previous work, we apply a point-based 3D branch to better extract the geometric features and design a symmetric learnable operator to fuse dense image features and sparse point features. We also propose a transformation for point clouds to solve the non-linear issue of 3D-2D projection. Experiments show that CamLiFlow achieves better performance with fewer parameters. Our method ranks 1st on the KITTI Scene Flow benchmark, outperforming the previous art with 1/7 parameters. Code will be made available.
翻訳日:2021-11-23 15:21:29 公開日:2021-11-20
# FAMINet: 静的最適化光フローによるリアルタイム半教師付きビデオオブジェクトセグメンテーション学習

FAMINet: Learning Real-time Semi-supervised Video Object Segmentation with Steepest Optimized Optical Flow ( http://arxiv.org/abs/2111.10531v1 )

ライセンス: Link先を確認
Ziyang Liu, Jingmeng Liu, Weihai Chen, Xingming Wu, and Zhengguo Li(参考訳) 半教師付きビデオオブジェクトセグメンテーション(vos: semi-supervised video object segmentation)は、ビデオシーケンス内のいくつかの移動オブジェクトを分割することを目的としている。 光の流れは、セグメンテーション精度を向上させるために、既存の半教師付きVOS法で検討されている。 しかし、光フローに基づく半教師付きVOS法は、光フロー推定の複雑さのため、リアルタイムに動作できない。 本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。 外観ネットワークは、オブジェクトの静的な外観に基づいて初期セグメンテーション結果を出力する。 動きネットワークは、非常に少ないパラメータで光の流れを推定し、オンライン記憶アルゴリズムである relaxed steepest descent によって素早く最適化される。 統合ネットワークは、光学フローを用いて初期セグメンテーション結果を洗練する。 大規模な実験により、FAMINetはDAVISとYouTube-VOSベンチマークで、最先端の半教師付きVOSメソッドよりも優れており、精度と効率のトレードオフが良好であることが示された。 私たちのコードはhttps://github.com/l iuziyang123/faminetで利用可能です。

Semi-supervised video object segmentation (VOS) aims to segment a few moving objects in a video sequence, where these objects are specified by annotation of first frame. The optical flow has been considered in many existing semi-supervised VOS methods to improve the segmentation accuracy. However, the optical flow-based semi-supervised VOS methods cannot run in real time due to high complexity of optical flow estimation. A FAMINet, which consists of a feature extraction network (F), an appearance network (A), a motion network (M), and an integration network (I), is proposed in this study to address the abovementioned problem. The appearance network outputs an initial segmentation result based on static appearances of objects. The motion network estimates the optical flow via very few parameters, which are optimized rapidly by an online memorizing algorithm named relaxed steepest descent. The integration network refines the initial segmentation result using the optical flow. Extensive experiments demonstrate that the FAMINet outperforms other state-of-the-art semi-supervised VOS methods on the DAVIS and YouTube-VOS benchmarks, and it achieves a good trade-off between accuracy and efficiency. Our code is available at https://github.com/l iuziyang123/FAMINet.
翻訳日:2021-11-23 15:21:06 公開日:2021-11-20
# temporal-mpi:tempora l basis learningによる動的シーンモデリングのための多面画像の実現

Temporal-MPI: Enabling Multi-Plane Images for Dynamic Scene Modelling via Temporal Basis Learning ( http://arxiv.org/abs/2111.10533v1 )

ライセンス: Link先を確認
Wenpeng Xing, Jie Chen(参考訳) 静的シーンの新規なビュー合成は、フォトリアリスティックな結果を生み出す上で大きな進歩を遂げている。 しかし、動的コンテンツの没入レンダリングには重要な課題が残っている。 例えば、精巧な画像ベースのレンダリングフレームワークの1つであるマルチプレーン画像(mpi)は、静的なシーンに対して高いノベルビュー合成品質を生み出すが、動的部分のモデリングが困難である。 さらに、mpiによる動的変動のモデリングには、巨大なストレージスペースと長い推論時間が必要になる可能性がある。 本稿では,ビデオ全体を通してリッチな3Dおよび動的変動情報をコンパクトな時間ベースとしてエンコード可能な,新しいテンポラルMPI表現を提案する。 任意の時間における新規ビューは、高度にコンパクトで表現力に富んだ潜在基底と共同学習された係数により、視覚的品質の高いリアルタイムレンダリングが可能となる。 提案する時間的mpiフレームワークは、同等のメモリ消費を前提にすると、従来の動的シーンモデリングフレームワークに比べて3db高い平均ビュー合成psnrで、わずか0.002秒のタイムインスタンスmpiを生成することができる。

Novel view synthesis of static scenes has achieved remarkable advancements in producing photo-realistic results. However, key challenges remain for immersive rendering for dynamic contents. For example, one of the seminal image-based rendering frameworks, the multi-plane image (MPI) produces high novel-view synthesis quality for static scenes but faces difficulty in modeling dynamic parts. In addition, modeling dynamic variations through MPI may require huge storage space and long inference time, which hinders its application in real-time scenarios. In this paper, we propose a novel Temporal-MPI representation which is able to encode the rich 3D and dynamic variation information throughout the entire video as compact temporal basis. Novel-views at arbitrary time-instance will be able to be rendered real-time with high visual quality due to the highly compact and expressive latent basis and the coefficients jointly learned. We show that given comparable memory consumption, our proposed Temporal-MPI framework is able to generate a time-instance MPI with only 0.002 seconds, which is up to 3000 times faster, with 3dB higher average view-synthesis PSNR as compared with other state-of-the-art dynamic scene modelling frameworks.
翻訳日:2021-11-23 15:20:42 公開日:2021-11-20
# パッチ制御空間適応ganによるスケーラブルなunpaired virtual try-onの実現

Towards Scalable Unpaired Virtual Try-On via Patch-Routed Spatially-Adaptive GAN ( http://arxiv.org/abs/2111.10544v1 )

ライセンス: Link先を確認
Zhenyu Xie and Zaiyu Huang and Fuwei Zhao and Haoye Dong and Michael Kampffmeyer and Xiaodan Liang(参考訳) 画像ベースの仮想試行は、人間の中心的な画像生成の最も有望な応用の1つだ。 しかし、ほとんどの試着アプローチは、目標人物にスーツを装着するので、ペア化されたトレーニングデータセットの厳格で制限的な構築を必要とし、スケーラビリティを著しく制限します。 最近のいくつかの研究は、ペアのデータセットを収集する必要性を緩和して、衣服を別の人に直接転送しようとしているが、それらのパフォーマンスは、ペアの(監督された)情報の欠如によって影響を受ける。 特に衣料品の取り乱しや空間情報は課題となり、既存の手法では補助データや広範囲のオンライン最適化手続きが必要となり、スケーラビリティを阻害している。 そこで本研究では,現実世界の仮想試着を容易にする,テクスチャ保存型のSpaTially-Adaptive GAN(PAtch-routed SpaTially-Adaptive GAN, PASTA-GAN)を提案する。 具体的には、各衣服のスタイルと空間情報をアンタングルするために、PASTA-GANは、衣服のテクスチャと形状特性をうまく保持する革新的なパッチ付きアンタングルモジュールから構成される。 原点となる人物キーポイントにより誘導されたパッチ主導の異角形モジュールは、まず衣服を正規化パッチに分解し、服の固有空間情報を排除し、その後、対象者のポーズに合致した整った衣服の正規化パッチを再構築する。 PASTA-GANはさらに空間適応可能な新しい残留ブロックを導入し、より現実的な衣服の詳細を合成する。

Image-based virtual try-on is one of the most promising applications of human-centric image generation due to its tremendous real-world potential. Yet, as most try-on approaches fit in-shop garments onto a target person, they require the laborious and restrictive construction of a paired training dataset, severely limiting their scalability. While a few recent works attempt to transfer garments directly from one person to another, alleviating the need to collect paired datasets, their performance is impacted by the lack of paired (supervised) information. In particular, disentangling style and spatial information of the garment becomes a challenge, which existing methods either address by requiring auxiliary data or extensive online optimization procedures, thereby still inhibiting their scalability. To achieve a \emph{scalable} virtual try-on system that can transfer arbitrary garments between a source and a target person in an unsupervised manner, we thus propose a texture-preserving end-to-end network, the PAtch-routed SpaTially-Adaptive GAN (PASTA-GAN), that facilitates real-world unpaired virtual try-on. Specifically, to disentangle the style and spatial information of each garment, PASTA-GAN consists of an innovative patch-routed disentanglement module for successfully retaining garment texture and shape characteristics. Guided by the source person keypoints, the patch-routed disentanglement module first decouples garments into normalized patches, thus eliminating the inherent spatial information of the garment, and then reconstructs the normalized patches to the warped garment complying with the target person pose. Given the warped garment, PASTA-GAN further introduces novel spatially-adaptive residual blocks that guide the generator to synthesize more realistic garment details.
翻訳日:2021-11-23 15:20:20 公開日:2021-11-20
# スタイルベース画像翻訳における整流子への埋め込み

Delving into Rectifiers in Style-Based Image Translation ( http://arxiv.org/abs/2111.10546v1 )

ライセンス: Link先を確認
Yipeng Zhang, Bingliang Hu, Hailong Ning, Quang Wang(参考訳) 現代の画像翻訳技術はフォトリアリスティックな合成画像を作成することができるが、スタイル制御性は限られており、翻訳エラーに苦しむ可能性がある。 本研究では,画像合成の方向を制御する上で,活性化関数が重要な要素であることを示す。 具体的には、整流器の傾斜パラメータがデータ分布を変化させ、独立して翻訳の方向を制御することができることを示した。 スタイル制御性を改善するために,Adaptive ReLU (AdaReLU) と構造適応関数の2つの簡易かつ効果的な手法を提案する。 adareluはターゲットスタイルに応じて動的に傾斜パラメータを調整でき、適応インスタンス正規化(adain)と組み合わせることで制御性を高めることができる。 一方、構造適応関数により、整流器は特徴写像の構造をより効果的に操作できる。 提案する構造畳み込み(struconv)は、adainによって指定された平均と分散に基づいて活性化すべき領域を選択できる効率的な畳み込みモジュールである。 広範な実験により,提案手法は,スタイルに基づく画像翻訳タスクにおいて,ネットワーク制御性と出力多様性を著しく向上させることができることが示された。

While modern image translation techniques can create photorealistic synthetic images, they have limited style controllability, thus could suffer from translation errors. In this work, we show that the activation function is one of the crucial components in controlling the direction of image synthesis. Specifically, we explicitly demonstrated that the slope parameters of the rectifier could change the data distribution and be used independently to control the direction of translation. To improve the style controllability, two simple but effective techniques are proposed, including Adaptive ReLU (AdaReLU) and structural adaptive function. The AdaReLU can dynamically adjust the slope parameters according to the target style and can be utilized to increase the controllability by combining with Adaptive Instance Normalization (AdaIN). Meanwhile, the structural adaptative function enables rectifiers to manipulate the structure of feature maps more effectively. It is composed of the proposed structural convolution (StruConv), an efficient convolutional module that can choose the area to be activated based on the mean and variance specified by AdaIN. Extensive experiments show that the proposed techniques can greatly increase the network controllability and output diversity in style-based image translation tasks.
翻訳日:2021-11-23 15:19:48 公開日:2021-11-20
# 突発的顔面咬合の影響を低減させる教師・生徒の訓練と三重項損失

Teacher-Student Training and Triplet Loss to Reduce the Effect of Drastic Face Occlusion ( http://arxiv.org/abs/2111.10561v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Georgian Duta, Radu Tudor Ionescu(参考訳) 本研究では,強い隠蔽下での顔の分析を必要とする2つの現実シナリオにおける認識タスクについて検討する。 一方,仮想現実(vr)ヘッドセットを装着した人々の表情を認識することを目的とした。 一方で,年齢を推定し,手術用マスク着用者の性別を識別することを目的とした。 これらすべてのタスクに対して、共通の根拠は、顔の半分が隠されていることである。 この挑戦的な設定では、完全に視覚的な顔で訓練された畳み込みニューラルネットワーク(CNN)は、非常に低いパフォーマンスレベルを示す。 隠蔽面上でのディープラーニングモデルの微調整は非常に有用であるが、完全可視面上で訓練されたモデルから知識を抽出することにより、さらなる性能向上が得られることを示す。 そこで本研究では,教師教育に基づく知識蒸留法と,三重項損失に基づく知識蒸留法について検討した。 私たちの主な貢献は、モデルとタスクをまたがって一般化する三重項損失に基づく知識蒸留に対する新しいアプローチです。 さらに,従来の教員・生徒の訓練や,三重項損失に基づく新しい教員・生徒の訓練で学習した蒸留モデルを組み合わせることを検討する。 多くの場合, 個々の知識蒸留法と複合知識蒸留法の両方が統計的に有意な性能改善をもたらすことを示す実証的証拠を提供する。 我々は,3つの異なるニューラルモデル(VGG-f,VGG-face,ResN et-50)を用いて,様々なタスク(表情認識,性別認識,年齢推定)について実験を行った。

We study a series of recognition tasks in two realistic scenarios requiring the analysis of faces under strong occlusion. On the one hand, we aim to recognize facial expressions of people wearing Virtual Reality (VR) headsets. On the other hand, we aim to estimate the age and identify the gender of people wearing surgical masks. For all these tasks, the common ground is that half of the face is occluded. In this challenging setting, we show that convolutional neural networks (CNNs) trained on fully-visible faces exhibit very low performance levels. While fine-tuning the deep learning models on occluded faces is extremely useful, we show that additional performance gains can be obtained by distilling knowledge from models trained on fully-visible faces. To this end, we study two knowledge distillation methods, one based on teacher-student training and one based on triplet loss. Our main contribution consists in a novel approach for knowledge distillation based on triplet loss, which generalizes across models and tasks. Furthermore, we consider combining distilled models learned through conventional teacher-student training or through our novel teacher-student training based on triplet loss. We provide empirical evidence showing that, in most cases, both individual and combined knowledge distillation methods bring statistically significant performance improvements. We conduct experiments with three different neural models (VGG-f, VGG-face, ResNet-50) on various tasks (facial expression recognition, gender recognition, age estimation), showing consistent improvements regardless of the model or task.
翻訳日:2021-11-23 15:06:53 公開日:2021-11-20
# 変形の学習による局所的特徴の抽出

Extracting Deformation-Aware Local Features by Learning to Deform ( http://arxiv.org/abs/2111.10617v1 )

ライセンス: Link先を確認
Guilherme Potje, Renato Martins, Felipe Cadar and Erickson R. Nascimento(参考訳) 手作りと学習に基づく記述子によって達成された局所的な特徴の抽出の進歩にもかかわらず、それらは依然として非リジッド変換に対する不変性の欠如によって制限されている。 本稿では,非剛体変形に対して頑健な静止画像から特徴量を計算するための新しい手法を提案する。 我々の変形対応ローカル記述子DEALは、極サンプリングと空間変換器のワープを利用して、回転、スケール、画像変形の不変性を提供する。 シミュレーション環境における物体に等尺的非剛性変形を適用してモデルアーキテクチャをエンドツーエンドにトレーニングし、高度に識別可能な局所特徴を提供する。 実験の結果,本手法は,実物と実物の両方の合成変形可能なオブジェクトを静止画像内に有する,最先端の手作り,学習ベース,RGB-D記述子よりも優れていた。 デクリプタのソースコードとトレーニングされたモデルはhttps://www.verlab.d cc.ufmg.br/descripto rs/neurips2021で公開されている。

Despite the advances in extracting local features achieved by handcrafted and learning-based descriptors, they are still limited by the lack of invariance to non-rigid transformations. In this paper, we present a new approach to compute features from still images that are robust to non-rigid deformations to circumvent the problem of matching deformable surfaces and objects. Our deformation-aware local descriptor, named DEAL, leverages a polar sampling and a spatial transformer warping to provide invariance to rotation, scale, and image deformations. We train the model architecture end-to-end by applying isometric non-rigid deformations to objects in a simulated environment as guidance to provide highly discriminative local features. The experiments show that our method outperforms state-of-the-art handcrafted, learning-based image, and RGB-D descriptors in different datasets with both real and realistic synthetic deformable objects in still images. The source code and trained model of the descriptor are publicly available at https://www.verlab.d cc.ufmg.br/descripto rs/neurips2021.
翻訳日:2021-11-23 15:06:28 公開日:2021-11-20
# エッジデバイスの実時間人間検出モデル

Real-time Human Detection Model for Edge Devices ( http://arxiv.org/abs/2111.10653v1 )

ライセンス: Link先を確認
Ali Farouk Khalifa, Hesham N. Elmahdy, and Eman Badr(参考訳) 限られたリソースデバイスに適合する小型の高速監視システムの構築は、難しいが重要な課題だ。 畳み込みニューラルネットワーク(cnns)は、検出および分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。 様々な複雑なCNNモデルが提案され、精度が大幅に向上した。 近年,軽量cnnモデルがリアルタイムタスクに導入されている。 本稿では,raspberry piのような限られたエッジデバイスに適用可能なcnnベースの軽量モデルを提案する。 提案モデルでは,既存手法と同等の性能,小型化,高精度化を実現している。 モデル性能は複数のベンチマークデータセットで評価される。 また、サイズ、平均処理時間、f-scoreの点で既存のモデルと比較される。 今後の研究の強化も提案されている。

Building a small-sized fast surveillance system model to fit on limited resource devices is a challenging, yet an important task. Convolutional Neural Networks (CNNs) have replaced traditional feature extraction and machine learning models in detection and classification tasks. Various complex large CNN models are proposed that achieve significant improvement in the accuracy. Lightweight CNN models have been recently introduced for real-time tasks. This paper suggests a CNN-based lightweight model that can fit on a limited edge device such as Raspberry Pi. Our proposed model provides better performance time, smaller size and comparable accuracy with existing method. The model performance is evaluated on multiple benchmark datasets. It is also compared with existing models in terms of size, average processing time, and F-score. Other enhancements for future research are suggested.
翻訳日:2021-11-23 15:06:09 公開日:2021-11-20
# 不均衡医用画像分類のための制約付き深部1級特徴学習

Constrained Deep One-Class Feature Learning For Classifying Imbalanced Medical Images ( http://arxiv.org/abs/2111.10610v1 )

ライセンス: Link先を確認
Long Gao, Chang Liu, Dooman Arefan, Ashok Panigrahy, Shandong Wu(参考訳) 医療画像データは、通常、異なるクラス間で不均衡である。 マイノリティクラスのサンプルを多数派クラスと区別することでデータ不均衡問題に対処するため、一級分類が注目されている。 従来の手法では、トレーニングサンプルをマッピングするための新機能スペースの学習や、オートエンコーダのようなモデルによるトレーニングサンプルの適合を目標としていた。 これらの手法は主に、与えられた1つのクラスのサンプルの情報が十分に活用されないコンパクトまたは記述的特徴を捉えることに重点を置いている。 本稿では,ボトルネック特性の制約を付加することでコンパクトな特徴を学習し,同時にオートエンコーダを訓練することで記述的特徴を保存できる,新しい深層学習型手法を提案する。 制約損失と自己エンコーダの再構成損失を協調的に最適化することにより,本手法はクラスに関連するより関連性の高い特徴を学習し,多数派と少数派のサンプルを識別しやすくする。 MRI乳房画像, FFDM乳房画像, 胸部X線画像を含む3つの臨床データセットの実験結果から, 従来法と比較して最先端の成績が得られた。

Medical image data are usually imbalanced across different classes. One-class classification has attracted increasing attention to address the data imbalance problem by distinguishing the samples of the minority class from the majority class. Previous methods generally aim to either learn a new feature space to map training samples together or to fit training samples by autoencoder-like models. These methods mainly focus on capturing either compact or descriptive features, where the information of the samples of a given one class is not sufficiently utilized. In this paper, we propose a novel deep learning-based method to learn compact features by adding constraints on the bottleneck features, and to preserve descriptive features by training an autoencoder at the same time. Through jointly optimizing the constraining loss and the autoencoder's reconstruction loss, our method can learn more relevant features associated with the given class, making the majority and minority samples more distinguishable. Experimental results on three clinical datasets (including the MRI breast images, FFDM breast images and chest X-ray images) obtains state-of-art performance compared to previous methods.
翻訳日:2021-11-23 14:55:45 公開日:2021-11-20
# 強化学習に基づく構造型ニューラルエンコーダを用いたRDF-to-Text生成

RDF-to-Text Generation with Reinforcement Learning Based Graph-augmented Structural Neural Encoders ( http://arxiv.org/abs/2111.10545v1 )

ライセンス: Link先を確認
Hanning Gao, Lingfei Wu, Po Hu, Zhihua Wei, Fangli Xu and Bo Long(参考訳) RDFトリプルの集合を考えると、RDF-to-text生成タスクはテキスト記述を生成することを目的としている。 従来の手法では、シーケンシャル・ツー・シーケンスモデルやグラフベースのモデルを使ってrdfトリプルをエンコードし、テキストシーケンスを生成する。 しかしながら、これらのアプローチはrdfトリプル間の局所的および全体的構造情報の明確なモデル化に失敗している。 さらに, 従来の手法では, 生成したテキストの信頼性が低いという無視できない問題にも直面しており, モデル全体の性能に重大な影響を与えている。 そこで本研究では,入力rdf三重項における局所的および大域的構造情報を共学的に学習する2つのグラフ型構造ニューラルエンコーダを組み合わせたモデルを提案する。 テキストの忠実性をさらに向上するため,情報抽出(IE)に基づく強化学習(RL)報酬を革新的に導入する。 まず,事前学習したieモデルを用いて生成したテキストからトリプルを抽出し,抽出したトリプルの正しい数をrl報酬として考慮する。 2つのベンチマークデータセットによる実験結果から,提案したモデルは最先端のベースラインよりも優れており,追加の強化学習報酬は,生成したテキストの忠実性向上に役立つことが示された。

Considering a collection of RDF triples, the RDF-to-text generation task aims to generate a text description. Most previous methods solve this task using a sequence-to-sequence model or using a graph-based model to encode RDF triples and to generate a text sequence. Nevertheless, these approaches fail to clearly model the local and global structural information between and within RDF triples. Moreover, the previous methods also face the non-negligible problem of low faithfulness of the generated text, which seriously affects the overall performance of these models. To solve these problems, we propose a model combining two new graph-augmented structural neural encoders to jointly learn both local and global structural information in the input RDF triples. To further improve text faithfulness, we innovatively introduce a reinforcement learning (RL) reward based on information extraction (IE). We first extract triples from the generated text using a pretrained IE model and regard the correct number of the extracted triples as the additional RL reward. Experimental results on two benchmark datasets demonstrate that our proposed model outperforms the state-of-the-art baselines, and the additional reinforcement learning reward does help to improve the faithfulness of the generated text.
翻訳日:2021-11-23 14:14:46 公開日:2021-11-20
# ACR-Pose:カテゴリーレベル6Dオブジェクトポス推定のための逆正準表現再構成ネットワーク

ACR-Pose: Adversarial Canonical Representation Reconstruction Network for Category Level 6D Object Pose Estimation ( http://arxiv.org/abs/2111.10524v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Zhengbo Song, Jian Xu, Zhicheng Wang, Kejian Wu, Hongyan Liu, and Jun He(参考訳) 近年,正準3次元表現の再構築により,カテゴリーレベルの6次元物体ポーズ推定が大幅に改善されている。 しかし、既存の方法の復元の質は、まだそれほど良くない。 本稿では,ACR-Pose という新しい逆正準表現再構成ネットワークを提案する。 ACR-Poseはリコンストラクタとディスクリミネータで構成される。 Reconstructorは主に2つの新しいサブモジュールで構成されている: Pose-Irrelevant Module (PIM) と Relational Reconstruction Module (RRM) である。 PIMはレコンストラクタを回転や翻訳に敏感にするために標準的特徴を学習する傾向があり、RRMは異なる入力モード間の重要な関係情報を探索して高品質な特徴を生成する。 その後、判別器を用いて再構成者を誘導し、現実的な正準表現を生成する。 リコンストラクタと判別器は、敵の訓練を通じて最適化を学ぶ。 代表的なNOCS-CAMERAとNOCS-REALデータセットの実験結果から,本手法が最先端の性能を実現することを示す。

Recently, category-level 6D object pose estimation has achieved significant improvements with the development of reconstructing canonical 3D representations. However, the reconstruction quality of existing methods is still far from excellent. In this paper, we propose a novel Adversarial Canonical Representation Reconstruction Network named ACR-Pose. ACR-Pose consists of a Reconstructor and a Discriminator. The Reconstructor is primarily composed of two novel sub-modules: Pose-Irrelevant Module (PIM) and Relational Reconstruction Module (RRM). PIM tends to learn canonical-related features to make the Reconstructor insensitive to rotation and translation, while RRM explores essential relational information between different input modalities to generate high-quality features. Subsequently, a Discriminator is employed to guide the Reconstructor to generate realistic canonical representations. The Reconstructor and the Discriminator learn to optimize through adversarial training. Experimental results on the prevalent NOCS-CAMERA and NOCS-REAL datasets demonstrate that our method achieves state-of-the-art performance.
翻訳日:2021-11-23 14:13:48 公開日:2021-11-20
# 分類学習のためのパラメトリック損失を進化させるメタラーニングタスクの生成

Generating meta-learning tasks to evolve parametric loss for classification learning ( http://arxiv.org/abs/2111.10583v1 )

ライセンス: Link先を確認
Zhaoyang Hai, Xiabi Liu, Yuchen Ren, Nouman Q. Soomro(参考訳) メタラーニングの分野は近年劇的に関心が高まっている。 既存のメタラーニングアプローチでは、トレーニングのための学習タスクは通常、公開データセットから収集されるため、大量のトレーニングデータで十分な数のメタラーニングタスクを取得することが困難になる。 本稿では,無作為なメタ学習タスクに基づくメタ学習手法を提案し,ビッグデータに基づく分類学習におけるパラメトリックな損失を求める。 この損失はメタロスネットワーク(MLN)と呼ばれるディープニューラルネットワークによって表現される。 MLNを学習するために,学習データ,検証データ,および対応する接地トラス線形分類器をランダムに生成することにより,多数の分類学習タスクを構築する。 我々のアプローチには2つの利点がある。 まず、トレーニングデータの多い十分なメタ学習タスクを容易に得ることができる。 次に、学習した分類器と地中モデルとの差を計測し、mlnの性能を検証精度よりも正確に反映するように地中分類器を付与する。 この差に基づき、最適なMLNを求めるために進化戦略アルゴリズムを適用した。 その結果、MLNは、線形分類器学習タスクの生成に十分な学習効果をもたらすだけでなく、生成された非線形分類器学習タスクや様々な公共分類タスクにも非常にうまく振る舞う。 MLNはクロスエントロピー(CE)と平均二乗誤差(MSE)を安定的に上回り、精度と一般化能力をテストする。 これらの結果から,生成学習タスクを用いたメタラーニング効果が満足できる可能性が示唆された。

The field of meta-learning has seen a dramatic rise in interest in recent years. In existing meta-learning approaches, learning tasks for training meta-models are usually collected from public datasets, which brings the difficulty of obtaining a sufficient number of meta-learning tasks with a large amount of training data. In this paper, we propose a meta-learning approach based on randomly generated meta-learning tasks to obtain a parametric loss for classification learning based on big data. The loss is represented by a deep neural network, called meta-loss network (MLN). To train the MLN, we construct a large number of classification learning tasks through randomly generating training data, validation data, and corresponding ground-truth linear classifier. Our approach has two advantages. First, sufficient meta-learning tasks with large number of training data can be obtained easily. Second, the ground-truth classifier is given, so that the difference between the learned classifier and the ground-truth model can be measured to reflect the performance of MLN more precisely than validation accuracy. Based on this difference, we apply the evolutionary strategy algorithm to find out the optimal MLN. The resultant MLN not only leads to satisfactory learning effects on generated linear classifier learning tasks for testing, but also behaves very well on generated nonlinear classifier learning tasks and various public classification tasks. Our MLN stably surpass cross-entropy (CE) and mean square error (MSE) in testing accuracy and generalization ability. These results illustrate the possibility of achieving satisfactory meta-learning effects using generated learning tasks.
翻訳日:2021-11-23 14:10:49 公開日:2021-11-20
# ニューラルSchr\"odinger-F\"ollmer Flowsによるベイズ学習

Bayesian Learning via Neural Schr\"odinger-F\"ollmer Flows ( http://arxiv.org/abs/2111.10510v1 )

ライセンス: Link先を確認
Francisco Vargas, Andrius Ovsianas, David Fernandes, Mark Girolami, Neil Lawrence, Nikolas N\"usken(参考訳) 本研究では,確率制御に基づく大規模データセットにおけるベイズ推定の新しい枠組みについて検討する。 我々は、確率勾配ランゲヴィンダイナミクス(SGLD)のような一般的な定常法に代わる有限時間制御を提唱する。 さらに,本フレームワークの既存の理論的保証について議論し,SDEモデルにおける既存のVIルーチンとの接続を確立する。

In this work we explore a new framework for approximate Bayesian inference in large datasets based on stochastic control. We advocate stochastic control as a finite time alternative to popular steady-state methods such as stochastic gradient Langevin dynamics (SGLD). Furthermore, we discuss and adapt the existing theoretical guarantees of this framework and establish connections to already existing VI routines in SDE-based models.
翻訳日:2021-11-23 14:04:29 公開日:2021-11-20
# 医療免許試験項目バンクにおける言語パターンの検討

Exploring Language Patterns in a Medical Licensure Exam Item Bank ( http://arxiv.org/abs/2111.10501v1 )

ライセンス: Link先を確認
Swati Padhee, Kimberly Swygert, Ian Micir(参考訳) 本研究では, 自然言語処理モデルを用いて, 医療用ライセンス試験における項目作成者が使用する言語パターンが, バイアスのある言語やステレオタイプ言語の証拠を含むかどうかを評価する。 項目言語選択におけるこの種の偏見は、内容の妥当性とテストスコアの妥当性の検証を脅かす可能性があるため、医学的ライセンス評価の項目に特に影響を及ぼす可能性がある。 私たちの知る限りでは、これは機械学習(ML)とNLPを使用して、大きなアイテムバンクで言語バイアスを探索する最初の試みです。 提案手法は, 類似の項目を列挙して学習した予測アルゴリズムを用いて, 臨床科学における偏りのある言語や, 定型的な患者特性を評価できることを示す。 この知見は, テスト項目に見られる定型的な言語パターンに対処し, 必要に応じて, それらの項目を効率的に更新し, 現代の規範を反映し, テストスコアの妥当性を裏付けるエビデンスを改善する手法の開発を導く可能性がある。

This study examines the use of natural language processing (NLP) models to evaluate whether language patterns used by item writers in a medical licensure exam might contain evidence of biased or stereotypical language. This type of bias in item language choices can be particularly impactful for items in a medical licensure assessment, as it could pose a threat to content validity and defensibility of test score validity evidence. To the best of our knowledge, this is the first attempt using machine learning (ML) and NLP to explore language bias on a large item bank. Using a prediction algorithm trained on clusters of similar item stems, we demonstrate that our approach can be used to review large item banks for potential biased language or stereotypical patient characteristics in clinical science vignettes. The findings may guide the development of methods to address stereotypical language patterns found in test items and enable an efficient updating of those items, if needed, to reflect contemporary norms, thereby improving the evidence to support the validity of the test scores.
翻訳日:2021-11-23 13:29:11 公開日:2021-11-20
# (参考訳) LAnoBERT : BERT Masked Language Modelに基づくシステムログ異常検出 [全文訳有]

LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model ( http://arxiv.org/abs/2111.09564v2 )

ライセンス: CC BY 4.0
Yukyung Lee, Jina Kim and Pilsung Kang(参考訳) コンピュータシステムで生成されたシステムログは、同時に収集され、単純なエラーを判定し、外部の逆侵入やインサイダーの異常行動を検出するための基本データとして使用される大規模データを指す。 システムログ異常検出の目的は、人間の介入を最小限に抑えながら異常を迅速に特定することである。 従来の研究では,様々なログデータを解析器を用いて標準化テンプレートに変換し,アルゴリズムによる異常検出を行った。 これらのメソッドは、ログキーを書き換えるためのテンプレートを生成する。 特に,ログキー内の情報が失われる可能性のあるすべてのログデータに対して,特定のイベントに対応するテンプレートを事前に定義する必要がある。本研究では,BERTモデルを用いたパーサフリーシステムログ異常検出手法であるLAnoBERTを提案する。 提案手法であるLAnoBERTは,BERTに基づく事前学習手法であるマスク付き言語モデリングを用いてモデルを学習し,推論処理中にログキーワードあたりのマスク付き言語モデリング損失関数を用いて教師なし学習に基づく異常検出を行う。 LAnoBERTは、ベンチマークログデータセット、HDFS、BGLを使用して実施された実験において、従来の方法論よりも優れたパフォーマンスを実現し、また、教師付き学習ベースモデルと比較した。

The system log generated in a computer system refers to large-scale data that are collected simultaneously and used as the basic data for determining simple errors and detecting external adversarial intrusion or the abnormal behaviors of insiders. The aim of system log anomaly detection is to promptly identify anomalies while minimizing human intervention, which is a critical problem in the industry. Previous studies performed anomaly detection through algorithms after converting various forms of log data into a standardized template using a parser. These methods involved generating a template for refining the log key. Particularly, a template corresponding to a specific event should be defined in advance for all the log data using which the information within the log key may get lost.In this study, we propose LAnoBERT, a parser free system log anomaly detection method that uses the BERT model, exhibiting excellent natural language processing performance. The proposed method, LAnoBERT, learns the model through masked language modeling, which is a BERT-based pre-training method, and proceeds with unsupervised learning-based anomaly detection using the masked language modeling loss function per log key word during the inference process. LAnoBERT achieved better performance compared to previous methodology in an experiment conducted using benchmark log datasets, HDFS, and BGL, and also compared to certain supervised learning-based models.
翻訳日:2021-11-23 10:34:30 公開日:2021-11-20