このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220121となっている論文です。

PDF登録状況(公開日: 20220121)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 車両用エッジクラウドコンピューティングシステムにおける多要求オフロードのためのQoS-SLA対応人工知能適応遺伝的アルゴリズム [全文訳有]

QoS-SLA-Aware Artificial Intelligence Adaptive Genetic Algorithm for Multi-Request Offloading in Integrated Edge-Cloud Computing System for the Internet of Vehicles ( http://arxiv.org/abs/2202.01696v1 )

ライセンス: CC BY 4.0
Leila Ismail, Huned Materwala, and Hossam S. Hassanein(参考訳) internet of vehicles (iov) over vehicular ad-hoc networks (vanets)は、安全な、効率的、快適な旅行のためのスマートシティアプリケーションの開発を可能にする新しい技術である。 これらのアプリケーションには、SLA(Service Level Agreements)で表現された厳しい要件があります。 車両の計算能力とストレージ能力の制限を考えると、アプリケーション要求は統合されたエッジクラウドコンピューティングシステムにオフロードされる。 既存のオフロードソリューションは、単一のSLA制約を尊重しながら、アプリケーションの最適化に重点を置いています。 重複したリクエスト処理の影響は考慮されていない。 車両の速度の変化を考える人はごくわずかである。 本稿では、重なり合う要求処理と動的車両速度の影響を考慮して、異種エッジクラウドコンピューティングシステムにおけるマルチリクエストオフロードのための新しい人工知能(AI)QoS-SLA対応遺伝的アルゴリズムを提案する。 最適化アルゴリズムの目的は、総実行時間を最小化することで、アプリケーションのqos(quality of service)を改善することである。 提案アルゴリズムは適応ペナルティ関数を統合し,待ち時間,処理時間,期限,CPU,メモリ要件の観点からSLAの制約を同化する。 提案したQoS-SLA対応GA,ランダム,GAベースラインアプローチの数値実験と比較解析を行った。 その結果、提案アルゴリズムは、SLA違反が59.9%少ないランダムアプローチに比べて平均1.22倍高速に要求を実行することがわかった。 GAベースラインアプローチはリクエストのパフォーマンスを1.14倍に向上させるが、私たちのアプローチよりもSLA違反が19.8%多い。

Internet of Vehicles (IoV) over Vehicular Ad-hoc Networks (VANETS) is an emerging technology enabling the development of smart cities applications for safer, efficient, and pleasant travel. These applications have stringent requirements expressed in Service Level Agreements (SLAs). Considering vehicles limited computational and storage capabilities, applications requests are offloaded into an integrated edge-cloud computing system. Existing offloading solutions focus on optimizing applications Quality of Service (QoS) while respecting a single SLA constraint. They do not consider the impact of overlapped requests processing. Very few contemplate the varying speed of a vehicle. This paper proposes a novel Artificial Intelligence (AI) QoS-SLA-aware genetic algorithm (GA) for multi-request offloading in a heterogeneous edge-cloud computing system, considering the impact of overlapping requests processing and dynamic vehicle speed. The objective of the optimization algorithm is to improve the applications' Quality of Service (QoS) by minimizing the total execution time. The proposed algorithm integrates an adaptive penalty function to assimilate the SLAs constraints in terms of latency, processing time, deadline, CPU, and memory requirements. Numerical experiments and comparative analysis are achieved between our proposed QoS-SLA-aware GA, random, and GA baseline approaches. The results show that the proposed algorithm executes the requests 1.22 times faster on average compared to the random approach with 59.9% less SLA violations. While the GA baseline approach increases the performance of the requests by 1.14 times, it has 19.8% more SLA violations than our approach.
翻訳日:2022-02-06 11:02:27 公開日:2022-01-21
# (参考訳) 新型コロナウイルス(covid-19)プレスクリーニングソリューション(ai/ml)による米国社会経済のポジティブな影響を測定するための新しいcovid-19電卓の使用 [全文訳有]

Using a Novel COVID-19 Calculator to Measure Positive U.S. Socio-Economic Impact of a COVID-19 Pre-Screening Solution (AI/ML) ( http://arxiv.org/abs/2201.11109v1 )

ライセンス: CC BY 4.0
Richard Swartzbaugh, Amil Khanzada, Praveen Govindan, Mert Pilanci, Ayomide Owoyemi, Les Atlas, Hugo Estrada, Richard Nall, Michael Lotito, Rich Falcone, Jennifer Ranjani J(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは人類を悩ませており、世界の人口は5100万人を超えており、世界経済は2020年に3.5%縮小した。 本稿では、新型コロナウイルスのAI/ML事前スクリーニングソリューション(algorithm & application)の米国社会経済的影響を測定するために、既存の電卓とデータポイントを合成する新型コロナウイルス電卓を提案する。

The COVID-19 pandemic has been a scourge upon humanity, claiming the lives of more than 5.1 million people worldwide; the global economy contracted by 3.5% in 2020. This paper presents a COVID-19 calculator, synthesizing existing published calculators and data points, to measure the positive U.S. socio-economic impact of a COVID-19 AI/ML pre-screening solution (algorithm & application).
翻訳日:2022-01-30 11:33:40 公開日:2022-01-21
# (参考訳) 方法の強化学習:政策規則化によるエージェントキャラクタリゼーション [全文訳有]

Reinforcement Learning Your Way: Agent Characterization through Policy Regularization ( http://arxiv.org/abs/2201.10003v1 )

ライセンス: CC BY 4.0
Charl Maree and Christian Omlin(参考訳) 最先端強化学習(RL)アルゴリズムの複雑さの増大は、説明可能性や理解を阻害する不透明性をもたらす。 これにより、学習方針から情報を抽出し、説明可能性を支援する、いくつかのポストホックな説明可能性手法が開発された。 これらの手法は政策の実証的な観察に依存しており、エージェントの行動の特徴を一般化することを目的としている。 そこで本研究では,目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。 本手法は,本質的な特徴を与える学習中のエージェントの動作をガイドし,学習過程とモデル説明を結びつける。 我々は,提案手法の有効性に関する形式的議論と実証的証拠を提供する。 今後の業務では、個々の金融顧客の投資ポートフォリオを、支出のパーソナリティに基づいて最適化するエージェントの開発に活用するつもりです。

The increased complexity of state-of-the-art reinforcement learning (RL) algorithms have resulted in an opacity that inhibits explainability and understanding. This has led to the development of several post-hoc explainability methods that aim to extract information from learned policies thus aiding explainability. These methods rely on empirical observations of the policy and thus aim to generalize a characterization of agents' behaviour. In this study, we have instead developed a method to imbue a characteristic behaviour into agents' policies through regularization of their objective functions. Our method guides the agents' behaviour during learning which results in an intrinsic characterization; it connects the learning process with model explanation. We provide a formal argument and empirical evidence for the viability of our method. In future work, we intend to employ it to develop agents that optimize individual financial customers' investment portfolios based on their spending personalities.
翻訳日:2022-01-29 11:10:04 公開日:2022-01-21
# (参考訳) 物理駆動畳み込みニューラルネットワークを用いた熱伝導板レイアウト最適化 [全文訳有]

Heat Conduction Plate Layout Optimization using Physics-driven Convolutional Neural Networks ( http://arxiv.org/abs/2201.10002v1 )

ライセンス: CC BY 4.0
Hao Ma, Yang Sun, Mario Chiarelli(参考訳) 熱伝導のレイアウト最適化は工学設計、特に熱感性製品の設計において不可欠である。 最適化アルゴリズムが様々な負荷事例を反復的に評価する場合、従来の数値シミュレーション手法は通常、かなりの計算コストをもたらす。 計算労力を効果的に削減するため、データ駆動アプローチは、所定の外部負荷と様々な幾何間のマッピングとしてサロゲートモデルを訓練するために使用される。 しかし、既存のモデルは、数値シミュレーションによる集中的なトレーニングサンプルを必要とするデータ駆動方式で訓練されており、この問題を効果的に解決していない。 本稿では, 定常熱伝導問題を例として, 物理駆動畳み込みニューラルネットワーク (pd-cnn) 法を提案する。 その後、所定の設計領域におけるホールマスクのサイズと位置を最適化するために、Particle Swarm Optimization (PSO)アルゴリズムを用い、熱伝導場全体の平均温度値を最小化し、熱伝達を最小化する目標を達成する。 提案したPD-CNN最適化フレームワークは,従来のシミュレーション結果と高い整合性を持つフィールドソリューションを予測できるだけでなく,事前のトレーニングデータなしで解空間を生成する。

The layout optimization of the heat conduction is essential during design in engineering, especially for thermal sensible products. When the optimization algorithm iteratively evaluates different loading cases, the traditional numerical simulation methods used usually lead to a substantial computational cost. To effectively reduce the computational effort, data-driven approaches are used to train a surrogate model as a mapping between the prescribed external loads and various geometry. However, the existing model are trained by data-driven methods which requires intensive training samples that from numerical simulations and not really effectively solve the problem. Choosing the steady heat conduction problems as examples, this paper proposes a Physics-driven Convolutional Neural Networks (PD-CNN) method to infer the physical field solutions for random varied loading cases. After that, the Particle Swarm Optimization (PSO) algorithm is used to optimize the sizes and the positions of the hole masks in the prescribed design domain, and the average temperature value of the entire heat conduction field is minimized, and the goal of minimizing heat transfer is achieved. Compared with the existing data-driven approaches, the proposed PD-CNN optimization framework not only predict field solutions that are highly consistent with conventional simulation results, but also generate the solution space with without any pre-obtained training data.
翻訳日:2022-01-29 10:59:00 公開日:2022-01-21
# (参考訳) スパイクQ学習による深層強化学習 [全文訳有]

Deep Reinforcement Learning with Spiking Q-learning ( http://arxiv.org/abs/2201.09754v1 )

ライセンス: CC BY 4.0
Ding Chen, Peixi Peng, Tiejun Huang, Yonghong Tian(参考訳) 特別なニューロモルフィックハードウェアの助けを借りて、スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能を実現することが期待されている。 SNNと深層強化学習(RL)を組み合わせることで、現実的な制御タスクを実現するための有望なエネルギー効率の方法を提供する。 現在、SNNベースのRLメソッドはわずかである。 その多くは、一般化能力がないか、トレーニングで値関数を推定するためにArtificial Neural Networks(ANN)を使用している。 前者はシナリオ毎に多数のハイパーパラメータを調整する必要があり、後者は異なるタイプのRLアルゴリズムの適用を制限し、トレーニングにおける大きなエネルギー消費を無視する。 そこで,本研究では,昆虫に見られる非スパイク型インターニューロンから着想を得て,非スパイク型ニューロンの膜電圧をq値の表現として用いるディープスパイキングq-network(dsqn)を提案し,エンドツーエンドのrlを用いて,高次元感覚入力からロバストなポリシーを直接学習する。 ANNベースのディープQネットワーク(DQN)を多くのゲームで上回り, DSQNの有効性を示す実験を行った。 さらに,DSQNの対向攻撃に対する学習安定性と頑健性について検討した。

With the help of special neuromorphic hardware, spiking neural networks (SNNs) are expected to realize artificial intelligence with less energy consumption. It provides a promising energy-efficient way for realistic control tasks by combing SNNs and deep reinforcement learning (RL). There are only a few existing SNN-based RL methods at present. Most of them either lack generalization ability or employ Artificial Neural Networks (ANNs) to estimate value function in training. The former needs to tune numerous hyper-parameters for each scenario, and the latter limits the application of different types of RL algorithm and ignores the large energy consumption in training. To develop a robust spike-based RL method, we draw inspiration from non-spiking interneurons found in insects and propose the deep spiking Q-network (DSQN), using the membrane voltage of non-spiking neurons as the representation of Q-value, which can directly learn robust policies from high-dimensional sensory inputs using end-to-end RL. Experiments conducted on 17 Atari games demonstrate the effectiveness of DSQN by outperforming the ANN-based deep Q-network (DQN) in most games. Moreover, the experimental results show superior learning stability and robustness to adversarial attacks of DSQN.
翻訳日:2022-01-29 10:51:33 公開日:2022-01-21
# (参考訳) GreaseLM: 質問応答のための拡張言語モデルを提供するグラフ [全文訳有]

GreaseLM: Graph REASoning Enhanced Language Models for Question Answering ( http://arxiv.org/abs/2201.08860v1 )

ライセンス: CC BY 4.0
Xikun Zhang, Antoine Bosselut, Michihiro Yasunaga, Hongyu Ren, Percy Liang, Christopher D. Manning, Jure Leskovec(参考訳) テキストの物語に関する複雑な疑問に答えるには、記述された文脈とそれを支える世界的知識の両方を推論する必要がある。 しかし、ほとんどの現代のqaシステムの基礎である事前学習言語モデル(lm)は、推論に必要な概念間の潜在関係を堅牢に表現していない。 知識グラフ(KG)は、世界知識の構造化された表現でLMを拡張するためにしばしば用いられるが、KG表現と言語コンテキストを効果的に融合し、推論する方法は、状況制約とニュアンスを提供するオープンな疑問である。 本稿では,事前学習されたlmsおよびグラフニューラルネットワークの符号化表現を複数のモダリティ相互作用操作層に融合する新しいモデルであるgraselmを提案する。 両方のモダリティからの情報は互いに伝播し、言語コンテキストの表現が構造化された世界知識によって基礎化され、文脈内の言語ニュアンス(例えば否定、ヘッジ)が知識のグラフ表現に通知される。 コモンセンス推論(CommonsenseQA,Openb ookQA)と医療質問応答(MedQA-USMLE)の3つのベンチマークの結果から、GreaseLMは、状況制約と構造的知識の両方に対する推論を必要とする質問に対して、モデルよりも8倍の精度で回答できることを示した。

Answering complex questions about textual narratives requires reasoning over both stated context and the world knowledge that underlies it. However, pretrained language models (LM), the foundation of most modern QA systems, do not robustly represent latent relationships between concepts, which is necessary for reasoning. While knowledge graphs (KG) are often used to augment LMs with structured representations of world knowledge, it remains an open question how to effectively fuse and reason over the KG representations and the language context, which provides situational constraints and nuances. In this work, we propose GreaseLM, a new model that fuses encoded representations from pretrained LMs and graph neural networks over multiple layers of modality interaction operations. Information from both modalities propagates to the other, allowing language context representations to be grounded by structured world knowledge, and allowing linguistic nuances (e.g., negation, hedging) in the context to inform the graph representations of knowledge. Our results on three benchmarks in the commonsense reasoning (i.e., CommonsenseQA, OpenbookQA) and medical question answering (i.e., MedQA-USMLE) domains demonstrate that GreaseLM can more reliably answer questions that require reasoning over both situational constraints and structured knowledge, even outperforming models 8x larger.
翻訳日:2022-01-29 10:41:39 公開日:2022-01-21
# (参考訳) 機械学習による腎臓結石の生体内認識について [全文訳有]

On the in vivo recognition of kidney stones using machine learning ( http://arxiv.org/abs/2201.08865v1 )

ライセンス: CC BY 4.0
Gilberto Ochoa-Ruiz, Vincent Estrade, Francisco Lopez, Daniel Flores-Araiza, Jonathan El Beze, Dinh-Hoan Trinh, Miguel Gonzalez-Mendoza, Pascal Eschw\`ege, Jacques Hubert, Christian Daul(参考訳) 腎臓結石の種類を決定することで、尿学者は腎結石の再発を避けるための治療を処方することができる。 自動in-vivo画像ベース分類法は,診断の第一段階として必要となる腎臓結石型を即時に同定するための重要なステップとなる。 文献では、前生検データ(すなわち、非常に制御されたシーンと画像取得条件)で、自動腎臓結石分類が実際に実現可能であることが示されている。 本研究は,6つの浅い機械学習手法と3つの深層学習アーキテクチャの腎臓結石認識性能を,尿管内視鏡で取得した尿路結石4種類の生検画像を用いて比較した。 この貢献は、試験された腎臓結石分類器のデータベースの構築と設計について詳述している。 Inception v3アーキテクチャ(それぞれ0.97、0.98、0.97の重み付き精度、リコール、F1スコア)で最高の結果が得られたとしても、適切な色空間とテクスチャの特徴を選択することで、浅い機械学習手法で最も有望なディープラーニング手法の性能を綿密に評価することができる(XGBoost分類器は重み付き精度、リコール、F1スコア値0.96)。 本論文は尿管スコピックで得られた画像から抽出される最も識別性の高い特徴を探索する最初の論文である。

Determining the type of kidney stones allows urologists to prescribe a treatment to avoid recurrence of renal lithiasis. An automated in-vivo image-based classification method would be an important step towards an immediate identification of the kidney stone type required as a first phase of the diagnosis. In the literature it was shown on ex-vivo data (i.e., in very controlled scene and image acquisition conditions) that an automated kidney stone classification is indeed feasible. This pilot study compares the kidney stone recognition performances of six shallow machine learning methods and three deep-learning architectures which were tested with in-vivo images of the four most frequent urinary calculi types acquired with an endoscope during standard ureteroscopies. This contribution details the database construction and the design of the tested kidney stones classifiers. Even if the best results were obtained by the Inception v3 architecture (weighted precision, recall and F1-score of 0.97, 0.98 and 0.97, respectively), it is also shown that choosing an appropriate colour space and texture features allows a shallow machine learning method to approach closely the performances of the most promising deep-learning methods (the XGBoost classifier led to weighted precision, recall and F1-score values of 0.96). This paper is the first one that explores the most discriminant features to be extracted from images acquired during ureteroscopies.
翻訳日:2022-01-29 10:20:15 公開日:2022-01-21
# (参考訳) センスメイキングとナラティブを用いた画像理解システム [全文訳有]

A System for Image Understanding using Sensemaking and Narrative ( http://arxiv.org/abs/2201.09880v1 )

ライセンス: CC BY 4.0
Zev Battad, Mei Si(参考訳) センスメイキングと物語は、人々が周囲の世界をどのように理解するかという、2つの本質的に相互に結びついた概念である。 センスメイキング(英: sensemaking)とは、人々が過去に経験した知識や推論と、世界で遭遇した情報を構造化し、相互に結びつけるプロセスである。 物語は人々が創造するためにセンスメイキングを使用する重要な構成物であり、ある物語の中の情報よりも世界に関するより包括的な説明を提供するものである。 どちらも、人間が世界を解析する上で重要であり、同じことをしようとする計算システムにとって有用である。 本稿では、人々が遭遇した情報に基づいて世界を理解する方法についてのセンスメイキングと物語の理論、そして、センスメイキングと物語研究の分野との関係について論じる。 我々は,視覚的ストーリーテリングという特定の計算課題を強調し,そのソリューションは感覚形成と物語の構成要素を利用することによって拡張できると考えている。 次に,視覚的なストーリーテリングのためのシステムについて,センスメイキングとナラティブを用いて記述し,その実装例について考察する。

Sensemaking and narrative are two inherently interconnected concepts about how people understand the world around them. Sensemaking is the process by which people structure and interconnect the information they encounter in the world with the knowledge and inferences they have made in the past. Narratives are important constructs that people use sensemaking to create; ones that reflect provide a more holistic account of the world than the information within any given narrative is able to alone. Both are important to how human beings parse the world, and both would be valuable for a computational system attempting to do the same. In this paper, we discuss theories of sensemaking and narrative with respect to how people build an understanding of the world based on the information they encounter, as well as the links between the fields of sensemaking and narrative research. We highlight a specific computational task, visual storytelling, whose solutions we believe can be enhanced by employing a sensemaking and narrative component. We then describe our system for visual storytelling using sensemaking and narrative and discuss examples from its current implementation.
翻訳日:2022-01-29 09:48:10 公開日:2022-01-21
# (参考訳) 相互識別的知識伝達による画像間再認識 [全文訳有]

Image-to-Video Re-Identification via Mutual Discriminative Knowledge Transfer ( http://arxiv.org/abs/2201.08887v1 )

ライセンス: CC BY 4.0
Pichao Wang and Fan Wang and Hao Li(参考訳) 画像とビデオの表現のギャップは、画像からビデオへの再識別(I2V Re-ID)を難しくし、近年の研究では知識蒸留(KD)プロセスとしてこの問題を定式化している。 本稿では,映像ベースのリッチ表現をより効果的に画像ベースの表現に転送するための相互識別的知識蒸留フレームワークを提案する。 具体的には、KD用に設計された新規な損失であるトリプルトコントラスト損失(TCL)を提案する。 KDプロセス中、TCL損失は局所構造を転送し、高次情報を活用し、教師と学生のネットワークの不均一な出力の調整を緩和する。 KDの他の損失と比較して、提案したTCL損失は、教師から生徒への局所的な差別的特徴を選択的に伝達し、ReIDに有効である。 tcl損失の他に,教師と学生のネットワークトレーニングを定期化する相互学習も採用している。 本手法の有効性をMARS, DukeMTMC-VideoReID, VeRi-776ベンチマークで実証した。

The gap in representations between image and video makes Image-to-Video Re-identification (I2V Re-ID) challenging, and recent works formulate this problem as a knowledge distillation (KD) process. In this paper, we propose a mutual discriminative knowledge distillation framework to transfer a video-based richer representation to an image based representation more effectively. Specifically, we propose the triplet contrast loss (TCL), a novel loss designed for KD. During the KD process, the TCL loss transfers the local structure, exploits the higher order information, and mitigates the misalignment of the heterogeneous output of teacher and student networks. Compared with other losses for KD, the proposed TCL loss selectively transfers the local discriminative features from teacher to student, making it effective in the ReID. Besides the TCL loss, we adopt mutual learning to regularize both the teacher and student networks training. Extensive experiments demonstrate the effectiveness of our method on the MARS, DukeMTMC-VideoReID and VeRi-776 benchmarks.
翻訳日:2022-01-29 09:34:50 公開日:2022-01-21
# (参考訳) 記述駆動タスク指向ダイアログモデリング [全文訳有]

Description-Driven Task-Oriented Dialog Modeling ( http://arxiv.org/abs/2201.08904v1 )

ライセンス: CC BY 4.0
Jeffrey Zhao, Raghav Gupta, Yuan Cao, Dian Yu, Mingqiu Wang, Harrison Lee, Abhinav Rastogi, Izhak Shafran, Yonghui Wu(参考訳) タスク指向対話(TOD)システムは、与えられたタスクの完了のための会話から重要な情報を識別するために必要である。 このような情報は通常、タスク固有のオントロジーやスキーマに含まれる意図やスロットの観点から指定される。 これらのスキーマはシステム開発者によって設計されているため、スロットとインテントの命名規則はタスク間で均一ではなく、意味を効果的に伝えることができない。 これはデータ内の任意のパターンを記憶するモデルにつながり、最適化性能と一般化をもたらす。 本稿では、名前や表記を完全に自然言語記述に置き換えることで、スキーマを変更することを提案する。 言語記述駆動システムでは,タスク仕様の理解が向上し,状態追跡性能が向上し,データ効率が向上し,目に見えないタスクへの効率的なゼロショット転送が実現された。 このパラダイムに従い、純粋にスキーマ記述と"インデックスピッキング"メカニズムに依存する、シンプルで効果的な説明駆動ダイアログ状態追跡(d3st)モデルを提案する。 我々は,MultiWOZ (Budzianowski et al.,2018), SGD (Rastogi et al., 2020), and the recent SGD-X (Lee et al., 2021)ベンチマークで測定された,我々のアプローチの質,データ効率,堅牢性の優位性を実証した。

Task-oriented dialogue (TOD) systems are required to identify key information from conversations for the completion of given tasks. Such information is conventionally specified in terms of intents and slots contained in task-specific ontology or schemata. Since these schemata are designed by system developers, the naming convention for slots and intents is not uniform across tasks, and may not convey their semantics effectively. This can lead to models memorizing arbitrary patterns in data, resulting in suboptimal performance and generalization. In this paper, we propose that schemata should be modified by replacing names or notations entirely with natural language descriptions. We show that a language description-driven system exhibits better understanding of task specifications, higher performance on state tracking, improved data efficiency, and effective zero-shot transfer to unseen tasks. Following this paradigm, we present a simple yet effective Description-Driven Dialog State Tracking (D3ST) model, which relies purely on schema descriptions and an "index-picking" mechanism. We demonstrate the superiority in quality, data efficiency and robustness of our approach as measured on the MultiWOZ (Budzianowski et al.,2018), SGD (Rastogi et al., 2020), and the recent SGD-X (Lee et al., 2021) benchmarks.
翻訳日:2022-01-29 09:25:25 公開日:2022-01-21
# (参考訳) 不確実性認識モデルによる住宅のエネルギー管理と熱エネルギー貯蔵の予測制御 [全文訳有]

Uncertainty-Cognizan t Model Predictive Control for Energy Management of Residential Buildings with PVT and Thermal Energy Storage ( http://arxiv.org/abs/2201.08909v1 )

ライセンス: CC BY 4.0
Hossein Kalantar-Neyestanaki , Madjid Soltani(参考訳) 建設部門は世界のエネルギー消費の約40%を占めている。 このことは、気候目標を達成するために建物内の再生可能エネルギー資源を利用する大きな機会を明らかにする。 本稿では, ビルの電力・熱エネルギー需要を最小限の運用コストで供給するために, ビルのヒートポンプ, 蓄熱システム, グリッド接続型太陽光発電(PVT)コレクターを併用した建築エネルギーシステムを提案する。 そこで本稿では, PVTエネルギー生成に関する不確実性を考慮しつつ, ビルエネルギーシステム全体の設定点を最適に決定するための確率モデル予測制御(MPC)戦略を提案する。 このシステムは、高ピークからオフピーク時間への電力需要を1-シフトし、電力をグリッドに2-販売することでエネルギーを調停することができる。

The building sector accounts for almost 40 percent of the global energy consumption. This reveals a great opportunity to exploit renewable energy resources in buildings to achieve the climate target. In this context, this paper offers a building energy system embracing a heat pump, a thermal energy storage system along with grid-connected photovoltaic thermal (PVT) collectors to supply both electric and thermal energy demands of the building with minimum operating cost. To this end, the paper develops a stochastic model predictive control (MPC) strategy to optimally determine the set-point of the whole building energy system while accounting for the uncertainties associated with the PVT energy generation. This system enables the building to 1-shift its electric demand from high-peak to off-peak hours and 2- sell electricity to the grid to make energy arbitrage.
翻訳日:2022-01-29 09:06:51 公開日:2022-01-21
# (参考訳) 中間層による最寄りクラスセンターの簡易化 [全文訳有]

Nearest Class-Center Simplification through Intermediate Layers ( http://arxiv.org/abs/2201.08924v1 )

ライセンス: CC BY 4.0
Ido Ben-Shaul, Shai Dekel(参考訳) 近年のDeep Learningは、補間閾値(Interpolation Threshold)を越えて、トレーニング中に発生する幾何学的特性を導入している。 我々は,ネットワークの中間層における神経崩壊現象を考察し,ディープネット内の最寄りのクラス中心ミスマッチの内部構造を強調した。 さらに,これらのプロセスが視覚と言語モデルアーキテクチャの両方で発生することを示す。 最後に,中間層における幾何学的特徴を促進させ,計量の訓練と一般化の両方を改善する確率的変量単純化損失(svsl)を提案する。

Recent advances in theoretical Deep Learning have introduced geometric properties that occur during training, past the Interpolation Threshold -- where the training error reaches zero. We inquire into the phenomena coined Neural Collapse in the intermediate layers of the networks, and emphasize the innerworkings of Nearest Class-Center Mismatch inside the deepnet. We further show that these processes occur both in vision and language model architectures. Lastly, we propose a Stochastic Variability-Simplifi cation Loss (SVSL) that encourages better geometrical features in intermediate layers, and improves both train metrics and generalization.
翻訳日:2022-01-29 08:44:45 公開日:2022-01-21
# AIによる行動クリックストリームデータの再同定

AI-based Re-identification of Behavioral Clickstream Data ( http://arxiv.org/abs/2201.10351v1 )

ライセンス: Link先を確認
Stefan Vamosi and Michael Platzer and Thomas Reutterer(参考訳) AIベースの顔認識、すなわち画像内の個人の再識別は、ビデオ監視、ユーザー認証、友人の写真のタグ付けなど、すでに確立されている技術である。 本論文は, 行動パターンに基づいて, 個人を純粋に同定する上で, 同様の手法が適用可能であることを示す。 レコードリンクに基づく匿名化攻撃とは対照的に、これらの手法では、リリースデータセットと特定された補助データセットとの間のデータポイントの重複は不要である。 レコード間の行動パターンの単なる類似性は、識別された個人に行動データを正しく属性するのに十分である。 さらに,大量のデータユーティリティが破壊されない限り,データの摂動は保護を提供しないことを示すことができる。 これらの調査結果は、現在のプライバシー規制であるGDPR(GDPR)のように、サードパーティと実際の行動データを共有するときの誠実な注意を呼び起こす。 これはまた、ショッピング行動やクリックストリームデータ、ゴキブリなど、潜在的に再識別可能なデータソースを扱う際に、マーケティング領域に強い影響を与える。 さらに私たちは、aiベースの再識別攻撃に対してレジリエントであることが示されている、合成データが有効な代替手段を提供する方法も示しています。

AI-based face recognition, i.e., the re-identification of individuals within images, is an already well established technology for video surveillance, for user authentication, for tagging photos of friends, etc. This paper demonstrates that similar techniques can be applied to successfully re-identify individuals purely based on their behavioral patterns. In contrast to de-anonymization attacks based on record linkage, these methods do not require any overlap in data points between a released dataset and an identified auxiliary dataset. The mere resemblance of behavioral patterns between records is sufficient to correctly attribute behavioral data to identified individuals. Further, we can demonstrate that data perturbation does not provide protection, unless a significant share of data utility is being destroyed. These findings call for sincere cautions when sharing actual behavioral data with third parties, as modern-day privacy regulations, like the GDPR, define their scope based on the ability to re-identify. This has also strong implications for the Marketing domain, when dealing with potentially re-identify-able data sources like shopping behavior, clickstream data or cockies. We also demonstrate how synthetic data can offer a viable alternative, that is shown to be resilient against our introduced AI-based re-identification attacks.
翻訳日:2022-01-26 16:11:08 公開日:2022-01-21
# アダプティブアクティベーションに基づく構造化プルーニング

Adaptive Activation-based Structured Pruning ( http://arxiv.org/abs/2201.10520v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Animesh Jain, Ming Zhao(参考訳) プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。 しかし、既存のプルーニングソリューションの多くは、非構造化プルーニング(非構造化プルーニング)に基づいており、コモディティなハードウェア上で効率的に実行できないモデルを生成し、ユーザが手動でプルーニングプロセスを探索し調整する必要がある。 これらの制約に対処するため,ユーザ要求を満たす小型・高精度・ハードウェア効率のモデルを自動的に,効率的に生成する適応型,アクティベーションベースの構造化プルーニング手法を提案する。 まず,アクティベーションに基づく注目機能マップを用いた反復的構造化プルーニングを提案し,重要でないフィルタを効果的に同定する。 次に、精度、メモリ制約、レイテンシに敏感なタスクのプルーニング目標を自動的に満たす適応プルーニングポリシを提案する。 総合評価の結果,提案手法はCIFAR-10およびImageNetデータセット上での最先端の構造化プルーニング作業を大幅に上回っていることがわかった。 例えば、resnet-56 と cifar-10 では、精度の低下なしに最大パラメータ削減 (79.11%) を達成し、関連する作品の22.81% から 66.07% に、最大フロップス削減 (70.13%) を14.13% から 26.53% に上回った。

Pruning is a promising approach to compress complex deep learning models in order to deploy them on resource-constrained edge devices. However, many existing pruning solutions are based on unstructured pruning, which yield models that cannot efficiently run on commodity hardware, and require users to manually explore and tune the pruning process, which is time consuming and often leads to sub-optimal results. To address these limitations, this paper presents an adaptive, activation-based, structured pruning approach to automatically and efficiently generate small, accurate, and hardware-efficient models that meet user requirements. First, it proposes iterative structured pruning using activation-based attention feature maps to effectively identify and prune unimportant filters. Then, it proposes adaptive pruning policies for automatically meeting the pruning objectives of accuracy-critical, memory-constrained, and latency-sensitive tasks. A comprehensive evaluation shows that the proposed method can substantially outperform the state-of-the-art structured pruning works on CIFAR-10 and ImageNet datasets. For example, on ResNet-56 with CIFAR-10, without any accuracy drop, our method achieves the largest parameter reduction (79.11%), outperforming the related works by 22.81% to 66.07%, and the largest FLOPs reduction (70.13%), outperforming the related works by 14.13% to 26.53%.
翻訳日:2022-01-26 14:06:09 公開日:2022-01-21
# 電気機械の多目的トポロジ最適化のための変分オートエンコーダに基づくメタモデリング

Variational Autoencoder based Metamodeling for Multi-Objective Topology Optimization of Electrical Machines ( http://arxiv.org/abs/2201.08877v1 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops(参考訳) 従来の電気機械モデルの磁気静磁場有限要素解析は、時間と計算コストがかかる。 各マシントポロジはパラメータの異なるセットであるため、設計最適化は独立して実行される。 本稿では,多変量オートエンコーダを用いて,高次元集積設計パラメータを低次元潜在空間にマッピングすることにより,異なるパラメータ化電気機械トポロジの鍵性能指標(kpi)を同時に予測する手法を提案する。 トレーニング後、潜在空間を介して、デコーダと多層ニューラルネットワークは、それぞれ新しい設計をサンプリングし、関連するkpiを予測するメタモデルとして機能する。 これによりパラメータベースの並列マルチトポロジー最適化が可能となる。

Conventional magneto-static finite element analysis of electrical machine models is time-consuming and computationally expensive. Since each machine topology has a distinct set of parameters, design optimization is commonly performed independently. This paper presents a novel method for predicting Key Performance Indicators (KPIs) of differently parameterized electrical machine topologies at the same time by mapping a high dimensional integrated design parameters in a lower dimensional latent space using a variational autoencoder. After training, via a latent space, the decoder and multi-layer neural network will function as meta-models for sampling new designs and predicting associated KPIs, respectively. This enables parameter-based concurrent multi-topology optimization.
翻訳日:2022-01-25 17:15:35 公開日:2022-01-21
# 大規模量子機械学習のためのテンソルリング並列化変分量子回路

Tensor Ring Parametrized Variational Quantum Circuits for Large Scale Quantum Machine Learning ( http://arxiv.org/abs/2201.08878v1 )

ライセンス: Link先を確認
Dheeraj Peddireddy, Vipul Bansal, Zubin Jacob, and Vaneet Aggarwal(参考訳) 量子機械学習(Quantum Machine Learning、QML)は、機械学習の進歩に量子コンピューティングを使うことを提唱する新興研究分野である。 ニューラルネットワークを代替するパラメタライズド変分量子回路(VQC)の発見以来、それらは量子機械学習の様々なタスクに広く採用されてきた。 しかしながら、VQCはニューラルネットワークより優れている可能性にもかかわらず、量子回路のスケーラビリティの課題を考えると、小規模のアプリケーションに限られる。 この欠点に対処するため,テンソルリング表現を用いて回路内の量子状態を圧縮するアルゴリズムを提案する。 テンソル環表現における入力キュービット状態を用いて、単一キュービットゲートはテンソル環表現を保持する。 しかし、一般に2つのキュービットゲートでは同じことが言えず、近似はテンソル環表現として出力を持つために用いられる。 この近似を用いることで、厳密なシミュレーションアルゴリズムによる指数関数的な増加と比較して、ストレージと計算時間はキュービット数と層数で線形に増加する。 この近似はテンソル環 VQC を実装するために用いられる。 テンソルリングVQCのパラメータのトレーニングは勾配降下に基づくアルゴリズムを用いて行われ、バックプロパゲーションのための効率的なアプローチが用いられる。 提案手法はIrisとMNISTの2つのデータセットで評価され,より多くの量子ビットを用いて精度の向上を示す。 様々な回路アーキテクチャを用いたmnistデータセットのバイナリ分類において、irisデータセットでは83.33\%、最大で99.30\%、76.31\%の試験精度を達成する。 IRISデータセットの結果は、Qiskit上に実装されたVQCの結果よりも優れており、スケーラブルであることから、大規模な量子機械学習アプリケーションにVQCが使用される可能性を示している。

Quantum Machine Learning (QML) is an emerging research area advocating the use of quantum computing for advancement in machine learning. Since the discovery of the capability of Parametrized Variational Quantum Circuits (VQC) to replace Artificial Neural Networks, they have been widely adopted to different tasks in Quantum Machine Learning. However, despite their potential to outperform neural networks, VQCs are limited to small scale applications given the challenges in scalability of quantum circuits. To address this shortcoming, we propose an algorithm that compresses the quantum state within the circuit using a tensor ring representation. Using the input qubit state in the tensor ring representation, single qubit gates maintain the tensor ring representation. However, the same is not true for two qubit gates in general, where an approximation is used to have the output as a tensor ring representation. Using this approximation, the storage and computational time increases linearly in the number of qubits and number of layers, as compared to the exponential increase with exact simulation algorithms. This approximation is used to implement the tensor ring VQC. The training of the parameters of tensor ring VQC is performed using a gradient descent based algorithm, where efficient approaches for backpropagation are used. The proposed approach is evaluated on two datasets: Iris and MNIST for the classification task to show the improved accuracy using more number of qubits. We achieve a test accuracy of 83.33\% on Iris dataset and a maximum of 99.30\% and 76.31\% on binary and ternary classification of MNIST dataset using various circuit architectures. The results from the IRIS dataset outperform the results on VQC implemented on Qiskit, and being scalable, demonstrates the potential for VQCs to be used for large scale Quantum Machine Learning applications.
翻訳日:2022-01-25 17:15:21 公開日:2022-01-21
# パーソナライズドドラッグ発見のための強化学習と複雑疾患 : システム薬理学の視点から

Reinforcement Learning for Personalized Drug Discovery and Design for Complex Diseases: A Systems Pharmacology Perspective ( http://arxiv.org/abs/2201.08894v1 )

ライセンス: Link先を確認
Ryan K. Tan, Yang Liu, Lei Xie(参考訳) アルツハイマー病やがんなどの多系統性疾患の多くは、まだ有効な治療を受けていない。 システム薬理学は、治療不能な複雑疾患に対するパーソナライズされた治療を設計するための潜在的に効果的なアプローチである。 本稿では,システム薬理学指向の薬物発見・設計における強化学習の可能性について概説する。 ターゲットに基づく薬物発見に高度な強化学習技術がうまく応用されているにもかかわらず、部分的に観察・変化する環境下での強化学習の一般化性と伝達性を高め、システムレベルの分子型読み出しのための多目的報酬関数を最適化し、分布外データの予測モデルを一般化するために、新しい強化学習技術が必要である。 強化学習と他の機械学習技術、生体物理学や量子コンピューティングといった関連分野との相乗的統合は、パーソナライズ医療のための薬理学指向のデ・ノボ薬品設計の究極の目標を達成するために必要である。

Many multi-genic systematic diseases such as Alzheimer's disease and majority of cancers do not have effective treatments yet. Systems pharmacology is a potentially effective approach to designing personalized therapies for untreatable complexed diseases. In this article, we review the potential of reinforcement learning in systems pharmacology-oriente d drug discovery and design. In spite of successful application of advanced reinforcement learning techniques to target-based drug discovery, new reinforcement learning techniques are needed to boost generalizability and transferability of reinforcement learning in partially observed and changing environments, optimize multi-objective reward functions for system-level molecular phenotype readouts and generalize predictive models for out-of-distribution data. A synergistic integration of reinforcement learning with other machine learning techniques and related fields such as biophysics and quantum computing is needed to achieve the ultimate goal of systems pharmacology-oriente d de novo drug design for personalized medicine.
翻訳日:2022-01-25 17:14:51 公開日:2022-01-21
# AlphaFoldは人工知能による薬物発見を加速する:新しいサイクリン依存性キナーゼ20(CDK20)小分子インヒビターの効率的な発見

AlphaFold Accelerates Artificial Intelligence Powered Drug Discovery: Efficient Discovery of a Novel Cyclin-dependent Kinase 20 (CDK20) Small Molecule Inhibitor ( http://arxiv.org/abs/2201.09647v1 )

ライセンス: Link先を確認
Feng Ren, Xiao Ding, Min Zheng, Mikhail Korzinkin, Xin Cai, Wei Zhu, Alexey Mantsyzov, Alex Aliper, Vladimir Aladinskiy, Zhongying Cao, Shanshan Kong, Xi Long, Bonnie Hei Man Liu, Yingtao Liu, Vladimir Naumov, Anastasia Shneyderman, Ivan V. Ozerov, Ju Wang, Frank W. Pun, Alan Aspuru-Guzik, Michael Levitt, and Alex Zhavoronkov(参考訳) AlphaFoldのコンピュータプログラムはヒトゲノム全体のタンパク質構造を予測し、人工知能(AI)の応用と構造生物学の両方において驚くべきブレークスルーと見なされてきた。 信頼度は様々だが、これらの予測された構造は、新しい標的、特に構造情報に制限のあるものの構造に基づく薬物設計に大きく貢献する可能性がある。 本研究では, 生物計算プラットフォーム pandaomics と生成化学プラットフォーム chemistry42 からなる, エンド・ツー・エンドのai による創薬エンジンに alphafold を適用し, ターゲット選択からヒット同定まで, コストと時間効率の面で実験的な構造を持たず, 新規標的のクラス内ヒット分子を同定した。 パンダオミクスは興味の対象を提供し、化学42はアルファフォールド予測構造に基づいて分子を生成し、選択された分子は生物学的アッセイで合成されテストされた。 このアプローチにより,ターゲット選択から30日以内にkd値が8.9 +/1.6 um (n = 4)のcdk20の小さな分子ヒット化合物を7つの化合物を合成した後に同定した。 我々の知る限りでは、これはCDK20を標的とする最初の報告された小さな分子であり、さらに重要なことは、初期の薬物発見におけるヒット識別プロセスにおけるAlphaFoldの応用の初めての実演である。

The AlphaFold computer program predicted protein structures for the whole human genome, which has been considered as a remarkable breakthrough both in artificial intelligence (AI) application and structural biology. Despite the varying confidence level, these predicted structures still could significantly contribute to the structure-based drug design of novel targets, especially the ones with no or limited structural information. In this work, we successfully applied AlphaFold in our end-to-end AI-powered drug discovery engines constituted of a biocomputational platform PandaOmics and a generative chemistry platform Chemistry42, to identify a first-in-class hit molecule of a novel target without an experimental structure starting from target selection towards hit identification in a cost- and time-efficient manner. PandaOmics provided the targets of interest and Chemistry42 generated the molecules based on the AlphaFold predicted structure, and the selected molecules were synthesized and tested in biological assays. Through this approach, we identified a small molecule hit compound for CDK20 with a Kd value of 8.9 +/- 1.6 uM (n = 4) within 30 days from target selection and after only synthesizing 7 compounds. To the best of our knowledge, this is the first reported small molecule targeting CDK20 and more importantly, this work is the first demonstration of AlphaFold application in the hit identification process in early drug discovery.
翻訳日:2022-01-25 15:31:27 公開日:2022-01-21
# 非平衡変換としての確率正規化流れ

Stochastic normalizing flows as non-equilibrium transformations ( http://arxiv.org/abs/2201.08862v1 )

ライセンス: Link先を確認
Michele Caselle, Elia Cellini, Alessandro Nada, Marco Panero(参考訳) 正規化フローは、従来のモンテカルロシミュレーションよりも効率的に格子場理論をサンプリングするための有望な経路を提供する、深い生成モデルのクラスである。 本研究では, ニューラルネットワーク層をモンテカルロ更新と組み合わせた確率正規化流の理論的な枠組みが, 最近, 格子ゲージ理論における自由エネルギー差を計算するためにデプロイされたjarzynskiの等式に基づく非平衡シミュレーションの基盤となることを述べる。 本稿では,この拡張された生成モデルの効率を最適化するための戦略と応用例を示す。

Normalizing flows are a class of deep generative models that provide a promising route to sample lattice field theories more efficiently than conventional Monte~Carlo simulations. In this work we show that the theoretical framework of stochastic normalizing flows, in which neural-network layers are combined with Monte~Carlo updates, is the same that underlies out-of-equilibrium simulations based on Jarzynski's equality, which have been recently deployed to compute free-energy differences in lattice gauge theories. We lay out a strategy to optimize the efficiency of this extended class of generative models and present examples of applications.
翻訳日:2022-01-25 15:30:10 公開日:2022-01-21
# unbounded lossによるユニバーサルオンライン学習: 必要なのはメモリだけ

Universal Online Learning with Unbounded Losses: Memory Is All You Need ( http://arxiv.org/abs/2201.08903v1 )

ライセンス: Link先を確認
Moise Blanchard, Romain Cosson, Steve Hanneke(参考訳) 我々は,非i.d.プロセスと非有界損失による普遍的一貫したオンライン学習をテーマとして,ハネケのオープンな問題を解決した。 楽観的に普遍的な学習規則の概念は、最小の仮定の下で学習理論を研究するためにハネケによって定義された。 与えられた学習規則は、データ生成プロセスがこの目標を学習規則によって達成できるようにするたびに、低い長期平均損失を達成すると楽観的に普遍的であると言われる。 ハンネケは、無限学習を認める過程の族が、ほぼ確実に有限個の異なる値を持つかどうかというオープンな問題として提起された。 本稿では,この問題を完全に解決し,それが事実であることを示す。 結果として、これは無界損失に対する楽観的普遍的な学習規則の劇的に単純化された定式化を提供する:すなわち、単純な記憶規則はすでに十分である。 この証明は、インスタンス空間のランダムな測定可能な分割を構築することに依存しており、他のオープン問題を解くために独立した関心を持つ可能性がある。 結果を非実現可能設定に拡張することで、楽観的に普遍的なベイズ一貫した学習ルールを提供する。

We resolve an open problem of Hanneke on the subject of universally consistent online learning with non-i.i.d. processes and unbounded losses. The notion of an optimistically universal learning rule was defined by Hanneke in an effort to study learning theory under minimal assumptions. A given learning rule is said to be optimistically universal if it achieves a low long-run average loss whenever the data generating process makes this goal achievable by some learning rule. Hanneke posed as an open problem whether, for every unbounded loss, the family of processes admitting universal learning are precisely those having a finite number of distinct values almost surely. In this paper, we completely resolve this problem, showing that this is indeed the case. As a consequence, this also offers a dramatically simpler formulation of an optimistically universal learning rule for any unbounded loss: namely, the simple memorization rule already suffices. Our proof relies on constructing random measurable partitions of the instance space and could be of independent interest for solving other open questions. We extend the results to the non-realizable setting thereby providing an optimistically universal Bayes consistent learning rule.
翻訳日:2022-01-25 15:29:20 公開日:2022-01-21
# 強凸損失を含む適切なオンライン学習における最適動的後悔

Optimal Dynamic Regret in Proper Online Learning with Strongly Convex Losses and Beyond ( http://arxiv.org/abs/2201.08905v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 強い凸損失を伴う普遍的動的後悔最小化の枠組みについて検討する。 我々は、Baby と Wang 2021 のオープンな問題に、適切な学習設定で、強い適応アルゴリズムは、$\tilde O(d^{1/3} n^{1/3}\text{TV}[u_{1:n}]^{2/3} \vee d)$ を任意のコンパレータ列 $u_1,\ldots,u_n$ に対して、同時に、$n$ は時間地平線、$\text{TV}[u_{1:n}]$ はコンパレータのトータル変分を、ほぼ最適に再現できることを示した。 これらの結果は、Baby や Wang 2021 では考慮されなかった KKT の条件によって課せられる多くの新しい構造を活用して促進される。 (a)非滑らかな損失の処理 (b)後悔の次元依存性を改善すること。 さらに, 適切なオンライン学習を行う場合, exp-concave損失と$L_\infty$制約付き決定セットで, 最適の動的後悔率を導出する。

We study the framework of universal dynamic regret minimization with strongly convex losses. We answer an open problem in Baby and Wang 2021 by showing that in a proper learning setup, Strongly Adaptive algorithms can achieve the near optimal dynamic regret of $\tilde O(d^{1/3} n^{1/3}\text{TV}[u_{1:n}]^{2/3} \vee d)$ against any comparator sequence $u_1,\ldots,u_n$ simultaneously, where $n$ is the time horizon and $\text{TV}[u_{1:n}]$ is the Total Variation of comparator. These results are facilitated by exploiting a number of new structures imposed by the KKT conditions that were not considered in Baby and Wang 2021 which also lead to other improvements over their results such as: (a) handling non-smooth losses and (b) improving the dimension dependence on regret. Further, we also derive near optimal dynamic regret rates for the special case of proper online learning with exp-concave losses and an $L_\infty$ constrained decision set.
翻訳日:2022-01-25 15:29:02 公開日:2022-01-21
# 摩擦スタースポット溶接における溶接部の浸透深さ予測と幾何学的解析のための機械学習アルゴリズム

Machine Learning Algorithms for Prediction of Penetration Depth and Geometrical Analysis of Weld in Friction Stir Spot Welding Process ( http://arxiv.org/abs/2201.09725v1 )

ライセンス: Link先を確認
Akshansh Mishra, Raheem Al-Sabur, Ahmad K. Jassim(参考訳) 今日、製造業は機械学習とデータサイエンスのアルゴリズムの力を利用して、製造機械部品の機械的および微細構造特性の最適化の予測を行っている。 これらのアルゴリズムの適用により、実験時間の短縮につながる実験コストが削減される。 本研究は,SVM(Support Vector Machines)やランダムフォレストアルゴリズム(Random Forest Algorithm),ロバスト回帰アルゴリズム(Robust Regression Algorithm)などのスーパービジョン機械学習アルゴリズムを用いた浸透深度予測に基づく。 aa1230アルミニウム合金の2つの要素を接合するために摩擦スタースポット溶接(fssw)が使用された。 データセットは、回転速度(rpm)、居住時間(秒)、軸負荷(KN)の3つの入力パラメータで構成され、機械学習モデルがトレーニングされ、テストされた。 この結果、ロバスト回帰機械学習アルゴリズムは0.96の判定係数によって残りのアルゴリズムよりも優れていた。 この研究は、溶接部の幾何学的特徴を見つけるための画像処理技術の応用についても強調している。

Nowadays, manufacturing sectors harness the power of machine learning and data science algorithms to make predictions for the optimization of mechanical and microstructure properties of fabricated mechanical components. The application of these algorithms reduces the experimental cost beside leads to reduce the time of experiments. The present research work is based on the prediction of penetration depth using Supervised Machine Learning algorithms such as Support Vector Machines (SVM), Random Forest Algorithm, and Robust Regression algorithm. A Friction Stir Spot Welding (FSSW) was used to join two elements of AA1230 aluminum alloys. The dataset consists of three input parameters: Rotational Speed (rpm), Dwelling Time (seconds), and Axial Load (KN), on which the machine learning models were trained and tested. It observed that the Robust Regression machine learning algorithm outperformed the rest of the algorithms by resulting in the coefficient of determination of 0.96. The research work also highlights the application of image processing techniques to find the geometrical features of the weld formation.
翻訳日:2022-01-25 15:24:33 公開日:2022-01-21
# 目標操作の合理的選択と探索戦略と目標駆動自律性の統合

The Rational Selection of Goal Operations and the Integration ofSearch Strategies with Goal-Driven Autonomy ( http://arxiv.org/abs/2201.08883v1 )

ライセンス: Link先を確認
Sravya Kondrakunta, Venkatsampath Raja Gogineni, Michael T. Cox, Demetris Coleman, Xiaobao Tan, Tony Lin, Mengxue Hou, Fumin Zhang, Frank McQuarrie, Catherine R. Edwards(参考訳) インボディード認知システムとしてのインテリジェント物理システムは、基盤となる制御アーキテクチャを同時に管理しながら高いレベルの推論を行う必要がある。 認識と制御のリンクは、実世界からシンボル表現(およびバック)への連続的な値変換の問題を管理する必要がある。 効果的な行動を生み出すためには、新しい情報を再計画し、取得し、更新し、異常を検出し、対応し、システム目標の様々な操作を実行する能力を含む必要がある。 しかし、これらのプロセスは独立したものではなく、さらなる探索が必要である。 本稿では,複数の目標操作が共起して相互作用する場合のエージェントの選択を検証し,それらの選択方法を確立する。 提案手法の利点を実証し,これに関連するトレードオフを議論し,動的海洋探索タスクにおいて肯定的な結果を示す。

Intelligent physical systems as embodied cognitive systems must perform high-level reasoning while concurrently managing an underlying control architecture. The link between cognition and control must manage the problem of converting continuous values from the real world to symbolic representations (and back). To generate effective behaviors, reasoning must include a capacity to replan, acquire and update new information, detect and respond to anomalies, and perform various operations on system goals. But, these processes are not independent and need further exploration. This paper examines an agent's choices when multiple goal operations co-occur and interact, and it establishes a method of choosing between them. We demonstrate the benefits and discuss the trade offs involved with this and show positive results in a dynamic marine search task.
翻訳日:2022-01-25 15:21:50 公開日:2022-01-21
# ゼロショット構成強化学習のための環境生成

Environment Generation for Zero-Shot Compositional Reinforcement Learning ( http://arxiv.org/abs/2201.08896v1 )

ライセンス: Link先を確認
Izzeddin Gur, Natasha Jaques, Yingjie Miao, Jongwook Choi, Manoj Tiwari, Honglak Lee, Aleksandra Faust(参考訳) 多くの現実世界の問題は構成的であり、それらを解決するには、依存関係グラフとして表現できる、直列または並列の相互依存のサブタスクを完遂する必要がある。 深層強化学習(RL)エージェントは、長い時間的地平線とまばらな報酬のために、複雑なタスクを学ぶのに苦労することが多い。 この問題に対処するために、我々はジェネレータにRLエージェントの現在のスキルレベルに合わせて一連の構成タスクを自動構築するよう訓練する環境構成設計(CoDE)を提案する。 この自動カリキュラムは、エージェントが今まで以上に複雑なタスクを学習することを可能にするだけでなく、エージェントのパフォーマンスが弱いタスクを選択し、その堅牢性とテスト時にゼロショットから見えないタスクを一般化する能力を高める。 本稿では,現在の環境生成手法が構成課題生成に不十分である理由を分析し,これらの問題に対処する新しいアルゴリズムを提案する。 本研究は,Webページの操作と操作に関する現実的な問題を含む,複数の構成課題における学習と一般化を評価した。 我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 webナビゲーションのためのコンポジションミニグリッドとgminiwobという2つの新しいベンチマークフレームワークを提供し、最も強力なベースラインよりも4倍の成功率を示し、3500のプリミティブタスクで学んだ実際のwebサイトのパフォーマンスを示す。

Many real-world problems are compositional - solving them requires completing interdependent sub-tasks, either in series or in parallel, that can be represented as a dependency graph. Deep reinforcement learning (RL) agents often struggle to learn such complex tasks due to the long time horizons and sparse rewards. To address this problem, we present Compositional Design of Environments (CoDE), which trains a Generator agent to automatically build a series of compositional tasks tailored to the RL agent's current skill level. This automatic curriculum not only enables the agent to learn more complex tasks than it could have otherwise, but also selects tasks where the agent's performance is weak, enhancing its robustness and ability to generalize zero-shot to unseen tasks at test-time. We analyze why current environment generation techniques are insufficient for the problem of generating compositional tasks, and propose a new algorithm that addresses these issues. Our results assess learning and generalization across multiple compositional tasks, including the real-world problem of learning to navigate and interact with web pages. We learn to generate environments composed of multiple pages or rooms, and train RL agents capable of completing wide-range of complex tasks in those environments. We contribute two new benchmark frameworks for generating compositional tasks, compositional MiniGrid and gMiniWoB for web navigation.CoDE yields 4x higher success rate than the strongest baseline, and demonstrates strong performance of real websites learned on 3500 primitive tasks.
翻訳日:2022-01-25 14:41:46 公開日:2022-01-21
# 効率的なグラフトラバーサル順序を用いたデバイス配置における加速度モデル並列トレーニング

Accelerate Model Parallel Training by Using Efficient Graph Traversal Order in Device Placement ( http://arxiv.org/abs/2201.09676v1 )

ライセンス: Link先を確認
Tianze Wang, Amir H. Payberah, Desta Haileselassie Hagos, Vladimir Vlassov(参考訳) 現代のニューラルネットワークは、膨大なデータセットでまともなパフォーマンスに達するためには、長いトレーニングが必要です。 トレーニングをスピードアップする一般的なアプローチのひとつは、大規模なニューラルネットワークを複数のデバイスに分割する、モデル並列化だ。 しかし、同じニューラルネットワークの異なるデバイス配置は、異なるトレーニング時間をもたらす。 既存のデバイス配置ソリューションのほとんどは、ニューラルネットワークグラフをトラバースし、ニューロンを異なるデバイスに割り当てることで、問題をシーケンシャルな意思決定として扱う。 本研究は, デバイス配置に対するグラフトラバース順序の影響について検討する。 特に,異なるグラフトラバース順序が,異なるデバイス配置にどのように影響するかを実証的に検討し,トレーニング実行時間に影響を与える。 実験の結果,最良のグラフトラバーサル順序は,ニューラルネットワークのタイプとその計算グラフの特徴に依存することがわかった。 本稿では,モデル並列化におけるトレーニング時間を改善するため,各種ニューラルネットワークファミリーのデバイス配置におけるグラフトラバース順序の選択を推奨する。

Modern neural networks require long training to reach decent performance on massive datasets. One common approach to speed up training is model parallelization, where large neural networks are split across multiple devices. However, different device placements of the same neural network lead to different training times. Most of the existing device placement solutions treat the problem as sequential decision-making by traversing neural network graphs and assigning their neurons to different devices. This work studies the impact of graph traversal order on device placement. In particular, we empirically study how different graph traversal order leads to different device placement, which in turn affects the training execution time. Our experiment results show that the best graph traversal order depends on the type of neural networks and their computation graphs features. In this work, we also provide recommendations on choosing graph traversal order in device placement for various neural network families to improve the training time in model parallelization.
翻訳日:2022-01-25 14:38:40 公開日:2022-01-21
# 強化学習におけるテンソルと行列低ランク値関数近似

Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning ( http://arxiv.org/abs/2201.09736v1 )

ライセンス: Link先を確認
Sergio Rozada, Antonio G. Marques(参考訳) 値関数近似(VF)は強化学習(RL)の中心的な問題である。 古典的な非パラメトリックなvf推定は次元の呪いに苦しむ。 その結果、高次元空間のVFを近似するために擬似パラメトリックモデルが採用され、ほとんどの研究は線形およびニューラルネットワークに基づくアプローチに焦点を当てている。 そこで我々は確率的低ランクアルゴリズムを用いてVF行列をオンラインおよびモデルフリーで推定する。 さらに,vfsは多次元化される傾向があるので,古典的vf行列表現をテンソル(多方向配列)表現に置き換え,パラファク分解を用いてオンラインモデルフリーテンソル低ランクアルゴリズムを設計することを提案する。 アルゴリズムの異なるバージョンを提案し、その複雑さを分析し、その性能を標準化されたRL環境を用いて数値的に評価する。

Value-function (VF) approximation is a central problem in Reinforcement Learning (RL). Classical non-parametric VF estimation suffers from the curse of dimensionality. As a result, parsimonious parametric models have been adopted to approximate VFs in high-dimensional spaces, with most efforts being focused on linear and neural-network-based approaches. Differently, this paper puts forth a a parsimonious non-parametric approach, where we use stochastic low-rank algorithms to estimate the VF matrix in an online and model-free fashion. Furthermore, as VFs tend to be multi-dimensional, we propose replacing the classical VF matrix representation with a tensor (multi-way array) representation and, then, use the PARAFAC decomposition to design an online model-free tensor low-rank algorithm. Different versions of the algorithms are proposed, their complexity is analyzed, and their performance is assessed numerically using standardized RL environments.
翻訳日:2022-01-25 14:38:06 公開日:2022-01-21
# 階層構造を混合したニューラルネットワークと自然言語処理のためのemアルゴリズム

Recurrent Neural Networks with Mixed Hierarchical Structures and EM Algorithm for Natural Language Processing ( http://arxiv.org/abs/2201.08919v1 )

ライセンス: Link先を確認
Zhaoxin Luo and Michael Zhu(参考訳) 抽象度が高まる階層表現をどのように得るかは、ディープニューラルネットワークを用いた学習の重要な問題のひとつとなる。 文学におけるモデリング言語における明示的および暗黙的な階層的情報の両方を組み込むために、RNNモデルが最近提案されている。 本稿では,潜在指標層と呼ばれる新しい手法を提案し,暗黙的な階層情報(句など)を識別し,学習し,また,潜在指標層を扱うEMアルゴリズムをさらに発展させる。 潜在インジケータ層はさらにテキストの階層構造を単純化し、異なるレベルの注意メカニズムを構造にシームレスに統合することができます。 得られたアーキテクチャをEM-HRNNモデルと呼びました。 さらに,長文文書上でEM-HRNNモデルを効果的かつ効率的に学習するための2つのブートストラップ戦略を開発した。 シミュレーション研究と実データ応用により,ブートストラップトレーニングによるEM-HRNNモデルは,文書分類タスクにおいて,他のRNNベースモデルよりも優れていることが示された。 EM-HRNNモデルの性能は、バートベースと呼ばれるトランスフォーマーベースの手法に匹敵するが、前者はより小さく、事前訓練を必要としない。

How to obtain hierarchical representations with an increasing level of abstraction becomes one of the key issues of learning with deep neural networks. A variety of RNN models have recently been proposed to incorporate both explicit and implicit hierarchical information in modeling languages in the literature. In this paper, we propose a novel approach called the latent indicator layer to identify and learn implicit hierarchical information (e.g., phrases), and further develop an EM algorithm to handle the latent indicator layer in training. The latent indicator layer further simplifies a text's hierarchical structure, which allows us to seamlessly integrate different levels of attention mechanisms into the structure. We called the resulting architecture as the EM-HRNN model. Furthermore, we develop two bootstrap strategies to effectively and efficiently train the EM-HRNN model on long text documents. Simulation studies and real data applications demonstrate that the EM-HRNN model with bootstrap training outperforms other RNN-based models in document classification tasks. The performance of the EM-HRNN model is comparable to a Transformer-based method called Bert-base, though the former is much smaller model and does not require pre-training.
翻訳日:2022-01-25 14:02:14 公開日:2022-01-21
# (参考訳) LaMDA: ダイアログアプリケーションのための言語モデル

LaMDA: Language Models for Dialog Applications ( http://arxiv.org/abs/2201.08239v2 )

ライセンス: CC BY 4.0
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le(参考訳) ダイアログアプリケーションのための言語モデルLaMDAを提案する。 lamdaは、最大137bのパラメータを持ち、公開ダイアログデータとwebテキストの1.56tワードで事前学習される、ダイアログに特化したトランスフォーマティブベースのニューラルネットワークモデルである。 モデルスケーリングだけでは品質が向上するが、安全性と現実的な基盤の改善は少ない。 我々は,アノテートされたデータとの微調整と,モデルが外部の知識ソースに相談できることが,安全性と事実的根拠付けという2つの重要な課題に対して大きな改善をもたらすことを実証する。 最初の課題である安全性は、有害な提案や不公平な偏見を防ぐなど、モデルの応答が人間の価値観と一致していることを保証することである。 提案手法は,人的価値の図式的集合に基づいて測定値を用いて安全性を定量化し,少数のクラウドワーカーによる注釈付きデータを微調整したLaMDA分類器を用いて候補応答をフィルタリングすることで,モデル安全性を改善するための有望なアプローチを提供する。 第2の課題である事実的根拠付けは、モデルが情報検索システム、言語翻訳者、計算機など外部の知識ソースを参照できるようにすることである。 そこで本手法では, 既知音源に接地された応答を, 単に可聴性のある応答ではなく, モデルが生成できることを見出した。 最後に,教育分野とコンテンツレコメンデーション分野におけるlamdaの利用について検討し,その有用性と役割一貫性の分析を行った。

We present LaMDA: Language Models for Dialog Applications. LaMDA is a family of Transformer-based neural language models specialized for dialog, which have up to 137B parameters and are pre-trained on 1.56T words of public dialog data and web text. While model scaling alone can improve quality, it shows less improvements on safety and factual grounding. We demonstrate that fine-tuning with annotated data and enabling the model to consult external knowledge sources can lead to significant improvements towards the two key challenges of safety and factual grounding. The first challenge, safety, involves ensuring that the model's responses are consistent with a set of human values, such as preventing harmful suggestions and unfair bias. We quantify safety using a metric based on an illustrative set of human values, and we find that filtering candidate responses using a LaMDA classifier fine-tuned with a small amount of crowdworker-annotate d data offers a promising approach to improving model safety. The second challenge, factual grounding, involves enabling the model to consult external knowledge sources, such as an information retrieval system, a language translator, and a calculator. We quantify factuality using a groundedness metric, and we find that our approach enables the model to generate responses grounded in known sources, rather than responses that merely sound plausible. Finally, we explore the use of LaMDA in the domains of education and content recommendations, and analyze their helpfulness and role consistency.
翻訳日:2022-01-25 11:58:54 公開日:2022-01-21
# (参考訳) SciBERTSUM:科学文献の抽出要約 [全文訳有]

SciBERTSUM: Extractive Summarization for Scientific Documents ( http://arxiv.org/abs/2201.08495v1 )

ライセンス: CC BY 4.0
Athar Sefid, C Lee Giles(参考訳) 要約文献はニュース記事の要約に焦点を当てている。 cnn-dailymailのニュース記事は比較的短い文書で、1文書あたり平均約30文である。 我々は,500文以上の長文文書を要約するために設計された要約フレームワークであるscibertsumを紹介する。 SciBERtsuMはBERtsuMを長いドキュメントに拡張する 1) 文ベクトルにセクション情報を含むようにセクション埋め込み層を追加し、 2) 各文が近傍の文に局所的に出席し,一部の文が世界規模で他の文にのみ参加する,まばらな注意機構を適用する。 論文の技術的詳細を含むため,学術論文の著者が作成したスライドを参考要約として使用した。 その結果,ROUGEスコアの点から,モデルの優位性を示した。

The summarization literature focuses on the summarization of news articles. The news articles in the CNN-DailyMail are relatively short documents with about 30 sentences per document on average. We introduce SciBERTSUM, our summarization framework designed for the summarization of long documents like scientific papers with more than 500 sentences. SciBERTSUM extends BERTSUM to long documents by 1) adding a section embedding layer to include section information in the sentence vector and 2) applying a sparse attention mechanism where each sentences will attend locally to nearby sentences and only a small number of sentences attend globally to all other sentences. We used slides generated by the authors of scientific papers as reference summaries since they contain the technical details from the paper. The results show the superiority of our model in terms of ROUGE scores.
翻訳日:2022-01-24 20:31:21 公開日:2022-01-21
# (参考訳) α-Deep Probabilistic Inference (alpha-DPI):外惑星軌道からブラックホールの特徴抽出への効率的な不確実性定量化 [全文訳有]

alpha-Deep Probabilistic Inference (alpha-DPI): efficient uncertainty quantification from exoplanet astrometry to black hole feature extraction ( http://arxiv.org/abs/2201.08506v1 )

ライセンス: CC BY 4.0
He Sun, Katherine L. Bouman, Paul Tiede, Jason J. Wang, Sarah Blunt, Dimitri Mawet(参考訳) 推論は、天体物理学的な特徴やパターンを間接的およびノイズ的な測定から推定する現代の天文学研究において重要である。 観測結果の不確実性や下流の科学的解釈を理解するためには, 隠れた特徴の後部を推定することが不可欠である。 従来の後方推定手法にはサンプリングに基づく手法と変分推論がある。 しかしながら、サンプリングに基づく手法は一般的に高次元逆問題では遅いが、変分推論はしばしば推定精度を欠く。 本稿では、まず、生成ニューラルネットワークと組み合わせたアルファ・ディバージェンス変分推論を用いて、近似した後進を学習し、次いでネットワークサンプルの重要度を再重み付けにより、より正確な後進サンプルを生成するディープラーニングフレームワークであるα-DPIを提案する。 サンプリング法と変分推論法の両方から強みを受け継ぎ、高速で正確で、高次元問題にスケーラブルである。 我々は、実データを用いた2つの高インパクト天文学的推測問題(外惑星分光法とブラックホールの特徴抽出)にアプローチを適用する。

Inference is crucial in modern astronomical research, where hidden astrophysical features and patterns are often estimated from indirect and noisy measurements. Inferring the posterior of hidden features, conditioned on the observed measurements, is essential for understanding the uncertainty of results and downstream scientific interpretations. Traditional approaches for posterior estimation include sampling-based methods and variational inference. However, sampling-based methods are typically slow for high-dimensional inverse problems, while variational inference often lacks estimation accuracy. In this paper, we propose alpha-DPI, a deep learning framework that first learns an approximate posterior using alpha-divergence variational inference paired with a generative neural network, and then produces more accurate posterior samples through importance re-weighting of the network samples. It inherits strengths from both sampling and variational inference methods: it is fast, accurate, and scalable to high-dimensional problems. We apply our approach to two high-impact astronomical inference problems using real data: exoplanet astrometry and black hole feature extraction.
翻訳日:2022-01-24 20:22:19 公開日:2022-01-21
# (参考訳) ネットワーク上の高次元推論:線形収束と統計的保証

High-Dimensional Inference over Networks: Linear Convergence and Statistical Guarantees ( http://arxiv.org/abs/2201.08507v1 )

ライセンス: CC BY 4.0
Ying Sun and Marie Maros and Gesualdo Scutari and Guang Cheng(参考訳) エージェントネットワーク上での疎線形回帰を非指向グラフとしてモデル化し,サーバノードを持たない。 s$-sparseパラメータの推定は制約付きLASSO問題として定式化され、各エージェントが$N$全観測のサブセットを所有する。 我々は,高次元スケーリング下での分散予測勾配追跡アルゴリズムの収束率と統計的保証を分析し,サンプルサイズ$N$で周囲次元$d$を成長させる(そしておそらく超える)。 本理論は,ネットワーク接続性やアルゴリズムチューニングに適した条件である損失関数の制限された強い凸性と滑らか性という標準的な概念の下で,分散アルゴリズムは,モデルの中心的統計量である$o(s\log d/n)$内の推定値まで,グローバルに収束することを示す。 統計的整合性に必要な条件である$s\log d/N=o(1)$が得られたとき、$\varepsilon$-optima l Solutionは、$\mathcal{O}(\kappa \log (1/\varepsilon))$グルーフ計算と$O(\kappa/(1-\rho) \log (1/\varepsilon)$通信ラウンドの後、$\kappa$は損失関数の制限条件数であり、$\rho$はネットワーク接続を測定する。 計算コストは、データ分散にもかかわらず集中型投影勾配アルゴリズムのそれと一致するが、ネットワーク接続性が向上するにつれて通信ラウンドは減少する。 総じて,統計効率,ネットワーク接続性 \&トポロジー,高次元収束率の相関性について検討した。

We study sparse linear regression over a network of agents, modeled as an undirected graph and no server node. The estimation of the $s$-sparse parameter is formulated as a constrained LASSO problem wherein each agent owns a subset of the $N$ total observations. We analyze the convergence rate and statistical guarantees of a distributed projected gradient tracking-based algorithm under high-dimensional scaling, allowing the ambient dimension $d$ to grow with (and possibly exceed) the sample size $N$. Our theory shows that, under standard notions of restricted strong convexity and smoothness of the loss functions, suitable conditions on the network connectivity and algorithm tuning, the distributed algorithm converges globally at a {\it linear} rate to an estimate that is within the centralized {\it statistical precision} of the model, $O(s\log d/N)$. When $s\log d/N=o(1)$, a condition necessary for statistical consistency, an $\varepsilon$-optima l solution is attained after $\mathcal{O}(\kappa \log (1/\varepsilon))$ gradient computations and $O (\kappa/(1-\rho) \log (1/\varepsilon))$ communication rounds, where $\kappa$ is the restricted condition number of the loss function and $\rho$ measures the network connectivity. The computation cost matches that of the centralized projected gradient algorithm despite having data distributed; whereas the communication rounds reduce as the network connectivity improves. Overall, our study reveals interesting connections between statistical efficiency, network connectivity \& topology, and convergence rate in high dimensions.
翻訳日:2022-01-24 20:05:27 公開日:2022-01-21
# (参考訳) LRSVRG-IMC:低ランク誘導行列補完のためのSVRGに基づくアルゴリズム [全文訳有]

LRSVRG-IMC: An SVRG-Based Algorithm for LowRank Inductive Matrix Completion ( http://arxiv.org/abs/2201.08516v1 )

ライセンス: CC BY 4.0
Shangrong Yu, Yuxin Chen and Hejun Wu(参考訳) IMCのサイド情報は、サンプルポイントを減らす大きな可能性を示しており、非凸ソリューションのIMCへの収束の大きな障害となっている。 さらに、初期ソリューションのみを慎重に選択することは、通常、サドルポイントを取り除くのに役立ちません。 この問題に対処するために,LRSVRG-IMCと呼ばれる確率的分散低減勾配に基づくアルゴリズムを提案する。 LRSVRG-IMCは、適切に選択された初期入力により、様々な低ランクおよびスパース条件下でサドルポイントから脱出することができる。 また、LRSVVRG-IMCは、線形収束率とほぼ最適サンプル複雑さの両方を達成することを証明した。 LRSVRG-IMCの優位性と適用性は,合成データセットを用いて検証した。

Low-rank inductive matrix completion (IMC) is currently widely used in IoT data completion, recommendation systems, and so on, as the side information in IMC has demonstrated great potential in reducing sample point remains a major obstacle for the convergence of the nonconvex solutions to IMC. What's more, carefully choosing the initial solution alone does not usually help remove the saddle points. To address this problem, we propose a stocastic variance reduction gradient-based algorithm called LRSVRG-IMC. LRSVRG-IMC can escape from the saddle points under various low-rank and sparse conditions with a properly chosen initial input. We also prove that LRSVVRG-IMC achieves both a linear convergence rate and a near-optimal sample complexity. The superiority and applicability of LRSVRG-IMC are verified via experiments on synthetic datasets.
翻訳日:2022-01-24 20:03:41 公開日:2022-01-21
# (参考訳) SMOTEへ、それともSMOTEへ? [全文訳有]

To SMOTE, or not to SMOTE? ( http://arxiv.org/abs/2201.08528v1 )

ライセンス: CC BY 4.0
Yotam Elor and Hadar Elor(参考訳) 不均衡二項分類問題では、客観的計量はしばしば非対称であり、より高いペナルティとマイノリティ標本を関連付ける。 一方、トレーニングに使用される損失関数は通常対称であり、多数派と少数派のサンプルも同様にペナルティを課す。 モデルのトレーニング前にデータのバランスを向上するバランシングスキームが提案され、この相違に対処し、表データ上での予測性能を実証的に改善することを示した。 しかし、最近の一貫した分類器の研究は、メートル法差が予測性能を妨げない可能性を示唆している。 これらの最近の理論結果を踏まえて,表データのバランスに関する経験的研究を注意深く検討した。 73のデータセットを用いた大規模な実験では、理論に従って、強い一貫した分類器を用いることで最良の予測が達成され、バランスが有益でないことが示されている。 バランスが効果的であるいくつかのシナリオを識別し、先行研究が主にこれらの設定に焦点を当てていることを確認する。

In imbalanced binary classification problems the objective metric is often non-symmetric and associates a higher penalty with the minority samples. On the other hand, the loss function used for training is usually symmetric - equally penalizing majority and minority samples. Balancing schemes, that augment the data to be more balanced before training the model, were proposed to address this discrepancy and were shown to improve prediction performance empirically on tabular data. However, recent studies of consistent classifiers suggest that the metric discrepancy might not hinder prediction performance. In light of these recent theoretical results, we carefully revisit the empirical study of balancing tabular data. Our extensive experiments, on 73 datasets, show that generally, in accordance with theory, best prediction is achieved by using a strong consistent classifier and balancing is not beneficial. We further identity several scenarios for which balancing is effective and observe that prior studies mainly focus on these settings.
翻訳日:2022-01-24 19:51:57 公開日:2022-01-21
# (参考訳) 拡散作用素のリーマン組成を用いた時空間解析

Spatiotemporal Analysis Using Riemannian Composition of Diffusion Operators ( http://arxiv.org/abs/2201.08530v1 )

ライセンス: CC BY 4.0
Tal Shnitzer, Hau-Tieng Wu and Ronen Talmon(参考訳) 多くのデータ取得システムが複数のセンサーで同時に情報を記録しているため、近年は多変量時系列が豊富になっている。 本稿では,幾何に関する変数を仮定し,時空間解析に対する演算子に基づくアプローチを提案する。 私たちのアプローチは、しばしば別々に考慮される3つのコンポーネントを組み合わせる。 (i)変数の幾何学を表す演算子を構築するための多様体学習 (ii)異なる時間サンプルに対応する作用素の多元構成のための対称正定値行列のリーマン幾何学 (iii)異なる動的モードを抽出する複合演算子のスペクトル解析 本稿では,古典ウェーブレット解析と類似する手法を提案し,この手法をリーマン多分解能解析(RMRA)と呼ぶ。 本稿では, 合成作用素のスペクトル解析に関する理論的結果を提供し, シミュレーションおよび実データに対する提案手法を実証する。

Multivariate time-series have become abundant in recent years, as many data-acquisition systems record information through multiple sensors simultaneously. In this paper, we assume the variables pertain to some geometry and present an operator-based approach for spatiotemporal analysis. Our approach combines three components that are often considered separately: (i) manifold learning for building operators representing the geometry of the variables, (ii) Riemannian geometry of symmetric positive-definite matrices for multiscale composition of operators corresponding to different time samples, and (iii) spectral analysis of the composite operators for extracting different dynamic modes. We propose a method that is analogous to the classical wavelet analysis, which we term Riemannian multi-resolution analysis (RMRA). We provide some theoretical results on the spectral analysis of the composite operators, and we demonstrate the proposed method on simulations and on real data.
翻訳日:2022-01-24 19:32:58 公開日:2022-01-21
# (参考訳) 強化学習におけるインスタンス依存信頼と早期停止

Instance-Dependent Confidence and Early Stopping for Reinforcement Learning ( http://arxiv.org/abs/2201.08536v1 )

ライセンス: CC BY 4.0
Koulik Khamaru, Eric Xia, Martin J. Wainwright, Michael I. Jordan(参考訳) 強化学習(RL)のための様々なアルゴリズムは、問題構造の関数として収束率の劇的な変動を示す。 このような問題依存の振る舞いは最悪のケース分析では捉えられず、それゆえ、rl問題に対するインスタンス依存の保証とインスタンス最適化アルゴリズムの導出の努力の増大に影響を与えている。 しかし、この研究は、主に理論の範囲内で行われ、観測された性能差を『textit{ex post}』を説明する保証を提供する。 次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。 本稿では,mdpの最適値推定問題とポリシー評価問題に対して,インスタンス最適化アルゴリズムへのアクセスを条件として,インスタンス依存信頼領域を求める問題に対処する。 その結果、インスタンス最適化アルゴリズムのためのデータ依存停止規則を提案する。 提案した停止規則は、インスタンス固有の問題に適応し、良好な構造を持つ問題の早期終了を可能にする。

Various algorithms for reinforcement learning (RL) exhibit dramatic variation in their convergence rates as a function of problem structure. Such problem-dependent behavior is not captured by worst-case analyses and has accordingly inspired a growing effort in obtaining instance-dependent guarantees and deriving instance-optimal algorithms for RL problems. This research has been carried out, however, primarily within the confines of theory, providing guarantees that explain \textit{ex post} the performance differences observed. A natural next step is to convert these theoretical guarantees into guidelines that are useful in practice. We address the problem of obtaining sharp instance-dependent confidence regions for the policy evaluation problem and the optimal value estimation problem of an MDP, given access to an instance-optimal algorithm. As a consequence, we propose a data-dependent stopping rule for instance-optimal algorithms. The proposed stopping rule adapts to the instance-specific difficulty of the problem and allows for early termination for problems with favorable structure.
翻訳日:2022-01-24 19:31:50 公開日:2022-01-21
# (参考訳) リンパ組織像解析にマシンビジョンは何ができるか:総括的レビュー

What Can Machine Vision Do for Lymphatic Histopathology Image Analysis: A Comprehensive Review ( http://arxiv.org/abs/2201.08550v1 )

ライセンス: CC BY 4.0
Xiaoqi Li, Haoyuan Chen, Chen Li, Md Mamunur Rahaman, Xintong Li, Jian Wu, Xiaoyan Li, Hongzan Sun, Marcin Grzegorzek(参考訳) 過去10年間で、機械ビジョン(MV)の計算能力は継続的に改善され、画像解析アルゴリズムは急速に発展してきた。 同時に、病理学的スライスをデジタル画像として保存することができる。 したがって、MVアルゴリズムは医師に診断基準を提供することができる。 特に、深層学習アルゴリズムの継続的な改良により、病気の検出と診断におけるMVの精度がさらに向上した。 本稿では,近年のリンパ腫の病理組織像におけるmvに基づく画像処理技術の応用について概説する。 最後に,現在の手法を分析し,さらに可能性の高い手法を提案し,今後の展望を述べる。

In the past ten years, the computing power of machine vision (MV) has been continuously improved, and image analysis algorithms have developed rapidly. At the same time, histopathological slices can be stored as digital images. Therefore, MV algorithms can provide doctors with diagnostic references. In particular, the continuous improvement of deep learning algorithms has further improved the accuracy of MV in disease detection and diagnosis. This paper reviews the applications of image processing technology based on MV in lymphoma histopathological images in recent years, including segmentation, classification and detection. Finally, the current methods are analyzed, some more potential methods are proposed, and further prospects are made.
翻訳日:2022-01-24 19:30:55 公開日:2022-01-21
# (参考訳) hold on and swipe: 機械学習に基づくタッチ操作ベースの連続認証スキーマ [全文訳有]

Hold On and Swipe: A Touch-Movement Based Continuous Authentication Schema based on Machine Learning ( http://arxiv.org/abs/2201.08564v1 )

ライセンス: CC BY 4.0
Rushit Dave, Naeem Seliya, Laura Pryor, Mounika Vanamala, Evelyn Sowells, Jacob mallet(参考訳) 近年,モバイルデバイスに格納されるセキュアな情報量は指数関数的に増加している。 しかし、生理的生体認証やパスワードなどのモバイルデバイスのセキュリティスキーマは、この情報を保護するのに十分安全ではない。 行動バイオメトリックスは、このモバイルデバイスのセキュリティ不足の解決策として研究されている。 本研究は,タッチダイナミクスと電話動作を用いたマルチモーダル生体認証方式の性能評価により,この革新的な研究に寄与することを目的とする。 本研究は、ハンドムーブメントオリエンテーションとGraspデータセットとBioIdentデータセットの2つの一般的なデータセットを融合したものである。 本研究は,ランダムフォレストサポートベクターマシンとk-nearest近傍の3つの一般的な機械学習アルゴリズムを用いて,各アルゴリズムが報告されたすべての成功指標に対してそれぞれ82%の精度に達するようにモデル性能を評価する。

In recent years the amount of secure information being stored on mobile devices has grown exponentially. However, current security schemas for mobile devices such as physiological biometrics and passwords are not secure enough to protect this information. Behavioral biometrics have been heavily researched as a possible solution to this security deficiency for mobile devices. This study aims to contribute to this innovative research by evaluating the performance of a multimodal behavioral biometric based user authentication scheme using touch dynamics and phone movement. This study uses a fusion of two popular publicly available datasets the Hand Movement Orientation and Grasp dataset and the BioIdent dataset. This study evaluates our model performance using three common machine learning algorithms which are Random Forest Support Vector Machine and K-Nearest Neighbor reaching accuracy rates as high as 82% with each algorithm performing respectively for all success metrics reported.
翻訳日:2022-01-24 19:29:53 公開日:2022-01-21
# (参考訳) 限定消費者デバイスセンサと機械学習を用いた人間活動認識モデル [全文訳有]

Human Activity Recognition models using Limited Consumer Device Sensors and Machine Learning ( http://arxiv.org/abs/2201.08565v1 )

ライセンス: CC BY 4.0
Rushit Dave, Naeem Seliya, Mounika Vanamala, Wei Tee(参考訳) ヒトの活動認識は、日常生活や医療環境における応用の増加とともに人気が高まっている。 効率的で信頼性の高い人的活動認識を実現するという目標は、特に医療産業において、アクセス可能な使用やリソースの割り当ての改善といったメリットをもたらす。 アクティビティの認識と分類は、多くの高度なデータ記録設定を使って得られるが、簡単にアクセス可能なデバイス(スマートフォンやスマートウォッチ)からのセンサデータの使用に厳密に制限されるモデル間で、パフォーマンスがどのように変化するかを観察する必要性もある。 本稿では,そのようなセンサを用いた訓練に限られるモデルについて述べる。 モデルはk-Nearest Neighbor、Support Vector Machineまたはランダムフォレスト分類アルゴリズムを用いて訓練される。 移動センサの異なる組み合わせを用いて様々なモデル性能を比較し,その性能と評価を行う。 結果は、スマートフォンとスマートウォッチのみから収集された限られたセンサーデータと、従来の機械学習の概念とアルゴリズムとを厳格に併用したモデルの可能性を示している。

Human activity recognition has grown in popularity with its increase of applications within daily lifestyles and medical environments. The goal of having efficient and reliable human activity recognition brings benefits such as accessible use and better allocation of resources; especially in the medical industry. Activity recognition and classification can be obtained using many sophisticated data recording setups, but there is also a need in observing how performance varies among models that are strictly limited to using sensor data from easily accessible devices: smartphones and smartwatches. This paper presents the findings of different models that are limited to train using such sensors. The models are trained using either the k-Nearest Neighbor, Support Vector Machine, or Random Forest classifier algorithms. Performance and evaluations are done by comparing various model performances using different combinations of mobile sensors and how they affect recognitive performances of models. Results show promise for models trained strictly using limited sensor data collected from only smartphones and smartwatches coupled with traditional machine learning concepts and algorithms.
翻訳日:2022-01-24 19:17:45 公開日:2022-01-21
# (参考訳) 教室用スライドナレーションシステム [全文訳有]

Classroom Slide Narration System ( http://arxiv.org/abs/2201.08574v1 )

ライセンス: CC BY 4.0
Jobin K.V., Ajoy Mondal, and C. V. Jawahar(参考訳) スライドプレゼンテーションは、教室コミュニケーションのための教育コミュニティが使う効果的で効率的なツールである。 しかし、視覚障害者(VI)では、この授業モデルは困難である。 VIの学生は提示されたスライドを理解するために個人的な人間支援を必要とした。 この欠点は、スライドコンテンツに対応する音声記述を生成するCSNS(Classroom Slide Narration System)を設計する動機となっている。 この問題は、画像からマークアップへの言語生成タスクとして現れる。 最初のステップは、スライド画像からタイトル、テキスト、方程式、図形、テーブルなどの論理領域を抽出することである。 教室のスライド画像では、画像の位置に基づいて論理領域が分散される。 スライド画像のセグメンテーションに論理領域の位置を利用するために,アーキテクチャであるClassroom Slide Segmentation Network (CSSN)を提案する。 このアーキテクチャのユニークな特性は、他の多くのセマンティックセグメンテーションネットワークとは異なる。 WiSeやSPaSeなどの公開ベンチマークデータセットを使用して、セグメンテーションアーキテクチャのパフォーマンスを検証する。 ワイズデータセットのセグメンテーション精度は9.54。 光文字認識(ocr)、図形分類、方程式記述、テーブル構造認識といった4つの確立されたモジュールを用いて、スライドからコンテンツ(情報)を抽出する。 この情報を用いて,第6学年におけるスライド内容の理解を支援するクラスルームスライドナレーションシステム(CSNS)を構築した。 FacebookのAutomatic Alt-Text(AAT)やTesseractのような既存のシステムと比較して、提案されたCSNSの品質のアウトプットに対して、より優れたフィードバックが得られた。

Slide presentations are an effective and efficient tool used by the teaching community for classroom communication. However, this teaching model can be challenging for blind and visually impaired (VI) students. The VI student required personal human assistance for understand the presented slide. This shortcoming motivates us to design a Classroom Slide Narration System (CSNS) that generates audio descriptions corresponding to the slide content. This problem poses as an image-to-markup language generation task. The initial step is to extract logical regions such as title, text, equation, figure, and table from the slide image. In the classroom slide images, the logical regions are distributed based on the location of the image. To utilize the location of the logical regions for slide image segmentation, we propose the architecture, Classroom Slide Segmentation Network (CSSN). The unique attributes of this architecture differs from most other semantic segmentation networks. Publicly available benchmark datasets such as WiSe and SPaSe are used to validate the performance of our segmentation architecture. We obtained 9.54 segmentation accuracy improvement in WiSe dataset. We extract content (information) from the slide using four well-established modules such as optical character recognition (OCR), figure classification, equation description, and table structure recognizer. With this information, we build a Classroom Slide Narration System (CSNS) to help VI students understand the slide content. The users have given better feedback on the quality output of the proposed CSNS in comparison to existing systems like Facebooks Automatic Alt-Text (AAT) and Tesseract.
翻訳日:2022-01-24 19:09:41 公開日:2022-01-21
# (参考訳) マルチソースノイズデータに基づく信頼できる知識グラフ補完 [全文訳有]

Trustworthy Knowledge Graph Completion Based on Multi-sourced Noisy Data ( http://arxiv.org/abs/2201.08580v1 )

ライセンス: CC BY 4.0
Jiacheng Huang and Yao Zhao and Wei Hu and Zhen Ning and Qijin Chen and Xiaoxia Qiu and Chengfu Huo and Weijun Ren(参考訳) 知識グラフ(KG)は多くのAIアプリケーションにとって貴重な資産となっている。 いくつかのKGには多くの事実が含まれているが、それらは不完全であると広く認められている。 この問題に対処するため、多くのKG補完手法が提案されている。 その中でも、オープンkg補完手法は、webを利用して欠落した事実を見つける。 しかし、様々な情報源から収集されたノイズデータは、完了精度を損なう可能性がある。 本稿では,KGにおけるマルチソースノイズデータと既存事実に基づいて,KGの事実を利用する信頼性の高い新しい手法を提案する。 具体的には,総合的なスコアリング機能を備えたグラフニューラルネットワークを導入し,さまざまな値型で事実の妥当性を判定する。 我々は,値間の不均一性を解決するために値アライメントネットワークを設計し,kg の外でもエンティティにマップする。 さらに,データソース特性をファクトスコアリング関数に組み込んだ真理推論モデルを提案し,半教師あり学習法を設計し,不均一値から真理を推測する。 我々はこの手法を最先端技術と比較するための広範な実験を行った。 提案手法は, 欠落した事実の完成だけでなく, 新たな事実の発見にも有効であることを示す。

Knowledge graphs (KGs) have become a valuable asset for many AI applications. Although some KGs contain plenty of facts, they are widely acknowledged as incomplete. To address this issue, many KG completion methods are proposed. Among them, open KG completion methods leverage the Web to find missing facts. However, noisy data collected from diverse sources may damage the completion accuracy. In this paper, we propose a new trustworthy method that exploits facts for a KG based on multi-sourced noisy data and existing facts in the KG. Specifically, we introduce a graph neural network with a holistic scoring function to judge the plausibility of facts with various value types. We design value alignment networks to resolve the heterogeneity between values and map them to entities even outside the KG. Furthermore, we present a truth inference model that incorporates data source qualities into the fact scoring function, and design a semi-supervised learning way to infer the truths from heterogeneous values. We conduct extensive experiments to compare our method with the state-of-the-arts. The results show that our method achieves superior accuracy not only in completing missing facts but also in discovering new facts.
翻訳日:2022-01-24 19:00:10 公開日:2022-01-21
# (参考訳) テキストとグラフベクトル表現による分類学の充実

Taxonomy Enrichment with Text and Graph Vector Representations ( http://arxiv.org/abs/2201.08598v1 )

ライセンス: CC BY 4.0
Irina Nikishina, Mikhail Tikhomirov, Varvara Logacheva, Yuriy Nazarov, Alexander Panchenko, Natalia Loukachevitch(参考訳) dbpedia、freebase、wikidataのような知識グラフは、常に分類学的なバックボーンを含んでおり、hypo-hypernym(クラス-サブクラス)の関係に従って様々な概念の配置と構造化を可能にする。 特定のドメインに対する語彙資源の急速な増加に伴い、既存の知識ベースを新しい単語で自動的に拡張する問題はますます広くなってきている。 本稿では,既存の分類学に新たな単語を追加することを目的とした分類学の富化問題に対処する。 我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。 大部分の言語に存在しているリソースを使用し、メソッドを普遍化する。 我々は,最近NLPタスクにおいて有望な結果を示した node2vec, Poincar\'e 埋め込み, GCN などのグラフ構造の深部表現を組み込むことにより,提案手法を拡張した。 さらに、これらの表現と単語の埋め込みを組み合わせることで、アートの状態を破ることができます。 我々は,単語とグラフのベクトル表現とそれらの融合手法に基づいて,既存の分類の豊かさに対するアプローチを包括的に研究する。 また、ディープラーニングアーキテクチャを用いて知識グラフの分類学的バックボーンを拡張する方法についても検討する。 英語とロシア語の分類拡張のためのデータセットを多数作成します。 異なるデータセットにまたがって最新の結果を達成し、ミスの詳細なエラー解析を提供する。

Knowledge graphs such as DBpedia, Freebase or Wikidata always contain a taxonomic backbone that allows the arrangement and structuring of various concepts in accordance with the hypo-hypernym ("class-subclass") relationship. With the rapid growth of lexical resources for specific domains, the problem of automatic extension of the existing knowledge bases with new words is becoming more and more widespread. In this paper, we address the problem of taxonomy enrichment which aims at adding new words to the existing taxonomy. We present a new method that allows achieving high results on this task with little effort. It uses the resources which exist for the majority of languages, making the method universal. We extend our method by incorporating deep representations of graph structures like node2vec, Poincar\'e embeddings, GCN etc. that have recently demonstrated promising results on various NLP tasks. Furthermore, combining these representations with word embeddings allows us to beat the state of the art. We conduct a comprehensive study of the existing approaches to taxonomy enrichment based on word and graph vector representations and their fusion approaches. We also explore the ways of using deep learning architectures to extend the taxonomic backbones of knowledge graphs. We create a number of datasets for taxonomy extension for English and Russian. We achieve state-of-the-art results across different datasets and provide an in-depth error analysis of mistakes.
翻訳日:2022-01-24 18:37:09 公開日:2022-01-21
# (参考訳) pseudo-labeled auto-curriculum learningによる半教師付きキーポイント定位 [全文訳有]

Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint Localization ( http://arxiv.org/abs/2201.08613v1 )

ライセンス: CC BY 4.0
Can Wang, Sheng Jin, Yingda Guan, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang(参考訳) オブジェクトのキーポイントのローカライズは基本的な視覚的問題である。 しかし、キーポイント局在化ネットワークの教師あり学習には大量のデータが必要であり、費用がかかり、時間を要する。 これを改善するために、ラベル付きデータの小さなセットとラベルなしデータの大規模なセットを活用する、半教師付き学習(SSL)への関心が高まっている。 これらのSSLアプローチの中で、擬似ラベル(PL)が最も人気である。 PLアプローチでは、ラベル付きデータに擬似ラベルを適用し、ラベル付きデータと擬似ラベル付きデータを組み合わせてモデルを反復的に訓練する。 PLの成功の鍵は、高品質な擬似ラベルサンプルの選択である。 以前の作業は主に、単一の信頼しきい値を設定することで、トレーニングサンプルを選択する。 学習カリキュラムを構成する一連の動的しきい値を用いて,信頼性の高い擬似ラベル標本を自動的に選択する。 6つのキーポイントローカライズベンチマークデータセットに関する広範な実験は、提案手法が従来のsslアプローチを大きく上回っていることを示している。

Localizing keypoints of an object is a basic visual problem. However, supervised learning of a keypoint localization network often requires a large amount of data, which is expensive and time-consuming to obtain. To remedy this, there is an ever-growing interest in semi-supervised learning (SSL), which leverages a small set of labeled data along with a large set of unlabeled data. Among these SSL approaches, pseudo-labeling (PL) is one of the most popular. PL approaches apply pseudo-labels to unlabeled data, and then train the model with a combination of the labeled and pseudo-labeled data iteratively. The key to the success of PL is the selection of high-quality pseudo-labeled samples. Previous works mostly select training samples by manually setting a single confidence threshold. We propose to automatically select reliable pseudo-labeled samples with a series of dynamic thresholds, which constitutes a learning curriculum. Extensive experiments on six keypoint localization benchmark datasets demonstrate that the proposed approach significantly outperforms the previous state-of-the-art SSL approaches.
翻訳日:2022-01-24 18:35:36 公開日:2022-01-21
# (参考訳) 確率活性粒子動力学による決定論的流体力学方程式の学習 [全文訳有]

Learning deterministic hydrodynamic equations from stochastic active particle dynamics ( http://arxiv.org/abs/2201.08623v1 )

ライセンス: CC BY 4.0
Suryanarayana Maddu, Quentin Vagne, Ivo F. Sbalzarini(参考訳) 確率的非平衡能動粒子軌道から直接決定論的流体力学モデルを学ぶための原理的データ駆動戦略を提案する。 本手法は, 自己推進粒子系で観察される伝播密度レーンの流体力学モデルと, 上皮組織における細胞動態の連続的記述の学習に応用する。 また,ケモタキシーを駆動する潜在音場を確率的粒子軌道から推定した。 これは、統計学習理論と物理先行理論が組み合わさって、生活システムにおける集団運動に特徴的な非平衡確率過程のマルチスケールモデルの発見を可能にすることを証明している。

We present a principled data-driven strategy for learning deterministic hydrodynamic models directly from stochastic non-equilibrium active particle trajectories. We apply our method to learning a hydrodynamic model for the propagating density lanes observed in self-propelled particle systems and to learning a continuum description of cell dynamics in epithelial tissues. We also infer from stochastic particle trajectories the latent phoretic fields driving chemotaxis. This demonstrates that statistical learning theory combined with physical priors can enable discovery of multi-scale models of non-equilibrium stochastic processes characteristic of collective movement in living systems.
翻訳日:2022-01-24 18:15:48 公開日:2022-01-21
# (参考訳) ベイジアンネットワークにおける一貫性のない証拠処理のためのユニティ平滑化と高速推論のためのユニティ伝搬 [全文訳有]

Unity Smoothing for Handling Inconsistent Evidence in Bayesian Networks and Unity Propagation for Faster Inference ( http://arxiv.org/abs/2201.08659v1 )

ライセンス: CC BY 4.0
Mads Lindskou, Torben Tvedebrink, Poul Svante Eriksen, S{\o}ren H{\o}jsgaard and Niels Morling(参考訳) 本稿では,ベイジアンネットワークモデルと新たな観測結果との整合性を扱うために,Unity Smoothing (US)を提案する。 我々はジャンクションツリーアルゴリズムを用いた予測精度がラプラス平滑化の予測精度に匹敵することを示した。 さらに、データ構造が多用されるアプリケーションでは、メモリ使用量の観点からLaplaceのスムーズさは米国より優れています。 さらに,我々が一元伝播 (up) と呼ぶジャンクションツリーアルゴリズムにおいて,メッセージパッシングスキーム中に実行しなければならない冗長な計算を回避する方法について詳述する。 実験結果から, 接合木アルゴリズムのラウリツェン・シュピーゲルハルターメッセージパッシング方式上でUPを利用する方が常に高速であることが示唆された。

We propose Unity Smoothing (US) for handling inconsistencies between a Bayesian network model and new unseen observations. We show that prediction accuracy, using the junction tree algorithm with US is comparable to that of Laplace smoothing. Moreover, in applications were sparsity of the data structures is utilized, US outperforms Laplace smoothing in terms of memory usage. Furthermore, we detail how to avoid redundant calculations that must otherwise be performed during the message passing scheme in the junction tree algorithm which we refer to as Unity Propagation (UP). Experimental results shows that it is always faster to exploit UP on top of the Lauritzen-Spigelhalt er message passing scheme for the junction tree algorithm.
翻訳日:2022-01-24 17:54:54 公開日:2022-01-21
# (参考訳) 動的深層畳み込みキャンドルスティック学習装置 [全文訳有]

Dynamic Deep Convolutional Candlestick Learner ( http://arxiv.org/abs/2201.08669v1 )

ライセンス: CC BY 4.0
Jun-Hao Chen, Yun-Cheng Tsai(参考訳) キャンドルスティックパターンは金融取引における最も基本的で価値あるグラフィカルツールの1つであり、トレーダーが現在の市場状況を観察して適切な決定を行うのを支援する。 このタスクには長い歴史があり、ほとんどの場合、人間の専門家です。 近年,これらのパターンをディープラーニングモデルで自動的に分類する取り組みが進められている。 GAF-CNNモデルは、空間的特徴を視覚的に統合することで、人間のトレーダーがキャンドルスティックパターンをキャプチャする方法を模倣するのに適した方法である。 しかし、gafエンコーディングの大きな可能性により、この分類タスクはより複雑なオブジェクト検出レベルにまで拡張することができる。 本研究は,ロウソクスティックパターンタスク上での現代オブジェクト検出技術とGAF時系列符号化の革新的統合を示す。 我々は,時系列符号化手法とデータ型の性質に基づいて,代表的かつ簡単なYOLOバージョン1モデルに重要な修正を加えている。 深層ニューラルネットワークとユニークなアーキテクチャ設計により、提案モデルはロウソクの分類と位置認識においてかなりよく機能する。 その結果,現代のオブジェクト検出技術が時系列タスクにリアルタイムに応用できる可能性が示唆された。

Candlestick pattern is one of the most fundamental and valuable graphical tools in financial trading that supports traders observing the current market conditions to make the proper decision. This task has a long history and, most of the time, human experts. Recently, efforts have been made to automatically classify these patterns with the deep learning models. The GAF-CNN model is a well-suited way to imitate how human traders capture the candlestick pattern by integrating spatial features visually. However, with the great potential of the GAF encoding, this classification task can be extended to a more complicated object detection level. This work presents an innovative integration of modern object detection techniques and GAF time-series encoding on candlestick pattern tasks. We make crucial modifications to the representative yet straightforward YOLO version 1 model based on our time-series encoding method and the property of such data type. Powered by the deep neural networks and the unique architectural design, the proposed model performs pretty well in candlestick classification and location recognition. The results show tremendous potential in applying modern object detection techniques on time-series tasks in a real-time manner.
翻訳日:2022-01-24 17:39:13 公開日:2022-01-21
# (参考訳) 正確なRGBTビジュアルオブジェクト追跡のための融合戦略の探索 [全文訳有]

Exploring Fusion Strategies for Accurate RGBT Visual Object Tracking ( http://arxiv.org/abs/2201.08673v1 )

ライセンス: CC BY 4.0
Zhangyong Tang (1), Tianyang Xu (1), Hui Li (1), Xiao-Jun Wu (1), Xuefeng Zhu (1) and Josef Kittler (2) ((1) Jiangnan University, Wuxi, China, (2) University of Surrey, UK)(参考訳) ビデオにおけるマルチモーダルオブジェクト追跡の問題に対処し,可視(rgb)と熱赤外線(tir)の相補的情報を用いて,画素レベル,特徴レベル,決定レベルの融合など様々な選択肢を検討する。 具体的には、既存の方法とは異なり、画像融合タスクのパラダイムはピクセルレベルでの融合のためにヒードされる。 特徴レベルの融合は、チャンネルを任意に励起するアテンション機構によって達成される。 また, 意思決定レベルでは, 無力平均化構成が優位性を示しているため, 新たな融合戦略が推進される。 提案した決定レベル融合戦略の有効性は、RGBとTIRの動的重み付けや線形テンプレート更新操作など、多くの革新的な貢献による。 その派生型はVisual Object Tracking Challenge 2020 (VOT-RGBT2020)で優勝したトラッカーを生産した。 革新的な画素レベルの融合戦略と特徴レベルの融合戦略の同時探索は,提案手法の利点を浮き彫りにしている。 GTOT, VOT-RGBT2019, VOT-RGBT2020の3つの挑戦的データセットに対する大規模な実験結果から, 提案手法の有効性とロバスト性を示した。 コードは \textcolor{blue}{\emph{https://github.com/Z hangyong-Tang/DFAT} で共有される。

We address the problem of multi-modal object tracking in video and explore various options of fusing the complementary information conveyed by the visible (RGB) and thermal infrared (TIR) modalities including pixel-level, feature-level and decision-level fusion. Specifically, different from the existing methods, paradigm of image fusion task is heeded for fusion at pixel level. Feature-level fusion is fulfilled by attention mechanism with channels excited optionally. Besides, at decision level, a novel fusion strategy is put forward since an effortless averaging configuration has shown the superiority. The effectiveness of the proposed decision-level fusion strategy owes to a number of innovative contributions, including a dynamic weighting of the RGB and TIR contributions and a linear template update operation. A variant of which produced the winning tracker at the Visual Object Tracking Challenge 2020 (VOT-RGBT2020). The concurrent exploration of innovative pixel- and feature-level fusion strategies highlights the advantages of the proposed decision-level fusion method. Extensive experimental results on three challenging datasets, \textit{i.e.}, GTOT, VOT-RGBT2019, and VOT-RGBT2020, demonstrate the effectiveness and robustness of the proposed method, compared to the state-of-the-art approaches. Code will be shared at \textcolor{blue}{\emph{https://github.com/Z hangyong-Tang/DFAT}.
翻訳日:2022-01-24 17:30:13 公開日:2022-01-21
# (参考訳) 類似意味論を持つ論理におけるスケールとヘッジ [全文訳有]

Scales and Hedges in a Logic with Analogous Semantics ( http://arxiv.org/abs/2201.08677v1 )

ライセンス: CC BY 4.0
Hedda R. Schmidtke, Sara Coelho(参考訳) ファジィ論理のような類似意味論を持つ論理は、多くの説明的および応用上の利点があり、最もよく知られているのは、専門家が制御システムを開発するのを助ける能力である。 認知システムの観点からは、そのような言語は認識の基盤となるという利点もある。 人間における社会的意思決定には、他者に対する論理的結論(認知的共感)が共感的感情(感情的共感)に根ざしていることが不可欠である。 しかし、古典的なファジィ論理にはいくつかの欠点がある:例えば、テキストにおける事象の記述がいかに複雑であるかは明らかではない。 a) 形成されました (b)接地,及び (c) 論理的推論に用いられる。 2層型コンテキスト論理(CL)はこれらの問題に対処するために設計された。 形式的には、古典的なファジィ論理のような格子意味論に基づいており、clは複素fomulaeの類似意味論も特徴としている。 Activation Bit Vector Machine (ABVM) では、分散ニューロン処理のベクトル記号アーキテクチャ(VSA)モデルに基づく、本質的にイメージプロセスを備えた、シンプルで古典的な論理的推論機構を備えている。 本稿では, 形容詞意味論と動詞意味論に必要であれば, スケールがどのように処理されるのか, 既存の理論を付け加える。

Logics with analogous semantics, such as Fuzzy Logic, have a number of explanatory and application advantages, the most well-known being the ability to help experts develop control systems. From a cognitive systems perspective, such languages also have the advantage of being grounded in perception. For social decision making in humans, it is vital that logical conclusions about others (cognitive empathy) are grounded in empathic emotion (affective empathy). Classical Fuzzy Logic, however, has several disadvantages: it is not obvious how complex formulae, e.g., the description of events in a text, can be (a) formed, (b) grounded, and (c) used in logical reasoning. The two-layered Context Logic (CL) was designed to address these issue. Formally based on a lattice semantics, like classical Fuzzy Logic, CL also features an analogous semantics for complex fomulae. With the Activation Bit Vector Machine (ABVM), it has a simple and classical logical reasoning mechanism with an inherent imagery process based on the Vector Symbolic Architecture (VSA) model of distributed neuronal processing. This paper adds to the existing theory how scales, as necessary for adjective and verb semantics can be handled by the system.
翻訳日:2022-01-24 17:04:15 公開日:2022-01-21
# (参考訳) 伝統的・深層学習を用いたテキスト投稿スタイルのマイアーブラッグス型指標に基づくパーソナリティタイプ [全文訳有]

Personality Type Based on Myers-Briggs Type Indicator with Text Posting Style by using Traditional and Deep Learning ( http://arxiv.org/abs/2201.08717v1 )

ライセンス: CC BY-SA 4.0
Sakdipat Ontoum, Jonathan H. Chan(参考訳) パーソナリティという用語は、思考、感覚、行動の特徴パターンの個人差の観点から表現することができる。 本稿では,マイアーズブリッグス型インジケータ(mbti)に基づくテキストから人格を予測するために,ナイーブベイ,サポートベクターマシン,リカレントニューラルネットワークなどの機械学習手法を提案する。 さらに、このプロジェクトでは、データマイニングのためのクロス産業標準プロセスであるCRISP-DMを用いて学習プロセスをガイドする。 crisp-dmは反復型開発の一種なので,開発サイクルを最小限に抑えるために,迅速な反復型ソフトウェア開発手法であるアジャイル方法論を採用しています。

The term personality may be expressed in terms of the individual differences in characteristics pattern of thinking, feeling, and behavior. This work presents several machine learning techniques including Naive Bayes, Support Vector Machines, and Recurrent Neural Networks to predict people personality from text based on Myers-Briggs Type Indicator (MBTI). Furthermore, this project applies CRISP-DM, which stands for Cross-Industry Standard Process for Data Mining, to guide the learning process. Since, CRISP-DM is kind of iterative development, we have adopted it with agile methodology, which is a rapid iterative software development method, in order to reduce the development cycle to be minimal.
翻訳日:2022-01-24 16:36:04 公開日:2022-01-21
# (参考訳) ERS: MST 3.0仕様に準拠した機械学習のための新しい包括的内視鏡画像データセット [全文訳有]

ERS: a novel comprehensive endoscopy image dataset for machine learning, compliant with the MST 3.0 specification ( http://arxiv.org/abs/2201.08746v1 )

ライセンス: CC BY-SA 4.0
Jan Cychnerski, Tomasz Dziubich, Adam Brzeski(参考訳) 本稿では,フレキシブル内視鏡,大腸内視鏡,カプセル内視鏡から得られた包括的画像データセットersについて述べる。 このコレクションは、「最小標準用語3.0」(MST 3.0)の完全な医学仕様に従ってラベル付けされ、一般的な機械学習アプリケーションで有用な19のラベルで拡張された消化管(104のラベル)のすべての発見を記述している。 データセットには、内視鏡ビデオから約6000、約115,000のラベル付きフレーム、3600の精度と22600の近似セグメンテーションマスク、フレキシブルとカプセルの内視鏡ビデオから133万のラベル付きフレームが含まれている。 ラベル付きデータはほぼ完全にMST 3.0標準をカバーしている。 データは、1135人の患者の1520の動画から得られた。 さらに,作成したデータセットを用いて実施した消化器画像分類タスクの例示実験を4つ提案した。 得られた結果は、内視鏡データ解析の分野における機械学習アルゴリズムのトレーニングおよびテストにおけるデータセットの有用性と柔軟性を示す。

The article presents a new multi-label comprehensive image dataset from flexible endoscopy, colonoscopy and capsule endoscopy, named ERS. The collection has been labeled according to the full medical specification of 'Minimum Standard Terminology 3.0' (MST 3.0), describing all possible findings in the gastrointestinal tract (104 possible labels), extended with an additional 19 labels useful in common machine learning applications. The dataset contains around 6000 precisely and 115,000 approximately labeled frames from endoscopy videos, 3600 precise and 22,600 approximate segmentation masks, and 1.23 million unlabeled frames from flexible and capsule endoscopy videos. The labeled data cover almost entirely the MST 3.0 standard. The data came from 1520 videos of 1135 patients. Additionally, this paper proposes and describes four exemplary experiments in gastrointestinal image classification task performed using the created dataset. The obtained results indicate the high usefulness and flexibility of the dataset in training and testing machine learning algorithms in the field of endoscopic data analysis.
翻訳日:2022-01-24 16:24:54 公開日:2022-01-21
# (参考訳) 古典および量子生成モデルの一般化の評価 [全文訳有]

Evaluating Generalization in Classical and Quantum Generative Models ( http://arxiv.org/abs/2201.08770v1 )

ライセンス: CC BY 4.0
Kaitlin Gili, Marta Mauri, Alejandro Perdomo-Ortiz(参考訳) 生成モデルにおける一般化の定義と正確な測定は、機械学習コミュニティにおける活発な研究の課題であり続けている。 これは、一般化の明確な定義、すなわち、知覚されていないデータと向き合うときのモデルの分類精度がある差別モデルとは対照的である。 本研究では、生成モデルの一般化能力を評価するための単純で曖昧なアプローチを構築する。 ここで提案されたサンプルベース一般化指標を用いて、GANのような最先端の古典的生成モデルから量子回路ボルンマシンのような量子モデルまで、任意の生成モデルが、具体的な明確に定義されたフレームワーク上で同じ理由で評価できる。 一般化を探索する他のサンプルベースメトリクスとは対照的に、制約付き最適化問題(例えば、濃度制約付き問題)を利用し、これらの離散データセットを使用して、サンプルの品質を明白に測定できる特定のメトリクスと、トレーニングセットを超えたデータを生成するモデルの一般化能力を定義する。 さらに、我々のメトリクスは、テンソルネットワークで構築された量子インスパイアされたモデルとGANを比較したときに示すように、モード崩壊やオーバーフィッティングといったトレーニング可能性の問題を診断することができる。 シミュレーション結果から,我々の量子インスパイアされたモデルでは,gansと比較して,識別不能で有効なサンプルを生成する場合,最大68 \times$向上し,トレーニングセットで観察されたものよりも品質の良いサンプルを生成する場合,61:2の比率を示した。 生成モデリングの領域における実用的な量子優位性を厳格に定義するための貴重なツールとして,これらの指標を予想する。

Defining and accurately measuring generalization in generative models remains an ongoing challenge and a topic of active research within the machine learning community. This is in contrast to discriminative models, where there is a clear definition of generalization, i.e., the model's classification accuracy when faced with unseen data. In this work, we construct a simple and unambiguous approach to evaluate the generalization capabilities of generative models. Using the sample-based generalization metrics proposed here, any generative model, from state-of-the-art classical generative models such as GANs to quantum models such as Quantum Circuit Born Machines, can be evaluated on the same ground on a concrete well-defined framework. In contrast to other sample-based metrics for probing generalization, we leverage constrained optimization problems (e.g., cardinality constrained problems) and use these discrete datasets to define specific metrics capable of unambiguously measuring the quality of the samples and the model's generalization capabilities for generating data beyond the training set but still within the valid solution space. Additionally, our metrics can diagnose trainability issues such as mode collapse and overfitting, as we illustrate when comparing GANs to quantum-inspired models built out of tensor networks. Our simulation results show that our quantum-inspired models have up to a $68 \times$ enhancement in generating unseen unique and valid samples compared to GANs, and a ratio of 61:2 for generating samples with better quality than those observed in the training set. We foresee these metrics as valuable tools for rigorously defining practical quantum advantage in the domain of generative modeling.
翻訳日:2022-01-24 16:08:02 公開日:2022-01-21
# (参考訳) 医用画像セグメンテーションのためのコントラストおよび選択的隠れ埋め込み [全文訳有]

Contrastive and Selective Hidden Embeddings for Medical Image Segmentation ( http://arxiv.org/abs/2201.08779v1 )

ライセンス: CC BY 4.0
Zhuowei Li, Zihao Liu, Zhiqiang Hu, Qing Xia, Ruiqin Xiong, Shaoting Zhang, Dimitris Metaxas, Tingting Jiang(参考訳) 医用画像分割は臨床診断,解析,治療計画の要点として広く認識されている。 しかし、面倒で高価なアノテーションプロセスは、さらなる進歩のスピードを遅らせる。 対照的な学習に基づくプレトレーニングは、ラベルのないデータを活用してよい表現を学ぶことで代替手段を提供する。 本稿では,一般的な医用セグメンテーションタスクにおいて,コントラスト学習がどのような効果をもたらすかを検討する。 この目的のために,パッチレベルのタギングと反発を連続親和性スコアで制御する範囲で行うパッチダグソーコントラスト正則化(pdcr)を提案する。 また,不確実性を考慮した特徴選択ブロック(UAFS)と呼ばれる新しい構造を設計し,不確実性の高い少数機能による学習目標シフトを処理する。 提案する2つのモジュールを既存のセグメンテーションアーキテクチャにプラグインすることで、6つのドメインから8つのパブリックデータセットで最先端の結果を得る。 新しく設計されたモジュールは、トレーニングデータの量をさらに4分の1に減らし、パフォーマンスも同等に向上した。 この観点から、ラベルに含まれる情報をさらに掘り下げることで、元の自己教師なしコントラスト学習とは反対の方向を取る。

Medical image segmentation has been widely recognized as a pivot procedure for clinical diagnosis, analysis, and treatment planning. However, the laborious and expensive annotation process lags down the speed of further advances. Contrastive learning-based weight pre-training provides an alternative by leveraging unlabeled data to learn a good representation. In this paper, we investigate how contrastive learning benefits the general supervised medical segmentation tasks. To this end, patch-dragsaw contrastive regularization (PDCR) is proposed to perform patch-level tugging and repulsing with the extent controlled by a continuous affinity score. And a new structure dubbed uncertainty-aware feature selection block (UAFS) is designed to perform the feature selection process, which can handle the learning target shift caused by minority features with high uncertainty. By plugging the proposed 2 modules into the existing segmentation architecture, we achieve state-of-the-art results across 8 public datasets from 6 domains. Newly designed modules further decrease the amount of training data to a quarter while achieving comparable, if not better, performances. From this perspective, we take the opposite direction of the original self/un-supervised contrastive learning by further excavating information contained within the label.
翻訳日:2022-01-24 15:26:59 公開日:2022-01-21
# (参考訳) AiTLAS:地球観測のための人工知能ツールボックス [全文訳有]

AiTLAS: Artificial Intelligence Toolbox for Earth Observation ( http://arxiv.org/abs/2201.08789v1 )

ライセンス: CC BY 4.0
Ivica Dimitrovski and Ivan Kitanovski and Pan\v{c}e Panov and Nikola Simidjievski and Dragi Kocev(参考訳) AiTLASツールボックス(Artificial Intelligence Toolbox for Earth Observation)は、衛星画像の探索および予測分析のための最先端の機械学習手法と、AI対応地球観測(EO)データセットのリポジトリを含む。 土地利用や被覆分類、作物の種類予測、特定の対象の局所化(セマンティックセグメンテーション)など、さまざまな地球観測タスクに容易に適用できる。 AiTLASの主な目標は、EOの専門家による新しいAIメソッド(とモデル)のユーザビリティ向上と採用を促進すると同時に、EOデータセットの容易なアクセスと標準化されたフォーマットをAI専門家に提供することで、EOデータに適した、さまざまな既存および新しいAIメソッドのベンチマークを可能にすることだ。

The AiTLAS toolbox (Artificial Intelligence Toolbox for Earth Observation) includes state-of-the-art machine learning methods for exploratory and predictive analysis of satellite imagery as well as repository of AI-ready Earth Observation (EO) datasets. It can be easily applied for a variety of Earth Observation tasks, such as land use and cover classification, crop type prediction, localization of specific objects (semantic segmentation), etc. The main goal of AiTLAS is to facilitate better usability and adoption of novel AI methods (and models) by EO experts, while offering easy access and standardized format of EO datasets to AI experts which further allows benchmarking of various existing and novel AI methods tailored for EO data.
翻訳日:2022-01-24 15:12:05 公開日:2022-01-21
# 学生の学業成績軌跡が最終学業成功に及ぼす影響

Impacts of Students Academic Performance Trajectories on Final Academic Success ( http://arxiv.org/abs/2201.08744v1 )

ライセンス: Link先を確認
Shahab Boumi, Adan Vela(参考訳) 教育分析の分野における多くの研究は、学生の学年点平均(gpa)を、学生の最終学業成績(卒業または停止)の重要な指標および予測指標として捉えている。 また、GPAの学期から学期間の変動は正常であると考えられるが、学術的業績の著しい変化は、特に最終学術的成果に関して、より徹底的な調査と考察を保証できる可能性がある。 しかし、このようなアプローチは、複雑な学術的軌跡を学術的キャリアで表現することの難しさから、困難である。 本研究では,HMM(Hidden Markov Model)を用いて,学生の学業成績の基準的・直感的な分類を行い,学業成績の軌跡をコンパクトに表現する。 次に,異なる学業成績軌跡と最終学業成績との対応関係について検討する。 フロリダ中央大学の学生筆記データに基づき,提案するhmmは,各学期ごとの学生の授業成績のシーケンスを用いて学習される。 HMMを通した分析では,高い学業成績レベルと低停止率との相関が示唆された。 しかし,本稿では,アカデミック・パフォーマンス・トラジェクタの改善や悪化が,卒業率の上昇に実際に相関するシナリオが多数存在することを明らかにする。 この反直感的発見は,提案および開発したHMMモデルにより可能である。

Many studies in the field of education analytics have identified student grade point averages (GPA) as an important indicator and predictor of students' final academic outcomes (graduate or halt). And while semester-to-semester fluctuations in GPA are considered normal, significant changes in academic performance may warrant more thorough investigation and consideration, particularly with regards to final academic outcomes. However, such an approach is challenging due to the difficulties of representing complex academic trajectories over an academic career. In this study, we apply a Hidden Markov Model (HMM) to provide a standard and intuitive classification over students' academic-performance levels, which leads to a compact representation of academic-performance trajectories. Next, we explore the relationship between different academic-performance trajectories and their correspondence to final academic success. Based on student transcript data from University of Central Florida, our proposed HMM is trained using sequences of students' course grades for each semester. Through the HMM, our analysis follows the expected finding that higher academic performance levels correlate with lower halt rates. However, in this paper, we identify that there exist many scenarios in which both improving or worsening academic-performance trajectories actually correlate to higher graduation rates. This counter-intuitive finding is made possible through the proposed and developed HMM model.
翻訳日:2022-01-24 15:04:40 公開日:2022-01-21
# fedcomm: 秘密コミュニケーションの媒体としての連合学習

FedComm: Federated Learning as a Medium for Covert Communication ( http://arxiv.org/abs/2201.08786v1 )

ライセンス: Link先を確認
Dorjan Hitaj, Giulio Pagnotta, Briland Hitaj, Fernando Perez-Cruz, Luigi V. Mancini(参考訳) ディープラーニングソリューションの採用に伴うプライバシーへの影響を軽減するソリューションとして提案されたfederated learning(fl)は、多くの参加者が、実際のプライベートトレーニングデータを明かすことなく、ディープニューラルネットワークのトレーニングに成功した。 これまで多くの研究がflのセキュリティとプライバシー特性を調査し、多くの革新的な攻撃と防衛戦略を生み出してきた。 本稿では,FL方式の通信能力について詳しく検討する。 特に,FL学習プロセスに関わる当事者が,FLを秘密通信媒体として利用して任意のメッセージを送ることができることを示す。 我々は、FLフレームワーク内でターゲットペイロードのロバストな共有と転送を可能にする新しい秘密通信技術であるFedCommを紹介する。 我々はFedCommがステルスなコミュニケーションチャネルを提供し、トレーニングプロセスの中断を最小限に抑えていることを示す。 実験の結果,FLプロシージャが収束する前に,FedCommはペイロードの100%をキロビットの順に配送することができた。 また、FedCommはアプリケーションドメインと基盤となるFLスキームで使用されるニューラルネットワークアーキテクチャとは独立であることを示す。

Proposed as a solution to mitigate the privacy implications related to the adoption of deep learning solutions, Federated Learning (FL) enables large numbers of participants to successfully train deep neural networks without having to reveal the actual private training data. To date, a substantial amount of research has investigated the security and privacy properties of FL, resulting in a plethora of innovative attack and defense strategies. This paper thoroughly investigates the communication capabilities of an FL scheme. In particular, we show that a party involved in the FL learning process can use FL as a covert communication medium to send an arbitrary message. We introduce FedComm, a novel covert-communication technique that enables robust sharing and transfer of targeted payloads within the FL framework. Our extensive theoretical and empirical evaluations show that FedComm provides a stealthy communication channel, with minimal disruptions to the training process. Our experiments show that FedComm, allowed us to successfully deliver 100% of a payload in the order of kilobits before the FL procedure converges. Our evaluation also shows that FedComm is independent of the application domain and the neural network architecture used by the underlying FL scheme.
翻訳日:2022-01-24 15:04:15 公開日:2022-01-21
# APack: 効率的なディープラーニング推論のためのオフチップ、ロスレスデータ圧縮

APack: Off-Chip, Lossless Data Compression for Efficient Deep Learning Inference ( http://arxiv.org/abs/2201.08830v1 )

ライセンス: Link先を確認
Alberto Delmas Lascorz (1), Mostafa Mahmoud (1), Andreas Moshovos (1 and 2) ((1) University of Toronto (2) Vector Institute)(参考訳) オンチップメモリとオフチップメモリ間のデータアクセスは、ディープラーニングネットワークによる推論において、全体のエネルギー消費量の大部分を占める。 固定点量子化モデルのためのシンプルで効果的でロスレスなオフチップメモリ圧縮技術であるAPackを提案する。 apackは、ディープラーニングアプリケーションにおける一様でない値分布を利用して、データ幅を減らす。 apackは、効果的なメモリ容量を増やしたり、オフチップのトラフィックを減らしたり、より小さなオフチップメモリを使いながら、望ましいパフォーマンス/エネルギ目標を達成するために使うことができる。 APackは算術符号に基づいて構築され、各値を算術的にコード化された可変長プレフィックスとオフセットとして符号化する。 ヒューリスティックソフトウェアアルゴリズムは、圧縮比を最大化するために、値空間を共通のプレフィックスを共有するグループに分割する。 apackは、複数のパイプライン化されたエンコーダ/デコーダユニットを並列に使用することで、メモリアクセス並列性を活用し、ディープラーニングの高データ帯域幅要求に対応する。 APackは任意の機械学習アクセラレータで使用することができる。 デモされた構成では、apackはオフチップメモリコントローラのすぐ前に置かれ、オンチップメモリと計算ユニットの残りが元のデータストリームに表示される。 我々はverilogと65nm技術ノードでapack圧縮機と除圧縮機を実装し,その性能とエネルギー効率を実証した。 例えば、apackは8ビットの量子化モデルで平均して、重量とアクティベーションのデータフットプリントを60%と48%に削減している。 より積極的な量子化法を使用するモデルに自然に適応し、圧縮する。 テンソルコアベースの加速器と統合すると、apackはスピードアップとエネルギー効率をそれぞれ 1.44x と 1.37x に向上させる。

Data accesses between on- and off-chip memories account for a large fraction of overall energy consumption during inference with deep learning networks. We present APack, a simple and effective, lossless, off-chip memory compression technique for fixed-point quantized models. APack reduces data widths by exploiting the non-uniform value distribution in deep learning applications. APack can be used to increase the effective memory capacity, to reduce off-chip traffic, and/or to achieve the desired performance/energy targets while using smaller off-chip memories. APack builds upon arithmetic coding, encoding each value as an arithmetically coded variable length prefix, plus an offset. To maximize compression ratio a heuristic software algorithm partitions the value space into groups each sharing a common prefix. APack exploits memory access parallelism by using several, pipelined encoder/decoder units in parallel and keeps up with the high data bandwidth demands of deep learning. APack can be used with any machine learning accelerator. In the demonstrated configuration, APack is placed just before the off-chip memory controller so that he rest of the on-chip memory and compute units thus see the original data stream. We implemented the APack compressor and decompressor in Verilog and in a 65nm tech node demonstrating its performance and energy efficiency. Indicatively, APack reduces data footprint of weights and activations to 60% and 48% respectively on average over a wide set of 8-bit quantized models. It naturally adapts and compresses models that use even more aggressive quantization methods. When integrated with a Tensorcore-based accelerator, APack boosts the speedup and energy efficiency to 1.44X and 1.37X respectively.
翻訳日:2022-01-24 15:03:55 公開日:2022-01-21
# 占有率情報比:無限ホリゾン、情報指向、パラメータ化ポリシー検索

Occupancy Information Ratio: Infinite-Horizon, Information-Directed , Parameterized Policy Search ( http://arxiv.org/abs/2201.08832v1 )

ライセンス: Link先を確認
Wesley A. Suttle, Alec Koppel, Ji Liu(参考訳) 我々は、政策の無限水平平均コストと長期的占有率のエントロピーとの比から構成される、占領情報比(OIR)と呼ばれる無限水平強化学習問題における探索・探索トレードオフの新たな尺度を開発する。 OIRは、どのくらいの軌道がRLエージェントを横切るか、コストを最小限に抑えるためにどの程度の学習をしても、その環境に対する健全な懐疑性を維持し、高いエントロピー占有率を誘導する最適なポリシーを定義する。 従来の情報比の概念と異なり、OIRはパラメータ化された家族に対して直接ポリシー探索が可能であり、視点変換の呼び出しを通じて隠れた準特異性を示す。 この特徴は、適切なポリシーパラメータ化の下では、全体的な不凸性にもかかわらず、OIR最適化問題は急激な定常点を持たないことを保証している。 我々は,新しいエントロピー勾配定理に基づくoir最適化のためのポリシー勾配とアクタ-クリティックアルゴリズムを初めて開発し,大域的最適性保証により漸近的および非漸近的収束結果を確立する。 実験では、これらの手法はスパース報酬の問題においていくつかの深いRLベースラインよりも優れており、多くの軌道は非形式的であり、環境に対する懐疑論が成功に不可欠である。

We develop a new measure of the exploration/exploita tion trade-off in infinite-horizon reinforcement learning problems called the occupancy information ratio (OIR), which is comprised of a ratio between the infinite-horizon average cost of a policy and the entropy of its long-term state occupancy measure. The OIR ensures that no matter how many trajectories an RL agent traverses or how well it learns to minimize cost, it maintains a healthy skepticism about its environment, in that it defines an optimal policy which induces a high-entropy occupancy measure. Different from earlier information ratio notions, OIR is amenable to direct policy search over parameterized families, and exhibits hidden quasiconcavity through invocation of the perspective transformation. This feature ensures that under appropriate policy parameterizations, the OIR optimization problem has no spurious stationary points, despite the overall problem's nonconvexity. We develop for the first time policy gradient and actor-critic algorithms for OIR optimization based upon a new entropy gradient theorem, and establish both asymptotic and non-asymptotic convergence results with global optimality guarantees. In experiments, these methodologies outperform several deep RL baselines in problems with sparse rewards, where many trajectories may be uninformative and skepticism about the environment is crucial to success.
翻訳日:2022-01-24 15:03:31 公開日:2022-01-21
# 分散統合センシングと通信を用いた垂直フェデレーションエッジ学習

Vertical Federated Edge Learning with Distributed Integrated Sensing and Communication ( http://arxiv.org/abs/2201.08512v1 )

ライセンス: Link先を確認
Peixi Liu, Guangxu Zhu, Wei Jiang, Wu Luo, Jie Xu, and Shuguang Cui(参考訳) 本文は、分散統合センシング・通信(ISAC)を利用して、協調物体・人体動作認識のための垂直連合エッジ学習(FEEL)システムについて研究する。 このシステムでは、分散エッジデバイスがまず無線信号を送信して対象物や人間を検知し、次にデータプライバシを保持しながら協調認識のための中間計算ベクトル(生のセンシングデータの代わりに)を交換する。 感覚のスペクトルとハードウェア利用効率を高めるために,各エッジデバイスに周波数変調連続波(fmcw)信号を用いて,ターゲットセンシングとデータ交換の両方にisacを利用する。 本設定では,収集したマルチビュー無線センシングデータに基づいて認識を実現するための縦型FEELフレームワークを提案する。 このフレームワークでは、各エッジデバイスが個々のローカルLモデルを所有して、そのセンシングデータを比較的低次元の中間ベクトルに変換し、共通の下流Sモデルを介して最終出力のための調整エッジデバイスに送信する。 人間の動作認識タスクを考慮し,我々の縦型FEELに基づくアプローチは,デバイス上でのトレーニングや水平FEELを含むベンチマークと比較して,最大8倍の精度で認識精度を最大98倍に向上することを示した。

This letter studies a vertical federated edge learning (FEEL) system for collaborative objects/human motion recognition by exploiting the distributed integrated sensing and communication (ISAC). In this system, distributed edge devices first send wireless signals to sense targeted objects/human, and then exchange intermediate computed vectors (instead of raw sensing data) for collaborative recognition while preserving data privacy. To boost the spectrum and hardware utilization efficiency for FEEL, we exploit ISAC for both target sensing and data exchange, by employing dedicated frequency-modulated continuous-wave (FMCW) signals at each edge device. Under this setup, we propose a vertical FEEL framework for realizing the recognition based on the collected multi-view wireless sensing data. In this framework, each edge device owns an individual local L-model to transform its sensing data into an intermediate vector with relatively low dimensions, which is then transmitted to a coordinating edge device for final output via a common downstream S-model. By considering a human motion recognition task, experimental results show that our vertical FEEL based approach achieves recognition accuracy up to 98\% with an improvement up to 8\% compared to the benchmarks, including on-device training and horizontal FEEL.
翻訳日:2022-01-24 15:03:07 公開日:2022-01-21
# 確率的変分最適化によるハイブリッド古典量子分類器の訓練

Training Hybrid Classical-Quantum Classifiers via Stochastic Variational Optimization ( http://arxiv.org/abs/2201.08629v1 )

ライセンス: Link先を確認
Ivana Nikoloska, and Osvaldo Simeone(参考訳) 量子機械学習は、短期量子デバイスの潜在的な実用的応用として登場した。 本研究では、一般化線形モデル(qglms)を実装した量子確率ニューロンの第1層を第2古典結合層に追従する2層ハイブリッド古典量子分類器について検討する。 第1の隠れ層への入力は、ニューロン当たりの量子ビット数における量子ニューロンのファンインの指数的大きさを活用するために振幅符号化によって得られる。 QGLMの実装を容易にするために、すべての重みとアクティベーションはバイナリである。 このタイプのモデルのトレーニング戦略に関する技術の現状は、徹底的な探索と単一ニューロンパーセプトロンのようなビットフリップ戦略に限られるが、このレターでは、確率勾配による量子層と古典層の共同トレーニングを可能にする確率的変動最適化手法を導入する。 実験は、QGLMニューロンによって実装された様々な活性化関数に対するアプローチの利点を示す。

Quantum machine learning has emerged as a potential practical application of near-term quantum devices. In this work, we study a two-layer hybrid classical-quantum classifier in which a first layer of quantum stochastic neurons implementing generalized linear models (QGLMs) is followed by a second classical combining layer. The input to the first, hidden, layer is obtained via amplitude encoding in order to leverage the exponential size of the fan-in of the quantum neurons in the number of qubits per neuron. To facilitate implementation of the QGLMs, all weights and activations are binary. While the state of the art on training strategies for this class of models is limited to exhaustive search and single-neuron perceptron-like bit-flip strategies, this letter introduces a stochastic variational optimization approach that enables the joint training of quantum and classical layers via stochastic gradient descent. Experiments show the advantages of the approach for a variety of activation functions implemented by QGLM neurons.
翻訳日:2022-01-24 14:59:24 公開日:2022-01-21
# 医用イメージングにおける深層学習防御の安全性

The Security of Deep Learning Defences for Medical Imaging ( http://arxiv.org/abs/2201.08661v1 )

ライセンス: Link先を確認
Moshe Levy, Guy Amit, Yuval Elovici, Yisroel Mirsky(参考訳) 深層学習は医用画像分析の分野で大きな可能性を秘めている。 医療専門家や医療提供者は、仕事のスピードアップと強化のためにこの技術を採用してきた。 これらのシステムは、敵対的なサンプルに対して脆弱なディープニューラルネットワーク(DNN)を使用する。 研究者は、DNNをより堅牢にするか、敵のサンプルを損傷する前に検出する防衛法を提案している。 しかし、これらの研究のどれも、防御機構に適応できる情報攻撃を考慮していない。 攻撃者は、被害者の深層学習モデルを騙し、これらの防御を役に立たないようにしながら、現在の防御状態の5つを回避できることを示す。 そこで我々は,(1)システムのセキュリティを強化し,(2)デジタル署名を使用することで,医療用dnnを保護するためのより良い方法を提案する。

Deep learning has shown great promise in the domain of medical image analysis. Medical professionals and healthcare providers have been adopting the technology to speed up and enhance their work. These systems use deep neural networks (DNN) which are vulnerable to adversarial samples; images with imperceivable changes that can alter the model's prediction. Researchers have proposed defences which either make a DNN more robust or detect the adversarial samples before they do harm. However, none of these works consider an informed attacker which can adapt to the defence mechanism. We show that an informed attacker can evade five of the current state of the art defences while successfully fooling the victim's deep learning model, rendering these defences useless. We then suggest better alternatives for securing healthcare DNNs from such attacks: (1) harden the system's security and (2) use digital signatures.
翻訳日:2022-01-24 14:59:10 公開日:2022-01-21
# clipped deepcontrol:振幅制約層を用いたディープニューラルネットワークの2次元パルス設計

Clipped DeepControl: deep neural network two-dimensional pulse design with an amplitude constraint layer ( http://arxiv.org/abs/2201.08668v1 )

ライセンス: Link先を確認
Mads Sloth Vinding, Torben Ellegaard Lund(参考訳) 磁気共鳴イメージングに使用される先進的な高周波パルス設計は、(畳み込み)ニューラルネットワークの深層学習と強化学習によって最近実証されている。 2次元選択的高周波パルスの場合、(畳み込み)ニューラルネットワークのパルス予測時間(fewミリ秒)は、従来の最適制御計算よりも3桁以上の速さで比較された。 ネットワークパルスは、B0およびB+1フィールドのスキャン対象依存不均一性を補償できる教師付きトレーニングから得られた。 残念ながら、トレーニングに使用する最適制御パルスにもかかわらず、ネットワークはテストサブセット内のパルス振幅オーバーシュートを無視できる割合で示していた。 ここでは,畳み込みニューラルネットワークを,パルス振幅オーバーシュートのリスクを完全に排除する独自のクリッピング層で拡張し,不均質なフィールド条件を補償する能力を維持した。

Advanced radio-frequency pulse design used in magnetic resonance imaging has recently been demonstrated with deep learning of (convolutional) neural networks and reinforcement learning. For two-dimensionally selective radio-frequency pulses, the (convolutional) neural network pulse prediction time (few milliseconds) was in comparison more than three orders of magnitude faster than the conventional optimal control computation. The network pulses were from the supervised training capable of compensating scan-subject dependent inhomogeneities of B0 and B+1 fields. Unfortunately, the network presented with a non-negligible percentage of pulse amplitude overshoots in the test subset, despite the optimal control pulses used in training were fully constrained. Here, we have extended the convolutional neural network with a custom-made clipping layer that completely eliminates the risk of pulse amplitude overshoots, while preserving the ability to compensate the inhomogeneous field conditions.
翻訳日:2022-01-24 14:58:55 公開日:2022-01-21
# プライバシポリシ:1996年から2021年までのプライバシポリシの内容と可読性

Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996--2021 ( http://arxiv.org/abs/2201.08739v1 )

ライセンス: Link先を確認
Isabel Wagner(参考訳) ほとんどのユーザーがプライバシーポリシーを読まないことはよく知られているが、ほとんどのユーザーはそれに同意している。 本稿では,透明性研究,機械学習,自然言語処理の手法を用いて,25年間のプライバシー政策の歴史を分析する。 具体的には,1996年から2021年にかけて,大規模に実施したプライバシポリシコーパスを収集し,プライバシポリシの長さと可読性について,彼らが記述したデータプラクティス,ユーザに与える権利,組織に保持する権利などの観点から分析した。 我々は、GDPRやCCPAといった最近のプライバシー規制に対する変化に特に注意を払う。 その結果、特に新しい規制が施行された後、ポリシーはより長く読みづらいものになってきており、さまざまなデータ慣行に関係していることがわかりました。 私たちの結果は、なぜプライバシーポリシーが読まれないのかを推測し、著者ではなく読者にプライバシーポリシーを提供する変更を提案することができます。

It is well-known that most users do not read privacy policies, but almost all users tick the box to agree with them. In this paper, we analyze the 25-year history of privacy policies using methods from transparency research, machine learning, and natural language processing. Specifically, we collect a large-scale longitudinal corpus of privacy policies from 1996 to 2021 and analyze the length and readability of privacy policies as well as their content in terms of the data practices they describe, the rights they grant to users, and the rights they reserve for their organizations. We pay particular attention to changes in response to recent privacy regulations such as the GDPR and CCPA. Our results show that policies are getting longer and harder to read, especially after new regulations take effect, and we find a range of concerning data practices. Our results allow us to speculate why privacy policies are rarely read and propose changes that would make privacy policies serve their readers instead of their writers.
翻訳日:2022-01-24 14:57:35 公開日:2022-01-21
# SparseAlign:Cryo-Ele ctron Tomographyにおけるマーカーの自動局在と変形推定のための超解法アルゴリズム

SparseAlign: A Super-Resolution Algorithm for Automatic Marker Localization and Deformation Estimation in Cryo-Electron Tomography ( http://arxiv.org/abs/2201.08706v1 )

ライセンス: Link先を確認
Poulami Somanya Ganguly, Felix Lucka, Holger Kohr, Erik Franken, Hermen Jan Hupkes, K Joost Batenburg(参考訳) クライオ電子トモグラフィの高分解能再構成には傾斜系列アライメントが不可欠である。 ビーム誘起試料の局所的変形は低コントラスト試料単独では推定が困難であり、しばしばfiducial gold beadマーカーを必要とする。 変形推定に関する最先端のアプローチは, 多項式変形モデルのパラメータに適合するために, 投影データ中のマーカー位置を半々的にラベル付けする手法を用いる。 データのノイズやマーカが投影データに重複する場合,手作業によるマーカー位置の取得は困難である。 格子フリー超解像アルゴリズムを1分子の局所化顕微鏡で初めて提案し, 同時マーカーの局在化と変形推定のための数学的手法を提案する。 提案手法はラベル付きマーカー位置を必要としないが,画像に基づく損失を用いてマーカーの前方投影と観測データとの比較を行う。 我々は、このマーカーの局所化スキームに付加的な変形推定成分を加え、変形パラメータの減少を解消する。 マーカーのみのサンプルについて広範な数値研究を行い,ラベル付きマーカーデータを用いずに自動的にマーカーを見つけ,サンプル変形を確実に推定する手法を示した。 さらに、氷上の金マーカーの電子トモグラフィーデータを含む、幅広いモデルミスマッチシナリオに対するアプローチの適用性を実証した。

Tilt-series alignment is crucial to obtaining high-resolution reconstructions in cryo-electron tomography. Beam-induced local deformation of the sample is hard to estimate from the low-contrast sample alone, and often requires fiducial gold bead markers. The state-of-the-art approach for deformation estimation uses (semi-)manually labelled marker locations in projection data to fit the parameters of a polynomial deformation model. Manually-labelled marker locations are difficult to obtain when data are noisy or markers overlap in projection data. We propose an alternative mathematical approach for simultaneous marker localization and deformation estimation by extending a grid-free super-resolution algorithm first proposed in the context of single-molecule localization microscopy. Our approach does not require labelled marker locations; instead, we use an image-based loss where we compare the forward projection of markers with the observed data. We equip this marker localization scheme with an additional deformation estimation component and solve for a reduced number of deformation parameters. Using extensive numerical studies on marker-only samples, we show that our approach automatically finds markers and reliably estimates sample deformation without labelled marker data. We further demonstrate the applicability of our approach for a broad range of model mismatch scenarios, including experimental electron tomography data of gold markers on ice.
翻訳日:2022-01-24 14:57:18 公開日:2022-01-21
# (参考訳) 点-NeRF:点ベースニューラルラジアンス場 [全文訳有]

Point-NeRF: Point-based Neural Radiance Fields ( http://arxiv.org/abs/2201.08845v1 )

ライセンス: CC0 1.0
Qiangeng Xu and Zexiang Xu and Julien Philip and Sai Bi and Zhixin Shu and Kalyan Sunkavalli and Ulrich Neumann(参考訳) NeRFのようなボリュームニューラルレンダリング手法は、高品質なビュー合成結果を生成するが、シーンごとの最適化により、不規則な再構成時間に繋がる。 一方,深層多視点ステレオ手法は,直接ネットワーク推論によるシーン形状の再構築を迅速に行うことができる。 Point-NeRFは、これらの2つのアプローチの利点を、ニューラル3Dポイントクラウドと関連するニューラル特徴を組み合わせて、放射場をモデル化する。 レイマーチングベースのレンダリングパイプラインにおいて、シーン表面近傍のニューラルポイント特徴を集約することにより、ポイントナーフを効率的にレンダリングすることができる。 さらに、ポイント-NeRFは、事前訓練されたディープネットワークの直接推論を通じて初期化してニューラルポイントクラウドを生成することができ、このポイントクラウドは、30倍高速なトレーニング時間でNeRFの視覚的品質を超えるように微調整することができる。 ポイントナーフは、他の3d再構成法と組み合わせることができ、新しい刈り取りと成長メカニズムを介して、そのような方法のエラーや外れ値を処理する。

Volumetric neural rendering methods like NeRF generate high-quality view synthesis results but are optimized per-scene leading to prohibitive reconstruction time. On the other hand, deep multi-view stereo methods can quickly reconstruct scene geometry via direct network inference. Point-NeRF combines the advantages of these two approaches by using neural 3D point clouds, with associated neural features, to model a radiance field. Point-NeRF can be rendered efficiently by aggregating neural point features near scene surfaces, in a ray marching-based rendering pipeline. Moreover, Point-NeRF can be initialized via direct inference of a pre-trained deep network to produce a neural point cloud; this point cloud can be finetuned to surpass the visual quality of NeRF with 30X faster training time. Point-NeRF can be combined with other 3D reconstruction methods and handles the errors and outliers in such methods via a novel pruning and growing mechanism.
翻訳日:2022-01-24 14:56:08 公開日:2022-01-21
# InSARの表面変位を用いたデータ同化に基づく深層学習型3次元炭素貯留層圧力予測

Deep Learning-Accelerated 3D Carbon Storage Reservoir Pressure Forecasting Based on Data Assimilation Using Surface Displacement from InSAR ( http://arxiv.org/abs/2201.08543v1 )

ライセンス: Link先を確認
Hewei Tang, Pengcheng Fu, Honggeun Jo, Su Jiang, Christopher S. Sherman, Fran\c{c}ois Hamon, Nicholas A. Azzolina, and Joseph P. Morris(参考訳) モニタリングデータの同化による地質炭素貯蔵(gcs)における貯留層圧力分布の高速予測は難しい課題である。 掘削コストが高いため、GCSプロジェクトは通常井戸から空間的に疎らな測定を行い、貯水池圧力予測に高い不確実性をもたらす。 そこで本研究では,insar(interferometr ic synthetic-aperture radar)データを用いて貯留層圧力を推定する手法を提案する。 InSARから解釈された表面変位マップを同化し,動的貯水池圧力を予測する深層学習促進ワークフローを開発した。 Ensemble Smoother Multiple Data Assimilation (ES-MDA) フレームワークを利用することで、ワークフローは3次元(3D)地質特性を更新し、定量化された不確実性を伴う貯水池圧力を予測する。 本稿では,二様分散透過性と多孔性を有する合成商業規模GCSモデルを用いて,ワークフローの有効性を実証する。 バイモーダル場をパラメータ化するために2段階のCNN-PCA手法を用いる。 ワークフローの計算効率は, 表面変位予測と貯留圧予測の2つの残留U-Netベースサロゲートモデルにより向上する。 ワークフローは、パーソナルコンピュータ上で30分以内にデータ同化と貯水圧予測を完了することができる。

Fast forecasting of reservoir pressure distribution in geologic carbon storage (GCS) by assimilating monitoring data is a challenging problem. Due to high drilling cost, GCS projects usually have spatially sparse measurements from wells, leading to high uncertainties in reservoir pressure prediction. To address this challenge, we propose to use low-cost Interferometric Synthetic-Aperture Radar (InSAR) data as monitoring data to infer reservoir pressure build up. We develop a deep learning-accelerated workflow to assimilate surface displacement maps interpreted from InSAR and to forecast dynamic reservoir pressure. Employing an Ensemble Smoother Multiple Data Assimilation (ES-MDA) framework, the workflow updates three-dimensional (3D) geologic properties and predicts reservoir pressure with quantified uncertainties. We use a synthetic commercial-scale GCS model with bimodally distributed permeability and porosity to demonstrate the efficacy of the workflow. A two-step CNN-PCA approach is employed to parameterize the bimodal fields. The computational efficiency of the workflow is boosted by two residual U-Net based surrogate models for surface displacement and reservoir pressure predictions, respectively. The workflow can complete data assimilation and reservoir pressure forecasting in half an hour on a personal computer.
翻訳日:2022-01-24 14:35:18 公開日:2022-01-21
# Dot製品カーネルのランダム機能の改善

Improved Random Features for Dot Product Kernels ( http://arxiv.org/abs/2201.08712v1 )

ライセンス: Link先を確認
Jonas Wacker, Motonobu Kanagawa, Maurizio Filippone(参考訳) 多項式や指数関数(ソフトマックス)カーネルなどのDot製品カーネルは、コンピュータビジョン、自然言語処理、レコメンダシステムといったアプリケーションにおいて重要な入力特徴間の相互作用をモデル化できるため、機械学習において最も広く使われているカーネルの一つである。 我々は、ドット製品カーネルのランダムな特徴近似の効率向上にいくつかの新しい貢献を行い、これらのカーネルを大規模学習に役立てる。 まず,Radecher や Gaussian のスケッチや TensorSRHT などの多項式カーネルに対して,複素値のランダムな特徴を用いた既存のランダムな特徴近似を一般化する。 複雑な特徴を用いることで,これらの近似の分散を著しく低減できることを示す。 第2に,様々なランダム特徴近似の効率に影響を与える因子について,その分散に対する閉形式式を導出することにより理論的に解析する。 これらの分散公式は、ある近似(例えばテンソルsrht)が他の近似よりも低い分散(例えばラデマッハスケッチ)を達成する条件と、複素特徴の使用が実際の特徴よりも低い分散をもたらす条件を解明する。 第三に、実際に評価できるこれらの分散式を用いて、一般のドット製品カーネルに対するランダムな特徴近似に対するデータ駆動最適化手法を開発し、ガウスカーネルにも適用する。 これらの貢献によってもたらされた改善と、さまざまなタスクやデータセットに関する広範な実験について説明する。

Dot product kernels, such as polynomial and exponential (softmax) kernels, are among the most widely used kernels in machine learning, as they enable modeling the interactions between input features, which is crucial in applications like computer vision, natural language processing, and recommender systems. We make several novel contributions for improving the efficiency of random feature approximations for dot product kernels, to make these kernels more useful in large scale learning. First, we present a generalization of existing random feature approximations for polynomial kernels, such as Rademacher and Gaussian sketches and TensorSRHT, using complex-valued random features. We show empirically that the use of complex features can significantly reduce the variances of these approximations. Second, we provide a theoretical analysis for understanding the factors affecting the efficiency of various random feature approximations, by deriving closed-form expressions for their variances. These variance formulas elucidate conditions under which certain approximations (e.g., TensorSRHT) achieve lower variances than others (e.g, Rademacher sketch), and conditions under which the use of complex features leads to lower variances than real features. Third, by using these variance formulas, which can be evaluated in practice, we develop a data-driven optimization approach to random feature approximations for general dot product kernels, which is also applicable to the Gaussian kernel. We describe the improvements brought by these contributions with extensive experiments on a variety of tasks and datasets.
翻訳日:2022-01-24 14:34:55 公開日:2022-01-21
# バナッハ空間における最適分散還元確率近似

Optimal variance-reduced stochastic approximation in Banach spaces ( http://arxiv.org/abs/2201.08518v1 )

ライセンス: Link先を確認
Wenlong Mou, Koulik Khamaru, Martin J. Wainwright, Peter L. Bartlett, Michael I. Jordan(参考訳) 分離バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。 演算子のノイズ評価を提供する確率的問合せモデルに着目し,分散還元確率近似スキームを解析し,任意の半ノルムで測定した演算子欠陥と推定誤差の両方に対する非漸近境界を確立する。 最悪の場合の保証とは対照的に、私たちの境界はインスタンスに依存し、非漸近的に局所漸近的ミニマックスリスクを達成する。 線形作用素の場合、収縮性は多段階の収縮性に緩和され、強化学習における平均報酬政策評価問題のような問題にこの理論を適用することができる。 確率的最短経路問題や2人のゼロサムマルコフゲーム、および政策評価や表型マルコフ決定プロセスのq$-learningへの応用を通じて理論を説明する。

We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
翻訳日:2022-01-24 14:34:16 公開日:2022-01-21
# 非線形予測関数の限界効果

Marginal Effects for Non-Linear Prediction Functions ( http://arxiv.org/abs/2201.08837v1 )

ライセンス: Link先を確認
Christian A. Scholbeck, Giuseppe Casalicchio, Christoph Molnar, Bernd Bischl, Christian Heumann(参考訳) 線形回帰モデルのベータ係数は、解釈可能な特徴効果の理想的な形を表す。 しかし、非線形モデル、特に一般化線形モデルでは、推定係数は予測結果に対する直接的な特徴効果とは解釈できない。 したがって、限界効果は典型的には特徴効果の近似として、予測関数の微分の形状や特徴値の変化による予測の前方差のいずれにおいても用いられる。 限界効果は多くの科学分野で一般的に用いられるが、機械学習モデルのモデル非依存解釈法としてはまだ採用されていない。 これは、一変量の特徴効果としての柔軟性と、ブラックボックスモデルに見られる非線形性に対処できないことに起因する。 我々は、前縁効果と呼ばれる新しい限界効果のクラスを導入する。 我々は、より良い解釈可能な前方の差異に有利な微分を放棄することを議論する。 さらに,特徴値の多変量変化に対する前方差に基づく限界効果を一般化する。 予測関数の非線形性を考慮するために,限界効果に対する非線形測度を導入する。 平均辺効果のような単一計量における非線形予測関数の特徴効果の要約に反対する。 代わりに、特徴空間を分割し、条件付き特徴効果推定として機能部分空間に対する条件付き平均限界効果を計算することを提案する。

Beta coefficients for linear regression models represent the ideal form of an interpretable feature effect. However, for non-linear models and especially generalized linear models, the estimated coefficients cannot be interpreted as a direct feature effect on the predicted outcome. Hence, marginal effects are typically used as approximations for feature effects, either in the shape of derivatives of the prediction function or forward differences in prediction due to a change in a feature value. While marginal effects are commonly used in many scientific fields, they have not yet been adopted as a model-agnostic interpretation method for machine learning models. This may stem from their inflexibility as a univariate feature effect and their inability to deal with the non-linearities found in black box models. We introduce a new class of marginal effects termed forward marginal effects. We argue to abandon derivatives in favor of better-interpretable forward differences. Furthermore, we generalize marginal effects based on forward differences to multivariate changes in feature values. To account for the non-linearity of prediction functions, we introduce a non-linearity measure for marginal effects. We argue against summarizing feature effects of a non-linear prediction function in a single metric such as the average marginal effect. Instead, we propose to partition the feature space to compute conditional average marginal effects on feature subspaces, which serve as conditional feature effect estimates.
翻訳日:2022-01-24 14:33:59 公開日:2022-01-21
# 高速微分可能な行列平方根

Fast Differentiable Matrix Square Root ( http://arxiv.org/abs/2201.08663v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) 行列平方根やその逆を微分可能な方法で計算することは、様々なコンピュータビジョンタスクにおいて重要である。 以前の手法では、行列を明示的に分解するために特異値分解(svd)を採用するか、近似解を導出するためにニュートン・シュルツ反復(nsイテレーション)を用いる。 しかし、どちらの方法も前方のパスでも後方のパスでも計算効率が十分ではない。 本稿では,微分可能な行列平方根を計算するための2つのより効率的な変種を提案する。 前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad\'e Approximants (MPA) を使用する方法がある。 行列符号関数を用いて連続時間リアプノフ方程式を反復的に解いて逆勾配を求める。 どちらの手法もSVDやニュートン・シュルツの繰り返しと比較してかなりスピードアップする。 また,非相関型バッチ正規化と2次視覚変換器の実験結果から,本手法は競合性や性能が若干向上することを示した。 コードは \href{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt} で公開されている。

Computing the matrix square root or its inverse in a differentiable manner is important in a variety of computer vision tasks. Previous methods either adopt the Singular Value Decomposition (SVD) to explicitly factorize the matrix or use the Newton-Schulz iteration (NS iteration) to derive the approximate solution. However, both methods are not computationally efficient enough in either the forward pass or in the backward pass. In this paper, we propose two more efficient variants to compute the differentiable matrix square root. For the forward propagation, one method is to use Matrix Taylor Polynomial (MTP), and the other method is to use Matrix Pad\'e Approximants (MPA). The backward gradient is computed by iteratively solving the continuous-time Lyapunov equation using the matrix sign function. Both methods yield considerable speed-up compared with the SVD or the Newton-Schulz iteration. Experimental results on the de-correlated batch normalization and second-order vision transformer demonstrate that our methods can also achieve competitive and even slightly better performances. The code is available at \href{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}.
翻訳日:2022-01-24 14:33:42 公開日:2022-01-21
# 事前学習型言語モデルのためのブラックボックス・プロンプト学習

Black-box Prompt Learning for Pre-trained Language Models ( http://arxiv.org/abs/2201.08531v1 )

ライセンス: Link先を確認
Shizhe Diao, Xuechun Li, Yong Lin, Zhichao Huang, Tong Zhang(参考訳) 大規模事前訓練モデルのドメイン固有の微調整戦略は近年大きな注目を集めている。 これまで検討された設定では、モデルアーキテクチャとパラメータは調整可能か少なくとも可視であり、これはホワイトボックス設定と呼ばれる。 この研究は、与えられた入力の出力を除いて事前訓練されたモデルにアクセスできない新しいシナリオを考察し、この問題をブラックボックスファインチューニングと呼ぶ。 提案手法を説明するために,まずテキスト分類におけるブラックボックス設定を導入し,事前学習したモデルが凍結されているだけでなく,見えなくなるようにした。 そこで我々は,事前学習コーパスから事前学習したモデルから学習した知識を活用できる,新しい手法であるブラックボックスプロンプトを提案する。 実験により,提案手法は8つのデータセット上で最先端の性能を達成した。 提案手法の頑健さと柔軟性について, 人体設計対象, 即時長, 直感的説明のさらなる分析を行った。

Domain-specific fine-tuning strategies for large pre-trained models received vast attention in recent years. In previously studied settings, the model architectures and parameters are tunable or at least visible, which we refer to as white-box settings. This work considers a new scenario, where we do not have access to a pre-trained model, except for its outputs given inputs, and we call this problem black-box fine-tuning. To illustrate our approach, we first introduce the black-box setting formally on text classification, where the pre-trained model is not only frozen but also invisible. We then propose our solution black-box prompt, a new technique in the prompt-learning family, which can leverage the knowledge learned by pre-trained models from the pre-training corpus. Our experiments demonstrate that the proposed method achieved the state-of-the-art performance on eight datasets. Further analyses on different human-designed objectives, prompt lengths, and intuitive explanations demonstrate the robustness and flexibility of our method.
翻訳日:2022-01-24 14:33:18 公開日:2022-01-21
# Can Model CompressionはNLPの公平性を向上する

Can Model Compression Improve NLP Fairness ( http://arxiv.org/abs/2201.08542v1 )

ライセンス: Link先を確認
Guangxuan Xu, Qingyuan Hu(参考訳) モデル圧縮技術が注目されているが、モデルフェアネスに対する圧縮の影響はまだ検討中である。 本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留と刈り取りの影響を調べる最初の論文である。 We test Knowledge Distillation and Pruning methods on the GPT2 model and found a consistent pattern of toxicity and bias reduction after model distillation; this result can be potentially interpreted by existing line of research which describes model compression as a regularization technique; our work not only serves as a reference for safe deployment of compressed models, but also extends the discussion of "compression as regularization" into the setting of neural LMs, and hints at the possibility of using compression to develop fairer models.

Model compression techniques are receiving increasing attention; however, the effect of compression on model fairness is still under explored. This is the first paper to examine the effect of distillation and pruning on the toxicity and bias of generative language models. We test Knowledge Distillation and Pruning methods on the GPT2 model and found a consistent pattern of toxicity and bias reduction after model distillation; this result can be potentially interpreted by existing line of research which describes model compression as a regularization technique; our work not only serves as a reference for safe deployment of compressed models, but also extends the discussion of "compression as regularization" into the setting of neural LMs, and hints at the possibility of using compression to develop fairer models.
翻訳日:2022-01-24 14:32:12 公開日:2022-01-21
# マスキング言語モデルを用いたバイアス緩和のためのテキストスタイル転送

Text Style Transfer for Bias Mitigation using Masked Language Modeling ( http://arxiv.org/abs/2201.08643v1 )

ライセンス: Link先を確認
Ewoenam Kwaku Tokpo, Toon Calders(参考訳) インターネットや他のデジタルプラットフォーム上のテキストデータは、かなりのレベルのバイアスとステレオタイプを含んでいることはよく知られている。 このようなテキストには、必ずしも悪意を持っていない理由から自然言語に固有のステレオタイプやバイアスが含まれているが、これらのバイアスを緩和するための重要な理由がある。 例えば、これらのテキストは、cv-screeningや検索エンジン、チャットボットといった優れたアプリケーションのための言語モデルをトレーニングするためのトレーニングコーパスとして使われています。 また、いくつかの研究結果から、偏りのあるテキストはターゲットの人口集団に大きな影響を与えると結論づけられた。 例えば、男性言葉の求人広告は女性応募者にはあまりアピールしない傾向にある。 本稿では,テキストデータの自動デバイアスに使用できるテキストスタイルトランスファーモデルを提案する。 当社のスタイル転送モデルは,コンテンツ情報の喪失などの既存のスタイル転送技術の制限を改善した。 本モデルでは,潜在コンテンツエンコーディングと明示的なキーワード置換を組み合わせることで,このような問題を解決する。 本手法は,優れたスタイル転送精度を維持しつつ,より良いコンテンツ保存を実現することを示す。

It is well known that textual data on the internet and other digital platforms contain significant levels of bias and stereotypes. Although many such texts contain stereotypes and biases that inherently exist in natural language for reasons that are not necessarily malicious, there are crucial reasons to mitigate these biases. For one, these texts are being used as training corpus to train language models for salient applications like cv-screening, search engines, and chatbots; such applications are turning out to produce discriminatory results. Also, several research findings have concluded that biased texts have significant effects on the target demographic groups. For instance, masculine-worded job advertisements tend to be less appealing to female applicants. In this paper, we present a text style transfer model that can be used to automatically debias textual data. Our style transfer model improves on the limitations of many existing style transfer techniques such as loss of content information. Our model solves such issues by combining latent content encoding with explicit keyword replacement. We will show that this technique produces better content preservation whilst maintaining good style transfer accuracy.
翻訳日:2022-01-24 14:32:03 公開日:2022-01-21
# コンテキストチューニング:自然言語生成のための文脈化プロンプトの学習

Context-Tuning: Learning Contextualized Prompts for Natural Language Generation ( http://arxiv.org/abs/2201.08670v1 )

ライセンス: Link先を確認
Tianyi Tang, Junyi Li, Wayne Xin Zhao(参考訳) 近年,プレトレーニング言語モデル (PLM) は言語生成において極めて成功している。 plmsでエンコードされるリッチな知識を活用するために、シンプルで強力なメカニズムは、離散トークンまたは連続埋め込みの形式でプロンプトを使用することである。 既存の研究では、手動プロンプトは時間を使い、ドメインの専門知識を必要とするが、継続的プロンプトは通常入力から独立している。 この問題に対処するために、自然言語生成のための微調整PLMに対して、Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。 第一に、プロンプトは入力テキストに基づいて導出されるので、plmから有用な知識を生成に導くことができる。 このようなプロンプトをコンテキスト化されたプロンプトと呼ぶ。 第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて、入力から出力への逆生成プロセスをモデル化することにより、自然言語生成のプロセスを洗練する。 さらに,優れた性能を維持しつつ,パラメータの0.4%を微調整する軽量なコンテキストチューニングを提案する。

Recently, pretrained language models (PLMs) have made exceptional success in language generation. To leverage the rich knowledge encoded by PLMs, a simple yet powerful mechanism is to use prompts, in the form of either discrete tokens or continuous embeddings. In existing studies, manual prompts are time-consuming and require domain expertise, while continuous prompts are typically independent of the inputs. To address this issue, we propose a novel continuous prompting approach, called Context-Tuning, to fine-tuning PLMs for natural language generation. Firstly, the prompts are derived based on the input text, so that they can elicit useful knowledge from PLMs for generation. We refer to such prompts as contextualized prompts. Secondly, to further enhance the relevance of the generated text to the inputs, we utilize continuous inverse prompting to refine the process of natural language generation by modeling an inverse generation process from output to input. Moreover, we propose a lightweight contexttuning, fine-tuning only 0.4% of parameters while retaining well performance.
翻訳日:2022-01-24 14:31:48 公開日:2022-01-21
# タスク指向対話システムのための言語モデルの比較研究

A Comparative Study on Language Models for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2201.08687v1 )

ライセンス: Link先を確認
Vinsen Marselino Andreas, Genta Indra Winata, Ayu Purwarianti(参考訳) 近年の言語モデル開発は、様々な自然言語タスクにおける最先端の性能を事前学習モデルによって達成し、有望な結果を示している。 タスク指向対話(tod)システムでは、対話状態追跡に頼ることなく、言語モデルをエンドツーエンドのトレーニングに使用し、対話履歴を追跡し、言語モデルが入力として与えられたコンテキストに応じて応答を生成することができる。 本稿では,bart や t5 などの最近の事前学習モデルを用いたエンドツーエンド tod システムの性能と強度について比較検討を行った。 実験の結果,言語モデルの微調整による性能向上が認められた。 モデルは、幻覚を回避し、生成された応答の正確な実体を生成するためにモデルに知識を加えた後、より流動的な応答を生成する。 さらに,BARTとT5はBLEUおよびF1スコアにおいてGPTモデルより優れ,ToDシステムにおける最先端性能を実現していることがわかった。

The recent development of language models has shown promising results by achieving state-of-the-art performance on various natural language tasks by fine-tuning pretrained models. In task-oriented dialogue (ToD) systems, language models can be used for end-to-end training without relying on dialogue state tracking to track the dialogue history but allowing the language models to generate responses according to the context given as input. This paper conducts a comparative study to show the effectiveness and strength of using recent pretrained models for fine-tuning, such as BART and T5, on endto-end ToD systems. The experimental results show substantial performance improvements after language model fine-tuning. The models produce more fluent responses after adding knowledge to the context that guides the model to avoid hallucination and generate accurate entities in the generated responses. Furthermore, we found that BART and T5 outperform GPT-based models in BLEU and F1 scores and achieve state-of-the-art performance in a ToD system.
翻訳日:2022-01-24 14:31:31 公開日:2022-01-21
# 動的環境における深部sfmによる多視点単眼深度と不確かさ予測

Multi-view Monocular Depth and Uncertainty Prediction with Deep SfM in Dynamic Environments ( http://arxiv.org/abs/2201.08633v1 )

ライセンス: Link先を確認
Christian Homeyer, Oliver Lange, Christoph Schn\"orr(参考訳) 動的環境下でのモノクロ映像からの深度と動きの3次元再構成は,2次元画像領域に投影する際の視界のあいまいさが問題となる。 本研究では,このような環境における現在の最先端(sota)深層マルチビューシステムの性能について検討する。 個々の物体の動きをモデル化しないにもかかわらず、現在の教師あり手法は驚くほどうまく機能するが、密度の高い地上真実データが欠如しているため、体系的な誤りを犯す。 使用中のエラーを検出するため,DeepV2D(DeepV2D)フレームワーク \cite{teed2018deepv2d} に,コストボリュームに基づくDeep Video を拡張した。 ディープビデオからDeepV2cD(DeepV2cD)モデルまで i)現在の SotA と同等以上の性能を発揮すること 二 ナイーブ・シャノンのエントロピーよりも優れた不確実性測度を達成すること。 本実験では,不確実性に基づく単純なフィルタ戦略により,系統的誤りを著しく低減できることを示す。 これにより、シーンの静的部分と動的部分の両方で、クリーンな再構築が可能になる。

3D reconstruction of depth and motion from monocular video in dynamic environments is a highly ill-posed problem due to scale ambiguities when projecting to the 2D image domain. In this work, we investigate the performance of the current State-of-the-Art (SotA) deep multi-view systems in such environments. We find that current supervised methods work surprisingly well despite not modelling individual object motions, but make systematic errors due to a lack of dense ground truth data. To detect such errors during usage, we extend the cost volume based Deep Video to Depth (DeepV2D) framework \cite{teed2018deepv2d} with a learned uncertainty. Our Deep Video to certain Depth (DeepV2cD) model allows i) to perform en par or better with current SotA and ii) achieve a better uncertainty measure than the naive Shannon entropy. Our experiments show that a simple filter strategy based on the uncertainty can significantly reduce systematic errors. This results in cleaner reconstructions both on static and dynamic parts of the scene.
翻訳日:2022-01-24 14:29:45 公開日:2022-01-21
# ディエンス予測課題における視覚変換器の総合的研究

A Comprehensive Study of Vision Transformers on Dense Prediction Tasks ( http://arxiv.org/abs/2201.08683v1 )

ライセンス: Link先を確認
Kishaan Jeeveswaran, Senthilkumar Kathiresan, Arnav Varma, Omar Magdy, Bahram Zonooz, and Elahe Arani(参考訳) 畳み込みニューラルネットワーク(cnns)は畳み込み層からなるアーキテクチャであり、視覚タスクの標準的な選択である。 近年、視覚トランスフォーマー(vts)は自己着脱モジュールに基づくアーキテクチャであり、オブジェクト検出やセマンティクスセグメンテーションといった課題において同等の性能を達成している。 しかし,VTの画像処理機構は従来のCNNとは異なる。 これは、複雑なタスクの機能を抽出する際に、それらの一般化可能性、ロバスト性、信頼性、テクスチャバイアスに関するいくつかの疑問を提起する。 これらの問題に対処するため,VTとCNNアーキテクチャをオブジェクト検出とセマンティックセグメンテーションにおける特徴抽出器として研究・比較する。 広範な実験結果から,vtsが生成する機能は,分布シフト,自然腐敗,両タスクの敵対的攻撃に対してより頑健であり,cnnはオブジェクト検出における高分解能で優れた性能を示す。 さらに, 密度予測タスクにおけるVTは, より信頼性が高く, テクスチャバイアスの少ない予測をもたらすことを示した。

Convolutional Neural Networks (CNNs), architectures consisting of convolutional layers, have been the standard choice in vision tasks. Recent studies have shown that Vision Transformers (VTs), architectures based on self-attention modules, achieve comparable performance in challenging tasks such as object detection and semantic segmentation. However, the image processing mechanism of VTs is different from that of conventional CNNs. This poses several questions about their generalizability, robustness, reliability, and texture bias when used to extract features for complex tasks. To address these questions, we study and compare VT and CNN architectures as feature extractors in object detection and semantic segmentation. Our extensive empirical results show that the features generated by VTs are more robust to distribution shifts, natural corruptions, and adversarial attacks in both tasks, whereas CNNs perform better at higher image resolutions in object detection. Furthermore, our results demonstrate that VTs in dense prediction tasks produce more reliable and less texture-biased predictions.
翻訳日:2022-01-24 14:29:28 公開日:2022-01-21
# 深部表情表現に基づくdoppelg\"angersの高精度検出

Reliable Detection of Doppelg\"angers based on Deep Face Representations ( http://arxiv.org/abs/2201.08831v1 )

ライセンス: Link先を確認
Christian Rathgeb, Daniel Fischer, Pawel Drozdowski, Christoph Busch(参考訳) Doppelg\"angers(または lookalikes)は通常、非比較試験で選択されたランダムな顔画像対とは対照的に、顔認識システムにおいて偽マッチングの確率が増加する。 本研究では,最先端の顔認識システムを用いて,HDA Doppelg\"anger and Disguised Faces in The Wildデータベースにおけるdoppelg\"angersの影響を評価する。 doppelg\"anger image pairs は非常に高い類似度スコアが得られ、結果として偽一致率が著しく増加する。 さらに,顔画像対から得られた深部表現の差を解析することにより,類似した比較試験からdoppelg\"anger検出法を提案する。 提案する検出システムは、顔のモーフィング技術を利用したdoppelg\"anger画像ペア生成を訓練した機械学習に基づく分類器を用いる。 hda doppelg\"anger と look-alike face database で行った実験の結果、doppelg\"anger と mated authentication を分離するタスクにおいて、検出エラー率は約2.7%であった。

Doppelg\"angers (or lookalikes) usually yield an increased probability of false matches in a facial recognition system, as opposed to random face image pairs selected for non-mated comparison trials. In this work, we assess the impact of doppelg\"angers on the HDA Doppelg\"anger and Disguised Faces in The Wild databases using a state-of-the-art face recognition system. It is found that doppelg\"anger image pairs yield very high similarity scores resulting in a significant increase of false match rates. Further, we propose a doppelg\"anger detection method which distinguishes doppelg\"angers from mated comparison trials by analysing differences in deep representations obtained from face image pairs. The proposed detection system employs a machine learning-based classifier, which is trained with generated doppelg\"anger image pairs utilising face morphing techniques. Experimental evaluations conducted on the HDA Doppelg\"anger and Look-Alike Face databases reveal a detection equal error rate of approximately 2.7% for the task of separating mated authentication attempts from doppelg\"angers.
翻訳日:2022-01-24 14:29:07 公開日:2022-01-21
# tofu: 重みの更新をプロキシデータから勾配にエンコードすることで、難読化したフェデレーション更新へ

TOFU: Towards Obfuscated Federated Updates by Encoding Weight Updates into Gradients from Proxy Data ( http://arxiv.org/abs/2201.08494v1 )

ライセンス: Link先を確認
Isha Garg, Manish Nagaraj, Kaushik Roy(参考訳) 連合学習の進歩とユーザデータの豊富さは、ユーザデータを共有することなく、複数のクライアント間でリッチな協調学習を可能にした。 これは、重み付け更新の形で学習を集約する中央サーバを通じて行われる。 しかし、これは、クライアントとサーバ間の繰り返しの高価な通信のコストと、ユーザプライバシの侵害に関する懸念が伴う。 生成したデータへの勾配の反転は、データ漏洩と呼ばれる。 暗号化技術は、この漏洩に対処するために使用できるが、追加の費用はかかる。 通信効率とプライバシのこれらの課題に対処するために,各クライアントの重み更新を勾配にエンコードするプロキシデータを生成する新しいアルゴリズムTOFUを提案する。 重み更新の代わりに、このプロキシデータが共有されるようになった。 入力データは重みよりも次元の複雑さがはるかに低いため、この符号化により通信ラウンドあたりのデータの送信がずっと少ない。 さらに、プロキシデータはノイズに似ており、データ漏洩攻撃による完全な再構築でさえ、デコードされた勾配を認識不能なノイズに変換し、プライバシーを向上する。 ToFUは,MNISTおよびCIFAR-10データセット上で,1%未満の精度低下と7%の精度低下で学習を可能にする。 このドロップは、数ラウンドの高価な暗号化勾配交換によって回収できる。 これにより、MNIST と CIFAR-10 の標準フェデレーション平均化アルゴリズムよりも4倍と6.6倍の通信効率で、フェデレートされた設定で精度をほぼフルにすることができる。

Advances in Federated Learning and an abundance of user data have enabled rich collaborative learning between multiple clients, without sharing user data. This is done via a central server that aggregates learning in the form of weight updates. However, this comes at the cost of repeated expensive communication between the clients and the server, and concerns about compromised user privacy. The inversion of gradients into the data that generated them is termed data leakage. Encryption techniques can be used to counter this leakage, but at added expense. To address these challenges of communication efficiency and privacy, we propose TOFU, a novel algorithm which generates proxy data that encodes the weight updates for each client in its gradients. Instead of weight updates, this proxy data is now shared. Since input data is far lower in dimensional complexity than weights, this encoding allows us to send much lesser data per communication round. Additionally, the proxy data resembles noise, and even perfect reconstruction from data leakage attacks would invert the decoded gradients into unrecognizable noise, enhancing privacy. We show that TOFU enables learning with less than 1% and 7% accuracy drops on MNIST and on CIFAR-10 datasets, respectively. This drop can be recovered via a few rounds of expensive encrypted gradient exchange. This enables us to learn to near-full accuracy in a federated setup, while being 4x and 6.6x more communication efficient than the standard Federated Averaging algorithm on MNIST and CIFAR-10, respectively.
翻訳日:2022-01-24 14:26:38 公開日:2022-01-21
# AutoDistill: ハードウェア効率の良い言語モデルを探索し、拡張するためのエンドツーエンドフレームワーク

AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models ( http://arxiv.org/abs/2201.08539v1 )

ライセンス: Link先を確認
Xiaofan Zhang, Zongwei Zhou, Deming Chen, Yu Emma Wang(参考訳) 近年、大規模事前学習モデルにより、様々な自然言語処理(nlp)タスクの性能が大幅に向上しているが、長時間の待ち時間とメモリ使用量のため、運用にコストがかかる。 これらのモデルを圧縮するために、知識蒸留はモデル圧縮の最も効果的な方法の1つとして興味を惹きつけている。 しかし, 既存の蒸留法は, 高速進化モデル処理, 性能評価, 複数目的の最適化など, データセンターにおけるモデルサービスというユニークな課題にまだ対処していない。 これらの問題を解決するために,モデルアーキテクチャ探索と,ハードウェア効率の良いNLP事前学習モデル構築のための多目的最適化を統合した,エンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。 ベイズ最適化を用いて,多目的ニューラルアーキテクチャ探索を行い,学生モデルアーキテクチャを選択する。 提案手法は,ターゲットハードウェアの予測精度と待ち時間の両方を包括的に検討する。 TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。 GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングされたモデルは、BERT_BASE、DistillBERT、TinyBERT、NAS-BERT、MobileBERTよりも高い81.69の平均スコアを得る。 AutoDistillが発見した最もコンパクトなモデルは、20.6Mのパラメータしか含まないが、平均GLUEスコアに関するBERT_BASE(109M)、DistillBERT(67M)、TinyBERT(67M)、MobileBERT(25.3M)よりも優れている。 SQuADを評価することで、AutoDistillが発見したモデルでは、88.4%のF1スコアが22.8Mパラメータで達成され、DistillBERT、TinyBERT、NAS-BERTよりも高い精度を維持しながらパラメータを62%以上削減できる。

Recently, large pre-trained models have significantly improved the performance of various Natural LanguageProcessing (NLP) tasks but they are expensive to serve due to long serving latency and large memory usage. To compress these models, knowledge distillation has attracted an increasing amount of interest as one of the most effective methods for model compression. However, existing distillation methods have not yet addressed the unique challenges of model serving in datacenters, such as handling fast evolving models, considering serving performance, and optimizing for multiple objectives. To solve these problems, we propose AutoDistill, an end-to-end model distillation framework integrating model architecture exploration and multi-objective optimization for building hardware-efficient NLP pre-trained models. We use Bayesian Optimization to conduct multi-objective Neural Architecture Search for selecting student model architectures. The proposed search comprehensively considers both prediction accuracy and serving latency on target hardware. The experiments on TPUv4i show the finding of seven model architectures with better pre-trained accuracy (up to 3.2% higher) and lower inference latency (up to 1.44x faster) than MobileBERT. By running downstream NLP tasks in the GLUE benchmark, the model distilled for pre-training by AutoDistill with 28.5M parameters achieves an 81.69 average score, which is higher than BERT_BASE, DistillBERT, TinyBERT, NAS-BERT, and MobileBERT. The most compact model found by AutoDistill contains only 20.6M parameters but still outperform BERT_BASE(109M), DistillBERT(67M), TinyBERT(67M), and MobileBERT(25.3M) regarding the average GLUE score. By evaluating on SQuAD, a model found by AutoDistill achieves an 88.4% F1 score with 22.8M parameters, which reduces parameters by more than 62% while maintaining higher accuracy than DistillBERT, TinyBERT, and NAS-BERT.
翻訳日:2022-01-24 14:26:12 公開日:2022-01-21
# コントラスト学習によるハイパーボリックグラフ埋め込みの強化

Enhancing Hyperbolic Graph Embeddings via Contrastive Learning ( http://arxiv.org/abs/2201.08554v1 )

ライセンス: Link先を確認
Jiahong Liu, Menglin Yang, Min Zhou, Shanshan Feng, Philippe Fournier-Viger(参考訳) 近年,半教師付きグラフ表現学習の代替として,双曲空間が注目されている。 ニューラルネットワーク操作の双曲型を設計するための多くの取り組みがなされている。 しかし、この特異な幾何学的性質のインスピレーションは、まだ完全には解明されていない。 双曲空間を動力とするグラフモデルの有効性はまだ過小評価されている。 また、豊富な未ラベルサンプルによる豊富な情報もあまり活用されていない。 本研究は,近年活発かつ新興な自己教師型学習に触発され,コントラスト学習の利点を生かして,双曲グラフモデルの表現力を向上しようとするものである。 具体的には、複数の双曲空間を通してノード表現を学習し、異なるビュー間で共有される階層構造を暗黙的にキャプチャする、新しい双曲グラフ比較学習(HGCL)フレームワークを提案する。 次に,双曲的距離とホモフィア仮定に基づく双曲的位置整合性(hpc)制約を設計し,コントラスト学習を双曲的空間に適合させる。 複数の実世界のデータセットに対する実験結果は、提案したHGCLがノード分類タスクのかなりのマージンで競合する手法より一貫して優れていることを示す。

Recently, hyperbolic space has risen as a promising alternative for semi-supervised graph representation learning. Many efforts have been made to design hyperbolic versions of neural network operations. However, the inspiring geometric properties of this unique geometry have not been fully explored yet. The potency of graph models powered by the hyperbolic space is still largely underestimated. Besides, the rich information carried by abundant unlabelled samples is also not well utilized. Inspired by the recently active and emerging self-supervised learning, in this study, we attempt to enhance the representation power of hyperbolic graph models by drawing upon the advantages of contrastive learning. More specifically, we put forward a novel Hyperbolic Graph Contrastive Learning (HGCL) framework which learns node representations through multiple hyperbolic spaces to implicitly capture the hierarchical structure shared between different views. Then, we design a hyperbolic position consistency (HPC) constraint based on hyperbolic distance and the homophily assumption to make contrastive learning fit into hyperbolic space. Experimental results on multiple real-world datasets demonstrate the superiority of the proposed HGCL as it consistently outperforms competing methods by considerable margins for the node classification task.
翻訳日:2022-01-24 14:25:32 公開日:2022-01-21
# 相互情報最大化によるロバスト教師なしグラフ表現学習

Robust Unsupervised Graph Representation Learning via Mutual Information Maximization ( http://arxiv.org/abs/2201.08557v1 )

ライセンス: Link先を確認
Jihong Wang, Minnan Luo, Jundong Li, Ziqi Liu, Jun Zhou, Qinghua Zheng(参考訳) 近年の研究では、GNNは敵の攻撃に弱いことが示されている。 したがって、敵攻撃に対するGNNの堅牢性を改善するために、多くのアプローチが提案されている。 しかしながら、これらの手法のほとんどはラベル情報に基づいてモデルロバスト性を計測し、ラベル情報が得られない場合は実現不可能となる。 そこで本研究では,堅牢な教師なしグラフ表現学習に注目する。 特に,ラベル情報を使わずにGNNのロバスト性を定量化するため,逆摂動ノード表現と元のグラフとの相互情報を評価するためのロバストネス尺度,名前付きグラフ表現ロバストネス(GRR)を提案する。 GRRを推定する主な課題は2つある。 1) 相手方攻撃されたグラフによる相互情報推定 2) 摂動ノードの特徴やグラフ構造に対する対向攻撃の複雑度は, トレーニング手順と共同で行われる。 これらの問題に対処するために,サブグラフレベルのサマリーを備えた効果的な相互情報推定器と,特徴の摂動のみを含む効率的な敵意訓練戦略を提案する。 さらに,提案したGRR測度と下流分類器のロバスト性との関係を理論的に確立し,下流分類器の対角的リスクに対してGRRが低い限界を与えることを示した。 いくつかのベンチマークで広範な実験を行い,提案手法の有効性と優位性を実証した。

Recent studies have shown that GNNs are vulnerable to adversarial attack. Thus, many approaches are proposed to improve the robustness of GNNs against adversarial attacks. Nevertheless, most of these methods measure the model robustness based on label information and thus become infeasible when labels information is not available. Therefore, this paper focuses on robust unsupervised graph representation learning. In particular, to quantify the robustness of GNNs without label information, we propose a robustness measure, named graph representation robustness (GRR), to evaluate the mutual information between adversarially perturbed node representations and the original graph. There are mainly two challenges to estimate GRR: 1) mutual information estimation upon adversarially attacked graphs; 2) high complexity of adversarial attack to perturb node features and graph structure jointly in the training procedure. To tackle these problems, we further propose an effective mutual information estimator with subgraph-level summary and an efficient adversarial training strategy with only feature perturbations. Moreover, we theoretically establish a connection between our proposed GRR measure and the robustness of downstream classifiers, which reveals that GRR can provide a lower bound to the adversarial risk of downstream classifiers. Extensive experiments over several benchmarks demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2022-01-24 14:25:14 公開日:2022-01-21
# 制御ニューラルネットワークトレーニングによる2段階の個別治療効果推定

Individual Treatment Effect Estimation Through Controlled Neural Network Training in Two Stages ( http://arxiv.org/abs/2201.08559v1 )

ライセンス: Link先を確認
Naveen Nair, Karthik S. Gurumoorthy, Dinesh Mandalapu(参考訳) 個別単位レベルで因果的影響推定を推定するために,2段階で学習した因果的ディープニューラルネットワーク(CDNN)モデルを開発した。 治療情報がない段階では, ステージ1の事前処理機能のみを用いて, 結果を最もよく表す共変体のエンコーディングを学習する。 $2^{nd}$ stage では、符号化された共変量とともに処理指標変数を導入することにより、ステージ 1 から説明できない結果を予測する。 また, 処理残差を明示的に計算することなく, 局所ニーマン直交性に満足し, ニュアバンスパラメータの小さな摂動に頑健であることを証明した。 さらに,表現学習アプローチとの接続を確立することにより,アルゴリズムの複数の変種を導出できるフレームワークを構築する。 公開データセットの初期実験を行い、これらの変種を比較し、CDNN法の最良の変種を選択するためのガイダンスを得る。 3つのベンチマークデータセットに対する最先端アプローチに対するCDNNの評価において、CDNNは競争力が高く、多くの場合、最も正確な個別処理効果の推定値が得られる。 複数のユースケースに対する拡張性の観点からCDNNの強みを強調した。

We develop a Causal-Deep Neural Network (CDNN) model trained in two stages to infer causal impact estimates at an individual unit level. Using only the pre-treatment features in stage 1 in the absence of any treatment information, we learn an encoding for the covariates that best represents the outcome. In the $2^{nd}$ stage we further seek to predict the unexplained outcome from stage 1, by introducing the treatment indicator variables alongside the encoded covariates. We prove that even without explicitly computing the treatment residual, our method still satisfies the desirable local Neyman orthogonality, making it robust to small perturbations in the nuisance parameters. Furthermore, by establishing connections with the representation learning approaches, we create a framework from which multiple variants of our algorithm can be derived. We perform initial experiments on the publicly available data sets to compare these variants and get guidance in selecting the best variant of our CDNN method. On evaluating CDNN against the state-of-the-art approaches on three benchmarking datasets, we observe that CDNN is highly competitive and often yields the most accurate individual treatment effect estimates. We highlight the strong merits of CDNN in terms of its extensibility to multiple use cases.
翻訳日:2022-01-24 14:24:53 公開日:2022-01-21
# deep q-learning: 堅牢な制御アプローチ

Deep Q-learning: a robust control approach ( http://arxiv.org/abs/2201.08610v1 )

ライセンス: Link先を確認
Bal\'azs Varga, Bal\'azs Kulcs\'ar, Morteza Haghir Chehreghani(参考訳) 本稿では,深いQ-ラーニングを制御指向の視点に置き,その学習力学を頑健な制御から確立した手法を用いて研究する。 ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。 周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。 そして、損失関数の動的報酬として機能するロバストコントローラによる収束を保証する。 我々は3つのコントローラを合成する: state-feedback gain scheduling $\mathcal{h}_2$, dynamic $\mathcal{h}_\infty$, constant gain $\mathcal{h}_\infty$ controllers。 制御指向チューニング手法による学習エージェントのセットアップは,強化学習のヒューリスティックよりも透明性が高く,文献の確立も良好である。 さらに,本手法では,ターゲットネットワークとランダムなリプレイメモリを使用しない。 ターゲットネットワークの役割は制御入力によって超過され、サンプルの時間依存性(ランダム化されたメモリバッファに反する)も活用される。 異なるOpenAI Gym環境における数値シミュレーションにより、$\mathcal{H}_\infty$制御学習は二重深度Q-ラーニングよりもわずかに優れていることが示唆された。

In this paper, we place deep Q-learning into a control-oriented perspective and study its learning dynamics with well-established techniques from robust control. We formulate an uncertain linear time-invariant model by means of the neural tangent kernel to describe learning. We show the instability of learning and analyze the agent's behavior in frequency-domain. Then, we ensure convergence via robust controllers acting as dynamical rewards in the loss function. We synthesize three controllers: state-feedback gain scheduling $\mathcal{H}_2$, dynamic $\mathcal{H}_\infty$, and constant gain $\mathcal{H}_\infty$ controllers. Setting up the learning agent with a control-oriented tuning methodology is more transparent and has well-established literature compared to the heuristics in reinforcement learning. In addition, our approach does not use a target network and randomized replay memory. The role of the target network is overtaken by the control input, which also exploits the temporal dependency of samples (opposed to a randomized memory buffer). Numerical simulations in different OpenAI Gym environments suggest that the $\mathcal{H}_\infty$ controlled learning performs slightly better than Double deep Q-learning.
翻訳日:2022-01-24 14:24:32 公開日:2022-01-21
# 相関観測による適応データ解析

Adaptive Data Analysis with Correlated Observations ( http://arxiv.org/abs/2201.08704v1 )

ライセンス: Link先を確認
Aryeh Kontorovich, Menachem Sadigurschi, Uri Stemmer(参考訳) 適応データ分析に関する研究の大部分は、データセットのサンプルが独立しているケースに焦点を当てている。 このコンテキストでは、差分プライバシー、最大情報、圧縮引数など、いくつかのアプローチとツールがうまく適用されている。 独立の前提なしには状況はずっとよく理解されていない。 我々は、相関観測による適応データ分析の可能性について体系的な研究を行う。 まず、ある場合において、差分プライバシーはサンプル内に依存性がある場合でも一般化を保証し、Gibs-dependenceと呼ぶ概念を用いて定量化する。 我々はこの結果を厳密な否定的な例で補う。 次に,書き起こし圧縮と適応データ解析との接続を非iid設定に拡張できることを示す。

The vast majority of the work on adaptive data analysis focuses on the case where the samples in the dataset are independent. Several approaches and tools have been successfully applied in this context, such as differential privacy, max-information, compression arguments, and more. The situation is far less well-understood without the independence assumption. We embark on a systematic study of the possibilities of adaptive data analysis with correlated observations. First, we show that, in some cases, differential privacy guarantees generalization even when there are dependencies within the sample, which we quantify using a notion we call Gibbs-dependence. We complement this result with a tight negative example. Second, we show that the connection between transcript-compressi on and adaptive data analysis can be extended to the non-iid setting.
翻訳日:2022-01-24 14:24:09 公開日:2022-01-21
# 脳波を用いたリアルタイム発作検出 : 現実環境下での最近のアプローチの包括的比較

Real-Time Seizure Detection using EEG: A Comprehensive Comparison of Recent Approaches under a Realistic Setting ( http://arxiv.org/abs/2201.08780v1 )

ライセンス: Link先を確認
Kwanhyung Lee, Hyewon Jeong, Seyun Kim, Donghwa Yang, Hoon-Chul Kang, Edward Choi(参考訳) 脳波検査(Electroencephalogra m、EEG)は、医師が脳の活動を記録して発作を検出するための重要な検査である。 脳波信号の発作や異常を現代の深層学習モデルで検出し、臨床負担を軽減する試みがいくつかある。 しかし、異なる実験環境でテストされたため、互いに比較することは不可能である。 また、それらの一部はリアルタイムの発作検出タスクで訓練されていないため、デバイス上のアプリケーションでは困難である。 そこで本研究では,複数の最先端モデルと信号特徴抽出器を実世界のアプリケーションに適したリアルタイム・アセプション検出フレームワークで比較し,新しいアセプション検出モデルを含む様々な評価指標を用いて,より実用的なアセプション検出モデルの評価を行う。 私たちのコードはhttps://github.com/A ITRICS/EEG_real_time _seizure_detectionで利用可能です。

Electroencephalogram (EEG) is an important diagnostic test that physicians use to record brain activity and detect seizures by monitoring the signals. There have been several attempts to detect seizures and abnormalities in EEG signals with modern deep learning models to reduce the clinical burden. However, they cannot be fairly compared against each other as they were tested in distinct experimental settings. Also, some of them are not trained in real-time seizure detection tasks, making it hard for on-device applications. Therefore in this work, for the first time, we extensively compare multiple state-of-the-art models and signal feature extractors in a real-time seizure detection framework suitable for real-world application, using various evaluation metrics including a new one we propose to evaluate more practical aspects of seizure detection models. Our code is available at https://github.com/A ITRICS/EEG_real_time _seizure_detection.
翻訳日:2022-01-24 14:23:57 公開日:2022-01-21
# グラフニューラルネットワークにおける解法と説明評価

Deconfounding to Explanation Evaluation in Graph Neural Networks ( http://arxiv.org/abs/2201.08802v1 )

ライセンス: Link先を確認
Ying-Xin (Shirley) Wu, Xiang Wang, An Zhang, Xia Hu, Fuli Feng, Xiangnan He, Tat-Seng Chua(参考訳) グラフニューラルネットワーク(GNN)の説明可能性(説明可能性)は,モデル予測の解釈に不可欠である‘なぜGNNが特定の予測を行ったのか’に答えることを目的としている。 特徴属性フレームワークは、GNNの予測を入力特徴(エッジなど)に分散し、影響力のある部分グラフを説明として識別する。 説明(すなわち、サブグラフの重要性)を評価する場合、標準的な方法は、サブグラフのみに基づいてモデル予測を監査することである。 しかし、全グラフと部分グラフの間に分布シフトが存在し、分散問題を引き起こすと論じている。 さらに, 深い因果分析により, ood効果が共起体として作用し, サブグラフの重要性とモデル予測との相関性が高まり, 評価の信頼性が低下することが明らかとなった。 本研究では,モデル予測に対する説明文の因果的影響を評価するために,Decon founded Subgraph Evaluation (DSE)を提案する。 分布シフトは一般に難易度が高いが,正面調整を採用し,部分グラフの代理変数を導入する。 具体的には、データ分布に適合するプラウチブル・サロゲートを生成するための生成モデルを考案し、不偏な部分グラフの重要度推定にアプローチする。 実験結果からDSEの有効性が示唆された。

Explainability of graph neural networks (GNNs) aims to answer ``Why the GNN made a certain prediction?'', which is crucial to interpret the model prediction. The feature attribution framework distributes a GNN's prediction to its input features (e.g., edges), identifying an influential subgraph as the explanation. When evaluating the explanation (i.e., subgraph importance), a standard way is to audit the model prediction based on the subgraph solely. However, we argue that a distribution shift exists between the full graph and the subgraph, causing the out-of-distribution problem. Furthermore, with an in-depth causal analysis, we find the OOD effect acts as the confounder, which brings spurious associations between the subgraph importance and model prediction, making the evaluation less reliable. In this work, we propose Deconfounded Subgraph Evaluation (DSE) which assesses the causal effect of an explanatory subgraph on the model prediction. While the distribution shift is generally intractable, we employ the front-door adjustment and introduce a surrogate variable of the subgraphs. Specifically, we devise a generative model to generate the plausible surrogates that conform to the data distribution, thus approaching the unbiased estimation of subgraph importance. Empirical results demonstrate the effectiveness of DSE in terms of explanation fidelity.
翻訳日:2022-01-24 14:23:10 公開日:2022-01-21
# グローバルアテンションを持つグラフニューラルネットワークにおけるロングランジコンテキストの表現

Representing Long-Range Context for Graph Neural Networks with Global Attention ( http://arxiv.org/abs/2201.08821v1 )

ライセンス: Link先を確認
Zhanghao Wu, Paras Jain, Matthew A. Wright, Azalia Mirhoseini, Joseph E. Gonzalez, Ion Stoica(参考訳) グラフニューラルネットワークは構造化データセットの強力なアーキテクチャである。 しかし、現在のメソッドは長距離依存を表現するのに苦労している。 GNNの深さや幅のスケーリングは、大きなGNNが勾配の消失や表現の平滑化といった最適化上の不安定さに遭遇するにつれて、受容界を広げるには不十分である。 本稿では,大域グラフ埋め込みを得るための新しい「読み出し」機構を用いて,長距離対関係を学習するためのトランスフォーマティブに基づく自己照準法を提案する。 近年のコンピュータビジョンの結果に触発されて長距離関係の学習において位置不変注意性能が向上し,本手法はgraphtransと呼ばれ,標準gnnモジュールの後に置換不変トランスフォーマモジュールを適用する。 この単純なアーキテクチャは、グラフ構造を明示的に符号化するいくつかのグラフ分類タスクにおいて、最先端の結果をもたらす。 その結果,グラフ構造を持たない純粋学習に基づくアプローチは,グラフ上の高レベルな長距離関係を学習するのに適している可能性が示唆された。 graphtransのコードはhttps://github.com/u cbrise/graphtransで入手できる。

Graph neural networks are powerful architectures for structured datasets. However, current methods struggle to represent long-range dependencies. Scaling the depth or width of GNNs is insufficient to broaden receptive fields as larger GNNs encounter optimization instabilities such as vanishing gradients and representation oversmoothing, while pooling-based approaches have yet to become as universally useful as in computer vision. In this work, we propose the use of Transformer-based self-attention to learn long-range pairwise relationships, with a novel "readout" mechanism to obtain a global graph embedding. Inspired by recent computer vision results that find position-invariant attention performant in learning long-range relationships, our method, which we call GraphTrans, applies a permutation-invarian t Transformer module after a standard GNN module. This simple architecture leads to state-of-the-art results on several graph classification tasks, outperforming methods that explicitly encode graph structure. Our results suggest that purely-learning-base d approaches without graph structure may be suitable for learning high-level, long-range relationships on graphs. Code for GraphTrans is available at https://github.com/u cbrise/graphtrans.
翻訳日:2022-01-24 14:22:47 公開日:2022-01-21
# マルチモーダル関節グラフ表現脳波-fMRIによる脳波推定

Inferring Brain Dynamics via Multimodal Joint Graph Representation EEG-fMRI ( http://arxiv.org/abs/2201.08747v1 )

ライセンス: Link先を確認
Jalal Mirakhorli(参考訳) 近年の研究では、マルチモデリングの手法は、各モダリティが別々に獲得されると不可能となる脳成分の分析に新たな洞察をもたらすことが示されている。 異なるモードの関節表現は、同時に取得した脳波と機能的磁気共鳴イメージング(EEG-fMRI)を解析するための頑健なモデルである。 精密装置の進歩により、脳波やfMRIのような非侵襲的な神経イメージング技術によって、人間の脳の時空間的神経力学を観察できるようになりました。 ストリームの非線形融合法は、時間的および空間的な異なる次元の有効な脳成分を抽出することができる。 脳構造と多くの類似点を持つグラフベースの分析は、脳マッピング解析の複雑さを克服することができる。 全体として,複数のメディアの時間シフトにおける相関関係をグラフベースおよび深層学習法を用いて概説する。 オーバーラップの決定は、神経可塑性研究における機能的変化を診断するための新しい視点を提供する。

Recent studies have shown that multi-modeling methods can provide new insights into the analysis of brain components that are not possible when each modality is acquired separately. The joint representations of different modalities is a robust model to analyze simultaneously acquired electroencephalograp hy and functional magnetic resonance imaging (EEG-fMRI). Advances in precision instruments have given us the ability to observe the spatiotemporal neural dynamics of the human brain through non-invasive neuroimaging techniques such as EEG & fMRI. Nonlinear fusion methods of streams can extract effective brain components in different dimensions of temporal and spatial. Graph-based analyzes, which have many similarities to brain structure, can overcome the complexities of brain mapping analysis. Throughout, we outline the correlations of several different media in time shifts from one source with graph-based and deep learning methods. Determining overlaps can provide a new perspective for diagnosing functional changes in neuroplasticity studies.
翻訳日:2022-01-24 14:22:25 公開日:2022-01-21
# PMDPにおける全リワードの非近似化

Under-Approximating Expected Total Rewards in POMDPs ( http://arxiv.org/abs/2201.08772v1 )

ライセンス: Link先を確認
Alexander Bork, Joost-Pieter Katoen, Tim Quatmann(参考訳) 与えられた閾値以下で、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するのに最適な総報酬は期待されているか? これらの予想される報酬に対する過小評価を計算することで、この(一般的には決定不可能な)問題に取り組む。 これは、POMDP の無限信念 MDP の有限展開を抽象化することによってなされる。 鍵となる問題は、値関数の適切な最小化を見つけることである。 我々は,pomdpに対する適切なポリシーを使用する単純な(カットオフ)テクニックと,信念間の確率の最小シフトを使用するより高度なテクニック(信頼クリッピング)の2つを提供する。 我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、我々の手法が期待される総報酬に対して厳密な下限を提供しながら、非常にうまくスケールできることを実験的に示す。

We consider the problem: is the optimal expected total reward to reach a goal state in a partially observable Markov decision process (POMDP) below a given threshold? We tackle this -- generally undecidable -- problem by computing under-approximations on these total expected rewards. This is done by abstracting finite unfoldings of the infinite belief MDP of the POMDP. The key issue is to find a suitable under-approximation of the value function. We provide two techniques: a simple (cut-off) technique that uses a good policy on the POMDP, and a more advanced technique (belief clipping) that uses minimal shifts of probabilities between beliefs. We use mixed-integer linear programming (MILP) to find such minimal probability shifts and experimentally show that our techniques scale quite well while providing tight lower bounds on the expected total reward.
翻訳日:2022-01-24 14:22:12 公開日:2022-01-21
# 対話的情報探索

Conversational Information Seeking ( http://arxiv.org/abs/2201.08808v1 )

ライセンス: Link先を確認
Hamed Zamani and Johanne R. Trippas and Jeff Dalton and Filip Radlinski(参考訳) 対話的情報検索(cis)は、1人以上のユーザと情報システムとの間のインタラクションのシーケンスに関するものである。 CISにおけるインタラクションは、主に自然言語対話に基づいており、クリック、タッチ、ボディジェスチャといった他のタイプのインタラクションを含むこともある。 このモノグラフは、CISの定義、アプリケーション、インタラクション、インターフェース、設計、実装、評価の徹底的な概要を提供する。 このモノグラフは、CISアプリケーションについて、会話検索、会話質問応答、会話レコメンデーションを含むと見なしている。 我々の目的は、CISに関する過去の研究の概要を提供し、CISの現状を紹介し、まだコミュニティで直面している課題を明らかにすることである。 将来の方向を示唆します

Conversational information seeking (CIS) is concerned with a sequence of interactions between one or more users and an information system. Interactions in CIS are primarily based on natural language dialogue, while they may include other types of interactions, such as click, touch, and body gestures. This monograph provides a thorough overview of CIS definitions, applications, interactions, interfaces, design, implementation, and evaluation. This monograph views CIS applications as including conversational search, conversational question answering, and conversational recommendation. Our aim is to provide an overview of past research related to CIS, introduce the current state-of-the-art in CIS, highlight the challenges still being faced in the community. and suggest future directions.
翻訳日:2022-01-24 14:21:54 公開日:2022-01-21
# SegTransVAE:ハイブリッドCNN -- 医療画像分割のための正規化トランスフォーマー

SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical image segmentation ( http://arxiv.org/abs/2201.08582v1 )

ライセンス: Link先を確認
Quan-Dung Pham (1), Hai Nguyen-Truong (1, 2 and 3), Nam Nguyen Phuong (1) and Khoa N. A. Nguyen (1, 2 and 3) ((1) VinBrain JSC., Vietnam, (2) University of Science, Ho Chi Minh City, Vietnam, (3) Vietnam National University, Ho Chi Minh City, Vietnam)(参考訳) 医用画像セグメンテーションのためのディープラーニングに関する研究は、グローバルな意味情報や局所的な文脈情報を学ぶ際の限界を明らかにする。 これらの課題に対処するために,SegTransVAEという新しいネットワークを提案する。 SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチによるトランスフォーマーを利用して、セグメント化とともに入力イメージを再構築する。 私たちの知る限りでは、これはCNN、トランスフォーマー、VAEの成功を組み合わせた最初の方法です。 最近導入されたさまざまなデータセットの評価によると、SegTransVAEはDice Scoreの以前のメソッドと9,5\%$-Haudorff Distanceを上回り、単純なCNNベースのアーキテクチャネットワークに匹敵する推論時間を持つ。 ソースコードはhttps://github.com/i truonghai/segtransva e。

Current research on deep learning for medical image segmentation exposes their limitations in learning either global semantic information or local contextual information. To tackle these issues, a novel network named SegTransVAE is proposed in this paper. SegTransVAE is built upon encoder-decoder architecture, exploiting transformer with the variational autoencoder (VAE) branch to the network to reconstruct the input images jointly with segmentation. To the best of our knowledge, this is the first method combining the success of CNN, transformer, and VAE. Evaluation on various recently introduced datasets shows that SegTransVAE outperforms previous methods in Dice Score and $95\%$-Haudorff Distance while having comparable inference time to a simple CNN-based architecture network. The source code is available at: https://github.com/i truonghai/SegTransVA E.
翻訳日:2022-01-24 14:21:43 公開日:2022-01-21
# Transformer を用いたアクロスデータセット脳組織セグメンテーションの改善

Improving Across-Dataset Brain Tissue Segmentation Using Transformer ( http://arxiv.org/abs/2201.08741v1 )

ライセンス: Link先を確認
Vishwanatha M. Rao, Zihan Wan, David J. Ma, Pin-Yu Lee, Ye Tian, Andrew F. Laine, Jia Guo(参考訳) 脳組織セグメンテーションは、Voxel-based Morphometryを通してMRIデータを定量化し、脳内の様々な条件に関連する微妙な構造変化を強調するのに非常に有用である。 しかし、手動セグメンテーションは非常に労働集約的であり、MRIの取得に固有の性質のために自動化アプローチは苦戦しており、効果的なセグメンテーションツールの必要性は大きい。 最近の脳組織セグメンテーションにおけるディープ畳み込みニューラルネットワーク(CNN)の成功にもかかわらず、そのようなソリューションの多くは新しいデータセットをうまく一般化していない。 トランスフォーマは自然画像のセグメンテーションに成功しており、最近はcnnの局所受容野が苦闘する入力における長距離関係を捉える能力から、3次元医用画像セグメンテーションタスクに応用されている。 本研究では,脳組織セグメンテーションのための新しいCNN-Transformerハイブリッドアーキテクチャを提案する。 我々は,様々なベンダー,フィールド強度,スキャンパラメータ,タイムポイント,神経心理学的条件をカバーする4つのマルチサイトt1wmriデータセットにおいて,モデルの性能を検証する。 あらゆる状況において、我々のモデルは最大の汎用性と信頼性を達成した。 アウトメソッドは本質的に堅牢であり、脳関連T1wMRI研究に有用なツールとなる。 TABSネットワークのコードは、https://github.com/r aovish6/TABSで公開されている。

Brain tissue segmentation has demonstrated great utility in quantifying MRI data through Voxel-Based Morphometry and highlighting subtle structural changes associated with various conditions within the brain. However, manual segmentation is highly labor-intensive, and automated approaches have struggled due to properties inherent to MRI acquisition, leaving a great need for an effective segmentation tool. Despite the recent success of deep convolutional neural networks (CNNs) for brain tissue segmentation, many such solutions do not generalize well to new datasets, which is critical for a reliable solution. Transformers have demonstrated success in natural image segmentation and have recently been applied to 3D medical image segmentation tasks due to their ability to capture long-distance relationships in the input where the local receptive fields of CNNs struggle. This study introduces a novel CNN-Transformer hybrid architecture designed for brain tissue segmentation. We validate our model's performance across four multi-site T1w MRI datasets, covering different vendors, field strengths, scan parameters, time points, and neuropsychiatric conditions. In all situations, our model achieved the greatest generality and reliability. Out method is inherently robust and can serve as a valuable tool for brain-related T1w MRI studies. The code for the TABS network is available at: https://github.com/r aovish6/TABS.
翻訳日:2022-01-24 14:21:24 公開日:2022-01-21
# 機械はパーソナライズド・ミュージックを生成できるか? ユーザ優先音楽転送のためのハイブリッドなお気に入り認識手法

Can Machines Generate Personalized Music? A Hybrid Favorite-aware Method for User Preference Music Transfer ( http://arxiv.org/abs/2201.08526v1 )

ライセンス: Link先を確認
Zhejing Hu, Yan Liu, Gong Chen, and Yongxu Liu(参考訳) ユーザ優先音楽転送(UPMT)は、多くのシナリオに適用できるが、まだ検討されていない音楽スタイル転送の新しい問題である。

User preference music transfer (UPMT) is a new problem in music style transfer that can be applied to many scenarios but remains understudied.
翻訳日:2022-01-24 14:19:52 公開日:2022-01-21
# 共分散フィッティングによる線形回帰の調整正規化推定器

Tuned Regularized Estimators for Linear Regression via Covariance Fitting ( http://arxiv.org/abs/2201.08756v1 )

ライセンス: Link先を確認
Per Mattsson, Dave Zachariah and Petre Stoica(参考訳) 線形モデルに対する調律正規化パラメータ推定器の探索問題を考える。 まず、3つの既知の最適線形推定器が、重み付き制約付き最小化問題の解として定式化できるより広いクラスの推定器に属することを示す。 しかし、最適重量は一般に多くの応用において未知である。 データのみを使用して重みをどうやって選べばよいのか? 本研究では、データ適応重みを求めるために、共分散適合SPICE法を用い、得られた推定器のクラスが、リッジ回帰、LASSO、正規化最小絶対偏差などの既知の正規化推定器のチューニングバージョンを得ることを示す。 これらの理論的結果は、共通の傘の下でいくつかの重要な推定者を統一する。 結果として得られた調律された推定器は、多くの数値例によって実際に関連があることも示されている。

We consider the problem of finding tuned regularized parameter estimators for linear models. We start by showing that three known optimal linear estimators belong to a wider class of estimators that can be formulated as a solution to a weighted and constrained minimization problem. The optimal weights, however, are typically unknown in many applications. This begs the question, how should we choose the weights using only the data? We propose using the covariance fitting SPICE-methodology to obtain data-adaptive weights and show that the resulting class of estimators yields tuned versions of known regularized estimators - such as ridge regression, LASSO, and regularized least absolute deviation. These theoretical results unify several important estimators under a common umbrella. The resulting tuned estimators are also shown to be practically relevant by means of a number of numerical examples.
翻訳日:2022-01-24 14:19:48 公開日:2022-01-21
# 非ラベルデータは自己学習の一般化をどのように改善するか? 単層理論解析

How does unlabeled data improve generalization in self-training? A one-hidden-layer theoretical analysis ( http://arxiv.org/abs/2201.08514v1 )

ライセンス: Link先を確認
Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong(参考訳) 半教師付き学習アルゴリズムである自己学習は、ラベルなしデータを大量に活用し、ラベル付きデータが制限された場合の学習を改善する。 経験的な成功にもかかわらず、その理論的特徴は解明されていない。 我々の知る限り、本研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立し、トレーニング収束と一般化能力の両方においてラベルなしデータの利点を証明する。 理論的解析を可能とするために、一層ニューラルネットワークの場合に焦点を当てる。 しかしながら、反復的自己学習の理論的理解は、浅いニューラルネットワークでさえは自明ではない。 重要な課題の1つは、教師付き学習に基づく既存のニューラルネットワークのランドスケープ分析が(半教師付き)自己学習パラダイムではもはや保持されないことだ。 この課題に対処し、反復的な自己学習が収束率と一般化精度の両方を1/\sqrt{M}$の順に改善して線形収束することを証明する。 また, 浅層ニューラルネットワークから深層ニューラルネットワークまで, 自己学習に関する確立した理論的洞察の正しさを正当化するために, 実験を行った。

Self-training, a semi-supervised learning algorithm, leverages a large amount of unlabeled data to improve learning when the labeled data are limited. Despite empirical successes, its theoretical characterization remains elusive. To the best of our knowledge, this work establishes the first theoretical analysis for the known iterative self-training paradigm and proves the benefits of unlabeled data in both training convergence and generalization ability. To make our theoretical analysis feasible, we focus on the case of one-hidden-layer neural networks. However, theoretical understanding of iterative self-training is non-trivial even for a shallow neural network. One of the key challenges is that existing neural network landscape analysis built upon supervised learning no longer holds in the (semi-supervised) self-training paradigm. We address this challenge and prove that iterative self-training converges linearly with both convergence rate and generalization accuracy improved in the order of $1/\sqrt{M}$, where $M$ is the number of unlabeled samples. Experiments from shallow neural networks to deep neural networks are also provided to justify the correctness of our established theoretical insights on self-training.
翻訳日:2022-01-24 14:18:35 公開日:2022-01-21
# (参考訳) 線形遷移モデルを用いたメタ学習MDP [全文訳有]

Meta Learning MDPs with Linear Transition Models ( http://arxiv.org/abs/2201.08732v1 )

ライセンス: CC BY 4.0
Robert M\"uller and Aldo Pacchiano(参考訳) マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。 モデル近接度に基づくタスク共有度測定では、バイアス項と分散成分によって指定されたモデル上の分布を特徴付けるタスクファミリーについて検討する。 次に、UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案し、サンプル化されたトレーニングタスクのセットを有意に活用して、同じタスク分布からサンプリングされたテストタスクを、タスク分布のバイアスパラメータの推定器を学習することにより、迅速に解決できることを示す。 この分析は、線形回帰と線形バンディット設定を線形遷移モデルを用いたMDPのより一般的なケースに学習する学習の成果を生かし、拡張する。 BUC-Matrix RLは,タスクを個別に学習するよりも,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。

We study meta-learning in Markov Decision Processes (MDP) with linear transition models in the undiscounted episodic setting. Under a task sharedness metric based on model proximity we study task families characterized by a distribution over models specified by a bias term and a variance component. We then propose BUC-MatrixRL, a version of the UC-Matrix RL algorithm, and show it can meaningfully leverage a set of sampled training tasks to quickly solve a test task sampled from the same task distribution by learning an estimator of the bias parameter of the task distribution. The analysis leverages and extends results in the learning to learn linear regression and linear bandit setting to the more general case of MDP's with linear transition models. We prove that compared to learning the tasks in isolation, BUC-Matrix RL provides significant improvements in the transfer regret for high bias low variance task distributions.
翻訳日:2022-01-24 14:16:23 公開日:2022-01-21
# 対話型検索の経済モデル構築に向けて

Towards Building Economic Models of Conversational Search ( http://arxiv.org/abs/2201.08742v1 )

ライセンス: Link先を確認
Leif Azzopardi and Mohammad Aliannejadi and Evangelos Kanoulas(参考訳) 様々な概念的、記述的な会話探索モデルが文献で提案されているが、異なる対話のコストと利益に応じてエージェントとユーザ間のインタラクションがどのように変化するかについての洞察を与えていない。 本稿では,会話検索セッション中にこれまで観察されたパターンに基づく対話検索の経済モデルを開発する。まず,エージェントが質問を明確にし,その結果を提示するフィードバックと,エージェントが結果を提示するフィードバックと,フォローアップ質問である。 我々のモデルでは、与えられた/要求されたフィードバックの量は、初期またはその後のクエリを改善するための効率と、そのフィードバックを提供する相対コストに依存する。 対話型検索の理論的枠組みは,対話型検索エージェントの開発を指導し,情報提供するための多くの洞察を提供する。 しかし,特定の会話検索設定に特有の予測を行うためには,パラメータを推定する経験的作業が必要である。

Various conceptual and descriptive models of conversational search have been proposed in the literature -- while useful, they do not provide insights into how interaction between the agent and user would change in response to the costs and benefits of the different interactions. In this paper, we develop two economic models of conversational search based on patterns previously observed during conversational search sessions, which we refer to as: Feedback First where the agent asks clarifying questions then presents results, and Feedback After where the agent presents results, and then asks follow up questions. Our models show that the amount of feedback given/requested depends on its efficiency at improving the initial or subsequent query and the relative cost of providing said feedback. This theoretical framework for conversational search provides a number of insights that can be used to guide and inform the development of conversational search agents. However, empirical work is needed to estimate the parameters in order to make predictions specific to a given conversational search setting.
翻訳日:2022-01-24 13:34:37 公開日:2022-01-21
# 適応データ拡張による公正なノード表現学習

Fair Node Representation Learning via Adaptive Data Augmentation ( http://arxiv.org/abs/2201.08549v1 )

ライセンス: Link先を確認
O. Deniz Kose, Yanning Shen(参考訳) ノード表現学習は、グラフ上の様々なアプリケーションに対してその効果を実証し、この分野への注目が高まっている。 しかし、フェアネスはフィールド内のほとんど未開拓領域であり、その後のタスクにおいて過小評価されたグループに対して偏った結果をもたらす可能性がある。 この目的のために、この研究はグラフニューラルネットワーク(GNN)を介して得られるノード表現のバイアス源を理論的に説明する。 解析の結果,nodal特徴とグラフ構造の両方が,得られた表現にバイアスをもたらすことが明らかとなった。 この分析に基づいて,本質バイアスを軽減するために,節の特徴とグラフ構造に関する公平性を考慮したデータ拡張フレームワークを開発した。 分析と提案手法は,様々なGNN学習機構の公平性を高めるために容易に利用できる。 グラフコントラスト学習の文脈において,実ネットワーク上でノード分類とリンク予測に関する広範な実験を行った。 複数のベンチマークと比較すると、提案された拡張戦略は、統計的平等と平等な機会の観点から公平性を向上し、最先端のコントラスト手法に匹敵するユーティリティを提供する。

Node representation learning has demonstrated its efficacy for various applications on graphs, which leads to increasing attention towards the area. However, fairness is a largely under-explored territory within the field, which may lead to biased results towards underrepresented groups in ensuing tasks. To this end, this work theoretically explains the sources of bias in node representations obtained via Graph Neural Networks (GNNs). Our analysis reveals that both nodal features and graph structure lead to bias in the obtained representations. Building upon the analysis, fairness-aware data augmentation frameworks on nodal features and graph structure are developed to reduce the intrinsic bias. Our analysis and proposed schemes can be readily employed to enhance the fairness of various GNN-based learning mechanisms. Extensive experiments on node classification and link prediction are carried out over real networks in the context of graph contrastive learning. Comparison with multiple benchmarks demonstrates that the proposed augmentation strategies can improve fairness in terms of statistical parity and equal opportunity, while providing comparable utility to state-of-the-art contrastive methods.
翻訳日:2022-01-24 13:34:08 公開日:2022-01-21
# ランダムノイズと現状確率予測法 : CRPS-Sum判別能力を事例として

Random Noise vs State-of-the-Art Probabilistic Forecasting Methods : A Case Study on CRPS-Sum Discrimination Ability ( http://arxiv.org/abs/2201.08671v1 )

ライセンス: Link先を確認
Alireza Koochali, Peter Schichtel, Andreas Dengel, Sheraz Ahmed(参考訳) 最近の機械学習分野の発展により、複雑な多変量確率予測モデルの開発が可能になった。 したがって、これらの複雑な手法の性能と予測可能性を評価するための正確な評価方法を持つことが重要である。 そのため、過去にいくつかの評価指標が提案されている(エネルギースコア、ダウィド・セバスティアーニスコア、ヴァリグラムスコアなど)が、確率的予測器の性能を確実に測定することはできない。 近年,多変量確率予測の信頼性指標としてCRPS-sumが注目されている。 本稿では,CRPS-sumの系統的評価を行い,その識別能力について考察する。 対象データの統計的特性がCRPS-Sumの識別能力に影響を及ぼすことを示す。 さらに、CRPS-Sum計算は各次元におけるモデルの性能を見落としている。 これらの欠陥はモデル性能の誤った評価につながる可能性がある。 最後に,実世界のデータセットを用いた実験により,CRPS-Sumの欠点が確率予測性能法を誤解を招くことを示す。 本研究では, ダミーモデルに対して, 最先端手法と比較して, ランダムノイズのように見えるCRPS-Sumを改良することが容易に可能であることを示す。

The recent developments in the machine learning domain have enabled the development of complex multivariate probabilistic forecasting models. Therefore, it is pivotal to have a precise evaluation method to gauge the performance and predictability power of these complex methods. To do so, several evaluation metrics have been proposed in the past (such as Energy Score, Dawid-Sebastiani score, variogram score), however, they cannot reliably measure the performance of a probabilistic forecaster. Recently, CRPS-sum has gained a lot of prominence as a reliable metric for multivariate probabilistic forecasting. This paper presents a systematic evaluation of CRPS-sum to understand its discrimination ability. We show that the statistical properties of target data affect the discrimination ability of CRPS-Sum. Furthermore, we highlight that CRPS-Sum calculation overlooks the performance of the model on each dimension. These flaws can lead us to an incorrect assessment of model performance. Finally, with experiments on the real-world dataset, we demonstrate that the shortcomings of CRPS-Sum provide a misleading indication of the probabilistic forecasting performance method. We show that it is easily possible to have a better CRPS-Sum for a dummy model, which looks like random noise, in comparison to the state-of-the-art method.
翻訳日:2022-01-24 13:33:52 公開日:2022-01-21
# LASSO人工ニューラルネットワークを用いた非線形干し草の針発見のための位相遷移

A phase transition for finding needles in nonlinear haystacks with LASSO artificial neural networks ( http://arxiv.org/abs/2201.08652v1 )

ライセンス: Link先を確認
Xiaoyu Ma, Sylvain Sardy, Nick Hengartner, Nikolai Bobenko, Yen Ting Lin(参考訳) スパース線形結合に適合するため、単一ハイパーパラメータによるLASSO間隔誘導ペナルティは、サンプルサイズが入力ベクトル(ヘイスタック)の寸法よりも小さい場合でも、特定の状態において重要な特徴(ネイル)を高い確率で確実に回復することができる。 近年、artificial neural networks (ann)として知られる学習者は、多くの機械学習タスク、特に非線形関連において大きな成功を収めている。 小さな学習速度、確率的勾配降下アルゴリズム、大きなトレーニングセットは、ディープニューラルネットワークに存在するパラメータの数の爆発に対処するのに役立つ。 しかし、非線形干し草に針を見つけるために開発されたANN学習者は少ない。 1つのハイパーパラメータによって駆動される我々のANN学習者は、疎線形結合と同様に、針を回収する確率の位相遷移を示すが、他のANN学習者とは観察しない。 ペナルティパラメータを選択するために、保守的(あまりにも多くの誤検出)と高価な相互評価よりも良い規則であるドノホとジョンストンの普遍的閾値(1994年)を一般化する。 シミュレーションアニーリングの精神では,高次元,非凸,非微分可能最適化問題を解くためのウォームスタートスパーシティ誘導アルゴリズムを提案する。 提案手法の有効性を示すために,モンテカルロシミュレーションを高精度に行う。

To fit sparse linear associations, a LASSO sparsity inducing penalty with a single hyperparameter provably allows to recover the important features (needles) with high probability in certain regimes even if the sample size is smaller than the dimension of the input vector (haystack). More recently learners known as artificial neural networks (ANN) have shown great successes in many machine learning tasks, in particular fitting nonlinear associations. Small learning rate, stochastic gradient descent algorithm and large training set help to cope with the explosion in the number of parameters present in deep neural networks. Yet few ANN learners have been developed and studied to find needles in nonlinear haystacks. Driven by a single hyperparameter, our ANN learner, like for sparse linear associations, exhibits a phase transition in the probability of retrieving the needles, which we do not observe with other ANN learners. To select our penalty parameter, we generalize the universal threshold of Donoho and Johnstone (1994) which is a better rule than the conservative (too many false detections) and expensive cross-validation. In the spirit of simulated annealing, we propose a warm-start sparsity inducing algorithm to solve the high-dimensional, non-convex and non-differentiable optimization problem. We perform precise Monte Carlo simulations to show the effectiveness of our approach.
翻訳日:2022-01-24 13:33:14 公開日:2022-01-21
# 危険クローキング - 物理的世界の物体検出器に対する自然トリガーに基づくバックドア攻撃

Dangerous Cloaking: Natural Trigger based Backdoor Attacks on Object Detectors in the Physical World ( http://arxiv.org/abs/2201.08619v1 )

ライセンス: Link先を確認
Hua Ma, Yinshan Li, Yansong Gao, Alsharif Abuadbba, Zhi Zhang, Anmin Fu, Hyoungshick Kim, Said F. Al-Sarawi, Nepal Surya, Derek Abbott(参考訳) ディープラーニングモデルは、最近のバックドア攻撃に弱いことが示されている。 バックドアモデルは通常、攻撃者秘密のトリガーを含まない入力と、トリガーによる入力に対して悪質に振る舞う。 現在までに、バックドア攻撃と対策は主に画像分類タスクに焦点を当てている。 そして、そのほとんどはデジタル世界でデジタルトリガーで実装されている。 分類タスクの他に、オブジェクト検出システムはコンピュータビジョンタスクの基本的な基礎の1つと見なされている。 しかし,デジタルトリガを用いたデジタル世界においても,対象検出器のバックドア脆弱性の調査や理解は行われていない。 この研究は、既存の物体検出器が物理的バックドア攻撃の影響を受けやすいことを初めて証明した。 私たちは、市場から購入した自然なtシャツを、クローキング効果を可能にするトリガーとして使用します。 このようなバックドアは2つの悪用可能な攻撃シナリオからオブジェクト検出器に埋め込むことができ、それは事前訓練されたモデルを通じてアウトソースまたは微調整される。 我々は、アンカーベースYolo-V3、Yolo-V4、アンカーフリーCenterNetの3つの一般的なオブジェクト検出アルゴリズムを広く評価してきた。 実世界のシーンで撮影された19本のビデオを基にして,バックドア攻撃が移動,距離,角度,非剛性変形,照明などさまざまな要因に対して頑健であることを確認した。 具体的には、ほとんどのビデオにおけるアタック成功率(ASR)は100%かそれに近いが、バックドアモデルのクリーンなデータ精度はクリーンなものと同じである。 後者は、検証セットだけでバックドアの動作を検出することは不可能であることを意味する。 平均的なASRは依然として十分高いままであり、CenterNetで評価された転送学習攻撃シナリオでは78%である。 デモビデオはhttps://youtu.be/Q3H OF4OobbY.com。

Deep learning models have been shown to be vulnerable to recent backdoor attacks. A backdoored model behaves normally for inputs containing no attacker-secretly-ch osen trigger and maliciously for inputs with the trigger. To date, backdoor attacks and countermeasures mainly focus on image classification tasks. And most of them are implemented in the digital world with digital triggers. Besides the classification tasks, object detection systems are also considered as one of the basic foundations of computer vision tasks. However, there is no investigation and understanding of the backdoor vulnerability of the object detector, even in the digital world with digital triggers. For the first time, this work demonstrates that existing object detectors are inherently susceptible to physical backdoor attacks. We use a natural T-shirt bought from a market as a trigger to enable the cloaking effect--the person bounding-box disappears in front of the object detector. We show that such a backdoor can be implanted from two exploitable attack scenarios into the object detector, which is outsourced or fine-tuned through a pretrained model. We have extensively evaluated three popular object detection algorithms: anchor-based Yolo-V3, Yolo-V4, and anchor-free CenterNet. Building upon 19 videos shot in real-world scenes, we confirm that the backdoor attack is robust against various factors: movement, distance, angle, non-rigid deformation, and lighting. Specifically, the attack success rate (ASR) in most videos is 100% or close to it, while the clean data accuracy of the backdoored model is the same as its clean counterpart. The latter implies that it is infeasible to detect the backdoor behavior merely through a validation set. The averaged ASR still remains sufficiently high to be 78% in the transfer learning attack scenarios evaluated on CenterNet. See the demo video on https://youtu.be/Q3H OF4OobbY.
翻訳日:2022-01-24 13:31:12 公開日:2022-01-21
# テキスト分類器における逆攻撃の同定

Identifying Adversarial Attacks on Text Classifiers ( http://arxiv.org/abs/2201.08555v1 )

ライセンス: Link先を確認
Zhouhang Xie, Jonathan Brophy, Adam Noack, Wencong You, Kalyani Asthana, Carter Perkins, Sabrina Reis, Sameer Singh and Daniel Lowd(参考訳) テキスト分類器に対する敵対的攻撃の状況は拡大を続けており、毎年新たな攻撃が開発され、TextAttackやOpenAttackといった標準ツールキットで利用できるようになった。 これに反応して、堅牢な学習に関する作業が増えているため、これらの攻撃に対する脆弱性は減少するが、計算時間や精度は高くなる。 In this paper, we take an alternate approach -- we attempt to understand the attacker by analyzing adversarial text to determine which methods were used to create it. Our first contribution is an extensive dataset for attack detection and labeling: 1.5~million attack instances, generated by twelve adversarial attacks targeting three classifiers trained on six source datasets for sentiment analysis and abuse detection in English. As our second contribution, we use this dataset to develop and benchmark a number of classifiers for attack identification -- determining if a given text has been adversarially manipulated and by which attack. 第3の貢献として、テキストプロパティ、コンテンツのキャプチャ、テキストのプレゼンテーション、言語モデルプロパティ、入力を通してどのトークンが多かれ少なかれあり得るかを決定する言語モデルプロパティ、および、テキスト分類器が内部ノードのアクティベーションを含む攻撃によってどのように影響を受けるかを表すターゲットモデルプロパティの3つのクラスの有効性を示す。 全体として、これはテキスト分類器に対する敵対的攻撃の法医学への第一歩である。

The landscape of adversarial attacks against text classifiers continues to grow, with new attacks developed every year and many of them available in standard toolkits, such as TextAttack and OpenAttack. In response, there is a growing body of work on robust learning, which reduces vulnerability to these attacks, though sometimes at a high cost in compute time or accuracy. In this paper, we take an alternate approach -- we attempt to understand the attacker by analyzing adversarial text to determine which methods were used to create it. Our first contribution is an extensive dataset for attack detection and labeling: 1.5~million attack instances, generated by twelve adversarial attacks targeting three classifiers trained on six source datasets for sentiment analysis and abuse detection in English. As our second contribution, we use this dataset to develop and benchmark a number of classifiers for attack identification -- determining if a given text has been adversarially manipulated and by which attack. As a third contribution, we demonstrate the effectiveness of three classes of features for these tasks: text properties, capturing content and presentation of text; language model properties, determining which tokens are more or less probable throughout the input; and target model properties, representing how the text classifier is influenced by the attack, including internal node activations. Overall, this represents a first step towards forensics for adversarial attacks against text classifiers.
翻訳日:2022-01-24 13:30:42 公開日:2022-01-21
# システム同定のための繰り返しニューラルネットワークの適応について

On the adaptation of recurrent neural networks for system identification ( http://arxiv.org/abs/2201.08660v1 )

ライセンス: Link先を確認
Marco Forgione, Aneri Muni, Dario Piga, Marco Gallieri(参考訳) 本稿では,動的システムのリカレントニューラルネットワーク(RNN)モデルの高速かつ効率的な適応を可能にするトランスファー学習手法を提案する。 名目RNNモデルは、まず利用可能な測定値を用いて識別される。 その後、システムダイナミクスが変化すると仮定され、摂動系における名目モデルの性能が不可避的に低下する。 ミスマッチに対処するため、新しい動的状態からの新鮮なデータに基づいてトレーニングされた付加的補正項でモデルを拡張する。 補正項は、ジャコビアン特徴回帰 (JFR) 法によって学習され、モデルのヤコビアンによってそのパラメーターに関して広がる特徴について定義される。 また, ニューラルタンジェントカーネル (NTK-GP) を用いたガウス過程 (GP) をRNNケース (RNTK-GP) に拡張した非パラメトリックなアプローチも提案されている。 これは、非常に大きなネットワークやデータポイントが少ない場合に、より効率的になる。 補正項の高速かつ効率的な計算とRNNモデルの初期状態推定のための実装側面について述べる。 数値的な例は,提案手法の有効性を示す。

This paper presents a transfer learning approach which enables fast and efficient adaptation of Recurrent Neural Network (RNN) models of dynamical systems. A nominal RNN model is first identified using available measurements. The system dynamics are then assumed to change, leading to an unacceptable degradation of the nominal model performance on the perturbed system. To cope with the mismatch, the model is augmented with an additive correction term trained on fresh data from the new dynamic regime. The correction term is learned through a Jacobian Feature Regression (JFR) method defined in terms of the features spanned by the model's Jacobian with respect to its nominal parameters. A non-parametric view of the approach is also proposed, which extends recent work on Gaussian Process (GP) with Neural Tangent Kernel (NTK-GP) to the RNN case (RNTK-GP). This can be more efficient for very large networks or when only few data points are available. Implementation aspects for fast and efficient computation of the correction term, as well as the initial state estimation for the RNN model are described. Numerical examples show the effectiveness of the proposed methodology in presence of significant system variations.
翻訳日:2022-01-24 13:29:52 公開日:2022-01-21
# 少なからず:スニペットはいつ人間と機械の関係推定に不十分か?

Less is Less: When Are Snippets Insufficient for Human vs Machine Relevance Estimation? ( http://arxiv.org/abs/2201.08721v1 )

ライセンス: Link先を確認
Gabriella Kazai, Bhaskar Mitra, Anlei Dong, Nick Craswell and Linjun Yang(参考訳) 従来の情報検索(IR)ランキングモデルは文書の全文を処理する。 しかし、トランスフォーマーに基づく新しいモデルは、長いテキストを処理する際に高い計算コストを発生させるため、代わりに文書のスニペットのみを使用する。 文書のURL、タイトル、スニペット(UTS)に基づくモデルの入力は、検索エンジン検索結果ページ(SERP)に表示される要約に似ており、検索者がどの結果をクリックするかを決めるのに役立つ。 このことは、ランキングモデルや人間評価者による関連性評価にそのような要約が十分である時期や、人間と機械が文書の全文から同様の方法で恩恵を受けるかどうかという疑問を提起する。 これらの疑問に答えるために、Bingの検索ログから採取した12kクエリ文書の人間と神経モデルによる関連性評価について検討した。 文書要約のみと全文が評価者にも公開される場合の関連度評価の変化を比較し、クエリタイプやスニペット長など、様々なクエリとドキュメントの特性を調査した。 以上の結果から,全文は人間にとって有益であり,BERTモデルは類似のクエリやドキュメントタイプ,例えば尾,長いクエリに対して有用であることがわかった。 しかし、より詳しく見ると、人間と機械は全く異なる方法で追加入力に反応していることがわかる。 フルテキストを追加することで、例えばナビゲーションクエリのパフォーマンスが損なわれる可能性がある。

Traditional information retrieval (IR) ranking models process the full text of documents. Newer models based on Transformers, however, would incur a high computational cost when processing long texts, so typically use only snippets from the document instead. The model's input based on a document's URL, title, and snippet (UTS) is akin to the summaries that appear on a search engine results page (SERP) to help searchers decide which result to click. This raises questions about when such summaries are sufficient for relevance estimation by the ranking model or the human assessor, and whether humans and machines benefit from the document's full text in similar ways. To answer these questions, we study human and neural model based relevance assessments on 12k query-documents sampled from Bing's search logs. We compare changes in the relevance assessments when only the document summaries and when the full text is also exposed to assessors, studying a range of query and document properties, e.g., query type, snippet length. Our findings show that the full text is beneficial for humans and a BERT model for similar query and document types, e.g., tail, long queries. A closer look, however, reveals that humans and machines respond to the additional input in very different ways. Adding the full text can also hurt the ranker's performance, e.g., for navigational queries.
翻訳日:2022-01-24 13:29:32 公開日:2022-01-21
# ラグランジュ緩和を用いた信号時間論理制約下の深部強化学習

Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation ( http://arxiv.org/abs/2201.08504v1 )

ライセンス: Link先を確認
Junya Ikemoto and Toshimitsu Ushio(参考訳) 深部強化学習(DRL)は、システムや環境の数学的モデルなしで逐次意思決定問題を解決するアプローチとして多くの注目を集めている。 一般に、意思決定に制約が課せられることがある。 本研究では,連続状態行動領域における時間的ハイレベルタスクを完遂するための制約を伴う最適意思決定問題を考える。 本稿では,信号時相論理(STL)を用いた制約について述べる。これは時間に敏感な制御タスクにおいて,境界時間間隔内で連続的な信号を指定することができるため有用である。 STL制約に対処するため,拡張制約付きマルコフ決定プロセス(CMDP)を導入し,これを$\tau$-CMDPと呼ぶ。 本稿では,STL制約の最適決定問題を$\tau$-CMDPとして定式化し,ラグランジアン緩和法を用いて2相制約DRLアルゴリズムを提案する。 また,シミュレーションにより,提案アルゴリズムの学習性能を実証する。

Deep reinforcement learning (DRL) has attracted much attention as an approach to solve sequential decision making problems without mathematical models of systems or environments. In general, a constraint may be imposed on the decision making. In this study, we consider the optimal decision making problems with constraints to complete temporal high-level tasks in the continuous state-action domain. We describe the constraints using signal temporal logic (STL), which is useful for time sensitive control tasks since it can specify continuous signals within a bounded time interval. To deal with the STL constraints, we introduce an extended constrained Markov decision process (CMDP), which is called a $\tau$-CMDP. We formulate the STL constrained optimal decision making problem as the $\tau$-CMDP and propose a two-phase constrained DRL algorithm using the Lagrangian relaxation method. Through simulations, we also demonstrate the learning performance of the proposed algorithm.
翻訳日:2022-01-24 13:29:06 公開日:2022-01-21
# (参考訳) VIPriors 2: データ効率のよいディープラーニングのためのビジュアルインダクティブプライオリティ [全文訳有]

VIPriors 2: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2201.08625v1 )

ライセンス: CC BY 4.0
Attila Lengyel, Robert-Jan Bruintjes, Marcos Baptista Rios, Osman Semih Kayhan, Davide Zambrano, Nergis Tomen, Jan van Gemert(参考訳) vipriors: visual inductive priors for data- efficient deep learning"の第2版では、さまざまな重要なコンピュータビジョンタスクのトレーニングサンプル数を削減してモデルをスクラッチからトレーニングする、データ障害のある5つの課題が取り上げられた。 深層学習モデルのデータ効率を改善するために、関連する帰納バイアスを取り入れた新しい創造的アイデアを奨励するため、事前学習されたチェックポイントやその他の伝達学習技術の使用を禁止した。 提供されるベースラインは、主にデータ拡張ポリシ、モデルアンサンブル、データ効率のよいネットワークアーキテクチャによる5つの課題において、大きなマージンで優れています。

The second edition of the "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" challenges featured five data-impaired challenges, where models are trained from scratch on a reduced number of training samples for various key computer vision tasks. To encourage new and creative ideas on incorporating relevant inductive biases to improve the data efficiency of deep learning models, we prohibited the use of pre-trained checkpoints and other transfer learning techniques. The provided baselines are outperformed by a large margin in all five challenges, mainly thanks to extensive data augmentation policies, model ensembling, and data efficient network architectures.
翻訳日:2022-01-24 13:27:29 公開日:2022-01-21
# グラフに基づく解釈可能な強化学習のための2段階ハイブリッド政策の学習

Learning Two-Step Hybrid Policy for Graph-Based Interpretable Reinforcement Learning ( http://arxiv.org/abs/2201.08520v1 )

ライセンス: Link先を確認
Tongzhou Mu, Kaixiang Lin, Feiyang Niu, Govind Thattai(参考訳) 本稿では,グラフベース入力を用いたRL問題に対して,解釈可能かつ堅牢な階層的ポリシを生成するための2段階のハイブリッド強化学習(RL)ポリシーを提案する。 エンドツーエンドのブラックボックスグラフニューラルネットワークによってパラメータ化された事前の強化学習ポリシーとは異なり、我々のアプローチは意思決定プロセスを2つのステップに分割する。 最初のステップは、グラフ入力をすべてのアクションが同様の意味を持つアクショングループにマッピングする単純化された分類問題である。 第2のステップは、グラフ上で明示的なワンホップ推論を実行し、重いドメイン知識を必要とせずにグラフ入力における決定的なエッジを識別する、洗練されたルールマイナを実装する。 この2段階のハイブリッドポリシーは、人間にやさしい解釈を示し、一般化と堅牢性の観点からより良いパフォーマンスを達成する。 4段階の複雑なテキストベースのゲームに関する大規模な実験的研究は、提案手法の最先端性を示した。

We present a two-step hybrid reinforcement learning (RL) policy that is designed to generate interpretable and robust hierarchical policies on the RL problem with graph-based input. Unlike prior deep reinforcement learning policies parameterized by an end-to-end black-box graph neural network, our approach disentangles the decision-making process into two steps. The first step is a simplified classification problem that maps the graph input to an action group where all actions share a similar semantic meaning. The second step implements a sophisticated rule-miner that conducts explicit one-hop reasoning over the graph and identifies decisive edges in the graph input without the necessity of heavy domain knowledge. This two-step hybrid policy presents human-friendly interpretations and achieves better performance in terms of generalization and robustness. Extensive experimental studies on four levels of complex text-based games have demonstrated the superiority of the proposed method compared to the state-of-the-art.
翻訳日:2022-01-24 13:08:29 公開日:2022-01-21
# Dual Contrastive Learning: Label-Aware Data Augmentationによるテキスト分類

Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation ( http://arxiv.org/abs/2201.08702v1 )

ライセンス: Link先を確認
Qianben Chen, Richong Zhang, Yaowei Zheng, Yongyi Mao(参考訳) コントラスト学習は,教師なし設定における自己スーパービジョンによる表現学習において顕著な成功を収めている。 しかし,コントラスト学習を教師付き学習タスクに効果的に適用することが課題として残されている。 本研究では,入力サンプルの特徴と同一空間における分類器のパラメータを同時に学習する双対コントラスト学習(dualcl)フレームワークを提案する。 具体的には、DualCLは、分類器のパラメータを異なるラベルに関連付けられた強化サンプルとみなし、入力サンプルと強化サンプルとの対比学習を利用する。 5つのベンチマークテキスト分類データセットとその低リソースバージョンに関する実証的研究は、分類精度の改善を示し、DualCLの識別表現を学習する能力を確認する。

Contrastive learning has achieved remarkable success in representation learning via self-supervision in unsupervised settings. However, effectively adapting contrastive learning to supervised learning tasks remains as a challenge in practice. In this work, we introduce a dual contrastive learning (DualCL) framework that simultaneously learns the features of input samples and the parameters of classifiers in the same space. Specifically, DualCL regards the parameters of the classifiers as augmented samples associating to different labels and then exploits the contrastive learning between the input samples and the augmented samples. Empirical studies on five benchmark text classification datasets and their low-resource version demonstrate the improvement in classification accuracy and confirm the capability of learning discriminative representations of DualCL.
翻訳日:2022-01-24 13:08:12 公開日:2022-01-21
# 距離比に基づく距離学習の定式化

Distance-Ratio-Based Formulation for Metric Learning ( http://arxiv.org/abs/2201.08676v1 )

ライセンス: Link先を確認
Hyeongji Kim, Pekka Parviainen, Ketil Malde(参考訳) メトリック学習では、同じクラスを持つデータポイントが互いに近く、異なるクラスを持つデータポイントが遠く離れるように埋め込みを学ぶことが目標である。 本稿では,距離比に基づく距離比式(DR)を提案する。 計量学習のためのソフトマックスベースの定式化と同様に、$p(y=c|x')$ をモデル化し、クエリポイント $x'$ がクラス $c$ に属する確率である。 dr製剤は2つの有用な性質を有する。 第一に、対応する損失は埋め込みのスケール変化の影響を受けない。 第二に、クラスを表すポイントに対して最適な(最大または最小)分類信頼度スコアを出力する。 提案手法の有効性を実証するため,cubおよびmini-imagenetデータセット上でsoftmaxおよびdrによる少ない分類実験を行った。 その結果,DR定式化はソフトマックス式よりも高速で安定なメートル法学習を可能にすることがわかった。 その結果、DR定式化を用いることで、改善または同等の一般化性能が得られる。

In metric learning, the goal is to learn an embedding so that data points with the same class are close to each other and data points with different classes are far apart. We propose a distance-ratio-based (DR) formulation for metric learning. Like softmax-based formulation for metric learning, it models $p(y=c|x')$, which is a probability that a query point $x'$ belongs to a class $c$. The DR formulation has two useful properties. First, the corresponding loss is not affected by scale changes of an embedding. Second, it outputs the optimal (maximum or minimum) classification confidence scores on representing points for classes. To demonstrate the effectiveness of our formulation, we conduct few-shot classification experiments using softmax-based and DR formulations on CUB and mini-ImageNet datasets. The results show that DR formulation generally enables faster and more stable metric learning than the softmax-based formulation. As a result, using DR formulation achieves improved or comparable generalization performances.
翻訳日:2022-01-24 13:07:44 公開日:2022-01-21
# テキストにおけるジェンダーバイアス:ラベル付きデータセットと辞書

Gender Bias in Text: Labeled Datasets and Lexicons ( http://arxiv.org/abs/2201.08675v1 )

ライセンス: Link先を確認
Jad Doughman, Wael Khreich(参考訳) 言語は私たちの思考、知覚、ジェンダーの役割の概念に大きな影響を与えます。 したがって、ジェンダー排他的言語は、社会的包摂を促進し、男女平等を達成するための重要なツールである。 したがって、テキスト中のジェンダーバイアスの検出と緩和は、その伝播と社会的意味の停止に寄与する。 しかし、教師付きおよび教師なし機械学習(ML)と自然言語処理(NLP)技術を用いて、性別バイアスの自動検出には、性別バイアスデータセットや語彙が欠如している。 したがって、本研究の主な貢献は、英文における性バイアスの検出を容易にするために、関連文の収集、注釈付け、増補によってラベル付きデータセットと徹底した語彙を公に提供することである。 そこで本研究では,従来提案していた分類の更新版を,構造を再構築し,新しいバイアスタイプを追加し,各バイアスサブタイプを適切な検出手法にマッピングすることで提示する。 リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。 単語埋め込みモデルを用いて収集した語彙をさらに強化した。 我々の研究の根底にある動機は、技術コミュニティがテキストの性別バイアスに対処し、MLとNLP技術を使ってその伝播を止めることである。

Language has a profound impact on our thoughts, perceptions, and conceptions of gender roles. Gender-inclusive language is, therefore, a key tool to promote social inclusion and contribute to achieving gender equality. Consequently, detecting and mitigating gender bias in texts is instrumental in halting its propagation and societal implications. However, there is a lack of gender bias datasets and lexicons for automating the detection of gender bias using supervised and unsupervised machine learning (ML) and natural language processing (NLP) techniques. Therefore, the main contribution of this work is to publicly provide labeled datasets and exhaustive lexicons by collecting, annotating, and augmenting relevant sentences to facilitate the detection of gender bias in English text. Towards this end, we present an updated version of our previously proposed taxonomy by re-formalizing its structure, adding a new bias type, and mapping each bias subtype to an appropriate detection methodology. The released datasets and lexicons span multiple bias subtypes including: Generic He, Generic She, Explicit Marking of Sex, and Gendered Neologisms. We leveraged the use of word embedding models to further augment the collected lexicons. The underlying motivation of our work is to enable the technical community to combat gender bias in text and halt its propagation using ML and NLP techniques.
翻訳日:2022-01-24 13:07:27 公開日:2022-01-21
# クラスアクティベーションマッピングのための概念学習

Conceptor Learning for Class Activation Mapping ( http://arxiv.org/abs/2201.08636v1 )

ライセンス: Link先を確認
Guangwu Qian, Zhen-Qun Yang, Xu-Lu Zhang, Yaowei Wang, Qing Li and Xiao-Yong Wei(参考訳) クラスアクティベーションマッピング(cam)は、ディープニューラルネットワーク(dnn)の視覚的説明を提供するサリエンシーマップを生成するために広く採用されている。 目標特徴マップのチャネルを重み付き平均スキームを用いて融合することにより、従来はサラエンシマップが生成される。 チャネル間関係の弱いモデルであり、チャンネル間の関係を対照的な方法でモデル化する(すなわち、予測において重要な役割を果たすチャネルは、融合において際立った重みを与える)という意味で、弱いモデルである。 相互参照を提供するためにチャネルを連携させるコラボレーティブな関係は無視されている。 さらに,本研究では,CAM生成に概念学習を導入することで,チャネル内関係を徹底的に無視した。 conceptor leanは、recurrent neural networks(rnn)の状態変化のパターンをモデル化するために提案されている。 概念学習のRNNへの依存を緩和することにより、概念CAMをより多くのDNNアーキテクチャに一般化できるだけでなく、チャネル間関係とチャネル内関係の両方を学習して、より優れたサリエンシマップを生成することができる。 さらに我々は,CAM推論をより堅牢かつ包括的に,肯定的および疑似否定的な証拠を組み合わせるためにBoolean操作を有効にした。 コンセプターCAMの有効性は、文学における最大規模のデータセットに関する形式的検証と実験の両方で検証されている。 実験の結果、Conceptor-CAMはすべてのCAMベースの手法と互換性があり、43.14%〜72.79%(88.39%〜168.15%)、平均増加(Drop)15.42%〜42.55%(47.09%〜372.09%)、COCO17.43%~31.32%(47.54%〜206.45%)で、最先端の手法よりも優れていた。

Class Activation Mapping (CAM) has been widely adopted to generate saliency maps which provides visual explanations for deep neural networks (DNNs). The saliency maps are conventionally generated by fusing the channels of the target feature map using a weighted average scheme. It is a weak model for the inter-channel relation, in the sense that it only models the relation among channels in a contrastive way (i.e., channels that play key roles in the prediction are given higher weights for them to stand out in the fusion). The collaborative relation, which makes the channels work together to provide cross reference, has been ignored. Furthermore, the model has neglected the intra-channel relation thoroughly.In this paper, we address this problem by introducing Conceptor learning into CAM generation. Conceptor leaning has been originally proposed to model the patterns of state changes in recurrent neural networks (RNNs). By relaxing the dependency of Conceptor learning to RNNs, we make Conceptor-CAM not only generalizable to more DNN architectures but also able to learn both the inter- and intra-channel relations for better saliency map generation. Moreover, we have enabled the use of Boolean operations to combine the positive and pseudo-negative evidences, which has made the CAM inference more robust and comprehensive. The effectiveness of Conceptor-CAM has been validated with both formal verifications and experiments on the dataset of the largest scale in literature. The experimental results show that Conceptor-CAM is compatible with and can bring significant improvement to all well recognized CAM-based methods, and has outperformed the state-of-the-art methods by 43.14%~72.79% (88.39%~168.15%) on ILSVRC2012 in Average Increase (Drop), 15.42%~42.55% (47.09%~372.09%) on VOC, and 17.43%~31.32% (47.54%~206.45%) on COCO, respectively.
翻訳日:2022-01-24 13:07:05 公開日:2022-01-21
# 半監督型医用画像分割のための擬似ラベルの品質向上

Enhancing Pseudo Label Quality for Semi-SupervisedDomai n-Generalized Medical Image Segmentation ( http://arxiv.org/abs/2201.08657v1 )

ライセンス: Link先を確認
Huifeng Yao, Xiaowei Hu, Xiaomeng Li(参考訳) 医用画像分割アルゴリズムの一般化は, コンピュータ支援診断と手術において重要な研究課題である。 既存のメソッドの多くは、ソースドメインごとに完全なラベル付きデータセットを必要とする。 (liuet al. 2021b) は半教師ありドメイン一般化法を開発したが、依然としてドメインラベルが必要である。 本稿では,半教師あり領域一般化医用画像セグメンテーションのための,新しい信頼度対応クロス擬似監督アルゴリズムを提案する。 主な目的は、未知のディストリビューションからの未ラベル画像の擬似ラベル品質を高めることである。 そこで我々は、Fourier変換を行い、ドメイン間の低レベル統計情報を学習し、画像を拡張してクロスドメイン情報を統合する。これらの拡張を摂動として、疑似ラベルのばらつきを計測し、より確実な擬似ラベルで学習するためにネットワークを規則化する。 我々の手法は、ドメインラベルを使わずに、Diceon M&Msデータセットで2%のラベル付きデータで11.67%のドメインラベルを使用する以前の技術を超えています。 コードはカンファレンス後に有効になるでしょう。

Generalizing the medical image segmentation algorithms tounseen domains is an important research topic for computer-aided diagnosis and surgery. Most existing methods requirea fully labeled dataset in each source domain. Although (Liuet al. 2021b) developed a semi-supervised domain general-ized method, it still requires the domain labels. This paperpresents a novel confidence-aware cross pseudo supervisionalgorithm for semi-supervised domain generalized medicalimage segmentation. The main goal is to enhance the pseudolabel quality for unlabeled images from unknown distribu-tions. To achieve it, we perform the Fourier transformationto learn low-level statistic information across domains andaugment the images to incorporate cross-domain information.With these augmentations as perturbations, we feed the inputto a confidence-aware cross pseudo supervision network tomeasure the variance of pseudo labels and regularize the net-work to learn with more confident pseudo labels. Our methodsets new records on public datasets,i.e., M&Ms and SCGM.Notably, without using domain labels, our method surpassesthe prior art that even uses domain labels by 11.67% on Diceon M&Ms dataset with 2% labeled data. Code will be avail-able after the conference.
翻訳日:2022-01-24 13:06:22 公開日:2022-01-21
# 空中画像における物体検出:精度が向上する理由

Object Detection in Aerial Images: What Improves the Accuracy? ( http://arxiv.org/abs/2201.08763v1 )

ライセンス: Link先を確認
Hashmat Shadab Malik, Ikboljon Sobirov, and Abdelrahman Mohamed(参考訳) 物体検出は困難で一般的なコンピュータビジョン問題である。 この問題は、様々な対象カテゴリーにおけるスケールと視点の著しい変化により、空中画像においてさらに困難である。 近年,空中画像における物体検出問題に対して,ディープラーニングに基づく物体検出手法が積極的に研究されている。 本研究では,空中物体検出における高速r-cnnの効果を調査し,その性能向上のための多数の戦略を検討する。 挑戦的なiSAIDデータセットについて広範な実験を行った。 その結果得られたFaster R-CNNは、iSAID検証セット上のバニラベースラインよりも4.96%大きなmAPゲインを得、この研究で調査された様々な戦略の影響を実証した。

Object detection is a challenging and popular computer vision problem. The problem is even more challenging in aerial images due to significant variation in scale and viewpoint in a diverse set of object categories. Recently, deep learning-based object detection approaches have been actively explored for the problem of object detection in aerial images. In this work, we investigate the impact of Faster R-CNN for aerial object detection and explore numerous strategies to improve its performance for aerial images. We conduct extensive experiments on the challenging iSAID dataset. The resulting adapted Faster R-CNN obtains a significant mAP gain of 4.96% over its vanilla baseline counterpart on the iSAID validation set, demonstrating the impact of different strategies investigated in this work.
翻訳日:2022-01-24 13:05:55 公開日:2022-01-21
# (参考訳) カスケードポジティブ検索による自己教師付き映像表現学習 [全文訳有]

Self-supervised Video Representation Learning with Cascade Positive Retrieval ( http://arxiv.org/abs/2201.07989v2 )

ライセンス: CC BY 4.0
Cheng-En Wu, Farley Lai, Yu Hen Hu, Asim Kadav(参考訳) 自己教師付きビデオ表現学習は、映像検索や行動認識などの下流タスクを効果的に改善することが示されている。 本稿では,逐次的段階におけるコントラスト学習のためのクエリ w.r.t. の正例を逐次抽出するカスケード正検索(cpr)を提案する。 具体的には、CPRはクエリの例の複数のビューを異なるモードで利用し、別のビューはクエリのビューで異なる別のポジティブな例を見つけるのに役立つかもしれない。 本研究は,鉱業段階数,各段階における類似例選択率,最終Top-k選択回数の漸進的数による漸進的トレーニングなど,AblationにおけるCPR構成の可能性を検討する。 全体の鉱業品質は、トレーニングセットのクラス間でのリコールを反映して測定される。 CPRは83.3%の中央値の鉱業リコールに達し、以前の業績を5.5%上回った。 実装面では、CPRはプリテキストタスクを補完し、以前の作業にも容易に適用できる。 UCF101での事前トレーニングの評価では、CPRは既存の作業の改善を一貫して行い、ビデオ検索では56.7%、24.4%、UCF101およびHMDB51では83.8%、54.8%の最先端のR@1を達成している。 大規模なビデオデータセットであるKineetics400からUCF101とHDMBへの転送は、CPRが既存の作業に有効であり、低い解像度とフレームサンプリング率で事前訓練されているにもかかわらず、競合するトップ1の精度は85.1%と57.4%であった。 コードはすぐにリリースされ、結果が再現される。 コードはhttps://github.com/n ecla-ml/cprで入手できる。

Self-supervised video representation learning has been shown to effectively improve downstream tasks such as video retrieval and action recognition. In this paper, we present the Cascade Positive Retrieval (CPR) that successively mines positive examples w.r.t. the query for contrastive learning in a cascade of stages. Specifically, CPR exploits multiple views of a query example in different modalities, where an alternative view may help find another positive example dissimilar in the query view. We explore the effects of possible CPR configurations in ablations including the number of mining stages, the top similar example selection ratio in each stage, and progressive training with an incremental number of the final Top-k selection. The overall mining quality is measured to reflect the recall across training set classes. CPR reaches a median class mining recall of 83.3%, outperforming previous work by 5.5%. Implementation-wise, CPR is complementary to pretext tasks and can be easily applied to previous work. In the evaluation of pretraining on UCF101, CPR consistently improves existing work and even achieves state-of-the-art R@1 of 56.7% and 24.4% in video retrieval as well as 83.8% and 54.8% in action recognition on UCF101 and HMDB51. For transfer from large video dataset Kinetics400 to UCF101 and HDMB, CPR benefits existing work, showing competitive Top-1 accuracies of 85.1% and 57.4% despite pretraining at a lower resolution and frame sampling rate. The code will be released soon for reproducing the results. The code is available at https://github.com/n ecla-ml/CPR.
翻訳日:2022-01-24 12:43:58 公開日:2022-01-21
# (参考訳) heam:ディープニューラルネットワークの高効率近似マルチプライア最適化 [全文訳有]

HEAM: High-Efficiency Approximate Multiplier Optimization for Deep Neural Networks ( http://arxiv.org/abs/2201.08022v2 )

ライセンス: CC BY 4.0
Su Zheng, Zhen Li, Yao Lu, Jingbo Gao, Jide Zhang, Lingli Wang(参考訳) オペランド分布にしたがって平均誤差を最小化する近似乗算器の自動設計のための最適化手法を提案する。 我々の乗算器は、DNNにおいて最もよく再現された近似乗算器よりも50.24%高い精度で15.76%小さく、消費電力が25.05%減少し、3.50%遅れている。 正確な乗算器と比較して、乗算器は面積、消費電力、遅延を44.94%、47.63%、および16.78%削減し、精度の損失は無視できる。 我々の乗算器を持つ試験されたDNN加速器モジュールは、18.70%の面積と9.99%の消費電力を得る。

We propose an optimization method for the automatic design of approximate multipliers, which minimizes the average error according to the operand distributions. Our multiplier achieves up to 50.24% higher accuracy than the best reproduced approximate multiplier in DNNs, with 15.76% smaller area, 25.05% less power consumption, and 3.50% shorter delay. Compared with an exact multiplier, our multiplier reduces the area, power consumption, and delay by 44.94%, 47.63%, and 16.78%, respectively, with negligible accuracy losses. The tested DNN accelerator modules with our multiplier obtain up to 18.70% smaller area and 9.99% less power consumption than the original modules.
翻訳日:2022-01-24 12:14:24 公開日:2022-01-21
# (参考訳) シンプレクティック運動量ニューラルネットワーク ---深層学習における離散変動力学を用いた- [全文訳有]

Symplectic Momentum Neural Networks -- Using Discrete Variational Mechanics as a prior in Deep Learning ( http://arxiv.org/abs/2201.08281v2 )

ライセンス: CC BY 4.0
Saul Santos, Monica Ekal, Rodrigo Ventura(参考訳) 現実の物理システムの予測と制御のために、ディープラーニングが研究コミュニティから注目を集めている中、重要な表現の学習がますます必須になっている。 深層学習表現が物理と一貫性を持つことは極めて重要である。 離散データから学習する場合、これは学習に何らかの事前を組み込むことで保証できるが、全ての離散化事前が物理学から重要な構造を保存するわけではない。 本稿では,Symphlectic Momentum Neural Networks (SyMo) を,非分離機械系の力学の離散的定式化のモデルとして紹介する。 このような定式化の組み合わせにより、SyMosは運動量やシンプレクティック形式のような重要な幾何学的構造を保ち、限られたデータから学ぶことに制約される。 さらに、ポーズからのみ、トレーニングデータとしてダイナミクスを学ぶことができる。 我々はSyMosを拡張し、学習フレームワークに変分積分器を含むように拡張し、E2E-SyMo(End-to-End Symplectic Momentum Neural Networks)につながる暗黙のルートフィンド層を開発する。 実験結果から, 振り子とカルトポールの組み合わせによって, これらのモデルが限られたデータから得られるだけでなく, シンプレクティックな形態を保ち, より長期的行動を示す能力も提供することを示した。

With deep learning being gaining attention from the research community for prediction and control of real physical systems, learning important representations is becoming now more than ever mandatory. It is of extremely importance that deep learning representations are coherent with physics. When learning from discrete data this can be guaranteed by including some sort of prior into the learning, however not all discretization priors preserve important structures from the physics. In this paper we introduce Symplectic Momentum Neural Networks (SyMo) as models from a discrete formulation of mechanics for non-separable mechanical systems. The combination of such formulation leads SyMos to be constrained towards preserving important geometric structures such as momentum and a symplectic form and learn from limited data. Furthermore, it allows to learn dynamics only from the poses as training data. We extend SyMos to include variational integrators within the learning framework by developing an implicit root-find layer which leads to End-to-End Symplectic Momentum Neural Networks (E2E-SyMo). Through experimental results, using the pendulum and cartpole we show that such combination not only allows these models tol earn from limited data but also provides the models with the capability of preserving the symplectic form and show better long-term behaviour.
翻訳日:2022-01-24 12:03:34 公開日:2022-01-21
# (参考訳) ganベースのリアルビデオ編集ツール「stitch it in time」 [全文訳有]

Stitch it in Time: GAN-Based Facial Editing of Real Videos ( http://arxiv.org/abs/2201.08361v2 )

ライセンス: CC BY 4.0
Rotem Tzaban, Ron Mokady, Rinon Gal, Amit H. Bermano, Daniel Cohen-Or(参考訳) 潜在空間内でリッチセマンティクスをエンコードする生成的逆ネットワークの能力は、顔画像編集に広く採用されている。 しかし、彼らの成功をビデオで再現することは難しい。 高品質な顔ビデオのセットは不足しており、ビデオを扱うことは、時間的一貫性を克服する根本的な障壁をもたらす。 我々はこの障壁がほとんど人工的であることを提案する。 ソースビデオは、すでに時間的に一貫性があり、この状態からの逸脱は、編集パイプライン内の個々のコンポーネントの不注意な処理によって生じる。 我々は、StyleGANの自然なアライメントとニューラルネットワークの傾向を利用して低周波関数を学習し、それらが強い一貫した事前を提供することを示す。 本稿では,これらの知見に基づいて映像中の顔のセマンティックな編集を行うフレームワークを提案し,現状よりも大幅に改善されていることを示す。 本手法は有意義な顔操作を行い,より高い時間的一貫性を保ち,現在の手法が苦しむ挑戦的で高品質な話題のヘッドビデオに適用できる。

The ability of Generative Adversarial Networks to encode rich semantics within their latent space has been widely adopted for facial image editing. However, replicating their success with videos has proven challenging. Sets of high-quality facial videos are lacking, and working with videos introduces a fundamental barrier to overcome - temporal coherency. We propose that this barrier is largely artificial. The source video is already temporally coherent, and deviations from this state arise in part due to careless treatment of individual components in the editing pipeline. We leverage the natural alignment of StyleGAN and the tendency of neural networks to learn low frequency functions, and demonstrate that they provide a strongly consistent prior. We draw on these insights and propose a framework for semantic editing of faces in videos, demonstrating significant improvements over the current state-of-the-art. Our method produces meaningful face manipulations, maintains a higher degree of temporal consistency, and can be applied to challenging, high quality, talking head videos which current methods struggle with.
翻訳日:2022-01-24 11:52:02 公開日:2022-01-21
# (参考訳) tervit: 効率的な三元視覚トランスフォーマー [全文訳有]

TerViT: An Efficient Ternary Vision Transformer ( http://arxiv.org/abs/2201.08050v2 )

ライセンス: CC BY 4.0
Sheng Xu, Yanjing Li, Teli Ma, Bohan Zeng, Baochang Zhang, Peng Gao and Jinhu Lv(参考訳) 視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。 本稿では,実値と三値パラメータ間の損失表面ギャップが大きいvitsの重み付けに挑戦する三元ビジョントランスフォーマ(tervit)を提案する。 この問題に対処するために,まず8ビットトランスフォーマーとTerViTを訓練し,従来の方法よりも優れた最適化を実現するプログレッシブトレーニング手法を提案する。 さらに,各行列を異なるチャネルに分割し,それぞれが一意な分布と三段化間隔を持つチャネル毎に三段化を導入する。 一般的なDeiTやSwinのバックボーンにメソッドを適用することで,競争性能を向上できることを示す。 例えば、TerViTは、ImageNetデータセットで79%のTop-1精度を達成しつつ、Swin-Sを13.1MBモデルサイズに定量化することができる。

Vision transformers (ViTs) have demonstrated great potential in various visual tasks, but suffer from expensive computational and memory cost problems when deployed on resource-constrained devices. In this paper, we introduce a ternary vision transformer (TerViT) to ternarize the weights in ViTs, which are challenged by the large loss surface gap between real-valued and ternary parameters. To address the issue, we introduce a progressive training scheme by first training 8-bit transformers and then TerViT, and achieve a better optimization than conventional methods. Furthermore, we introduce channel-wise ternarization, by partitioning each matrix to different channels, each of which is with an unique distribution and ternarization interval. We apply our methods to popular DeiT and Swin backbones, and extensive results show that we can achieve competitive performance. For example, TerViT can quantize Swin-S to 13.1MB model size while achieving above 79% Top-1 accuracy on ImageNet dataset.
翻訳日:2022-01-24 11:36:29 公開日:2022-01-21
# VISA:ビジュアルシーン対応機械翻訳のための曖昧な字幕データセット

VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation ( http://arxiv.org/abs/2201.08054v2 )

ライセンス: Link先を確認
Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi(参考訳) 既存のマルチモーダル機械翻訳(mmt)データセットは、画像とビデオキャプションまたは一般的な字幕で構成されており、言語的な曖昧さをほとんど含まない。 日本語のパラレルな文対とそれに対応するビデオクリップからなる新たなデータセットであるVISAを紹介する。(1)パラレルな文は映画やテレビのエピソードのサブタイトルであり、(2)ソースの字幕は曖昧であり、異なる意味を持つ複数の翻訳が可能であり、(3)あいまいさの原因に応じてデータセットをポリセミーとオミッションに分割する。 我々は、最新のMTシステムではVISAが困難であることを示し、このデータセットがMT研究を促進することを期待する。

Existing multimodal machine translation (MMT) datasets consist of images and video captions or general subtitles, which rarely contain linguistic ambiguity, making visual information not so effective to generate appropriate translations. We introduce VISA, a new dataset that consists of 40k Japanese-English parallel sentence pairs and corresponding video clips with the following key features: (1) the parallel sentences are subtitles from movies and TV episodes; (2) the source subtitles are ambiguous, which means they have multiple possible translations with different meanings; (3) we divide the dataset into Polysemy and Omission according to the cause of ambiguity. We show that VISA is challenging for the latest MMT system, and we hope that the dataset can facilitate MMT research.
翻訳日:2022-01-24 11:24:13 公開日:2022-01-21
# DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク

DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis ( http://arxiv.org/abs/2201.08295v2 )

ライセンス: Link先を確認
Lars V\"ogtlin, Paul Maergner, Rolf Ingold(参考訳) 本稿では,DIVA-DAFと呼ばれる新しいディープラーニングフレームワークを提案する。 この枠組みは,歴史的文書画像解析タスクの研究を支援するとともに,手作業による土台真理の必要性を軽減する技術を開発する。 私たちは、自己教師付き学習技術を適用し、異なる種類のトレーニングデータを使用したいと思っています。 我々の新しいフレームワークは、迅速にプロトタイピングと再現可能な実験を行うのに役立ちます。 本フレームワークを用いてDIVA-HisDB上でのセマンティックセマンティックセマンティックなセマンティックなセマンティクス実験を行った。 DIVA-DAFフレームワークはオープンソースであり、他の研究グループが実験に使用することを推奨します。

In this paper, we introduce a new deep learning framework called DIVA-DAF. We have developed this framework to support our research on historical document image analysis tasks and to develop techniques to reduce the need for manually-labeled ground truth. We want to apply self-supervised learning techniques and use different kinds of training data. Our new framework aids us in performing rapid prototyping and reproducible experiments. We present a first semantic segmentation experiment on DIVA-HisDB using our framework, achieving state-of-the-art results. The DIVA-DAF framework is open-source, and we encourage other research groups to use it for their experiments.
翻訳日:2022-01-24 11:23:57 公開日:2022-01-21
# 人のフィードバックを用いた3次元環境における安全な深部RL

Safe Deep RL in 3D Environments using Human Feedback ( http://arxiv.org/abs/2201.08102v2 )

ライセンス: Link先を確認
Matthew Rahtz, Vikrant Varma, Ramana Kumar, Zachary Kenton, Shane Legg, Jan Leike(参考訳) エージェントはトレーニングとデプロイメントの間、安全でない振る舞いを避ける必要がある。 これは通常、シミュレータと安全でない振る舞いの手続き仕様を必要とする。 残念ながらシミュレータは必ずしも利用可能ではなく、手続き的に制約を指定することは現実の多くのタスクでは困難または不可能である。 最近導入されたReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習し、学習したシミュレータを使って人間のフィードバックから報酬モデルを効率的に学習することで、この問題を解決することを目指している。 しかし、このアプローチが実際の人間からフィードバックを得た複雑な3d環境で実現可能かどうか、十分なピクセルベースのニューラルシミュレータの品質を達成できるか、そして、量と品質の両面で人間のデータ要件が実現可能かどうかはまだ不明である。 本稿では,ReQueSTを用いてエージェントを訓練し,人間の請負業者からのデータを用いた3Dファーストパーソンオブジェクト収集タスクを行う。 その結果, 標準強化学習と比較して, 安全でない行動が桁違いに減少することが示された。

Agents should avoid unsafe behaviour during both training and deployment. This typically requires a simulator and a procedural specification of unsafe behaviour. Unfortunately, a simulator is not always available, and procedurally specifying constraints can be difficult or impossible for many real-world tasks. A recently introduced technique, ReQueST, aims to solve this problem by learning a neural simulator of the environment from safe human trajectories, then using the learned simulator to efficiently learn a reward model from human feedback. However, it is yet unknown whether this approach is feasible in complex 3D environments with feedback obtained from real humans - whether sufficient pixel-based neural simulator quality can be achieved, and whether the human data requirements are viable in terms of both quantity and quality. In this paper we answer this question in the affirmative, using ReQueST to train an agent to perform a 3D first-person object collection task using data entirely from human contractors. We show that the resulting agent exhibits an order of magnitude reduction in unsafe behaviour compared to standard reinforcement learning.
翻訳日:2022-01-24 11:23:45 公開日:2022-01-21