このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221105となっている論文です。

PDF登録状況(公開日: 20221105)

TitleAuthorsAbstract論文公表日・翻訳日
# ヒントの活用:反復1価オークションにおける適応入札

Leveraging the Hints: Adaptive Bidding in Repeated First-Price Auctions ( http://arxiv.org/abs/2211.06358v1 )

ライセンス: Link先を確認
Wei Zhang, Yanjun Han, Zhengyuan Zhou, Aaron Flores, Tsachy Weissman(参考訳) eコマースの出現と拡大に伴い、デジタル広告は経済の主要なマーケティング力として伝統的な広告に取って代わられた。 過去4年間で、デジタル広告業界における特に重要な発展は、オンラインディスプレイ広告の第二価格オークションから第一価格オークションへの移行である。 この変化はすぐに、第一価格オークションの入札方法に関する知的に困難な問題を引き起こし、第二価格オークションとは異なり、真に個人価値の入札はもはや最適ではない。 私たちは、他の入札者の最大入札(つまり、時間とともに敵対的になる可能性がある)について仮定することはせず、代わりに、ブラックボックス機械学習モデルによって予測が学習される他の入札者の最大入札の予測として役立つヒントにアクセスできると仮定します。 我々は2種類のヒントについて考察する。1つは1つのポイント予測が可能で、もう1つはヒント間隔(他者の最大入札が下降する信頼領域のタイプを表す)が利用可能である。 両症例に対して最小限の後悔境界を設定し, 2つの設定の量的に異なる振る舞いを強調した。 また,他者の最大入札がさらにスパーシティの構造を示す場合に,後悔の限界が改善される。 最後に,実入札データを用いた実演で理論的結果を補完する。

With the advent and increasing consolidation of e-commerce, digital advertising has very recently replaced traditional advertising as the main marketing force in the economy. In the past four years, a particularly important development in the digital advertising industry is the shift from second-price auctions to first-price auctions for online display ads. This shift immediately motivated the intellectually challenging question of how to bid in first-price auctions, because unlike in second-price auctions, bidding one's private value truthfully is no longer optimal. Following a series of recent works in this area, we consider a differentiated setup: we do not make any assumption about other bidders' maximum bid (i.e. it can be adversarial over time), and instead assume that we have access to a hint that serves as a prediction of other bidders' maximum bid, where the prediction is learned through some blackbox machine learning model. We consider two types of hints: one where a single point-prediction is available, and the other where a hint interval (representing a type of confidence region into which others' maximum bid falls) is available. We establish minimax optimal regret bounds for both cases and highlight the quantitatively different behavior between the two settings. We also provide improved regret bounds when the others' maximum bid exhibits the further structure of sparsity. Finally, we complement the theoretical results with demonstrations using real bidding data.
翻訳日:2022-11-20 13:50:15 公開日:2022-11-05
# 観測可能なネットワークパラメータに基づく5G UAV攻撃のための合成データセット

A Synthetic Dataset for 5G UAV Attacks Based on Observable Network Parameters ( http://arxiv.org/abs/2211.09706v1 )

ライセンス: Link先を確認
Joseanne Viana, Hamed Farkhari, Pedro Sebastiao, Sandra Lagen, Katerina Koutlia, Biljana Bojovic, Rui Dinis(参考訳) 合成データセットは、トレーニングとテストフェーズで新しい戦略とアルゴリズムを実験する可能性から、機械学習研究者にとって有益である。 これらのデータセットは、実際のデータを調べるのにコストがかかるシナリオを簡単に含めることができ、場合によっては、合成データの品質に応じて、実際のデータ測定を置き換えることができる。 また、バランスの取れないデータ問題を解決することができ、オーバーフィッティングを避けることができ、実際のデータでテストが行えるようにトレーニングに使用できる。 本稿では, 受信信号強度指標(RSSI)とSINR(Signal to Interference-plus-Noise Ratio)という, 電力レベルを示す重要な観測可能なネットワークパラメータに基づいて, 5Gおよびそれ以上のネットワークにおける無人航空機(UAV)攻撃のための最初の合成データセットについて述べる。 このデータの主な目的は、UAV通信セキュリティのためのディープネットワーク開発を可能にすることである。 特に,UAV攻撃認識に適用される時系列データのアルゴリズム開発や解析を行う。 提案するデータセットは,都市環境における認証されたuavをターゲットとする,静的あるいは移動型uav攻撃時のネットワーク機能に関する洞察を提供する。 データセットはまた、ネットワーク内の認証された地上ユーザーの存在と不在も考慮しており、攻撃を識別するディープネットワークの能力が低下する可能性がある。 さらに、データは5G物理層とMAC層で利用可能なメトリクスをより深く理解し、機械学習と統計学の研究を行う。 データセットはlink Archive-beta.ics.uci.eduで利用可能になる

Synthetic datasets are beneficial for machine learning researchers due to the possibility of experimenting with new strategies and algorithms in the training and testing phases. These datasets can easily include more scenarios that might be costly to research with real data or can complement and, in some cases, replace real data measurements, depending on the quality of the synthetic data. They can also solve the unbalanced data problem, avoid overfitting, and can be used in training while testing can be done with real data. In this paper, we present, to the best of our knowledge, the first synthetic dataset for Unmanned Aerial Vehicle (UAV) attacks in 5G and beyond networks based on the following key observable network parameters that indicate power levels: the Received Signal Strength Indicator (RSSI) and the Signal to Interference-plus-Noise Ratio (SINR). The main objective of this data is to enable deep network development for UAV communication security. Especially, for algorithm development or the analysis of time-series data applied to UAV attack recognition. Our proposed dataset provides insights into network functionality when static or moving UAV attackers target authenticated UAVs in an urban environment. The dataset also considers the presence and absence of authenticated terrestrial users in the network, which may decrease the deep networks ability to identify attacks. Furthermore, the data provides deeper comprehension of the metrics available in the 5G physical and MAC layers for machine learning and statistics research. The dataset will available at link archive-beta.ics.uci.edu
翻訳日:2022-11-20 13:49:56 公開日:2022-11-05
# siameseネットワークを活用したワンショット侵入検出モデル

Leveraging Siamese Networks for One-Shot Intrusion Detection Model ( http://arxiv.org/abs/2006.15343v3 )

ライセンス: Link先を確認
Hanan Hindy, Christos Tachtatzis, Robert Atkinson, David Brosset, Miroslav Bures, Ivan Andonovic, Craig Michie, Xavier Bellekens(参考訳) 侵入検知システムを強化するための教師あり機械学習(ML)の利用は、重要な研究の対象となっている。 Supervised MLは、効果的なトレーニングのための膨大な量の代表インスタンスと、目に見えないサイバー攻撃クラスごとにモデルを再トレーニングする必要がある、という例による学習に基づいている。 しかし、モデルを再訓練すると、十分な量のデータを取得するのに必要な時間窓のため、ネットワークは攻撃を受けやすい。 異常検出システムは、見えない攻撃に対して粗い防御を提供するが、これらのアプローチは正確性が著しく低く、偽陽性率が高い。 ここでは、「ワンショット学習」と呼ばれる補完的なアプローチとして、新しい攻撃クラス(多くは)を識別するために、新しい攻撃クラスの限られた例を用いる。 このモデルは、再訓練なしで新しいサイバー攻撃分類を許可する。 siameseネットワークは、機能ではなく、ペアの類似性に基づいてクラスを区別するように訓練され、新規で未認識の攻撃を識別できる。 1つの例のみに基づいて攻撃クラスを分類する事前学習モデルの性能を3つのデータセットを用いて評価する。 その結果,非認識攻撃の分類におけるモデルの適応性,性能とクラス表現の必要性とのトレードオフが確認された。

The use of supervised Machine Learning (ML) to enhance Intrusion Detection Systems has been the subject of significant research. Supervised ML is based upon learning by example, demanding significant volumes of representative instances for effective training and the need to re-train the model for every unseen cyber-attack class. However, retraining the models in-situ renders the network susceptible to attacks owing to the time-window required to acquire a sufficient volume of data. Although anomaly detection systems provide a coarse-grained defence against unseen attacks, these approaches are significantly less accurate and suffer from high false-positive rates. Here, a complementary approach referred to as 'One-Shot Learning', whereby a limited number of examples of a new attack-class is used to identify a new attack-class (out of many) is detailed. The model grants a new cyber-attack classification without retraining. A Siamese Network is trained to differentiate between classes based on pairs similarities, rather than features, allowing to identify new and previously unseen attacks. The performance of a pre-trained model to classify attack-classes based only on one example is evaluated using three datasets. Results confirm the adaptability of the model in classifying unseen attacks and the trade-off between performance and the need for distinctive class representation.
翻訳日:2022-11-16 08:07:05 公開日:2022-11-05
# 量子Deep Dreaming:量子回路設計の新しいアプローチ

Quantum Deep Dreaming: A Novel Approach for Quantum Circuit Design ( http://arxiv.org/abs/2211.04343v1 )

ライセンス: Link先を確認
Romi Lifshitz(参考訳) 現在量子コンピューティングコミュニティが直面している課題の1つは、量子コンパイル問題として知られる、短期的な量子コンピュータ上で効率的に動作する量子回路の設計である。 変分量子固有解法 (VQE) や量子近似最適化アルゴリズム (QAOA) 、量子アーキテクチャ探索 (QAS) といったアルゴリズムは、最適に近い量子回路を生成または見つけることが示されている。 しかし、これらの手法は計算コストが高く、回路設計プロセスについてはほとんど洞察を得られない。 本稿では,回路設計過程に対する洞察を提供しつつ,基底状態形成などの特定目的に対して最適な量子回路アーキテクチャを生成するアルゴリズムであるquantum deep dreaming (qdd)を提案する。 qddでは、まずニューラルネットワークを訓練し、量子回路(vqeエネルギーなど)のいくつかの特性を予測する。 次に,訓練ネットワーク上でのディープドリーム技術を用いて,初期回路の更新を反復的に行い,対象特性値(基底状態vqeエネルギーなど)を達成する。 重要なのは、この反復的な更新によって、夢のプロセスの中間回路を分析し、夢中にネットワークが修正している回路の特徴について洞察を得ることができます。 我々は,QDDが基底状態エネルギー(Transverse Field Ising Model VQE Energy)に近い6量子ビットの回路(Dreams)をうまく生成し,また,ドリーム解析によって回路設計の洞察が得られることを示した。 QDDは、任意の目的特性を持つ回路を最適化するために設計されており、量子化学の内外の両方で回路設計問題に適用できる。 したがって、qddは最適化量子回路の将来の発見と、自動量子アルゴリズム設計の解釈可能性の向上のための基礎を築いている。

One of the challenges currently facing the quantum computing community is the design of quantum circuits which can efficiently run on near-term quantum computers, known as the quantum compiling problem. Algorithms such as the Variational Quantum Eigensolver (VQE), Quantum Approximate Optimization Algorithm (QAOA), and Quantum Architecture Search (QAS) have been shown to generate or find optimal near-term quantum circuits. However, these methods are computationally expensive and yield little insight into the circuit design process. In this paper, we propose Quantum Deep Dreaming (QDD), an algorithm that generates optimal quantum circuit architectures for specified objectives, such as ground state preparation, while providing insight into the circuit design process. In QDD, we first train a neural network to predict some property of a quantum circuit (such as VQE energy). Then, we employ the Deep Dreaming technique on the trained network to iteratively update an initial circuit to achieve a target property value (such as ground state VQE energy). Importantly, this iterative updating allows us to analyze the intermediate circuits of the dreaming process and gain insights into the circuit features that the network is modifying during dreaming. We demonstrate that QDD successfully generates, or 'dreams', circuits of six qubits close to ground state energy (Transverse Field Ising Model VQE energy) and that dreaming analysis yields circuit design insights. QDD is designed to optimize circuits with any target property and can be applied to circuit design problems both within and outside of quantum chemistry. Hence, QDD lays the foundation for the future discovery of optimized quantum circuits and for increased interpretability of automated quantum algorithm design.
翻訳日:2022-11-09 16:54:56 公開日:2022-11-05
# FLock: ブロックチェーンによるフェデレーション学習における悪意的な行動の回避

FLock: Defending Malicious Behaviors in Federated Learning with Blockchain ( http://arxiv.org/abs/2211.04344v1 )

ライセンス: Link先を確認
Nanqing Dong and Jiahao Sun and Zhipeng Wang and Shuoying Zhang and Shuhao Zheng(参考訳) Federated Learning(FL)は、複数のデータ所有者(クライアント)がデータのプライバシを損なうことなく、共同で機械学習モデルをトレーニングできるようにする、有望な方法だ。 しかし、既存のFLソリューションは通常、クライアントが正直であると仮定しながら、モデルウェイトアグリゲータの集中アグリゲータに依存している。 データプライバシを保存しても、単一ポイント障害と悪意のあるクライアントからのデータ中毒攻撃の問題は未解決のままである。 この課題に取り組むために、ブロックチェーン上に構築されたセキュアで信頼性の高い分散連合学習システムflockを実現するために、分散台帳技術(dlt)を使うように提案する。 モデル品質を保証するため,新たなP2Pレビューと,オンチェーンスマートコントラクトによる悪意のあるクライアントの検出と検出を行う報酬/スラッシュ機構を設計する。 報酬/スラッシュ機構は、参加者がFLockシステムでモデルパラメータを正直にアップロードし、レビューするインセンティブとなる。 これにより、FLockは完全なP2P方式でFLシステムの性能と堅牢性を向上させる。

Federated learning (FL) is a promising way to allow multiple data owners (clients) to collaboratively train machine learning models without compromising data privacy. Yet, existing FL solutions usually rely on a centralized aggregator for model weight aggregation, while assuming clients are honest. Even if data privacy can still be preserved, the problem of single-point failure and data poisoning attack from malicious clients remains unresolved. To tackle this challenge, we propose to use distributed ledger technology (DLT) to achieve FLock, a secure and reliable decentralized Federated Learning system built on blockchain. To guarantee model quality, we design a novel peer-to-peer (P2P) review and reward/slash mechanism to detect and deter malicious clients, powered by on-chain smart contracts. The reward/slash mechanism, in addition, serves as incentives for participants to honestly upload and review model parameters in the FLock system. FLock thus improves the performance and the robustness of FL systems in a fully P2P manner.
翻訳日:2022-11-09 15:54:28 公開日:2022-11-05
# 材料発見を加速する人間とAIの共創を目指して

Toward Human-AI Co-creation to Accelerate Material Discovery ( http://arxiv.org/abs/2211.04257v1 )

ライセンス: Link先を確認
Dmitry Zubarev, Carlos Raoni Mendes, Emilio Vital Brazil, Renato Cerqueira, Kristin Schmidt, Vinicius Segura, Juliana Jansen Ferreira, Dan Sanders(参考訳) 気候変動や環境ハザード、持続可能エネルギーシステム、パンデミックなどの緊急問題に取り組むために、科学のより迅速な進歩を達成することの必要性が高まっています。 化学のような特定の分野において、科学的発見は実験段階に移る前に提案された新しい解のリスクを評価する余分な負担を負う。 これらの課題に対処するために、機械学習とAIの最近の進歩はいくつかあるが、エンド・ツー・エンドの発見アプリケーションをサポートする技術には依然としてギャップがある。 このようなアプリケーションは、大規模に複雑な知識管理を処理し、課題の専門家(SME)にとって、タイムリーかつ効率的な方法で知識の消費と生産を可能にする必要がある。 さらに, 新規機能性材料の発見は, 化学分野における探索戦略の発展に強く依存している。 例えば、生成モデルは物質ドメインにまたがる膨大な量の新規分子を生成する能力により、科学コミュニティ内で注目を集めている。 これらのモデルは、しばしば生成された候補の低い生存可能性に変換される極端な創造性を示す。 本研究では,人間とAIの共創が最初に発見するまでの時間を短縮することを目的としたワークベンチフレームワークを提案する。 このフレームワークは、知識を習得し、中小企業に助言するために、ドメインとプロセスの知識を持つ知識ベースとユーザーインタラクションコンポーネントに依存します。 現在、このフレームワークは、生成モデリング、データセットトリアージ、分子偏見、リスク評価の4つの主要なアクティビティをサポートしている。

There is an increasing need in our society to achieve faster advances in Science to tackle urgent problems, such as climate changes, environmental hazards, sustainable energy systems, pandemics, among others. In certain domains like chemistry, scientific discovery carries the extra burden of assessing risks of the proposed novel solutions before moving to the experimental stage. Despite several recent advances in Machine Learning and AI to address some of these challenges, there is still a gap in technologies to support end-to-end discovery applications, integrating the myriad of available technologies into a coherent, orchestrated, yet flexible discovery process. Such applications need to handle complex knowledge management at scale, enabling knowledge consumption and production in a timely and efficient way for subject matter experts (SMEs). Furthermore, the discovery of novel functional materials strongly relies on the development of exploration strategies in the chemical space. For instance, generative models have gained attention within the scientific community due to their ability to generate enormous volumes of novel molecules across material domains. These models exhibit extreme creativity that often translates in low viability of the generated candidates. In this work, we propose a workbench framework that aims at enabling the human-AI co-creation to reduce the time until the first discovery and the opportunity costs involved. This framework relies on a knowledge base with domain and process knowledge, and user-interaction components to acquire knowledge and advise the SMEs. Currently,the framework supports four main activities: generative modeling, dataset triage, molecule adjudication, and risk assessment.
翻訳日:2022-11-09 15:43:34 公開日:2022-11-05
# TinyMLのレビュー

A review of TinyML ( http://arxiv.org/abs/2211.04448v1 )

ライセンス: Link先を確認
Harsha Yelchuri, Rashmi R(参考訳) 現在のテクノロジーの世界では、機械学習の応用はユビキタスになりつつある。 エッジレベルで非常に低消費電力で安価な組み込みデバイスに機械学習アルゴリズムを組み込むことは、IoT(Internet of Things)とエッジコンピューティングの組み合わせによって可能になった。 結果を推定するために、従来の機械学習は膨大なリソースを必要とする。 TinyMLの組み込み機械学習の概念は、このような多様性を、通常のハイエンドアプローチからローエンドアプリケーションへと押し上げようとしている。 TinyMLは、組み込み(マイクロコントローラ駆動)システムにディープニューラルネットワークモデルをデプロイすることを中心とした機械学習、ソフトウェア、ハードウェアの統合において、急速に普及する学際的なトピックである。 TinyMLは、サーバの計算ではなく、分散エッジ推論と独立した意思決定で生き残る、新しいエッジレベルのサービスとアプリケーションを実現する。 本稿では、tinymlの方法論、tinymlがいくつかの特定の産業分野、その障害、今後の展望について検討する。

In this current technological world, the application of machine learning is becoming ubiquitous. Incorporating machine learning algorithms on extremely low-power and inexpensive embedded devices at the edge level is now possible due to the combination of the Internet of Things (IoT) and edge computing. To estimate an outcome, traditional machine learning demands vast amounts of resources. The TinyML concept for embedded machine learning attempts to push such diversity from usual high-end approaches to low-end applications. TinyML is a rapidly expanding interdisciplinary topic at the convergence of machine learning, software, and hardware centered on deploying deep neural network models on embedded (micro-controller-driven) systems. TinyML will pave the way for novel edge-level services and applications that survive on distributed edge inferring and independent decision-making rather than server computation. In this paper, we explore TinyML's methodology, how TinyML can benefit a few specific industrial fields, its obstacles, and its future scope.
翻訳日:2022-11-09 15:37:25 公開日:2022-11-05
# 納期推定のためのインダクティブグラフ変換器

Inductive Graph Transformer for Delivery Time Estimation ( http://arxiv.org/abs/2211.02863v1 )

ライセンス: Link先を確認
Xin Zhou, Jinglong Wang, Yong Liu, Xingyu Wu, Zhiqi Shen, Cyril Leung(参考訳) ユーザのeコマースプラットフォーム購入ページにおけるパッケージ配信の正確な推定時間を提供することは、購入決定と後購入体験において非常に重要である。 この問題は、従来の推定到着時刻(eta)と共通する問題を共有しているが、以下の点ではより困難である。 1)誘導推論。 未確認の小売業者及び住所の注文に対するETAの予測にはモデルが必要である。 2)順序意味情報の高次相互作用。 時空間的特徴とは別に、推定時間は小売業者の包装効率やこれらの要因の高次相互作用など他の要因と大きく異なる。 本稿では、生の特徴情報と構造グラフデータを利用してパッケージの配送時間を推定するインダクティブグラフ変換器(IGT)を提案する。 従来のグラフトランスフォーマーアーキテクチャとは異なり、IGTは分離パイプラインとトレーニングトランスフォーマーを回帰関数として採用し、グラフニューラルネットワーク(GNN)によって符号化された生の特徴と密埋め込みの両方から多重情報をキャプチャすることができる。 さらに、非線形活性化と学習可能な線形変換行列を取り除き、GNN構造をさらに単純化する。 単純化されたGNNにおけるパラメータ探索空間と線形情報伝搬により、IGTは大規模産業シナリオに適用できる。 実世界のロジスティクスデータセットを用いた実験により,提案モデルが納期推定の最先端手法を大幅に上回ることを示す。 ソースコードはhttps://github.com/enoche/igt-wsdm23。

Providing accurate estimated time of package delivery on users' purchasing pages for e-commerce platforms is of great importance to their purchasing decisions and post-purchase experiences. Although this problem shares some common issues with the conventional estimated time of arrival (ETA), it is more challenging with the following aspects: 1) Inductive inference. Models are required to predict ETA for orders with unseen retailers and addresses; 2) High-order interaction of order semantic information. Apart from the spatio-temporal features, the estimated time also varies greatly with other factors, such as the packaging efficiency of retailers, as well as the high-order interaction of these factors. In this paper, we propose an inductive graph transformer (IGT) that leverages raw feature information and structural graph data to estimate package delivery time. Different from previous graph transformer architectures, IGT adopts a decoupled pipeline and trains transformer as a regression function that can capture the multiplex information from both raw feature and dense embeddings encoded by a graph neural network (GNN). In addition, we further simplify the GNN structure by removing its non-linear activation and the learnable linear transformation matrix. The reduced parameter search space and linear information propagation in the simplified GNN enable the IGT to be applied in large-scale industrial scenarios. Experiments on real-world logistics datasets show that our proposed model can significantly outperform the state-of-the-art methods on estimation of delivery time. The source code is available at: https://github.com/enoche/IGT-WSDM23.
翻訳日:2022-11-08 19:18:33 公開日:2022-11-05
# 説明可能な医療詐欺検出のための教師なし機械学習

Unsupervised Machine Learning for Explainable Medicare Fraud Detection ( http://arxiv.org/abs/2211.02927v1 )

ライセンス: Link先を確認
Shubhranshu Shekhar, Jetson Leder-Luis, Leman Akoglu(参考訳) 連邦政府は医療に年間1兆ドル以上を費やしており、主に民間の第三者が提供し、政府から払い戻されている。 このシステムにおける大きな懸念は、より高い支払いを受けるために自分の主張を誤報するインセンティブに直面するプロバイダによる過大な請求、ムダ、詐欺である。 本稿では,高齢者と障害者に対する米国連邦政府の健康保険プログラムであるメディケアを超過するプロバイダを識別する新しい機械学習ツールを開発する。 大規模メディケアの請求データを用いて,入院患者の不正行為や転倒に伴うパターンを同定する。 提案手法は,ラベル付きトレーニングデータに依存しず,完全に教師なしであり,エンドユーザに説明可能であり,フラグ付きプロバイダの疑わしい行動に対する推論と解釈可能な洞察を提供する。 反詐欺訴訟に直面する提供者に関する司法省のデータと、いくつかのケーススタディは、我々のアプローチと発見を定量的かつ質的に検証している。

The US federal government spends more than a trillion dollars per year on health care, largely provided by private third parties and reimbursed by the government. A major concern in this system is overbilling, waste and fraud by providers, who face incentives to misreport on their claims in order to receive higher payments. In this paper, we develop novel machine learning tools to identify providers that overbill Medicare, the US federal health insurance program for elderly adults and the disabled. Using large-scale Medicare claims data, we identify patterns consistent with fraud or overbilling among inpatient hospitalizations. Our proposed approach for Medicare fraud detection is fully unsupervised, not relying on any labeled training data, and is explainable to end users, providing reasoning and interpretable insights into the potentially suspicious behavior of the flagged providers. Data from the Department of Justice on providers facing anti-fraud lawsuits and several case studies validate our approach and findings both quantitatively and qualitatively.
翻訳日:2022-11-08 19:18:10 公開日:2022-11-05
# 変分量子アルゴリズムのニューラルネットワークシミュレーションに向けて

Toward Neural Network Simulation of Variational Quantum Algorithms ( http://arxiv.org/abs/2211.02929v1 )

ライセンス: Link先を確認
Oliver Knitter, James Stokes, Shravan Veerapaneni(参考訳) 変分量子アルゴリズム(VQA)は、高次元線形代数の問題を確率的最適化の手法として再キャストするために、ハイブリッド量子古典アーキテクチャを利用する。 このタスクを加速するために、準長期の量子資源を活用するという約束にもかかわらず、完全に古典的なアルゴリズムに対するVQAの計算上の優位性は確立されていない。 例えば、変分量子固有解法(VQE)は高次元スパース線形作用素の低次固有度を近似するために開発されたが、変分モンテカルロ(VMC)の文献に類似の古典最適化アルゴリズムがあり、量子回路の代わりにニューラルネットワークを用いて量子状態を表現する。 本稿では、変分量子線形解法(VQLS)の例に着目し、古典確率最適化アルゴリズムを他のVQAと並列に構築できるかを問う。 このような構成はVQLSに適用でき、理論的には同様の形の他のVQAに拡張できるパラダイムが得られる。

Variational quantum algorithms (VQAs) utilize a hybrid quantum-classical architecture to recast problems of high-dimensional linear algebra as ones of stochastic optimization. Despite the promise of leveraging near- to intermediate-term quantum resources to accelerate this task, the computational advantage of VQAs over wholly classical algorithms has not been firmly established. For instance, while the variational quantum eigensolver (VQE) has been developed to approximate low-lying eigenmodes of high-dimensional sparse linear operators, analogous classical optimization algorithms exist in the variational Monte Carlo (VMC) literature, utilizing neural networks in place of quantum circuits to represent quantum states. In this paper we ask if classical stochastic optimization algorithms can be constructed paralleling other VQAs, focusing on the example of the variational quantum linear solver (VQLS). We find that such a construction can be applied to the VQLS, yielding a paradigm that could theoretically extend to other VQAs of similar form.
翻訳日:2022-11-08 19:17:54 公開日:2022-11-05
# 分散型エネルギーシステムにおける故障検出のための1次元畳み込みグラフ畳み込みネットワーク

1-D Convolutional Graph Convolutional Networks for Fault Detection in Distributed Energy Systems ( http://arxiv.org/abs/2211.02930v1 )

ライセンス: Link先を確認
Bang L.H. Nguyen, Tuyen Vu, Thai-Thanh Nguyen, Mayank Panwar and Rob Hovsapian(参考訳) 本稿では,マイクログリッドの故障検出のための1次元畳み込みグラフニューラルネットワークを提案する。 1次元畳み込みニューラルネットワーク(1D-CNN)とグラフ畳み込みニューラルネットワーク(GCN)の組み合わせは、マイクログリッド内の電圧測定から時空間相関を抽出するのに役立つ。 障害検出スキームには、障害イベント検出、障害タイプ及び位相分類、障害位置が含まれる。 これらのタスクを処理するための5つのニューラルネットワークモデルトレーニングがある。 転校学習と微調整は、トレーニング労力を減らすために適用される。 組み合わせたグラフ畳み込みニューラルネットワーク(1D-CGCN)は、ポツダム13バスマイクログリッドデータセット上の従来のANN構造と比較される。 達成可能な精度は99.27%、98.1%、98.75%、および95.6%である。

This paper presents a 1-D convolutional graph neural network for fault detection in microgrids. The combination of 1-D convolutional neural networks (1D-CNN) and graph convolutional networks (GCN) helps extract both spatial-temporal correlations from the voltage measurements in microgrids. The fault detection scheme includes fault event detection, fault type and phase classification, and fault location. There are five neural network model training to handle these tasks. Transfer learning and fine-tuning are applied to reduce training efforts. The combined recurrent graph convolutional neural networks (1D-CGCN) is compared with the traditional ANN structure on the Potsdam 13-bus microgrid dataset. The achievable accuracy of 99.27%, 98.1%, 98.75%, and 95.6% for fault detection, fault type classification, fault phase identification, and fault location respectively.
翻訳日:2022-11-08 19:17:35 公開日:2022-11-05
# ホログラフィック畳み込みニューラルネットワークによるタンパク質マイクロ環境の形状学習

Learning the shape of protein micro-environments with a holographic convolutional neural network ( http://arxiv.org/abs/2211.02936v1 )

ライセンス: Link先を確認
Michael N. Pun, Andrew Ivanov, Quinn Bellamy, Zachary Montague, Colin LaMont, Philip Bradley, Jakub Otwinowski, Armita Nourmohammad(参考訳) タンパク質は、免疫認識から脳活動まで生物学において中心的な役割を果たす。 機械学習の大きな進歩により、配列からタンパク質構造を予測する能力が向上したが、構造からタンパク質機能を決定することは大きな課題である。 本稿では,タンパク質構造におけるアミノ酸嗜好をモデル化するための,物理的に動機付けられた機械学習手法であるH-CNNを紹介する。 H-CNNはタンパク質構造における物理的相互作用を反映し、進化データに格納された機能情報を再カプセル化する。 H-CNNは、タンパク質複合体の安定性や結合を含むタンパク質機能に対する突然変異の影響を正確に予測する。 タンパク質構造関数マップの解釈可能な計算モデルにより,新規なタンパク質の設計が期待できる。

Proteins play a central role in biology from immune recognition to brain activity. While major advances in machine learning have improved our ability to predict protein structure from sequence, determining protein function from structure remains a major challenge. Here, we introduce Holographic Convolutional Neural Network (H-CNN) for proteins, which is a physically motivated machine learning approach to model amino acid preferences in protein structures. H-CNN reflects physical interactions in a protein structure and recapitulates the functional information stored in evolutionary data. H-CNN accurately predicts the impact of mutations on protein function, including stability and binding of protein complexes. Our interpretable computational model for protein structure-function maps could guide design of novel proteins with desired function.
翻訳日:2022-11-08 19:17:20 公開日:2022-11-05
# QAOAを用いた分類のための特徴選択

Feature Selection for Classification with QAOA ( http://arxiv.org/abs/2211.02861v1 )

ライセンス: Link先を確認
Gloria Turati, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) 特徴の選択は機械学習において非常に重要であり、分類、ランク付け、予測問題の次元性を減らすのに使うことができる。 冗長でノイズの多い機能を取り除くことで、トレーニングされたモデルの精度とスケーラビリティが向上する。 しかし、機能選択はコンビネータ的に増加する解空間を持つ計算コストの高いタスクである。 本研究では,量子近似最適化アルゴリズム (qaoa) が組合わせ最適化に既に採用している二次的特徴選択問題について考察する。 まずQUBOの定式化で特徴選択問題を表現し、イジングスピンハミルトニアンに写像する。 次に、このハミルトン的特徴の最適選択に対応する基底状態を求めることを目標としてQAOAを適用する。 実験では、最大21次元の7つの実世界データセットを検討し、量子シミュレータと小さなデータセットの両方でqaoaを実行し、7量子ビットibm(ibm-perth)量子コンピュータを動作させる。 選択した特徴の集合を用いて分類モデルを訓練し、その精度を評価する。 分析の結果,QAOAでは特徴選択の問題に対処でき,現在利用可能な量子デバイスを効果的に利用することができることがわかった。 将来の研究では、より広い範囲の分類モデルをテストするとともに、古典的なステップのためにより良いパフォーマンスのオプティマイザを探索することで、QAOAの有効性を向上させることができる。

Feature selection is of great importance in Machine Learning, where it can be used to reduce the dimensionality of classification, ranking and prediction problems. The removal of redundant and noisy features can improve both the accuracy and scalability of the trained models. However, feature selection is a computationally expensive task with a solution space that grows combinatorically. In this work, we consider in particular a quadratic feature selection problem that can be tackled with the Quantum Approximate Optimization Algorithm (QAOA), already employed in combinatorial optimization. First we represent the feature selection problem with the QUBO formulation, which is then mapped to an Ising spin Hamiltonian. Then we apply QAOA with the goal of finding the ground state of this Hamiltonian, which corresponds to the optimal selection of features. In our experiments, we consider seven different real-world datasets with dimensionality up to 21 and run QAOA on both a quantum simulator and, for small datasets, the 7-qubit IBM (ibm-perth) quantum computer. We use the set of selected features to train a classification model and evaluate its accuracy. Our analysis shows that it is possible to tackle the feature selection problem with QAOA and that currently available quantum devices can be used effectively. Future studies could test a wider range of classification models as well as improve the effectiveness of QAOA by exploring better performing optimizers for its classical step.
翻訳日:2022-11-08 19:06:51 公開日:2022-11-05
# 合成開口レーダ(SAR)データキューブを用いた高速地すべり検出のための深層学習

Deep Learning for Rapid Landslide Detection using Synthetic Aperture Radar (SAR) Datacubes ( http://arxiv.org/abs/2211.02869v1 )

ライセンス: Link先を確認
Vanessa Boehm, Wei Ji Leong, Ragini Bal Mahesh, Ioannis Prapas, Edoardo Nemni, Freddie Kalaitzis, Siddha Ganju, Raul Ramos-Pollan(参考訳) 気候変動が地すべり発生の可能性を高めると予測される中、緊急対応を知らせる迅速な地すべり検出技術の必要性が高まっている。 合成開口レーダ(英: Synthetic Aperture Radar、SAR)は、気象や照明条件によらず、影響を受ける地域を計測するリモートセンシング技術である。 しかし、SARの使用は前処理ステップに必要なドメイン知識によって妨げられ、その解釈には専門家の知識が必要である。 我々は、いくつかのSentinel-1衛星から得られた4つの地球規模の地すべりイベントに対して、単純化された機械学習可能なSARデータキューブを提供する。 本研究では,北海道データキューブを用いて,教師付き深層学習(dl)によるsarによる地すべり検出の可能性について検討した。 以上の結果から,SARデータからの地すべり検出にDLモデルを用いることで,精度-リコール曲線0.7を超えるエリアを達成できることが示唆された。 しかし,SARデータと地形情報を組み合わせたデジタル標高モデルでは早期検出が可能であることが判明した。 これは特に時間的緊急介入に有用である。 コードはhttps://github.com/iprapas/landslide-sar-unetで公開されている。

With climate change predicted to increase the likelihood of landslide events, there is a growing need for rapid landslide detection technologies that help inform emergency responses. Synthetic Aperture Radar (SAR) is a remote sensing technique that can provide measurements of affected areas independent of weather or lighting conditions. Usage of SAR, however, is hindered by domain knowledge that is necessary for the pre-processing steps and its interpretation requires expert knowledge. We provide simplified, pre-processed, machine-learning ready SAR datacubes for four globally located landslide events obtained from several Sentinel-1 satellite passes before and after a landslide triggering event together with segmentation maps of the landslides. From this dataset, using the Hokkaido, Japan datacube, we study the feasibility of SAR-based landslide detection with supervised deep learning (DL). Our results demonstrate that DL models can be used to detect landslides from SAR data, achieving an Area under the Precision-Recall curve exceeding 0.7. We find that additional satellite visits enhance detection performance, but that early detection is possible when SAR data is combined with terrain information from a digital elevation model. This can be especially useful for time-critical emergency interventions. Code is made publicly available at https://github.com/iprapas/landslide-sar-unet.
翻訳日:2022-11-08 18:58:07 公開日:2022-11-05
# 高速スケールフリーネットワークモデルによる多次元データセットのモデリング

Modeling Multi-Dimensional Datasets via a Fast Scale-Free Network Model ( http://arxiv.org/abs/2211.02811v1 )

ライセンス: Link先を確認
Shaojie Min, Ji Liu(参考訳) ネットワークデータセットと比較すると、近年は多次元データが一般的になっている。 多次元データセットを正確なネットワーク特性を持つネットワークにモデル化することができ、一方で、元のデータセットの特徴を保存できれば、データセットの動的性質を探索するだけでなく、豊富な合成ネットワークデータを取得することができる。 本稿では,ネットワーク領域に限定されない大規模多次元データに対する高速スケールフリーネットワークモデルを提案する。 提案するネットワークモデルは動的であり,モデルデータセットのスケールやフィールドに関わらず,線形時間内でスケールフリーグラフを生成することができる。 さらに,エッジジェネレーション確率が影響を表わす動的ネットワークでは,ネットワークが進化するにつれてその影響も減衰する,と論じた。 この影響減衰現象がモデルにどのように反映されているかを実証し,グローバルテロリズムデータベースを用いて事例研究を行った。

Compared with network datasets, multi-dimensional data are much more common nowadays. If we can model multi-dimensional datasets into networks with accurate network properties, while, in the meantime, preserving the original dataset features, we can not only explore the dataset dynamic but also acquire abundant synthetic network data. This paper proposed a fast scale-free network model for large-scale multi-dimensional data not limited to the network domain. The proposed network model is dynamic and able to generate scale-free graphs within linear time regardless of the scale or field of the modeled dataset. We further argued that in a dynamic network where edge-generation probability represents influence, as the network evolves, that influence also decays. We demonstrated how this influence decay phenomenon is reflected in our model and provided a case study using the Global Terrorism Database.
翻訳日:2022-11-08 18:50:35 公開日:2022-11-05
# インフルエンザaウイルス遺伝子ネットワークの効率的なキャビティ探索

Efficient Cavity Searching for Gene Network of Influenza A Virus ( http://arxiv.org/abs/2211.02935v1 )

ライセンス: Link先を確認
Junjie Li, Jietong Zhao, Yanqing Su, Jiahao Shen, Yaohua Liu, Xinyue Fan, Zheng Kou(参考訳) インフルエンザaウイルスの遺伝子ネットワークの高次構造(キャビティとクライク)は、進化の間にウイルス間の密接な関連を示し、ウイルスのクロス種感染を示唆し、パンデミックを引き起こす重要なシグナルである。 ウイルス遺伝子の動的変化を検出する指標として、これらの高次構造はウイルス学の分野における注目の焦点となっている。 しかし、ウイルス遺伝子ネットワークのサイズは通常巨大であり、ネットワーク内のこれらの構造を探索することは許容できない遅延を引き起こす。 本稿では,この問題を緩和するために,インフルエンザウイルス遺伝学の計算可能な複雑なネットワークにおいて,深層学習によるキャビティ検索に基づく,シンプルかつ効果的なHyperSearchモデルを提案する。 一般のインフルエンザウイルスデータセット上で実施された大規模な実験は、詳細なモデル作成なしに、他の高度なディープラーニング手法よりもHyperSearchの有効性を実証している。 さらに、hypersearchは数分で検索を完了でき、0-1プログラミングは数日かかる。 提案手法は他の複雑なネットワークに簡単に移行できるため、HyperSearchはウイルス遺伝子の動的変化のモニタリングを容易にし、ヒトがウイルス突然変異のペースに追随するのに役立つ可能性がある。

High order structures (cavities and cliques) of the gene network of influenza A virus reveal tight associations among viruses during evolution and are key signals that indicate viral cross-species infection and cause pandemics. As indicators for sensing the dynamic changes of viral genes, these higher order structures have been the focus of attention in the field of virology. However, the size of the viral gene network is usually huge, and searching these structures in the networks introduces unacceptable delay. To mitigate this issue, in this paper, we propose a simple-yet-effective model named HyperSearch based on deep learning to search cavities in a computable complex network for influenza virus genetics. Extensive experiments conducted on a public influenza virus dataset demonstrate the effectiveness of HyperSearch over other advanced deep-learning methods without any elaborated model crafting. Moreover, HyperSearch can finish the search works in minutes while 0-1 programming takes days. Since the proposed method is simple and easy to be transferred to other complex networks, HyperSearch has the potential to facilitate the monitoring of dynamic changes in viral genes and help humans keep up with the pace of virus mutations.
翻訳日:2022-11-08 18:50:22 公開日:2022-11-05
# 数値的直観的ファジィ情報を用いた複数属性群決定のための累積プロスペクト理論に基づく修正EDAS法

Modified EDAS Method Based on Cumulative Prospect Theory for Multiple Attributes Group Decision Making with Interval-valued Intuitionistic Fuzzy Information ( http://arxiv.org/abs/2211.02806v1 )

ライセンス: Link先を確認
Jing Wang, Qiang Cai, Guiwu Wei, Ningna Liao(参考訳) 直観的ファジィ集合に基づく区間値直観的ファジィ集合(ivifss)は、その研究において古典的な決定法を結合し、応用が注目されている。 比較分析の後、ivifss情報を含む複数の古典的手法が多くの実用的問題に適用されている。 本稿では,IVIFSにおける意思決定者(DM)の心理的要因を考慮した累積予測理論(CPT)に基づく古典的EDAS法を拡張した。 ivifss法(ivif-cpt-mabac法)に基づくオリジナルのedas法は、ivifss法(ivif-cpt-mabac法)の曖昧な特徴と心理的嗜好を考慮に入れ、magdm問題のために構築されている。 一方,属性重みの評価には情報エントロピー法が用いられる。 最後に、グリーン・テクノロジー・ベンチャー・キャピタルのプロジェクト選択の数値的な例を挙げ、IVIF-CPT-MABAC法の利点を説明するためにいくつかの比較を行い、新しい手法の有効性と安定性を証明するためにいくつかの比較分析と感度分析を適用した。

The Interval-valued intuitionistic fuzzy sets (IVIFSs) based on the intuitionistic fuzzy sets combines the classical decision method is in its research and application is attracting attention. After comparative analysis, there are multiple classical methods with IVIFSs information have been applied into many practical issues. In this paper, we extended the classical EDAS method based on cumulative prospect theory (CPT) considering the decision makers (DMs) psychological factor under IVIFSs. Taking the fuzzy and uncertain character of the IVIFSs and the psychological preference into consideration, the original EDAS method based on the CPT under IVIFSs (IVIF-CPT-MABAC) method is built for MAGDM issues. Meanwhile, information entropy method is used to evaluate the attribute weight. Finally, a numerical example for project selection of green technology venture capital has been given and some comparisons is used to illustrate advantages of IVIF-CPT-MABAC method and some comparison analysis and sensitivity analysis are applied to prove this new methods effectiveness and stability.
翻訳日:2022-11-08 18:42:53 公開日:2022-11-05
# ビットレベル深層学習に基づくMIMO CSIフィードバックのための量子化アダプタ

Quantization Adaptor for Bit-Level Deep Learning-Based Massive MIMO CSI Feedback ( http://arxiv.org/abs/2211.02937v1 )

ライセンス: Link先を確認
Xudong Zhang, Zhilin Lu, Rui Zeng and Jintao Wang(参考訳) 大規模なマルチインプット多重出力(MIMO)システムでは、ユーザ機器(UE)は、以下のビームフォーミングのためにチャネル状態情報(CSI)を基地局(BS)に返送する必要がある。 しかし、大規模なMIMOシステムにおける大規模なアンテナは、大きなフィードバックオーバーヘッドを引き起こす。 深層学習(DL)に基づく手法は、UEでCSIを圧縮し、BSで回復し、フィードバックコストを大幅に削減することができる。 しかし、圧縮csiは送信のためにビットストリームに量子化されなければならない。 本稿では,ビットレベルDLベースのCSIフィードバックに対する適応型量子化手法を提案する。 まず,ネットワーク支援適応器と高度トレーニングスキームの設計を行い,量子化と再構成の精度を適応的に向上させる。 さらに,データ流通に関する専門家の知識を紹介するとともに,プラグイン可能でコストフリーなアダプタスキームを提案する。 実験により, 最新のフィードバック量子化法と比較して, この適応型量子化戦略は, 高い量子化精度と再構成性能を, 少ない, または全くのコストで達成できることがわかった。 オープンソースコードはhttps://github.com/zhangxd18/qcrnetで入手できる。

In massive multiple-input multiple-output (MIMO) systems, the user equipment (UE) needs to feed the channel state information (CSI) back to the base station (BS) for the following beamforming. But the large scale of antennas in massive MIMO systems causes huge feedback overhead. Deep learning (DL) based methods can compress the CSI at the UE and recover it at the BS, which reduces the feedback cost significantly. But the compressed CSI must be quantized into bit streams for transmission. In this paper, we propose an adaptor-assisted quantization strategy for bit-level DL-based CSI feedback. First, we design a network-aided adaptor and an advanced training scheme to adaptively improve the quantization and reconstruction accuracy. Moreover, for easy practical employment, we introduce the expert knowledge of data distribution and propose a pluggable and cost-free adaptor scheme. Experiments show that compared with the state-of-the-art feedback quantization method, this adaptor-aided quantization strategy can achieve better quantization accuracy and reconstruction performance with less or no additional cost. The open-source codes are available at https://github.com/zhangxd18/QCRNet.
翻訳日:2022-11-08 18:42:33 公開日:2022-11-05
# Paired Inverse Pyramid StructureとDense MLP Blockに基づく効果的な音声分類網

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block ( http://arxiv.org/abs/2211.02940v1 )

ライセンス: Link先を確認
Yunhao Chen, Yunjie Zhu, Zihui Yan and Lifang Chen(参考訳) 近年,畳み込みニューラルネットワーク(CNN)と自己認識機構に基づく大規模アーキテクチャが,音声分類に必要となっている。 これらのテクニックは最先端技術であるが、これらの作業の有効性は、膨大な計算コストとパラメータ、大量のデータ拡張、大規模なデータセットからの転送などによってのみ保証される。 本稿では,音声の軽量性を活用することで,ペア化逆ピラミッド構造(pip)とペア化逆ピラミッド構造mlpネットワーク(pipmn)と呼ばれる効率的なネットワーク構造を提案する。 pipmnは、urbansound8kデータセットにおける環境音分類(esc)精度の96\%、gtaznデータセット上の音楽ジャンル分類(mgc)の93.2\%に到達し、パラメータはわずか100万である。 両方の結果はデータ拡張やモデル転送なしで達成されます。 公開コードはhttps://github.com/jnaic/pipmn。

Recently, massive architectures based on Convolutional Neural Network (CNN) and self-attention mechanisms have become necessary for audio classification. While these techniques are state-of-the-art, these works' effectiveness can only be guaranteed with huge computational costs and parameters, large amounts of data augmentation, transfer from large datasets and some other tricks. By utilizing the lightweight nature of audio, we propose an efficient network structure called Paired Inverse Pyramid Structure (PIP) and a network called Paired Inverse Pyramid Structure MLP Network (PIPMN). The PIPMN reaches 96\% of Environmental Sound Classification (ESC) accuracy on the UrbanSound8K dataset and 93.2\% of Music Genre Classification (MGC) on the GTAZN dataset, with only 1 million parameters. Both of the results are achieved without data augmentation or model transfer. Public code is available at: https://github.com/JNAIC/PIPMN
翻訳日:2022-11-08 18:42:12 公開日:2022-11-05
# esknet-an enhanced adaptive selection kernel convolution for breast tumors segmentation

ESKNet-An enhanced adaptive selection kernel convolution for breast tumors segmentation ( http://arxiv.org/abs/2211.02915v1 )

ライセンス: Link先を確認
Gongping Chen, Jianxun Zhang, Yuming Liu, Jingjing Yin, Xiaotao Yin, Liang Cui, Yu Dai(参考訳) 乳がんは女性の健康を危険にさらす一般的ながんの1つである。 早期臨床介入と術後経過観察には,正確なターゲット病変の分節が不可欠である。 近年,多くの畳み込みニューラルネットワーク (CNN) が超音波画像から乳腺腫瘍を分離するために提案されている。 しかし, 複雑な超音波像と異型腫瘍の形状と大きさは, 乳腺病変の正確な分画に困難をもたらす。 選択的核畳み込みに動機づけられ,複数の特徴マップ領域表現を統合し,これらの特徴マップ領域の重みをチャネルと空間次元から適応的に再調整する,乳腺腫瘍分割のための選択的核畳み込みの強化について紹介する。 この領域再調整戦略により、ネットワークは高分配領域の特徴に集中し、より有用でない領域の摂動を緩和できる。 最後に、拡張された選択的カーネル畳み込みをu-netに統合し、乳腺腫瘍のロバストな表現を適応的にキャプチャする。 3つの公衆乳房超音波データセットにおける12の最先端ディープラーニングセグメンテーション法を用いた広範囲な実験により,乳房超音波画像におけるより競争力の高いセグメンテーション性能を示す。

Breast cancer is one of the common cancers that endanger the health of women globally. Accurate target lesion segmentation is essential for early clinical intervention and postoperative follow-up. Recently, many convolutional neural networks (CNNs) have been proposed to segment breast tumors from ultrasound images. However, the complex ultrasound pattern and the variable tumor shape and size bring challenges to the accurate segmentation of the breast lesion. Motivated by the selective kernel convolution, we introduce an enhanced selective kernel convolution for breast tumor segmentation, which integrates multiple feature map region representations and adaptively recalibrates the weights of these feature map regions from the channel and spatial dimensions. This region recalibration strategy enables the network to focus more on high-contributing region features and mitigate the perturbation of less useful regions. Finally, the enhanced selective kernel convolution is integrated into U-net with deep supervision constraints to adaptively capture the robust representation of breast tumors. Extensive experiments with twelve state-of-the-art deep learning segmentation methods on three public breast ultrasound datasets demonstrate that our method has a more competitive segmentation performance in breast ultrasound images.
翻訳日:2022-11-08 18:24:44 公開日:2022-11-05
# Mixture-Net: スペクトル画像復元のための混合モデルに先立つ低域深部画像

Mixture-Net: Low-Rank Deep Image Prior Inspired by Mixture Models for Spectral Image Recovery ( http://arxiv.org/abs/2211.02973v1 )

ライセンス: Link先を確認
Tatiana Gelvez-Barrera, Jorge Bacca, Henry Arguello(参考訳) 本稿では,非データ駆動型ディープニューラルネットワークによるノイズ除去,単一ハイパースペクトル像超解像,圧縮スペクトル画像再構成などのスペクトル画像復元問題を提案する。 従来の手法とは異なり、Mixture-Netと呼ばれる提案手法はネットワークを通じて事前情報を暗黙的に学習する。 Mixture-Netは、線形および非線形の低ランク混合モデルにインスパイアされた層からなる深層生成モデルで構成され、回収された画像は、線形と非線形の分解の間の重み付き和で構成されている。 Mixture-Netはまた、スペクトル画像量とエンドメンバーとして解釈された低ランクの分解を提供し、追加ルーチンを実行せずにリモートセンシングタスクを達成するのに役立つ。 実験では,アーキテクチャ解釈の利点を生かして,リカバリ品質において最先端手法を上回るミキサーネットの有効性を示す。

This paper proposes a non-data-driven deep neural network for spectral image recovery problems such as denoising, single hyperspectral image super-resolution, and compressive spectral imaging reconstruction. Unlike previous methods, the proposed approach, dubbed Mixture-Net, implicitly learns the prior information through the network. Mixture-Net consists of a deep generative model whose layers are inspired by the linear and non-linear low-rank mixture models, where the recovered image is composed of a weighted sum between the linear and non-linear decomposition. Mixture-Net also provides a low-rank decomposition interpreted as the spectral image abundances and endmembers, helpful in achieving remote sensing tasks without running additional routines. The experiments show the MixtureNet effectiveness outperforming state-of-the-art methods in recovery quality with the advantage of architecture interpretability.
翻訳日:2022-11-08 18:24:22 公開日:2022-11-05
# 人間ビデオによる実世界における織物マニピュレーションの学習

Learning Fabric Manipulation in the Real World with Human Videos ( http://arxiv.org/abs/2211.02832v1 )

ライセンス: Link先を確認
Robert Lee, Jad Abou-Chakra, Fangyi Zhang, Peter Corke(参考訳) 布地操作は、巨大な状態空間と複雑なダイナミクスのため、ロボット工学における長年の課題である。 学習アプローチは、データから直接行動を学ぶことができるので、このドメインにとって有望である。 しかし、ほとんどの以前の方法はシミュレーションに大きく依存しており、変形可能なオブジェクトの大きなsim-to-realギャップや、大きなデータセットに依存している。 有望な代替手段は、人間がタスクを実行するのを見て直接布地操作を学ぶことである。 本研究では,ファブリック操作タスクのデモを人手で直接収集し,極めて自然で高速なデータ収集パイプラインを提供する方法について検討する。 そして,このようなデモをほんの少しだけ使って,サンプル効率の良いピック・アンド・プレース・ポリシーを実ロボットに学習し,ロボットのデータ収集をまったく必要とせずに展開する方法を示す。 ファブリック折り畳み作業に対する我々のアプローチを実証し、初期構成から折り畳み状態に確実に到達できることを示します。

Fabric manipulation is a long-standing challenge in robotics due to the enormous state space and complex dynamics. Learning approaches stand out as promising for this domain as they allow us to learn behaviours directly from data. Most prior methods however rely heavily on simulation, which is still limited by the large sim-to-real gap of deformable objects or rely on large datasets. A promising alternative is to learn fabric manipulation directly from watching humans perform the task. In this work, we explore how demonstrations for fabric manipulation tasks can be collected directly by human hands, providing an extremely natural and fast data collection pipeline. Then, using only a handful of such demonstrations, we show how a sample-efficient pick-and-place policy can be learned and deployed on a real robot, without any robot data collection at all. We demonstrate our approach on a fabric folding task, showing that our policy can reliably reach folded states from crumpled initial configurations.
翻訳日:2022-11-08 18:16:10 公開日:2022-11-05
# LAMASSU:ニューラルトランスデューサを用いた言語非依存多言語音声認識と翻訳

LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers ( http://arxiv.org/abs/2211.02809v1 )

ライセンス: Link先を確認
Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li(参考訳) 自動音声認識(ASR)と音声翻訳(ST)のエンドツーエンドの定式化により,多言語ASRと多言語STの両方に単一モデルを使用することが容易になり,本論文では,ニューラルトランスデューサ(LAMASSU)を用いた,ストリーミング言語に依存しない多言語音声認識と翻訳を提案する。 LAMASSUにおける多言語テキスト生成を実現するために,特定予測と統一予測の系統的比較を行った。 共有エンコーダを実質的に上回る言語非依存の多言語エンコーダを活用する。 LAMASSUを強化するために,エンコーダにターゲットLIDを供給することを提案する。 また,コネクショニストの時間的分類規則をトランスデューサ訓練に適用する。 実験の結果, LAMASSUはモデルサイズを大幅に削減するだけでなく, モノリンガルASRおよびバイリンガルSTモデルよりも優れていた。

End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual speech recognition and translation using neural transducers (LAMASSU). To enable multilingual text generation in LAMASSU, we conduct a systematic comparison between specified and unified prediction and joint networks. We leverage a language-agnostic multilingual encoder that substantially outperforms shared encoders. To enhance LAMASSU, we propose to feed target LID to encoders. We also apply connectionist temporal classification regularization to transducer training. Experimental results show that LAMASSU not only drastically reduces the model size but also outperforms monolingual ASR and bilingual ST models.
翻訳日:2022-11-08 18:13:52 公開日:2022-11-05
# ロボットの基本:表現、回転、速度

Robot Basics: Representation, Rotation and Velocity ( http://arxiv.org/abs/2211.02786v1 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) 本稿では,読者のためのロボットの基礎について紹介する。 ロボット表現、ロボット回転運動、座標変換、速度変換など、古典的なロボット工学の主要なトピックが紹介される。 現在までに、古典的な剛体ロボット分析は、ロボット制御と運動計画における主流のアプローチである。 この記事では、データ駆動や機械学習に基づく手法は導入しない。 この記事で取り上げている資料のほとんどは、読者が高校や大学の物理学コースで学んだであろう剛体運動学に基づいている。 一方、これらの古典的なロボットキネマティクス分析は、現代ロボット研究における最新のインテリジェントロボット制御アルゴリズムの基礎となる。

In this article, we plan to provide an introduction about some basics about robots for readers. Several key topics of classic robotics will be introduced, including robot representation, robot rotational motion, coordinates transformation and velocity transformation. By now, classic rigid-body robot analysis is still the main-stream approach in robot controlling and motion planning. In this article, no data-driven or machine learning based methods will be introduced. Most of the materials covered in this article are based on the rigid-body kinematics that the readers probably have learned from the physics course at high-school or college. Meanwhile, these classic robot kinematics analyses will serve as the foundation for the latest intelligent robot control algorithms in modern robotics studies.
翻訳日:2022-11-08 18:04:33 公開日:2022-11-05
# 時系列を支配する常微分方程式の発見

Discovering ordinary differential equations that govern time-series ( http://arxiv.org/abs/2211.02830v1 )

ライセンス: Link先を確認
S\"oren Becker, Michal Klein, Alexander Neitz, Giambattista Parascandolo, Niki Kilbertus(参考訳) 自然法則はしばしば微分方程式を通して記述されるが、観測データに基づく法則を記述する微分方程式は難しいが、ほとんどの場合手作業である。 本稿では,このプロセスの自動化に向けて一歩進める: ODEの単一観測解の時系列データから,スカラー自律常微分方程式(ODE)をシンボリック形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンスモデルを提案する。 提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たに観測された解の法則を推測することができる。 次に,本モデルがODEの正確なシンボル回復,特により複雑な表現において,様々なテストケースにおける既存手法と同等あるいは同等に動作することを示す。

Natural laws are often described through differential equations yet finding a differential equation that describes the governing law underlying observed data is a challenging and still mostly manual task. In this paper we make a step towards the automation of this process: we propose a transformer-based sequence-to-sequence model that recovers scalar autonomous ordinary differential equations (ODEs) in symbolic form from time-series data of a single observed solution of the ODE. Our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing laws of a new observed solution in a few forward passes of the model. Then we show that our model performs better or on par with existing methods in various test cases in terms of accurate symbolic recovery of the ODE, especially for more complex expressions.
翻訳日:2022-11-08 17:58:36 公開日:2022-11-05
# 光通信用半導体レーザの予測保守のための機械学習フレームワーク

A Machine Learning-based Framework for Predictive Maintenance of Semiconductor Laser for Optical Communication ( http://arxiv.org/abs/2211.02842v1 )

ライセンス: Link先を確認
Khouloud Abdelli, Helmut Griesser, and Stephan Pachnicke(参考訳) 光通信システムの重要成分の一つである半導体レーザーは、高速、低消費電力、小型化など、次世代光ネットワークの要求を満たすために急速に進化してきた。 しかし、これらの要求は半導体レーザの信頼性に深刻な課題をもたらした。 そのため、その改善と信頼性の高い伝送の確保に多大な注意が払われている。 本稿では,半導体レーザのリアルタイムヒースモニタリングと予後予測のための機械学習技術を用いた予測保守フレームワークを提案し,信頼性を向上する。 提案手法は以下の3段階からなる。 一 リアルタイムの性能劣化予測 二 劣化検出、及び 三 有益生命(rul)予測の継続 まず、性能劣化のリアルタイム予測に注意に基づくゲート再帰単位(GRU)モデルを採用する。 そして、予測した劣化性能値から、畳み込みオートエンコーダを用いてレーザの劣化または異常挙動を検出する。 異常が検出されると、注意に基づく深層学習に基づくRUL予測モデルを利用する。 その後、推定RULは、意思決定と保守計画のために入力される。 提案手法は, 半導体波長可変レーザの加速時効試験から得られた実験データを用いて検証した。 提案手法は,小さな根平均二乗誤差(RMSE)0.01,優れた異常検出精度94.24%,既存のMLベースのレーザRUL予測モデルよりも優れたRUL推定能力を有する,非常に優れた劣化性能予測能力を実現する。

Semiconductor lasers, one of the key components for optical communication systems, have been rapidly evolving to meet the requirements of next generation optical networks with respect to high speed, low power consumption, small form factor etc. However, these demands have brought severe challenges to the semiconductor laser reliability. Therefore, a great deal of attention has been devoted to improving it and thereby ensuring reliable transmission. In this paper, a predictive maintenance framework using machine learning techniques is proposed for real-time heath monitoring and prognosis of semiconductor laser and thus enhancing its reliability. The proposed approach is composed of three stages: i) real-time performance degradation prediction, ii) degradation detection, and iii) remaining useful life (RUL) prediction. First of all, an attention based gated recurrent unit (GRU) model is adopted for real-time prediction of performance degradation. Then, a convolutional autoencoder is used to detect the degradation or abnormal behavior of a laser, given the predicted degradation performance values. Once an abnormal state is detected, a RUL prediction model based on attention-based deep learning is utilized. Afterwards, the estimated RUL is input for decision making and maintenance planning. The proposed framework is validated using experimental data derived from accelerated aging tests conducted for semiconductor tunable lasers. The proposed approach achieves a very good degradation performance prediction capability with a small root mean square error (RMSE) of 0.01, a good anomaly detection accuracy of 94.24% and a better RUL estimation capability compared to the existing ML-based laser RUL prediction models.
翻訳日:2022-11-08 17:58:22 公開日:2022-11-05
# グラフ共変量シフトの逆因果拡張

Adversarial Causal Augmentation for Graph Covariate Shift ( http://arxiv.org/abs/2211.02843v1 )

ライセンス: Link先を確認
Yongduo Sui, Xiang Wang, Jiancan Wu, An Zhang, Xiangnan He(参考訳) グラフのアウト・オブ・ディストリビューション(ood)一般化は広く注目を集めている。 しかし、既存の取り組みは主に相関シフトのOOD問題に焦点を当てている。 別のタイプの共変量シフトは、ほとんど探索されていないが、この研究の焦点である。 データ生成の観点からは、因果的特徴はデータの安定したサブ構造であり、OOD一般化において重要な役割を果たす。 相補的な部分、環境は不安定な特徴であり、しばしば様々な分布シフトを引き起こす。 相関シフトは環境とラベルの間の急激な統計的相関を確立する。 対照的に、共変量シフトはテストデータに見えない環境特性が存在することを意味する。 グラフ不変学習とデータ拡張の既存の戦略は、限られた環境や不安定な因果的特徴に悩まされており、共変量シフトにおける一般化能力を著しく制限している。 そこで我々は,共変量シフトを軽減するために,新たなグラフ拡張戦略であるAdvCAを提案する。 具体的には、さまざまな環境分布を探索するためにデータを逆向きに拡張する。 一方、多様な環境にまたがる因果的特徴は不変である。 因果的特徴のばらつきを確保しつつ環境多様性を維持し、これにより共変量シフトを効果的に緩和する。 詳細な分析による大規模な実験結果から、AdvCAは様々な共変量シフトを持つ合成および実世界のデータセットで14のベースラインを上回り得ることが示された。

Out-of-distribution (OOD) generalization on graphs is drawing widespread attention. However, existing efforts mainly focus on the OOD issue of correlation shift. While another type, covariate shift, remains largely unexplored but is the focus of this work. From a data generation view, causal features are stable substructures in data, which play key roles in OOD generalization. While their complementary parts, environments, are unstable features that often lead to various distribution shifts. Correlation shift establishes spurious statistical correlations between environments and labels. In contrast, covariate shift means that there exist unseen environmental features in test data. Existing strategies of graph invariant learning and data augmentation suffer from limited environments or unstable causal features, which greatly limits their generalization ability on covariate shift. In view of that, we propose a novel graph augmentation strategy: Adversarial Causal Augmentation (AdvCA), to alleviate the covariate shift. Specifically, it adversarially augments the data to explore diverse distributions of the environments. Meanwhile, it keeps the causal features invariant across diverse environments. It maintains the environmental diversity while ensuring the invariance of the causal features, thereby effectively alleviating the covariate shift. Extensive experimental results with in-depth analyses demonstrate that AdvCA can outperform 14 baselines on synthetic and real-world datasets with various covariate shifts.
翻訳日:2022-11-08 17:57:58 公開日:2022-11-05
# 条件変分オートエンコーダを用いた半導体レーザの劣化予測

Degradation Prediction of Semiconductor Lasers using Conditional Variational Autoencoder ( http://arxiv.org/abs/2211.02847v1 )

ライセンス: Link先を確認
Khouloud Abdelli, Helmut Griesser, Christian Neumeyr, Robert Hohenleitner, and Stephan Pachnicke(参考訳) 半導体レーザーは、次世代光ネットワークの要求に応えるために急速に進化している。 これにより、半導体レーザーの寿命を制限する劣化機構(例えば突然劣化)に支配されるレーザーの信頼性に対するより厳しい要求が課される。 物理に基づくアプローチは、分解の挙動を解析的に特徴づけるためにしばしば用いられるが、明示的なドメイン知識と正確な数学的モデルが必要である。 このようなモデルの構築は、様々な操作条件下での劣化を引き起こす複雑な物理過程の完全な理解が欠如しているため、非常に難しい。 上記の制約を克服するため,我々は運用監視データから有用な知見を抽出し,特定の知識や物理モデルを用いることなく劣化傾向を予測する新しいデータ駆動手法を提案する。 提案手法は,無教師法,条件変動オートエンコーダを用い,垂直キャビティ面発光レーザ(vcsel)と波長可変面発光レーザ信頼性データを用いて検証する。 実験結果から 我々のモデルが i)F1スコア95.3%を得ることにより、優れた劣化予測と一般化性能を実現する。 (ii)いくつかのベースラインMLに基づく異常検出技術、及び (iii)試験終了前に故障した装置を早期に予測して老化試験を短縮し、コストの削減を図ること。

Semiconductor lasers have been rapidly evolving to meet the demands of next-generation optical networks. This imposes much more stringent requirements on the laser reliability, which are dominated by degradation mechanisms (e.g., sudden degradation) limiting the semiconductor laser lifetime. Physics-based approaches are often used to characterize the degradation behavior analytically, yet explicit domain knowledge and accurate mathematical models are required. Building such models can be very challenging due to a lack of a full understanding of the complex physical processes inducing the degradation under various operating conditions. To overcome the aforementioned limitations, we propose a new data-driven approach, extracting useful insights from the operational monitored data to predict the degradation trend without requiring any specific knowledge or using any physical model. The proposed approach is based on an unsupervised technique, a conditional variational autoencoder, and validated using vertical-cavity surface-emitting laser (VCSEL) and tunable edge emitting laser reliability data. The experimental results confirm that our model (i) achieves a good degradation prediction and generalization performance by yielding an F1 score of 95.3%, (ii) outperforms several baseline ML based anomaly detection techniques, and (iii) helps to shorten the aging tests by early predicting the failed devices before the end of the test and thereby saving costs
翻訳日:2022-11-08 17:57:37 公開日:2022-11-05
# 臨床音声データの条件付生成増強のための改良技術

Improved Techniques for the Conditional Generative Augmentation of Clinical Audio Data ( http://arxiv.org/abs/2211.02874v1 )

ライセンス: Link先を確認
Mane Margaryan, Matthias Seibold, Indu Joshi, Mazda Farshad, Philipp F\"urnstahl, Nassir Navab(参考訳) データ拡張は、データ制限を克服し、トレーニングプロセスを安定化するために、ディープラーニングシステムの設計に有用なツールである。 特に、患者データへのアクセスが限られているため、大規模データセットの収集が困難で高価である医療領域では、関連する環境、厳格な規制、コミュニティによって調整された大規模公開データセット、事前訓練されたモデル、高度なデータ拡張手法が、患者ケアを改善するための信頼性の高いシステムを開発する主な要因となっている。 しかし, 医療用音響センシングシステムの開発, 研究の新たな分野として, 大規模公開データセットや事前学習モデルが欠落している。 限られたデータの問題に対処するために,情報源データセットの学習データ分布からメル・スペクトログラムを合成できる条件付き生成逆ニューラルネットワークに基づく拡張法を提案する。 前述した完全畳み込みモデルとは対照的に、提案モデルはジェネレータアーキテクチャにおいて残留スクイーズと励磁モジュールを実装している。 本手法は, 従来の音声拡張手法と, 生成したサンプル品質と, 拡張データセット上で訓練された分類器に対するマクロf1-scoreの2.84%の性能向上により, 従来の作業に関連して1.14\$$$向上することを示す。 中間特徴空間の相関を解析することにより,残留スクイーズと励磁モジュールが潜在特徴の冗長性を減少させるのに役立つことを示す。 そこで,提案モデルでは,臨床音声データの強化と,臨床音響センシングシステムの設計のためのデータボトルネックの改善が期待できる。

Data augmentation is a valuable tool for the design of deep learning systems to overcome data limitations and stabilize the training process. Especially in the medical domain, where the collection of large-scale data sets is challenging and expensive due to limited access to patient data, relevant environments, as well as strict regulations, community-curated large-scale public datasets, pretrained models, and advanced data augmentation methods are the main factors for developing reliable systems to improve patient care. However, for the development of medical acoustic sensing systems, an emerging field of research, the community lacks large-scale publicly available data sets and pretrained models. To address the problem of limited data, we propose a conditional generative adversarial neural network-based augmentation method which is able to synthesize mel spectrograms from a learned data distribution of a source data set. In contrast to previously proposed fully convolutional models, the proposed model implements residual Squeeze and Excitation modules in the generator architecture. We show that our method outperforms all classical audio augmentation techniques and previously published generative methods in terms of generated sample quality and a performance improvement of 2.84% of Macro F1-Score for a classifier trained on the augmented data set, an enhancement of $1.14\%$ in relation to previous work. By analyzing the correlation of intermediate feature spaces, we show that the residual Squeeze and Excitation modules help the model to reduce redundancy in the latent features. Therefore, the proposed model advances the state-of-the-art in the augmentation of clinical audio data and improves the data bottleneck for the design of clinical acoustic sensing systems.
翻訳日:2022-11-08 17:57:17 公開日:2022-11-05
# 表データのための小型言語モデル

Small Language Models for Tabular Data ( http://arxiv.org/abs/2211.02941v1 )

ライセンス: Link先を確認
Benjamin L. Badger(参考訳) 教師付きディープラーニングは、大きくて、しばしば広くキュレートされたデータセット上で定義された難しい問題に一般的に適用される。 ここでは、入力情報を入力フィールドあたりの固定数の文字からなる抽象シーケンスとして符号化することで、小さく、未成年な表型データセットからの分類と回帰の問題に対処する深層表現学習の能力を示す。 小型モデルは様々な関数の近似に十分なキャパシティを持ち、記録分類ベンチマークの精度を実現する。 このようなモデルは、たとえ学習したタスクがこれらの特徴の知識を明示的に必要としていないとしても、様々な入力機能の有用な埋め込みを形成する。 これらのモデルは入力帰属にも適しており、モデル出力に対する各入力要素の重要性と、どの入力特徴が効果的にモデルに埋め込まれているかを予測することができる。 本稿では,これらのタスクを表現学習プロセスの一部として実行するモデルに頼って,機能工学やクリーニング,あるいは事前処理を行なわずに,小さな言語モデルを混合表データに適用するための概念実証を行う。

Supervised deep learning is most commonly applied to difficult problems defined on large and often extensively curated datasets. Here we demonstrate the ability of deep representation learning to address problems of classification and regression from small and poorly formed tabular datasets by encoding input information as abstracted sequences composed of a fixed number of characters per input field. We find that small models have sufficient capacity for approximation of various functions and achieve record classification benchmark accuracy. Such models are shown to form useful embeddings of various input features in their hidden layers, even if the learned task does not explicitly require knowledge of those features. These models are also amenable to input attribution, allowing for an estimation of the importance of each input element to the model output as well as of which inputs features are effectively embedded in the model. We present a proof-of-concept for the application of small language models to mixed tabular data without explicit feature engineering, cleaning, or preprocessing, relying on the model to perform these tasks as part of the representation learning process.
翻訳日:2022-11-08 17:56:47 公開日:2022-11-05
# BEKG: 構築された環境知識グラフ

BEKG: A Built Environment Knowledge Graph ( http://arxiv.org/abs/2211.02864v1 )

ライセンス: Link先を確認
Xiaojun Yang and Haoyu Zhong and Penglin Du and Keyi Zhou and Xingjin Lai and Zhengdong Wang and Yik Lun Lau and Yangqiu Song and Liyaning Tang(参考訳) 近代的な設計と建設技術の急速な発展により、建築環境における実践はよりデジタル化されていった。 しかし、建設環境での複雑な専門知識の収集は、専門家や学者の要求がまだ満たされていない。 本稿では,構築環境分野の8万以上の論文要約を収集し,知識グラフ,エンティティを格納する知識ベース,およびそれらの連結関係をグラフ構造データモデルで構築した。 ナレッジグラフにおけるエンティティの検索精度と関係性を確保するために、名前付きエンティティ認識タスクと関係抽出タスクそれぞれ29のリレーションシップにそれぞれ2,000のインスタンスと1,450のインスタンスを含む、注釈付きデータセットが2つ作成されている。 これら2つのタスクは、提案データセットに基づいてトレーニングされた2つのBERTベースのモデルによって解決された。 どちらのモデルもこの2つのタスクで85%以上の精度を達成した。 これらのモデルを用いて20万以上の高品質な関係と実体が得られ、すべての抽象データを抽出する。 最後に、この知識グラフはドメイン内の様々なエンティティ間の関係を明らかにするための自己発達可視化システムとして提示される。 ソースコードと注釈付きデータセットの両方は、https://github.com/HKUST-KnowComp/BEKG.comで参照できる。

Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.
翻訳日:2022-11-08 17:49:09 公開日:2022-11-05
# オンライン健康コミュニティにおけるトピックタグ予測によるユーザ関心の予測

Forecasting User Interests Through Topic Tag Predictions in Online Health Communities ( http://arxiv.org/abs/2211.02789v1 )

ライセンス: Link先を確認
Amogh Subbakrishna Adishesha, Lily Jakielaszek, Fariha Azhar, Peixuan Zhang, Vasant Honavar, Fenglong Ma, Chandra Belani, Prasenjit Mitra, Sharon Xiaolei Huang(参考訳) 患者や介護者による医療情報のオンラインコミュニティへの依存が高まると、誤った情報や主観的、説明的、不正確な、あるいは非特定の推奨が広まり、もし対応すれば、患者に深刻な危害をもたらす可能性がある。 そのため、こうした被害を避けるため、正確な健康情報と調整された健康情報をタイムリーに接続する必要がある。 本稿では,オンラインコミュニティの参加者に対して,疾患や治療の異なる段階から信頼できる情報を提示する革新的な手法を提案する。 同様の疾患の経過や治療経過が類似した患者は、同等の段階において同様の情報を必要とすると仮定する。 具体的には、トピックタグやキーワードを予測して、ユーザのプロファイルや、コミュニティ内のオンラインインタラクションのトレース(ペースト投稿、返信)、同じようなプロファイルや、ターゲットユーザとの過去のインタラクションの類似トレースを持つ他のユーザのオンラインインタラクションのプロファイルやトレースなどに基づいて、ユーザの将来の情報ニーズを記述する。 その結果、オンライン健康コミュニティのユーザのニーズに合わせて、協調的な情報フィルタリングやレコメンデーションシステムの亜種となる。 提案手法が,トピックタグの正確かつタイムリーな予測(つまり興味のある情報ソース)に関して,アートベースラインの状態を上回って優れていることを示す,専門家によるデータセット実験の結果を報告する。

The increasing reliance on online communities for healthcare information by patients and caregivers has led to the increase in the spread of misinformation, or subjective, anecdotal and inaccurate or non-specific recommendations, which, if acted on, could cause serious harm to the patients. Hence, there is an urgent need to connect users with accurate and tailored health information in a timely manner to prevent such harm. This paper proposes an innovative approach to suggesting reliable information to participants in online communities as they move through different stages in their disease or treatment. We hypothesize that patients with similar histories of disease progression or course of treatment would have similar information needs at comparable stages. Specifically, we pose the problem of predicting topic tags or keywords that describe the future information needs of users based on their profiles, traces of their online interactions within the community (past posts, replies) and the profiles and traces of online interactions of other users with similar profiles and similar traces of past interaction with the target users. The result is a variant of the collaborative information filtering or recommendation system tailored to the needs of users of online health communities. We report results of our experiments on an expert curated data set which demonstrate the superiority of the proposed approach over the state of the art baselines with respect to accurate and timely prediction of topic tags (and hence information sources of interest).
翻訳日:2022-11-08 17:46:52 公開日:2022-11-05
# オープンワールド合成ゼロショット学習のための実現可能性と文脈依存性を持つ単純プリミティブ

Simple Primitives with Feasibility- and Contextuality-Dependence for Open-World Compositional Zero-shot Learning ( http://arxiv.org/abs/2211.02895v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Xiaojun Chang, Wei Fang, Xiaojun Wu, and Yi Yang(参考訳) コンポジションゼロショット学習(CZSL)の課題は、トレーニング段階で欠落している新しい状態オブジェクトのイメージを認識することである。 従来の構成埋め込み学習法はクローズドワールドczslにおいて有効性を示している。 しかし,Open-World CZSL(OW-CZSL)では,組成の濃度が大きいため,性能が著しく低下する傾向にある。 いくつかの最近の研究は、基数を減らすための単純な原始(状態と対象)を別々に予測している。 しかし、彼らは単純なプリミティブを独立確率分布とみなし、状態、対象、構成間の重い依存を無視している。 本稿では,構成の妥当性と文脈性による依存性をモデル化する。 フィージビリティ・ディペンデンス(英: Feasibility-dependence)とは、単純なプリミティブ間の不等式関係(例えば、 \textit{hairy} は実世界での \textit{building} よりも \textit{cat} でより実現可能である)を指す。 文脈依存性(Contextuality-dependence)は、画像のコンテキスト分散を表し、例えば、 \textit{cat} は \textit{dry} と \textit{wet} の状態の下で様々な外観を示す。 本研究では,意味的意図 (SA) と生成的知識分散 (KD) をそれぞれ設計し,実現可能性と文脈性の依存性を学習する。 saは構成のセマンティクスをキャプチャし、単純なプリミティブ間の視覚的類似性によって駆動される不可能予測を緩和する。 KDは画像をバイアスのない特徴表現に切り離し、予測における文脈バイアスを緩和する。 さらに,現在の構成確率モデルを,互換性のあるフォーマットで実現可能性とコンテキスト性で補完する。 最後に,3つのベンチマークow-czslデータセット上で,モデル,セマンティクス的注意およびナレッジ・ディスタングルメント・ガイド・単純プリミティブ(sad-sp)の優れた性能および競争力を解析および検証するための包括的な実験を行った。

The task of Compositional Zero-Shot Learning (CZSL) is to recognize images of novel state-object compositions that are absent during the training stage. Previous methods of learning compositional embedding have shown effectiveness in closed-world CZSL. However, in Open-World CZSL (OW-CZSL), their performance tends to degrade significantly due to the large cardinality of possible compositions. Some recent works separately predict simple primitives (i.e., states and objects) to reduce cardinality. However, they consider simple primitives as independent probability distributions, ignoring the heavy dependence between states, objects, and compositions. In this paper, we model the dependence of compositions via feasibility and contextuality. Feasibility-dependence refers to the unequal feasibility relations between simple primitives, e.g., \textit{hairy} is more feasible with \textit{cat} than with \textit{building} in the real world. Contextuality-dependence represents the contextual variance in images, e.g., \textit{cat} shows diverse appearances under the state of \textit{dry} and \textit{wet}. We design Semantic Attention (SA) and generative Knowledge Disentanglement (KD) to learn the dependence of feasibility and contextuality, respectively. SA captures semantics in compositions to alleviate impossible predictions, driven by the visual similarity between simple primitives. KD disentangles images into unbiased feature representations, easing contextual bias in predictions. Moreover, we complement the current compositional probability model with feasibility and contextuality in a compatible format. Finally, we conduct comprehensive experiments to analyze and validate the superior or competitive performance of our model, Semantic Attention and knowledge Disentanglement guided Simple Primitives (SAD-SP), on three widely-used benchmark OW-CZSL datasets.
翻訳日:2022-11-08 17:23:09 公開日:2022-11-05
# 野生におけるフラッシュオンリーキューによるロバスト反射除去

Robust Reflection Removal with Flash-only Cues in the Wild ( http://arxiv.org/abs/2211.02914v1 )

ライセンス: Link先を確認
Chenyang Lei, Xudong Jiang, Qifeng Chen(参考訳) 一対のフラッシュと周囲(非フラッシュ)画像から頑健な反射除去を行うための、単純で効果的な反射除去キューを提案する。 反射フリーキューは、対応するフラッシュ画像から周囲画像を原データ空間に減じて得られるフラッシュ専用画像を利用する。 フラッシュのみの画像は、フラッシュオンのみの暗い環境で撮影された画像と同等である。 このフラッシュのみの画像は視覚的に反射しないので、周囲の画像の反射を推測するための堅牢な手がかりを提供することができる。 フラッシュのみの画像には通常アーティファクトがあるため、反射のないキューを利用するだけでなく、反射と透過を正確に推定するアーティファクトの導入を避ける専用モデルも提案する。 反射のないフラッシュオンリーキューを用いた実世界の画像実験により,PSNRにおける5.23dB以上の反射除去手法よりも優れた精度が得られた。 我々は、フラッシュとノンフラッシュのペア間の不一致に対処するために、ハンドヘルド写真へのアプローチを拡張します。 ミスアライメントトレーニングデータとアライメントモジュールにより、我々のアライメントモデルは、ミスアライメントデータセット上でPSNRで3.19dB以上の性能を向上します。 また,線形RGB画像をトレーニングデータとして用いた。 ソースコードとデータセットはhttps://github.com/ChenyangLEI/flash-reflection-removal.comで公開されています。

We propose a simple yet effective reflection-free cue for robust reflection removal from a pair of flash and ambient (no-flash) images. The reflection-free cue exploits a flash-only image obtained by subtracting the ambient image from the corresponding flash image in raw data space. The flash-only image is equivalent to an image taken in a dark environment with only a flash on. This flash-only image is visually reflection-free and thus can provide robust cues to infer the reflection in the ambient image. Since the flash-only image usually has artifacts, we further propose a dedicated model that not only utilizes the reflection-free cue but also avoids introducing artifacts, which helps accurately estimate reflection and transmission. Our experiments on real-world images with various types of reflection demonstrate the effectiveness of our model with reflection-free flash-only cues: our model outperforms state-of-the-art reflection removal approaches by more than 5.23dB in PSNR. We extend our approach to handheld photography to address the misalignment between the flash and no-flash pair. With misaligned training data and the alignment module, our aligned model outperforms our previous version by more than 3.19dB in PSNR on a misaligned dataset. We also study using linear RGB images as training data. Our source code and dataset are publicly available at https://github.com/ChenyangLEI/flash-reflection-removal.
翻訳日:2022-11-08 17:22:37 公開日:2022-11-05
# テキストベースニューラルビデオマニピュレーションにおけるディエンタングリングの内容と動き

Disentangling Content and Motion for Text-Based Neural Video Manipulation ( http://arxiv.org/abs/2211.02980v1 )

ライセンス: Link先を確認
Levent Karacan, Tolga Kerimo\u{g}lu, \.Ismail \.Inan, Tolga Birdal, Erkut Erdem, Aykut Erdem(参考訳) 機械に言語記述から可能な新しいオブジェクトやシーンを想像させ、そのリアルなレンダリングを生み出す能力を与えることは、おそらくコンピュータビジョンにおける最も困難な問題の1つだ。 深層生成モデルの最近の進歩は、この目標に有望な結果を与える新しいアプローチにつながった。 本稿では,映像を自然言語で操作し,映像の局所的・意味的な編集を行い,興味のある対象の外観を変えることを目的とした新しい手法であるdicomoganを提案する。 我々のGANアーキテクチャは、コンテンツと動きを切り離すことで、複数の観察をよりよく活用し、制御可能なセマンティック編集を可能にする。 この目的のために,2つの密結合ネットワークを導入する。 (i)運動力学と時間不変量の簡潔な理解を構築するための表現ネットワーク、 二 抽出した潜在コンテンツ表現を利用して、対象記述に従って操作を動作させる翻訳ネットワーク。 定性的および定量的評価により、DiCoMoGANは既存のフレームベース手法を著しく上回り、時間的コヒーレントかつ意味論的により有意義な結果をもたらすことが示された。

Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
翻訳日:2022-11-08 17:22:14 公開日:2022-11-05
# 多視点セマンティック一貫性のための局所多様体拡張

Local Manifold Augmentation for Multiview Semantic Consistency ( http://arxiv.org/abs/2211.02798v1 )

ライセンス: Link先を確認
Yu Yang, Wing Yin Cheung, Chang Liu, Xiangyang Ji(参考訳) 多視点自己教師型表現学習のルーツは、複雑なクラス内変動のデータ間のセマンティック一貫性を探究する。 このようなバリエーションは直接アクセスできないため、データ拡張によってシミュレートされる。 しかし、一般的に採用されている拡張は手作りであり、単純な幾何学的および色の変化に限られる。 本稿では,データセットから基礎となるデータ変化を抽出し,局所多様体拡張(LMA)と呼ばれる新しい拡張演算子を構築することを提案する。 lmaは、データのローカル多様体上の分布に適合するようにインスタンス条件付きジェネレータを訓練し、それを用いてマルチビューデータをサンプリングすることで達成される。 lmaは無限数のデータビューを作成し、セマンティクスを保持し、オブジェクトのポーズ、視点、照明条件、背景などの複雑なバリエーションをシミュレートする能力を示している。 CIFAR10、CIFAR100、STL10、ImageNet100、ImageNetなどの一般的なベンチマークでは、LMA統合されたMoCov2やSimSiamのような自己教師型学習手法が一貫して改善されている。 さらに、LMAは、視点、オブジェクトのポーズ、照明の変化、およびImageNet-V2、ImageNet-R、ImageNet Sketchなどによって反射される様々な実分布シフトに対する強い堅牢性といった、より重要な不変性を得る表現につながります。

Multiview self-supervised representation learning roots in exploring semantic consistency across data of complex intra-class variation. Such variation is not directly accessible and therefore simulated by data augmentations. However, commonly adopted augmentations are handcrafted and limited to simple geometrical and color changes, which are unable to cover the abundant intra-class variation. In this paper, we propose to extract the underlying data variation from datasets and construct a novel augmentation operator, named local manifold augmentation (LMA). LMA is achieved by training an instance-conditioned generator to fit the distribution on the local manifold of data and sampling multiview data using it. LMA shows the ability to create an infinite number of data views, preserve semantics, and simulate complicated variations in object pose, viewpoint, lighting condition, background etc. Experiments show that with LMA integrated, self-supervised learning methods such as MoCov2 and SimSiam gain consistent improvement on prevalent benchmarks including CIFAR10, CIFAR100, STL10, ImageNet100, and ImageNet. Furthermore, LMA leads to representations that obtain more significant invariance to the viewpoint, object pose, and illumination changes and stronger robustness to various real distribution shifts reflected by ImageNet-V2, ImageNet-R, ImageNet Sketch etc.
翻訳日:2022-11-08 17:12:48 公開日:2022-11-05
# KSS-ICP:Kendall形状空間に基づくポイントクラウド登録

KSS-ICP: Point Cloud Registration based on Kendall Shape Space ( http://arxiv.org/abs/2211.02807v1 )

ライセンス: Link先を確認
Chenlei Lv, Weisi Lin, and Baoquan Zhao(参考訳) ポイントクラウドの登録は一般的なトピックであり、3Dモデルの再構築、位置、検索に広く利用されている。 本稿では,Kendall 形状空間 (KSS) における厳密な登録課題をICP (Iterative Closest Point) で解決する新しい登録手法 KSS-ICP を提案する。 KSSは、形状特徴に基づく分析のための翻訳、スケール、回転の影響を取り除く商空間である。 このような影響は、形状が変化しない類似性変換として結論付けることができる。 KSSにおける点雲表現は類似性変換と不変である。 このような特性を利用して, kss-icp をポイントクラウド登録用に設計する。 KSS表現を一般に達成することの難しさに対処するため、提案したKSS-ICPは、複雑な特徴解析、データトレーニング、最適化を必要としない実用的なソリューションを定式化している。 単純な実装で、KSS-ICPはポイントクラウドからのより正確な登録を実現する。 類似性変換、非一様密度、ノイズ、欠陥部分に対して堅牢である。 実験の結果、KSS-ICPは最先端技術よりも優れた性能を示した。

Point cloud registration is a popular topic which has been widely used in 3D model reconstruction, location, and retrieval. In this paper, we propose a new registration method, KSS-ICP, to address the rigid registration task in Kendall shape space (KSS) with Iterative Closest Point (ICP). The KSS is a quotient space that removes influences of translations, scales, and rotations for shape feature-based analysis. Such influences can be concluded as the similarity transformations that do not change the shape feature. The point cloud representation in KSS is invariant to similarity transformations. We utilize such property to design the KSS-ICP for point cloud registration. To tackle the difficulty to achieve the KSS representation in general, the proposed KSS-ICP formulates a practical solution that does not require complex feature analysis, data training, and optimization. With a simple implementation, KSS-ICP achieves more accurate registration from point clouds. It is robust to similarity transformation, non-uniform density, noise, and defective parts. Experiments show that KSS-ICP has better performance than the state of the art.
翻訳日:2022-11-08 17:12:08 公開日:2022-11-05
# ディープフェイス修復に関する調査 : 騒音, 超溶解, 汚れ, 人工物除去

A Survey of Deep Face Restoration: Denoise, Super-Resolution, Deblur, Artifact Removal ( http://arxiv.org/abs/2211.02831v1 )

ライセンス: Link先を確認
Tao Wang, Kaihao Zhang, Xuanxi Chen, Wenhan Luo, Jiankang Deng, Tong Lu, Xiaochun Cao, Wei Liu, Hongdong Li, Stefanos Zafeiriou(参考訳) 顔復元(FR)は、低レベルコンピュータビジョン領域における領域固有の画像復元問題である低品質(LQ)入力画像から高品質(HQ)顔を復元することを目的としている。 初期の顔復元法は主に統計学の先行と劣化モデルを用いており、現実の応用の要件を満たすことは困難である。 近年では、ディープラーニング時代に入ってから顔の復元が大きな進歩を遂げている。 しかし,深層学習に基づく顔復元法を体系的に研究する研究は少ない。 そこで本稿は,顔修復のための深層学習技術の最近の進歩を包括的に調査する。 具体的には,まず,様々な問題定式化を要約し,顔画像の特徴を分析する。 第二に、顔修復の課題について論じる。 これらの課題について,従来手法やディープラーニング手法を含む既存のFR手法の総合的なレビューを行う。 次に、ネットワークアーキテクチャ、損失関数、ベンチマークデータセットをカバーするFRタスクにおける開発手法を検討する。 また,代表手法のベンチマーク評価を行う。 最後に,ネットワーク設計,メトリクス,ベンチマークデータセット,アプリケーションなど,今後の方向性について論じる。 また、議論されているすべてのメソッドのオープンソースリポジトリも提供しています。

Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
翻訳日:2022-11-08 17:11:47 公開日:2022-11-05
# SizeGAN: 衣服カタログにおけるサイズ表現の改善

SizeGAN: Improving Size Representation in Clothing Catalogs ( http://arxiv.org/abs/2211.02892v1 )

ライセンス: Link先を確認
Kathleen M. Lewis and John Guttag(参考訳) オンライン衣料品カタログには、体型や衣服の大きさの多様性がない。 ブランドは通常、プラスサイズモデルを含む1つか2つのサイズのモデルに衣服を展示する。 本研究では,異なるサイズのモデルで衣服のイメージを生成するための新しい手法であるsizeganを提案する。 フォトリアリスティックな画像を維持しながら衣料とモデルサイズを変えるため,医用画像文献からのイメージアライメントのアイデアをStyleGAN2-ADAアーキテクチャに取り入れた。 提案手法は,複数解像度で変形場を学習し,空間変換器を用いて衣服や模型のサイズを変化させる。 私たちは、リアリズム、衣服の忠実さ、サイズという3次元に沿ってアプローチを評価します。 私たちの知る限り、sizeganは衣服のモデリングにおいてこのサイズ不足の問題に焦点を当てた最初の方法です。 我々は,SizeGANと他の可塑性アプローチを比較した分析を行い,サイズラベルを持つ最初の衣服データセットを提供する。 SizeGANと最近の2つの仮想試行法を比較したユーザスタディでは,本手法が各次元にランク付けされ,現実主義や衣服の忠実さに大いに好まれた。 衣料のフォトリアリスティックな画像に焦点をあてたこれまでのほとんどの研究と比較して、われわれの研究は、フォトリアリスティックで多彩な衣料サイズをカバーした画像を生成することができることを示している。

Online clothing catalogs lack diversity in body shape and garment size. Brands commonly display their garments on models of one or two sizes, rarely including plus-size models. In this work, we propose a new method, SizeGAN, for generating images of garments on different-sized models. To change the garment and model size while maintaining a photorealistic image, we incorporate image alignment ideas from the medical imaging literature into the StyleGAN2-ADA architecture. Our method learns deformation fields at multiple resolutions and uses a spatial transformer to modify the garment and model size. We evaluate our approach along three dimensions: realism, garment faithfulness, and size. To our knowledge, SizeGAN is the first method to focus on this size under-representation problem for modeling clothing. We provide an analysis comparing SizeGAN to other plausible approaches and additionally provide the first clothing dataset with size labels. In a user study comparing SizeGAN and two recent virtual try-on methods, we show that our method ranks first in each dimension, and was vastly preferred for realism and garment faithfulness. In comparison to most previous work, which has focused on generating photorealistic images of garments, our work shows that it is possible to generate images that are both photorealistic and cover diverse garment sizes.
翻訳日:2022-11-08 17:11:08 公開日:2022-11-05
# 遠隔指導反復学習に基づく粗大な知識グラフ領域適応

Coarse-to-fine Knowledge Graph Domain Adaptation based on Distantly-supervised Iterative Training ( http://arxiv.org/abs/2211.02849v1 )

ライセンス: Link先を確認
Homgmin Cai, Wenxiong Liao, Zhengliang Liu, Xiaoke Huang, Yiyang Zhang, Siqi Ding, Sheng Li, Quanzheng Li, Tianming Liu, Xiang Li(参考訳) 現代の教師付き学習ニューラルネットワークモデルは、大量の手動ラベル付きデータを必要とするため、ドメイン固有の知識グラフの構築に時間がかかり、労力がかかる。 並行して、遠隔教師付き学習に基づく名前付きエンティティ認識と関係抽出に関する研究が数多く行われているが、手動アノテーションを使わずに大量のテキストデータからドメイン固有の知識グラフを構築することは、まだ解決すべき課題である。 そこで本研究では,1つの粗いドメイン(バイオメディカル)からより細かい定義のドメイン(オンコロジー)への知識グラフの適応と再学習のための統合フレームワークを提案する。 このフレームワークでは、クロスドメイン知識グラフ適応に遠方スーパービジョンを適用する。 そのため、モデルのトレーニングには手動のデータアノテーションは必要ない。 ドメイン固有の名前付きエンティティやトリプルの発見を容易にするための,新しい反復的トレーニング戦略を導入する。 実験の結果,提案フレームワークは知識グラフのドメイン適応と構築を効率的に行うことができることがわかった。

Modern supervised learning neural network models require a large amount of manually labeled data, which makes the construction of domain-specific knowledge graphs time-consuming and labor-intensive. In parallel, although there has been much research on named entity recognition and relation extraction based on distantly supervised learning, constructing a domain-specific knowledge graph from large collections of textual data without manual annotations is still an urgent problem to be solved. In response, we propose an integrated framework for adapting and re-learning knowledge graphs from one coarse domain (biomedical) to a finer-define domain (oncology). In this framework, we apply distant-supervision on cross-domain knowledge graph adaptation. Consequently, no manual data annotation is required to train the model. We introduce a novel iterative training strategy to facilitate the discovery of domain-specific named entities and triples. Experimental results indicate that the proposed framework can perform domain adaptation and construction of knowledge graph efficiently.
翻訳日:2022-11-08 17:02:06 公開日:2022-11-05
# デュアル・イミテーションによるレコメンデーションと会話の調整

Aligning Recommendation and Conversation via Dual Imitation ( http://arxiv.org/abs/2211.02848v1 )

ライセンス: Link先を確認
Jinfeng Zhou, Bo Wang, Minlie Huang, Dongming Zhao, Kun Huang, Ruifang He, Yuexian Hou(参考訳) 人間による推薦の会話には、リコメンデーションアクションと会話プロセスが整合して、豊富な説明とともに正確なレコメンデーションを行う、という関心の変化が自然に伴う。 しかし、既存の会話レコメンデーションシステム(CRS)は、ユーザの関心の移り変わりを無視し、レコメンデーションと会話を結びつけることで、CRSの非効率な疎結合構造をもたらす。 この問題を解決するため、知識グラフ(KG)のレコメンデーションパスとしてレコメンデーションアクションをモデル化することにより、レコメンデーションモジュールと会話モジュールのレコメンデーションパスとユーザ関心シフトパスを明確に整合させる2つの模倣を設計するDICR(Dual Imitation for Conversational Recommendation)を提案する。 アライメント信号の交換により、DICRはレコメンデーションと会話モジュール間の双方向の促進を実現し、高精度なレコメンデーションとコヒーレントな説明で高品質な応答を生成する。 実験により、DICRは推奨と会話のパフォーマンスに関する最先端モデルよりも、自動的、人的、斬新な説明可能性指標の方が優れていることが示された。

Human conversations of recommendation naturally involve the shift of interests which can align the recommendation actions and conversation process to make accurate recommendations with rich explanations. However, existing conversational recommendation systems (CRS) ignore the advantage of user interest shift in connecting recommendation and conversation, which leads to an ineffective loose coupling structure of CRS. To address this issue, by modeling the recommendation actions as recommendation paths in a knowledge graph (KG), we propose DICR (Dual Imitation for Conversational Recommendation), which designs a dual imitation to explicitly align the recommendation paths and user interest shift paths in a recommendation module and a conversation module, respectively. By exchanging alignment signals, DICR achieves bidirectional promotion between recommendation and conversation modules and generates high-quality responses with accurate recommendations and coherent explanations. Experiments demonstrate that DICR outperforms the state-of-the-art models on recommendation and conversation performance with automatic, human, and novel explainability metrics.
翻訳日:2022-11-08 16:46:59 公開日:2022-11-05
# HERB:事前学習言語モデルにおける階層的地域バイアスの測定

HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models ( http://arxiv.org/abs/2211.02882v1 )

ライセンス: Link先を確認
Yizhi Li, Ge Zhang, Bohao Yang, Chenghua Lin, Shi Wang, Anton Ragni, Jie Fu(参考訳) フェアネスは、ジェンダーや宗教など特定の社会グループをターゲットにしたバイアスに対処する自然言語処理(NLP)のトレンドとなっている。 しかし、長年の国際的差別問題である言語モデル(LM)の地域バイアスはまだ未解明のままである。 本稿では,NLPタスクで広く使用されている事前学習言語モデルから得られた地域バイアスを分析し,そのギャップを埋める。 lmsにおける地域バイアスの存在の検証に加えて,地域集団の偏りは,地域集団の地理的クラスタリングの影響を強く受け得ることを見出した。 そこで本研究では,事前学習したlmsのバイアスを定量化するために,サブリージョンクラスタからの情報を活用した階層的地域バイアス評価手法(herb)を提案する。 実験の結果, 階層的メトリクスは, 包括的トピックに対する地域バイアスを効果的に評価し, 下流タスクに伝達できる潜在的な地域バイアスを計測できることがわかった。 私たちのコードはhttps://github.com/bernard-yang/herbで利用可能です。

Fairness has become a trending topic in natural language processing (NLP), which addresses biases targeting certain social groups such as genders and religions. However, regional bias in language models (LMs), a long-standing global discrimination problem, still remains unexplored. This paper bridges the gap by analysing the regional bias learned by the pre-trained language models that are broadly used in NLP tasks. In addition to verifying the existence of regional bias in LMs, we find that the biases on regional groups can be strongly influenced by the geographical clustering of the groups. We accordingly propose a HiErarchical Regional Bias evaluation method (HERB) utilising the information from the sub-region clusters to quantify the bias in pre-trained LMs. Experiments show that our hierarchical metric can effectively evaluate the regional bias with respect to comprehensive topics and measure the potential regional bias that can be propagated to downstream tasks. Our codes are available at https://github.com/Bernard-Yang/HERB.
翻訳日:2022-11-08 16:46:34 公開日:2022-11-05
# 民事訴訟における法的理由づけの業務

The Legal Argument Reasoning Task in Civil Procedure ( http://arxiv.org/abs/2211.02950v1 )

ライセンス: Link先を確認
Leonard Bongard, Lena Held, Ivan Habernal(参考訳) 我々は,米国民事訴訟の領域から新たなNLPタスクとデータセットを提示する。 データセットの各インスタンスは、ケースの一般的な紹介、特定の質問、可能なソリューション引数から成り、そのケースに引数が適用される理由に関する詳細な分析が伴う。 データセットは法学生を対象とした本に基づいているため、現代の法律言語モデルをベンチマークする上で、本当に複雑なタスクであると考えています。 法定トランスフォーマーの微調整は,ランダムなベースラインモデルに対してある程度の利点があるが,実際の法定議論を推測する能力は,まだ未解決の課題であることが明らかとなった。

We present a new NLP task and dataset from the domain of the U.S. civil procedure. Each instance of the dataset consists of a general introduction to the case, a particular question, and a possible solution argument, accompanied by a detailed analysis of why the argument applies in that case. Since the dataset is based on a book aimed at law students, we believe that it represents a truly complex task for benchmarking modern legal language models. Our baseline evaluation shows that fine-tuning a legal transformer provides some advantage over random baseline models, but our analysis reveals that the actual ability to infer legal arguments remains a challenging open research question.
翻訳日:2022-11-08 16:46:17 公開日:2022-11-05
# 法的自然言語処理のためのプライバシー保護モデル

Privacy-Preserving Models for Legal Natural Language Processing ( http://arxiv.org/abs/2211.02956v1 )

ライセンス: Link先を確認
Ying Yin, Ivan Habernal(参考訳) ドメイン内データによる大規模なトランスフォーマーモデルの事前トレーニングは、ドメイン適応を改善し、ドメイン固有の下流タスクのパフォーマンス向上に役立つ。 しかし、潜在的に機密性の高いデータで事前訓練されたモデルを共有することは、敵対的なプライバシー攻撃につながる可能性がある。 本稿では,事前学習データのプライバシをどの程度保証できるかを問うとともに,ラベル付きデータの追加を必要とせず,法的タスクのダウンストリーム性能の向上を図る。 我々は,差分プライバシという形式パラダイムの下で,スケーラブルな自己教師付き学習を大規模に実験し,特定のトレーニング構成下では,ドメイン内データのプライバシ保護を犠牲にすることなく下流のパフォーマンスを向上させることができることを示した。 我々の主な貢献は、法的なNLPドメインにおけるトランスフォーマー言語モデルの大規模事前トレーニングに差分プライバシーを利用することです。

Pre-training large transformer models with in-domain data improves domain adaptation and helps gain performance on the domain-specific downstream tasks. However, sharing models pre-trained on potentially sensitive data is prone to adversarial privacy attacks. In this paper, we asked to which extent we can guarantee privacy of pre-training data and, at the same time, achieve better downstream performance on legal tasks without the need of additional labeled data. We extensively experiment with scalable self-supervised learning of transformer models under the formal paradigm of differential privacy and show that under specific training configurations we can improve downstream performance without sacrifying privacy protection for the in-domain data. Our main contribution is utilizing differential privacy for large-scale pre-training of transformer language models in the legal NLP domain, which, to the best of our knowledge, has not been addressed before.
翻訳日:2022-11-08 16:46:04 公開日:2022-11-05
# ラベルなしデータから推測する学習--ロバスト自然言語推論のための半教師あり学習アプローチ

Learning to Infer from Unlabeled Data: A Semi-supervised Learning Approach for Robust Natural Language Inference ( http://arxiv.org/abs/2211.02971v1 )

ライセンス: Link先を確認
Mobashir Sadat, Cornelia Caragea(参考訳) 自然言語推論(NLI、Recognizing Textual Entailment、RTE)は、一対の文(前提と仮説)の関係を、関係性、矛盾、意味的な独立性として予測することを目的としている。 近年、ディープラーニングモデルはNLIに有望なパフォーマンスを示しているが、それらは大規模で高価な人間注釈付きデータセットに依存している。 半教師付き学習(SSL)は、トレーニングにラベルのないデータを活用することで、人間のアノテーションへの依存を減らすための一般的な手法である。 しかしながら、NLIタスクにおいて、ラベルなしデータを使用する際の課題は、"十分な"擬似ラベルを割り当てることである単一文分類タスクにおいて、かなりの成功を収めているにもかかわらず、ラベルなしデータの性質はより複雑である。 本稿では, 条件付き言語モデルであるBARTを用いて, 未ラベル文(前提として使用される)の仮説を生成する, SSL for NLIにラベルなしデータを組み込む新しい手法を提案する。 実験の結果,SSLフレームワークはラベルのないデータをうまく活用し,低リソース環境での4つのNLIデータセットの性能を大幅に向上することがわかった。 私たちはコードをhttps://github.com/msadat3/ssl_for_nliでリリースします。

Natural Language Inference (NLI) or Recognizing Textual Entailment (RTE) aims at predicting the relation between a pair of sentences (premise and hypothesis) as entailment, contradiction or semantic independence. Although deep learning models have shown promising performance for NLI in recent years, they rely on large scale expensive human-annotated datasets. Semi-supervised learning (SSL) is a popular technique for reducing the reliance on human annotation by leveraging unlabeled data for training. However, despite its substantial success on single sentence classification tasks where the challenge in making use of unlabeled data is to assign "good enough" pseudo-labels, for NLI tasks, the nature of unlabeled data is more complex: one of the sentences in the pair (usually the hypothesis) along with the class label are missing from the data and require human annotations, which makes SSL for NLI more challenging. In this paper, we propose a novel way to incorporate unlabeled data in SSL for NLI where we use a conditional language model, BART to generate the hypotheses for the unlabeled sentences (used as premises). Our experiments show that our SSL framework successfully exploits unlabeled data and substantially improves the performance of four NLI datasets in low-resource settings. We release our code at: https://github.com/msadat3/SSL_for_NLI.
翻訳日:2022-11-08 16:45:48 公開日:2022-11-05
# リモートセンシング画像分類のためのロバストかつ低複雑性深層学習モデル

A Robust and Low Complexity Deep Learning Model for Remote Sensing Image Classification ( http://arxiv.org/abs/2211.02820v1 )

ライセンス: Link先を確認
Cam Le, Lam Pham, Nghia NVN, Truong Nguyen, Le Hong Trang(参考訳) 本稿では,リモートセンシング画像分類(RSIC)のための,堅牢かつ低複雑性なディープラーニングモデルを提案する。 特に,我々はまず,学習可能なパラメータ数が500万 (m) 未満のmobilenetv1,mobilenetv2,nasnetmobile,そして efficientnetb0 という,異なる低複雑性とベンチマークのディープニューラルネットワークを評価した。 最適なネットワークアーキテクチャを示した後、ネットワークの中間層から抽出した複数の特徴マップにアテンションスキームを適用することにより、ネットワーク性能をさらに向上する。 NWPU-RESISC45ベンチマークデータセットの広範な実験を行うことで、最先端のシステムと競合する堅牢で低複雑さのモデルを実現し、エッジデバイス上での現実的な応用の可能性を実現する。

In this paper, we present a robust and low complexity deep learning model for Remote Sensing Image Classification (RSIC), the task of identifying the scene of a remote sensing image. In particular, we firstly evaluate different low complexity and benchmark deep neural networks: MobileNetV1, MobileNetV2, NASNetMobile, and EfficientNetB0, which present the number of trainable parameters lower than 5 Million (M). After indicating best network architecture, we further improve the network performance by applying attention schemes to multiple feature maps extracted from middle layers of the network. To deal with the issue of increasing the model footprint as using attention schemes, we apply the quantization technique to satisfies the number trainable parameter of the model lower than 5 M. By conducting extensive experiments on the benchmark datasets NWPU-RESISC45, we achieve a robust and low-complexity model, which is very competitive to the state-of-the-art systems and potential for real-life applications on edge devices.
翻訳日:2022-11-08 16:37:33 公開日:2022-11-05
# MRI画像とEnsemble Bagging Classifierを用いた統合失調症診断のための軽量3次元畳み込みニューラルネットワーク

Lightweight 3D Convolutional Neural Network for Schizophrenia diagnosis using MRI Images and Ensemble Bagging Classifier ( http://arxiv.org/abs/2211.02868v1 )

ライセンス: Link先を確認
P Supriya Patro, Tripti Goel, S A VaraPrasad, M Tanveer, R Murugan(参考訳) 統合失調症(SCZ)の早期発症と神経イメージング法の開発において、構造変化が脳内で徹底的に研究されている。 本研究の目的は,認知正常 (CN) と磁気共鳴画像 (MRI) を用いたSCZの2種類の分類を効果的に行うことである。 本稿では,MRI画像を用いたSCZ診断のための軽量3次元畳み込みニューラルネットワーク(CNN)フレームワークを提案する。 提案モデルでは,3次元MRIスキャンから空間的特徴とスペクトル的特徴を同時に抽出するために軽量な3次元CNNを用い,アンサンブルバッグ分類器を用いて分類を行う。 アンサンブルバグング分類器は、過剰フィッティングの防止、分散の低減、モデルの精度の向上に寄与する。 提案アルゴリズムは,MCICShare,COBRE,fBRINPhase-IIという,オープンソースとして利用可能な3つのベンチマークデータベースから抽出したデータセットで検証される。 これらのデータセットは、すべてのMRIイメージを標準テンプレートに登録し、アーティファクトを減らすための前処理ステップを実行している。 精度は92.22%、感度94.44%、特異性90%、精度90.43%、リコール94.44%、f1-score92.39%、g-mean92.19%である。 SCZの自動的正確な診断のために,このモデルを用いて臨床医を支援した。

Structural alterations have been thoroughly investigated in the brain during the early onset of schizophrenia (SCZ) with the development of neuroimaging methods. The objective of the paper is an efficient classification of SCZ in 2 different classes: Cognitive Normal (CN), and SCZ using magnetic resonance imaging (MRI) images. This paper proposed a lightweight 3D convolutional neural network (CNN) based framework for SCZ diagnosis using MRI images. In the proposed model, lightweight 3D CNN is used to extract both spatial and spectral features simultaneously from 3D volume MRI scans, and classification is done using an ensemble bagging classifier. Ensemble bagging classifier contributes to preventing overfitting, reduces variance, and improves the model's accuracy. The proposed algorithm is tested on datasets taken from three benchmark databases available as open-source: MCICShare, COBRE, and fBRINPhase-II. These datasets have undergone preprocessing steps to register all the MRI images to the standard template and reduce the artifacts. The model achieves the highest accuracy 92.22%, sensitivity 94.44%, specificity 90%, precision 90.43%, recall 94.44%, F1-score 92.39% and G-mean 92.19% as compared to the current state-of-the-art techniques. The performance metrics evidenced the use of this model to assist the clinicians for automatic accurate diagnosis of SCZ.
翻訳日:2022-11-08 16:37:14 公開日:2022-11-05
# 分類器のアンサンブルは包装活動においてより良い認識結果をもたらすか?

Can Ensemble of Classifiers Provide Better Recognition Results in Packaging Activity? ( http://arxiv.org/abs/2211.02965v1 )

ライセンス: Link先を確認
A.H.M. Nazmus Sakib, Promit Basak, Syed Doha Uddin, Shahamat Mustavi Tasin and Md Atiqur Rahman Ahad(参考訳) 骨格をベースとしたモーションキャプチャー(MoCap)システムは、ゲームや映画業界で長い間、複雑な人間の行動を模倣するために広く使われてきた。 MoCapデータは、人間の活動認識タスクでもその効果が証明されている。 しかし、小さなデータセットでは、非常に難しいタスクです。 産業活動にそのようなデータがないことは、さらに困難を増す。 そこで本研究では,MoCapデータセットの精度向上を目的とした,アンサンブルに基づく機械学習手法を提案する。 実験は、2021年のBento Packaging Activity Recognition ChallengeのMoCapデータに基づいて実施された。 弁当(べんとう)は、弁当箱に似た日本の言葉。 最初に生のmocapデータを処理した結果、10倍のクロスバリデーションでは98%、アンサンブルモデルでは82%という驚くべき精度を得た。

Skeleton-based Motion Capture (MoCap) systems have been widely used in the game and film industry for mimicking complex human actions for a long time. MoCap data has also proved its effectiveness in human activity recognition tasks. However, it is a quite challenging task for smaller datasets. The lack of such data for industrial activities further adds to the difficulties. In this work, we have proposed an ensemble-based machine learning methodology that is targeted to work better on MoCap datasets. The experiments have been performed on the MoCap data given in the Bento Packaging Activity Recognition Challenge 2021. Bento is a Japanese word that resembles lunch-box. Upon processing the raw MoCap data at first, we have achieved an astonishing accuracy of 98% on 10-fold Cross-Validation and 82% on Leave-One-Out-Cross-Validation by using the proposed ensemble model.
翻訳日:2022-11-08 16:36:48 公開日:2022-11-05
# 科学的文書の階層的マルチラベル分類

Hierarchical Multi-Label Classification of Scientific Documents ( http://arxiv.org/abs/2211.02810v1 )

ライセンス: Link先を確認
Mobashir Sadat, Cornelia Caragea(参考訳) デジタルコレクションにおける科学的文書の管理と索引付けを支援するために,トピックの自動分類が広く研究されている。 近年、多くのトピックが利用可能になっているため、それらを階層的に配置する必要がある。 したがって、自動分類システムは、文書を階層的に分類できる必要がある。 さらに、各論文は複数の関連するトピックに割り当てられることが多い。 例えば、階層木内のいくつかのトピックに紙を割り当てることができる。 本稿では,ACM CCSツリーから186,160の論文と1,233のカテゴリを含む科学論文の階層的マルチラベルテキスト分類(HMLTC)のための新しいデータセットについて紹介する。 我々はHMLTCの強力なベースラインを確立し,キーワードラベリングを補助タスクとするトピック分類のためのマルチタスク学習手法を提案する。 最良モデルではマクロF1スコアが34.57%に達し,このデータセットは階層的な科学的トピック分類において重要な研究機会を提供することを示す。 データセットとコードをgithubで公開しています。

Automatic topic classification has been studied extensively to assist managing and indexing scientific documents in a digital collection. With the large number of topics being available in recent years, it has become necessary to arrange them in a hierarchy. Therefore, the automatic classification systems need to be able to classify the documents hierarchically. In addition, each paper is often assigned to more than one relevant topic. For example, a paper can be assigned to several topics in a hierarchy tree. In this paper, we introduce a new dataset for hierarchical multi-label text classification (HMLTC) of scientific papers called SciHTC, which contains 186,160 papers and 1,233 categories from the ACM CCS tree. We establish strong baselines for HMLTC and propose a multi-task learning approach for topic classification with keyword labeling as an auxiliary task. Our best model achieves a Macro-F1 score of 34.57% which shows that this dataset provides significant research opportunities on hierarchical scientific topic classification. We make our dataset and code available on Github.
翻訳日:2022-11-08 16:35:38 公開日:2022-11-05
# 会話音声の自動音声認識システムの評価 : 言語学的観点から

Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective ( http://arxiv.org/abs/2211.02812v1 )

ライセンス: Link先を確認
Hannaneh B. Pasandi, Haniyeh B. Pasandi(参考訳) 自動音声認識(ASR)は、音声ユーザインターフェースやAlexa、Google Homeなどの音声アシスタントなどの会話エージェントとして、より非公式で自由形式の入力データに対応する。 会話音声は、音声認識において最も困難かつ環境にかかわるデータである。 本稿では, フランス語を, ホモフォンの曖昧さを解消するための事例研究として, 言語的視点を取り入れる。 我々の貢献は、最先端のASRシステムを再現する条件において、人間の音声の転写精度をよりよく把握することを目的としている。 フランス語の自動転写における最も一般的な誤りを事例として検討した。

Automatic speech recognition (ASR) meets more informal and free-form input data as voice user interfaces and conversational agents such as the voice assistants such as Alexa, Google Home, etc., gain popularity. Conversational speech is both the most difficult and environmentally relevant sort of data for speech recognition. In this paper, we take a linguistic perspective, and take the French language as a case study toward disambiguation of the French homophones. Our contribution aims to provide more insight into human speech transcription accuracy in conditions to reproduce those of state-of-the-art ASR systems, although in a much focused situation. We investigate a case study involving the most common errors encountered in the automatic transcription of French language.
翻訳日:2022-11-08 16:35:24 公開日:2022-11-05
# on-demand-fl: 動的かつ効率的なマルチクリトリアフェデレーション学習クライアント展開方式

ON-DEMAND-FL: A Dynamic and Efficient Multi-Criteria Federated Learning Client Deployment Scheme ( http://arxiv.org/abs/2211.02906v1 )

ライセンス: Link先を確認
Mario Chahoud, Hani Sami, Azzam Mourad, Safa Otoum, Hadi Otrok, Jamal Bentahar, Mohsen Guizani(参考訳) 本稿では,統合学習モデル(FL)の収束性を高めるため,学習過程におけるデバイスの利用性と統合性を高める。 すべてのデータを1つの場所に持つという問題に対処するために、分散データセット上で学習する能力を維持するフェデレーション学習は、プライバシとテクノロジを組み合わせる。 モデルが収束するまで、サーバは各データセットから得られた更新重みを複数のラウンドで組み合わせる。 文献の大半は、収束を加速し精度を高めるためのクライアント選択手法を提案した。 しかしながら、既存の提案では、必要に応じてクライアントをデプロイし、選択する柔軟性に重点を置いていない。 極めてダイナミックな環境のため、FLのクライアントとして利用できないデバイスもあるため、学習用データの可用性とクライアント選択のための既存のソリューションの適用性に影響を与える。 本稿では、FLのクライアントデプロイメントアプローチであるOn-Demand-FLを導入し、学習プロセスにおけるデータのボリュームと不均一性を高めることで、上記の制限に対処する。 私たちはDockerのようなコンテナ技術を使って、IoTとモバイルデバイスをボランティアとして使用する効率的な環境を構築しています。 さらに、オーケストレーションにはKubernetesが使用されている。 遺伝的アルゴリズム(GA)は、その進化戦略による多目的最適化問題を解くために用いられる。 Mobile Data Challenge(MDC)データセットとLocalfedフレームワークを使用した実験では、提案されたアプローチの妥当性と、破棄されたラウンドや利用可能なデータが少なくて必要な場所でクライアントのオンザフライデプロイメントの効率が示されている。

In this paper, we increase the availability and integration of devices in the learning process to enhance the convergence of federated learning (FL) models. To address the issue of having all the data in one location, federated learning, which maintains the ability to learn over decentralized data sets, combines privacy and technology. Until the model converges, the server combines the updated weights obtained from each dataset over a number of rounds. The majority of the literature suggested client selection techniques to accelerate convergence and boost accuracy. However, none of the existing proposals have focused on the flexibility to deploy and select clients as needed, wherever and whenever that may be. Due to the extremely dynamic surroundings, some devices are actually not available to serve as clients in FL, which affects the availability of data for learning and the applicability of the existing solution for client selection. In this paper, we address the aforementioned limitations by introducing an On-Demand-FL, a client deployment approach for FL, offering more volume and heterogeneity of data in the learning process. We make use of the containerization technology such as Docker to build efficient environments using IoT and mobile devices serving as volunteers. Furthermore, Kubernetes is used for orchestration. The Genetic algorithm (GA) is used to solve the multi-objective optimization problem due to its evolutionary strategy. The performed experiments using the Mobile Data Challenge (MDC) dataset and the Localfed framework illustrate the relevance of the proposed approach and the efficiency of the on-the-fly deployment of clients whenever and wherever needed with less discarded rounds and more available data.
翻訳日:2022-11-08 16:29:15 公開日:2022-11-05
# 確率的エンリッチトランスを用いた時空間過程のニューラルマルチイベント予測

Neural multi-event forecasting on spatio-temporal point processes using probabilistically enriched transformers ( http://arxiv.org/abs/2211.02922v1 )

ライセンス: Link先を確認
Negar Erfanian, Santiago Segarra, Maarten de Hoop(参考訳) 時間と空間における離散的な事象の予測には、危険地震の予測や感染症の発生など、多くの科学的応用がある。 歴史に依存した時空間ホークス過程は、これらの点事象を数学的にモデル化するためにしばしば用いられる。 しかし、特に1つまたは複数の将来のイベントを予測しようとすると、以前のアプローチは多くの課題に直面した。 本研究では,時空間プロセスのマルチイベント予測,トランスフォーマの利用,正規化フローの強化,確率層を用いたニューラルアーキテクチャを提案する。 筆者らは,南カリフォルニア地震,citibike,covid-19,hawkes合成ピンホイールデータセットなど,さまざまなベンチマークデータセットにおいて,将来的な離散事象の複雑履歴依存時空間分布のバッチ予測を行い,最先端のパフォーマンスを実現する。 より一般に、我々のネットワークが、たとえ基礎となる物理が知られていないとしても、関連するマーカーを含む離散イベントのデータセットにどのように適用できるかを示す。

Predicting discrete events in time and space has many scientific applications, such as predicting hazardous earthquakes and outbreaks of infectious diseases. History-dependent spatio-temporal Hawkes processes are often used to mathematically model these point events. However, previous approaches have faced numerous challenges, particularly when attempting to forecast one or multiple future events. In this work, we propose a new neural architecture for multi-event forecasting of spatio-temporal point processes, utilizing transformers, augmented with normalizing flows and probabilistic layers. Our network makes batched predictions of complex history-dependent spatio-temporal distributions of future discrete events, achieving state-of-the-art performance on a variety of benchmark datasets including the South California Earthquakes, Citibike, Covid-19, and Hawkes synthetic pinwheel datasets. More generally, we illustrate how our network can be applied to any dataset of discrete events with associated markers, even when no underlying physics is known.
翻訳日:2022-11-08 16:28:48 公開日:2022-11-05
# グラスマン多様体流れ

Grassmann Manifold Flow ( http://arxiv.org/abs/2211.02900v1 )

ライセンス: Link先を確認
Ryoma Yataka and Masashi Shiraishi(参考訳) 近年、機械学習の研究は、特定の多様体における対称性を帰納バイアスとして用いた手法に焦点を当てている。 特に、グラスマン多様体を用いたアプローチは、点雲や画像集合解析のような分野において効果的な性能を示す。 しかし、グラスマン多様体上の分布を学習する一般学習モデルの構築についての研究は不足している。 本稿では,連続正規化フローを通じてグラスマン多様体上の分布を学習するための理論的基礎を与える。 実験の結果,提案手法はデータ構造をキャプチャすることで高品質なサンプルを生成できることがわかった。 さらに,提案手法は,ログの類似性やエビデンスが低い点において,最先端手法を大幅に上回った。 得られた結果は、この研究分野のさらなる研究につながるものと期待されている。

Recently, studies on machine learning have focused on methods that use symmetry implicit in a specific manifold as an inductive bias. In particular, approaches using Grassmann manifolds have been found to exhibit effective performance in fields such as point cloud and image set analysis. However, there is a lack of research on the construction of general learning models to learn distributions on the Grassmann manifold. In this paper, we lay the theoretical foundations for learning distributions on the Grassmann manifold via continuous normalizing flows. Experimental results show that the proposed method can generate high-quality samples by capturing the data structure. Further, the proposed method significantly outperformed state-of-the-art methods in terms of log-likelihood or evidence lower bound. The results obtained are expected to usher in further research in this field of study.
翻訳日:2022-11-08 16:26:16 公開日:2022-11-05
# 自然言語に対するテキストマニフォールドによる防御

Textual Manifold-based Defense Against Natural Language Adversarial Examples ( http://arxiv.org/abs/2211.02878v1 )

ライセンス: Link先を確認
Dang Minh Nguyen, Luu Anh Tuan(参考訳) 逆境画像に関する最近の研究は、基礎となる低次元データ多様体から離れる傾向があることを示しており、現在のモデルが正しい予測を行うのは非常に困難である。 このいわゆるオフマンフォールド予想は、画像に対する敵の攻撃に対する新しい防御線を刺激した。 本研究では, 言語モデルによって誘導される文脈的埋め込み空間において, 対角テキストが自然の多様体から分岐する傾向にある同様の現象が生じることを示した。 この知見に基づいて,テキスト埋め込みを分類前に近似埋め込み多様体に投影する防御機構であるテクスチャ多様体ベースの防御(tmd)を提案する。 これは潜在的な敵対例の複雑さを減らし、最終的に保護されたモデルの堅牢性を高める。 広範囲な実験を通じて, 本手法は, 清潔な精度を損なうことなく, 種々の攻撃条件下での防御性能を一貫して, 著しく向上させる。 我々の知る限りでは、これは多様体構造を敵攻撃に対して活用する最初のNLP防御である。 私たちのコードは \url{https://github.com/dangne/tmd} で利用可能です。

Recent studies on adversarial images have shown that they tend to leave the underlying low-dimensional data manifold, making them significantly more challenging for current models to make correct predictions. This so-called off-manifold conjecture has inspired a novel line of defenses against adversarial attacks on images. In this study, we find a similar phenomenon occurs in the contextualized embedding space induced by pretrained language models, in which adversarial texts tend to have their embeddings diverge from the manifold of natural ones. Based on this finding, we propose Textual Manifold-based Defense (TMD), a defense mechanism that projects text embeddings onto an approximated embedding manifold before classification. It reduces the complexity of potential adversarial examples, which ultimately enhances the robustness of the protected model. Through extensive experiments, our method consistently and significantly outperforms previous defenses under various attack settings without trading off clean accuracy. To the best of our knowledge, this is the first NLP defense that leverages the manifold structure against adversarial attacks. Our code is available at \url{https://github.com/dangne/tmd}.
翻訳日:2022-11-08 16:19:00 公開日:2022-11-05
# 感情分析のための自動ラベル付け手法の比較

A Comparison of Automatic Labelling Approaches for Sentiment Analysis ( http://arxiv.org/abs/2211.02976v1 )

ライセンス: Link先を確認
Sumana Biswas, Karen Young, and Josephine Griffith(参考訳) 大量のソーシャルメディアデータを教師付き機械学習のタスクにラベル付けすることは、時間を要するだけでなく、困難で費用もかかる。 一方で、教師付き機械学習モデルの精度は、トレーニング対象のラベル付きデータの品質に大きく関連しており、自動感情ラベリング技術は、人間のラベル付けの時間とコストを削減できる。 我々は、textblob、vader、afinnの3つの自動感情ラベリング技術を比較し、人間の助けなしにツイートに感情を割り当てた。 第2の実験ではトレーニングとテストのデータセットとして自動ラベルを使用し、第3の実験ではトレーニングデータセットをラベル付けするために3つの自動ラベル付け技術を使用し、テストには地上の真実ラベルを使用します。 実験は、SemEval-2013(DS-1)とSemEval-2016(DS-2)の2つのTwitterデータセットで評価された。 その結果, BiLSTM深層学習モデルを用いて, Afinn ラベル法は 80.17% (DS-1) と 80.05% (DS-2) の精度が得られることがわかった。 これらの結果は、自動テキストラベリングが大きな利点をもたらす可能性を示唆し、人間のラベリングの時間とコストの代替となる可能性が示唆された。

Labelling a large quantity of social media data for the task of supervised machine learning is not only time-consuming but also difficult and expensive. On the other hand, the accuracy of supervised machine learning models is strongly related to the quality of the labelled data on which they train, and automatic sentiment labelling techniques could reduce the time and cost of human labelling. We have compared three automatic sentiment labelling techniques: TextBlob, Vader, and Afinn to assign sentiments to tweets without any human assistance. We compare three scenarios: one uses training and testing datasets with existing ground truth labels; the second experiment uses automatic labels as training and testing datasets; and the third experiment uses three automatic labelling techniques to label the training dataset and uses the ground truth labels for testing. The experiments were evaluated on two Twitter datasets: SemEval-2013 (DS-1) and SemEval-2016 (DS-2). Results show that the Afinn labelling technique obtains the highest accuracy of 80.17% (DS-1) and 80.05% (DS-2) using a BiLSTM deep learning model. These findings imply that automatic text labelling could provide significant benefits, and suggest a feasible alternative to the time and cost of human labelling efforts.
翻訳日:2022-11-08 16:18:42 公開日:2022-11-05
# 動的環境における余剰問題に対するデータ駆動進化移動最適化

A Data-Driven Evolutionary Transfer Optimization for Expensive Problems in Dynamic Environments ( http://arxiv.org/abs/2211.02879v1 )

ライセンス: Link先を確認
Ke Li, Renzhi Chen, Xin Yao(参考訳) 多くの実世界の問題は計算コストがかかり、目的関数は時間とともに進化する。 データ駆動、つまりサロゲート支援、進化的最適化は、静的環境で高価なブラックボックス最適化問題に取り組むための効果的なアプローチとして認識されている。 本稿では,データ駆動型進化的最適化により動的最適化問題を解くための,シンプルだが効果的な伝達学習フレームワークを提案する。 具体的には、階層的な多出力ガウス法を用いて、異なる時間ステップから収集されたデータ間の相関を線形に増加するハイパーパラメータ数で捉える。 さらに, 従来の最適化演習から抽出した知識をより有効活用するために, 適応的なソースタスク選択と, 暖かく輝く初期化機構を提案する。 これにより、データ駆動の進化的最適化は、厳密な計算予算で新しい環境で最適化を開始することができる。 合成ベンチマークテスト問題に関する実験と実例実験は,提案手法が9つの最先端ピアアルゴリズムに対して有効であることを示す。

Many real-world problems are usually computationally costly and the objective functions evolve over time. Data-driven, a.k.a. surrogate-assisted, evolutionary optimization has been recognized as an effective approach for tackling expensive black-box optimization problems in a static environment whereas it has rarely been studied under dynamic environments. This paper proposes a simple but effective transfer learning framework to empower data-driven evolutionary optimization to solve dynamic optimization problems. Specifically, it applies a hierarchical multi-output Gaussian process to capture the correlation between data collected from different time steps with a linearly increased number of hyperparameters. Furthermore, an adaptive source task selection along with a bespoke warm staring initialization mechanisms are proposed to better leverage the knowledge extracted from previous optimization exercises. By doing so, the data-driven evolutionary optimization can jump start the optimization in the new environment with a strictly limited computational budget. Experiments on synthetic benchmark test problems and a real-world case study demonstrate the effectiveness of our proposed algorithm against nine state-of-the-art peer algorithms.
翻訳日:2022-11-08 16:18:20 公開日:2022-11-05
# オブジェクト検出のための多目的進化モバイルアーキテクチャ探索

Multi-Objective Evolutionary for Object Detection Mobile Architectures Search ( http://arxiv.org/abs/2211.02791v1 )

ライセンス: Link先を確認
Haichao Zhang, Jiashi Li, Xin Xia, Kuangrong Hao, Xuefeng Xiao(参考訳) 近年,Neural Architecture Searchはモバイルデバイスの分類タスクにおいて大きな成功を収めている。 オブジェクト検出のためのバックボーンネットワークは通常、画像分類タスクで取得される。 しかしながら、分類タスクを通して検索されるアーキテクチャは、画像とオブジェクト検出のタスクのギャップのため、副最適である。 バックボーンネットワークアーキテクチャにフォーカスしているように、モバイルデバイスのオブジェクト検出は、主にバックボーンが常に高価なimagenet事前トレーニングを必要とするため、限定されている。 したがって、高価な事前学習をすることなく、モバイルデバイスオブジェクト検出のためのネットワークアーキテクチャ探索のアプローチを検討する必要がある。 本稿では,nasシナリオに対する非支配的ソートに基づく進化的最適化手法の一種である移動物体検出バックボーンネットワークアーキテクチャ探索アルゴリズムを提案する。 特定の制約内でバックボーンネットワークアーキテクチャの取得を素早く行うことができる。 最適線形結合精度と計算コストの問題をより良く解くことができる。 提案手法では,重みマッピング技術を用いて,異なる深さ,幅,拡張サイズでバックボーンネットワークを探索し,モバイル機器検出タスクにNASをはるかに効率的に使用することができる。 本実験では,ターゲット検出フレームワークの軽量バージョンであるYoloX-Liteに対する提案手法の有効性を検証する。 同様の計算複雑性の下では、検索したバックボーンネットワークアーキテクチャの精度は、MobileDetよりも2.0% mAP高い。 改良されたバックボーンネットワークは,オブジェクト検出ネットワークの精度を高めつつ,計算量を削減できる。 その効果を証明するため、一連のアブレーション研究が行われ、作業機構が詳細に分析されている。

Recently, Neural architecture search has achieved great success on classification tasks for mobile devices. The backbone network for object detection is usually obtained on the image classification task. However, the architecture which is searched through the classification task is sub-optimal because of the gap between the task of image and object detection. As while work focuses on backbone network architecture search for mobile device object detection is limited, mainly because the backbone always requires expensive ImageNet pre-training. Accordingly, it is necessary to study the approach of network architecture search for mobile device object detection without expensive pre-training. In this work, we propose a mobile object detection backbone network architecture search algorithm which is a kind of evolutionary optimized method based on non-dominated sorting for NAS scenarios. It can quickly search to obtain the backbone network architecture within certain constraints. It better solves the problem of suboptimal linear combination accuracy and computational cost. The proposed approach can search the backbone networks with different depths, widths, or expansion sizes via a technique of weight mapping, making it possible to use NAS for mobile devices detection tasks a lot more efficiently. In our experiments, we verify the effectiveness of the proposed approach on YoloX-Lite, a lightweight version of the target detection framework. Under similar computational complexity, the accuracy of the backbone network architecture we search for is 2.0% mAP higher than MobileDet. Our improved backbone network can reduce the computational effort while improving the accuracy of the object detection network. To prove its effectiveness, a series of ablation studies have been carried out and the working mechanism has been analyzed in detail.
翻訳日:2022-11-08 16:10:31 公開日:2022-11-05
# 数ショットクラスインクリメンタルラーニングのためのプロトタイプ四脚

Prototypical quadruplet for few-shot class incremental learning ( http://arxiv.org/abs/2211.02947v1 )

ライセンス: Link先を確認
Sanchar Palit, Biplab Banerjee, Subhasis Chaudhuri(参考訳) 現代のコンピュータビジョンアルゴリズムの多くは、データの不足と新しいタスクの段階的な学習という2つの大きなボトルネックに悩まされている。 モデルが新しいデータバッチでモデルをトレーニングしている間、モデルは以前のデータを無秩序に分類する能力を失います。 従来の方法では、これまでの学習したデータの破滅的な忘れを軽減しつつ、現在のセッションでのトレーニングが妥協されている。 最先端のジェネレーティブ・リプレイベースのアプローチは、ジェネレーティブ・逆境ネットワーク(GAN)のような複雑な構造を使って破滅的な忘れ物に対処する。 さらに、サンプルが少ないGANのトレーニングは不安定につながる可能性がある。 本稿では,これら2つの大きなハードルに対処する新しい手法を提案する。 提案手法では, コントラスト損失が向上し, より堅牢な埋め込み空間を同定する。 さらに,本手法では,新しいクラスで学習した場合でも,組込み空間における事前の知識を保持できる。 真のクラス平均を表現することができるようにトレーニングしながら、以前のセッションクラスのプロトタイプを更新します。 我々の分類規則は最寄りのクラス平均分類戦略に基づいているので、これは最も重要なことです。 我々は、新しいクラスでモデルをトレーニングした後も埋め込み空間が無傷であることを示し、その結果を実証した。 提案手法は,各セッションの精度において,既存の最先端アルゴリズムよりも優れていた。

Many modern computer vision algorithms suffer from two major bottlenecks: scarcity of data and learning new tasks incrementally. While training the model with new batches of data the model looses it's ability to classify the previous data judiciously which is termed as catastrophic forgetting. Conventional methods have tried to mitigate catastrophic forgetting of the previously learned data while the training at the current session has been compromised. The state-of-the-art generative replay based approaches use complicated structures such as generative adversarial network (GAN) to deal with catastrophic forgetting. Additionally, training a GAN with few samples may lead to instability. In this work, we present a novel method to deal with these two major hurdles. Our method identifies a better embedding space with an improved contrasting loss to make classification more robust. Moreover, our approach is able to retain previously acquired knowledge in the embedding space even when trained with new classes. We update previous session class prototypes while training in such a way that it is able to represent the true class mean. This is of prime importance as our classification rule is based on the nearest class mean classification strategy. We have demonstrated our results by showing that the embedding space remains intact after training the model with new classes. We showed that our method preformed better than the existing state-of-the-art algorithms in terms of accuracy across different sessions.
翻訳日:2022-11-08 16:10:10 公開日:2022-11-05
# 内部:農業における機械学習応用のための実験室生植物の画像変換

Inside Out: Transforming Images of Lab-Grown Plants for Machine Learning Applications in Agriculture ( http://arxiv.org/abs/2211.02972v1 )

ライセンス: Link先を確認
A. E. Krosney, P. Sotoodeh, C. J. Henry, M. A. Beck, C. P. Bidinosti(参考訳) 機械学習タスクは、任意のドメインの特定の問題に対して適切に実行するために、結果ネットワークのためのかなりの量のトレーニングデータを必要とすることが多い。 農業において、データセットのサイズは、同じ遺伝子型の2つの植物間の表現型の違いによってさらに制限される。 合成型データセットは、実データがない場合に既存のモデルを改善することを約束している。 本稿では,コントラスト型非ペア型翻訳 (cut) 生成逆ネットワーク (gan) と簡易画像処理技術を用いて,室内植物画像をフィールド画像として表現する。 一つの植物のみを含む画像を翻訳するためにネットワークを訓練しながら,複数の植物フィールド画像を生成するための拡張が容易であることを示す。 さらに, 合成多植物画像を用いて複数のyolov5ナノ物体検出モデルを訓練し, 植物検出のタスクを行い, 実地データ画像におけるモデルの精度を測定した。 CUT-GANによって生成されたトレーニングデータを含めると、実際のデータのみに基づいてトレーニングされたネットワークと比較して、植物検出性能が向上する。

Machine learning tasks often require a significant amount of training data for the resultant network to perform suitably for a given problem in any domain. In agriculture, dataset sizes are further limited by phenotypical differences between two plants of the same genotype, often as a result of differing growing conditions. Synthetically-augmented datasets have shown promise in improving existing models when real data is not available. In this paper, we employ a contrastive unpaired translation (CUT) generative adversarial network (GAN) and simple image processing techniques to translate indoor plant images to appear as field images. While we train our network to translate an image containing only a single plant, we show that our method is easily extendable to produce multiple-plant field images. Furthermore, we use our synthetic multi-plant images to train several YoloV5 nano object detection models to perform the task of plant detection and measure the accuracy of the model on real field data images. Including training data generated by the CUT-GAN leads to better plant detection performance compared to a network trained solely on real data.
翻訳日:2022-11-08 16:09:46 公開日:2022-11-05
# 気候ネットワーク構築の落とし穴:統計的展望

Pitfalls of Climate Network Construction: A Statistical Perspective ( http://arxiv.org/abs/2211.02888v1 )

ライセンス: Link先を確認
Moritz Haas, Bedartha Goswami, Ulrike von Luxburg(参考訳) ネットワークに基づく力学系の解析は、気候科学においてますます人気が高まっている。 本稿では,統計的観点からのネットワーク構築に対処し,計算された相関値が経験的推定値であるという事実を強調する。 基底真理ネットワークからの逸脱としてスプリアス挙動を測定するために,球面上の時間依存等方性確率場をシミュレートし,共通のネットワーク構築手法を適用する。 推定手順から生じる不確実性が,ネットワーク特性に大きく影響を与える方法がいくつか見出された。 局所的なコヒーレントな相関構造を持つ場合には、スプリアスリンクバンドルテレコネクションとスプリアス高次クラスタを期待する必要がある。 異方性推定分散はまた、経験的ネットワークに深刻なバイアスを引き起こす。 ERA5リアナリシスデータを用いて検討した。 また,一般的な再サンプリング手順が重要度評価に不適切である理由を説明し,統計的に有意義なアンサンブル構築フレームワークを提案する。 不足データからの予測に困難が生じているかを伝えることで、どの設計決定が堅牢性を高めるかを示すことで、我々は将来より信頼性の高い気候ネットワークの構築に貢献することを望んでいる。

Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
翻訳日:2022-11-08 16:02:11 公開日:2022-11-05
# 塩分法の新しい定義と評価--内在的・完全的・音的継続-

New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound ( http://arxiv.org/abs/2211.02912v1 )

ライセンス: Link先を確認
Arushi Gupta, Nikunj Saunshi, Dingli Yu, Kaifeng Lyu, Sanjeev Arora(参考訳) 塩分法は、ディープネットによって割り当てられたラベルに対して最も重要であった入力の一部をハイライトする熱マップを計算する。 サリエンシ法の評価は、この熱マップを元の入力の最高ランクのピクセルを$k$保持し、残りを‘textquotedblleft uninformative\textquotedblright\ピクセルに置き換えて、ネットの出力がほとんど変化していないかどうかを確認することによって、新しい {\em masked input に変換する。 これは通常、出力の説明として見なされるが、本論文では、この因果関係の推測が疑わしい理由を浮き彫りにしている。 em completeness \& soundness}の論理概念に着想を得て、上記のタイプの評価は説明の完全性に焦点をあてるが、健全性は無視する。 両方の概念を捉えるために新しい評価指標が導入され、データセットとネットを使用するが、個別にトレーニングされたネットや人的評価などはない。 評価において,先行手法と一致するか,または上回る単純なサルマンシー法が記述されている。 実験はまた、テレビの正規化やアップサンプリングのような一般的なヒューリスティックなトリックに対して、音性に基づく新しい本質的な正当化を提案する。

Saliency methods compute heat maps that highlight portions of an input that were most {\em important} for the label assigned to it by a deep net. Evaluations of saliency methods convert this heat map into a new {\em masked input} by retaining the $k$ highest-ranked pixels of the original input and replacing the rest with \textquotedblleft uninformative\textquotedblright\ pixels, and checking if the net's output is mostly unchanged. This is usually seen as an {\em explanation} of the output, but the current paper highlights reasons why this inference of causality may be suspect. Inspired by logic concepts of {\em completeness \& soundness}, it observes that the above type of evaluation focuses on completeness of the explanation, but ignores soundness. New evaluation metrics are introduced to capture both notions, while staying in an {\em intrinsic} framework -- i.e., using the dataset and the net, but no separately trained nets, human evaluations, etc. A simple saliency method is described that matches or outperforms prior methods in the evaluations. Experiments also suggest new intrinsic justifications, based on soundness, for popular heuristic tricks such as TV regularization and upsampling.
翻訳日:2022-11-08 16:01:53 公開日:2022-11-05
# antGLasso: 効率的なテンソルグラフラッソアルゴリズム

antGLasso: An Efficient Tensor Graphical Lasso Algorithm ( http://arxiv.org/abs/2211.02920v1 )

ライセンス: Link先を確認
Bailey Andrew, David Westhead, Luisa Cutillo(参考訳) グラフラッソアルゴリズムのクラス(およびより広くは「テンソル」グラフラッソアルゴリズム)は、行列およびテンソルデータ内の依存構造を推定するために用いられてきた。 しかし、現在のすべての手法は、控えめなサイズのデータセットに非常に長い時間がかかる。 本稿では,その反復的前駆体とは異なり,依存関係構造を解析的に推定するテンソルグラフラッソアルゴリズムを提案する。 これにより、複数の桁数のスピードアップが可能になり、このクラスのアルゴリズムを大規模な現実世界のデータセットで使用できる。

The class of bigraphical lasso algorithms (and, more broadly, 'tensor'-graphical lasso algorithms) has been used to estimate dependency structures within matrix and tensor data. However, all current methods to do so take prohibitively long on modestly sized datasets. We present a novel tensor-graphical lasso algorithm that analytically estimates the dependency structure, unlike its iterative predecessors. This provides a speedup of multiple orders of magnitude, allowing this class of algorithms to be used on large, real-world datasets.
翻訳日:2022-11-08 16:01:30 公開日:2022-11-05
# 結核患者に対する大規模治療適応の予測

Predicting Treatment Adherence of Tuberculosis Patients at Scale ( http://arxiv.org/abs/2211.02943v1 )

ライセンス: Link先を確認
Mihir Kulkarni, Satvik Golechha, Rishi Raj, Jithin Sreedharan, Ankit Bhardwaj, Santanu Rathod, Bhavin Vadera, Jayakrishna Kurada, Sanjay Mattoo, Rajendra Joshi, Kirankumar Rade, Alpan Raval(参考訳) 感染性細菌病である結核(tb)は、特に低所得国において致命的な死因であり、全世界で推定1000万人の新規感染者が2020ドルで報告されている。 TBは治療可能であるが、薬局への非依存は致死性および死亡の重要な原因である。 このように、薬局を離脱するリスクのある患者を積極的に特定することで、副作用を軽減できる。 インドの4州から70,000ドル近い患者を対象とする,極度の非整合性のプロキシ尺度とデータセットを用いて,従来型の階数に基づく非整合性の早期予測という機械学習(ML)問題を定式化し,解決する。 MLモデルをトレーニングし、ベースラインに対する評価を行い、ルールベースのベースラインに対する$\sim 100\%$リフトとランダムな分類器に対する$\sim 214\%$を達成する。 データ品質、高カーディナリティのカテゴリデータ、低いターゲット率、分布シフト、コホート間のばらつき、アルゴリズムの公平性、堅牢性と説明可能性の必要性など、プロセスにおけるさまざまな問題に対処します。 以上の結果から,非アドヒレント患者のリスク階層化は,大規模に展開可能なmlソリューションであることが示唆された。

Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.
翻訳日:2022-11-08 15:53:23 公開日:2022-11-05
# 時系列予測のための回帰型損失関数の包括的調査

A Comprehensive Survey of Regression Based Loss Functions for Time Series Forecasting ( http://arxiv.org/abs/2211.02989v1 )

ライセンス: Link先を確認
Aryan Jadon, Avinash Patil, Shruti Jadon(参考訳) 時系列予測は、ネットワーク利用予測、リソース割り当て、異常検出、予測保守など、多くの応用により、活発な研究分野となっている。 過去5年間に発行された多くの出版物は、バイアスデータ、長期予測、複数行特徴などのケースに対処するための多種多様な目標損失関数を提案してきた。 本稿では、時系列予測によく用いられる14のよく知られた回帰損失関数を要約し、それらの応用がより高速でより優れたモデル収束に役立つ状況を示した。 また,データ分布が不明な状況において,損失関数の特定のカテゴリが全データセットでよく機能し,基本目的関数とみなすことができることを示した。 私たちのコードはGitHubで入手できる。 https://github.com/aryan-jadon/Regression-Loss-Functions-in-Time-Series-Forecasting-Tensorflow。

Time Series Forecasting has been an active area of research due to its many applications ranging from network usage prediction, resource allocation, anomaly detection, and predictive maintenance. Numerous publications published in the last five years have proposed diverse sets of objective loss functions to address cases such as biased data, long-term forecasting, multicollinear features, etc. In this paper, we have summarized 14 well-known regression loss functions commonly used for time series forecasting and listed out the circumstances where their application can aid in faster and better model convergence. We have also demonstrated how certain categories of loss functions perform well across all data sets and can be considered as a baseline objective function in circumstances where the distribution of the data is unknown. Our code is available at GitHub: https://github.com/aryan-jadon/Regression-Loss-Functions-in-Time-Series-Forecasting-Tensorflow.
翻訳日:2022-11-08 15:52:59 公開日:2022-11-05
# データセットの欠落に対処する方法論と人口統計学的健康データセットへの応用

Towards a methodology for addressing missingness in datasets, with an application to demographic health datasets ( http://arxiv.org/abs/2211.02856v1 )

ライセンス: Link先を確認
Gift Khangamwa, Terence L. van Zyl and Clint J. van Alten(参考訳) データの欠如は、健康データセットの一般的な懸念であり、優れた意思決定プロセスへの影響は、十分に文書化されている。 本研究の貢献は, 欠落データ問題を解決するために, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせて, 欠落データ問題に対処する手法である。 具体的には、これらの目的の一連の実験を行った: $a)$ 現実的な合成データセットの生成; $b)$ データの欠落をシミュレートする; $c)$ 欠落したデータを復元する; $d)$ インプテーションのパフォーマンスを分析する。 提案手法では,実際の人口統計および健康データセットのクリーン化サブセットからパラメータを学習したガウス混合モデルを用いて合成データを生成する。 我々は,無作為スキームmcarの欠落条件下で10ドル$%,20ドル$%,30ドル$%,40ドル$の様々な欠落度をシミュレートした。 我々は,クラスタリング,分類,直接的インプテーション解析を含む統合パフォーマンス分析フレームワークを用いた。 以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 \%$ および $80 \%$ on $a) $ an unseen real dataset と $b) $ an unseen reserve synthetic test dataset の予測が可能であることが示唆された。 また, dae法をインデュートに用いたモデルでは, 精度がやや低かったにもかかわらず, ログロスが最も低い値を示した。 結論として,本研究は,我々の手法を用いて,見当たらないデータセットの欠如を解決するソリューションをリバースエンジニアリングできることを実証する。 さらに,健康データセットを用いたが,その方法論は他の文脈でも利用可能である。

Missing data is a common concern in health datasets, and its impact on good decision-making processes is well documented. Our study's contribution is a methodology for tackling missing data problems using a combination of synthetic dataset generation, missing data imputation and deep learning methods to resolve missing data challenges. Specifically, we conducted a series of experiments with these objectives; $a)$ generating a realistic synthetic dataset, $b)$ simulating data missingness, $c)$ recovering the missing data, and $d)$ analyzing imputation performance. Our methodology used a gaussian mixture model whose parameters were learned from a cleaned subset of a real demographic and health dataset to generate the synthetic data. We simulated various missingness degrees ranging from $10 \%$, $20 \%$, $30 \%$, and $40\%$ under the missing completely at random scheme MCAR. We used an integrated performance analysis framework involving clustering, classification and direct imputation analysis. Our results show that models trained on synthetic and imputed datasets could make predictions with an accuracy of $83 \%$ and $80 \%$ on $a) $ an unseen real dataset and $b)$ an unseen reserved synthetic test dataset, respectively. Moreover, the models that used the DAE method for imputed yielded the lowest log loss an indication of good performance, even though the accuracy measures were slightly lower. In conclusion, our work demonstrates that using our methodology, one can reverse engineer a solution to resolve missingness on an unseen dataset with missingness. Moreover, though we used a health dataset, our methodology can be utilized in other contexts.
翻訳日:2022-11-08 15:43:51 公開日:2022-11-05
# スペクトルテンプレートによる製品グラフの学習

Learning Product Graphs from Spectral Templates ( http://arxiv.org/abs/2211.02893v1 )

ライセンス: Link先を確認
Aref Einizade, Sepideh Hajipour Sardouie(参考訳) グラフ学習(GL)は、データマイニングと機械学習(ML)におけるコネクションの推論と分析のコアである。 グラフ信号のデータセットを観察し、特定の仮定を考慮して、グラフ信号処理(GSP)ツールはGLアプローチの実践的な制約を提供することができる。 適用可能な制約の1つは、所望の周波数シグネチャを持つグラフ、すなわちスペクトルテンプレートを推論できる。 しかし、特に高次元グラフ信号からの推測において、計算負荷は困難な障壁である。 この問題に対処するため,また,グラフ製品構造を持つ基礎となるグラフの場合において,製品スペクトルテンプレートからの学習積(高次元)グラフは,関連する領域では解決されていない高次元グラフ信号から直接学習するよりも,大幅に複雑さを低減した学習積(高次元)グラフを提案する。 現在の希少なアプローチとは対照的に、我々のアプローチはグラフ製品の種類を知らずに(2つ以上のグラフを持つ)あらゆる種類の製品グラフを学習でき、パラメータも少ない。 合成データと実世界のデータ、すなわち脳信号解析と多視点オブジェクト画像の両方に関する実験結果は、専門家による研究によって支持される説明可能で有意義な因子グラフと、希少電流制限アプローチを上回っている。

Graph Learning (GL) is at the core of inference and analysis of connections in data mining and machine learning (ML). By observing a dataset of graph signals, and considering specific assumptions, Graph Signal Processing (GSP) tools can provide practical constraints in the GL approach. One applicable constraint can infer a graph with desired frequency signatures, i.e., spectral templates. However, a severe computational burden is a challenging barrier, especially for inference from high-dimensional graph signals. To address this issue and in the case of the underlying graph having graph product structure, we propose learning product (high dimensional) graphs from product spectral templates with significantly reduced complexity rather than learning them directly from high-dimensional graph signals, which, to the best of our knowledge, has not been addressed in the related areas. In contrast to the rare current approaches, our approach can learn all types of product graphs (with more than two graphs) without knowing the type of graph products and has fewer parameters. Experimental results on both the synthetic and real-world data, i.e., brain signal analysis and multi-view object images, illustrate explainable and meaningful factor graphs supported by expert-related research, as well as outperforming the rare current restricted approaches.
翻訳日:2022-11-08 15:43:18 公開日:2022-11-05
# HAQJSK:グラフ分類のための階層型量子Jensen-Shannonカーネル

HAQJSK: Hierarchical-Aligned Quantum Jensen-Shannon Kernels for Graph Classification ( http://arxiv.org/abs/2211.02904v1 )

ライセンス: Link先を確認
Lu Bai, Lixin Cui, Yue Wang, Edwin R. Hancock(参考訳) 本研究では,非分散グラフに対する新しい量子カーネル群,すなわち階層型量子化 Jensen-Shannon Kernels (HAQJSK)を提案する。 多くの従来のグラフカーネルとは異なり、提案されたHAQJSKカーネルは、乱数サイズのグラフと変換グラフの間の階層的整列構造情報を固定サイズの整列グラフ構造、すなわち頂点の階層的推移的配向随伴行列と連続時間量子ウォーク(CTQW)の階層的推移的配向密度行列に組み込むことができる。 一対のグラフに対して、得られたHAQJSKカーネルは、その推移的整列グラフ構造の間の量子ジェンセン-シャノン分岐(QJSD)を測定することによって定義される。 提案するHAQJSKカーネルは,CTQWの観点からより固有なグローバルグラフ特性を反映するだけでなく,既存のR-畳み込みカーネルで発生する構造的対応情報を無視する欠点にも対処する。 さらに、QJSDとCTQWに関連付けられた以前の量子Jensen-Shannonカーネルとは異なり、提案されたHAQJSKカーネルは、置換不変性と正定性の性質を同時に保証し、HAQJSKカーネルの理論的利点を説明することができる。 実験は提案したカーネルの有効性を示す。

In this work, we propose a family of novel quantum kernels, namely the Hierarchical Aligned Quantum Jensen-Shannon Kernels (HAQJSK), for un-attributed graphs. Different from most existing classical graph kernels, the proposed HAQJSK kernels can incorporate hierarchical aligned structure information between graphs and transform graphs of random sizes into fixed-sized aligned graph structures, i.e., the Hierarchical Transitive Aligned Adjacency Matrix of vertices and the Hierarchical Transitive Aligned Density Matrix of the Continuous-Time Quantum Walk (CTQW). For a pair of graphs to hand, the resulting HAQJSK kernels are defined by measuring the Quantum Jensen-Shannon Divergence (QJSD) between their transitive aligned graph structures. We show that the proposed HAQJSK kernels not only reflect richer intrinsic global graph characteristics in terms of the CTQW, but also address the drawback of neglecting structural correspondence information arising in most existing R-convolution kernels. Furthermore, unlike the previous Quantum Jensen-Shannon Kernels associated with the QJSD and the CTQW, the proposed HAQJSK kernels can simultaneously guarantee the properties of permutation invariant and positive definiteness, explaining the theoretical advantages of the HAQJSK kernels. Experiments indicate the effectiveness of the proposed kernels.
翻訳日:2022-11-08 15:42:57 公開日:2022-11-05
# フィルタに基づくてんかんグラフの合理的制約学習への一般的アプローチ

A Filtering-based General Approach to Learning Rational Constraints of Epistemic Graphs ( http://arxiv.org/abs/2211.02918v1 )

ライセンス: Link先を確認
Xiao Chi(参考訳) 認識グラフは確率的議論に対する認識論的アプローチを一般化し、議論間の不確実性に取り組む。 両方向の一般化法を用いて, 表象グラフに表される関係の性質を考慮せずに, 参加者の信念のみを考慮したデータから表象的制約を生成する枠組みが提案された。 オリジナルのフレームワークの欠如は、より厳密な制約を使ってルールを学習できないことであり、学習したルールは直観に反するかもしれない。 一方、より制限された値を扱う場合、フィルタリング計算の複雑さは急激に増加し、時間性能は不合理になる。 本稿では,各エージェントの異なる引数に対する信念と認識論的制約に対応する認識論的グラフの両方に基づく有理規則の集合を生成するために,多方向一般化ステップを用いたフィルタリングに基づくアプローチを提案する。 このアプローチは、高い効率で複数の制限された値を持つ合理的なルールを生成することができる。 一方,我々は,合理的なルール決定の前提に基づいてデータセットの合理性を分析するための標準を提案している。 フィルタリングに基づく2つの適切なデータベースに対するアプローチを評価する。 実験結果から, フィルタリングに基づくアプローチは, 従来のフレームワークと比較して効率が良く, 改善されたアプローチから生成されたルールが合理的であることが確認された。

Epistemic graphs generalize the epistemic approach to probabilistic argumentation and tackle the uncertainties in and between arguments. A framework was proposed to generate epistemic constraints from data using a two-way generalization method in the perspective of only considering the beliefs of participants without considering the nature of relations represented in an epistemic graph. The deficiency of original framework is that it is unable to learn rules using tighter constraints, and the learnt rules might be counterintuitive. Meanwhile, when dealing with more restricted values, the filtering computational complexity will increase sharply, and the time performance would become unreasonable. This paper introduces a filtering-based approach using a multiple-way generalization step to generate a set of rational rules based on both the beliefs of each agent on different arguments and the epistemic graph corresponding to the epistemic constraints. This approach is able to generated rational rules with multiple restricted values in higher efficiency. Meanwhile, we have proposed a standard to analyze the rationality of a dataset based on the postulates of deciding rational rules. We evaluate the filtering-based approach on two suitable data bases. The empirical results show that the filtering-based approach performs well with a better efficiency comparing to the original framework, and rules generated from the improved approach are ensured to be rational.
翻訳日:2022-11-08 15:42:28 公開日:2022-11-05
# 校正不確かさによる5G UAVジャミング同定の精度と信頼性

Accurate and Reliable Methods for 5G UAV Jamming Identification With Calibrated Uncertainty ( http://arxiv.org/abs/2211.02924v1 )

ライセンス: Link先を確認
Hamed Farkhari, Joseanne Viana, Pedro Sebastiao, Luis Miguel Campos, Luis Bernardo, Rui Dinis, Sarang Kahvazadeh(参考訳) 不確実性を考慮せずに精度を上げるだけで、Deep Neural Network(DNN)の決定に悪影響を及ぼし、信頼性が低下する可能性がある。 本稿では、5G UAVセキュリティデータセットに適用されたDNN出力の精度と信頼性を同時に向上する時系列バイナリ分類問題に対する5つの前処理および後処理手法を提案する。 これらの手法はDNN出力を入力パラメータとして使用し、異なる方法で処理する。 2つの方法はよく知られた機械学習(ML)アルゴリズムを補完として使用し、残りの3つはDNNが推定する信頼値のみを使用する。 我々は、期待校正誤差(ECE)、最大校正誤差(MCE)、平均信頼度(MC)、平均精度(MA)、正規化負ログ類似度(NLL)、ブライアスコア損失(BSL)、信頼性スコア(RS)の7つの異なる指標とそれらの間のトレードオフを比較し、提案されたハイブリッドアルゴリズムを評価する。 まず,xgb (extreme gradient boosting) 分類器は,本研究が提示する条件下ではバイナリ分類に信頼性がないことを示す。 第2に,少なくとも1つの潜在的手法が,dnn softmax層の分類よりも優れた結果が得られることを実証する。 最後に,RSがMCとMAの指標の違いを決定するという仮定に基づいて,予測手法が精度と信頼性を向上し,信頼性を向上させることを示し,その差はゼロである。 例えば、メソッド3は、XGB分類器と比較して0.65の最高のRSを示し、RSは7.22である。

Only increasing accuracy without considering uncertainty may negatively impact Deep Neural Network (DNN) decision-making and decrease its reliability. This paper proposes five combined preprocessing and post-processing methods for time-series binary classification problems that simultaneously increase the accuracy and reliability of DNN outputs applied in a 5G UAV security dataset. These techniques use DNN outputs as input parameters and process them in different ways. Two methods use a well-known Machine Learning (ML) algorithm as a complement, and the other three use only confidence values that the DNN estimates. We compare seven different metrics, such as the Expected Calibration Error (ECE), Maximum Calibration Error (MCE), Mean Confidence (MC), Mean Accuracy (MA), Normalized Negative Log Likelihood (NLL), Brier Score Loss (BSL), and Reliability Score (RS) and the tradeoffs between them to evaluate the proposed hybrid algorithms. First, we show that the eXtreme Gradient Boosting (XGB) classifier might not be reliable for binary classification under the conditions this work presents. Second, we demonstrate that at least one of the potential methods can achieve better results than the classification in the DNN softmax layer. Finally, we show that the prospective methods may improve accuracy and reliability with better uncertainty calibration based on the assumption that the RS determines the difference between MC and MA metrics, and this difference should be zero to increase reliability. For example, Method 3 presents the best RS of 0.65 even when compared to the XGB classifier, which achieves RS of 7.22.
翻訳日:2022-11-08 15:42:07 公開日:2022-11-05
# 耳マスク分割のための新しいマスク-RCNNアーキテクチャの評価

Evaluating Novel Mask-RCNN Architectures for Ear Mask Segmentation ( http://arxiv.org/abs/2211.02799v1 )

ライセンス: Link先を確認
Saurav K. Aryal, Teanna Barrett, Gloria Washington(参考訳) 人間の耳は一般に普遍的で、収集可能で、区別され、永続的である。 耳に基づく生体認証はニッチであり、近年研究されているアプローチである。 耳ベースのバイオメトリックアルゴリズムがうまく機能するためには、耳検出とセグメンテーションを正確に行う必要がある。 バウンディングボックスに関する既存の文献では重要な研究が行われているが、アプローチの欠如は耳にセグメンテーションマスクを出力している。 本稿では,新しいモデルであるmaskercnn (resnet 101 +fpn) を4つの異なるデータセットで学習し,比較する。 平均精度(ap)スコアは、新しいモデルが最先端を上回っているが、複数のデータセットで最高の性能を発揮するモデルはないことを示している。

The human ear is generally universal, collectible, distinct, and permanent. Ear-based biometric recognition is a niche and recent approach that is being explored. For any ear-based biometric algorithm to perform well, ear detection and segmentation need to be accurately performed. While significant work has been done in existing literature for bounding boxes, a lack of approaches output a segmentation mask for ears. This paper trains and compares three newer models to the state-of-the-art MaskRCNN (ResNet 101 +FPN) model across four different datasets. The Average Precision (AP) scores reported show that the newer models outperform the state-of-the-art but no one model performs the best over multiple datasets.
翻訳日:2022-11-08 15:35:20 公開日:2022-11-05
# ビデオ監視シナリオにおける顔認識手法の比較分析

A Comparative Analysis of the Face Recognition Methods in Video Surveillance Scenarios ( http://arxiv.org/abs/2211.02952v1 )

ライセンス: Link先を確認
Eker Onur, Bal Murat(参考訳) 顔認識は、リアルタイムアプリケーションで動作する幅広いセキュリティシステムに基本である。 ビデオ監視ベースの顔認識では、顔画像は無制御の環境で複数のフレームでキャプチャされ、頭の位置、照明、シャドーイング、動きのぼやけ、フォーカスがシーケンス上で変化する。 顔認識タスクに関わる3つの基本的な操作は、顔検出、顔アライメント、顔認識である。 本研究は,ネットワークアーキテクチャの代わりに顔認識ソリューションのみに焦点をあてるため,同じバックボーンアーキテクチャでテストすることで,最先端の顔認識手法の比較ベンチマーク表を提案する。 そこで本研究では, 年齢差, クラス内差(顔のメイクアップ, ひげなど)と, ネイティブな顔画像データを用いた顔IDの監視データセットを構築し, 評価を行った。 一方,本研究では,非マスク顔,マスク顔,眼鏡付き顔など,さまざまな状況に対して最適な認識方法を見出した。

Facial recognition is fundamental for a wide variety of security systems operating in real-time applications. In video surveillance based face recognition, face images are typically captured over multiple frames in uncontrolled conditions; where head pose, illumination, shadowing, motion blur and focus change over the sequence. We can generalize that the three fundamental operations involved in the facial recognition tasks: face detection, face alignment and face recognition. This study presents comparative benchmark tables for the state-of-art face recognition methods by testing them with same backbone architecture in order to focus only on the face recognition solution instead of network architecture. For this purpose, we constructed a video surveillance dataset of face IDs that has high age variance, intra-class variance (face make-up, beard, etc.) with native surveillance facial imagery data for evaluation. On the other hand, this work discovers the best recognition methods for different conditions like non-masked faces, masked faces, and faces with glasses.
翻訳日:2022-11-08 15:35:09 公開日:2022-11-05
# 注意と多視点特徴融合戦略による腎臓石認識の改善

Improved Kidney Stone Recognition Through Attention and Multi-View Feature Fusion Strategies ( http://arxiv.org/abs/2211.02967v1 )

ライセンス: Link先を確認
Elias Villalvazo-Avila, Francisco Lopez-Tiro, Jonathan El-Beze, Jacques Hubert, Miguel Gonzalez-Mendoza, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 本稿では,内視鏡の異なる視点から獲得した腎臓石片に関する情報の抽出と融合を行うための深層学習法を提案する。 各畳み込みブロックの最後に注意層を付加することにより特徴の識別力を向上させるため、分類器の訓練中に表面及び断面フラグメント画像が併用される。 このアプローチは、両視点を検査することで腎臓結石を視覚的に識別するために、生物学者が元vivoで行った形態構成分析を模倣するために特別に設計されている。 バックボーンへのアテンション機構の追加は、シングルビュー抽出バックボーンの結果を平均で4%改善した。 さらに, 最先端技術と比較して, 深部特徴の融合により, 腎臓結石の分類精度が11%まで向上した。

This contribution presents a deep learning method for the extraction and fusion of information relating to kidney stone fragments acquired from different viewpoints of the endoscope. Surface and section fragment images are jointly used during the training of the classifier to improve the discrimination power of the features by adding attention layers at the end of each convolutional block. This approach is specifically designed to mimic the morpho-constitutional analysis performed in ex-vivo by biologists to visually identify kidney stones by inspecting both views. The addition of attention mechanisms to the backbone improved the results of single view extraction backbones by 4% on average. Moreover, in comparison to the state-of-the-art, the fusion of the deep features improved the overall results up to 11% in terms of kidney stone classification accuracy.
翻訳日:2022-11-08 15:34:53 公開日:2022-11-05
# 難易度ビデオキャプションからの意味メタデータ抽出

Semantic Metadata Extraction from Dense Video Captioning ( http://arxiv.org/abs/2211.02982v1 )

ライセンス: Link先を確認
Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik(参考訳) 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。 自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。 メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。 我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。 実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。 抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。

Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
翻訳日:2022-11-08 15:24:51 公開日:2022-11-05
# メモリデーモンを用いた微分可能なニューラルコンピュータ

Differentiable Neural Computers with Memory Demon ( http://arxiv.org/abs/2211.02987v1 )

ライセンス: Link先を確認
Ari Azarafrooz(参考訳) Differentiable Neural Computer (DNC)は、読み取り、書き込み、削除操作による反復的なコンテンツ修正を可能にする外部メモリを備えたニューラルネットワークである。 メモリコンテンツの情報理論特性は,そのようなアーキテクチャの性能において重要な役割を担っていることを示す。 我々は,dncアーキテクチャに新たなメモリ・デーモンの概念を導入し,追加入力エンコーディングにより暗黙的にメモリ内容を修飾する。 メモリデーモンの目的は、連続した外部メモリコンテンツの相互情報の期待総和を最大化することである。

A Differentiable Neural Computer (DNC) is a neural network with an external memory which allows for iterative content modification via read, write and delete operations. We show that information theoretic properties of the memory contents play an important role in the performance of such architectures. We introduce a novel concept of memory demon to DNC architectures which modifies the memory contents implicitly via additive input encoding. The goal of the memory demon is to maximize the expected sum of mutual information of the consecutive external memory contents.
翻訳日:2022-11-08 15:17:14 公開日:2022-11-05
# Tri-Attention:自然言語処理におけるコンテキスト認識の明示的注意機構

Tri-Attention: Explicit Context-Aware Attention Mechanism for Natural Language Processing ( http://arxiv.org/abs/2211.02899v1 )

ライセンス: Link先を確認
Rui Yu, Yifeng Li, Wenpeng Lu, Longbing Cao(参考訳) 自然言語処理(NLP)では、単語や文の文脈が重要な役割を果たす。 節のセマンティックな表現や歴史的対話のような文脈情報は、会話の本質的な部分を形成し、現在ある句や文を正確に理解する。 しかし、標準的なアテンションメカニズムは通常、クエリとキーを使って重みを生成するが、コンテキストを無視してBi-Attentionフレームワークを形成する。 このBi-Attentionメカニズムは、コンテキスト、クエリ、ターゲットシーケンスのキー間の相互作用を明示的にモデル化していない。 したがって、新規で一般的な三重注意(Tri-Attention)フレームワークは、標準のBi-Attentionメカニズムを拡張し、関連するスコアを計算する3次元としてコンテキストを組み込むことで、クエリ、キー、コンテキストを明示的に相互作用する。 二次元ベクトル系添加物、ドット積、スケールドドット積、および双線型演算を、トライアテンションのテンソル演算に拡張することにより、トリアテンションの4つの変種が生成される。 3つのNLPタスクに関する大規模な実験は、Tri-Attentionが、最先端の非アテンション、標準のBi-Attention、文脈のBi-Attentionアプローチ、事前訓練されたニューラルネットワークモデル1の約30よりも優れていることを示している。

In natural language processing (NLP), the context of a word or sentence plays an essential role. Contextual information such as the semantic representation of a passage or historical dialogue forms an essential part of a conversation and a precise understanding of the present phrase or sentence. However, the standard attention mechanisms typically generate weights using query and key but ignore context, forming a Bi-Attention framework, despite their great success in modeling sequence alignment. This Bi-Attention mechanism does not explicitly model the interactions between the contexts, queries and keys of target sequences, missing important contextual information and resulting in poor attention performance. Accordingly, a novel and general triple-attention (Tri-Attention) framework expands the standard Bi-Attention mechanism and explicitly interacts query, key, and context by incorporating context as the third dimension in calculating relevance scores. Four variants of Tri-Attention are generated by expanding the two-dimensional vector-based additive, dot-product, scaled dot-product, and bilinear operations in Bi-Attention to the tensor operations for Tri-Attention. Extensive experiments on three NLP tasks demonstrate that Tri-Attention outperforms about 30 state-of-the-art non-attention, standard Bi-Attention, contextual Bi-Attention approaches and pretrained neural language models1.
翻訳日:2022-11-08 15:15:42 公開日:2022-11-05
# PASTA: Sentence-Table Cloze Pre-trainingによるファクト検証を意識したテーブル操作

PASTA: Table-Operations Aware Fact Verification via Sentence-Table Cloze Pre-training ( http://arxiv.org/abs/2211.02816v1 )

ライセンス: Link先を確認
Zihui Gu, Ju Fan, Nan Tang, Preslav Nakov, Xiaoman Zhao, Xiaoyong Du(参考訳) 事実の検証は近年、ジャーナリズム、マーケティング、政策立案など、多くの研究の注目を集めている。 ファクトチェックは一般的には難しい作業だが、多くの場合、信頼できる情報を持つテーブル上の分析に基づいて偽文を簡単に削除することができる。 したがって、テーブルベースの事実検証は、近年重要で成長している研究領域として現れている。 しかし、列の集約やタプルの比較など、一般的なテーブル操作を認識するために、言語モデル(LM)を事前トレーニングするために使用できるデータセットがないため、進歩は限られている。 このギャップを埋めるために、本稿では、合成文表クローゼ質問による事前学習によるテーブルベースの事実検証のための新しい最先端フレームワークであるPASTAを紹介する。 特に, WikiTablesから120万の文表ペアからなる大コーパスを合成し, フィルタ, アグリゲーション, スーパーラティブ, 比較, 順序, ユニクといった6種類の共通文表クローズタスクを設計する。 PASTAは、最近トレーニング済みのLMであるDeBERTaV3を使用し、私たちのコーパスでさらに事前トレーニングを行います。 実験の結果,PASTAはTabFactとSEM-TAB-FACTSという2つのテーブルベースの事実検証ベンチマークにおいて,新たな最先端性能を実現することがわかった。 特に、複数の操作を含むTabFactの複雑なセットでは、PASTAはアートの以前の状態を4.7ポイント(85.6%対80.9%)で上回り、小さなTabFactテストセットでのPASTAと人間のパフォーマンスのギャップは1.5ポイント(90.6%対92.1%)に狭められている。

Fact verification has attracted a lot of research attention recently, e.g., in journalism, marketing, and policymaking, as misinformation and disinformation online can sway one's opinion and affect one's actions. While fact-checking is a hard task in general, in many cases, false statements can be easily debunked based on analytics over tables with reliable information. Hence, table-based fact verification has recently emerged as an important and growing research area. Yet, progress has been limited due to the lack of datasets that can be used to pre-train language models (LMs) to be aware of common table operations, such as aggregating a column or comparing tuples. To bridge this gap, in this paper we introduce PASTA, a novel state-of-the-art framework for table-based fact verification via pre-training with synthesized sentence-table cloze questions. In particular, we design six types of common sentence-table cloze tasks, including Filter, Aggregation, Superlative, Comparative, Ordinal, and Unique, based on which we synthesize a large corpus consisting of 1.2 million sentence-table pairs from WikiTables. PASTA uses a recent pre-trained LM, DeBERTaV3, and further pretrains it on our corpus. Our experimental results show that PASTA achieves new state-of-the-art performance on two table-based fact verification benchmarks: TabFact and SEM-TAB-FACTS. In particular, on the complex set of TabFact, which contains multiple operations, PASTA largely outperforms the previous state of the art by 4.7 points (85.6% vs. 80.9%), and the gap between PASTA and human performance on the small TabFact test set is narrowed to just 1.5 points (90.6% vs. 92.1%).
翻訳日:2022-11-08 15:08:59 公開日:2022-11-05
# EventEA: イベント中心の知識グラフのためのエンティティアライメントのベンチマーク

EventEA: Benchmarking Entity Alignment for Event-centric Knowledge Graphs ( http://arxiv.org/abs/2211.02817v1 )

ライセンス: Link先を確認
Xiaobin Tian, Zequn Sun, Guangyao Li and Wei Hu(参考訳) エンティティアライメントは、同じ現実世界のオブジェクトを参照する異なる知識グラフ(kgs)で同一のエンティティを見つけることである。 埋め込みに基づくエンティティアライメント技術は、異なるKGにおける象徴的不均一性の問題を解決するのに役立つため、近年多くの注目を集めている。 しかし,本論文では,過去の進歩は偏りや混乱のない評価によるものであることを示す。 我々は、組込みに基づくエンティティアライメント技術を好む既存のデータセットにおける2つの大きな欠陥、すなわち関係三重項の同型グラフ構造と属性三重項の弱い不均一性に注目した。 埋め込み型エンティティアライメント手法の批判的評価に向けて、イベント中心KGに基づく異種関係と属性を持つ新しいデータセットを構築した。 既存の一般的な手法を評価するために広範な実験を行い、有望な性能を達成できないことを発見した。 この問題に対する新たなアプローチとして,エンティティアライメントのためのタイムアウェアリテラルエンコーダを提案する。 データセットとソースコードは、将来の研究を促進するために公開されている。 私たちの仕事は、より効果的で実用的な埋め込みベースのソリューションをエンティティアライメントに求めています。

Entity alignment is to find identical entities in different knowledge graphs (KGs) that refer to the same real-world object. Embedding-based entity alignment techniques have been drawing a lot of attention recently because they can help solve the issue of symbolic heterogeneity in different KGs. However, in this paper, we show that the progress made in the past was due to biased and unchallenging evaluation. We highlight two major flaws in existing datasets that favor embedding-based entity alignment techniques, i.e., the isomorphic graph structures in relation triples and the weak heterogeneity in attribute triples. Towards a critical evaluation of embedding-based entity alignment methods, we construct a new dataset with heterogeneous relations and attributes based on event-centric KGs. We conduct extensive experiments to evaluate existing popular methods, and find that they fail to achieve promising performance. As a new approach to this difficult problem, we propose a time-aware literal encoder for entity alignment. The dataset and source code are publicly available to foster future research. Our work calls for more effective and practical embedding-based solutions to entity alignment.
翻訳日:2022-11-08 15:08:14 公開日:2022-11-05
# 引数の視覚状態追跡によるビデオイベント抽出

Video Event Extraction via Tracking Visual States of Arguments ( http://arxiv.org/abs/2211.01781v2 )

ライセンス: Link先を確認
Guang Yang, Manling Li, Jiajie Zhang, Xudong Lin, Shih-Fu Chang, Heng Ji(参考訳) ビデオイベント抽出は、ビデオから突出したイベントを検出し、各イベントの引数と意味的役割を識別することを目的としている。 既存の手法では、各フレームの全体像を捉え、きめ細かい引数レベルの情報を無視している。 事象を状態の変化として定義することから着想を得て,関連する全ての議論の視覚的状態の変化を追跡することによって,映像イベントを検出する新しい枠組みを提案する。 引数の視覚的な状態変化をキャプチャするために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間のインタラクションに分解する。 さらに、これらの変更をエンコードして追跡するために、Object State Embedding、Object Motion-Aware Embedding、Argument Interaction Embeddingを提案する。 様々なビデオイベント抽出タスクの実験は、最先端モデルと比較して大幅に改善されている。 特に動詞分類では,ビデオ状況認識においてf1@5の絶対値(19.53%の相対値)が3.49%に達する。

Video event extraction aims to detect salient events from a video and identify the arguments for each event as well as their semantic roles. Existing methods focus on capturing the overall visual scene of each frame, ignoring fine-grained argument-level information. Inspired by the definition of events as changes of states, we propose a novel framework to detect video events by tracking the changes in the visual states of all involved arguments, which are expected to provide the most informative evidence for the extraction of video events. In order to capture the visual state changes of arguments, we decompose them into changes in pixels within objects, displacements of objects, and interactions among multiple arguments. We further propose Object State Embedding, Object Motion-aware Embedding and Argument Interaction Embedding to encode and track these changes respectively. Experiments on various video event extraction tasks demonstrate significant improvements compared to state-of-the-art models. In particular, on verb classification, we achieve 3.49% absolute gains (19.53% relative gains) in F1@5 on Video Situation Recognition.
翻訳日:2022-11-08 14:50:12 公開日:2022-11-05