このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220913となっている論文です。

PDF登録状況(公開日: 20220913)

TitleAuthorsAbstract論文公表日・翻訳日
# リシェーディング前の深部画像によるカット・アンド・ペースト物体挿入

Cut-and-Paste Object Insertion by Enabling Deep Image Prior for Reshading ( http://arxiv.org/abs/2010.05907v2 )

ライセンス: Link先を確認
Anand Bhattad and David A. Forsyth(参考訳) ある画像から別の画像にオブジェクトを挿入する方法を示し、挿入されたオブジェクトのシェーディングがシーンのシェーディングと衝突するハードケースで現実的な結果を得る。 シーンの照明モデルを使ってオブジェクトをレンダリングすることはうまくいきません。 本稿では,幾何学的および物理的モデルや環境マップを必要とすることなく,挿入対象のシェーディング不整合を補正する手法を提案する。 提案手法は深部画像先行処理(DIP)を用いて,一貫した画像分解推論損失による挿入対象の再構成レンダリングを生成する。 DIPから得られた画像は、実現を目指す (a)カット・アンド・ペースト・アルベドに似たアルベド (b)ターゲットシーンと同様の陰影場、及び (c)カット・アンド・ペースト面の正常値と一致するシェーディング。 その結果、挿入されたオブジェクトの説得力のあるシェーディングを生成する単純な手順が得られた。 本手法は,複雑な表面特性を有する複数の物体に対して定量的かつ定量的に有効性を示すとともに,球面ランプシェードのデータセットを用いて定量的評価を行った。 本手法は,これらすべてのオブジェクトに対して,画像調和(IH)ベースラインを大幅に上回る。 また、100人以上のユーザを対象にしたユーザ調査で、カット&ペーストおよびihベースラインを上回っている。

We show how to insert an object from one image to another and get realistic results in the hard case, where the shading of the inserted object clashes with the shading of the scene. Rendering objects using an illumination model of the scene doesn't work, because doing so requires a geometric and material model of the object, which is hard to recover from a single image. In this paper, we introduce a method that corrects shading inconsistencies of the inserted object without requiring a geometric and physical model or an environment map. Our method uses a deep image prior (DIP), trained to produce reshaded renderings of inserted objects via consistent image decomposition inferential losses. The resulting image from DIP aims to have (a) an albedo similar to the cut-and-paste albedo, (b) a similar shading field to that of the target scene, and (c) a shading that is consistent with the cut-and-paste surface normals. The result is a simple procedure that produces convincing shading of the inserted object. We show the efficacy of our method both qualitatively and quantitatively for several objects with complex surface properties and also on a dataset of spherical lampshades for quantitative evaluation. Our method significantly outperforms an Image Harmonization (IH) baseline for all these objects. They also outperform the cut-and-paste and IH baselines in a user study with over 100 users.
翻訳日:2022-10-08 06:33:35 公開日:2022-09-13
# 露出の公平さを伴う高速なオンラインランキング

Fast online ranking with fairness of exposure ( http://arxiv.org/abs/2209.13019v1 )

ライセンス: Link先を確認
Nicolas Usunier, Virginie Do, Elvis Dohmatob(参考訳) オンラインコンテンツのソートと優先順位付けのためのレコメンダシステムがますます重要になってきており、商品生産者の機会や収入に影響を与えている。 例えば、リクルーターがどのリクルートを推奨するか、あるいは誰が音楽トラック、ビデオ、ニュース記事がどれだけ露出しているかに影響を与える。 これは、ユーザの満足度を最大化(プロキシ)するだけでなく、アイテムやアイテムのグループを露出する際の公平性も考慮するレコメンデーションアプローチを要求する。 形式的には、そのような推奨は通常、ランダム化されたランクの空間における凹型客観的関数を最大化することによって得られる。 アイテムの全体露出を、ユーザに対する露出の合計として定義すると、各ユーザの最適なランキングが結合され、最適化プロセスが困難になる。 これらのランキングを見つける既存のアプローチは、バッチ設定でグローバル最適化問題を解決するか、すなわち、すべてのユーザに対して一度に解くか、あるいは理論的な保証が弱いヒューリスティックに基づいている。 本稿では,全ての凹凸・滑らかな対象関数,例えば露出の公正性を示す関数に適用されるランク空間における凹凸対象関数を最適化する,最初の効率的なオンラインアルゴリズムを提案する。 frank-wolfeアルゴリズムのオンライン変種に基づき,提案アルゴリズムは計算速度が速く,計算コストがソート処理,メモリ効率,強力な理論保証によりオンザフライでランキングを生成する。 ユーザ側のパフォーマンスを最大化するベースラインポリシーと比較して,本アルゴリズムは,計算オーバーヘッドが無視できるレコメンデーションに,露出基準の複雑な公平さを組み込むことができる。

As recommender systems become increasingly central for sorting and prioritizing the content available online, they have a growing impact on the opportunities or revenue of their items producers. For instance, they influence which recruiter a resume is recommended to, or to whom and how much a music track, video or news article is being exposed. This calls for recommendation approaches that not only maximize (a proxy of) user satisfaction, but also consider some notion of fairness in the exposure of items or groups of items. Formally, such recommendations are usually obtained by maximizing a concave objective function in the space of randomized rankings. When the total exposure of an item is defined as the sum of its exposure over users, the optimal rankings of every users become coupled, which makes the optimization process challenging. Existing approaches to find these rankings either solve the global optimization problem in a batch setting, i.e., for all users at once, which makes them inapplicable at scale, or are based on heuristics that have weak theoretical guarantees. In this paper, we propose the first efficient online algorithm to optimize concave objective functions in the space of rankings which applies to every concave and smooth objective function, such as the ones found for fairness of exposure. Based on online variants of the Frank-Wolfe algorithm, we show that our algorithm is computationally fast, generating rankings on-the-fly with computation cost dominated by the sort operation, memory efficient, and has strong theoretical guarantees. Compared to baseline policies that only maximize user-side performance, our algorithm allows to incorporate complex fairness of exposure criteria in the recommendations with negligible computational overhead.
翻訳日:2022-10-02 23:51:01 公開日:2022-09-13
# 生成逆ネットワークを用いた現実的毛髪合成

Realistic Hair Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2209.12875v1 )

ライセンス: Link先を確認
Muhammed Pektas, Aybars Ugur(参考訳) 最近の生成モデルの成功は、この主題の研究を加速させ、研究者の注目を集めている。 この成功のために使われる最も重要な手法の1つはジェネレーティブ・アドバイサル・ネットワーク(GAN)である。 仮想現実(VR)、拡張現実(AR)、超解像度、画像強調など、多くの応用分野がある。 深層学習と生成モデルを用いたヘアシンセシスとスタイルトランスファーの最近の進歩にもかかわらず、髪の複雑な性質は未解決の課題を含んでいる。 この問題を解決するために文献に提案されている手法は、画像に高品質のヘアエディットを作ることに重点を置いている。 本論文では, 毛髪合成問題を解決するために, 生成的逆ネットワーク法を提案する。 本手法は,本手法を開発しながら,文献の最良の手法と競合する視覚的出力を達成しつつ,リアルタイムの毛髪合成を実現することを目的としている。 提案手法はFFHQデータセットを用いて訓練し,髪型移行と髪型再構成作業の結果を評価した。 これらの課題から得られた結果と手法の運用時期を,文献上で最良の手法であるミシガンと比較した。 比較は128x128の解像度で行われた。 その結果,提案手法はリアルなヘアシンセシスの観点からみればMichigaNと競合する結果が得られ,操作時間の面でも良好な結果が得られた。

Recent successes in generative modeling have accelerated studies on this subject and attracted the attention of researchers. One of the most important methods used to achieve this success is Generative Adversarial Networks (GANs). It has many application areas such as; virtual reality (VR), augmented reality (AR), super resolution, image enhancement. Despite the recent advances in hair synthesis and style transfer using deep learning and generative modelling, due to the complex nature of hair still contains unsolved challenges. The methods proposed in the literature to solve this problem generally focus on making high-quality hair edits on images. In this thesis, a generative adversarial network method is proposed to solve the hair synthesis problem. While developing this method, it is aimed to achieve real-time hair synthesis while achieving visual outputs that compete with the best methods in the literature. The proposed method was trained with the FFHQ dataset and then its results in hair style transfer and hair reconstruction tasks were evaluated. The results obtained in these tasks and the operating time of the method were compared with MichiGAN, one of the best methods in the literature. The comparison was made at a resolution of 128x128. As a result of the comparison, it has been shown that the proposed method achieves competitive results with MichiGAN in terms of realistic hair synthesis, and performs better in terms of operating time.
翻訳日:2022-10-02 23:50:32 公開日:2022-09-13
# レコメンダシステムのための包括的倫理設計

Inclusive Ethical Design for Recommender Systems ( http://arxiv.org/abs/2209.13021v1 )

ライセンス: Link先を確認
Susan Leavy(参考訳) 情報仲介者としてのレコメンダシステムは、社会的な意見に深く影響を及ぼす可能性が高くなってきています。 これらのシステムが責任ある方法で設計されることを保証するアプローチが開発されているが、特に青年期は、明確な考慮を必要とする潜在的に脆弱なユーザーグループを表している。 これは、レコメンダシステムへのアクセスと利用の性質だけでなく、コンテンツ提供者としての役割も考慮し、特に重要である。 本稿では,レコメンデータシステムの倫理設計における基本原則を提案し,これらの原則の遵守を保証するための現在のアプローチが,青年期のユーザのニーズや潜在的な脆弱性を十分に含んでいるかどうかを評価する。

Recommender systems are becoming increasingly central as mediators of information with the potential to profoundly influence societal opinion. While approaches are being developed to ensure these systems are designed in a responsible way, adolescents in particular, represent a potentially vulnerable user group requiring explicit consideration. This is especially important given the nature of their access and use of recommender systems but also their role as providers of content. This paper proposes core principles for the ethical design of recommender systems and evaluates whether current approaches to ensuring adherence to these principles are sufficiently inclusive of the particular needs and potential vulnerabilities of adolescent users.
翻訳日:2022-10-02 23:50:09 公開日:2022-09-13
# ユニバーサル脳結合性マッピングと拡張のためのディープクロスモーダルとレゾリューショングラフの統合

Deep Cross-Modality and Resolution Graph Integration for Universal Brain Connectivity Mapping and Augmentation ( http://arxiv.org/abs/2209.13529v1 )

ライセンス: Link先を確認
Ece Cinar, Sinem Elif Haseki, Alaa Bessadok and Islem Rekik(参考訳) 接続型脳テンプレート(cbt)は、特定の脳コネクトームの集団の全個体間で共有された特徴をキャプチャし、指紋として機能する。 脳グラフが様々な神経画像モダリティ(例えば、機能的および構造的)と異なる解像度(例えば、ノード数)から導出される集団からcbtを推定することは、解決すべき課題である。 このようなネットワーク統合タスクは、様々なモダリティと解像度にわたる脳接続のリッチで普遍的な表現を学ぶことができる。 結果として生じるCBTは、完全に新しいマルチモーダル脳コネクトームを生成するために実質的に使用することができ、脳状態分類のようなダウンストリームタスクの学習を促進することができる。 本稿では、与えられたコネクトロミック人口をよく中心のCBTにマッピングする最初のマルチモーダル多分解能グラフ統合フレームワークであるマルチモーダル多分解能脳グラフインテグレータネットワーク(M2GraphIntegrator)を提案する。 M2GraphIntegratorはまず、分解能固有のグラフオートエンコーダを利用して、脳グラフの解像度を統一する。 次に、結果として得られる固定サイズの脳グラフを、人口の中心に位置する普遍的なCBTに統合する。 人口多様性を保ちつつ、最も異種なトレーニングサンプルを活用するクラスタリングベースのトレーニングサンプル選択戦略を更に設計する。 学習したCBTの生物学的健全性を確保するため,地中脳グラフと学習したCBTとの間のトポロジ的ギャップを最小限に抑えるトポロジ的損失を提案する。 我々の実験は、単一のCBTから、様々な解像度とモダリティの脳グラフを含む現実的なコネクトロミックデータセットを生成することができることを示した。 さらに, このフレームワークは, 復元品質, 拡張タスク, 中心性, トポロジカルな音質のベンチマークを著しく上回ることを示す。

The connectional brain template (CBT) captures the shared traits across all individuals of a given population of brain connectomes, thereby acting as a fingerprint. Estimating a CBT from a population where brain graphs are derived from diverse neuroimaging modalities (e.g., functional and structural) and at different resolutions (i.e., number of nodes) remains a formidable challenge to solve. Such network integration task allows for learning a rich and universal representation of the brain connectivity across varying modalities and resolutions. The resulting CBT can be substantially used to generate entirely new multimodal brain connectomes, which can boost the learning of the downs-stream tasks such as brain state classification. Here, we propose the Multimodal Multiresolution Brain Graph Integrator Network (i.e., M2GraphIntegrator), the first multimodal multiresolution graph integration framework that maps a given connectomic population into a well centered CBT. M2GraphIntegrator first unifies brain graph resolutions by utilizing resolution-specific graph autoencoders. Next, it integrates the resulting fixed-size brain graphs into a universal CBT lying at the center of its population. To preserve the population diversity, we further design a novel clustering-based training sample selection strategy which leverages the most heterogeneous training samples. To ensure the biological soundness of the learned CBT, we propose a topological loss that minimizes the topological gap between the ground-truth brain graphs and the learned CBT. Our experiments show that from a single CBT, one can generate realistic connectomic datasets including brain graphs of varying resolutions and modalities. We further demonstrate that our framework significantly outperforms benchmarks in reconstruction quality, augmentation task, centeredness and topological soundness.
翻訳日:2022-10-02 23:49:38 公開日:2022-09-13
# 2層モデルにおける整数計画と二次ディスクリプタに基づく分子設計

Molecular Design Based on Integer Programming and Quadratic Descriptors in a Two-layered Model ( http://arxiv.org/abs/2209.13527v1 )

ライセンス: Link先を確認
Jianshen Zhu, Naveed Ahmed Azam, Shengjuan Cao, Ryota Ido, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年,生物情報学や化学情報学において新規医薬品の設計が重要な話題となっている化学物質の分子構造設計のための新しい枠組みが提案されている。 このフレームワークは、化学グラフ上の2層モデルで定義された特徴関数の計算過程と、機械学習法で構築された予測関数をシミュレートする混合整数線形プログラム(MILP)を解くことにより、所望の化学グラフを推論する。 特徴関数におけるグラフ理論記述子の集合は、そのようなMILPのコンパクトな定式化を導出するために重要な役割を果たす。 本稿では,milpのコンパクト性を維持するフレームワークにおける予測関数の学習性能を向上させるために,これら2つの記述子の積を新しい記述子として利用し,記述子数を削減する手法を設計する。 計算実験の結果,提案手法は多くの化学特性の学習性能を向上し,50個の非水素原子を持つ化学構造を推定できることが示唆された。

A novel framework has recently been proposed for designing the molecular structure of chemical compounds with a desired chemical property, where design of novel drugs is an important topic in bioinformatics and chemo-informatics. The framework infers a desired chemical graph by solving a mixed integer linear program (MILP) that simulates the computation process of a feature function defined by a two-layered model on chemical graphs and a prediction function constructed by a machine learning method. A set of graph theoretical descriptors in the feature function plays a key role to derive a compact formulation of such an MILP. To improve the learning performance of prediction functions in the framework maintaining the compactness of the MILP, this paper utilizes the product of two of those descriptors as a new descriptor and then designs a method of reducing the number of descriptors. The results of our computational experiments suggest that the proposed method improved the learning performance for many chemical properties and can infer a chemical structure with up to 50 non-hydrogen atoms.
翻訳日:2022-10-02 23:49:03 公開日:2022-09-13
# 認知症のためのAIによる言語評価ツール

AI-powered Language Assessment Tools for Dementia ( http://arxiv.org/abs/2209.12652v1 )

ライセンス: Link先を確認
Mahboobeh Parsapoor, Muhammad Raisul Alam, Alex Mihailidis(参考訳) 本研究の目的は,AIを活用した言語アセスメント(Language Assessment, LA)ツールを開発するためのアプローチを提案することである。 このようなツールは高齢者の認知症に関連する言語障害を評価するのに使うことができる。 機械学習(ML)分類器は,提案手法の主要な部分であり,高い感度と特異性を持つ正確なツールを開発するために,異なるバイナリ分類器を検討し,その性能を評価する。 また,ML分類器の性能に及ぼす各種言語タスク,特徴,記録媒体の影響を比較することで,アプローチの信頼性と妥当性を評価する。

The main objective of this paper is to propose an approach for developing an Artificial Intelligence (AI)-powered Language Assessment (LA) tool. Such tools can be used to assess language impairments associated with dementia in older adults. The Machine Learning (ML) classifiers are the main parts of our proposed approach, therefore to develop an accurate tool with high sensitivity and specificity, we consider different binary classifiers and evaluate their performances. We also assess the reliability and validity of our approach by comparing the impact of different types of language tasks, features, and recording media on the performance of ML classifiers.
翻訳日:2022-10-02 23:40:35 公開日:2022-09-13
# 説明付き知識グラフのサブサンプリング

Subsampling for Knowledge Graph Embedding Explained ( http://arxiv.org/abs/2209.12801v1 )

ライセンス: Link先を確認
Hidetaka Kamigaito, Katsuhiko Hayashi(参考訳) 本稿では、word2vec で使われた元から始まった知識グラフ埋め込み (kge) におけるサブサンプリング手法の最近の進歩について述べる。

In this article, we explain the recent advance of subsampling methods in knowledge graph embedding (KGE) starting from the original one used in word2vec.
翻訳日:2022-10-02 23:40:26 公開日:2022-09-13
# pareto driven surrogate (parden-sur) による多周期ポートフォリオバックテストシミュレーションの最適化

Pareto Driven Surrogate (ParDen-Sur) Assisted Optimisation of Multi-period Portfolio Backtest Simulations ( http://arxiv.org/abs/2209.13528v1 )

ライセンス: Link先を確認
Terence L. van Zyl and Matthew Woolway and Andrew Paskaramoorthy(参考訳) ポートフォリオ管理は、幅広い制約の対象となる多期間多目的最適化問題である。 しかし、実際にはポートフォリオ管理は、多時期パレートフロンティアを構築するのに必要な計算量の多いハイパーパラメーター探索手順が原因で、単周期問題として扱われている。 本研究では,必要なハイパーパラメータ探索を効率的に行うために,gls{ParDen-Sur}モデリングフレームワークを提案する。 \gls{ParDen-Sur} は以前のサロゲートフレームワークを拡張し、従来の受け入れサンプリングスキームと共に \glspl{EA} で子孫を生成するための貯水池サンプリングベースのルックアヘッド機構を含む。 我々はこの枠組みを,単周期および多周期のユースケースの2つのデータセットに対して,いくつかのセミナルな \gls{MO} \glspl{EA} に対して評価する。 以上の結果から,<gls{ParDen-Sur} は,複数の<glspl{EA} にまたがるパレートフロンティアの統計的改善により,最適なハイパーパラメータの探索を約2\times$で高速化できることがわかった。

Portfolio management is a multi-period multi-objective optimisation problem subject to a wide range of constraints. However, in practice, portfolio management is treated as a single-period problem partly due to the computationally burdensome hyper-parameter search procedure needed to construct a multi-period Pareto frontier. This study presents the \gls{ParDen-Sur} modelling framework to efficiently perform the required hyper-parameter search. \gls{ParDen-Sur} extends previous surrogate frameworks by including a reservoir sampling-based look-ahead mechanism for offspring generation in \glspl{EA} alongside the traditional acceptance sampling scheme. We evaluate this framework against, and in conjunction with, several seminal \gls{MO} \glspl{EA} on two datasets for both the single- and multi-period use cases. Our results show that \gls{ParDen-Sur} can speed up the exploration for optimal hyper-parameters by almost $2\times$ with a statistically significant improvement of the Pareto frontiers, across multiple \glspl{EA}, for both datasets and use cases.
翻訳日:2022-10-02 23:40:22 公開日:2022-09-13
# bangla-wave:n-gram言語モデルを用いたバングラ自動音声認識の改善

Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language Models ( http://arxiv.org/abs/2209.12650v1 )

ライセンス: Link先を確認
Mohammed Rakib, Md. Ismail Hossain, Nabeel Mohammed, Fuad Rahman(参考訳) 世界中の3億人がバングラ語を話すが、Banglaは低リソース言語であるため、Banglaの音声からテキストへの書き起こしを改善する作業は難しかった。 しかし、Bengali Common Voice 9.0音声データセットの導入により、自動音声認識(ASR)モデルは大幅に改善される。 399hrsの音声録音があり、ベンガル・コモン・ボイスは世界最大のオープンソースのベンガル音声コーパスである。 本稿では,事前学習されたwav2vec2モデルを共通音声データセット上で微調整することにより,somaプリトレーニングされたベンガルasrモデルよりも優れることを示す。 また,ポストプロセッサとしてn-gram言語モデルを追加することにより,asrモデルの性能を著しく向上させる方法を示す。 最後に、既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成するために、いくつかの実験とハイパーパラメータチューニングを行う。

Although over 300M around the world speak Bangla, scant work has been done in improving Bangla voice-to-text transcription due to Bangla being a low-resource language. However, with the introduction of the Bengali Common Voice 9.0 speech dataset, Automatic Speech Recognition (ASR) models can now be significantly improved. With 399hrs of speech recordings, Bengali Common Voice is the largest and most diversified open-source Bengali speech corpus in the world. In this paper, we outperform the SOTA pretrained Bengali ASR models by finetuning a pretrained wav2vec2 model on the common voice dataset. We also demonstrate how to significantly improve the performance of an ASR model by adding an n-gram language model as a post-processor. Finally, we do some experiments and hyperparameter tuning to generate a robust Bangla ASR model that is better than the existing ASR models.
翻訳日:2022-10-02 23:39:19 公開日:2022-09-13
# dmmgan : 注意に基づく生成的副作用ネットワークを用いた3次元関節の多様なマルチモーション予測

DMMGAN: Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network ( http://arxiv.org/abs/2209.09124v1 )

ライセンス: Link先を確認
Payam Nikdel, Mohammad Mahdavian, Mo Chen(参考訳) 人間の動作予測は、多くの人間ロボット応用の基本的な部分である。 近年の人間の動き予測の進歩にもかかわらず、ほとんどの研究は、固定関節に対する人間の動きを予測し、あるいはそのモデルに一つの将来の動きを予測させるように制限することで問題を単純化している。 人間の動作の複雑な性質のため、単一の出力は可能なすべての動作を反映することができない。 また、ロボット工学のアプリケーションには、股関節に対する3dポーズではなく、ユーザーの足跡を含む完全な人間の動きが必要です。 本稿では,この2つの課題に対して,多種多様な人間の動きを予測するためのトランスフォーマーベース生成モデルを提案する。 我々のモデルは、人間の動きの履歴をクエリすることで、将来可能な動きを生成する。 我々のモデルはまず, 股関節に対する身体の姿勢を予測した。 そして、\textit{hip prediction module}は、予測されたポーズフレーム毎の股関節運動の軌跡を予測する。 多様な将来の動きを強調するために、ペアワイズサンプル距離をペナリゼーションする類似性損失を導入する。 我々のシステムは、股関節運動を伴う多動将来の軌跡を予測しながら、ヒトの動作予測における最先端技術よりも優れていることを示す。

Human motion prediction is a fundamental part of many human-robot applications. Despite the recent progress in human motion prediction, most studies simplify the problem by predicting the human motion relative to a fixed joint and/or only limit their model to predict one possible future motion. While due to the complex nature of human motion, a single output cannot reflect all the possible actions one can do. Also, for any robotics application, we need the full human motion including the user trajectory not a 3d pose relative to the hip joint. In this paper, we try to address these two issues by proposing a transformer-based generative model for forecasting multiple diverse human motions. Our model generates \textit{N} future possible motion by querying a history of human motion. Our model first predicts the pose of the body relative to the hip joint. Then the \textit{Hip Prediction Module} predicts the trajectory of the hip movement for each predicted pose frame. To emphasize on the diverse future motions we introduce a similarity loss that penalizes the pairwise sample distance. We show that our system outperforms the state-of-the-art in human motion prediction while it can predict diverse multi-motion future trajectories with hip movements
翻訳日:2022-09-25 17:24:04 公開日:2022-09-13
# IoTネットワークにおけるAoI最小化のための複数UAVの学習軌道計画

A Learning-Based Trajectory Planning of Multiple UAVs for AoI Minimization in IoT Networks ( http://arxiv.org/abs/2209.09206v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Dian Echevarr\'ia P\'erez, Jean Michel de Souza Sant'Ana, Mohammad Shehab, Nurul Huda Mahmood, Hirley Alves and Matti Latva-aho(参考訳) 多くの新興IoTアプリケーションは、情報の鮮度が重要な基準であるセンサーノードによって収集された情報に依存している。 \textit{Age of Information} (AoI) は、情報のタイムライン、すなわち受信した情報やステータスの更新を定量化する指標である。 この研究は、複数の無人航空機(UAV)がセンサーと基地局の間の移動中継ノードとして機能するIoTネットワークにおけるセンサーの配置を検討する。 受信メッセージのAoIを最小化しながら、UAVの軌道を共同で計画する最適化問題を定式化する。 これにより、基地局の受信情報が可能な限り新鮮であることを保証する。 複素最適化問題を深部強化学習(DRL)アルゴリズムを用いて効率的に解く。 特に,状態動作値関数を推定するための関数近似として機能する深いqネットワークを提案する。 提案手法は容易に収束し,ランダムウォーク方式よりも低いAoIが得られる。 提案アルゴリズムは平均年齢を約25 %$に削減し,ベースライン方式と比較して50 %$以下のエネルギーを必要とする。

Many emerging Internet of Things (IoT) applications rely on information collected by sensor nodes where the freshness of information is an important criterion. \textit{Age of Information} (AoI) is a metric that quantifies information timeliness, i.e., the freshness of the received information or status update. This work considers a setup of deployed sensors in an IoT network, where multiple unmanned aerial vehicles (UAVs) serve as mobile relay nodes between the sensors and the base station. We formulate an optimization problem to jointly plan the UAVs' trajectory, while minimizing the AoI of the received messages. This ensures that the received information at the base station is as fresh as possible. The complex optimization problem is efficiently solved using a deep reinforcement learning (DRL) algorithm. In particular, we propose a deep Q-network, which works as a function approximation to estimate the state-action value function. The proposed scheme is quick to converge and results in a lower AoI than the random walk scheme. Our proposed algorithm reduces the average age by approximately $25\%$ and requires down to $50\%$ less energy when compared to the baseline scheme.
翻訳日:2022-09-25 17:23:47 公開日:2022-09-13
# 機械学習を用いた悪意サイトの検出

Detection of Malicious Websites Using Machine Learning Techniques ( http://arxiv.org/abs/2209.09630v1 )

ライセンス: Link先を確認
Adebayo Oshingbesan, Courage Ekoh, Chukwuemeka Okobi, Aime Munezero, Kagame Richard(参考訳) 悪意のあるWebサイトを検出する場合、一般的なアプローチはブラックリストを使うことであり、それ自体は徹底せず、新しい悪意のあるサイトに一般化できない。 新たに見つかった悪意のあるwebサイトを自動的に検出することは、この形式の攻撃の脆弱性を減らすのに役立つ。 本研究では,10種類の機械学習モデルを用いて,語彙的特徴に基づく悪意のあるwebサイトを分類し,データセットをまたいでどのように一般化するかを理解した。 具体的には、異なるデータセットセット上でこれらのモデルをトレーニング、検証、テストし、その後、クロスデータセット分析を実行しました。 分析の結果,K-Nearest Neighborがデータセット間で一貫して高いパフォーマンスを示す唯一のモデルであることが判明した。 Random Forest、Decision Trees、Logistic Regression、Support Vector Machinesといった他のモデルも、すべてのメトリクスやデータセットにわたって悪意のあるリンクを予測するベースラインモデルを上回っている。 また、語彙的特徴のサブセットがモデルやデータセットにまたがって一般化する証拠も見つからなかった。 この研究は、現実の検知システムやさらなる研究の基盤となるため、サイバーセキュリティの専門家や学術研究者に関係があるはずだ。

In detecting malicious websites, a common approach is the use of blacklists which are not exhaustive in themselves and are unable to generalize to new malicious sites. Detecting newly encountered malicious websites automatically will help reduce the vulnerability to this form of attack. In this study, we explored the use of ten machine learning models to classify malicious websites based on lexical features and understand how they generalize across datasets. Specifically, we trained, validated, and tested these models on different sets of datasets and then carried out a cross-datasets analysis. From our analysis, we found that K-Nearest Neighbor is the only model that performs consistently high across datasets. Other models such as Random Forest, Decision Trees, Logistic Regression, and Support Vector Machines also consistently outperform a baseline model of predicting every link as malicious across all metrics and datasets. Also, we found no evidence that any subset of lexical features generalizes across models or datasets. This research should be relevant to cybersecurity professionals and academic researchers as it could form the basis for real-life detection systems or further research work.
翻訳日:2022-09-25 17:23:08 公開日:2022-09-13
# 半自律型タスク学習支援のための言語モデルプロンプトの改善

Improving Language Model Prompting in Support of Semi-autonomous Task Learning ( http://arxiv.org/abs/2209.07636v1 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, Peter Lindes, John E. Laird(参考訳) 言語モデル(llms)は、パフォーマンス環境で新しいタスクの能力を取得する必要があるエージェントの知識の源となる可能性を提供します。 我々は,新しいタスクを学習するエージェントに対して有用な llm 応答をもたらす手掛かり(あるいは "prompts" )を構築できる新しいエージェント能力への取り組みについて述べる。 重要なことに、応答は「理にかなっている」(llmから知識を抽出する研究で一般的に用いられる尺度)だけでなく、エージェントのタスクコンテキストに特有なものであり、エージェントが固有の言語能力によって解釈できる形でなければならない。 我々は,課題学習における目標と行動可能な回答に対して,戦略の促しと反応の評価に関する経験的調査をまとめる。 本結果は,オンラインエージェントタスク学習を支援するために,LCMから実行可能なタスク知識を得ることができることを示す。

Language models (LLMs) offer potential as a source of knowledge for agents that need to acquire new task competencies within a performance environment. We describe efforts toward a novel agent capability that can construct cues (or "prompts") that result in useful LLM responses for an agent learning a new task. Importantly, responses must not only be "reasonable" (a measure used commonly in research on knowledge extraction from LLMs) but also specific to the agent's task context and in a form that the agent can interpret given its native language capacities. We summarize a series of empirical investigations of prompting strategies and evaluate responses against the goals of targeted and actionable responses for task learning. Our results demonstrate that actionable task knowledge can be obtained from LLMs in support of online agent task learning.
翻訳日:2022-09-25 17:14:31 公開日:2022-09-13
# テキストセグメンテーションと隠れマルコフモデルを用いた圧縮領域におけるtiff圧縮文書画像のocr

OCR for TIFF Compressed Document Images Directly in Compressed Domain Using Text segmentation and Hidden Markov Model ( http://arxiv.org/abs/2209.09118v1 )

ライセンス: Link先を確認
Dikshit Sharma and Mohammed Javed(参考訳) 今日の技術時代には、文書画像は日々の生活において重要かつ不可欠な役割を担い、特にCovid-19の急増に伴い、デジタルスキャンされた文書がコミュニケーションの鍵となり、物理的接触によるいかなる感染症も避けている。 スキャンされた文書画像の保存と送信は非常にメモリ集約的な作業であり、圧縮技術はアーカイブと送信前の画像サイズを減らすために使用されている。 情報を抽出したり、圧縮画像を操作したりするには、2つの方法があります。 第1の方法は、画像を圧縮して操作し、ストレージと送信の効率性のために再度圧縮することである。 別の方法は、下層の圧縮アルゴリズムの特性を使用して、圧縮された画像を直接処理し、圧縮と再圧縮を伴わないことである。 本稿では,CCITT (The International Telegraph and Telephone Consultative Committee) 圧縮機によるTIFF文書画像を直接圧縮領域に印刷するOCRを開発するための新しいアイデアを提案する。 テキスト領域を行と単語に分割した後、HMMはCCITT--水平、垂直、パスモードの3つの符号化モードを用いて認識する。 実験の結果,パスモードでのOCRは有望な結果をもたらすことがわかった。

In today's technological era, document images play an important and integral part in our day to day life, and specifically with the surge of Covid-19, digitally scanned documents have become key source of communication, thus avoiding any sort of infection through physical contact. Storage and transmission of scanned document images is a very memory intensive task, hence compression techniques are being used to reduce the image size before archival and transmission. To extract information or to operate on the compressed images, we have two ways of doing it. The first way is to decompress the image and operate on it and subsequently compress it again for the efficiency of storage and transmission. The other way is to use the characteristics of the underlying compression algorithm to directly process the images in their compressed form without involving decompression and re-compression. In this paper, we propose a novel idea of developing an OCR for CCITT (The International Telegraph and Telephone Consultative Committee) compressed machine printed TIFF document images directly in the compressed domain. After segmenting text regions into lines and words, HMM is applied for recognition using three coding modes of CCITT- horizontal, vertical and the pass mode. Experimental results show that OCR on pass modes give a promising results.
翻訳日:2022-09-25 17:14:17 公開日:2022-09-13
# SFS-A68 集合住宅における空間機能のセグメンテーションのためのデータセット

SFS-A68: a dataset for the segmentation of space functions in apartment buildings ( http://arxiv.org/abs/2209.09094v1 )

ライセンス: Link先を確認
Amir Ziaee and Georg Suter(参考訳) 使用可能な領域、建築安全性、エネルギー分析のための建築モデルの解析には、空間と関連するオブジェクトの関数分類データが必要である。 空間関数の自動分類は入力モデル作成の労力と誤差を低減するために望ましい。 既存の空間関数分類器は空間特徴ベクトルまたは空間接続グラフを入力として使用する。 深層学習(DL)画像分割法の空間関数分類への応用は研究されていない。 このギャップに対処するための最初のステップとして,68のディジタル3次元空間配置モデルから生成された入力と地上の真実画像からなるデータセットSFS-A68を提案する。 このデータセットは空間関数セグメンテーションのためのDLモデルの開発に適している。 このデータセットを用いて,scratchから転送学習とトレーニングに基づいて,実験的な空間関数分割ネットワークを訓練し,評価する。 実験結果は,空間関数分類におけるDL画像分割の適用性を確認した。 実験のコードとデータセットはオンラインで公開されている(https://github.com/A2Amir/SFS-A68)。

Analyzing building models for usable area, building safety, or energy analysis requires function classification data of spaces and related objects. Automated space function classification is desirable to reduce input model preparation effort and errors. Existing space function classifiers use space feature vectors or space connectivity graphs as input. The application of deep learning (DL) image segmentation methods to space function classification has not been studied. As an initial step towards addressing this gap, we present a dataset, SFS-A68, that consists of input and ground truth images generated from 68 digital 3D models of space layouts of apartment buildings. The dataset is suitable for developing DL models for space function segmentation. We use the dataset to train and evaluate an experimental space function segmentation network based on transfer learning and training from scratch. Test results confirm the applicability of DL image segmentation for space function classification. The code and the dataset of the experiments are publicly available online (https://github.com/A2Amir/SFS-A68).
翻訳日:2022-09-25 17:13:54 公開日:2022-09-13
# 人工知能を用いたマイクロブログからの社会的に強化された状況認識

Socially Enhanced Situation Awareness from Microblogs using Artificial Intelligence: A Survey ( http://arxiv.org/abs/2209.07272v1 )

ライセンス: Link先を確認
Rabindra Lamsal, Aaron Harwood, Maria Rodriguez Read(参考訳) ソーシャルメディアプラットフォームの台頭は、人間の視点で、歴史とリアルタイムの両方において、私たちの周りの世界に関する無限に豊かな知識の源を提供する。 私たちが直面する最大の課題は、この生で構造化されていないデータをどのように処理し、理解し、個々の観察を越えて、状況認識の領域である「全体像」を見るかです。 我々は、犯罪、災害、金融、物理的環境、政治、健康、人口という6つのテーマ分野にまたがる専門的な作業と最先端のアプローチを提供する、マイクロブログソーシャルメディアデータと状況認識への応用に焦点を当てた、人工知能研究の広範な調査を提供する。 我々は,新しい統一的な方法論的視点を提供し,重要な結果と課題を特定し,現在進行中の研究方向を示す。

The rise of social media platforms provides an unbounded, infinitely rich source of aggregate knowledge of the world around us, both historic and real-time, from a human perspective. The greatest challenge we face is how to process and understand this raw and unstructured data, go beyond individual observations and see the "big picture"--the domain of Situation Awareness. We provide an extensive survey of Artificial Intelligence research, focusing on microblog social media data with applications to Situation Awareness, that gives the seminal work and state-of-the-art approaches across six thematic areas: Crime, Disasters, Finance, Physical Environment, Politics, and Health and Population. We provide a novel, unified methodological perspective, identify key results and challenges, and present ongoing research directions.
翻訳日:2022-09-16 13:08:29 公開日:2022-09-13
# 最適化のためのロバストな科学的機械学習:新しいロバスト性定理

A Robust Scientific Machine Learning for Optimization: A Novel Robustness Theorem ( http://arxiv.org/abs/2209.06642v1 )

ライセンス: Link先を確認
Luana P. Queiroz, Carine M. Rebello, Erber A. Costa, Vinicius V. Santana, Alirio E. Rodrigues, Ana M. Ribeiro and Idelfonso B. R. Nogueira(参考訳) 科学機械学習(SciML)は、いくつかの異なる応用分野への関心が高まっている分野である。 最適化の文脈において、SciMLベースのツールはより効率的な最適化方法の開発を可能にした。 しかし、最適化のためのSciMLツールの実装は厳格に評価され、慎重に実行されなければならない。 本研究は,多目的scimlに基づく最適化のロバスト性を保証するロバスト性テストの推論を,その結果が普遍近似定理を尊重することを示すことによって提案する。 このテストは、その一貫性を示す一連のベンチマークで評価される新しい方法論のフレームワークに適用される。 さらに,提案手法を厳密な最適化の可能な領域と比較し,高い計算量を必要とすることを示した。 したがって、この研究はSciMLツールを既存の代替よりも少ない計算労力で多目的最適化に適用する際の堅牢性を保証するための堅牢性テストを提供する。

Scientific machine learning (SciML) is a field of increasing interest in several different application fields. In an optimization context, SciML-based tools have enabled the development of more efficient optimization methods. However, implementing SciML tools for optimization must be rigorously evaluated and performed with caution. This work proposes the deductions of a robustness test that guarantees the robustness of multiobjective SciML-based optimization by showing that its results respect the universal approximator theorem. The test is applied in the framework of a novel methodology which is evaluated in a series of benchmarks illustrating its consistency. Moreover, the proposed methodology results are compared with feasible regions of rigorous optimization, which requires a significantly higher computational effort. Hence, this work provides a robustness test for guaranteed robustness in applying SciML tools in multiobjective optimization with lower computational effort than the existent alternative.
翻訳日:2022-09-15 14:05:51 公開日:2022-09-13
# がん治療薬選択最適化のための確率分布予測

Predicting probability distributions for cancer therapy drug selection optimization ( http://arxiv.org/abs/2209.06211v1 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 細胞株間の大きな変動は、がん治療のための薬物選択の最適化の問題をもたらす。 標準的なアプローチでは、分布の期待値など、この目的のために値の予測を使用する。 この記事では、確率分布全体を予測し、この目的のための基本的なツールを提案する。 極端な統計のためにそれらの選択を適切に最適化するには、全ての確率分布の知識が必要であり、細胞株間での薬物特性の分布は、しばしば対応する遺伝子によって二項化される。 したがって、基本的な予測機構として、2つのガウスの混合が提案され、追加情報に基づいてその重みを予測しようとする。

Large variability between cell lines brings a difficult optimization problem of drug selection for cancer therapy. Standard approaches use prediction of value for this purpose, corresponding e.g. to expected value of their distribution. This article shows superiority of working on, predicting the entire probability distributions - proposing basic tools for this purpose. We are mostly interested in the best drug in their batch to be tested - proper optimization of their selection for extreme statistics requires knowledge of the entire probability distributions, which for distributions of drug properties among cell lines often turn out binomial, e.g. depending on corresponding gene. Hence for basic prediction mechanism there is proposed mixture of two Gaussians, trying to predict its weight based on additional information.
翻訳日:2022-09-15 14:02:59 公開日:2022-09-13
# バックプロパゲーションのない最適化

Optimization without Backpropagation ( http://arxiv.org/abs/2209.06302v1 )

ライセンス: Link先を確認
Gabriel Belouze(参考訳) 前方勾配は、最近自己微分のバックプロパゲーションをバイパスするために導入され、真の勾配の偏りのない推定器を維持している。 我々は、最良近似のフォワード勾配を得る最適条件を導出し、高次元での最適化がフォワード勾配では困難であることを示す数学的洞察を得る。 テスト関数に関する広範な実験がこの主張を支持している。

Forward gradients have been recently introduced to bypass backpropagation in autodifferentiation, while retaining unbiased estimators of true gradients. We derive an optimality condition to obtain best approximating forward gradients, which leads us to mathematical insights that suggest optimization in high dimension is challenging with forward gradients. Our extensive experiments on test functions support this claim.
翻訳日:2022-09-15 14:02:48 公開日:2022-09-13
# テキストによる人物検索の改善 : 一貫性のあるクロスモーダル・コモン・マニフォールドの学習

Look Before You Leap: Improving Text-based Person Retrieval by Learning A Consistent Cross-modal Common Manifold ( http://arxiv.org/abs/2209.06209v1 )

ライセンス: Link先を確認
Zijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang, Yifeng Li(参考訳) テキストベースの人物検索の中核的な問題は、マルチモーダルデータ間の不均一なギャップを埋める方法である。 以前の多くのアプローチは、cdcp法に従って潜伏共通多様体マッピングパラダイムを学習することを意図していた。 あるモダリティの分布から共通多様体への特徴をマッピングするとき、反対モダリティの特徴分布は完全に見えない。 すなわち、構築されたクロスモーダル共通多様体にマルチモーダルな特徴を埋め込んで整列するために、どのようにクロスモーダル分布のコンセンサスを達成するかは、実際の状況ではなくモデル自身の経験に依存する。 このような手法では、マルチモーダルデータが共通多様体内で適切に整列できないことが避けられないため、最終的に準最適検索性能が得られる。 そこで本研究では,LBULと呼ばれる新しいアルゴリズムを提案し,テキストに基づく人物検索のためのC$^{3}$M(Consistent Cross-modal Common Manifold)を学習する。 我々の方法の中核となる考え方は、漢文が言うように、 '\textit{san si er hou xing}' であり、つまり \textbf{Look before yoU Leap (LBUL)} である。 LBULの共通多様体マッピング機構は、ルックステップと跳躍ステップを含む。 CDCP法と比較して、LBULは、ある特定のモダリティからC$^{3}$Mにデータを埋め込む前に、視覚とテキストの両方のモダリティの分布特性を考慮し、より安定したクロスモーダル分布のコンセンサスを実現し、より優れた精度を実現する。 提案手法を2つのテキストベース人物検索データセットCUHK-PEDESとRSTPReidで評価した。 実験の結果,提案手法は従来の手法よりも優れており,最新性能が得られた。

The core problem of text-based person retrieval is how to bridge the heterogeneous gap between multi-modal data. Many previous approaches contrive to learning a latent common manifold mapping paradigm following a \textbf{cross-modal distribution consensus prediction (CDCP)} manner. When mapping features from distribution of one certain modality into the common manifold, feature distribution of the opposite modality is completely invisible. That is to say, how to achieve a cross-modal distribution consensus so as to embed and align the multi-modal features in a constructed cross-modal common manifold all depends on the experience of the model itself, instead of the actual situation. With such methods, it is inevitable that the multi-modal data can not be well aligned in the common manifold, which finally leads to a sub-optimal retrieval performance. To overcome this \textbf{CDCP dilemma}, we propose a novel algorithm termed LBUL to learn a Consistent Cross-modal Common Manifold (C$^{3}$M) for text-based person retrieval. The core idea of our method, just as a Chinese saying goes, is to `\textit{san si er hou xing}', namely, to \textbf{Look Before yoU Leap (LBUL)}. The common manifold mapping mechanism of LBUL contains a looking step and a leaping step. Compared to CDCP-based methods, LBUL considers distribution characteristics of both the visual and textual modalities before embedding data from one certain modality into C$^{3}$M to achieve a more solid cross-modal distribution consensus, and hence achieve a superior retrieval accuracy. We evaluate our proposed method on two text-based person retrieval datasets CUHK-PEDES and RSTPReid. Experimental results demonstrate that the proposed LBUL outperforms previous methods and achieves the state-of-the-art performance.
翻訳日:2022-09-15 14:01:28 公開日:2022-09-13
# SciMED:科学者による物理インフォーマルなシンボリック回帰のための計算フレームワーク

SciMED: A Computational Framework For Physics-Informed Symbolic Regression with Scientist-In-The-Loop ( http://arxiv.org/abs/2209.06257v1 )

ライセンス: Link先を確認
Liron Simon Keren, Alex Liberzon, Teddy Lazebnik(参考訳) 実験データを説明する有意義で次元的に均質で象徴的な表現を見つけることは、多くの科学分野において根本的な課題である。 我々はSciMED(Scientist-Machine Equation Detector)と呼ばれる新しいオープンソースの計算フレームワークを提案する。 SciMEDは遺伝的アルゴリズムに基づくラッパー選択法と自動機械学習と2段階のSRメソッドを組み合わせる。 球面沈降の4つの構成に対して, 非線形空気抵抗力の有無でSciMEDを試験した。 SciMEDはノイズデータから正しい物理的意味のある記号表現を発見するのに十分頑健であることを示す。 その結果,最新のsrソフトウェアパッケージよりもこれらのタスクの性能が向上した。

Discovering a meaningful, dimensionally homogeneous, symbolic expression that explains experimental data is a fundamental challenge in many scientific fields. We present a novel, open-source computational framework called Scientist-Machine Equation Detector (SciMED), which integrates scientific discipline wisdom in a scientist-in-the-loop approach with state-of-the-art symbolic regression (SR) methods. SciMED combines a genetic algorithm-based wrapper selection method with automatic machine learning and two levels of SR methods. We test SciMED on four configurations of the settling of a sphere with and without a non-linear aerodynamic drag force. We show that SciMED is sufficiently robust to discover the correct physically meaningful symbolic expressions from noisy data. Our results indicate better performance on these tasks than the state-of-the-art SR software package.
翻訳日:2022-09-15 14:00:52 公開日:2022-09-13
# 形状完了のための複数ビューパフォーマ

Multiple View Performers for Shape Completion ( http://arxiv.org/abs/2209.06291v1 )

ライセンス: Link先を確認
David Watkins-Valls, Peter Allen, Krzysztof Choromanski, Jacob Varley, and Nicholas Waytowich(参考訳) 本稿では,時間的に連続した一連のビューから3次元形状を補完する新しいアーキテクチャであるMultiple View Performer (MVP)を提案する。 MVPはPerformersと呼ばれるリニアアテンショントランスフォーマーを使用することで、このタスクを達成する。 我々のモデルは、より正確な埋め合わせのために、シーンの現在の観察を以前の観察に合わせることができる。 過去の観測の歴史は、現代の連続ホップフィールドメモリを近似するコンパクトな連想メモリを通じて圧縮されるが、そのサイズは歴史の長さとは無関係である。 MVPが提供する一般化のメリットを実証し、形状完成のためのいくつかのベースラインと比較する。 私たちの知る限り、mvpは、複数の深度ビューの登録を必要としない最初の多重ビューボクセル再構成法であり、3d形状完了のための最初の因果トランスフォーマベースモデルである。

We propose the Multiple View Performer (MVP) - a new architecture for 3D shape completion from a series of temporally sequential views. MVP accomplishes this task by using linear-attention Transformers called Performers. Our model allows the current observation of the scene to attend to the previous ones for more accurate infilling. The history of past observations is compressed via the compact associative memory approximating modern continuous Hopfield memory, but crucially of size independent from the history length. We compare our model with several baselines for shape completion over time, demonstrating the generalization gains that MVP provides. To the best of our knowledge, MVP is the first multiple view voxel reconstruction method that does not require registration of multiple depth views and the first causal Transformer based model for 3D shape completion.
翻訳日:2022-09-15 13:57:38 公開日:2022-09-13
# データセットの動的範囲被覆解析によるSLAM評価フットプリントの最適化

Optimizing SLAM Evaluation Footprint Through Dynamic Range Coverage Analysis of Datasets ( http://arxiv.org/abs/2209.06316v1 )

ライセンス: Link先を確認
Islam Ali, Hong Zhang(参考訳) 同時局在マッピング(SLAM)は多くのアプリケーションで使われているため、常に進化する問題であると考えられている。 slamの評価は通常、数と難易度が増加する公開データセットを使用して行われる。 各データセットは、SLAMの堅牢性とレジリエンスを測定する上で重要な側面である、一定のレベルのダイナミックレンジカバレッジを提供します。 本稿では,多くの特徴量に基づいて,データセットの動的範囲カバレッジを体系的に解析し,データセット間の冗長性に大きなレベルを示す。 次に,複数の動的範囲カバレッジ対象にマッチするシーケンスのサブセットを選択することにより,SLAMの評価プロセスにおける冗長性を解消する動的プログラミング(DP)アルゴリズムを提案する。 その結果,データセットのキャラクタリゼーションとDP選択アルゴリズムの助けを借りて,同じレベルのカバレッジを維持しつつ,評価の労力を削減できることが示唆された。 最後に、多目的SLAM設定において、アルゴリズムの複数実行の集約は、SLAMアルゴリズムにより、ローカライズ精度において同じ結論を得ることができることを示す。

Simultaneous Localization and Mapping (SLAM) is considered an ever-evolving problem due to its usage in many applications. Evaluation of SLAM is done typically using publicly available datasets which are increasing in number and the level of difficulty. Each dataset provides a certain level of dynamic range coverage that is a key aspect of measuring the robustness and resilience of SLAM. In this paper, we provide a systematic analysis of the dynamic range coverage of datasets based on a number of characterization metrics, and our analysis shows a huge level of redundancy within and between datasets. Subsequently, we propose a dynamic programming (DP) algorithm for eliminating the redundancy in the evaluation process of SLAM by selecting a subset of sequences that matches a single or multiple dynamic range coverage objectives. It is shown that, with the help of dataset characterization and DP selection algorithm, a reduction in the evaluation effort can be achieved while maintaining the same level of coverage. Finally, we show that, in a multi-objective SLAM setup, the aggregation of multiple runs of the algorithm can achieve the same conclusions in localization accuracy by a SLAM algorithms.
翻訳日:2022-09-15 13:57:26 公開日:2022-09-13
# 移動ロボットの低次元センシングに基づくナビゲーションのための深層強化学習の決定論的・確率的解析

Deterministic and Stochastic Analysis of Deep Reinforcement Learning for Low Dimensional Sensing-based Navigation of Mobile Robots ( http://arxiv.org/abs/2209.06328v1 )

ライセンス: Link先を確認
Ricardo B. Grando, Junior C. de Jesus, Victor A. Kich, Alisson H. Kolling, Rodrigo S. Guerra, Paulo L. J. Drews-Jr(参考訳) 深層強化学習(Deep-RL)における決定論的・確率的手法は、様々なロボットの動作制御と意思決定タスクを改善するための有望なソリューションとなっている。 これまでの研究では、これらのDeep-RLアルゴリズムが、一般の移動ロボットのマップレスナビゲーションに応用できることが示されている。 しかし、画像に基づくセンシングから得られるような高次元の状態空間では性能が悪いことが示されているため、単純なセンシング戦略を用いる傾向がある。 本稿では,移動ロボットの地図レスナビゲーション作業において,Deep Deterministic Policy Gradients(DDPG)とSoft Actor-Critic(SAC)という2つのDeep-RL技術の比較分析を行った。 本研究の目的は,ニューラルネットワークアーキテクチャが学習そのものにどのように影響するかを示し,各アプローチにおける空中移動ロボットのナビゲーション時間と距離に基づいて定量的な結果を示すことである。 全体として、我々の6つの異なるアーキテクチャの分析は、確率的アプローチ(SAC)がより深いアーキテクチャに適しているのに対して、逆は決定論的アプローチ(DDPG)であることを示している。

Deterministic and Stochastic techniques in Deep Reinforcement Learning (Deep-RL) have become a promising solution to improve motion control and the decision-making tasks for a wide variety of robots. Previous works showed that these Deep-RL algorithms can be applied to perform mapless navigation of mobile robots in general. However, they tend to use simple sensing strategies since it has been shown that they perform poorly with a high dimensional state spaces, such as the ones yielded from image-based sensing. This paper presents a comparative analysis of two Deep-RL techniques - Deep Deterministic Policy Gradients (DDPG) and Soft Actor-Critic (SAC) - when performing tasks of mapless navigation for mobile robots. We aim to contribute by showing how the neural network architecture influences the learning itself, presenting quantitative results based on the time and distance of navigation of aerial mobile robots for each approach. Overall, our analysis of six distinct architectures highlights that the stochastic approach (SAC) better suits with deeper architectures, while the opposite happens with the deterministic approach (DDPG).
翻訳日:2022-09-15 13:51:32 公開日:2022-09-13
# 環境一般化による深部強化学習によるハイブリッド航空水中車両のマップレスナビゲーション

Mapless Navigation of a Hybrid Aerial Underwater Vehicle with Deep Reinforcement Learning Through Environmental Generalization ( http://arxiv.org/abs/2209.06332v1 )

ライセンス: Link先を確認
Ricardo B. Grando, Junior C. de Jesus, Victor A. Kich, Alisson H. Kolling, Rodrigo S. Guerra, Paulo L. J. Drews-Jr(参考訳) 以前の研究では、HUAUV(Hybrid Unmanned Aerial Underwater Vehicles)の中間移行を含む、Deep-RLがマップレスナビゲーションに応用できることが示されている。 本稿では,HUAUVのナビゲーションと媒体遷移問題に対処する,最先端アクター批判アルゴリズムに基づく新しいアプローチを提案する。 本稿では、リカレントニューラルネットワークを用いたDeep-RLの二重批判により、HUAUVの航法性能が向上することを示す。 我々のdeep-rlアプローチは、異なるシミュレーションシナリオを通して学習をしっかり一般化し、より優れたナビゲーションとトランジッション能力を達成しました。

Previous works showed that Deep-RL can be applied to perform mapless navigation, including the medium transition of Hybrid Unmanned Aerial Underwater Vehicles (HUAUVs). This paper presents new approaches based on the state-of-the-art actor-critic algorithms to address the navigation and medium transition problems for a HUAUV. We show that a double critic Deep-RL with Recurrent Neural Networks improves the navigation performance of HUAUVs using solely range data and relative localization. Our Deep-RL approaches achieved better navigation and transitioning capabilities with a solid generalization of learning through distinct simulated scenarios, outperforming previous approaches.
翻訳日:2022-09-15 13:51:11 公開日:2022-09-13
# 深部強化学習による無人航空機へのアクティブ・パーセプション

Active Perception Applied To Unmanned Aerial Vehicles Through Deep Reinforcement Learning ( http://arxiv.org/abs/2209.06336v1 )

ライセンス: Link先を確認
Matheus G. Mateus, Ricardo B. Grando, Paulo L. J. Drews-Jr(参考訳) 無人航空機(UAV)は、自律的に使用できる幅広い用途のために、目立った存在である。 しかし、彼らは複数のタスクを実行すると感じているものをより深く理解できるインテリジェントなシステムを必要としています。 複雑な環境では、環境を認識し、決定を下すための環境不確実性の下で行動する必要があるため、より困難になる。 この文脈では、アクティブな知覚を用いたシステムは、変位発生時の目標認識を通じて、最高の次の視点を求めることにより、性能を向上させることができる。 本研究は, 動的着陸を行うための水面構造物の追跡・認識の問題に取り組むことにより, UAVのアクティブな認識に寄与することを目的とする。 本稿では,従来の画像処理技術とDeep-RL (Deep Reinforcement Learning) エージェントを用いて,複雑な畳み込みニューラルネットワーク (CNN) やコントラスト学習 (CL) を用いることなく,環境を知覚し,不確実性に対処できることを示す。

Unmanned Aerial Vehicles (UAV) have been standing out due to the wide range of applications in which they can be used autonomously. However, they need intelligent systems capable of providing a greater understanding of what they perceive to perform several tasks. They become more challenging in complex environments since there is a need to perceive the environment and act under environmental uncertainties to make a decision. In this context, a system that uses active perception can improve performance by seeking the best next view through the recognition of targets while displacement occurs. This work aims to contribute to the active perception of UAVs by tackling the problem of tracking and recognizing water surface structures to perform a dynamic landing. We show that our system with classical image processing techniques and a simple Deep Reinforcement Learning (Deep-RL) agent is capable of perceiving the environment and dealing with uncertainties without making the use of complex Convolutional Neural Networks (CNN) or Contrastive Learning (CL).
翻訳日:2022-09-15 13:50:56 公開日:2022-09-13
# 高次カテゴリー理論を用いた因果推論と強化学習の統合

Unifying Causal Inference and Reinforcement Learning using Higher-Order Category Theory ( http://arxiv.org/abs/2209.06262v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 高次圏論を用いた強化学習(RL)における因果関係モデルと予測状態表現(PSR)モデルの構造発見のための統一的な定式化を提案する。 具体的には、順序数圏から任意の圏への反変関手である単純オブジェクトを用いて、両方の設定で構造発見をモデル化する。 条件付き独立の下で等価な因果モデルの断片(因果角として定義される)と、予測状態表現における潜在的なテストのサブシーケンス(予測角として定義される)は、どちらも単純な対象のホーンの特別なケースであり、内部と特定の頂点の反対の面の除去によって生じる部分集合である。 両方の設定における潜在構造発見は、可換図形の持ち上げ問題を解くことで、単純対象の角の拡張を見つけることや、高階対称性を定義する弱いホモトピーを利用するという、同じ基本的な数学的問題を含む。 インナー」と「アウト」のホーンを満たす問題に対する解は、弱いカン錯体や準カテゴリを含む高次圏の様々な概念をもたらす。 我々は、普遍因果モデルや普遍決定モデルのカテゴリと、その単純対象表現との間の随伴関手の観点から、両方の設定における構造発見の抽象的問題を定義する。

We present a unified formalism for structure discovery of causal models and predictive state representation (PSR) models in reinforcement learning (RL) using higher-order category theory. Specifically, we model structure discovery in both settings using simplicial objects, contravariant functors from the category of ordinal numbers into any category. Fragments of causal models that are equivalent under conditional independence -- defined as causal horns -- as well as subsequences of potential tests in a predictive state representation -- defined as predictive horns -- are both special cases of horns of a simplicial object, subsets resulting from the removal of the interior and the face opposite a particular vertex. Latent structure discovery in both settings involve the same fundamental mathematical problem of finding extensions of horns of simplicial objects through solving lifting problems in commutative diagrams, and exploiting weak homotopies that define higher-order symmetries. Solutions to the problem of filling "inner" vs "outer" horns leads to various notions of higher-order categories, including weak Kan complexes and quasicategories. We define the abstract problem of structure discovery in both settings in terms of adjoint functors between the category of universal causal models or universal decision models and its simplicial object representation.
翻訳日:2022-09-15 13:42:54 公開日:2022-09-13
# CMR3D:3次元物体検出のためのコンテキスト型マルチステージリファインメント

CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection ( http://arxiv.org/abs/2209.06641v1 )

ライセンス: Link先を確認
Dhanalaxmi Gaddam, Jean Lahoud, Fahad Shahbaz Khan, Rao Muhammad Anwer, Hisham Cholakkal(参考訳) 既存のディープラーニングベースの3Dオブジェクト検出器は通常、個々のオブジェクトの外観に依存しており、シーンのリッチなコンテキスト情報に明示的に注意を払わない。 本研究では、3dシーンを入力として、複数のレベルにおけるシーンの有用なコンテキスト情報を明示的に統合し、対応する意味ラベルと共にオブジェクトバウンディングボックスのセットを予測する3dオブジェクト検出(cmr3d)フレームワークのためのコンテキスト化多段階リファインメントを提案する。 そこで本研究では,ボックス位置とクラス予測を段階的に洗練する多段階改良モジュールを用いて,異なるレベルの粒度でコンテキスト情報をキャプチャするコンテキスト拡張ネットワークを提案する。 大規模ScanNetV2ベンチマークの大規模な実験により,提案手法の利点が明らかとなり,ベースラインよりも2.0%向上した。 3Dオブジェクトの検出に加えて,CMR3Dフレームワークの3Dオブジェクトカウント問題に対する有効性を検討した。 ソースコードは公開される予定だ。

Existing deep learning-based 3D object detectors typically rely on the appearance of individual objects and do not explicitly pay attention to the rich contextual information of the scene. In this work, we propose Contextualized Multi-Stage Refinement for 3D Object Detection (CMR3D) framework, which takes a 3D scene as input and strives to explicitly integrate useful contextual information of the scene at multiple levels to predict a set of object bounding-boxes along with their corresponding semantic labels. To this end, we propose to utilize a context enhancement network that captures the contextual information at different levels of granularity followed by a multi-stage refinement module to progressively refine the box positions and class predictions. Extensive experiments on the large-scale ScanNetV2 benchmark reveal the benefits of our proposed method, leading to an absolute improvement of 2.0% over the baseline. In addition to 3D object detection, we investigate the effectiveness of our CMR3D framework for the problem of 3D object counting. Our source code will be publicly released.
翻訳日:2022-09-15 13:39:01 公開日:2022-09-13
# ロバスト多視点深度推定のためのベンチマークとベースライン

A Benchmark and a Baseline for Robust Multi-view Depth Estimation ( http://arxiv.org/abs/2209.06681v1 )

ライセンス: Link先を確認
Philipp Schr\"oppel and Jan Bechtold and Artemij Amiranashvili and Thomas Brox(参考訳) 近年の多視点深度推定のための深度学習手法は,ビデオからの深度推定と多視点ステレオ設定に採用されている。 異なる設定にもかかわらず、これらのアプローチは技術的に類似している。複数のソースビューとキービューを関連付け、キービューの深さマップを推定する。 本研究では,公開データセットを基盤としたロバストなマルチビュー深度ベンチマークを導入し,異なるドメインのデータに対して,両方の設定で評価を行う。 我々は最近のアプローチを評価し、ドメイン間の不均衡なパフォーマンスを見出す。 さらに、カメラポーズが利用可能で、対応する深度マップを正確なスケールで推定することを目的とした第3の設定を考える。 この設定では、最近のアプローチはデータセット全体にわたって一般化されない。 これは、コストボリュームのアウトプットが分散しなくなったためです。 これを解決するために,既存のコンポーネント上に構築されている新しいスケール拡張手法を用いたマルチビュー深度推定のためのロバストMVDベースラインモデルを提案する。 ターゲットデータとは独立に、堅牢なマルチビュー深度推定に適用することができる。 提案するベンチマークとベースラインモデルのコードは、https://github.com/lmb-freiburg/robustmvd.com/で提供します。

Recent deep learning approaches for multi-view depth estimation are employed either in a depth-from-video or a multi-view stereo setting. Despite different settings, these approaches are technically similar: they correlate multiple source views with a keyview to estimate a depth map for the keyview. In this work, we introduce the Robust Multi-View Depth Benchmark that is built upon a set of public datasets and allows evaluation in both settings on data from different domains. We evaluate recent approaches and find imbalanced performances across domains. Further, we consider a third setting, where camera poses are available and the objective is to estimate the corresponding depth maps with their correct scale. We show that recent approaches do not generalize across datasets in this setting. This is because their cost volume output runs out of distribution. To resolve this, we present the Robust MVD Baseline model for multi-view depth estimation, which is built upon existing components but employs a novel scale augmentation procedure. It can be applied for robust multi-view depth estimation, independent of the target data. We provide code for the proposed benchmark and baseline model at https://github.com/lmb-freiburg/robustmvd.
翻訳日:2022-09-15 13:38:44 公開日:2022-09-13
# MLT-LE:マルチタスク残基ニューラルネットワークによる薬物標的結合親和性予測

MLT-LE: predicting drug-target binding affinity with multi-task residual neural networks ( http://arxiv.org/abs/2209.06274v1 )

ライセンス: Link先を確認
Elizaveta Vinogradova, Karina Pats, Ferdinand Moln\'ar and Siamac Fazli(参考訳) ドラッグターゲット親和性を評価することは、医薬品の発見・開発プロセスにおける重要なステップであるが、そのようなデータを実験的に取得するには時間と費用がかかる。 このため,結合強度を予測する計算手法が広く開発されている。 しかしながら、これらの手法は通常、予測に単一タスクアプローチを使用するため、データから抽出され学習プロセスの駆動に使用される追加情報を無視する。 そこで本研究では,バインディング強度予測のためのマルチタスク手法を提案する。 これらの予測は、関連するタスクからの付加情報とマルチタスク誘導正規化を利用して、マルチタスク学習アプローチの恩恵を受けることができる。

Assessing drug-target affinity is a critical step in the drug discovery and development process, but to obtain such data experimentally is both time consuming and expensive. For this reason, computational methods for predicting binding strength are being widely developed. However, these methods typically use a single-task approach for prediction, thus ignoring the additional information that can be extracted from the data and used to drive the learning process. Thereafter in this work, we present a multi-task approach for binding strength prediction. Our results suggest that these prediction can indeed benefit from a multi-task learning approach, by utilizing added information from related tasks and multi-task induced regularization.
翻訳日:2022-09-15 13:36:50 公開日:2022-09-13
# 20-20クリケットマッチの結果の予測

Prediction of the outcome of a Twenty-20 Cricket Match ( http://arxiv.org/abs/2209.06346v1 )

ライセンス: Link先を確認
Ashish V Shenoy, Arjun Singhvi, Shruthi Racha, Srinivas Tunuguntla(参考訳) T2020クリケット(T2020クリケット、英語: T20 cricket)は、クリケットの一種。 20のゲームでは、11人のプレーヤーからなる2つのチームがそれぞれ1回のインニングを持ち、最大20回に制限される。 このバージョンのクリケットは特に予測不可能であり、近年人気を集めている理由の1つである。 しかし,本稿では,T20クリケットマッチの結果を予測するための4つのアプローチを試す。 具体的には、競技チームに関わる選手の過去のパフォーマンス統計、評価されたクリケット統計ウェブサイトから得られた選手のレーティング、同様のパフォーマンス統計をプレイヤーのクラスタリング、ELOベースのアプローチを用いてプレイヤーの評価を行う。 我々は,ロジスティック回帰,サポートベクターマシン,ベイズネットワーク,決定木,ランダムフォレストを用いて,これらの手法の性能を比較する。

Twenty20 cricket, sometimes written Twenty-20, and often abbreviated to T20, is a short form of cricket. In a Twenty20 game the two teams of 11 players have a single innings each, which is restricted to a maximum of 20 overs. This version of cricket is especially unpredictable and is one of the reasons it has gained popularity over recent times. However, in this paper we try four different approaches for predicting the results of T20 Cricket Matches. Specifically we take in to account: previous performance statistics of the players involved in the competing teams, ratings of players obtained from reputed cricket statistics websites, clustering the players' with similar performance statistics and using an ELO based approach to rate players. We compare the performances of each of these approaches by using logistic regression, support vector machines, bayes network, decision tree, random forest.
翻訳日:2022-09-15 13:36:40 公開日:2022-09-13
# 定量的aiリスクアセスメント: 機会と課題

Quantitative AI Risk Assessments: Opportunities and Challenges ( http://arxiv.org/abs/2209.06317v1 )

ライセンス: Link先を確認
David Piorkowski, Michael Hind, John Richards(参考訳) AIベースのシステムは、組織、個人、社会に価値を提供するためにますます活用されているが、かなりのリスクが特定されている。 これらのリスクは、提案された規制、訴訟、および一般社会の懸念に繋がった。 有望なテクノロジと同じように、組織はリスクを低減しつつ、AI技術の肯定的な能力から恩恵を得たいと思っています。 リスクを減らす最善の方法は、AIシステムの設計、開発、デプロイメント、監視中にポリシーと手順が記述され、強制される、包括的なAIライフサイクルガバナンスを実装することだ。 包括的なガバナンスのサポートが登場し始めているが、組織は、どのように構築されたか、あるいはオリジナルの開発者にアクセスできるかを知ることなく、既に構築されたモデルをデプロイするリスクを特定する必要があることが多い。 このような評価は、ホームインスペクタが既に構築された家庭のエネルギー効率を評価する方法や、医師がテストのバッテリに基づいて患者の健康全体を評価する方法と同様の方法で、既存のモデルのリスクを定量的に評価する。 本稿では、定量的AIリスクアセスメントの概念を探求し、そのようなアプローチの機会、課題、潜在的な影響を探求し、AI規制をどのように改善するかについて議論する。

Although AI-based systems are increasingly being leveraged to provide value to organizations, individuals, and society, significant attendant risks have been identified. These risks have led to proposed regulations, litigation, and general societal concerns. As with any promising technology, organizations want to benefit from the positive capabilities of AI technology while reducing the risks. The best way to reduce risks is to implement comprehensive AI lifecycle governance where policies and procedures are described and enforced during the design, development, deployment, and monitoring of an AI system. While support for comprehensive governance is beginning to emerge, organizations often need to identify the risks of deploying an already-built model without knowledge of how it was constructed or access to its original developers. Such an assessment will quantitatively assess the risks of an existing model in a manner analogous to how a home inspector might assess the energy efficiency of an already-built home or a physician might assess overall patient health based on a battery of tests. This paper explores the concept of a quantitative AI Risk Assessment, exploring the opportunities, challenges, and potential impacts of such an approach, and discussing how it might improve AI regulations.
翻訳日:2022-09-15 13:27:47 公開日:2022-09-13
# 半監督ファインチューニングによるプロキシラベルの選択によるウォームスタートアクティブラーニング

Warm Start Active Learning with Proxy Labels \& Selection via Semi-Supervised Fine-Tuning ( http://arxiv.org/abs/2209.06285v1 )

ライセンス: Link先を確認
Vishwesh Nath, Dong Yang, Holger R. Roth, Daguang Xu(参考訳) 次にアノテートするボリュームは、ディープラーニングのための医療画像データセットを構築する上で難しい問題である。 この問題にアプローチするための有望な方法の1つは、アクティブラーニング(AL)である。 しかし、ALアルゴリズムと取得関数がどのデータセットに最も役立つかという点では、ALはクラックするのは難しい。 また、最初にラベル付きデータがない場合、どのボリュームにラベルを付けるかという問題は悪化する。 これはアルのコールドスタート問題として知られている。 3次元画像分割のためのalのための2つの新しい戦略を提案する。 まず、プロキシタスクを提案することでコールドスタート問題に取り組み、その後、プロキシタスクから生成された不確実性を利用して、アノテート対象のラベルなしデータをランク付けする。 第2に、未ラベルのデータも第2段階で半教師付き微調整戦略として使用されるアクティブイテレーション毎に2段階の学習フレームワークを構築する。 医用セグメンテーションによる2つの有名な大規模データセットに対するアプローチの約束を示す。 その結果、データの初期選択と半教師付きフレームワークは、いくつかのAL戦略において大きな改善を示した。

Which volume to annotate next is a challenging problem in building medical imaging datasets for deep learning. One of the promising methods to approach this question is active learning (AL). However, AL has been a hard nut to crack in terms of which AL algorithm and acquisition functions are most useful for which datasets. Also, the problem is exacerbated with which volumes to label first when there is zero labeled data to start with. This is known as the cold start problem in AL. We propose two novel strategies for AL specifically for 3D image segmentation. First, we tackle the cold start problem by proposing a proxy task and then utilizing uncertainty generated from the proxy task to rank the unlabeled data to be annotated. Second, we craft a two-stage learning framework for each active iteration where the unlabeled data is also used in the second stage as a semi-supervised fine-tuning strategy. We show the promise of our approach on two well-known large public datasets from medical segmentation decathlon. The results indicate that the initial selection of data and semi-supervised framework both showed significant improvement for several AL strategies.
翻訳日:2022-09-15 13:27:08 公開日:2022-09-13
# インタラクションと幾何学駆動の鍵フレームの学習による人間アニメーションの3次元シーンへの配置

Placing Human Animations into 3D Scenes by Learning Interaction- and Geometry-Driven Keyframes ( http://arxiv.org/abs/2209.06314v1 )

ライセンス: Link先を確認
James F. Mullen Jr and Divya Kothandaraman and Aniket Bera and Dinesh Manocha(参考訳) アニメーション中の人間とシーンの相互作用を維持しつつ、3Dシーンに人間のアニメーションを配置する新しい手法を提案する。 私たちは「キーフレーム」と呼ばれるシーンとのインタラクションのためにアニメーションで最も重要なメッシュを計算するという概念を使う。 これらのキーフレームにより、アニメーション(立位、立位、座位など)における相互作用がシーンの余裕(例えば、床に立っている、ベッドに横たわるなど)に合致するように、シーンへのアニメーションの配置をより最適化することができます。 我々はPAAKと呼ぶ手法と,POSA, PROX 基底真理, 運動合成法などの先行手法を比較し, 知覚的研究により本手法の利点を強調した。 人間のラテンダーは、PROXの真理データ64.6%よりもPAAK法を好んだ。 さらに, 直接比較では, POSAに比べて61.5\%を含む競合法よりもPAAKが好まれていた。

We present a novel method for placing a 3D human animation into a 3D scene while maintaining any human-scene interactions in the animation. We use the notion of computing the most important meshes in the animation for the interaction with the scene, which we call "keyframes." These keyframes allow us to better optimize the placement of the animation into the scene such that interactions in the animations (standing, laying, sitting, etc.) match the affordances of the scene (e.g., standing on the floor or laying in a bed). We compare our method, which we call PAAK, with prior approaches, including POSA, PROX ground truth, and a motion synthesis method, and highlight the benefits of our method with a perceptual study. Human raters preferred our PAAK method over the PROX ground truth data 64.6\% of the time. Additionally, in direct comparisons, the raters preferred PAAK over competing methods including 61.5\% compared to POSA.
翻訳日:2022-09-15 13:26:52 公開日:2022-09-13
# FaceTopoNet:顔トポロジー学習を用いた表情認識

FaceTopoNet: Facial Expression Recognition using Face Topology Learning ( http://arxiv.org/abs/2209.06322v1 )

ライセンス: Link先を確認
Mojtaba Kolahdouzi, Alireza Sepas-Moghaddam, Ali Etemad(参考訳) 先行研究では、逐次学習者を用いて顔の異なる要素を学習する順序が、表情認識システムの性能に重要な役割を果たすことが示されている。 本研究では,顔の効果的なツリートポロジーを学習可能な,表情認識のためのエンドツーエンドの深層モデルであるFaceTopoNetを提案する。 我々のモデルは学習した木をトラバースしてシーケンスを生成し、次に埋め込みを形成してシーケンシャルな学習者に供給する。 考案されたモデルは、学習構造に1つのストリーム、学習テクスチャに1つのストリームを採用する。 構造ストリームは顔のランドマークの位置に焦点を当て、テクスチャストリームの主な焦点はテクスチャ情報を学ぶためにランドマーク周辺のパッチにある。 次に,効果的な注意に基づく融合戦略を用いて2つのストリームの出力を融合する。 AffectNet,FER2013, ExpW, RAF-DBの4つの大規模な顔表情データセットと実験室で制御されたデータセット(CK+)を用いて、我々のアプローチを評価する。 FaceTopoNetは5つのデータセットのうち3つで最先端のパフォーマンスを達成し、他の2つのデータセットで競合結果を得る。 また,モデルにおける各種成分およびパラメータの影響を評価するため,厳密なアブレーションおよび感度実験を行った。 最後に、ロバストネス実験を行い、FaceTopoNetは、この分野の他の主要な手法と比較して、オクルージョンに対してより堅牢であることを示す。

Prior work has shown that the order in which different components of the face are learned using a sequential learner can play an important role in the performance of facial expression recognition systems. We propose FaceTopoNet, an end-to-end deep model for facial expression recognition, which is capable of learning an effective tree topology of the face. Our model then traverses the learned tree to generate a sequence, which is then used to form an embedding to feed a sequential learner. The devised model adopts one stream for learning structure and one stream for learning texture. The structure stream focuses on the positions of the facial landmarks, while the main focus of the texture stream is on the patches around the landmarks to learn textural information. We then fuse the outputs of the two streams by utilizing an effective attention-based fusion strategy. We perform extensive experiments on four large-scale in-the-wild facial expression datasets - namely AffectNet, FER2013, ExpW, and RAF-DB - and one lab-controlled dataset (CK+) to evaluate our approach. FaceTopoNet achieves state-of-the-art performance on three of the five datasets and obtains competitive results on the other two datasets. We also perform rigorous ablation and sensitivity experiments to evaluate the impact of different components and parameters in our model. Lastly, we perform robustness experiments and demonstrate that FaceTopoNet is more robust against occlusions in comparison to other leading methods in the area.
翻訳日:2022-09-15 13:26:35 公開日:2022-09-13
# データ適応トランスファー学習による翻訳--ハイチとジャマイカを事例として

Data-adaptive Transfer Learning for Translation: A Case Study in Haitian and Jamaican ( http://arxiv.org/abs/2209.06295v1 )

ライセンス: Link先を確認
Nathaniel R. Robinson, Cameron J. Hogan, Nancy Fulda and David R. Mortensen(参考訳) マルチリンガル転送技術は、しばしば低リソース機械翻訳(MT)を改善する。 これらの技法の多くはデータ特性を考慮せずに適用される。 ハイチ語から英語への翻訳の文脈において、翻訳の有効性は学習データ量と知識共有言語間の関係と相関していることを示す。 実験の結果, 真正データ以上の言語では, バックトランスレーションの手法は非生産的であり, 十分に関連する言語からの言語間移動が望ましいことが示唆された。 この発見を補うために,ルールベースのフランス語-ハイチ語正書法と構文エンジンと,新しい音韻埋め込み法を提案する。 多言語技術を用いた場合、従来の手法よりも統計的に有意な改善がなされる。 非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチは 6.63 BLEU 点の利点をもたらす。

Multilingual transfer techniques often improve low-resource machine translation (MT). Many of these techniques are applied without considering data characteristics. We show in the context of Haitian-to-English translation that transfer effectiveness is correlated with amount of training data and relationships between knowledge-sharing languages. Our experiments suggest that for some languages beyond a threshold of authentic data, back-translation augmentation methods are counterproductive, while cross-lingual transfer from a sufficiently related language is preferred. We complement this finding by contributing a rule-based French-Haitian orthographic and syntactic engine and a novel method for phonological embedding. When used with multilingual techniques, orthographic transformation makes statistically significant improvements over conventional methods. And in very low-resource Jamaican MT, code-switching with a transfer language for orthographic resemblance yields a 6.63 BLEU point advantage.
翻訳日:2022-09-15 13:16:22 公開日:2022-09-13
# CNN-Trans-Enc: 文書分類のための静的BERT表現のトップのCNN強化トランスフォーマーエンコーダ

CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT representations for Document Classification ( http://arxiv.org/abs/2209.06344v1 )

ライセンス: Link先を確認
Charaf Eddine Benarab, Shenglin Gui(参考訳) BERTはテキスト分類タスクにおいて顕著な結果を得るが、下流分類器の表現出力として最後の層のみが使用されるため、完全には利用されない。 BERTが学んだ言語的特徴の性質に関する最新の研究は、異なる階層が異なる種類の言語的特徴に焦点を当てていることを示唆している。 本稿では,すべての層からBERT $[CLS]$表現をトレーニングしたCNN拡張トランスフォーマーエンコーダモデルを提案する。このモデルでは,入力の線形投影ではなく,畳み込みニューラルネットワークを用いてトランスフォーマエンコーダ内のQKV特徴写像を生成する。 cnn-trans-encは下流の分類器としては比較的小さく、全ての層から$[cls]$表現を最適に使用し、より意味があり、入力のqkv表現を一般化できるため、bertの微調整を必要としない。 CNN-Trans-EncでBERTを使用することで、IMDBとSST-5データセットの現在の最先端パフォーマンスの980.9\%と944.8\%を、YELP-5の822.23$$8.9\%$改善)とAmazon-Polarityの0.98\%$0.2\%改善(両方のデータセットから1MサンプルサブセットのK-fold Cross Validation)を尊重することができる。 ag newsデータセットでは、cnn-trans-encは現在の最先端の99.94\%$を達成し、dbpedia-14で平均99.51\%$で新しいトップパフォーマンスを達成している。 インデックス用語:テキスト分類、自然言語処理、畳み込みニューラルネットワーク、変換器、BERT

BERT achieves remarkable results in text classification tasks, it is yet not fully exploited, since only the last layer is used as a representation output for downstream classifiers. The most recent studies on the nature of linguistic features learned by BERT, suggest that different layers focus on different kinds of linguistic features. We propose a CNN-Enhanced Transformer-Encoder model which is trained on top of fixed BERT $[CLS]$ representations from all layers, employing Convolutional Neural Networks to generate QKV feature maps inside the Transformer-Encoder, instead of linear projections of the input into the embedding space. CNN-Trans-Enc is relatively small as a downstream classifier and doesn't require any fine-tuning of BERT, as it ensures an optimal use of the $[CLS]$ representations from all layers, leveraging different linguistic features with more meaningful, and generalizable QKV representations of the input. Using BERT with CNN-Trans-Enc keeps $98.9\%$ and $94.8\%$ of current state-of-the-art performance on the IMDB and SST-5 datasets respectably, while obtaining new state-of-the-art on YELP-5 with $82.23$ ($8.9\%$ improvement), and on Amazon-Polarity with $0.98\%$ ($0.2\%$ improvement) (K-fold Cross Validation on a 1M sample subset from both datasets). On the AG news dataset CNN-Trans-Enc achieves $99.94\%$ of the current state-of-the-art, and achieves a new top performance with an average accuracy of $99.51\%$ on DBPedia-14. Index terms: Text Classification, Natural Language Processing, Convolutional Neural Networks, Transformers, BERT
翻訳日:2022-09-15 13:16:07 公開日:2022-09-13
# PINCH:ディープラーニングモデルのための逆抽出攻撃フレームワーク

PINCH: An Adversarial Extraction Attack Framework for Deep Learning Models ( http://arxiv.org/abs/2209.06300v1 )

ライセンス: Link先を確認
William Hackett, Stefan Trawicki, Zhengxin Yu, Neeraj Suri, Peter Garraghan(参考訳) ディープラーニング(dl)モデルは、アプリケーションの多様性をますます高めています。 残念ながら、この広範性は、ターゲットとするDLモデルのアーキテクチャ、パラメータ、ハイパーパラメータを盗むことができる抽出攻撃の魅力的なターゲットにもなります。 既存の抽出攻撃研究では、異なるDLモデルとデータセットに対する様々なレベルの攻撃成功が観察されているが、その感受性の背後にある根本原因はよく分かっていない。 このような根本原因の弱点を確認することは、安全なDLシステムを実現するのに役立つが、攻撃の成功とDL特性の共通点を特定するために、様々なシナリオにおける攻撃の抽出を研究する必要がある。 単一の攻撃さえ理解し、実装し、評価するのに非常に高い技術的労力と時間を要するため、多数のユニークな抽出攻撃シナリオを探索することは不可能であり、現在のフレームワークは通常、特定の攻撃タイプ、データセット、ハードウェアプラットフォームに対してのみ運用するように設計されている。 本稿では、多種多様なハードウェアプラットフォーム上で複数のDLモデルと攻撃をデプロイし評価できる効率的かつ自動化された抽出攻撃フレームワークであるPINCHを提案する。 提案手法は,従来未検討だった多数の抽出攻撃シナリオと二次攻撃段階を経験的に評価することにより,ピンチの有効性を示す。 私たちの重要な発見は 1) DLモデルアーキテクチャ、データセットの複雑さ、ハードウェア、攻撃タイプ、および、抽出攻撃成功に影響する複数の特徴 2) 部分的に成功した抽出攻撃は, さらなる攻撃段階の成功に大きく寄与する。

Deep Learning (DL) models increasingly power a diversity of applications. Unfortunately, this pervasiveness also makes them attractive targets for extraction attacks which can steal the architecture, parameters, and hyper-parameters of a targeted DL model. Existing extraction attack studies have observed varying levels of attack success for different DL models and datasets, yet the underlying cause(s) behind their susceptibility often remain unclear. Ascertaining such root-cause weaknesses would help facilitate secure DL systems, though this requires studying extraction attacks in a wide variety of scenarios to identify commonalities across attack success and DL characteristics. The overwhelmingly high technical effort and time required to understand, implement, and evaluate even a single attack makes it infeasible to explore the large number of unique extraction attack scenarios in existence, with current frameworks typically designed to only operate for specific attack types, datasets and hardware platforms. In this paper we present PINCH: an efficient and automated extraction attack framework capable of deploying and evaluating multiple DL models and attacks across heterogeneous hardware platforms. We demonstrate the effectiveness of PINCH by empirically evaluating a large number of previously unexplored extraction attack scenarios, as well as secondary attack staging. Our key findings show that 1) multiple characteristics affect extraction attack success spanning DL model architecture, dataset complexity, hardware, attack type, and 2) partially successful extraction attacks significantly enhance the success of further adversarial attack staging.
翻訳日:2022-09-15 13:10:07 公開日:2022-09-13
# Real2Sim2Real Transferによる微分物理エンジンによるケーブル駆動ロボットの制御

Real2Sim2Real Transfer for Control of Cable-driven Robots via a Differentiable Physics Engine ( http://arxiv.org/abs/2209.06261v1 )

ライセンス: Link先を確認
Kun Wang, William R. Johnson III, Shiyang Lu, Xiaonan Huang, Joran Booth, Rebecca Kramer-Bottiglio, Mridul Aanjaneya, Kostas Bekris(参考訳) 剛体棒とフレキシブルケーブルで構成されるテンセグリティロボットは、高い強度と重量比と極端な変形を示し、非構造的な地形をナビゲートし、厳しい衝撃に耐えることができる。 しかし、それらは高次元性、複雑な力学、結合アーキテクチャのために制御が難しい。 物理ベースのシミュレーションは、次に実際のロボットに転送できるロコモーションポリシーを開発するための1つの道のりだが、テンセグリティロボットのモデリングは複雑なタスクであり、シミュレーションは実質的なsim2現実のギャップを経験する。 本論では, 緊張ロボットのReal2Sim2Real戦略について述べる。 この戦略は、実際のロボットから限られたデータ(オフライン計測と1つのランダム軌道)を与えられた微分物理エンジンに基づいて訓練し、移動可能な移動ポリシーを発見するのに十分な精度を達成できる。 全体のパイプラインを超えて、この研究の主な貢献は、接触点における非ゼロ勾配の計算、損失関数、およびトレーニング中の勾配評価の衝突を避ける軌道分割技術である。 提案するパイプラインを実3バーのテンセグリティーロボットで実演し,評価した。

Tensegrity robots, composed of rigid rods and flexible cables, exhibit high strength-to-weight ratios and extreme deformations, enabling them to navigate unstructured terrain and even survive harsh impacts. However, they are hard to control due to their high dimensionality, complex dynamics, and coupled architecture. Physics-based simulation is one avenue for developing locomotion policies that can then be transferred to real robots, but modeling tensegrity robots is a complex task, so simulations experience a substantial sim2real gap. To address this issue, this paper describes a Real2Sim2Real strategy for tensegrity robots. This strategy is based on a differential physics engine that can be trained given limited data from a real robot (i.e. offline measurements and one random trajectory) and achieve a high enough accuracy to discover transferable locomotion policies. Beyond the overall pipeline, key contributions of this work include computing non-zero gradients at contact points, a loss function, and a trajectory segmentation technique that avoid conflicts in gradient evaluation during training. The proposed pipeline is demonstrated and evaluated on a real 3-bar tensegrity robot.
翻訳日:2022-09-15 13:07:36 公開日:2022-09-13
# ニューラルネットワークによるコードスタイル転送の探索

Exploring Code Style Transfer with Neural Networks ( http://arxiv.org/abs/2209.06273v1 )

ライセンス: Link先を確認
Karl Munson, Anish Savla, Chih-Kai Ting, Serenity Wade, Kiran Kate, Kavitha Srinivas(参考訳) スタイルは自然言語テキストの重要なコンポーネントであり、基礎となる情報を同じに保ちながら、テキストのトーンの変化を反映している。 プログラミング言語には厳格な構文規則があるが、スタイルもある。 コードは、異なる言語機能を使用して、同じ機能で書くことができる。 しかし、プログラミングスタイルは定量化が難しいので、この作業の一部として、特にpythonのためにスタイル属性を定義します。 スタイル定義を構築するために,階層的クラスタリングを用いて変換を必要とせず,スタイル定義をキャプチャする。 スタイルの定義に加えて、トレーニング済みのコード言語モデルでコードスタイルに関する情報をキャプチャする機能についても検討する。 そこで我々は,事前学習したコード言語モデルを微調整し,その性能をコードスタイル転送タスクで評価した。

Style is a significant component of natural language text, reflecting a change in the tone of text while keeping the underlying information the same. Even though programming languages have strict syntax rules, they also have style. Code can be written with the same functionality but using different language features. However, programming style is difficult to quantify, and thus as part of this work, we define style attributes, specifically for Python. To build a definition of style, we utilized hierarchical clustering to capture a style definition without needing to specify transformations. In addition to defining style, we explore the capability of a pre-trained code language model to capture information about code style. To do this, we fine-tuned pre-trained code-language models and evaluated their performance in code style transfer tasks.
翻訳日:2022-09-15 13:07:16 公開日:2022-09-13
# 言語と視覚における神経スケーリング則の再検討

Revisiting Neural Scaling Laws in Language and Vision ( http://arxiv.org/abs/2209.06640v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Behnam Neyshabur, Xiaohua Zhai(参考訳) 近年のディープラーニングの著しい進歩は、大きなモデルがより長いスケジュールのために大きなデータセットでトレーニングされるスケールの改善によって引き起こされている。 スケールの利点を実証的に予測するために、最適な(補間)パラメータを報告するのではなく、外挿損失に基づく厳密な方法論を議論する。 次に,学習曲線から確実にスケーリング則パラメータを推定する手法を提案する。 我々は,BIG-Bench評価ベンチマークのタスクに加えて,画像分類,ニューラルマシン翻訳(NMT),言語モデリングなど,複数の領域にわたる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。 最後に、この領域の研究を容易にするために、90の評価タスクからなるベンチマークデータセットをリリースする。

The remarkable progress in deep learning in recent years is largely driven by improvements in scale, where bigger models are trained on larger datasets for longer schedules. To predict the benefit of scale empirically, we argue for a more rigorous methodology based on the extrapolation loss, instead of reporting the best-fitting (interpolating) parameters. We then present a recipe for estimating scaling law parameters reliably from learning curves. We demonstrate that it extrapolates more accurately than previous methods in a wide range of architecture families across several domains, including image classification, neural machine translation (NMT) and language modeling, in addition to tasks from the BIG-Bench evaluation benchmark. Finally, we release a benchmark dataset comprising of 90 evaluation tasks to facilitate research in this domain.
翻訳日:2022-09-15 13:04:20 公開日:2022-09-13
# 理想化表現を特徴付ける自己教師あり学習の改善

Improving Self-Supervised Learning by Characterizing Idealized Representations ( http://arxiv.org/abs/2209.06235v1 )

ライセンス: Link先を確認
Yann Dubois and Tatsunori Hashimoto and Stefano Ermon and Percy Liang(参考訳) 自己教師あり学習法(SSL)の実証的な成功にもかかわらず,その表現の特徴が下流の精度にどのような影響を及ぼすかは明らかでない。 本研究ではSSL表現が理想的に満足すべき特性を特徴付ける。 具体的には、与えられたデータ拡張に不変なタスクに対して、その表現に基づいて訓練された所望のプローブ(リニアまたはMLP)が完全な精度を達成するために必要な十分条件を証明する。 これらの要件は、既存のSSLメソッドを改善し、新しいものを引き出すための統一された概念的なフレームワークにつながります。 対照的な学習のために,本フレームワークは非対称プロジェクションヘッドなどの従来の手法に対して,単純だが重要な改善を規定する。 一貫性のない学習では、フレームワークを使って単純で斬新な目的を導出します。 結果として得られたSSLアルゴリズムは、ImageNetの線形プローブ上のSwaV+multicropsなど、標準ベンチマークのベースラインよりも優れています。

Despite the empirical successes of self-supervised learning (SSL) methods, it is unclear what characteristics of their representations lead to high downstream accuracies. In this work, we characterize properties that SSL representations should ideally satisfy. Specifically, we prove necessary and sufficient conditions such that for any task invariant to given data augmentations, desired probes (e.g., linear or MLP) trained on that representation attain perfect accuracy. These requirements lead to a unifying conceptual framework for improving existing SSL methods and deriving new ones. For contrastive learning, our framework prescribes simple but significant improvements to previous methods such as using asymmetric projection heads. For non-contrastive learning, we use our framework to derive a simple and novel objective. Our resulting SSL algorithms outperform baselines on standard benchmarks, including SwAV+multicrops on linear probing of ImageNet.
翻訳日:2022-09-15 13:04:06 公開日:2022-09-13
# 高分解能意味一貫性画像-画像間翻訳

High-resolution semantically-consistent image-to-image translation ( http://arxiv.org/abs/2209.06264v1 )

ライセンス: Link先を確認
Mikhail Sokolov (1), Christopher Henry (1), Joni Storie (1), Christopher Storie (1), Victor Alhassan (2), Mathieu Turgeon-Pelchat (2) ((1) University of Winnipeg, (2) Canada Centre for Mapping and Earth Observation, Natural Resources Canada)(参考訳) 近年、深層学習はリモートセンシング科学者の最も効率的なコンピュータビジョンツールの1つとなっている。 しかし、リモートセンシングデータセットのトレーニングラベルの欠如は、科学者が衛星画像データセット間の差を狭めるためにドメイン適応問題を解く必要があることを意味する。 その結果、トレーニングされたイメージセグメンテーションモデルは、新しいラベルを必要とせず、既存のラベルセットをより一般化して使用することができる。 本研究は,画像のセマンティック一貫性と画素単位の品質を,スタイル変換フェーズ中に保持する教師なし領域適応モデルを提案する。 本稿では,SemI2Iモデルの改良アーキテクチャを提案することで,提案モデルの性能を大幅に向上させ,最先端のCyCADAモデルと競合させる。 第2のコントリビューションは、WorldView-2やSPOT-6のようなリモートセンシングマルチバンドデータセット上でCyCADAモデルをテストすることである。 提案モデルでは,画像の意味的一貫性と画素ごとの品質が保たれる。 したがって、適応画像に基づいて訓練されたセマンティックセグメンテーションモデルは、semi2iモデルと比較してかなりの性能向上を示し、最先端のcycadaモデルと同様の結果が得られる。 提案手法の将来の開発には, 生態的ドメイン転送, データ分布の観点からのデータセット品質の評価, ドメイン適応モデルの内部アーキテクチャの探索などが含まれる。

Deep learning has become one of remote sensing scientists' most efficient computer vision tools in recent years. However, the lack of training labels for the remote sensing datasets means that scientists need to solve the domain adaptation problem to narrow the discrepancy between satellite image datasets. As a result, image segmentation models that are then trained, could better generalize and use an existing set of labels instead of requiring new ones. This work proposes an unsupervised domain adaptation model that preserves semantic consistency and per-pixel quality for the images during the style-transferring phase. This paper's major contribution is proposing the improved architecture of the SemI2I model, which significantly boosts the proposed model's performance and makes it competitive with the state-of-the-art CyCADA model. A second contribution is testing the CyCADA model on the remote sensing multi-band datasets such as WorldView-2 and SPOT-6. The proposed model preserves semantic consistency and per-pixel quality for the images during the style-transferring phase. Thus, the semantic segmentation model, trained on the adapted images, shows substantial performance gain compared to the SemI2I model and reaches similar results as the state-of-the-art CyCADA model. The future development of the proposed method could include ecological domain transfer, {\em a priori} evaluation of dataset quality in terms of data distribution, or exploration of the inner architecture of the domain adaptation model.
翻訳日:2022-09-15 13:03:53 公開日:2022-09-13
# 最小エネルギー消費を考慮したフェデレーション学習のためのスケジューリングアルゴリズム

Scheduling Algorithms for Federated Learning with Minimal Energy Consumption ( http://arxiv.org/abs/2209.06210v1 )

ライセンス: Link先を確認
La\'ercio Lima Pilla (STORM)(参考訳) フェデレーテッド・ラーニング(FL)は、ローカルデータをプライベートに保ちながら、異種モバイルまたはエッジデバイス上で機械学習モデルを協調訓練する機会を開放した。その採用の増加に伴い、その経済的および環境的コスト(他の機械学習技術もそうである)に関する関心が高まっている。 Unfortunately, little work has been done to optimize its energy consumption or emissions of carbon dioxide or equivalents, as energy minimization is usually left as a secondary objective.In this paper, we investigate the problem of minimizing the energy consumption of FL training on heterogeneous devices by controlling the workload distribution.We model this as the Minimal Cost FL Schedule problem, a total cost minimization problem with identical, independent, and atomic tasks that have to be assigned to heterogeneous resources with arbitrary cost functions.We propose a pseudo-polynomial optimal solution to the problem based on the previously unexplored Multiple-Choice Minimum-Cost Maximal Knapsack Packing Problem.We also provide four algorithms for scenarios where cost functions are monotonically increasing and follow the same behavior.These solutions are likewise applicable on the minimization of other kinds of costs, and in other one-dimensional data partition problems.

Federated Learning (FL) has opened the opportunity for collaboratively training machine learning models on heterogeneous mobile or Edge devices while keeping local data private.With an increase in its adoption, a growing concern is related to its economic and environmental cost (as is also the case for other machine learning techniques).Unfortunately, little work has been done to optimize its energy consumption or emissions of carbon dioxide or equivalents, as energy minimization is usually left as a secondary objective.In this paper, we investigate the problem of minimizing the energy consumption of FL training on heterogeneous devices by controlling the workload distribution.We model this as the Minimal Cost FL Schedule problem, a total cost minimization problem with identical, independent, and atomic tasks that have to be assigned to heterogeneous resources with arbitrary cost functions.We propose a pseudo-polynomial optimal solution to the problem based on the previously unexplored Multiple-Choice Minimum-Cost Maximal Knapsack Packing Problem.We also provide four algorithms for scenarios where cost functions are monotonically increasing and follow the same behavior.These solutions are likewise applicable on the minimization of other kinds of costs, and in other one-dimensional data partition problems.
翻訳日:2022-09-15 13:01:48 公開日:2022-09-13
# 研究に対するオンライン長期関心の定量化

Quantifying the Online Long-Term Interest in Research ( http://arxiv.org/abs/2209.06212v1 )

ライセンス: Link先を確認
Murtuza Shahzad, Hamed Alhoori, Reva Freedman, Shaikh Abdul Rahman(参考訳) 研究論文は、複数のオンラインプラットフォーム上で、増加傾向にある。 これらの論文の学術的影響は広く研究されているが、研究論文のオンライン共有期間によって決定されるオンラインの関心はいまだ不明である。 研究論文がオンラインでいつまで言及されているかは研究者にとって貴重な情報だ。 本稿では,ユーザが学術記事を共有し,議論するソーシャルメディアプラットフォームを分析した。 1920年から2016年までの刊行日を持つ年次オンライン文献数に基づいて,論文のクラスタを3つ構築した。 これら3つのクラスタのそれぞれのオンラインソーシャルメディアメトリクスを使用して、研究論文における長期的なオンライン関心を予測するために、機械学習モデルを構築しました。 予測タスクには,回帰と分類という2つのアプローチで対処した。 回帰アプローチでは,多層パーセプトロンモデルが最も優れ,分類アプローチでは木ベースモデルの方が他のモデルよりも優れていた。 我々は、古い記事が経済と産業(すなわち特許)の文脈で最も顕著であることを発見した。 対照的に、最近公開された記事は研究プラットフォーム(mendeley)でもっとも顕著であり、続いてソーシャルメディアプラットフォーム(twitter)がある。

Research articles are being shared in increasing numbers on multiple online platforms. Although the scholarly impact of these articles has been widely studied, the online interest determined by how long the research articles are shared online remains unclear. Being cognizant of how long a research article is mentioned online could be valuable information to the researchers. In this paper, we analyzed multiple social media platforms on which users share and/or discuss scholarly articles. We built three clusters for papers, based on the number of yearly online mentions having publication dates ranging from the year 1920 to 2016. Using the online social media metrics for each of these three clusters, we built machine learning models to predict the long-term online interest in research articles. We addressed the prediction task with two different approaches: regression and classification. For the regression approach, the Multi-Layer Perceptron model performed best, and for the classification approach, the tree-based models performed better than other models. We found that old articles are most evident in the contexts of economics and industry (i.e., patents). In contrast, recently published articles are most evident in research platforms (i.e., Mendeley) followed by social media platforms (i.e., Twitter).
翻訳日:2022-09-15 13:01:31 公開日:2022-09-13
# メタ強化学習とベイズ最適化による生物配列の設計

Designing Biological Sequences via Meta-Reinforcement Learning and Bayesian Optimization ( http://arxiv.org/abs/2209.06259v1 )

ライセンス: Link先を確認
Leo Feng, Padideh Nouri, Aneri Muni, Yoshua Bengio, Pierre-Luc Bacon(参考訳) 生物配列の設計を加速する能力は、医療分野の進歩に大きな影響を与える可能性がある。 この問題は、低いラウンド数で制限された大きなバッチをクエリできるような高価なブラックボックス関数を目標とする、グローバルな最適化問題としてフレーム化することができる。 ベイズ最適化はこの問題に対処するための原則的手法である。 しかし、天文学的に大きな生物配列の状態空間は、可能な全ての配列を反復的に繰り返すことは不可能である。 本稿では,メタ強化学習を通じて自己回帰生成モデルを訓練し,ベイズ最適化による選択に有望なシーケンスを提案するmetarlboを提案する。 この問題は,mdpの分布に対する最適方針を,前回のラウンドで取得したデータのサブセットをサンプリングすることによるものである。 我々は,このようなアンサンブルに対するメタラーニングが,報酬の相違に対して頑健であり,既存の強靭なベースラインと比較して競争的な結果が得られることを示した。

The ability to accelerate the design of biological sequences can have a substantial impact on the progress of the medical field. The problem can be framed as a global optimization problem where the objective is an expensive black-box function such that we can query large batches restricted with a limitation of a low number of rounds. Bayesian Optimization is a principled method for tackling this problem. However, the astronomically large state space of biological sequences renders brute-force iterating over all possible sequences infeasible. In this paper, we propose MetaRLBO where we train an autoregressive generative model via Meta-Reinforcement Learning to propose promising sequences for selection via Bayesian Optimization. We pose this problem as that of finding an optimal policy over a distribution of MDPs induced by sampling subsets of the data acquired in the previous rounds. Our in-silico experiments show that meta-learning over such ensembles provides robustness against reward misspecification and achieves competitive results compared to existing strong baselines.
翻訳日:2022-09-15 12:57:31 公開日:2022-09-13
# 情報エントロピー負荷に基づくクラスタリング手法

A Clustering Method Based on Information Entropy Payload ( http://arxiv.org/abs/2209.06582v1 )

ライセンス: Link先を確認
Shaodong Deng, Long Sheng, Jiayi Nie, Fuyi Deng(参考訳) K平均のような既存のクラスタリングアルゴリズムは、カテゴリ数Kなどのパラメータをプリセットする必要があることが多く、そのようなパラメータは客観的かつ一貫したクラスタリング結果の出力に失敗する可能性がある。 本稿では,クラスタリング結果のクラスタが最大平均情報エントロピー(この論文ではエントロピーペイロードと呼ばれる)を持つ情報理論に基づくクラスタリング手法を提案する。 この方法は以下の利点をもたらすことができる: 第一に、カテゴリ番号や他の類似のしきい値などのスーパーパラメータをプリセットする必要がなく、第二に、クラスタリングの結果が最大情報表現効率を持つ。 イメージセグメンテーションやオブジェクト分類などで使用することができ、教師なし学習の基盤になる可能性がある。

Existing clustering algorithms such as K-means often need to preset parameters such as the number of categories K, and such parameters may lead to the failure to output objective and consistent clustering results. This paper introduces a clustering method based on the information theory, by which clusters in the clustering result have maximum average information entropy (called entropy payload in this paper). This method can bring the following benefits: firstly, this method does not need to preset any super parameter such as category number or other similar thresholds, secondly, the clustering results have the maximum information expression efficiency. it can be used in image segmentation, object classification, etc., and could be the basis of unsupervised learning.
翻訳日:2022-09-15 12:55:56 公開日:2022-09-13
# アンドロイドは電気羊を笑うのか? new yorkerのキャプションコンテストにおけるユーモアの「理解」ベンチマーク

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest ( http://arxiv.org/abs/2209.06293v1 )

ライセンス: Link先を確認
Jack Hessel and Ana Marasovi\'c and Jena D. Hwang and Lillian Lee and Jeff Da and Rowan Zellers and Robert Mankoff and Yejin Choi(参考訳) 我々は、ニューヨーカーキャプションコンテストの洗練されたマルチモーダルユーモアを「理解する」ためにaiモデルに挑戦する。 具体的には、画像とキャプションの間の潜在的に複雑で予期せぬ関係を把握できる(必要ではない)3つの注意深く取り組んだタスクを開発し、同様に様々な人間体験への複雑で予期せぬ暗示を展開する。 漫画のピクセルやキャプションを直接入力する視覚・言語モデルや、画像のテキスト記述を提供することで画像処理を回避する言語のみのモデルについて検討する。 漫画画像に提供されるリッチな多面的アノテーションを用いても、高品質な機械学習モデル(例えば、微調整された175Bパラメータ言語モデル)と人間のパフォーマンスギャップを識別する。 画像の場所や性格、シーンの異常な点、ジョークの説明などに関する注釈を含むコーパスを公開しています。

We challenge AI models to "demonstrate understanding" of the sophisticated multimodal humor of The New Yorker Caption Contest. Concretely, we develop three carefully circumscribed tasks for which it suffices (but is not necessary) to grasp potentially complex and unexpected relationships between image and caption, and similarly complex and unexpected allusions to the wide varieties of human experience; these are the hallmarks of a New Yorker-caliber cartoon. We investigate vision-and-language models that take as input the cartoon pixels and caption directly, as well as language-only models for which we circumvent image-processing by providing textual descriptions of the image. Even with the rich multifaceted annotations we provide for the cartoon images, we identify performance gaps between high-quality machine learning models (e.g., a fine-tuned, 175B parameter language model) and humans. We publicly release our corpora including annotations describing the image's locations/entities, what's unusual about the scene, and an explanation of the joke.
翻訳日:2022-09-15 12:52:32 公開日:2022-09-13
# CometKiwi: IST-Unbabel 2022 品質評価共有タスクの提出

CometKiwi: IST-Unbabel 2022 Submission for the Quality Estimation Shared Task ( http://arxiv.org/abs/2209.06243v1 )

ライセンス: Link先を確認
Ricardo Rei, Marcos Treviso, Nuno M. Guerreiro, Chrysoula Zerva, Ana C. Farinha, Christine Maroti, Jos\'e G. C. de Souza, Taisiya Glushkova, Duarte M. Alves, Alon Lavie, Luisa Coheur, Andr\'e F. T. Martins(参考訳) 本稿では,wmt 2022 品質評価タスク(qe)における ist と unbabel の共同貢献について述べる。 私たちのチームは3つのサブタスクすべてに参加しました。 (i)文及び単語レベルの品質予測 (ii)説明可能なqe,及び (iii) 致命的なエラー検出。 すべてのタスクに対して、COMETフレームワーク上に構築し、OpenKiwiの予測-推定アーキテクチャに接続し、ワードレベルのシーケンスタグと説明抽出器を装備します。 以上の結果から,事前学習中に参照を組み込むことで,下流タスクにおける複数の言語ペアのパフォーマンスが向上し,文レベルと単語レベルの目標との協調トレーニングがさらに向上することが示唆された。 さらに,注意情報と勾配情報を組み合わせることで,文レベルQEモデルの適切な説明を抽出する最重要戦略が証明された。 全体として、我々の提案は、ほぼ全ての言語ペアで3つのタスクすべてに対して、かなりのマージンで最高の結果を得た。

We present the joint contribution of IST and Unbabel to the WMT 2022 Shared Task on Quality Estimation (QE). Our team participated on all three subtasks: (i) Sentence and Word-level Quality Prediction; (ii) Explainable QE; and (iii) Critical Error Detection. For all tasks we build on top of the COMET framework, connecting it with the predictor-estimator architecture of OpenKiwi, and equipping it with a word-level sequence tagger and an explanation extractor. Our results suggest that incorporating references during pretraining improves performance across several language pairs on downstream tasks, and that jointly training with sentence and word-level objectives yields a further boost. Furthermore, combining attention and gradient information proved to be the top strategy for extracting good explanations of sentence-level QE models. Overall, our submissions achieved the best results for all three tasks for almost all language pairs by a considerable margin.
翻訳日:2022-09-15 12:50:48 公開日:2022-09-13
# Alexa, 一緒に仕事をしよう - 会話タスク支援に関するAlexa Prize TaskBot Challengeの紹介

Alexa, Let's Work Together: Introducing the First Alexa Prize TaskBot Challenge on Conversational Task Assistance ( http://arxiv.org/abs/2209.06321v1 )

ライセンス: Link先を確認
Anna Gottardi, Osman Ipek, Giuseppe Castellucci, Shui Hu, Lavina Vaz, Yao Lu, Anju Khatri, Anjali Chadha, Desheng Zhang, Sattvik Sahai, Prerna Dwivedi, Hangjie Shi, Lucy Hu, Andy Huang, Luke Dai, Bofei Yang, Varun Somani, Pankaj Rajan, Ron Rezac, Michael Johnston, Savanna Stiff, Leslie Ball, David Carmel, Yang Liu, Dilek Hakkani-Tur, Oleg Rokhlenko, Kate Bland, Eugene Agichtein, Reza Ghanadan, Yoelle Maarek(参考訳) 2016年の創設以来、Alexa Prizeプログラムにより、何百人もの大学生がSocialBot Grand Challengeを通じて会話エージェントを探索し、競うことができるようになった。 課題の目標は、人気トピックで人間と20分間の会話をしながら、平均4.0/5.0のレーティングを達成できるエージェントを作ることである。 しかし、会話エージェントがますます複雑なタスクをユーザを支援するために、新しい会話AI技術と評価プラットフォームが必要である。 2021年に設立されたAlexa Prize TaskBot Challengeは、実際のCookingとDo-It-Yourselfタスクで人間を対話的に支援し、音声と視覚の両方のモダリティを活用するという要件を導入することで、SocialBot Challengeの成功を支えている。 この課題は、タスクボットがユーザのニーズを識別し、理解し、タスクとドメインの知識をインタラクションに識別し、統合し、目の前のタスクから邪魔をすることなくユーザを惹きつける新しい方法を開発することを必要とする。 本稿では、taskbotチャレンジの概要と、cobotツールキットを使用してチームに提供されるインフラストラクチャサポートについて説明し、研究課題を克服するためにチームが行ったアプローチを要約する。 最後に、コンペの初年度における競合タスクボットのパフォーマンスを分析する。

Since its inception in 2016, the Alexa Prize program has enabled hundreds of university students to explore and compete to develop conversational agents through the SocialBot Grand Challenge. The goal of the challenge is to build agents capable of conversing coherently and engagingly with humans on popular topics for 20 minutes, while achieving an average rating of at least 4.0/5.0. However, as conversational agents attempt to assist users with increasingly complex tasks, new conversational AI techniques and evaluation platforms are needed. The Alexa Prize TaskBot challenge, established in 2021, builds on the success of the SocialBot challenge by introducing the requirements of interactively assisting humans with real-world Cooking and Do-It-Yourself tasks, while making use of both voice and visual modalities. This challenge requires the TaskBots to identify and understand the user's need, identify and integrate task and domain knowledge into the interaction, and develop new ways of engaging the user without distracting them from the task at hand, among other challenges. This paper provides an overview of the TaskBot challenge, describes the infrastructure support provided to the teams with the CoBot Toolkit, and summarizes the approaches the participating teams took to overcome the research challenges. Finally, it analyzes the performance of the competing TaskBots during the first year of the competition.
翻訳日:2022-09-15 12:49:40 公開日:2022-09-13
# PANCETTA: トイスターを自動で除去する音素認識型ニューラルコンプリート

PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters Automatically ( http://arxiv.org/abs/2209.06275v1 )

ライセンス: Link先を確認
Sedrick Scott Keh, Steven Y. Feng, Varun Gangal, Malihe Alikhani, Eduard Hovy(参考訳) 舌ひねりは発音が難しい意味のある文である。 音声の難易度と意味的意味の2つの条件を同時に満たさなければならないため,舌ツイスターの自動生成は困難である。 さらに、音韻難易度自体が特徴付けが困難であり、音韻やホモフォニーといった異種混合現象を通じて自然舌ツイスターで表現される。 本稿では, PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters Automaticlyを提案する。 我々は,音素表現を用いて音韻難易度の概念を捉え,言語モデルを訓練し,提案する2つのタスク設定で元の舌ひねりを生成する。 これを実現するために、既存の英語の舌ねじれ器からなるPANCETTAと呼ばれるデータセットをキュレートする。 PANCETTAは自動的・人為的評価と質的分析により,音声学的に難易度,難易度,意味論的に意味のある舌ツイスターを生成する。

Tongue twisters are meaningful sentences that are difficult to pronounce. The process of automatically generating tongue twisters is challenging since the generated utterance must satisfy two conditions at once: phonetic difficulty and semantic meaning. Furthermore, phonetic difficulty is itself hard to characterize and is expressed in natural tongue twisters through a heterogeneous mix of phenomena such as alliteration and homophony. In this paper, we propose PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters Automatically. We leverage phoneme representations to capture the notion of phonetic difficulty, and we train language models to generate original tongue twisters on two proposed task settings. To do this, we curate a dataset called PANCETTA, consisting of existing English tongue twisters. Through automatic and human evaluation, as well as qualitative analysis, we show that PANCETTA generates novel, phonetically difficult, fluent, and semantically meaningful tongue twisters.
翻訳日:2022-09-15 12:45:24 公開日:2022-09-13
# 偽データ拡張におけるバイアスの課題

Bias Challenges in Counterfactual Data Augmentation ( http://arxiv.org/abs/2209.05104v2 )

ライセンス: Link先を確認
S Chandra Mouli, Yangze Zhou, Bruno Ribeiro(参考訳) 深層学習モデルは、主に課題を解決するために散発的な特徴に依存するため、分散性に欠ける傾向がある。 反事実データ拡張は、スプリアスの特徴に対して反事実不変な表現を(ほぼ)達成するための一般的な方法を提供する。 本研究では,与えられた入力の最もよく似た文脈を推測する抽象機械であるコンテキストガッセリングマシンによって,反ファクトデータ拡張が所望の反ファクトデータ不変性を達成できないことを示す。 理論的には、このような反ファクトデータ増大による不変性を解析し、コンテキストガッシングマシンによる反ファクトデータ増大がロバストなOOD分類に繋がらないような典型的なNLPタスクを記述する。

Deep learning models tend not to be out-of-distribution robust primarily due to their reliance on spurious features to solve the task. Counterfactual data augmentations provide a general way of (approximately) achieving representations that are counterfactual-invariant to spurious features, a requirement for out-of-distribution (OOD) robustness. In this work, we show that counterfactual data augmentations may not achieve the desired counterfactual-invariance if the augmentation is performed by a context-guessing machine, an abstract machine that guesses the most-likely context of a given input. We theoretically analyze the invariance imposed by such counterfactual data augmentations and describe an exemplar NLP task where counterfactual data augmentation by a context-guessing machine does not lead to robust OOD classifiers.
翻訳日:2022-09-15 11:05:44 公開日:2022-09-13
# 抗体設計のための構造化q-learning

Structured Q-learning For Antibody Design ( http://arxiv.org/abs/2209.04698v2 )

ライセンス: Link先を確認
Alexander I. Cowen-Rivers, Philip John Gorinski, Aivar Sootla, Asif Khan, Liu Furui, Jun Wang, Jan Peters, Haitham Bou Ammar(参考訳) 組み合わせ構造を最適化することは、生命科学で遭遇した多くの実世界の問題の中核である。 例えば、抗体設計に関わる重要なステップの1つは、病原体との結合を改善するタンパク質配列内のアミノ酸の配列を見つけることである。 抗体の組合せ最適化は、非常に大きな探索空間と非線形目的のために難しい。 タンパク質の配列長が11である中性抗体設計問題においても,2.05×10^14以上の構造を探索することに直面している。 Q-learningのような従来の強化学習アルゴリズムを組合せ最適化に適用すると、性能は低下する。 組合せ最適化の事前構造を組み込んだQラーニングの拡張である構造化Qラーニング(SQL)を提案する。 分子ドッキングシミュレータを用いて、sqlは高い結合エネルギー配列を発見し、sars-covの抗体設計を含む8つの挑戦的な抗体設計タスクのベースラインに対して好適に作用することを示す。

Optimizing combinatorial structures is core to many real-world problems, such as those encountered in life sciences. For example, one of the crucial steps involved in antibody design is to find an arrangement of amino acids in a protein sequence that improves its binding with a pathogen. Combinatorial optimization of antibodies is difficult due to extremely large search spaces and non-linear objectives. Even for modest antibody design problems, where proteins have a sequence length of eleven, we are faced with searching over 2.05 x 10^14 structures. Applying traditional Reinforcement Learning algorithms such as Q-learning to combinatorial optimization results in poor performance. We propose Structured Q-learning (SQL), an extension of Q-learning that incorporates structural priors for combinatorial optimization. Using a molecular docking simulator, we demonstrate that SQL finds high binding energy sequences and performs favourably against baselines on eight challenging antibody design tasks, including designing antibodies for SARS-COV.
翻訳日:2022-09-15 11:03:34 公開日:2022-09-13
# グラフニューラルネットワークの公正性を劣化させるグループ間リンクインジェクション

Adversarial Inter-Group Link Injection Degrades the Fairness of Graph Neural Networks ( http://arxiv.org/abs/2209.05957v1 )

ライセンス: Link先を確認
Hussain Hussain, Meng Cao, Sandipan Sikdar, Denis Helic, Elisabeth Lex, Markus Strohmaier, Roman Kern(参考訳) 本稿では,公平性を低下させるグラフニューラルネットワーク(gnns)に対する敵意攻撃の存在と有効性を示す。 これらの攻撃は、GNNベースのノード分類において特定のノードのサブグループを不利にする可能性がある。 敵リンク注入がGNN予測の公平性を損なうかを説明する定性的および実験的分析を行う。 例えば、攻撃者は、反対サブグループに属するノードと反対クラスラベルの間の逆リンクを注入することで、GNNベースのノード分類の公平性を損なうことができる。 実験データを用いた実験により,GNN予測の公平さ(攻撃は効果的である)を,低摂動率(攻撃は効率的である)かつ精度の低下(攻撃は偽り)で著しく低下させることができることを示した。 この研究は、敵の公正攻撃に対するGNNモデルの脆弱性を示す。 我々の発見が、我々のコミュニティにおけるこの問題に対する認識を高め、そのような攻撃に対してより堅牢なGNNモデルの開発の基礎を築いたいと考えています。

We present evidence for the existence and effectiveness of adversarial attacks on graph neural networks (GNNs) that aim to degrade fairness. These attacks can disadvantage a particular subgroup of nodes in GNN-based node classification, where nodes of the underlying network have sensitive attributes, such as race or gender. We conduct qualitative and experimental analyses explaining how adversarial link injection impairs the fairness of GNN predictions. For example, an attacker can compromise the fairness of GNN-based node classification by injecting adversarial links between nodes belonging to opposite subgroups and opposite class labels. Our experiments on empirical datasets demonstrate that adversarial fairness attacks can significantly degrade the fairness of GNN predictions (attacks are effective) with a low perturbation rate (attacks are efficient) and without a significant drop in accuracy (attacks are deceptive). This work demonstrates the vulnerability of GNN models to adversarial fairness attacks. We hope our findings raise awareness about this issue in our community and lay a foundation for the future development of GNN models that are more robust to such attacks.
翻訳日:2022-09-14 13:28:52 公開日:2022-09-13
# 深層学習を用いたインテリジェントトランスポートのための分散音響センサシステム

A Distributed Acoustic Sensor System for Intelligent Transportation using Deep Learning ( http://arxiv.org/abs/2209.05978v1 )

ライセンス: Link先を確認
Chia-Yen Chiang, Mona Jaber, and Peter Hayward(参考訳) インテリジェントトランスポートシステム(ITS)は、持続可能な都市生活の発展において重要な役割を担っている。 データ駆動で、空気圧チューブからスマートカメラまで、さまざまなセンサーが混入している。 本研究は,光ファイバーを用いた分散音響センサ(DAS)を用いた交通解析のための新しいデータソースを提案する。 車両の種類を検知し、車両の占有率を推定することは、ITSの主要な懸念事項である。 ひとつは、トラフィックフローの追跡、制御、予測の必要性によるものだ。 2つ目は、排出と渋滞を減らすため、高占有率車線規制を目標としている。 これらのタスクは、車両を検査する個人や、新しいコンピュータビジョン技術を用いて行われることが多い。 前者はスケール可能で効率が良くないが、後者は乗客のプライバシーを侵害している。 そこで本稿では,DAS信号の分析を行う深層学習手法を提案する。 本研究では,DAS信号処理の深層学習手法を提案し,制御条件下で収集したDASデータに基づいて車両の分類精度92%,乗員検出率92-97%を達成する。

Intelligent transport systems (ITS) are pivotal in the development of sustainable and green urban living. ITS is data-driven and enabled by the profusion of sensors ranging from pneumatic tubes to smart cameras. This work explores a novel data source based on optical fibre-based distributed acoustic sensors (DAS) for traffic analysis. Detecting the type of vehicle and estimating the occupancy of vehicles are prime concerns in ITS. The first is motivated by the need for tracking, controlling, and forecasting traffic flow. The second targets the regulation of high occupancy vehicle lanes in an attempt to reduce emissions and congestion. These tasks are often conducted by individuals inspecting vehicles or through the use of emerging computer vision technologies. The former is not scale-able nor efficient whereas the latter is intrusive to passengers' privacy. To this end, we propose a deep learning technique to analyse DAS signals to address this challenge through continuous sensing and without exposing personal information. We propose a deep learning method for processing DAS signals and achieve 92% vehicle classification accuracy and 92-97% in occupancy detection based on DAS data collected under controlled conditions.
翻訳日:2022-09-14 13:28:34 公開日:2022-09-13
# songdriver: 論理遅延や露出バイアスのないリアルタイム音楽伴奏生成

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias ( http://arxiv.org/abs/2209.06054v1 )

ライセンス: Link先を確認
Zihao Wang, Kejun Zhang, Yuxing Wang, Chen Zhang, Qihao Liang, Pengfei Yu, Yongsheng Feng, Wenbo Liu, Yikai Wang, Yuntai Bao, Yiheng Yang(参考訳) リアルタイム音楽伴奏生成は、音楽教育やライブ演奏など、音楽産業に広く応用されている。 しかし、自動リアルタイム音楽伴奏生成はまだ未検討であり、論理遅延と露出バイアスのトレードオフに直面していることが多い。 本稿では,論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムであるSongDriverを提案する。 具体的には、SongDriverは1つの伴奏生成タスクを2つのフェーズに分割する。 1) 変圧器モデルが最初に入力メロディーの和音をリアルタイムに配置し、その和音を再生せずに次のフェーズにキャッシュする配置フェーズ。 2)CRFモデルは,予めキャッシュされたコードに基づいて,来るべきメロディの再生可能なマルチトラック伴奏を生成する。 この2フェーズ戦略により、SongDriverは、今後のメロディの伴奏を直接生成し、論理遅延をゼロにする。 さらに、SongDriverは、時間ステップのコードを予測する際に、前回の予測よりも第1フェーズからキャッシュされたコードを参照し、露出バイアスの問題を回避する。 入力長はしばしばリアルタイム条件下で制限されるため、もう一つの潜在的な問題は長期的なシーケンシャルな情報の損失である。 この欠点を補うために,長期的な音楽作品から,現在までの4つの音楽的特徴をグローバル情報として抽出する。 実験では、SongDriverをいくつかのオープンソースデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルの‘aiSong Dataset’でトレーニングする。 その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れており,物理遅延は著しく減少することがわかった。

Real-time music accompaniment generation has a wide range of applications in the music industry, such as music education and live performances. However, automatic real-time music accompaniment generation is still understudied and often faces a trade-off between logical latency and exposure bias. In this paper, we propose SongDriver, a real-time music accompaniment generation system without logical latency nor exposure bias. Specifically, SongDriver divides one accompaniment generation task into two phases: 1) The arrangement phase, where a Transformer model first arranges chords for input melodies in real-time, and caches the chords for the next phase instead of playing them out. 2) The prediction phase, where a CRF model generates playable multi-track accompaniments for the coming melodies based on previously cached chords. With this two-phase strategy, SongDriver directly generates the accompaniment for the upcoming melody, achieving zero logical latency. Furthermore, when predicting chords for a timestep, SongDriver refers to the cached chords from the first phase rather than its previous predictions, which avoids the exposure bias problem. Since the input length is often constrained under real-time conditions, another potential problem is the loss of long-term sequential information. To make up for this disadvantage, we extract four musical features from a long-term music piece before the current time step as global information. In the experiment, we train SongDriver on some open-source datasets and an original \`aiSong Dataset built from Chinese-style modern pop music scores. The results show that SongDriver outperforms existing SOTA (state-of-the-art) models on both objective and subjective metrics, meanwhile significantly reducing the physical latency.
翻訳日:2022-09-14 13:28:18 公開日:2022-09-13
# 密度水素に対する深部変分自由エネルギーのアプローチ

A deep variational free energy approach to dense hydrogen ( http://arxiv.org/abs/2209.06095v1 )

ライセンス: Link先を確認
Hao Xie, Zi-Hang Li, Han Wang, Linfeng Zhang, Lei Wang(参考訳) 本稿では,高密度水素の状態方程式に対するモデルに基づく変分自由エネルギーアプローチを提案する。 我々は、陽子ボルツマン分布をモデル化する正規化フローネットワークと、与えられた陽子位置における電子波動関数をモデル化するフェルミオンニューラルネットワークを用いる。 2つのニューラルネットワークを共同最適化することで、以前の結合電子イオンモンテカルロ計算に匹敵する変動自由エネルギーに達した。 その結果、惑星状態の水素は従来のモンテカルロやab initioの分子動力学データよりも密度が高く、実験的な化学モデル予測からは遠く離れていることが示唆された。 高密度水素の状態の信頼できる方程式、特にエントロピーや自由エネルギーへの直接アクセスを得ることは、惑星モデリングや高圧物理学の研究において新たな機会を開く。

We present a deep generative model-based variational free energy approach to the equations of state of dense hydrogen. We employ a normalizing flow network to model the proton Boltzmann distribution and a fermionic neural network to model the electron wavefunction at given proton positions. By jointly optimizing the two neural networks we reached a comparable variational free energy to the previous coupled electron-ion Monte Carlo calculation. Our result suggests that hydrogen in the planetary condition is even denser compared to previous Monte Carlo and ab initio molecular dynamics data, which is further away from the empirical chemical model predictions. Obtaining reliable equations of state of dense hydrogen, and in particular, direct access to entropy and free energy opens new opportunities in planetary modeling and high-pressure physics research.
翻訳日:2022-09-14 13:27:48 公開日:2022-09-13
# 非負orthant上の多項式最適化のための凸緩和のトラクタブル階層

Tractable hierarchies of convex relaxations for polynomial optimization on the nonnegative orthant ( http://arxiv.org/abs/2209.06175v1 )

ライセンス: Link先を確認
Ngoc Hoang Anh Mai and Victor Magron and Jean-Bernard Lasserre and Kim-Chuan Toh(参考訳) 非負のオルサントに含まれる半代数集合上の多項式最適化問題(POP)を考える(コンパクト集合上のすべてのPOPは、原点の簡単な翻訳によってこの形式に置ける)。 そのような POP は各変数を同値にすることで等価な POP に変換することができる。 対称性と因子幅の概念を用いて、ディキンソン-povhによるp\'olya's positiveivstellensatzの拡張に基づく半定値緩和の階層を提案する。 その区別と決定的な特徴として、各半有限緩和の最大行列サイズを任意に選択することができ、また、半代数集合が空でない内部を持つ場合、新しい階層によって返される値列が$O(\varepsilon^{-c})$で元のPOPの最適値に収束することを証明する。 適用すると (i)多層ニューラルネットワークのロバスト性証明と評価 (II) 正の最大特異値の計算, P'olya の Positivstellensatz に基づく手法は, より優れたバウンダリを提供し, 標準 Moment-SOS 階層よりも数百倍高速に動作する。

We consider polynomial optimization problems (POP) on a semialgebraic set contained in the nonnegative orthant (every POP on a compact set can be put in this format by a simple translation of the origin). Such a POP can be converted to an equivalent POP by squaring each variable. Using even symmetry and the concept of factor width, we propose a hierarchy of semidefinite relaxations based on the extension of P\'olya's Positivstellensatz by Dickinson-Povh. As its distinguishing and crucial feature, the maximal matrix size of each resulting semidefinite relaxation can be chosen arbitrarily and in addition, we prove that the sequence of values returned by the new hierarchy converges to the optimal value of the original POP at the rate $O(\varepsilon^{-c})$ if the semialgebraic set has nonempty interior. When applied to (i) robustness certification of multi-layer neural networks and (ii) computation of positive maximal singular values, our method based on P\'olya's Positivstellensatz provides better bounds and runs several hundred times faster than the standard Moment-SOS hierarchy.
翻訳日:2022-09-14 13:27:17 公開日:2022-09-13
# ノード分類のためのグラフデータセットの特徴付け

Characterizing Graph Datasets for Node Classification: Beyond Homophily-Heterophily Dichotomy ( http://arxiv.org/abs/2209.06177v1 )

ライセンス: Link先を確認
Oleg Platonov, Denis Kuznedelev, Artem Babenko, Liudmila Prokhorenkova(参考訳) ホモフィリー(英: Homophily)は、類似したノードを接続するエッジの傾向を記述するグラフ特性である。 ホモフィリーは現実世界のネットワークでは自然であるが、この性質を持たないネットワークもある。 標準的なメッセージパッシンググラフニューラルネットワーク(GNN)は、好ましくないグラフではうまく機能しないと考えられており、そのようなデータセットには特別な注意が必要である。 異種グラフのグラフ表現学習法の開発には多くの努力が払われているが、ホモフィリーの測定について普遍的に合意されているものはない。 相同性を測定するためのいくつかの指標が文献で用いられてきたが、これらすべてが異なるデータセット間の相同性レベルの比較を妨げる重要な欠点を持っていることが示されている。 適切なホモフィリー測度に対する望ましい性質を定式化し、分類性能指標の特性に関する既存の文献が問題にどのように関連しているかを示す。 そうすることで、既存のホモフィリー測度よりも望ましい性質を満たす調整ホモフィリーと呼ばれる測度が見つかる。 興味深いことに、この尺度はコーエンのカッパとマシューズ相関係数の2つの分類性能指標に関連している。 次に、ホモフィエヘテロフィックな二分法を超越し、隣人のラベルがノードのラベルについてどれだけの情報を提供するかを示すラベルインフォメーションネス(li)と呼ばれる新しい特性を提案する。 理論的には、LIはクラス数とクラスサイズバランスの異なるデータセット間で比較可能であることを示す。 一連の実験を通して、LIはホモフィリーよりもデータセット上でのGNNの性能の予測に優れていることを示す。 LIは、GNNが異種データセットでうまく機能する理由を説明している。

Homophily is a graph property describing the tendency of edges to connect similar nodes; the opposite is called heterophily. While homophily is natural for many real-world networks, there are also networks without this property. It is often believed that standard message-passing graph neural networks (GNNs) do not perform well on non-homophilous graphs, and thus such datasets need special attention. While a lot of effort has been put into developing graph representation learning methods for heterophilous graphs, there is no universally agreed upon measure of homophily. Several metrics for measuring homophily have been used in the literature, however, we show that all of them have critical drawbacks preventing comparison of homophily levels between different datasets. We formalize desirable properties for a proper homophily measure and show how existing literature on the properties of classification performance metrics can be linked to our problem. In doing so we find a measure that we call adjusted homophily that satisfies more desirable properties than existing homophily measures. Interestingly, this measure is related to two classification performance metrics - Cohen's Kappa and Matthews correlation coefficient. Then, we go beyond the homophily-heterophily dichotomy and propose a new property that we call label informativeness (LI) that characterizes how much information a neighbor's label provides about a node's label. We theoretically show that LI is comparable across datasets with different numbers of classes and class size balance. Through a series of experiments we show that LI is a better predictor of the performance of GNNs on a dataset than homophily. We show that LI explains why GNNs can sometimes perform well on heterophilous datasets - a phenomenon recently observed in the literature.
翻訳日:2022-09-14 13:26:52 公開日:2022-09-13
# データ効率の良い強化学習とネットワークトラフィックダイナミクスの最適周辺制御

Data efficient reinforcement learning and adaptive optimal perimeter control of network traffic dynamics ( http://arxiv.org/abs/2209.05726v1 )

ライセンス: Link先を確認
C. Chen, Y. P. Huang, W. H. K. Lam, T. L. Pan, S. C. Hsu, A. Sumalee, R. X. Zhong(参考訳) 既存のデータ駆動およびフィードバックトラヒックコントロール戦略は、リアルタイムデータ測定の多様性を考慮していない。 さらに、トラヒックコントロールのための従来の強化学習(rl)手法は、データ効率を損なうため、通常は緩やかに収束する。 さらに、従来の最適周囲制御スキームはシステムダイナミクスの正確な知識を必要とするため、内在的不確実性に対して脆弱である。 これらの課題に対処するために、適応最適周波制御のためのマクロ的トラフィックダイナミクスを学習するための積分強化学習(IRL)に基づくアプローチを提案する。 本書は輸送文学に次の主要な貢献をしている。 (a)離散時間センサデータに対応するために、離散利得更新を伴う連続時間制御を開発する。 b) サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するためには、IRLアルゴリズムに経験再生(ER)技術を導入する。 c) 提案手法はモデルキャリブレーションの要求を「モデルフリー」に緩和し,モデル不確実性に対する頑健性を実現し,データ駆動rlアルゴリズムによる実時間性能を向上させる。 (d)IRLに基づくアルゴリズムの収束と制御された交通力学の安定性はリャプノフ理論によって証明される。 最適制御則はパラメータ化され、計算複雑性を緩和するニューラルネットワーク(nn)によって近似される。 状態制約も入力制約も考慮されるが、モデル線形化は必要ない。 提案手法の有効性と有効性を検証するため, 数値実験およびシミュレーション実験を行った。

Existing data-driven and feedback traffic control strategies do not consider the heterogeneity of real-time data measurements. Besides, traditional reinforcement learning (RL) methods for traffic control usually converge slowly for lacking data efficiency. Moreover, conventional optimal perimeter control schemes require exact knowledge of the system dynamics and thus would be fragile to endogenous uncertainties. To handle these challenges, this work proposes an integral reinforcement learning (IRL) based approach to learning the macroscopic traffic dynamics for adaptive optimal perimeter control. This work makes the following primary contributions to the transportation literature: (a) A continuous-time control is developed with discrete gain updates to adapt to the discrete-time sensor data. (b) To reduce the sampling complexity and use the available data more efficiently, the experience replay (ER) technique is introduced to the IRL algorithm. (c) The proposed method relaxes the requirement on model calibration in a "model-free" manner that enables robustness against modeling uncertainty and enhances the real-time performance via a data-driven RL algorithm. (d) The convergence of the IRL-based algorithms and the stability of the controlled traffic dynamics are proven via the Lyapunov theory. The optimal control law is parameterized and then approximated by neural networks (NN), which moderates the computational complexity. Both state and input constraints are considered while no model linearization is required. Numerical examples and simulation experiments are presented to verify the effectiveness and efficiency of the proposed method.
翻訳日:2022-09-14 13:26:23 公開日:2022-09-13
# 重み付きチャネルモデルマトリックスフレームワーク : eegに基づくデータセット間感情認識のための合理的なソリューション

Weight-based Channel-model Matrix Framework: a reasonable solution for EEG-based cross-dataset emotion recognition ( http://arxiv.org/abs/2209.05849v1 )

ライセンス: Link先を確認
Huayu Chen, Huanhuan He, Shuting Sun, Jianxiu Li, Xuexiao Shao, Junxiang Li, Xiaowei Li and Bin Hu(参考訳) eegベースの情緒コンピューティングの分野での極めて困難なタスクとしてのデータセット間感情認識は、ユニバーサルモデルが不十分な結果をもたらす多くの要因に影響されている。 脳波情報のデコード研究が不足している状況に直面すると,まず5つの公開データセットにおいて,異なる脳波情報(個人,セッション,感情,試行)が感情認識に与える影響を,サンプル空間の可視化,サンプル集約現象の定量化,エネルギーパターン分析によって分析した。 そして,これらの現象とパターンに基づき,様々な脳波差の処理方法と解釈可能な作業を行った。 感情的特徴分布パターンの分析により,感情的特徴分布差(IEFDD)が認められた。 iefddに苦しむ従来のモデリングアプローチの限界を分析し、重み付きチャネルモデルマトリックスフレームワーク(wcmf)を提案した。 感情的特徴分布パターンを合理的に特徴付けるために, 4つの重み抽出法を設計し, その最適方法は補正T-test(CT)重み抽出法である。 その結果,wcmfの性能は,異なる実用シナリオをシミュレートする2種類の実験において,データセット横断作業で検証され,wcmfの方が安定し,感情認識能力が向上した。

Cross-dataset emotion recognition as an extremely challenging task in the field of EEG-based affective computing is influenced by many factors, which make the universal models yield unsatisfactory results. Facing the situation that lack of EEG information decoding researches, we first analyzed the impact of different EEG information(individual, session, emotion, trial) to emotion recognition by sample space visualization, sample aggregation phenomenon quantification, and energy pattern analysis on five public datasets. And based on these phenomena and patterns, we provided the processing methods and interpretable work of various EEG differences. Through the analysis of emotional feature distribution patterns, Individual Emotional Feature Distribution Difference(IEFDD) was found. After analyzing the limitations of traditional modeling approach suffering from IEFDD, we proposed the Weight-based Channel-model Matrix Framework(WCMF). In order to characterize emotional feature distribution patterns reasonably, four weight extraction methods were designed, and the optimal of them is Correction T-test(CT) weight extraction method. Finally, the performance of WCMF was validated on cross-dataset tasks in two kinds of experiments that simulated different practical scenarios, the results showed WCMF had more stable and better emotion recognition ability.
翻訳日:2022-09-14 13:23:42 公開日:2022-09-13
# 自然フレーバー分子発見のための新しい強化学習フレームワーク

A new Reinforcement Learning framework to discover natural flavor molecules ( http://arxiv.org/abs/2209.05859v1 )

ライセンス: Link先を確認
Luana P. Queiroz, Carine M. Rebello, Erbet A. Costa, Vin\'icius V. Santana, Bruno C. L. Rodrigues, Al\'irio E. Rodrigues, Ana M. Ribeiro and Idelfonso B. R. Nogueira(参考訳) このフレーバーは、社会的な傾向と行動に従うフレーバー産業の焦点である。 この分野では、新しい香味料や分子の研究と開発が不可欠である。 一方, 現代社会では, 天然フレーバーの発達が重要な役割を担っている。 そこで本研究では,フレーバー工学と産業における新たな課題に取り組むために,科学的機械学習に基づく新しい枠組みを提案する。 この研究は、新しい天然香料分子を設計するための革新的な手法をもたらす。 これらの分子は、合成アクセシビリティ、原子の数、自然または擬似自然生成物への類似性について評価される。

The flavor is the focal point in the flavor industry, which follows social tendencies and behaviors. The research and development of new flavoring agents and molecules are essential in this field. On the other hand, the development of natural flavors plays a critical role in modern society. In light of this, the present work proposes a novel framework based on Scientific Machine Learning to undertake an emerging problem in flavor engineering and industry. Therefore, this work brings an innovative methodology to design new natural flavor molecules. The molecules are evaluated regarding the synthetic accessibility, the number of atoms, and the likeness to a natural or pseudo-natural product.
翻訳日:2022-09-14 13:23:18 公開日:2022-09-13
# O-RANにおけるトラヒックステアリングのためのフェデレーションメタラーニング

Federated Meta-Learning for Traffic Steering in O-RAN ( http://arxiv.org/abs/2209.05874v1 )

ライセンス: Link先を確認
Hakan Erdol, Xiaoyang Wang, Peizheng Li, Jonathan D. Thomas, Robert Piechocki, George Oikonomou, Rui Inacio, Abdelrahim Ahmad, Keith Briggs, Shipra Kapoor(参考訳) 5Gのビジョンは、LTEネットワークと比較して、高いデータレート、低レイテンシ(ほぼリアルタイムなアプリケーションを目的とした)、ベースステーション容量の大幅な増加、およびほぼ完璧なサービス品質(QoS)を提供することにある。 このようなサービスを提供するため、5GシステムはLTE、NR、NR-U、Wi-Fiといった様々なアクセス技術の組み合わせをサポートする。 各無線アクセス技術(rat)は異なる種類のアクセスを提供し、ユーザー間で最適な割り当てと管理を行う必要がある。 リソース管理に加えて、5g systemsはデュアル接続サービスもサポートする。 したがって、ネットワークのオーケストレーションは、レガシーアクセス技術に関して、システムマネージャにとってより難しい問題となる。 本稿では,動的に変化する環境に対して,実行時インテリジェントコントローラ(rics)がより迅速に適応できるフェデレーションメタラーニング(fml)に基づくラット割当アルゴリズムを提案する。 LTEおよび5G NRサービス技術を含むシミュレーション環境を設計した。 シミュレーションでは,送信期限内にUE要求を満足させ,より高いQoS値を提供することが目的である。 提案アルゴリズムを1つのRLエージェント,Reptileアルゴリズム,ルールベースヒューリスティック手法と比較した。 シミュレーションの結果,提案手法は初回配備時のキャッシュレートを21%と12%に向上させることがわかった。 さらに、提案手法は、比較手法の中で最も迅速に新しいタスクと環境に適応する。

The vision of 5G lies in providing high data rates, low latency (for the aim of near-real-time applications), significantly increased base station capacity, and near-perfect quality of service (QoS) for users, compared to LTE networks. In order to provide such services, 5G systems will support various combinations of access technologies such as LTE, NR, NR-U and Wi-Fi. Each radio access technology (RAT) provides different types of access, and these should be allocated and managed optimally among the users. Besides resource management, 5G systems will also support a dual connectivity service. The orchestration of the network therefore becomes a more difficult problem for system managers with respect to legacy access technologies. In this paper, we propose an algorithm for RAT allocation based on federated meta-learning (FML), which enables RAN intelligent controllers (RICs) to adapt more quickly to dynamically changing environments. We have designed a simulation environment which contains LTE and 5G NR service technologies. In the simulation, our objective is to fulfil UE demands within the deadline of transmission to provide higher QoS values. We compared our proposed algorithm with a single RL agent, the Reptile algorithm and a rule-based heuristic method. Simulation results show that the proposed FML method achieves higher caching rates at first deployment round 21% and 12% respectively. Moreover, proposed approach adapts to new tasks and environments most quickly amongst the compared methods.
翻訳日:2022-09-14 13:23:10 公開日:2022-09-13
# ワンショット分類向上のための単一グラフテンプレートによる脳のマルチグラフ人口予測

Predicting Brain Multigraph Population From a Single Graph Template for Boosting One-Shot Classification ( http://arxiv.org/abs/2209.06005v1 )

ライセンス: Link先を確認
Furkan Pala and Islem Rekik(参考訳) ワンショット学習モデルのトレーニングにおける中心的な課題は、データ空間の利用可能なショットの限定的な代表性である。 特に、脳がグラフとして表されるネットワーク神経科学の分野において、そのようなモデルは脳の状態の分類(例えば、典型的対自閉症)において低い性能をもたらす可能性がある。 これに対応するために、既存の作業の多くは、トレーニングセットのサイズ、多様性、代表性を高めるためのデータ拡張ステップを含んでいる。 有効ではあるが、そのような拡張方法は入力ショットと同じ大きさのサンプルを生成する(例えば、単一のショットマトリックスから脳接続行列を生成する)に限られる。 私たちの知る限りでは、単一の脳グラフから一対のノード(解剖学的領域)間の複数の種類の接続をキャプチャする脳のマルチグラフを生成する問題は未解決である。 本稿では,(1) マルチグラフの入力集団を単一のテンプレートグラフに統合する多対一のGNNと,(2) 学習ステップ毎に学習されたCBTを取り込み,再構成された入力マルチグラフ人口を出力する逆1対多のU-Netの2つのサブネットワークからなるハイブリッドグラフニューラルネットワーク(GNN)アーキテクチャを提案する。 どちらのネットワークも、循環損失を使用してエンドツーエンドでトレーニングされる。 実験の結果,我々のMultigraphGNetは,各クラスから1つのCBTのトレーニングと比較して,拡張脳マルチグラフで訓練した際,独立した分類器の性能を向上させることが示された。 われわれのフレームワークは、単一のグラフからのマルチグラフ拡張の今後の研究に光を当てられることを願っている。 当社のmultigraphgnetソースコードはhttps://github.com/basiralab/multigraphgnetで利用可能です。

A central challenge in training one-shot learning models is the limited representativeness of the available shots of the data space. Particularly in the field of network neuroscience where the brain is represented as a graph, such models may lead to low performance when classifying brain states (e.g., typical vs. autistic). To cope with this, most of the existing works involve a data augmentation step to increase the size of the training set, its diversity and representativeness. Though effective, such augmentation methods are limited to generating samples with the same size as the input shots (e.g., generating brain connectivity matrices from a single shot matrix). To the best of our knowledge, the problem of generating brain multigraphs capturing multiple types of connectivity between pairs of nodes (i.e., anatomical regions) from a single brain graph remains unsolved. In this paper, we unprecedentedly propose a hybrid graph neural network (GNN) architecture, namely Multigraph Generator Network or briefly MultigraphGNet, comprising two subnetworks: (1) a many-to-one GNN which integrates an input population of brain multigraphs into a single template graph, namely a connectional brain temple (CBT), and (2) a reverse one-to-many U-Net network which takes the learned CBT in each training step and outputs the reconstructed input multigraph population. Both networks are trained in an end-to-end way using a cyclic loss. Experimental results demonstrate that our MultigraphGNet boosts the performance of an independent classifier when trained on the augmented brain multigraphs in comparison with training on a single CBT from each class. We hope that our framework can shed some light on the future research of multigraph augmentation from a single graph. Our MultigraphGNet source code is available at https://github.com/basiralab/MultigraphGNet.
翻訳日:2022-09-14 13:22:45 公開日:2022-09-13
# マルチインスタンスGPUによるディープラーニング学習

Deep Learning Training on Multi-Instance GPUs ( http://arxiv.org/abs/2209.06018v1 )

ライセンス: Link先を確認
Anders Friis Kaas (1), Stilyan Petrov Paleykov (1), Ties Robroek (1), P{\i}nar T\"oz\"un (1) ((1) IT University of Copenhagen)(参考訳) ディープラーニングトレーニングはGPUを多用する高価なプロセスだが、すべてのモデルトレーニングが現代の強力なGPUを飽和させるわけではない。 マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、完全なGPUのメモリと計算リソースをすべて必要としないワークロードに適合するようにGPUを分割することができる。 本稿では,resnetモデルを用いた画像認識トレーニングに着目した3種類の深層学習ワークロードにおけるmig対応a100 gpuの性能について検討する。 同一GPU上で同期した同種インスタンス上で並列に実行するのに加えて,GPUが許可する様々なMIGインスタンス上で分離して実行する場合のワークロードの挙動について検討する。 その結果,作業負荷が小さすぎてGPU全体を独立して利用できない場合,MIGを用いることでGPUの利用効率が大幅に向上することが示された。 複数の小さなモデルを並列にトレーニングすることで、時間当たりの時間の増加にもかかわらず、GPUによってより多くの作業が実行できるようになり、スループットは$\sim$3倍になる。 対照的に、GPU全体を独自に活用している中規模および大規模ワークロードでは、MIGは限界パフォーマンスの改善のみを提供する。 それでも、別々のMIGパーティションを用いた並列トレーニングモデルでは、現代的なGPU上でMIGのような機能を持つことの価値を裏付ける干渉は現れない。

Deep learning training is an expensive process that extensively uses GPUs, but not all model training saturates the modern powerful GPUs. Multi-Instance GPU (MIG) is a new technology introduced by NVIDIA that can partition a GPU to better fit workloads that don't require all the memory and compute resources of a full GPU. In this paper, we examine the performance of a MIG-enabled A100 GPU under deep learning workloads of three sizes focusing on image recognition training with ResNet models. We investigate the behavior of these workloads when running in isolation on a variety of MIG instances allowed by the GPU in addition to running them in parallel on homogeneous instances co-located on the same GPU. Our results demonstrate that employing MIG can significantly improve the utilization of the GPU when the workload is too small to utilize the whole GPU in isolation. By training multiple small models in parallel, more work can be performed by the GPU per unit of time, despite the increase in time-per-epoch, leading to $\sim$3 times the throughput. In contrast, for medium and large-sized workloads, which already utilize the whole GPU well on their own, MIG only provides marginal performance improvements. Nevertheless, we observe that training models in parallel using separate MIG partitions does not exhibit interference underlining the value of having a functionality like MIG on modern GPUs.
翻訳日:2022-09-14 13:22:15 公開日:2022-09-13
# CAIBC:テキストベースの人物検索のための色以外の全周情報をキャプチャする

CAIBC: Capturing All-round Information Beyond Color for Text-based Person Retrieval ( http://arxiv.org/abs/2209.05773v1 )

ライセンス: Link先を確認
Zijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang, Yifeng Li(参考訳) 自然言語による人物検索は,大規模人物画像データベースから対象人物の画像を特定することを目的としている。 既存のメソッドは一般的に \textbf{color over-reliance problem} に直面している。 実際、色情報は検索にとって重要な意思決定基準であるが、色への過度な依存は、他の重要な手がかり(テクスチャ情報、構造情報など)からモデルを逸脱させ、結果として準最適検索性能をもたらす。 本稿では,テキストベース人物検索のための統合最適化マルチブランチアーキテクチャを用いて,textbf{c}apture \textbf{a}ll-round \textbf{i}nformation \textbf{b}eyond \textbf{c}olor (\textbf{caibc})を提案する。 caibcにはrgbブランチ、grayscaleブランチ(grsブランチ)、colorブランチ(clrブランチ)の3つのブランチがある。 また、バランスの取れた効果的な方法で全ラウンド情報をフル活用することを目的として、情報のさまざまな側面に参画する3つのブランチが相互にコミュニケーションし、互いに学習できるようにするための相互学習機構を用いる。 提案するcuhk-pedesおよびrstpreidデータセットのテキストベース検索設定におけるcaibc法の評価を行い,caibcが既存の手法を大幅に上回っており,これら3つのタスクの最先端性能を実現することを実証した。

Given a natural language description, text-based person retrieval aims to identify images of a target person from a large-scale person image database. Existing methods generally face a \textbf{color over-reliance problem}, which means that the models rely heavily on color information when matching cross-modal data. Indeed, color information is an important decision-making accordance for retrieval, but the over-reliance on color would distract the model from other key clues (e.g. texture information, structural information, etc.), and thereby lead to a sub-optimal retrieval performance. To solve this problem, in this paper, we propose to \textbf{C}apture \textbf{A}ll-round \textbf{I}nformation \textbf{B}eyond \textbf{C}olor (\textbf{CAIBC}) via a jointly optimized multi-branch architecture for text-based person retrieval. CAIBC contains three branches including an RGB branch, a grayscale (GRS) branch and a color (CLR) branch. Besides, with the aim of making full use of all-round information in a balanced and effective way, a mutual learning mechanism is employed to enable the three branches which attend to varied aspects of information to communicate with and learn from each other. Extensive experimental analysis is carried out to evaluate our proposed CAIBC method on the CUHK-PEDES and RSTPReid datasets in both \textbf{supervised} and \textbf{weakly supervised} text-based person retrieval settings, which demonstrates that CAIBC significantly outperforms existing methods and achieves the state-of-the-art performance on all the three tasks.
翻訳日:2022-09-14 13:21:35 公開日:2022-09-13
# 建築写真のための日時ニューラルスタイル転送

Time-of-Day Neural Style Transfer for Architectural Photographs ( http://arxiv.org/abs/2209.05800v1 )

ライセンス: Link先を確認
Yingshu Chen, Tuan-Anh Vu, Ka-Chun Shum, Binh-Son Hua, Sai-Kit Yeung(参考訳) 建築写真は、前景の建物や構造物を撮影することに焦点を当てた写真ジャンルであり、背景には劇的な照明がある。 近年のイメージ・ツー・イメージ翻訳手法の成功に触発されて,建築写真のスタイル・トランスファーを行う。 しかし、建築写真における特殊構成は、この種の写真におけるスタイル伝達に大きな課題をもたらす。 既存のニューラルスタイルの転送手法は、アーキテクチャイメージを単一のエンティティとして扱い、ミスマッチしたクロミナンスを生成し、元のアーキテクチャの幾何学的特徴を破壊し、非現実的な照明、色再現、ゴースト、外観歪み、色ミスマッチなどの視覚的アーティファクトを生成する。 本稿では,建築写真におけるニューラルスタイル伝達法を専門とする。 本手法は, 前景と背景のスタイル伝達をそれぞれ別々に検討した2分岐ニューラルネットワークを用いて, 建築写真における前景と背景の構成について検討する。 本手法は,セグメンテーションモジュール,学習に基づく画像合成モジュール,画像ブレンディング最適化モジュールから構成される。 我々は、画像から画像への変換ニューラルネットワークを、1日の異なるマジックタイムで撮影された、制約のない屋外建築写真の新しいデータセットで訓練した。 実験により,本手法は前景と背景の両方で光写実光や色調を生成でき,画像から画像への変換や任意のスタイルの転送ベースラインを定量的に,質的に上回ることを示す。 私たちのコードとデータはhttps://github.com/hkust-vgd/architectural_style_transfer.comで利用可能です。

Architectural photography is a genre of photography that focuses on capturing a building or structure in the foreground with dramatic lighting in the background. Inspired by recent successes in image-to-image translation methods, we aim to perform style transfer for architectural photographs. However, the special composition in architectural photography poses great challenges for style transfer in this type of photographs. Existing neural style transfer methods treat the architectural images as a single entity, which would generate mismatched chrominance and destroy geometric features of the original architecture, yielding unrealistic lighting, wrong color rendition, and visual artifacts such as ghosting, appearance distortion, or color mismatching. In this paper, we specialize a neural style transfer method for architectural photography. Our method addresses the composition of the foreground and background in an architectural photograph in a two-branch neural network that separately considers the style transfer of the foreground and the background, respectively. Our method comprises a segmentation module, a learning-based image-to-image translation module, and an image blending optimization module. We trained our image-to-image translation neural network with a new dataset of unconstrained outdoor architectural photographs captured at different magic times of a day, utilizing additional semantic information for better chrominance matching and geometry preservation. Our experiments show that our method can produce photorealistic lighting and color rendition on both the foreground and background, and outperforms general image-to-image translation and arbitrary style transfer baselines quantitatively and qualitatively. Our code and data are available at https://github.com/hkust-vgd/architectural_style_transfer.
翻訳日:2022-09-14 13:20:58 公開日:2022-09-13
# 雑音拡散確率モデルに基づくpet画像の雑音化

PET image denoising based on denoising diffusion probabilistic models ( http://arxiv.org/abs/2209.06167v1 )

ライセンス: Link先を確認
Kuang Gong, Keith A. Johnson, Georges El Fakhri, Quanzheng Li, Tinsu Pan(参考訳) 様々な物理的劣化要因と受信回数の制限により、PET画像の品質はさらなる改善が必要である。 denoising diffusion probabilistic models (ddpm) は、正規分布を反復的な改良に基づいて特定のデータ分布に変換する分布学習に基づくモデルである。 そこで本研究では,PET画像復調のためのDDPM法の提案と評価を行った。 DDPMフレームワークでは,PET画像のデノナイズを行う一つの方法は,ネットワーク入力としてPET画像および/または先行画像を提供することである。 別の方法は、改良ステップに含まれるPET画像の入力として事前画像を供給することで、異なるノイズレベルのシナリオに適合する。 120個の18F-FDGデータセットと140個の18F-MK-6240データセットを用いて提案手法の評価を行った。 定量化により,PET情報を含むDDPMベースのフレームワークは,非局所平均およびUnetベースのデノナイジング法よりも優れた結果が得られることが示された。 モデルにさらにmrを追加することで、パフォーマンスが向上し、画像デノイジング中の不確実性をさらに低減することができる。 PET情報を無視しながらMRを頼りにすると、大きなバイアスが発生する。 領域的および表面的定量化は,PET画像を推論時のデータ一貫性制約として埋め込んだ上で,ネットワーク入力としてMRを用いることで,最高の性能が得られることを示す。 まとめると、ddpmベースのpet画像デノイジングは、非局所平均およびunetベースのデノイジング法よりも効率的に先行情報を活用し、優れたパフォーマンスを達成するための柔軟なフレームワークである。

Due to various physical degradation factors and limited counts received, PET image quality needs further improvements. The denoising diffusion probabilistic models (DDPM) are distribution learning-based models, which try to transform a normal distribution into a specific data distribution based on iterative refinements. In this work, we proposed and evaluated different DDPM-based methods for PET image denoising. Under the DDPM framework, one way to perform PET image denoising is to provide the PET image and/or the prior image as the network input. Another way is to supply the prior image as the input with the PET image included in the refinement steps, which can fit for scenarios of different noise levels. 120 18F-FDG datasets and 140 18F-MK-6240 datasets were utilized to evaluate the proposed DDPM-based methods. Quantification show that the DDPM-based frameworks with PET information included can generate better results than the nonlocal mean and Unet-based denoising methods. Adding additional MR prior in the model can help achieve better performance and further reduce the uncertainty during image denoising. Solely relying on MR prior while ignoring the PET information can result in large bias. Regional and surface quantification shows that employing MR prior as the network input while embedding PET image as a data-consistency constraint during inference can achieve the best performance. In summary, DDPM-based PET image denoising is a flexible framework, which can efficiently utilize prior information and achieve better performance than the nonlocal mean and Unet-based denoising methods.
翻訳日:2022-09-14 13:20:28 公開日:2022-09-13
# 2ステップカラー偏光復光ネットワーク

Two-Step Color-Polarization Demosaicking Network ( http://arxiv.org/abs/2209.06027v1 )

ライセンス: Link先を確認
Vy Nguyen, Masayuki Tanaka, Yusuke Monno, Masatoshi Okutomi(参考訳) シーン内の光の偏光情報は、様々な画像処理やコンピュータビジョンタスクに有用である。 焦点平面偏光度計は、1枚のショットで異なる方向の偏光画像をキャプチャするための有望なアプローチである。 本稿では,カラーデモサイクリングと偏光デモサイクリングの2つのサブタスクからなる2段階カラーポーラライズデモサイクリングネットワーク(tcpdnet)を提案する。 また,ycbcr色空間における再構成損失を導入し,tcpdnetの性能を向上させる。 実験的比較により、tcpdnetは偏光画像の画質とストークスパラメータの精度の点で既存の手法よりも優れていることが示されている。

Polarization information of light in a scene is valuable for various image processing and computer vision tasks. A division-of-focal-plane polarimeter is a promising approach to capture the polarization images of different orientations in one shot, while it requires color-polarization demosaicking. In this paper, we propose a two-step color-polarization demosaicking network~(TCPDNet), which consists of two sub-tasks of color demosaicking and polarization demosaicking. We also introduce a reconstruction loss in the YCbCr color space to improve the performance of TCPDNet. Experimental comparisons demonstrate that TCPDNet outperforms existing methods in terms of the image quality of polarization images and the accuracy of Stokes parameters.
翻訳日:2022-09-14 13:17:29 公開日:2022-09-13
# generalized automatic anatomy finder (gaaf):ctスキャンにおける3次元位置検出のための汎用フレームワーク

Generalised Automatic Anatomy Finder (GAAF): A general framework for 3D location-finding in CT scans ( http://arxiv.org/abs/2209.06042v1 )

ライセンス: Link先を確認
Edward G. A. Henderson and Eliana M. Vasquez Osorio and Marcel van Herk and Andrew F. Green(参考訳) 一般自動解剖検査装置であるGAAFを3次元CTにおける解剖学的位置同定のために提案する。 gaafはエンドツーエンドのパイプラインで、データの前処理、モデルトレーニング、推論専用のモジュールを備えている。 コアでは、GAAFは独自のローカライゼーション畳み込みニューラルネットワーク(CNN)を使用している。 CNNモデルは小さくて軽量で、特定のアプリケーションに合わせて調整できる。 GAAFフレームワークは、これまで頭と首でテストされており、脳幹の中心のような解剖学的位置を見つけることができる。 GAAFはオープンアクセスデータセットで評価され、正確で堅牢なローカライゼーション性能を持つ。 私たちのコードは、すべてオープンソースで、https://github.com/rrr-uom-projects/gaafで利用可能です。

We present GAAF, a Generalised Automatic Anatomy Finder, for the identification of generic anatomical locations in 3D CT scans. GAAF is an end-to-end pipeline, with dedicated modules for data pre-processing, model training, and inference. At it's core, GAAF uses a custom a localisation convolutional neural network (CNN). The CNN model is small, lightweight and can be adjusted to suit the particular application. The GAAF framework has so far been tested in the head and neck, and is able to find anatomical locations such as the centre-of-mass of the brainstem. GAAF was evaluated in an open-access dataset and is capable of accurate and robust localisation performance. All our code is open source and available at https://github.com/rrr-uom-projects/GAAF.
翻訳日:2022-09-14 13:17:16 公開日:2022-09-13
# 準最適$hp$-finite要素の深部ニューラルネットワーク予測による特異点への改良

Quasi-optimal $hp$-finite element refinements towards singularities via deep neural network prediction ( http://arxiv.org/abs/2209.05844v1 )

ライセンス: Link先を確認
Tomasz Sluzalec, Rafal Grzeszczuk, Sergio Rojas, Witold Dzwinel, Maciej Paszynski(参考訳) 我々は、与えられた計算問題に対して準最適$hp$-refinementsを予測するために、ディープニューラルネットワーク(DNN)の専門家を構築する方法を示す。 主なアイデアは、自己適応型$hp$-finite element method(hp$-fem)アルゴリズムの実行中にdnn専門家を訓練し、それを使用してさらに$hp$リファインメントを予測することである。 トレーニングには2グリッドパラダイムの自己適応型$hp$-FEMアルゴリズムを用いる。 細かなメッシュを使用して、粗いメッシュ要素に対して最適な$hp$リファインメントを提供する。 我々は、粗いメッシュ要素の準最適$hp$精製を識別するためにDNNエキスパートを構築することを目指している。 トレーニングフェーズでは, 直接解法を用いて微細メッシュの解を求め, 粗いメッシュ素子上での最適精細化を導出する。 トレーニング後、自己適応型の$hp$-FEMアルゴリズムをオフにし、DNNの専門家が提案した準最適改善を継続する。 本手法は3次元フィチェラと2次元L字領域問題に対して検証する。 メッシュサイズに対する数値的精度の収束性を検証する。 自己適応型$hp$-FEMによる指数収束は、適切に訓練されたDNN専門家と改良を続ければ維持できることを示す。 そこで,本稿では,自己適応型$hp$-FEMから,DNNの専門家に特異点の位置を訓練し,準最適$hp$精製法の選択を継続し,指数収束性を保つことができることを示す。

We show how to construct the deep neural network (DNN) expert to predict quasi-optimal $hp$-refinements for a given computational problem. The main idea is to train the DNN expert during executing the self-adaptive $hp$-finite element method ($hp$-FEM) algorithm and use it later to predict further $hp$ refinements. For the training, we use a two-grid paradigm self-adaptive $hp$-FEM algorithm. It employs the fine mesh to provide the optimal $hp$ refinements for coarse mesh elements. We aim to construct the DNN expert to identify quasi-optimal $hp$ refinements of the coarse mesh elements. During the training phase, we use the direct solver to obtain the solution for the fine mesh to guide the optimal refinements over the coarse mesh element. After training, we turn off the self-adaptive $hp$-FEM algorithm and continue with quasi-optimal refinements as proposed by the DNN expert trained. We test our method on three-dimensional Fichera and two-dimensional L-shaped domain problems. We verify the convergence of the numerical accuracy with respect to the mesh size. We show that the exponential convergence delivered by the self-adaptive $hp$-FEM can be preserved if we continue refinements with a properly trained DNN expert. Thus, in this paper, we show that from the self-adaptive $hp$-FEM it is possible to train the DNN expert the location of the singularities, and continue with the selection of the quasi-optimal $hp$ refinements, preserving the exponential convergence of the method.
翻訳日:2022-09-14 13:17:04 公開日:2022-09-13
# MDM : 3次元分子生成のための分子拡散モデル

MDM: Molecular Diffusion Model for 3D Molecule Generation ( http://arxiv.org/abs/2209.05710v1 )

ライセンス: Link先を確認
Lei Huang, Hengtong Zhang, Tingyang Xu, Ka-Chun Wong(参考訳) 分子生成、特にスクラッチから3次元分子ジオメトリー(すなわち3D \textit{de novo} 生成)は、薬物設計の基本的な課題となっている。 既存の拡散に基づく3D分子生成法は、特に大きな分子を生成する場合、不満足な性能に悩まされる可能性がある。 同時に、生成された分子には十分な多様性がない。 本稿では,これら2つの課題に対処する新しい拡散モデルを提案する。 まず、原子間関係は分子の3次元点雲表現にはない。 したがって、既存の生成モデルが潜在的な原子間力と豊富な局所的制約を捉えることは困難である。 この課題に取り組むために、原子間力の可能性を増強し、さらに異なる強度の原子間力をエンコードするための双対同変エンコーダを含むことを提案する。 第二に、既存の拡散ベースのモデルは基本的に、データ密度の勾配に沿って幾何学的要素をシフトさせる。 このような過程はランゲヴィン力学の中間段階における十分な探索を欠いている。 この問題に対処するため,各拡散/逆ステップに分布制御変数を導入し,徹底的な探索と生成の多様性の向上を図る。 複数のベンチマークに関する広範囲な実験により、提案手法が無条件生成タスクと条件生成タスクの両方において既存の手法を大幅に上回っていることが示されている。 また、生成分子の物理化学的性質を理解するためのケーススタディも実施する。

Molecule generation, especially generating 3D molecular geometries from scratch (i.e., 3D \textit{de novo} generation), has become a fundamental task in drug designs. Existing diffusion-based 3D molecule generation methods could suffer from unsatisfactory performances, especially when generating large molecules. At the same time, the generated molecules lack enough diversity. This paper proposes a novel diffusion model to address those two challenges. First, interatomic relations are not in molecules' 3D point cloud representations. Thus, it is difficult for existing generative models to capture the potential interatomic forces and abundant local constraints. To tackle this challenge, we propose to augment the potential interatomic forces and further involve dual equivariant encoders to encode interatomic forces of different strengths. Second, existing diffusion-based models essentially shift elements in geometry along the gradient of data density. Such a process lacks enough exploration in the intermediate steps of the Langevin dynamics. To address this issue, we introduce a distributional controlling variable in each diffusion/reverse step to enforce thorough explorations and further improve generation diversity. Extensive experiments on multiple benchmarks demonstrate that the proposed model significantly outperforms existing methods for both unconditional and conditional generation tasks. We also conduct case studies to help understand the physicochemical properties of the generated molecules.
翻訳日:2022-09-14 13:15:24 公開日:2022-09-13
# ニューラルネットワークによるSAT-Resilient Obfuscationによる論理ロックの強化

A Neural Network-based SAT-Resilient Obfuscation Towards Enhanced Logic Locking ( http://arxiv.org/abs/2209.05799v1 )

ライセンス: Link先を確認
Rakibul Hassan, Gaurav Kolhe, Setareh Rafatirad, Houman Homayoun, Sai Manoj Pudukotai Dinakarrao(参考訳) 論理難読化は、リバースエンジニアリング(RE)や知的財産権(IP)盗難を含む、集積回路(IC)に対する複数のハードウェア脅威に対する重要な防御として導入されている。 論理難読化の有効性は、最近導入されたboolean satisfiability (sat) 攻撃とその変種によって試される。 sat攻撃を妨害するための対策も多数提案されている。 SAT攻撃に対する実装された防御がなければ、大きな電力、性能、および領域オーバーヘッドは不可欠である。 対照的に、ニューラルネットワークベースの unSAT 節変換器 SATConda は、最小限の領域と電力オーバーヘッドを発生させ、元の機能を難解なセキュリティで保存する。 SATCondaは、既存の接続正規形式(CNF)を、インバータまたはバッファのペアを含むり、提供されたCNFに応じて新しい軽量のunSATブロックを追加したりすることで変換するunSAT節生成器でインキュベーションされる。 効率的なunSAT節の生成のために、SATCondaは、まず特徴(リテラルと節)の依存関係を学習する多層ニューラルネットワークを備え、続いて長短の長期メモリ(LSTM)ネットワークを使用して、SATハードネスの検証とバックプロファイリングを行い、学習と翻訳を改善する。 提案するSATCondaは,ISCAS85およびISCAS89ベンチマークで評価され,ハードウェアREのために開発されたSAT攻撃に対する防御効果が確認された。 また,既存のSAT攻撃の基盤となるMiniSAT,Lingeling,Glucose SATソルバに対するSATCondas実験性能の評価を行った。

Logic obfuscation is introduced as a pivotal defense against multiple hardware threats on Integrated Circuits (ICs), including reverse engineering (RE) and intellectual property (IP) theft. The effectiveness of logic obfuscation is challenged by the recently introduced Boolean satisfiability (SAT) attack and its variants. A plethora of countermeasures has also been proposed to thwart the SAT attack. Irrespective of the implemented defense against SAT attacks, large power, performance, and area overheads are indispensable. In contrast, we propose a cognitive solution: a neural network-based unSAT clause translator, SATConda, that incurs a minimal area and power overhead while preserving the original functionality with impenetrable security. SATConda is incubated with an unSAT clause generator that translates the existing conjunctive normal form (CNF) through minimal perturbations such as the inclusion of pair of inverters or buffers or adding a new lightweight unSAT block depending on the provided CNF. For efficient unSAT clause generation, SATConda is equipped with a multi-layer neural network that first learns the dependencies of features (literals and clauses), followed by a long-short-term-memory (LSTM) network to validate and backpropagate the SAT-hardness for better learning and translation. Our proposed SATConda is evaluated on ISCAS85 and ISCAS89 benchmarks and is seen to defend against multiple state-of-the-art successfully SAT attacks devised for hardware RE. In addition, we also evaluate our proposed SATCondas empirical performance against MiniSAT, Lingeling and Glucose SAT solvers that form the base for numerous existing deobfuscation SAT attacks.
翻訳日:2022-09-14 13:15:03 公開日:2022-09-13
# アルミニウム電解ダイナミクスモデリングのためのスパースディープニューラルネットワーク

Sparse deep neural networks for modeling aluminum electrolysis dynamics ( http://arxiv.org/abs/2209.05832v1 )

ライセンス: Link先を確認
Erlend Torje Berg Lundby, Adil Rasheed, Ivar Johan Halvorsen, Jan Tommy Gravdahl(参考訳) 人工ニューラルネットワークは、データから非線形関数をモデル化する柔軟性と能力が高いため、今日では幅広い応用がある。 しかしながら、ニューラルネットワークの信頼性は、ブラックボックスの性質、小さなデータセットから一般化する能力の不足、トレーニング中の一貫性のない収束などによって制限されている。 アルミニウム電解は、多くの相互関連サブプロセスを持つ複雑な非線形過程である。 人工ニューラルネットワークは、アルミニウム電解プロセスのモデリングに適する可能性があるが、このプロセスの安全性-クリティカルな性質には、信頼できるモデルが必要である。 本研究では,アルミニウム電解シミュレータのシステムダイナミクスをモデル化するために,スパースニューラルネットワークを訓練する。 スパースモデル構造は、対応する高密度ニューラルネットワークと比較してモデル複雑性を著しく低減する。 これがモデルをより解釈可能であると我々は主張する。 さらに, 実験により, 分散モデルが密集したニューラルネットワークよりも小さなトレーニングセットから一般化できることが示されている。 さらに、パラメータ初期化の異なるスパースニューラルネットワークのアンサンブルを訓練することにより、モデルが類似したモデル構造と類似の学習入力特徴に収束することを示す。

Artificial neural networks have a broad array of applications today due to their high degree of flexibility and ability to model nonlinear functions from data. However, the trustworthiness of neural networks is limited due to their black-box nature, their poor ability to generalize from small datasets, and their inconsistent convergence during training. Aluminum electrolysis is a complex nonlinear process with many interrelated sub-processes. Artificial neural networks can potentially be well suited for modeling the aluminum electrolysis process, but the safety-critical nature of this process requires trustworthy models. In this work, sparse neural networks are trained to model the system dynamics of an aluminum electrolysis simulator. The sparse model structure has a significantly reduction in model complexity compared to a corresponding dense neural network. We argue that this makes the model more interpretable. Furthermore, the empirical study shows that the sparse models generalize better from small training sets than dense neural networks. Moreover, training an ensemble of sparse neural networks with different parameter initializations show that the models converge to similar model structures with similar learned input features.
翻訳日:2022-09-14 13:14:09 公開日:2022-09-13
# 表現的推論グラフストア:rdfとプロパティグラフデータベースを管理するための統一フレームワーク

Expressive Reasoning Graph Store: A Unified Framework for Managing RDF and Property Graph Databases ( http://arxiv.org/abs/2209.05828v1 )

ライセンス: Link先を確認
Sumit Neelam, Udit Sharma, Sumit Bhatia, Hima Karanam, Ankita Likhyani, Ibrahim Abdelaziz, Achille Fokoue, L.V. Subramaniam(参考訳) Resource Description Framework(RDF)とProperty Graph(PG)は、グラフデータを表現、保存、クエリするために最もよく使われる2つのデータモデルである。 Expressive Reasoning Graph Store (ERGS) - JanusGraph(Property Graph Store)上に構築されたグラフストアで、RDFデータセットの保存とクエリを可能にする。 まず、rdfデータをプロパティグラフ表現に変換する方法を説明し、次にsparqlクエリを一連のgremlinトラバーサルに変換するクエリ変換モジュールを記述する。 このように開発されたコンバータとトランスレータは、Apache Tinkerpop準拠のグラフデータベースでRDFデータセットを保存およびクエリすることができる。 本稿では,基本プロパティグラフストアとしてJanusGraphを用いた提案手法の有効性を示し,その性能を標準RDFシステムと比較する。

Resource Description Framework (RDF) and Property Graph (PG) are the two most commonly used data models for representing, storing, and querying graph data. We present Expressive Reasoning Graph Store (ERGS) -- a graph store built on top of JanusGraph (a Property Graph store) that also allows storing and querying of RDF datasets. First, we describe how RDF data can be translated into a Property Graph representation and then describe a query translation module that converts SPARQL queries into a series of Gremlin traversals. The converters and translators thus developed can allow any Apache Tinkerpop compliant graph database to store and query RDF datasets. We demonstrate the effectiveness of our proposed approach using JanusGraph as the base Property Graph store and compare its performance with standard RDF systems.
翻訳日:2022-09-14 13:11:13 公開日:2022-09-13
# 認定医療システムにおける機械学習のための継続的設計制御

Continuous Design Control for Machine Learning in Certified Medical Systems ( http://arxiv.org/abs/2209.05843v1 )

ライセンス: Link先を確認
Vlad Stirbu, Tuomas Granlund, Tommi Mikkonen(参考訳) 継続的ソフトウェアエンジニアリングは多くの分野で一般的になっています。 しかしながら、追加の懸念を考慮する必要がある集中的なセクターを規制する場合、devopsのような継続的開発アプローチを適用することが難しい場合が多い。 本稿では,設計制御としてプルリクエストを使用するアプローチを提案し,このアプローチをモデルカードを利用した認定医療システムにおける機械学習に適用する。 このアプローチは,医療システムを継続的に開発する方法を示すために,これまで使用してきた産業システムを用いて実証されている。

Continuous software engineering has become commonplace in numerous fields. However, in regulating intensive sectors, where additional concerns needs to be taken into account, it is often considered difficult to apply continuous development approaches, such as devops. In this paper, we present an approach for using pull requests as design controls, and apply this approach to machine learning in certified medical systems leveraging model cards, a novel technique developed to add explainability to machine learning systems, as a regulatory audit trail. The approach is demonstrated with an industrial system that we have used previously to show how medical systems can be developed in a continuous fashion.
翻訳日:2022-09-14 13:11:00 公開日:2022-09-13
# 無益なニューラルコード補完を防ぐための学習

Learning to Prevent Profitless Neural Code Completion ( http://arxiv.org/abs/2209.05948v1 )

ライセンス: Link先を確認
Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Mingze Ni, Li Li(参考訳) 現在、大規模な事前トレーニングされたモデルは、Github Copilot、aiXcoder、TabNineなどのニューラルコード補完システムに広く適用されている。 2,631人の参加者による調査によると、copilotから表示されたコードコンプリートは約70\%が開発者に受け入れられていない。 レビューされるが受け入れられないこれらの完成は生産性に脅威をもたらす。 さらに、大規模モデルの高コストを考慮すると、AI技術の持続可能な開発原理に強く反対する、計算資源とエネルギーの膨大な無駄である。 さらに、コード補完システムでは、開発者が入力するモデルに対して、完了要求が自動的にアクティブに発行されるため、ワークロードが著しく悪化する。 しかしながら、私たちの知る限りでは、そのような無駄は、ニューラルネットワークの完了という文脈において、効果的に対処されたというわけではない。 したがって、このような無益なコード補完をコストフレンドリーな方法で防止することは、緊急に必要である。 このギャップを埋めるために、まずこれらの完了のプロンプトを調査し、4つの観察可能なプロンプトパターンを見つけます。 そこで本研究では,LCMに送信することなく,完成品質を予見することで,低リターンプロンプトを停止させる早期リジェクション機構を提案する。 さらに,本機構の実現可能性を示す軽量なトランスフォーマーベース推定器を提案する。 実験の結果、推定器は低リターンプロンプトを83.2%の精度で拒絶することが示された。

Currently, large pre-trained models are widely applied in neural code completion systems, such as Github Copilot, aiXcoder, and TabNine. Though large models significantly outperform their smaller counterparts, a survey with 2,631 participants reveals that around 70\% displayed code completions from Copilot are not accepted by developers. Being reviewed but not accepted, these completions bring a threat to productivity. Besides, considering the high cost of the large models, it is a huge waste of computing resources and energy, which severely goes against the sustainable development principle of AI technologies. Additionally, in code completion systems, the completion requests are automatically and actively issued to the models as developers type out, which significantly aggravates the workload. However, to the best of our knowledge, such waste has never been realized, not to mention effectively addressed, in the context of neural code completion. Hence, preventing such profitless code completions from happening in a cost-friendly way is of urgent need. To fill this gap, we first investigate the prompts of these completions and find four observable prompt patterns, which demonstrate the feasibility of identifying such prompts based on prompts themselves. Motivated by this finding, we propose an early-rejection mechanism to turn down low-return prompts by foretelling the completion qualities without sending them to the LCM. Further, we propose a lightweight Transformer-based estimator to demonstrate the feasibility of the mechanism. The experimental results show that the estimator rejects low-return prompts with a promising accuracy of 83.2%.
翻訳日:2022-09-14 13:10:50 公開日:2022-09-13
# アルツハイマー病における神経タスクスコアのモデル化のための音響言語学的特徴

Acoustic-Linguistic Features for Modeling Neurological Task Score in Alzheimer's ( http://arxiv.org/abs/2209.06085v1 )

ライセンス: Link先を確認
Saurav K. Aryal, Howard Prioleau, Legand Burge(参考訳) 平均寿命は、医療技術の進歩、予防医療、老年医学への重点化などにより、世界中で増加している。 そのため,高齢者の認知機能における加齢関連疾患の検出・追跡技術の開発が不可欠である。 特に、アルツハイマー病(ad)の自動検出および評価に関する研究は、この疾患の有病率と現在の方法の費用を考えると極めて重要である。 ADは音声や語彙の音響に影響を与えるため、自然言語処理と機械学習はADを確実に検出するための有望な技術を提供する。 adressチャレンジデータセットにおけるミニメンタル状態試験スコアの予測のための10の線形回帰モデルの性能の比較と対比を行った。 言語・音響現象を捉えた13,000以上の手作り・学習特徴を抽出した。 1)再帰的除去と(2)相関スコアの2つの方法により選択された54の上位特徴のサブセットを用いて、同じタスクに対して最先端のベースラインを上回ります。 モデル毎に選択された各特徴量の統計的意義を評価・評価すると, 与えられたタスクに対して手作り言語的特徴は, 音響的特徴や学習的特徴よりも有意であることがわかった。

The average life expectancy is increasing globally due to advancements in medical technology, preventive health care, and a growing emphasis on gerontological health. Therefore, developing technologies that detect and track aging-associated disease in cognitive function among older adult populations is imperative. In particular, research related to automatic detection and evaluation of Alzheimer's disease (AD) is critical given the disease's prevalence and the cost of current methods. As AD impacts the acoustics of speech and vocabulary, natural language processing and machine learning provide promising techniques for reliably detecting AD. We compare and contrast the performance of ten linear regression models for predicting Mini-Mental Status Exam scores on the ADReSS challenge dataset. We extracted 13000+ handcrafted and learned features that capture linguistic and acoustic phenomena. Using a subset of 54 top features selected by two methods: (1) recursive elimination and (2) correlation scores, we outperform a state-of-the-art baseline for the same task. Upon scoring and evaluating the statistical significance of each of the selected subset of features for each model, we find that, for the given task, handcrafted linguistic features are more significant than acoustic and learned features.
翻訳日:2022-09-14 13:10:24 公開日:2022-09-13
# コンフォーメータ型自動音声認識における自己愛頭部の多様性の解析

Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech Recognition ( http://arxiv.org/abs/2209.06096v1 )

ライセンス: Link先を確認
Kartik Audhkhasi, Yinghui Huang, Bhuvana Ramabhadran, Pedro J. Moreno(参考訳) アテンション層は、トランスフォーマーやコンフォーメータアーキテクチャの一部として、現代のエンドツーエンド自動音声認識システムにおいて不可欠な部分である。 注意は通常マルチヘッドで、各ヘッドは独立した学習パラメータセットを持ち、同じ入力特徴シーケンスで動作する。 マルチヘッドアテンションの出力は、個々のヘッドからの出力の融合である。 我々は,異なる注意頭による表現の多様性を経験的に分析し,訓練中に頭部が高度に相関していることを示す。 頭部の多様性を促進するために,各頭部に対する注意機構の違いや補助訓練損失関数の利用など,頭部の多様性向上のためのいくつかのアプローチについて検討した。 学習中における多様性向上補助損失関数の導入はより効果的なアプローチであり,librispeechコーパスに対して最大6%の改善が得られた。 最後に,注意ヘッドの多様性と頭部パラメータの勾配の類似性との関係について考察する。

Attention layers are an integral part of modern end-to-end automatic speech recognition systems, for instance as part of the Transformer or Conformer architecture. Attention is typically multi-headed, where each head has an independent set of learned parameters and operates on the same input feature sequence. The output of multi-headed attention is a fusion of the outputs from the individual heads. We empirically analyze the diversity between representations produced by the different attention heads and demonstrate that the heads become highly correlated during the course of training. We investigate a few approaches to increasing attention head diversity, including using different attention mechanisms for each head and auxiliary training loss functions to promote head diversity. We show that introducing diversity-promoting auxiliary loss functions during training is a more effective approach, and obtain WER improvements of up to 6% relative on the Librispeech corpus. Finally, we draw a connection between the diversity of attention heads and the similarity of the gradients of head parameters.
翻訳日:2022-09-14 13:10:04 公開日:2022-09-13
# Semantic2Graph: ビデオにおけるアクションセグメンテーションのためのグラフベースのマルチモーダル機能

Semantic2Graph: Graph-based Multi-modal Feature for Action Segmentation in Videos ( http://arxiv.org/abs/2209.05653v1 )

ライセンス: Link先を確認
Junbin Zhang, Pei-Hsuan Tsai and Meng-Hsun Tsai(参考訳) ビデオアクションのセグメンテーションと認識タスクは多くの分野に広く応用されている。 これまでの研究のほとんどは、ビデオを総合的に理解するために、大規模で高い計算能力を持つビジュアルモデルを使っている。 しかし、ビデオの推論にグラフモデルを直接利用する研究はほとんどない。 グラフモデルは、パラメータが少なく、計算コストが低く、大きな受容フィールドがあり、フレキシブルな近隣メッセージアグリゲーションの利点を提供する。 本稿では,映像動作のセグメンテーションと認識問題をグラフのノード分類に変換する,semantic2graphというグラフベース手法を提案する。 映像におけるきめ細かい関係を保つため,映像のグラフ構造をフレームレベルで構築し,時間的,意味的,自己ループの3種類のエッジを設計する。 視覚的、構造的、セマンティックな機能をノード属性として組み合わせます。 意味的エッジは長期時空間関係をモデル化するために使用され、セマンティックな特徴はテキストプロンプトに基づくラベルテキストの埋め込みである。 グラフニューラルネットワーク(gnns)モデルは、マルチモーダル特徴融合を学ぶために使用される。 実験の結果,Semantic2GraphはGTEAと50Saladsの改善を実現していることがわかった。 複数のアブレーション実験により、モデルパフォーマンスを改善するためのセマンティック機能の有効性がさらに確認され、セマンティック2Graphは長期的依存関係を低コストで取得することができる。

Video action segmentation and recognition tasks have been widely applied in many fields. Most previous studies employ large-scale, high computational visual models to understand videos comprehensively. However, few studies directly employ the graph model to reason about the video. The graph model provides the benefits of fewer parameters, low computational cost, a large receptive field, and flexible neighborhood message aggregation. In this paper, we present a graph-based method named Semantic2Graph, to turn the video action segmentation and recognition problem into node classification of graphs. To preserve fine-grained relations in videos, we construct the graph structure of videos at the frame-level and design three types of edges: temporal, semantic, and self-loop. We combine visual, structural, and semantic features as node attributes. Semantic edges are used to model long-term spatio-temporal relations, while the semantic features are the embedding of the label-text based on the textual prompt. A Graph Neural Networks (GNNs) model is used to learn multi-modal feature fusion. Experimental results show that Semantic2Graph achieves improvement on GTEA and 50Salads, compared to the state-of-the-art results. Multiple ablation experiments further confirm the effectiveness of semantic features in improving model performance, and semantic edges enable Semantic2Graph to capture long-term dependencies at a low cost.
翻訳日:2022-09-14 13:09:48 公開日:2022-09-13
# 2Dから3Dへの移動:直腸癌ステージングのためのボリューム医療画像分類

Moving from 2D to 3D: volumetric medical image classification for rectal cancer staging ( http://arxiv.org/abs/2209.05771v1 )

ライセンス: Link先を確認
Joohyung Lee, Jieun Oh, Inkyu Shin, You-sung Kim, Dae Kyung Sohn, Tae-sung Kim, In So Kweon(参考訳) 直腸癌の術前ステージングにおけるMRI画像の有用性について検討した。 T2ステージとT3ステージの正確な術前鑑別は、T3ステージの患者に対して化学療法が推奨されるため、直腸がん治療において最も困難かつ臨床的に重要な課題であることは間違いない。 そこで本研究では,T3期直腸癌からT2を正確に識別するための体積畳み込みニューラルネットワークを提案する。 具体的には 1) ResNetベースのボリュームエンコーダで、後期融合(最終層での3D畳み込み)とのスライス間関係をモデル化する。 2)エンコーダから得られた特徴を集約してボリュームワイドな特徴を生成する双線形計算 3) 三重項損失と焦点損失の合同最小化。 病理組織学的に確認されたT2/T3直腸癌では,残学習の枠組みの中で様々なデザインを比較するために広範な実験を行った。 その結果,本ネットワークのAUCは0.831であり,プロの放射線技師群よりも高い精度であることがわかった。 この方法は他のボリューム分析タスクにも拡張できると考えています

Volumetric images from Magnetic Resonance Imaging (MRI) provide invaluable information in preoperative staging of rectal cancer. Above all, accurate preoperative discrimination between T2 and T3 stages is arguably both the most challenging and clinically significant task for rectal cancer treatment, as chemo-radiotherapy is usually recommended to patients with T3 (or greater) stage cancer. In this study, we present a volumetric convolutional neural network to accurately discriminate T2 from T3 stage rectal cancer with rectal MR volumes. Specifically, we propose 1) a custom ResNet-based volume encoder that models the inter-slice relationship with late fusion (i.e., 3D convolution at the last layer), 2) a bilinear computation that aggregates the resulting features from the encoder to create a volume-wise feature, and 3) a joint minimization of triplet loss and focal loss. With MR volumes of pathologically confirmed T2/T3 rectal cancer, we perform extensive experiments to compare various designs within the framework of residual learning. As a result, our network achieves an AUC of 0.831, which is higher than the reported accuracy of the professional radiologist groups. We believe this method can be extended to other volume analysis tasks
翻訳日:2022-09-14 13:09:27 公開日:2022-09-13
# バイアス除去を伴う遠近点問題に対するcpnp:consistent pose estimator

CPnP: Consistent Pose Estimator for Perspective-n-Point Problem with Bias Elimination ( http://arxiv.org/abs/2209.05824v1 )

ライセンス: Link先を確認
Guangyang Zeng, Shiyu Chen, Biqiang Mu, Guodong Shi, and Junfeng Wu(参考訳) perspective-n-point(pnp)問題はコンピュータビジョンとフォトグラメトリーの両方で広く研究されている。 特徴抽出技術の開発により、多数の特徴点が1ショットで利用可能になる可能性がある。 一貫した推定器を考案することは有望であり、すなわち、推定値は点の数が増えるにつれて真のカメラのポーズに収束することができる。 この目的のために、バイアス除去を伴う一貫した PnP 解法である \emph{CPnP} を提案する。 具体的には、閉形式最小二乗解を求める計測モデル修正と変数除去により、元の投影モデルから線形方程式を構築する。 次に, この解の漸近バイアスを分析し, 減算し, 一貫した推定を行う。 さらに、ガウスニュートン(GN)の反復は一貫性のある解を洗練するために実行される。 提案した推定器は計算の点で効率的であり、計算複雑性は$O(n)$である。 合成データと実画像の両方における実験の結果,提案手法は,推定精度と計算時間の観点から,高精細な視覚特徴を有する画像に対してよく知られた推定器よりも優れていることがわかった。

The Perspective-n-Point (PnP) problem has been widely studied in both computer vision and photogrammetry societies. With the development of feature extraction techniques, a large number of feature points might be available in a single shot. It is promising to devise a consistent estimator, i.e., the estimate can converge to the true camera pose as the number of points increases. To this end, we propose a consistent PnP solver, named \emph{CPnP}, with bias elimination. Specifically, linear equations are constructed from the original projection model via measurement model modification and variable elimination, based on which a closed-form least-squares solution is obtained. We then analyze and subtract the asymptotic bias of this solution, resulting in a consistent estimate. Additionally, Gauss-Newton (GN) iterations are executed to refine the consistent solution. Our proposed estimator is efficient in terms of computations -- it has $O(n)$ computational complexity. Experimental tests on both synthetic data and real images show that our proposed estimator is superior to some well-known ones for images with dense visual features, in terms of estimation precision and computing time.
翻訳日:2022-09-14 13:09:07 公開日:2022-09-13
# 甲殻類幼虫を数えるコンピュータビジョンシステム

Computer vision system to count crustacean larvae ( http://arxiv.org/abs/2209.05834v1 )

ライセンス: Link先を確認
Chen Rothschild(参考訳) 魚製品は2017年の世界の人間の食事の約16%を占めている。 計数作用は、これらの製品の成長と生産において重要な要素である。 栽培者は、技術的解決が必要なように、魚を正確に数えなければならない。 産業用池で生育する甲殻類幼虫を自動的に計数するコンピュータビジョンシステムを開発した。 最初のシステムは、3024X4032解像度のiPhone 11カメラで、屋内の工業用池から画像を取得する。 このシステムで2つの実験が行われ、最初の1つは成長段階9,10で取得された200枚の画像を含み、iPhone 11カメラは特定の照明条件で撮影された。 第2の実験では、幼虫の工業用池が11日間、iPhone 11とSONY DSCHX90Vカメラの2つのデバイスで撮影された。 最初のデバイス(iphone 11)では、2つの照明条件がテストされた。 各条件で110枚の画像が得られた。 このシステムは88.4%の精度で検出された。 第2のシステムは、2000X2000解像度のDSLR Nikon D510カメラを搭載し、工業用池の外で7つの実験が行われた。 画像は幼虫の成長段階の1日目に取得され、合計700枚の画像が得られた。 このシステムによって、密度50.6%の86%の精度が得られた。 yolov5 cnnモデルに基づき, 幼虫数を自動的にカウントするアルゴリズムを開発した。 また,本研究では幼虫の成長機能についても検討した。 毎日、いくつかの幼虫が工業用池から手動で採取され、顕微鏡で分析された。 成長段階が決定されると、幼虫の画像が得られた。 各幼虫の長さは画像から手動で測定された。 最も適切なモデルは、R 乗法 0.983 の適合指数の良さを持つゴンペルツモデルであった。

Fish products account for about 16 percent of the human diet worldwide, as of 2017. The counting action is a significant component in growing and producing these products. Growers must count the fish accurately, to do so technological solutions are needed. Two computer vision systems to automatically count crustacean larvae grown in industrial ponds were developed. The first system included an iPhone 11 camera with 3024X4032 resolution which acquired images from an industrial pond in indoor conditions. Two experiments were performed with this system, the first one included 200 images acquired in one day on growth stages 9,10 with an iPhone 11 camera on specific illumination condition. In the second experiment, a larvae industrial pond was photographed for 11 days with two devices an iPhone 11 and a SONY DSCHX90V cameras. With the first device (iPhone 11) two illumination conditions were tested. In each condition, 110 images were acquired. That system resulted in an accuracy of 88.4 percent image detection. The second system included a DSLR Nikon D510 camera with a 2000X2000 resolution with which seven experiments were performed outside the industrial pond. Images were acquired on day 1 of larvae growing stage resulting in the acquisition of a total of 700 images. That system resulted in an accuracy of 86 percent for a density of 50. An algorithm that automatically counts the number of larvae was developed for both cases based on the YOLOv5 CNN model. In addition, in this study, a larvae growth function was developed. Daily, several larvae were taken manually from the industrial pond and analyzed under a microscope. Once the growth stage was determined, images of the larva were acquired. Each larva's length was measured manually from the images. The most suitable model was the Gompertz model with a goodness of fit index of R squared of 0.983.
翻訳日:2022-09-14 13:08:47 公開日:2022-09-13
# 神経増強によるデュアルスケール単一画像デハジング

Dual-Scale Single Image Dehazing Via Neural Augmentation ( http://arxiv.org/abs/2209.05913v1 )

ライセンス: Link先を確認
Zhengguo Li, Chaobing Zheng, Haiyan Shu, Shiqian Wu(参考訳) モデルベース単一画像復調アルゴリズムは, 合成ハイズ画像のPSNR値とSSIM値の低さを犠牲にして, シャープエッジとリッチディテールでヘイズフリー画像を復元する。 データ駆動型画像は、合成ヘイズ画像に対して高いPSNR値とSSIM値を持つヘイズフリー画像を復元するが、コントラストは低い。 本稿では,モデルに基づくアプローチとデータ駆動アプローチを組み合わせた,新しい単一画像デハジングアルゴリズムを提案する。 送信マップと大気光の両方は、まずモデルに基づく手法により推定され、次に2次元生成逆数ネットワーク(GAN)に基づくアプローチによって精製される。 結果のアルゴリズムは、対応するデータ駆動アプローチが収束しない間に非常に高速に収束する神経増強を形成する。 ヘイズフリー画像は、推定送信マップと大気光とコシェミダーローを用いて復元される。 実験結果から,提案アルゴリズムは実世界および合成ヘイズ画像からヘイズをうまく除去できることが示された。

Model-based single image dehazing algorithms restore haze-free images with sharp edges and rich details for real-world hazy images at the expense of low PSNR and SSIM values for synthetic hazy images. Data-driven ones restore haze-free images with high PSNR and SSIM values for synthetic hazy images but with low contrast, and even some remaining haze for real world hazy images. In this paper, a novel single image dehazing algorithm is introduced by combining model-based and data-driven approaches. Both transmission map and atmospheric light are first estimated by the model-based methods, and then refined by dual-scale generative adversarial networks (GANs) based approaches. The resultant algorithm forms a neural augmentation which converges very fast while the corresponding data-driven approach might not converge. Haze-free images are restored by using the estimated transmission map and atmospheric light as well as the Koschmiederlaw. Experimental results indicate that the proposed algorithm can remove haze well from real-world and synthetic hazy images.
翻訳日:2022-09-14 13:08:24 公開日:2022-09-13
# ASR経路の学習:スパース多言語ASRモデル

Learning ASR pathways: A sparse multilingual ASR model ( http://arxiv.org/abs/2209.05735v1 )

ライセンス: Link先を確認
Mu Yang, Andros Tjandra, Chunxi Liu, David Zhang, Duc Le, John H. L. Hansen, Ozlem Kalinli(参考訳) ニューラルネットワークプルーニングは、自動音声認識(ASR)モデルの圧縮に効果的に適用できる。 しかし、多言語asrでは、言語非依存のプルーニングは、言語非依存のプルーニングマスクがすべての言語に適合せず、重要な言語固有のパラメータを破棄する可能性があるため、いくつかの言語で深刻なパフォーマンス低下を引き起こす可能性がある。 本研究では、言語固有のサブネットワーク(パス)を活性化し、各言語のパラメータを明示的に学習するスパース多言語ASRモデルであるASRパスを提案する。 重なり合うサブネットワークにより、共有パラメータは、統合多言語訓練によって、より低いリソース言語に対する知識転送を可能にする。 本稿では,ASR経路を学習するための新しいアルゴリズムを提案し,ストリーミングRNN-Tモデルを用いて4言語で提案手法を評価する。 提案するasr経路は,高密度モデル (平均wer) と言語非依存プラニングモデル (-21.4%平均wer) を上回っており, 単言語スパースモデルと比較して低リソース言語の性能が向上している。

Neural network pruning can be effectively applied to compress automatic speech recognition (ASR) models. However, in multilingual ASR, performing language-agnostic pruning may lead to severe performance degradation on some languages because language-agnostic pruning masks may not fit all languages and discard important language-specific parameters. In this work, we present ASR pathways, a sparse multilingual ASR model that activates language-specific sub-networks ("pathways"), such that the parameters for each language are learned explicitly. With the overlapping sub-networks, the shared parameters can also enable knowledge transfer for lower resource languages via joint multilingual training. We propose a novel algorithm to learn ASR pathways, and evaluate the proposed method on 4 languages with a streaming RNN-T model. Our proposed ASR pathways outperform both dense models (-5.0% average WER) and a language-agnostically pruned model (-21.4% average WER), and provide better performance on low-resource languages compared to the monolingual sparse models.
翻訳日:2022-09-14 13:05:38 公開日:2022-09-13
# HEARTS:スポンサー検索のための高密度検索と非自己回帰生成のマルチタスク融合

HEARTS: Multi-task Fusion of Dense Retrieval and Non-autoregressive Generation for Sponsored Search ( http://arxiv.org/abs/2209.05861v1 )

ライセンス: Link先を確認
Bhargav Dodla, Akash Kumar Mohankumar, Amit Singh(参考訳) ユーザの検索クエリと関連するキーワードの入札をリアルタイムでマッチングすることは、スポンサー付き検索において重要な問題である。 文献では、この問題を解決するために2つの幅広いアプローチが検討されている。 (i)Dense Retrieval(DR)-共有空間におけるクエリと入札キーワードの密度の高いベクトル表現を学習し、 (ii)自然言語生成(NLG)学習により,クエリの入札キーワードを直接生成する。 本研究は,まずこれらの2つのアプローチの実証的研究を行い,これらが付加的な相補的利益をもたらすことを示す。 特に、NLGから検索されたキーワードの大部分が、DRとVice-versaによって検索されていない。 そして、この2つのアプローチの利点を1つのモデルで効果的に組み合わせることができることを示した。 具体的には、DRと非自己回帰NLGの両方を実行するために共有エンコーダを共同で最適化する、新しいマルチタスク融合フレームワークであるHEARTSを提案する。 20以上の言語にまたがる30以上の国での検索クエリに関する広範な実験を通じて、HEARTSは、同じGPU計算のベースラインアプローチよりも40.3%高い品質の入札キーワードを検索することを示した。 また、1つのHEARTSモデル上での推測は、2つの異なるDRおよびNLGベースラインモデルでの推測と同等であることを示す。 さらに,HEARTS目標で訓練したDRモデルは,標準のコントラスト損失関数で訓練したDRモデルよりも有意に優れていることを示す。 最後に,提案するHEARTSの目的を,スポンサー付き検索以外の短文検索タスクに適用し,大幅な性能向上を達成できることを示す。

Matching user search queries with relevant keywords bid by advertisers in real-time is a crucial problem in sponsored search. In the literature, two broad set of approaches have been explored to solve this problem: (i) Dense Retrieval (DR) - learning dense vector representations for queries and bid keywords in a shared space, and (ii) Natural Language Generation (NLG) - learning to directly generate bid keywords given queries. In this work, we first conduct an empirical study of these two approaches and show that they offer complementary benefits that are additive. In particular, a large fraction of the keywords retrieved from NLG haven't been retrieved by DR and vice-versa. We then show that it is possible to effectively combine the advantages of these two approaches in one model. Specifically, we propose HEARTS: a novel multi-task fusion framework where we jointly optimize a shared encoder to perform both DR and non-autoregressive NLG. Through extensive experiments on search queries from over 30+ countries spanning 20+ languages, we show that HEARTS retrieves 40.3% more high-quality bid keywords than the baseline approaches with the same GPU compute. We also demonstrate that inferring on a single HEARTS model is as good as inferring on two different DR and NLG baseline models, with 2x the compute. Further, we show that DR models trained with the HEARTS objective are significantly better than those trained with the standard contrastive loss functions. Finally, we show that our HEARTS objective can be adopted to short-text retrieval tasks other than sponsored search and achieve significant performance gains.
翻訳日:2022-09-14 13:05:18 公開日:2022-09-13
# 関節言語同定を用いたエンドツーエンド多言語音声認識

Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification ( http://arxiv.org/abs/2209.06058v1 )

ライセンス: Link先を確認
Chao Zhang, Bo Li, Tara Sainath, Trevor Strohman, Sepand Mavandadi, Shuo-yiin Chang, Parisa Haghani(参考訳) 言語識別は、自動音声認識(ASR)における多くの下流タスクにおいて重要であり、追加のタスクとして多言語のエンドツーエンドASRとの統合に有用である。 本稿では,フレーム毎言語識別子 (lid) 予測器を統合することにより,カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(rnn-t)モデルの構造を変更することを提案する。 カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。 このような右コンテキストの差異と統計プールのストリーミング実装を利用することで, 提案手法は, 精度の高いストリーミングLID予測を, 余分なテスト時間コストで実現することができる。 9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と,オラクルLIDを入力に含めた第2パスWERを実現していることがわかった。

Language identification is critical for many downstream tasks in automatic speech recognition (ASR), and is beneficial to integrate into multilingual end-to-end ASR as an additional task. In this paper, we propose to modify the structure of the cascaded-encoder-based recurrent neural network transducer (RNN-T) model by integrating a per-frame language identifier (LID) predictor. RNN-T with cascaded encoders can achieve streaming ASR with low latency using first-pass decoding with no right-context, and achieve lower word error rates (WERs) using second-pass decoding with longer right-context. By leveraging such differences in the right-contexts and a streaming implementation of statistics pooling, the proposed method can achieve accurate streaming LID prediction with little extra test-time cost. Experimental results on a voice search dataset with 9 language locales shows that the proposed method achieves an average of 96.2% LID prediction accuracy and the same second-pass WER as that obtained by including oracle LID in the input.
翻訳日:2022-09-14 13:04:51 公開日:2022-09-13
# 医療データを用いたフェデレーショングラフニューラルネットワークの予測再現性の検討

Investigating the Predictive Reproducibility of Federated Graph Neural Networks using Medical Datasets ( http://arxiv.org/abs/2209.06032v1 )

ライセンス: Link先を確認
Mehmet Yigit Balik, Arwa Rekik and Islem Rekik(参考訳) グラフニューラルネットワーク(GNN)は、医学画像やネットワーク神経科学などの分野において、自閉症などの困難な神経疾患の診断において高い精度で進歩を遂げている。 医療データ不足と高プライバシーに直面しながら、このようなデータ収集モデルのトレーニングは依然として困難である。 フェデレーション学習は、複数の病院が独立して収集した複数のデータセット上で、完全なデータ保存方法でモデルをトレーニングすることで、この問題に効率的な解決策をもたらす。 最先端のgnnとフェデレーション学習の技術は、どちらも分類精度の向上に重点を置いているが、重要な未解決問題である、gnnモデルによって選択された最も識別的なバイオマーカー(すなわち特徴)の再現性について、フェデレーション学習パラダイム内で見落としている。 トレーニングやデータ配布の摂動に対する予測医療モデルの再現性を定量化することは、翻訳臨床応用の開発において克服すべき最大のハードルの一つとなる。 本研究は,gnnモデルの再現性を調査する最初の研究であり,医療画像と脳結合データセットの分類への応用について述べる。 医用画像とコネクトロミックデータセットを訓練した各種GNNモデルを用いて,本フレームワークの評価を行った。 さらに, 連携学習は, 医療学習におけるGNNモデルの精度と再現性を向上させることを示した。 ソースコードはhttps://github.com/basiralab/reproduciblefedgnnで入手できます。

Graph neural networks (GNNs) have achieved extraordinary enhancements in various areas including the fields medical imaging and network neuroscience where they displayed a high accuracy in diagnosing challenging neurological disorders such as autism. In the face of medical data scarcity and high-privacy, training such data-hungry models remains challenging. Federated learning brings an efficient solution to this issue by allowing to train models on multiple datasets, collected independently by different hospitals, in fully data-preserving manner. Although both state-of-the-art GNNs and federated learning techniques focus on boosting classification accuracy, they overlook a critical unsolved problem: investigating the reproducibility of the most discriminative biomarkers (i.e., features) selected by the GNN models within a federated learning paradigm. Quantifying the reproducibility of a predictive medical model against perturbations of training and testing data distributions presents one of the biggest hurdles to overcome in developing translational clinical applications. To the best of our knowledge, this presents the first work investigating the reproducibility of federated GNN models with application to classifying medical imaging and brain connectivity datasets. We evaluated our framework using various GNN models trained on medical imaging and connectomic datasets. More importantly, we showed that federated learning boosts both the accuracy and reproducibility of GNN models in such medical learning tasks. Our source code is available at https://github.com/basiralab/reproducibleFedGNN.
翻訳日:2022-09-14 13:04:09 公開日:2022-09-13
# 非定常環境におけるメタグラディエント

Meta-Gradients in Non-Stationary Environments ( http://arxiv.org/abs/2209.06159v1 )

ライセンス: Link先を確認
Jelena Luketina, Sebastian Flennerhag, Yannick Schroecker, David Abel, Tom Zahavy, Satinder Singh(参考訳) メタグラディエント手法 (Xu et al., 2018; Zahavy et al., 2020) は、非定常強化学習問題におけるハイパーパラメータ選択と適応の問題に対する有望な解決策を提供する。 しかし,このような環境におけるメタ勾配の性質は体系的に研究されていない。 本研究では,非定常環境におけるメタグレードに新たな明快さをもたらす。 具体的に言えば (i)学習したオプティマイザにどの程度の情報を与えることで、生涯にわたってより迅速な適応と一般化を可能にするか。 (二)この過程でメタ最適化関数が学習されるもの、及び 三 メタグラディエント法が非定常環境においてより大きな利点をもたらすか否か。 最近の研究(Flennerhag et al., 2021; Almeida et al., 2021)のようにメタ最適化器に提供される情報の影響を調べるため、固定更新規則の調整されたメタパラメータを、選択した文脈特徴のメタパラメータ関数に置き換える。 コンテキスト機能はエージェントのパフォーマンスや環境の変化に関する情報を持ち、学習したメタパラメータのスケジュールを知らせる。 コンテキスト情報の追加は一般的に有益であり、メタパラメータ値の適応が早くなり、生涯にわたってパフォーマンスが向上する。 これらの結果に対して,メタパラメータのスケジュールとコンテキスト特徴の学習関数の質的解析を行った。 最後に、文脈のないメタグラディエントは、非定常環境におけるベースラインに対して一貫した優位性を提供しない。 以上の結果から,非定常環境では,メタグレードからハイパフォーマンスを抽出する上で,メタグレードの文脈化が重要な役割を果たすことが示唆された。

Meta-gradient methods (Xu et al., 2018; Zahavy et al., 2020) offer a promising solution to the problem of hyperparameter selection and adaptation in non-stationary reinforcement learning problems. However, the properties of meta-gradients in such environments have not been systematically studied. In this work, we bring new clarity to meta-gradients in non-stationary environments. Concretely, we ask: (i) how much information should be given to the learned optimizers, so as to enable faster adaptation and generalization over a lifetime, (ii) what meta-optimizer functions are learned in this process, and (iii) whether meta-gradient methods provide a bigger advantage in highly non-stationary environments. To study the effect of information provided to the meta-optimizer, as in recent works (Flennerhag et al., 2021; Almeida et al., 2021), we replace the tuned meta-parameters of fixed update rules with learned meta-parameter functions of selected context features. The context features carry information about agent performance and changes in the environment and hence can inform learned meta-parameter schedules. We find that adding more contextual information is generally beneficial, leading to faster adaptation of meta-parameter values and increased performance over a lifetime. We support these results with a qualitative analysis of resulting meta-parameter schedules and learned functions of context features. Lastly, we find that without context, meta-gradients do not provide a consistent advantage over the baseline in highly non-stationary environments. Our findings suggest that contextualizing meta-gradients can play a pivotal role in extracting high performance from meta-gradients in non-stationary settings.
翻訳日:2022-09-14 13:03:44 公開日:2022-09-13
# 高性能ADAS SoCのための多ポート共有メモリアーキテクチャ

A Many-ported and Shared Memory Architecture for High-Performance ADAS SoCs ( http://arxiv.org/abs/2209.05731v1 )

ライセンス: Link先を確認
Hao Luan, Yu Yao, Chang Huang(参考訳) コンピューティング技術への投資の増加とシリコン技術の発展は、先進運転支援システム(adas)と対応するsocの発展を加速させた。 ADAS SoCはCPU、GPU、人工知能(AI)アクセラレータで構成される異種アーキテクチャである。 安全性と信頼性を保証するため、高精細度ビデオカメラ、レーダー、ライダーなどの複数の冗長なソースから収集された大量の生データを処理し、オブジェクトを正しく認識し、迅速に正しい判断をしなければならない。 上記の目標を達成するにはドメイン固有のメモリアーキテクチャが不可欠です。 本稿では、adasアプリケーション固有の複数の並列アクセス間で高いデータスループットを実現する共有メモリアーキテクチャを提案する。 また、厳密なリアルタイムQoS制約の下で適切に分離された決定論的アクセスレイテンシも提供する。 プロトタイプが作られ、分析されます。 その結果、提案アーキテクチャは、多くのアクセスマスターがフルインジェクションレートで同時に生成した読み取りおよび書き込みアクセスに対して、100倍近いスループットを提供することを確認した。 また、設計のスケーラビリティとモジュラリティを確保しながら、ドメイン固有のペイロードに一貫したQoSを提供することもできる。

Increasing investment in computing technologies and the advancements in silicon technology has fueled rapid growth in advanced driver assistance systems (ADAS) and corresponding SoC developments. An ADAS SoC represents a heterogeneous architecture that consists of CPUs, GPUs and artificial intelligence (AI) accelerators. In order to guarantee its safety and reliability, it must process massive amount of raw data collected from multiple redundant sources such as high-definition video cameras, Radars, and Lidars to recognize objects correctly and to make the right decisions promptly. A domain specific memory architecture is essential to achieve the above goals. We present a shared memory architecture that enables high data throughput among multiple parallel accesses native to the ADAS applications. It also provides deterministic access latency with proper isolation under the stringent real-time QoS constraints. A prototype is built and analyzed. The results validate that the proposed architecture provides close to 100\% throughput for both read and write accesses generated simultaneously by many accessing masters with full injection rate. It can also provide consistent QoS to the domain specific payloads while enabling the scalability and modularity of the design.
翻訳日:2022-09-14 13:02:54 公開日:2022-09-13
# 連続動作pomdpに対するボロノイ木を用いた適応的離散化

Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs ( http://arxiv.org/abs/2209.05733v1 )

ライセンス: Link先を確認
Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye(参考訳) 連続的な作用を伴う部分観測可能なマルコフ決定過程(POMDP)の解法は特に高次元の作用空間において困難である。 この問題を緩和するために,Voronoi Trees (ADVT) を用いた適応離散化法 (Adaptive Discretization) と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。 モンテカルロ木探索と適応的離散化を併用し、楽観的な最適化を行い、高次元連続的な作用空間を効率的にサンプリングし、最適な作用を計算する。 具体的には,voronoi木と呼ばれる階層分割を用いて,各サンプル信念に対する動作空間を適応的に判別する。 ボロノイ木(英: Voronoi tree)は、細胞からサンプリングされた2つの点のボロノイ図として、細胞の分割を暗黙的に維持する二分空間分割(BSP)である。 この分割戦略は、空間をうまくカバーするために多くのサンプル点が必要となる高次元空間においても、各セルのサイズを分割して見積もるコストを低く抑えている。 advtは、セルの大きさを推定して、セルの動作値の上信頼境界を形成し、その上信頼バウンドを使用してモンテカルロ木の探索展開を誘導し、さらに作用空間の離散化を行う。 この戦略により、ADVTはアクション空間のローカル情報をより活用し、より適応性が高く、従って既存の解法に比べて優れたPOMDPソリューションの計算に効率的であるアクション空間の離散化につながる。 4種類のベンチマーク問題のシミュレーション実験により、ADVTは最先端の連続アクションPOMDPソルバに比べて、高次元の連続アクション空間よりも優れ、スケールがかなり優れていることが示された。

Solving Partially Observable Markov Decision Processes (POMDPs) with continuous actions is challenging, particularly for high-dimensional action spaces. To alleviate this difficulty, we propose a new sampling-based online POMDP solver, called Adaptive Discretization using Voronoi Trees (ADVT). It uses Monte Carlo Tree Search in combination with an adaptive discretization of the action space as well as optimistic optimization to efficiently sample high-dimensional continuous action spaces and compute the best action to perform. Specifically, we adaptively discretize the action space for each sampled belief using a hierarchical partition which we call a Voronoi tree. A Voronoi tree is a Binary Space Partitioning (BSP) that implicitly maintains the partition of a cell as the Voronoi diagram of two points sampled from the cell. This partitioning strategy keeps the cost of partitioning and estimating the size of each cell low, even in high-dimensional spaces where many sampled points are required to cover the space well. ADVT uses the estimated sizes of the cells to form an upper-confidence bound of the action values of the cell, and in turn uses the upper-confidence bound to guide the Monte Carlo Tree Search expansion and further discretization of the action space. This strategy enables ADVT to better exploit local information in the action space, leading to an action space discretization that is more adaptive, and hence more efficient in computing good POMDP solutions, compared to existing solvers. Experiments on simulations of four types of benchmark problems indicate that ADVT outperforms and scales substantially better to high-dimensional continuous action spaces, compared to state-of-the-art continuous action POMDP solvers.
翻訳日:2022-09-14 13:02:36 公開日:2022-09-13
# 階層的正規化ハイパーボリック・エンベディングを用いた皮膚病変認識

Skin Lesion Recognition with Class-Hierarchy Regularized Hyperbolic Embeddings ( http://arxiv.org/abs/2209.05842v1 )

ライセンス: Link先を確認
Zhen Yu, Toan Nguyen, Yaniv Gal, Lie Ju, Shekhar S. Chandra, Lei Zhang, Paul Bonnington, Victoria Mar, Zhiyong Wang, Zongyuan Ge(参考訳) 実際には、多くの医学データセットは、疾患ラベル空間上で定義された基礎的な分類を持っている。 しかし、既存の医学診断のための分類アルゴリズムは、しばしば意味的に独立したラベルを仮定する。 本研究では,より正確で信頼性の高い皮膚病変認識のために,クラス階層とディープラーニングアルゴリズムを活用することを目的とする。 画像埋め込みとクラスプロトタイプを共同で学習する双曲ネットワークを提案する。 双曲線はユークリッド幾何学よりも階層関係をモデル化するための空間を提供する。 一方、クラス階層から符号化された距離行列を持つ双曲型プロトタイプの分布を制限する。 したがって,学習したプロトタイプは埋め込み空間における意味クラス関係を保ち,その特徴を最も近い双曲型プロトタイプに割り当てることで画像のラベルを予測することができる。 65例の皮膚疾患に対して,約230kの皮膚内視鏡像を用いた社内皮膚病変データセットを用いて検討を行った。 広範な実験により,本モデルがクラス間関係を考慮せずに,モデルよりも厳格な分類誤差を低減し,高い精度を達成できることを示す。

In practice, many medical datasets have an underlying taxonomy defined over the disease label space. However, existing classification algorithms for medical diagnoses often assume semantically independent labels. In this study, we aim to leverage class hierarchy with deep learning algorithms for more accurate and reliable skin lesion recognition. We propose a hyperbolic network to learn image embeddings and class prototypes jointly. The hyperbola provably provides a space for modeling hierarchical relations better than Euclidean geometry. Meanwhile, we restrict the distribution of hyperbolic prototypes with a distance matrix that is encoded from the class hierarchy. Accordingly, the learned prototypes preserve the semantic class relations in the embedding space and we can predict the label of an image by assigning its feature to the nearest hyperbolic class prototype. We use an in-house skin lesion dataset which consists of around 230k dermoscopic images on 65 skin diseases to verify our method. Extensive experiments provide evidence that our model can achieve higher accuracy with less severe classification errors than models without considering class relations.
翻訳日:2022-09-14 12:59:58 公開日:2022-09-13
# RFIDタグ付けにおける補完的かつスケーラブルなコンピュータビジョンに基づく車両追跡

Computer vision based vehicle tracking as a complementary and scalable approach to RFID tagging ( http://arxiv.org/abs/2209.05911v1 )

ライセンス: Link先を確認
Pranav Kant Gaur, Abhilash Bhardwaj, Pritam Shete, Mohini Laghate, Dinesh M Sarode(参考訳) 乗降車両のロギングは、さまざまな機密組織におけるセキュリティ侵害事件と闘うための根本原因分析の重要な情報である。 RFIDタグ付けは、ロジスティクスと技術面での車両追跡ソリューションのスケーラビリティを損なう。 例えば、各車両(部品またはプライベート)にRFIDタグを付けるのは厳しい制約であり、異常車両の動きを検出するためにRFIDとビデオ分析を結合させることは簡単ではない。 計算機ビジョンアルゴリズムの公開実装を活用し、有限状態マシンフォーマリズムを用いた解釈可能な車両追跡アルゴリズムを開発する。 状態マシンは、状態遷移のためのカスケードオブジェクト検出および光学文字認識(OCR)モデルからの入力を消費する。 システム展開サイトから75本のビデオクリップ285本について,提案手法の評価を行った。 その結果,検出速度は速度や車両の種類に最も影響を受けることがわかった。 車両移動がRFIDタギングと同様のチェックポイントでの移動制限(SOP)に従うように制限された場合に、最も高い検出率を達成する。 さらに,実データに基づく700件の車両追跡予測を解析し,車両番号の予測誤差の大部分は,車両番号の可読テキスト,イメージブルー,テキスト閉塞,外来文字によるものであることを確認した。 システム展開と性能向上に向けて,現在進行中のシステム監視は,セキュリティチェックポイントでより高い車両通過sopを確立するためのエビデンスを提供するとともに,デプロイされたコンピュータビジョンモデルとステートマシンの微調整を促進し,rfidタグの代替案として提案手法を確立することを期待する。

Logging of incoming/outgoing vehicles serves as a piece of critical information for root-cause analysis to combat security breach incidents in various sensitive organizations. RFID tagging hampers the scalability of vehicle tracking solutions on both logistics as well as technical fronts. For instance, requiring each incoming vehicle(departmental or private) to be RFID tagged is a severe constraint and coupling video analytics with RFID to detect abnormal vehicle movement is non-trivial. We leverage publicly available implementations of computer vision algorithms to develop an interpretable vehicle tracking algorithm using finite-state machine formalism. The state-machine consumes input from the cascaded object detection and optical character recognition(OCR) models for state transitions. We evaluated the proposed method on 75 video clips of 285 vehicles from our system deployment site. We observed that the detection rate is most affected by the speed and the type of vehicle. The highest detection rate is achieved when the vehicle movement is restricted to follow a movement restrictions(SOP) at the checkpoint similar to RFID tagging. We further analyzed 700 vehicle tracking predictions on live-data and identified that the majority of vehicle number prediction errors are due to illegible-text, image-blur, text occlusion and out-of-vocab letters in vehicle numbers. Towards system deployment and performance enhancement, we expect our ongoing system monitoring to provide evidences to establish a higher vehicle-throughput SOP at the security checkpoint as well as to drive the fine-tuning of the deployed computer-vision models and the state-machine to establish the proposed approach as a promising alternative to RFID-tagging.
翻訳日:2022-09-14 12:59:43 公開日:2022-09-13
# SVNet:SO(3)等分散がポイントクラウド表現のバイナリ化に遭遇する

SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud Representation ( http://arxiv.org/abs/2209.05924v1 )

ライセンス: Link先を確認
Zhuo Su and Max Welling and Matti pietik\"ainen and Li Liu(参考訳) 自動運転やロボット工学のような、リアルタイムで信頼性の高い応答を必要とするシナリオでは、エッジデバイスがユビキタスに使われているため、3dポイントクラウド上のアプリケーションでは、効率性と堅牢性がますます必要になっている。 本稿では,SO(3)等分散とネットワークバイナライゼーションによる3次元学習アーキテクチャ構築のための汎用フレームワークを設計することで,課題に対処する。 しかし、同変ネットワークと双対化のナイーブな組み合わせは、準最適計算効率または幾何学的曖昧性を引き起こす。 我々は,ネットワーク内のスカラー特徴とベクトル特徴の両方を特定し,両方のケースを避けることを提案する。 正確には、スカラー特徴の存在はネットワークの大部分をバイナリズ可能とし、ベクトル特徴は豊富な構造情報を保持し、SO(3)同値性を保証する。 提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。 一方、ModelNet40、ShapeNet、および実世界のデータセットScanObjectNNの実験では、この手法が効率、回転ロバスト性、精度の間の大きなトレードオフを達成することを示した。 コードはhttps://github.com/zhuoinoulu/svnetで入手できる。

Efficiency and robustness are increasingly needed for applications on 3D point clouds, with the ubiquitous use of edge devices in scenarios like autonomous driving and robotics, which often demand real-time and reliable responses. The paper tackles the challenge by designing a general framework to construct 3D learning architectures with SO(3) equivariance and network binarization. However, a naive combination of equivariant networks and binarization either causes sub-optimal computational efficiency or geometric ambiguity. We propose to locate both scalar and vector features in our networks to avoid both cases. Precisely, the presence of scalar features makes the major part of the network binarizable, while vector features serve to retain rich structural information and ensure SO(3) equivariance. The proposed approach can be applied to general backbones like PointNet and DGCNN. Meanwhile, experiments on ModelNet40, ShapeNet, and the real-world dataset ScanObjectNN, demonstrated that the method achieves a great trade-off between efficiency, rotation robustness, and accuracy. The codes are available at https://github.com/zhuoinoulu/svnet.
翻訳日:2022-09-14 12:59:13 公開日:2022-09-13
# リアルタイムパノラマ画像生成のための弱スーパービジョンスティッチネットワーク

Weakly-Supervised Stitching Network for Real-World Panoramic Image Generation ( http://arxiv.org/abs/2209.05968v1 )

ライセンス: Link先を確認
Dae-Young Song, Geonsoo Lee, HeeKyung Lee, Gi-Mun Um, and Donghyeon Cho(参考訳) 近年,エンド・ツー・エンドのディープラーニングベースの縫合モデルに注目が集まっている。 しかし, 深層学習による縫合の最も困難な点は, 視野が狭い一対の入力画像と, 現実のシーンから捉えた視野の広い地上の真実画像を得ることである。 この難しさを克服するため,本研究では,真理画像を必要とすることなく縫合モデルを訓練するための弱教師付き学習機構を開発した。 さらに,複数の実世界の魚眼画像を入力として取り出し,同じ矩形投影形式で360度の出力画像を生成する縫合モデルを提案する。 特に,色相性補正,反り補正,ブレンドによって構成され,知覚的損失とシム損失によって訓練される。 提案アルゴリズムの有効性を実世界の2つの縫合データセットで検証した。

Recently, there has been growing attention on an end-to-end deep learning-based stitching model. However, the most challenging point in deep learning-based stitching is to obtain pairs of input images with a narrow field of view and ground truth images with a wide field of view captured from real-world scenes. To overcome this difficulty, we develop a weakly-supervised learning mechanism to train the stitching model without requiring genuine ground truth images. In addition, we propose a stitching model that takes multiple real-world fisheye images as inputs and creates a 360 output image in an equirectangular projection format. In particular, our model consists of color consistency corrections, warping, and blending, and is trained by perceptual and SSIM losses. The effectiveness of the proposed algorithm is verified on two real-world stitching datasets.
翻訳日:2022-09-14 12:58:53 公開日:2022-09-13
# M^2-3DLaneNet:マルチモーダル3Dレーン検出

M^2-3DLaneNet: Multi-Modal 3D Lane Detection ( http://arxiv.org/abs/2209.05996v1 )

ライセンス: Link先を確認
Yueru Luo, Xu Yan, Chaoda Zheng, Chao Zheng, Shuqi Mei, Tang Kun, Shuguang Cui, Zhen Li(参考訳) 3d空間における正確なレーン線の推定は、その希薄な性質のため、依然として困難である。 本研究では,実効的3次元レーン検出のためのマルチモーダルフレームワークであるm^2-3dlanenetを提案する。 M^2-3DLaneNetは、マルチセンサーからの補完情報を統合することを目的として、まず、モーダル固有のバックボーンでマルチモーダル特徴を抽出し、それらを統一されたBird's-Eye View (BEV)空間に融合する。 具体的には,2つのコアコンポーネントから構成される。 1) 正確な2D-3Dマッピングを実現するために, トップダウンのBEV生成を提案する。 その内部では、Line-Restricted Deform-Attention (LRDA)モジュールを使用して、レーンの細い特徴を完全にキャプチャし、トップダウンで画像特徴を効果的に強化する。 その後、深度対応リフトを使用して2Dピラミッドの特徴を3D空間に投入し、ピラリゼーションによりBEV特徴を生成する。 2) カメラとLiDARセンサの相補的情報の統合により, マルチモーダルな特徴を集約するボトムアップ型BEV融合を提案する。 M^2-3DLaneNetは従来の最先端手法よりも大きなマージン、すなわちOpenLaneデータセットの12.1%のF1スコア改善を達成している。

Estimating accurate lane lines in 3D space remains challenging due to their sparse and slim nature. In this work, we propose the M^2-3DLaneNet, a Multi-Modal framework for effective 3D lane detection. Aiming at integrating complementary information from multi-sensors, M^2-3DLaneNet first extracts multi-modal features with modal-specific backbones, then fuses them in a unified Bird's-Eye View (BEV) space. Specifically, our method consists of two core components. 1) To achieve accurate 2D-3D mapping, we propose the top-down BEV generation. Within it, a Line-Restricted Deform-Attention (LRDA) module is utilized to effectively enhance image features in a top-down manner, fully capturing the slenderness features of lanes. After that, it casts the 2D pyramidal features into 3D space using depth-aware lifting and generates BEV features through pillarization. 2) We further propose the bottom-up BEV fusion, which aggregates multi-modal features through multi-scale cascaded attention, integrating complementary information from camera and LiDAR sensors. Sufficient experiments demonstrate the effectiveness of M^2-3DLaneNet, which outperforms previous state-of-the-art methods by a large margin, i.e., 12.1% F1-score improvement on OpenLane dataset.
翻訳日:2022-09-14 12:58:40 公開日:2022-09-13
# 自律検査のための仮想水中データセット

Virtual Underwater Datasets for Autonomous Inspections ( http://arxiv.org/abs/2209.06013v1 )

ライセンス: Link先を確認
oannis Polymenis, Maryam Haroutunian, Rose Norman, David Trodden(参考訳) 水中車両は、オフショア部門と科学コミュニティの水中運用の急速な進歩によって、より洗練されたものになっている。 特に、海底インフラの評価を含む多くの水中作業は、自律型水中車両(AUV)の助けを借りて行われる。 人工知能(AI)や、特にDeep Learning(DL)モデルやアプリケーションは、無人航空機、自律走行車ナビゲーションなど、さまざまな分野で広く利用されている。 しかし、特定のアプリケーションで水中データセットを取得するのが困難であるため、水中アプリケーションではあまり普及していない。 この意味で,本研究では, 実験室で収集したアイテムの写真から生成したベスポークデータセットを構築するために, DL領域の最近の進歩を活用している。 ジェネレーティブ・Adversarial Networks (GAN) を用いて, 収集した画像と水中環境を含む写真を組み合わせて, 実験対象のデータセットを水中領域に翻訳した。 その結果、実際の水中船体画像と比較すると、画像は実際の水中環境とよく似ているため、このようなデータセットを作成する可能性を示した。 したがって、水中環境の人工データセットは、現実世界の水中画像へのアクセス制限による困難を克服することができ、水中物体の分類と検出を通じて水中操作を強化するために使用される。

Underwater Vehicles have become more sophisticated, driven by the off-shore sector and the scientific community's rapid advancements in underwater operations. Notably, many underwater tasks, including the assessment of subsea infrastructure, are performed with the assistance of Autonomous Underwater Vehicles (AUVs). There have been recent breakthroughs in Artificial Intelligence (AI) and, notably, Deep Learning (DL) models and applications, which have widespread usage in a variety of fields, including aerial unmanned vehicles, autonomous car navigation, and other applications. However, they are not as prevalent in underwater applications due to the difficulty of obtaining underwater datasets for a specific application. In this sense, the current study utilises recent advancements in the area of DL to construct a bespoke dataset generated from photographs of items captured in a laboratory environment. Generative Adversarial Networks (GANs) were utilised to translate the laboratory object dataset into the underwater domain by combining the collected images with photographs containing the underwater environment. The findings demonstrated the feasibility of creating such a dataset, since the resulting images closely resembled the real underwater environment when compared with real-world underwater ship hull images. Therefore, the artificial datasets of the underwater environment can overcome the difficulties arising from the limited access to real-world underwater images and are used to enhance underwater operations through underwater object image classification and detection.
翻訳日:2022-09-14 12:58:16 公開日:2022-09-13
# dmtnet:トランスフォーマーを用いたデュアルピクセル画像デフォーカスデブラリングのためのダイナミックマルチスケールネットワーク

DMTNet: Dynamic Multi-scale Network for Dual-pixel Images Defocus Deblurring with Transformer ( http://arxiv.org/abs/2209.06040v1 )

ライセンス: Link先を確認
Dafeng Zhang and Xiaobing Wang(参考訳) 最近の研究は、畳み込みニューラルネットワーク(cnn)を用いたデュアルピクセルデータに基づくデフォーカスデブラリングタスクにおいて優れた成果を上げているが、データの不足は視覚トランスフォーマの探索と試みを制限している。 さらに、既存の研究では、固定パラメータとネットワークアーキテクチャを用いて、異なる分布とコンテンツ情報を持つ画像を識別し、モデルの一般化能力にも影響を及ぼす。 本稿では,デュアルピクセル画像デフォーカスデブラリングのための動的マルチスケールネットワークdmtnetを提案する。 DMTNetは主に特徴抽出モジュールと再構成モジュールの2つのモジュールを含んでいる。 特徴抽出モジュールは複数の視覚トランスフォーマーブロックで構成されており、その強力な特徴抽出機能を使用してよりリッチな特徴を獲得し、モデルのロバスト性を向上させる。 リコンストラクションモジュールは、複数の動的マルチスケールサブリコンストラクションモジュール(dmssrm)から構成されている。 DMSSRMは、入力画像のぼやけた分布と内容情報に応じて、異なるスケールの特徴に重みを適応的に割り当てることで、画像を復元することができる。 dmtnetはtransformerとcnnの利点を組み合わせることで、vision transformerはcnnのパフォーマンス天井を改善し、cnnのインダクティブバイアスにより、transformerは大量のデータに頼ることなくより堅牢な特徴を抽出することができる。 DMTNetは、視覚変換器を使ってぼやけた画像を明瞭に復元する最初の試みかもしれない。 CNNと組み合わせることで、ビジョントランスフォーマーは小さなデータセットでより良いパフォーマンスを達成することができる。 一般的なベンチマーク実験の結果,DMTNetは最先端の手法よりも優れていた。

Recent works achieve excellent results in defocus deblurring task based on dual-pixel data using convolutional neural network (CNN), while the scarcity of data limits the exploration and attempt of vision transformer in this task. In addition, the existing works use fixed parameters and network architecture to deblur images with different distribution and content information, which also affects the generalization ability of the model. In this paper, we propose a dynamic multi-scale network, named DMTNet, for dual-pixel images defocus deblurring. DMTNet mainly contains two modules: feature extraction module and reconstruction module. The feature extraction module is composed of several vision transformer blocks, which uses its powerful feature extraction capability to obtain richer features and improve the robustness of the model. The reconstruction module is composed of several Dynamic Multi-scale Sub-reconstruction Module (DMSSRM). DMSSRM can restore images by adaptively assigning weights to features from different scales according to the blur distribution and content information of the input images. DMTNet combines the advantages of transformer and CNN, in which the vision transformer improves the performance ceiling of CNN, and the inductive bias of CNN enables transformer to extract more robust features without relying on a large amount of data. DMTNet might be the first attempt to use vision transformer to restore the blurring images to clarity. By combining with CNN, the vision transformer may achieve better performance on small datasets. Experimental results on the popular benchmarks demonstrate that our DMTNet significantly outperforms state-of-the-art methods.
翻訳日:2022-09-14 12:57:53 公開日:2022-09-13
# 分布外ロバスト性を有する病変分割のためのクロスエントロピーとソフトディス損失の最適組み合わせについて

On the Optimal Combination of Cross-Entropy and Soft Dice Losses for Lesion Segmentation with Out-of-Distribution Robustness ( http://arxiv.org/abs/2209.06078v1 )

ライセンス: Link先を確認
Adrian Galdran, Gustavo Carneiro, Miguel \'Angel Gonz\'alez Ballester(参考訳) 医用画像の病変セグメント化に対する異なる損失関数の影響について検討した。 自然画像を扱う際には、クロスエントロピー(CE)損失が最も一般的な選択肢であるが、バイオメディカル画像のセグメンテーションでは、不均衡なシナリオを処理できるため、ソフトディス損失が好まれる。 一方で、この2つの関数の組み合わせは、この種のタスクでもうまく適用されている。 研究の少ない問題は、アウト・オブ・ディストリビューション(OoD)データの存在下でのこれらの損失の一般化能力である。 これは、トレーニング画像とは異なる分布から抽出されたテスト時間に現れるサンプルを指す。 私たちの場合、常に病変を含む画像でモデルをトレーニングしますが、テスト時には病変のないサンプルも持っています。 各種損失関数の最小化がin-distriionパフォーマンスに与える影響を解析するとともに,OoDデータに一般化する能力を,内視鏡画像からのポリプセグメンテーションと糖尿病足部画像からの潰瘍セグメンテーションの総合的な実験により分析した。 CE-Dice損失の組み合わせは,OoDデータを扱う場合のセグメンテーション・イン・ディストリビューション・イメージに優れており,その堅牢性やOoDサンプルへの一般化能力から,このような問題に対するCE損失の導入を推奨する。 私たちの実験に関連するコードは、 \url{https://github.com/agaldran/lesion_losses_ood} にある。

We study the impact of different loss functions on lesion segmentation from medical images. Although the Cross-Entropy (CE) loss is the most popular option when dealing with natural images, for biomedical image segmentation the soft Dice loss is often preferred due to its ability to handle imbalanced scenarios. On the other hand, the combination of both functions has also been successfully applied in this kind of tasks. A much less studied problem is the generalization ability of all these losses in the presence of Out-of-Distribution (OoD) data. This refers to samples appearing in test time that are drawn from a different distribution than training images. In our case, we train our models on images that always contain lesions, but in test time we also have lesion-free samples. We analyze the impact of the minimization of different loss functions on in-distribution performance, but also its ability to generalize to OoD data, via comprehensive experiments on polyp segmentation from endoscopic images and ulcer segmentation from diabetic feet images. Our findings are surprising: CE-Dice loss combinations that excel in segmenting in-distribution images have a poor performance when dealing with OoD data, which leads us to recommend the adoption of the CE loss for this kind of problems, due to its robustness and ability to generalize to OoD samples. Code associated to our experiments can be found at \url{https://github.com/agaldran/lesion_losses_ood} .
翻訳日:2022-09-14 12:57:29 公開日:2022-09-13
# HistoPerm: 組織学的特徴表現の学習のための置換に基づくビュー生成手法

HistoPerm: A Permutation-Based View Generation Approach for Learning Histopathologic Feature Representations ( http://arxiv.org/abs/2209.06185v1 )

ライセンス: Link先を確認
Joseph DiPalma, Lorenzo Torresani, Saeed Hassanpour(参考訳) 近年,デジタル病理学分野における多くの課題を解決するために,ディープラーニング手法が成功している。 しかし、これらのアプローチの多くは完全に監督され、注釈付き画像を必要とする。 ヒストロジー画像の注釈付けは、高度に熟練した病理学者でさえも時間のかかる退屈なプロセスであり、そのため、ほとんどのヒストロジーデータセットには利害関係の領域アノテーションが欠如しており、弱いラベルが付けられている。 本稿では,ヒストロジー画像における表現学習手法の性能を向上させるために設計されたビュー生成手法であるhistopermを提案する。 ヒストペルムでは,全スリッドヒストロジー画像から生成されたパッチのさらなるビューを推定し,分類精度を向上させる。 これらの置換ビューは同じスライドレベルクラスに属するが、異なるパッチインスタンスから生成される。 チェリアック病と腎細胞癌の2つの病理組織学的データセットを用いて,BYOLとSimCLRにHistoPermを加えて検討した。 どちらのデータセットも、標準的なBYOLとSimCLRのアプローチと比較して、精度、F1スコア、AUCのパフォーマンスが改善された。 特に、線形評価構成では、ヒストペルムはceliac disease datasetの分類精度をbyolでは8%、simclrでは3%向上させる。 同様にHistoPermでは、BYOLでは2%、腎細胞癌データセットではSimCLRでは0.25%の分類精度が向上する。 提案手法は, 組織学的特徴を弱教師付き環境で捉えるために, 共通の表現学習フレームワークに応用でき, 完全教師付き手法に近い, あるいはそれ以上に優れた, 全体スライディング分類結果をもたらす可能性がある。

Recently, deep learning methods have been successfully applied to solve numerous challenges in the field of digital pathology. However, many of these approaches are fully supervised and require annotated images. Annotating a histology image is a time-consuming and tedious process for even a highly skilled pathologist, and, as such, most histology datasets lack region-of-interest annotations and are weakly labeled. In this paper, we introduce HistoPerm, a view generation approach designed for improving the performance of representation learning techniques on histology images in weakly supervised settings. In HistoPerm, we permute augmented views of patches generated from whole-slide histology images to improve classification accuracy. These permuted views belong to the same original slide-level class but are produced from distinct patch instances. We tested adding HistoPerm to BYOL and SimCLR, two prominent representation learning methods, on two public histology datasets for Celiac disease and Renal Cell Carcinoma. For both datasets, we found improved performance in terms of accuracy, F1-score, and AUC compared to the standard BYOL and SimCLR approaches. Particularly, in a linear evaluation configuration, HistoPerm increases classification accuracy on the Celiac disease dataset by 8% for BYOL and 3% for SimCLR. Similarly, with HistoPerm, classification accuracy increases by 2% for BYOL and 0.25% for SimCLR on the Renal Cell Carcinoma dataset. The proposed permutation-based view generation approach can be adopted in common representation learning frameworks to capture histopathology features in weakly supervised settings and can lead to whole-slide classification outcomes that are close to, or even better than, fully supervised methods.
翻訳日:2022-09-14 12:56:48 公開日:2022-09-13
# completr: 視覚トランスフォーマーを用いた高密度シーンにおけるオブジェクト検出のためのアノテーションのコスト削減

ComplETR: Reducing the cost of annotations for object detection in dense scenes with vision transformers ( http://arxiv.org/abs/2209.05654v1 )

ライセンス: Link先を確認
Achin Jain, Kibok Lee, Gurumurthy Swaminathan, Hao Yang, Bernt Schiele, Avinash Ravichandran, Onkar Dabeer(参考訳) オブジェクト検出のための注釈付きバウンディングボックスは、高価で、時間がかかり、エラーが発生しやすい。 本稿では,部分的なアノテーション付きシーンデータセットにおけるアノテーションの欠如を明示的に補完するように設計された,completr という detr ベースのフレームワークを提案する。 これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。 ComplETRはDETRデコーダのオブジェクトクエリを画像内のオブジェクトのパッチ情報で拡張する。 一致した損失と組み合わせることで、入力パッチに類似したオブジェクトを効果的に見つけ、欠落したアノテーションを補完することができる。 提案手法は,ソフトサンプリングや偏りのない教師など,最先端の手法よりも優れており,同時に,これらの手法と併用することで,さらなる性能向上が期待できることを示す。 我々は,より高速なR-CNN,カスケードR-CNN,CenterNet2,Deformable DETRなどの人気検出器の性能向上を示す。

Annotating bounding boxes for object detection is expensive, time-consuming, and error-prone. In this work, we propose a DETR based framework called ComplETR that is designed to explicitly complete missing annotations in partially annotated dense scene datasets. This reduces the need to annotate every object instance in the scene thereby reducing annotation cost. ComplETR augments object queries in DETR decoder with patch information of objects in the image. Combined with a matching loss, it can effectively find objects that are similar to the input patch and complete the missing annotations. We show that our framework outperforms the state-of-the-art methods such as Soft Sampling and Unbiased Teacher by itself, while at the same time can be used in conjunction with these methods to further improve their performance. Our framework is also agnostic to the choice of the downstream object detectors; we show performance improvement for several popular detectors such as Faster R-CNN, Cascade R-CNN, CenterNet2, and Deformable DETR on multiple dense scene datasets.
翻訳日:2022-09-14 12:53:23 公開日:2022-09-13
# スイッチ可能なセルフアテンションモジュール

Switchable Self-attention Module ( http://arxiv.org/abs/2209.05680v1 )

ライセンス: Link先を確認
Shanshan Zhong, Wushao Wen, Jinghui Qin(参考訳) 注意機構は視覚認識において大きな成功を収めた。 多くの研究は、注意操作者の構造を微妙に設計する、注意機構の有効性の改善に費やされている。 これらの作業は、シナリオが変わったときに最適な設定を選択し、多くの時間と計算リソースを消費するために、多くの実験を必要とします。 さらに、ニューラルネットワークは、しばしば多くのネットワーク層を含んでいるが、ほとんどの研究は、異なるネットワーク層を強化するために、同じアテンションモジュールを使用しており、自己認識機構の性能のさらなる向上を妨げる。 上記の問題に対処するため,自己注意モジュールSEMを提案する。 アテンションモジュールとオルタナティブアテンションオペレータの入力情報に基づいて、semはアテンションオペレータの選択と統合を自動的に決定してアテンションマップを計算する。 SEMの有効性は、広く使われているベンチマークデータセットと一般的な自己注意ネットワークに関する広範な実験によって実証されている。

Attention mechanism has gained great success in vision recognition. Many works are devoted to improving the effectiveness of attention mechanism, which finely design the structure of the attention operator. These works need lots of experiments to pick out the optimal settings when scenarios change, which consumes a lot of time and computational resources. In addition, a neural network often contains many network layers, and most studies often use the same attention module to enhance different network layers, which hinders the further improvement of the performance of the self-attention mechanism. To address the above problems, we propose a self-attention module SEM. Based on the input information of the attention module and alternative attention operators, SEM can automatically decide to select and integrate attention operators to compute attention maps. The effectiveness of SEM is demonstrated by extensive experiments on widely used benchmark datasets and popular self-attention networks.
翻訳日:2022-09-14 12:53:02 公開日:2022-09-13
# PSAQ-ViT V2:視覚変換器の精度と一般データフリー量子化を目指して

PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers ( http://arxiv.org/abs/2209.05687v1 )

ライセンス: Link先を確認
Zhikai Li, Mengjuan Chen, Junrui Xiao, and Qingyi Gu(参考訳) データフリー量子化は、モデルの圧縮におけるデータのプライバシーとセキュリティの懸念に対処する可能性があるため、広く研究されている。 近年、PSAQ-ViTは、事前学習された視覚変換器(ViT)からデータを生成するために、相対値のパッチ類似度を設計し、ViTに対するデータフリー量子化を初めて達成している。 本稿では、PSAQ-ViT上に構築された、より正確で汎用的なViTの量子化フレームワークであるPSAQ-ViT V2を提案する。 具体的には, psaq-vit のパッチ類似度指標に従い, 全精度モデル (teacher) の監督下で競争的かつインタラクティブな方法で生成したサンプルと量子化モデル (student) の一定周期的進化を容易にする適応的教師・学生戦略を導入し, 量子化モデルの精度を大幅に向上させる。 さらに,補助カテゴリ指導がなければ,タスクとモデルに依存しない事前情報を用い,汎用スキームを幅広いビジョンタスクやモデルに対応させる。 画像分類, オブジェクト検出, セマンティックセグメンテーションタスク, PSAQ-ViT V2 の多種多様なモデルにおいて, 単純量子化戦略と実世界のデータへのアクセスを伴わずに, 競争的な結果を一貫して達成し, ViT のデータ自由量子化の強力なベースラインとしての可能性を示す。 例えば、Swin-Sをバックボーンモデルとし、8ビット量子化はImageNetで82.13、COCOで50.9ボックスAPと44.1マスクAP、ADE20Kで47.2mIoUに達する。 PSAQ-ViT V2が、機密データを含む現実世界のアプリケーションにおいて、潜在的かつ実践的なソリューションとして機能することを願っている。 コードは、https://github.com/zkkli/PSAQ-ViT.comでリリースされる。

Data-free quantization can potentially address data privacy and security concerns in model compression, and thus has been widely investigated. Recently, PSAQ-ViT designs a relative value metric, patch similarity, to generate data from pre-trained vision transformers (ViTs), achieving the first attempt at data-free quantization for ViTs. In this paper, we propose PSAQ-ViT V2, a more accurate and general data-free quantization framework for ViTs, built on top of PSAQ-ViT. More specifically, following the patch similarity metric in PSAQ-ViT, we introduce an adaptive teacher-student strategy, which facilitates the constant cyclic evolution of the generated samples and the quantized model (student) in a competitive and interactive fashion under the supervision of the full-precision model (teacher), thus significantly improving the accuracy of the quantized model. Moreover, without the auxiliary category guidance, we employ the task- and model-independent prior information, making the general-purpose scheme compatible with a broad range of vision tasks and models. Extensive experiments are conducted on various models on image classification, object detection, and semantic segmentation tasks, and PSAQ-ViT V2, with the naive quantization strategy and without access to real-world data, consistently achieves competitive results, showing potential as a powerful baseline on data-free quantization for ViTs. For instance, with Swin-S as the (backbone) model, 8-bit quantization reaches 82.13 top-1 accuracy on ImageNet, 50.9 box AP and 44.1 mask AP on COCO, and 47.2 mIoU on ADE20K. We hope that accurate and general PSAQ-ViT V2 can serve as a potential and practice solution in real-world applications involving sensitive data. Code will be released and merged at: https://github.com/zkkli/PSAQ-ViT.
翻訳日:2022-09-14 12:52:48 公開日:2022-09-13
# pointscatter: 管状構造抽出のためのポイントセット表現

PointScatter: Point Set Representation for Tubular Structure Extraction ( http://arxiv.org/abs/2209.05774v1 )

ライセンス: Link先を確認
Dong Wang, Zhao Zhang, Ziwei Zhao, Yuhang Liu, Yihong Chen and Liwei Wang(参考訳) 本稿では,管状構造抽出タスクの点集合表現について検討する。 従来のマスク表現と比較すると、点集合表現はその柔軟性と表現能力があり、マスクとしての固定格子によって制限されない。 そこで本研究では,管状構造抽出タスクのためのセグメンテーションモデルの代替案であるpointscatterを提案する。 ポイントキャッターは画像を散乱領域に分割し、各散乱領域の点を並列に予測する。 さらに,ネットワークをエンドツーエンドかつ効率的にトレーニングするための,グリーディに基づく領域分割マッチングアルゴリズムを提案する。 我々は,4つの公開管状データセット上でPointScatterをベンチマークし,管状構造セグメンテーションと中心線抽出タスクに関する広範な実験を行った。 コードはhttps://github.com/zhangzhao2022/pointscatterで入手できる。

This paper explores the point set representation for tubular structure extraction tasks. Compared with the traditional mask representation, the point set representation enjoys its flexibility and representation ability, which would not be restricted by the fixed grid as the mask. Inspired by this, we propose PointScatter, an alternative to the segmentation models for the tubular structure extraction task. PointScatter splits the image into scatter regions and parallelly predicts points for each scatter region. We further propose the greedy-based region-wise bipartite matching algorithm to train the network end-to-end and efficiently. We benchmark the PointScatter on four public tubular datasets, and the extensive experiments on tubular structure segmentation and centerline extraction task demonstrate the effectiveness of our approach. Code is available at https://github.com/zhangzhao2022/pointscatter.
翻訳日:2022-09-14 12:52:07 公開日:2022-09-13
# 学習フレームワークを用いた模範画像のカラー化

Exemplar-Based Image Colorization with A Learning Framework ( http://arxiv.org/abs/2209.05775v1 )

ライセンス: Link先を確認
Zhenfeng Xue, Jiandang Yang, Jie Ren, Yong Liu(参考訳) 画像の学習と色付けはマルチメディア領域のホットスポットである。 本稿では,人間の学習能力に触発されて,学習フレームワークを用いた自動着色法を提案する。 この方法は、模範的および学習的手法のハイブリッドと見なすことができ、カラー化プロセスと学習プロセスを分離して、同じグレー画像に対して様々なカラースタイルを生成する。 実例ベースカラー化法におけるマッチング処理はパラメータ化関数と見なすことができ,そのパラメータに適合するトレーニングサンプルとして多量のカラー画像を用いる。 トレーニングの過程では,色画像が基礎となる真理であり,マッチング関数のパラメータで誤差を最小化することにより,マッチングプロセスの最適パラメータを学習する。 様々な構成で画像を扱うために、グローバルな特徴を導入し、その構成について画像を分類し、各画像カテゴリの最適なマッチングパラメータを個別に学習することができる。 さらに、空間整合性に基づく後処理は、参照画像から抽出した色情報を滑らかにし、一致するエラーを取り除くように設計されている。 本手法の有効性を検証するために大規模な実験を行い,最先端のカラー化アルゴリズムに対して同等の性能を実現する。

Image learning and colorization are hot spots in multimedia domain. Inspired by the learning capability of humans, in this paper, we propose an automatic colorization method with a learning framework. This method can be viewed as a hybrid of exemplar-based and learning-based method, and it decouples the colorization process and learning process so as to generate various color styles for the same gray image. The matching process in the exemplar-based colorization method can be regarded as a parameterized function, and we employ a large amount of color images as the training samples to fit the parameters. During the training process, the color images are the ground truths, and we learn the optimal parameters for the matching process by minimizing the errors in terms of the parameters for the matching function. To deal with images with various compositions, a global feature is introduced, which can be used to classify the images with respect to their compositions, and then learn the optimal matching parameters for each image category individually. What's more, a spatial consistency based post-processing is design to smooth the extracted color information from the reference image to remove matching errors. Extensive experiments are conducted to verify the effectiveness of the method, and it achieves comparable performance against the state-of-the-art colorization algorithms.
翻訳日:2022-09-14 12:51:54 公開日:2022-09-13
# 魚のランドマーク検出のための軽量トランスフォーマーモデル

A lightweight Transformer-based model for fish landmark detection ( http://arxiv.org/abs/2209.05777v1 )

ライセンス: Link先を確認
Alzayat Saleh, David Jones, Dean Jerry, Mostafa Rahimi Azghadi(参考訳) vision transformer (vit)のようなトランスフォーマーベースのモデルは、十分なトレーニングデータがある場合、いくつかの視覚タスクでonvolutional neural networks (cnns)を上回ることができる。 しかし、(CNN)は視覚タスク(すなわち翻訳同値と局所性)に対して強く有用な帰納バイアスを持つ。 本研究では,移動魚のランドマーク検出ネットワーク(MFLD-net)と呼ばれる新しいモデルアーキテクチャを開発した。 ViT(Patch Embeddings, Multi-Layer Perceptrons)に基づく畳み込み操作を用いてこのモデルを作成した。 MFLD-netは、軽量であり、組み込みデバイスやモバイルデバイスに適しているが、低データレシエーションにおいて、競争力またはより良い結果を達成することができる。 さらに,MFLD-netは,魚画像データセット上の最先端(CNN)のいくつかよりも高い精度でキーポイント(ランドマーク)推定を行うことができることを示す。 さらに、ViTとは異なり、MFLD-netは事前トレーニングされたモデルを必要としない。 モデルの一般化能力を示す定量的かつ質的な結果を提供する。 この研究は、モバイルで効率的な魚のモニタリングシステムとデバイスを開発するための基盤を提供する。

Transformer-based models, such as the Vision Transformer (ViT), can outperform onvolutional Neural Networks (CNNs) in some vision tasks when there is sufficient training data. However, (CNNs) have a strong and useful inductive bias for vision tasks (i.e. translation equivariance and locality). In this work, we developed a novel model architecture that we call a Mobile fish landmark detection network (MFLD-net). We have made this model using convolution operations based on ViT (i.e. Patch embeddings, Multi-Layer Perceptrons). MFLD-net can achieve competitive or better results in low data regimes while being lightweight and therefore suitable for embedded and mobile devices. Furthermore, we show that MFLD-net can achieve keypoint (landmark) estimation accuracies on-par or even better than some of the state-of-the-art (CNNs) on a fish image dataset. Additionally, unlike ViT, MFLD-net does not need a pre-trained model and can generalise well when trained on a small dataset. We provide quantitative and qualitative results that demonstrate the model's generalisation capabilities. This work will provide a foundation for future efforts in developing mobile, but efficient fish monitoring systems and devices.
翻訳日:2022-09-14 12:51:34 公開日:2022-09-13
# sEMGに基づくモーションインテント分類のための潜水窓ハイパーパラメータが深部CNNに与える影響の解析

Analyzing the Impact of Varied Window Hyper-parameters on Deep CNN for sEMG based Motion Intent Classification ( http://arxiv.org/abs/2209.05804v1 )

ライセンス: Link先を確認
Frank Kulwa, Oluwarotimi Williams Samuel (Senior Member IEEE), Mojisola Grace Asogbon (Member IEEE), Olumide Olayinka Obe, and Guanglin Li (Senior Member IEEE)(参考訳) 筋電図(EMG)に基づく人工装具制御における深部神経ネットワークの利用は、筋活動パターンをEMG信号から自動的に学習することで手作りの特徴に代わる有望な代替手段を提供する。 一方、畳み込みニューラルネットワーク(CNN)への入力として生のEMG信号を使用することは、人工装具を効果的に制御するためのシンプルで高速で理想的なスキームを提供する。 そこで本研究では,cnnにおけるロバストな生emg2次元(2d)信号の生成に影響を与える窓長と重なりの関係について検討する。 そして、最適なネットワーク性能を保証できるパラメータを適切に組み合わせるための親指規則が導出された。 さらに,CNN受信ウィンドウサイズと生のEMG信号サイズとの関係について検討した。 実験の結果、cnnの性能は生成信号の重なりが増加するにつれて向上し、9.49%の精度と23.33%のf1-scoreが窓長の75%の重なりで達成された。 同様に、ネットワーク性能もレセプティブウィンドウ(カーネル)サイズの増加とともに向上する。 本研究では,2次元EMG信号の75%の重なりと広いネットワークカーネルの組み合わせが,適切なEMG-CNNベースの補綴制御方式のための理想的なモータインテント分類を提供する可能性が示唆された。

The use of deep neural networks in electromyogram (EMG) based prostheses control provides a promising alternative to the hand-crafted features by automatically learning muscle activation patterns from the EMG signals. Meanwhile, the use of raw EMG signals as input to convolution neural networks (CNN) offers a simple, fast, and ideal scheme for effective control of prostheses. Therefore, this study investigates the relationship between window length and overlap, which may influence the generation of robust raw EMG 2-dimensional (2D) signals for application in CNN. And a rule of thumb for a proper combination of these parameters that could guarantee optimal network performance was derived. Moreover, we investigate the relationship between the CNN receptive window size and the raw EMG signal size. Experimental results show that the performance of the CNN increases with the increase in overlap within the generated signals, with the highest improvement of 9.49% accuracy and 23.33% F1-score realized when the overlap is 75% of the window length. Similarly, the network performance increases with the increase in receptive window (kernel) size. Findings from this study suggest that a combination of 75% overlap in 2D EMG signals and wider network kernels may provide ideal motor intents classification for adequate EMG-CNN based prostheses control scheme.
翻訳日:2022-09-14 12:51:12 公開日:2022-09-13
# Check and Link: Pairwise Lesion Cor correspondingence Guides Mammogram Mass Detection

Check and Link: Pairwise Lesion Correspondence Guides Mammogram Mass Detection ( http://arxiv.org/abs/2209.05809v1 )

ライセンス: Link先を確認
Ziwei Zhao, Dong Wang, Yihong Chen, Ziteng Wang, Liwei Wang(参考訳) 乳がんの発生と死亡率が高いため,マンモグラムの腫瘤の検出が重要である。 マンモグラム検診では, 対方向病変の対応を明示的にモデル化することが特に重要である。 しかし、既存の手法の多くは比較的粗い対応を構築しており、通信監督は利用していない。 本稿では,病変検出とペア対応をエンドツーエンドで学習するトランスフォーマーベースの新しいフレームワークCL-Netを提案する。 cl-netでは、クロスビュー候補間の動的相互作用を達成するためにview-interactive lesion detectorが提案されている。 これら2つの設計の組み合わせは、マンモグラムのペアワイズ病変対応を正確に理解する。 実験の結果、CL-NetはパブリックDDSMデータセットと社内データセットで最先端のパフォーマンスを得ることがわかった。 さらに、低FPI体制において、従来の手法よりも大きなマージンで優れている。

Detecting mass in mammogram is significant due to the high occurrence and mortality of breast cancer. In mammogram mass detection, modeling pairwise lesion correspondence explicitly is particularly important. However, most of the existing methods build relatively coarse correspondence and have not utilized correspondence supervision. In this paper, we propose a new transformer-based framework CL-Net to learn lesion detection and pairwise correspondence in an end-to-end manner. In CL-Net, View-Interactive Lesion Detector is proposed to achieve dynamic interaction across candidates of cross views, while Lesion Linker employs the correspondence supervision to guide the interaction process more accurately. The combination of these two designs accomplishes precise understanding of pairwise lesion correspondence for mammograms. Experiments show that CL-Net yields state-of-the-art performance on the public DDSM dataset and our in-house dataset. Moreover, it outperforms previous methods by a large margin in low FPI regime.
翻訳日:2022-09-14 12:50:49 公開日:2022-09-13
# 言語間セマンティック類似マッチングのための多段階蒸留フレームワーク

Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity Matching ( http://arxiv.org/abs/2209.05869v1 )

ライセンス: Link先を確認
Kunbo Ding, Weijie Liu, Yuejian Fang, Zhe Zhao, Qi Ju, Xuefeng Yang(参考訳) これまでの研究では、言語間知識の蒸留により、言語間類似性マッチングタスクのための事前学習モデルの性能が著しく向上することが示されている。 しかし、この運用には学生モデルが大きい必要がある。 そうでなければ、パフォーマンスは急激に低下し、メモリ制限されたデバイスにデプロイするのは現実的ではない。 この問題に対処するため,我々は言語間知識蒸留を考察し,小型かつ高性能な言語間モデルを構築するための多段階蒸留フレームワークを提案する。 本フレームワークでは, コントラスト学習, ボトルネック, パラメータリカレント戦略を組み合わせることで, 圧縮処理中に性能が損なわれるのを防ぐ。 実験の結果,XLM-R と MiniLM のサイズを 50 % 以上圧縮できるが,性能は 1% 程度しか低下しないことがわかった。

Previous studies have proved that cross-lingual knowledge distillation can significantly improve the performance of pre-trained models for cross-lingual similarity matching tasks. However, the student model needs to be large in this operation. Otherwise, its performance will drop sharply, thus making it impractical to be deployed to memory-limited devices. To address this issue, we delve into cross-lingual knowledge distillation and propose a multi-stage distillation framework for constructing a small-size but high-performance cross-lingual model. In our framework, contrastive learning, bottleneck, and parameter recurrent strategies are combined to prevent performance from being compromised during the compression process. The experimental results demonstrate that our method can compress the size of XLM-R and MiniLM by more than 50\%, while the performance is only reduced by about 1%.
翻訳日:2022-09-14 12:47:27 公開日:2022-09-13
# 抽象的多文書要約のための文書認識位置符号化と言語誘導符号化

Document-aware Positional Encoding and Linguistic-guided Encoding for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2209.05929v1 )

ライセンス: Link先を確認
Congbo Ma, Wei Emma Zhang, Pitawelayalage Dasun Dileepa Pitawela, Yutong Qu, Haojie Zhuang, Hu Wang(参考訳) 多文書要約における重要な課題の1つは、単一文書要約(SDS)と多文書要約(MDS)を区別する入力文書間の関係を捉えることである。 この問題に対処する既存のMDS作業はほとんどありません。 効果的な方法は、文書の位置情報をエンコードして、文書間の関係を捉えるモデルを支援することである。 しかし、Transformerベースのモデルのような既存のMDSモデルはトークンレベルの位置情報のみを考慮する。 さらに、これらのモデルは文の言語構造を捉えず、必然的に生成された要約の混乱を引き起こす。 そこで本稿では,MDS用トランスフォーマーアーキテクチャと融合可能な文書認識位置符号化と言語誘導符号化を提案する。 文書認識位置符号化には,文書符号化機能の選択をガイドする汎用プロトコルを導入する。 言語誘導エンコーディングでは, 特徴学習のための単純かつ効果的な非線形エンコーディング学習器を用いて, 係り受け関係マスクに構文的係り受け関係を組み込むことを提案する。 実験により,提案モデルが高品質な要約を生成することを示す。

One key challenge in multi-document summarization is to capture the relations among input documents that distinguish between single document summarization (SDS) and multi-document summarization (MDS). Few existing MDS works address this issue. One effective way is to encode document positional information to assist models in capturing cross-document relations. However, existing MDS models, such as Transformer-based models, only consider token-level positional information. Moreover, these models fail to capture sentences' linguistic structure, which inevitably causes confusions in the generated summaries. Therefore, in this paper, we propose document-aware positional encoding and linguistic-guided encoding that can be fused with Transformer architecture for MDS. For document-aware positional encoding, we introduce a general protocol to guide the selection of document encoding functions. For linguistic-guided encoding, we propose to embed syntactic dependency relations into the dependency relation mask with a simple but effective non-linear encoding learner for feature learning. Extensive experiments show the proposed model can generate summaries with high quality.
翻訳日:2022-09-14 12:47:14 公開日:2022-09-13
# 遠隔教師付きスキル抽出のための負サンプリング戦略の設計

Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction ( http://arxiv.org/abs/2209.05987v1 )

ライセンス: Link先を確認
Jens-Joris Decorte, Jeroen Van Hautte, Johannes Deleu, Chris Develder and Thomas Demeester(参考訳) スキルは雇用市場や多くの人的資源(HR)プロセスにおいて中心的な役割を果たす。 他のデジタル体験に続いて、今日のオンライン求人市場には、スキルセットに基づいて適切な機会を期待する候補者がいる。 同様に、企業は労働力のスキルが将来安全であることを保証するためにデータを使う必要がある。 しかしながら、スキルに関する構造化された情報は欠落することが多く、自己評価やマネージャ評価に基づくプロセスの構築は、結果データの採用、完全性、鮮度に関する問題に苦労していることを示している。 明示的あるいは単に暗黙的に記述された何千ものスキルラベルと、微妙な注釈付きトレーニングコーパスの欠如を考えると、スキルの抽出は非常に難しい作業である。 スキル抽出に関するこれまでの作業は、タスクを明示的なエンティティ検出タスクに過剰に単純化するか、あるいは完全なスキルの語彙に適用すれば、手動で注釈付けされたトレーニングデータの上に構築する。 本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。 遠隔教師データにおける暗黙的なスキルの欠如にもかかわらず、暗黙的に言及されるスキルに対するスキル抽出の一般化を改善するために、小さな検証データセットに基づいて調整されたいくつかの否定的なサンプリング戦略を提案し、評価する。 ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られ、一つのモデルに3つの異なる戦略を組み合わせることで、RP@5の最大8ポイントのパフォーマンスが向上する。 我々は,esco分類に基づくスキル抽出のための手作業アノテート評価ベンチマークを導入し,モデルを検証する。 我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。

Skills play a central role in the job market and many human resources (HR) processes. In the wake of other digital experiences, today's online job market has candidates expecting to see the right opportunities based on their skill set. Similarly, enterprises increasingly need to use data to guarantee that the skills within their workforce remain future-proof. However, structured information about skills is often missing, and processes building on self- or manager-assessment have shown to struggle with issues around adoption, completeness, and freshness of the resulting data. Extracting skills is a highly challenging task, given the many thousands of possible skill labels mentioned either explicitly or merely described implicitly and the lack of finely annotated training corpora. Previous work on skill extraction overly simplifies the task to an explicit entity detection task or builds on manually annotated training data that would be infeasible if applied to a complete vocabulary of skills. We propose an end-to-end system for skill extraction, based on distant supervision through literal matching. We propose and evaluate several negative sampling strategies, tuned on a small validation dataset, to improve the generalization of skill extraction towards implicitly mentioned skills, despite the lack of such implicit skills in the distantly supervised data. We observe that using the ESCO taxonomy to select negative examples from related skills yields the biggest improvements, and combining three different strategies in one model further increases the performance, up to 8 percentage points in RP@5. We introduce a manually annotated evaluation benchmark for skill extraction based on the ESCO taxonomy, on which we validate our models. We release the benchmark dataset for research purposes to stimulate further research on the task.
翻訳日:2022-09-14 12:46:58 公開日:2022-09-13
# 汎用的意図発見: オープンワールド対話システムからの学習

Generalized Intent Discovery: Learning from Open World Dialogue System ( http://arxiv.org/abs/2209.06030v1 )

ライセンス: Link先を確認
Yutao Mou, Keqing He, Yanan Wu, Pei Wang, Jingang Wang, Wei Wu, Yi Huang, Junlan Feng, Weiran Xu(参考訳) 従来のインテント分類モデルは事前に定義されたインテントセットに基づいており、限定されたindインテントクラスのみを認識する。 しかし、ユーザーは実際の対話システムでOODクエリを入力することができる。 このようなOODクエリは、今後の改善のための方向性を提供することができる。 本稿では、INDインテント分類器をINDインテントやOODインテントを含むオープンワールドインテントセットに拡張することを目的とした新しいタスク、Generalized Intent Discovery (GID)を定義する。 我々は、ラベル付きINDインテントクラスを同時に分類し、新しいラベル付きOODタイプを段階的に発見し、認識したいと思っています。 異なるアプリケーションシナリオのための3つのパブリックデータセットを構築し、将来の作業のためにパイプラインベースとエンドツーエンドの2種類のフレームワークを提案します。 さらに, 課題を理解するために, 徹底的な実験と質的分析を行い, 今後のgid研究への新たなガイダンスを提供する。

Traditional intent classification models are based on a pre-defined intent set and only recognize limited in-domain (IND) intent classes. But users may input out-of-domain (OOD) queries in a practical dialogue system. Such OOD queries can provide directions for future improvement. In this paper, we define a new task, Generalized Intent Discovery (GID), which aims to extend an IND intent classifier to an open-world intent set including IND and OOD intents. We hope to simultaneously classify a set of labeled IND intent classes while discovering and recognizing new unlabeled OOD types incrementally. We construct three public datasets for different application scenarios and propose two kinds of frameworks, pipeline-based and end-to-end for future work. Further, we conduct exhaustive experiments and qualitative analysis to comprehend key challenges and provide new guidance for future GID research.
翻訳日:2022-09-14 12:46:30 公開日:2022-09-13
# 自然言語処理における説明的価値の役割

The Role of Explanatory Value in Natural Language Processing ( http://arxiv.org/abs/2209.06169v1 )

ライセンス: Link先を確認
Kees van Deemter(参考訳) 科学の重要な目的は説明であるが、言語現象を説明するというアイデアは、主流の自然言語処理(nlp)や他の人工知能の多くの分野のバックシートとなった。 言語行動の説明がNLPの主な目的であるべきであり、NLPモデルを説明可能にすることとは同じではない、と私は論じる。 これらの概念を説明するために、最近の人間の言語生産モデルのいくつかは互いに比較される。 我々は,NLP研究と制度政策にどのような意味があるのかを問うとともに,いくつかの落とし穴を埋めながら,我々のコミュニティが説明的価値を真剣に捉えているかどうかを問うた。

A key aim of science is explanation, yet the idea of explaining language phenomena has taken a backseat in mainstream Natural Language Processing (NLP) and many other areas of Artificial Intelligence. I argue that explanation of linguistic behaviour should be a main goal of NLP, and that this is not the same as making NLP models explainable. To illustrate these ideas, some recent models of human language production are compared with each other. I conclude by asking what it would mean for NLP research and institutional policies if our community took explanatory value seriously, while heeding some possible pitfalls.
翻訳日:2022-09-14 12:46:16 公開日:2022-09-13
# ソーシャルメディアにおける計算sarcasm分析 : 体系的考察

Computational Sarcasm Analysis on Social Media: A Systematic Review ( http://arxiv.org/abs/2209.06170v1 )

ライセンス: Link先を確認
Faria Binte Kader, Nafisa Hossain Nujat, Tasmia Binte Sogir, Mohsinul Kabir, Hasan Mahmud, Kamrul Hasan(参考訳) 皮肉は、誰かを侮辱したり、イライラさせたり、楽しませたりするために、真に表現したいことの反対を言うか、書くか、と定義することができる。 テキストデータにおけるサルカズムの曖昧な性質から,その検出は困難であり,感情分析研究コミュニティに大きな関心を寄せている。 サルカズム検出の研究は10年以上に及ぶが、近年、マルチモーダル環境における教師なし事前訓練トランスフォーマーの採用や、サルカズムを識別するためのコンテキストの統合など、いくつかの重要な進歩がなされている。 本研究では,近年の英語における計算皮肉研究の進展と動向について概説する。 関連するデータセット、方法論、トレンド、問題、課題、および検出を超越したsarcasmに関連するタスクについて説明する。 本研究は,サルカズムのデータセット,サーカスティックな特徴とその抽出方法,および関連する分野の研究者がサルカズム検出の現在の技術動向を理解するのに役立つ様々な手法の性能分析を提供する。

Sarcasm can be defined as saying or writing the opposite of what one truly wants to express, usually to insult, irritate, or amuse someone. Because of the obscure nature of sarcasm in textual data, detecting it is difficult and of great interest to the sentiment analysis research community. Though the research in sarcasm detection spans more than a decade, some significant advancements have been made recently, including employing unsupervised pre-trained transformers in multimodal environments and integrating context to identify sarcasm. In this study, we aim to provide a brief overview of recent advancements and trends in computational sarcasm research for the English language. We describe relevant datasets, methodologies, trends, issues, challenges, and tasks relating to sarcasm that are beyond detection. Our study provides well-summarized tables of sarcasm datasets, sarcastic features and their extraction methods, and performance analysis of various approaches which can help researchers in related domains understand current state-of-the-art practices in sarcasm detection.
翻訳日:2022-09-14 12:46:04 公開日:2022-09-13
# KSG:知識とスキルグラフ

KSG: Knowledge and Skill Graph ( http://arxiv.org/abs/2209.05698v1 )

ライセンス: Link先を確認
Feng Zhao, Ziqi Zhang, Donglin Wang(参考訳) 知識グラフ(英: knowledge graph、kg)は、近年発展している知識表現の本質的な形式である。 名目上の実体とその関係に集中するため、伝統的な知識グラフは自然界において静的で百科事典である。 イベント知識グラフ(Event KG)は、テキスト処理による時間的・空間的ダイナミクスをモデル化し、質問応答、推薦、インテリジェント検索などの下流アプリケーションを容易にする。 一方、既存のkg研究は主にテキスト処理と静的事実に焦点を当てており、写真、映画、トレーニング済みニューラルネットワークに含まれる膨大な動的行動情報を無視している。 さらに、深部強化学習(DRL)とロボット学習のための知識グラフに行動知能情報を含める努力もなされていない。 本稿では,新しい動的知識とスキルグラフ(KSG)を提案し,その上で,CN-DBpediaに基づく基本的で具体的なKSGを開発する。 ノードはエンティティノードと属性ノードに分割され、エージェント、環境、スキル(DRLポリシーまたはポリシー表現)を含むエンティティノードと、エンティティ記述、プレトレインネットワーク、オフラインデータセットを含む属性ノードが含まれる。 KSGは様々な環境で異なるエージェントのスキルを検索し、新しいスキルを取得するための転送可能な情報を提供する。 これは、スキルの検索と学習のために動的ksgを調べることを認識した最初の研究である。 新たなスキル学習の広範な実験結果から,KSGは新たなスキル学習効率を高めることが示唆された。

The knowledge graph (KG) is an essential form of knowledge representation that has grown in prominence in recent years. Because it concentrates on nominal entities and their relationships, traditional knowledge graphs are static and encyclopedic in nature. On this basis, event knowledge graph (Event KG) models the temporal and spatial dynamics by text processing to facilitate downstream applications, such as question-answering, recommendation and intelligent search. Existing KG research, on the other hand, mostly focuses on text processing and static facts, ignoring the vast quantity of dynamic behavioral information included in photos, movies, and pre-trained neural networks. In addition, no effort has been done to include behavioral intelligence information into the knowledge graph for deep reinforcement learning (DRL) and robot learning. In this paper, we propose a novel dynamic knowledge and skill graph (KSG), and then we develop a basic and specific KSG based on CN-DBpedia. The nodes are divided into entity and attribute nodes, with entity nodes containing the agent, environment, and skill (DRL policy or policy representation), and attribute nodes containing the entity description, pre-train network, and offline dataset. KSG can search for different agents' skills in various environments and provide transferable information for acquiring new skills. This is the first study that we are aware of that looks into dynamic KSG for skill retrieval and learning. Extensive experimental results on new skill learning show that KSG boosts new skill learning efficiency.
翻訳日:2022-09-14 12:45:44 公開日:2022-09-13
# SATViz: クローサル証明のリアルタイム可視化

SATViz: Real-Time Visualization of Clausal Proofs ( http://arxiv.org/abs/2209.05838v1 )

ライセンス: Link先を確認
Tim Holzenkamp, Kevin Kuryshev, Thomas Oltmann, Lucas W\"aldele, Johann Zuber, Tobias Heuer, Markus Iser(参考訳) SATインスタンスを表すグラフのビジュアルレイアウトは、SATインスタンスのコミュニティ構造を強調することができる。 SATインスタンスのコミュニティ構造は、インスタンスの硬さと既知の節品質ヒューリスティックスの両方に関連付けられている。 我々のツールSATVizは、可変相互作用グラフとフォース指向レイアウトアルゴリズムを用いてCNF式を可視化する。 SATVizでは、最近学習された節の移動ウィンドウで発生する変数を連続的にハイライトするために、節証明をアニメーションすることができる。 必要に応じて、調整されたエッジ重み付きで可変インタラクショングラフの新しいレイアウトを作成することもできる。 本稿では,SATVizの構造と特徴について述べる。 SATVizで作成した興味深い視覚化も紹介する。

Visual layouts of graphs representing SAT instances can highlight the community structure of SAT instances. The community structure of SAT instances has been associated with both instance hardness and known clause quality heuristics. Our tool SATViz visualizes CNF formulas using the variable interaction graph and a force-directed layout algorithm. With SATViz, clause proofs can be animated to continuously highlight variables that occur in a moving window of recently learned clauses. If needed, SATViz can also create new layouts of the variable interaction graph with the adjusted edge weights. In this paper, we describe the structure and feature set of SATViz. We also present some interesting visualizations created with SATViz.
翻訳日:2022-09-14 12:45:19 公開日:2022-09-13
# LegalBench: 法的推論のためのコラボレーションベンチマークのプロトタイプ

LegalBench: Prototyping a Collaborative Benchmark for Legal Reasoning ( http://arxiv.org/abs/2209.06120v1 )

ライセンス: Link先を確認
Neel Guha, Daniel E. Ho, Julian Nyarko, Christopher R\'e(参考訳) 基礎モデルは法的推論を伴うタスクを実行するために導かれるか? この問題に答えるためにベンチマークを構築するには、コンピュータ科学と法的なコミュニティの継続的な協力が必要だと考えています。 そのために、この短い論文は3つの目的がある。 まず、irac-aフレームワークの法学者が様々な種類の法的推論を区別するためにどのように使うかを説明し、基礎モデル指向ベンチマークの構築を導く。 次に、このフレームワークに従って構築された44のタスクのシードセットを示す。 最初の発見について話し、新しいタスクの方向性を強調する。 ついにオープンサイエンス運動に触発されて、私たちは法律とコンピュータサイエンスのコミュニティに、新たなタスクへの貢献を呼びかけました。 この作業は進行中で、進捗状況はこちらで追跡できます。

Can foundation models be guided to execute tasks involving legal reasoning? We believe that building a benchmark to answer this question will require sustained collaborative efforts between the computer science and legal communities. To that end, this short paper serves three purposes. First, we describe how IRAC-a framework legal scholars use to distinguish different types of legal reasoning-can guide the construction of a Foundation Model oriented benchmark. Second, we present a seed set of 44 tasks built according to this framework. We discuss initial findings, and highlight directions for new tasks. Finally-inspired by the Open Science movement-we make a call for the legal and computer science communities to join our efforts by contributing new tasks. This work is ongoing, and our progress can be tracked here: https://github.com/HazyResearch/legalbench.
翻訳日:2022-09-14 12:45:10 公開日:2022-09-13
# キャリブレーションされた予測: Minimaxの証明

Calibrated Forecasts: The Minimax Proof ( http://arxiv.org/abs/2209.05863v1 )

ライセンス: Link先を確認
Sergiu Hart(参考訳) さらに、N^3周期が1/Nのキャリブレーション誤差を保証するのに十分であることを示すミニマックス定理により、キャリブレーション予測が存在するという単純な証明(1995年)を公式に書き上げた。

A formal write-up of the simple proof (1995) of the existence of calibrated forecasts by the minimax theorem, which moreover shows that N^3 periods suffice to guarantee a 1/N calibration error.
翻訳日:2022-09-14 12:42:13 公開日:2022-09-13
# 連合学習におけるプライバシー漏洩防止

Defense against Privacy Leakage in Federated Learning ( http://arxiv.org/abs/2209.05724v1 )

ライセンス: Link先を確認
Jing Wu, Munawar Hayat, Mingyi Zhou, Mehrtash Harandi(参考訳) Federated Learning(FL)は、プライベートトレーニングデータを共有しないことでユーザのプライバシを保護するため、有望な分散学習パラダイムを提供する。 しかし、近年の研究により、flは、共有勾配を盗聴することでユーザーのプライベートデータを再構築できる、モデル反転攻撃の影響を受けやすいことが示されている。 既存の防衛ソリューションは強力な攻撃に耐えられず、プライバシとパフォーマンスのトレードオフが乏しい。 本稿では,機密データの勾配を隠蔽データで隠蔽することに基づく,単純かつ効果的な防御戦略を提案する。 具体的には、勾配レベルの機密データを模倣するために、ミニバッチ内のいくつかのサンプルを変更します。 勾配投影法を用いて,FL性能を犠牲にすることなく不明瞭な機密データを求める。 本手法は,他の防御技術と比較して,FL性能を保ちながら高い保護レベルを提供することを示す。 ソースコードはリポジトリにあります。

Federated Learning (FL) provides a promising distributed learning paradigm, since it seeks to protect users privacy by not sharing their private training data. Recent research has demonstrated, however, that FL is susceptible to model inversion attacks, which can reconstruct users' private data by eavesdropping on shared gradients. Existing defense solutions cannot survive stronger attacks and exhibit a poor trade-off between privacy and performance. In this paper, we present a straightforward yet effective defense strategy based on obfuscating the gradients of sensitive data with concealing data. Specifically, we alter a few samples within a mini batch to mimic the sensitive data at the gradient levels. Using a gradient projection technique, our method seeks to obscure sensitive data without sacrificing FL performance. Our extensive evaluations demonstrate that, compared to other defenses, our technique offers the highest level of protection while preserving FL performance. Our source code is located in the repository.
翻訳日:2022-09-14 12:41:45 公開日:2022-09-13
# 複合音響イベント検出と音響シーン分類のためのバイノーラル信号表現

Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification ( http://arxiv.org/abs/2209.05900v1 )

ライセンス: Link先を確認
Daniel Aleksander Krause, Annamaria Mesaros(参考訳) 音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める2つの研究課題である。 音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。 本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。 バイノーラル録音と同期音イベントと音響シーンラベルを含む2つの異なるデータセットに対して実験を行い、SEDとASCの違いを別々または共同で分析する。 以上の結果から, 位相変換(gcc-phat)と相差のシネスおよびコサインとの共通交叉関係を主とする特定のバイノーラル特徴の利用は, 対数メルエネルギーのみに基づくベースライン法と比較して, 分離作業とジョイント作業の両方において, 優れた性能モデルとなることがわかった。

Sound event detection (SED) and Acoustic scene classification (ASC) are two widely researched audio tasks that constitute an important part of research on acoustic scene analysis. Considering shared information between sound events and acoustic scenes, performing both tasks jointly is a natural part of a complex machine listening system. In this paper, we investigate the usefulness of several spatial audio features in training a joint deep neural network (DNN) model performing SED and ASC. Experiments are performed for two different datasets containing binaural recordings and synchronous sound event and acoustic scene labels to analyse the differences between performing SED and ASC separately or jointly. The presented results show that the use of specific binaural features, mainly the Generalized Cross Correlation with Phase Transform (GCC-phat) and sines and cosines of phase differences, result in a better performing model in both separate and joint tasks as compared with baseline methods based on logmel energies only.
翻訳日:2022-09-14 12:41:30 公開日:2022-09-13
# DOMINO: 医用画像分割におけるドメイン認識モデル校正

DOMINO: Domain-aware Model Calibration in Medical Image Segmentation ( http://arxiv.org/abs/2209.06077v1 )

ライセンス: Link先を確認
Skylar E. Stolte, Kyle Volle, Aprinda Indahlastari, Alejandro Albizu, Adam J. Woods, Kevin Brink, Matthew Hale, Ruogu Fang(参考訳) モデルキャリブレーションは予測確率推定と真正性確率との一致を測定する。 適切なモデルキャリブレーションはリスクの高いアプリケーションには不可欠である。 残念ながら、現代のディープニューラルネットワークは調整が不十分で、信頼性と信頼性を損なう。 医学的画像分割は、組織境界の自然な不確実性のために特に問題となる。 これは、多数派クラスの自信過剰を好む損失関数によって誇張される。 クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を活用するドメイン認識モデルキャリブレーション手法であるDOMINOを用いて,これらの課題に対処する。 実験により, ドミノキャリブト深層ニューラルネットワークは非キャリブトモデルよりも優れており, 頭部画像のセグメンテーションにおける最新形態計測手法が優れていることが示された。 以上の結果から,本手法は,特にレアクラスにおいて,キャリブレーションや高い精度,より高速な推論時間を一貫して達成できることがわかった。 この性能は、セマンティクスモデルのキャリブレーションを知らせるドメイン認識正規化によるものです。 これらの結果から,深層学習モデルの信頼性構築におけるクラスラベル間の意味的関係の重要性が示唆された。 このフレームワークは、一般的な医用画像セグメンテーションモデルの信頼性と信頼性を向上させる可能性がある。 この記事のコードは、https://github.com/lab-smile/domino.com/で入手できる。

Model calibration measures the agreement between the predicted probability estimates and the true correctness likelihood. Proper model calibration is vital for high-risk applications. Unfortunately, modern deep neural networks are poorly calibrated, compromising trustworthiness and reliability. Medical image segmentation particularly suffers from this due to the natural uncertainty of tissue boundaries. This is exasperated by their loss functions, which favor overconfidence in the majority classes. We address these challenges with DOMINO, a domain-aware model calibration method that leverages the semantic confusability and hierarchical similarity between class labels. Our experiments demonstrate that our DOMINO-calibrated deep neural networks outperform non-calibrated models and state-of-the-art morphometric methods in head image segmentation. Our results show that our method can consistently achieve better calibration, higher accuracy, and faster inference times than these methods, especially on rarer classes. This performance is attributed to our domain-aware regularization to inform semantic model calibration. These findings show the importance of semantic ties between class labels in building confidence in deep learning models. The framework has the potential to improve the trustworthiness and reliability of generic medical image segmentation models. The code for this article is available at: https://github.com/lab-smile/DOMINO.
翻訳日:2022-09-14 12:40:25 公開日:2022-09-13
# 指紋検索タスクにおけるセグメンテーションと生成モデルの比較分析

Comparative analysis of segmentation and generative models for fingerprint retrieval task ( http://arxiv.org/abs/2209.06172v1 )

ライセンス: Link先を確認
Megh Patel, Devarsh Patel, Sarthak Patel(参考訳) Fingerprintsのようなバイオメトリック認証は、ユーザの認証と検証のための現代技術の不可欠な部分となっている。 それは私たちのほとんどが認識しているよりも多くの点で広まります。 しかし、これらの指紋画像は、指が汚れたり、濡れたり、怪我したり、センサーが故障した場合、品質が低下する。 したがって、ノイズを取り除き、画像の再構成のために塗り替えることによる元の指紋の抽出はその認証に不可欠である。 そこで本稿では,ジェネレーティブ(GAN)モデルとセグメンテーションモデルを用いた深層学習手法を提案する。 pix2pixGANとCycleGAN(生成モデル)とU-net(セグメンテーションモデル)の質的および定量的比較が行われた。 モデルをトレーニングするために、私たちは独自のデータセットNFD - Noisy Fingerprint Datasetを、さまざまな背景と、いくつかの画像の傷を慎重に組み合わせて、より現実的で堅牢なものにしました。 我々の研究では、u-netモデルはGANネットワークよりも優れていた。

Biometric Authentication like Fingerprints has become an integral part of the modern technology for authentication and verification of users. It is pervasive in more ways than most of us are aware of. However, these fingerprint images deteriorate in quality if the fingers are dirty, wet, injured or when sensors malfunction. Therefore, extricating the original fingerprint by removing the noise and inpainting it to restructure the image is crucial for its authentication. Hence, this paper proposes a deep learning approach to address these issues using Generative (GAN) and Segmentation models. Qualitative and Quantitative comparison has been done between pix2pixGAN and cycleGAN (generative models) as well as U-net (segmentation model). To train the model, we created our own dataset NFD - Noisy Fingerprint Dataset meticulously with different backgrounds along with scratches in some images to make it more realistic and robust. In our research, the u-net model performed better than the GAN networks
翻訳日:2022-09-14 12:40:07 公開日:2022-09-13
# 人間の判断による機械翻訳における単語レベルの品質評価の再考

Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement ( http://arxiv.org/abs/2209.05695v1 )

ライセンス: Link先を確認
Zhen Yang, Fandong Meng, Yuanmeng Yan and Jie Zhou(参考訳) 機械翻訳(MT)の単語レベル品質推定(QE)は,翻訳文中の潜在的な翻訳誤りを参照なしで発見することを目的としている。 通常、単語レベルのQEに関する従来の研究は、単語ラベル(OKとBAD)を翻訳誤り率(TER)ツールキットでMT文と後編集文の単語の比較によって自動生成する、後編集作業の観点から翻訳品質を予測するように設計されている。 編集後の作業は翻訳の品質をある程度測定するために使われるが、単語がうまく翻訳されているか不十分かという人間の判断とは相容れない。 この制限を克服するために、我々はまず、ゴールデンベンチマークデータセット、すなわち品質推定の人間判断(英語版)を作成し、専門家翻訳者は、その判断について、翻訳の悪い単語に直接注釈をつける。 さらに,並列コーパスをさらに活用するために,タグリファインメント戦略とツリーベースのアノテーション戦略という2つのタグリファインメント戦略を用いた自己教師付き事前学習を提案し,terベースの人工qeコーパスを \emph{hjqe} に近づける。 利用可能なWMT En-De と En-Zh コーパスに基づく実測実験を行った。 その結果,提案するデータセットは,人間の判断と一貫性があるだけでなく,提案するタグ補正戦略の有効性も確認できた。 データは \url{https://github.com/zhenyangiacas/hjqe} にある。 }

Word-level Quality Estimation (QE) of Machine Translation (MT) aims to find out potential translation errors in the translated sentence without reference. Typically, conventional works on word-level QE are designed to predict the translation quality in terms of the post-editing effort, where the word labels ("OK" and "BAD") are automatically generated by comparing words between MT sentences and the post-edited sentences through a Translation Error Rate (TER) toolkit. While the post-editing effort can be used to measure the translation quality to some extent, we find it usually conflicts with the human judgement on whether the word is well or poorly translated. To overcome the limitation, we first create a golden benchmark dataset, namely \emph{HJQE} (Human Judgement on Quality Estimation), where the expert translators directly annotate the poorly translated words on their judgements. Additionally, to further make use of the parallel corpus, we propose the self-supervised pre-training with two tag correcting strategies, namely tag refinement strategy and tree-based annotation strategy, to make the TER-based artificial QE corpus closer to \emph{HJQE}. We conduct substantial experiments based on the publicly available WMT En-De and En-Zh corpora. The results not only show our proposed dataset is more consistent with human judgment but also confirm the effectiveness of the proposed tag correcting strategies.\footnote{The data can be found at \url{https://github.com/ZhenYangIACAS/HJQE}.}
翻訳日:2022-09-14 12:39:50 公開日:2022-09-13
# ソーシャルメディアトピック分類のための非パラメトリック時間適応

Non-Parametric Temporal Adaptation for Social Media Topic Classification ( http://arxiv.org/abs/2209.05706v1 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Nikolai Vogler, Junxian He, Omar Florez, Ahmed El-Kishky, Taylor Berg-Kirkpatrick(参考訳) ユーザ生成ソーシャルメディアデータは常に変化しており、新たなトレンドがオンライン議論に影響を与え、ソーシャルメディアNLPアプリケーションのテストデータの分散シフトを引き起こしている。 さらに、ユーザデータが削除されると、トレーニングデータはしばしば変更される。 現在のNLPシステムの多くは静的であり、固定トレーニングデータに依存している。 その結果、頻繁でコストのかかる再トレーニングを行わずに、テスト分散シフトと削除されたトレーニングデータの両方の一時的な変更に適応できないのです。 本稿では,非パラメトリック分類器が,テスト分布シフトやトレーニングデータ削除に適応して更新可能なデータストアを,再トレーニングすることなく使用するという,単純かつ効果的なソリューションとして,非パラメトリック手法を提案する。 我々は2021年の7.13億ツイートとハッシュタグからなる新しいベンチマークデータセットをリリースする。 適応のために再訓練を必要とするパラメトリックなニューラルハッシュタグ分類とハッシュタグ生成モデルと、テキスト埋め込み距離に基づいて近隣のハッシュタグを返却する非パラメトリックなトレーニング不要な高密度検索手法を比較した。 縦方向のtwitterデータセットを用いた実験では,勾配に基づく再トレーニングを必要とせず,分布シフトを示すテストセットにおける最良パラメトリックベースラインの相対性能が64.12%向上していることが判明した。 さらに,データストアのアプローチは,ユーザデータの動的削除に特に適しており,計算コストや性能損失が無視できることを示す。 我々の新しいベンチマークデータセットと経験分析は、現実世界のユーザーデータへのAIシステムの展開において、時間性によって生じる重要な課題に対する将来の調査を支援することができる。

User-generated social media data is constantly changing as new trends influence online discussion, causing distribution shift in test data for social media NLP applications. In addition, training data is often subject to change as user data is deleted. Most current NLP systems are static and rely on fixed training data. As a result, they are unable to adapt to temporal change -- both test distribution shift and deleted training data -- without frequent, costly re-training. In this paper, we study temporal adaptation through the task of longitudinal hashtag prediction and propose a non-parametric technique as a simple but effective solution: non-parametric classifiers use datastores which can be updated, either to adapt to test distribution shift or training data deletion, without re-training. We release a new benchmark dataset comprised of 7.13M Tweets from 2021, along with their hashtags, broken into consecutive temporal buckets. We compare parametric neural hashtag classification and hashtag generation models, which need re-training for adaptation, with a non-parametric, training-free dense retrieval method that returns the nearest neighbor's hashtags based on text embedding distance. In experiments on our longitudinal Twitter dataset we find that dense nearest neighbor retrieval has a relative performance gain of 64.12% over the best parametric baseline on test sets that exhibit distribution shift without requiring gradient-based re-training. Furthermore, we show that our datastore approach is particularly well-suited to dynamically deleted user data, with negligible computational cost and performance loss. Our novel benchmark dataset and empirical analysis can support future inquiry into the important challenges presented by temporality in the deployment of AI systems on real-world user data.
翻訳日:2022-09-14 12:39:23 公開日:2022-09-13
# 仮想現実感に基づく視覚的韻律知覚の検査法

A virtual reality-based method for examining audiovisual prosody perception ( http://arxiv.org/abs/2209.05745v1 )

ライセンス: Link先を確認
Hartmut Meister, Isa Samira Winter, Moritz Waeachtler, Pascale Sandmann and Khaled Abdellatif(参考訳) 韻律は言語コミュニケーションにおいて重要な役割を果たす。 プロソディの音響的手がかりは広く検討されている。 しかし、韻律的特徴は聴覚だけでなく、頭と顔の動きにも基づいている。 本報告の目的は,仮想現実を用いた視聴覚韻律の検討方法を提案することである。 仮想人間に基づくアニメーションは,実際の発話者の映像記録から得られたものと同様の動きの手がかりを与える。 バーチャルリアリティーの利用は、言語コミュニケーションのマルチモーダル効果を調べるための新しい道を開く。 人工内耳装用者における韻律知覚の枠組みについて検討する。

Prosody plays a vital role in verbal communication. Acoustic cues of prosody have been examined extensively. However, prosodic characteristics are not only perceived auditorily, but also visually based on head and facial movements. The purpose of this report is to present a method for examining audiovisual prosody using virtual reality. We show that animations based on a virtual human provide motion cues similar to those obtained from video recordings of a real talker. The use of virtual reality opens up new avenues for examining multimodal effects of verbal communication. We discuss the method in the framework of examining prosody perception in cochlear implant listeners.
翻訳日:2022-09-14 12:38:54 公開日:2022-09-13
# 産業用ウェーブエネルギー変換器用マルチエージェント強化学習コントローラのスキップトレーニング

Skip Training for Multi-Agent Reinforcement Learning Controller for Industrial Wave Energy Converters ( http://arxiv.org/abs/2209.05656v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Vineet Gundecha, Sahand Ghorbanpour, Alexander Shmakov, Ashwin Ramesh Babu, Alexandre Pichard, and Mathieu Cocho(参考訳) 最近のウェーブ・エナジー・コンバータ(wec)は、エネルギー発生を最大化するために複数の脚と発電機を備えている。 従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。 本稿では,従来のspring damperコントローラに匹敵するマルチエージェント強化学習コントローラ(marl)を提案する。 最初の研究は、問題の複雑な性質が、トレーニングの収束を難しくしていることを示している。 そこで本研究では,MARLトレーニングが性能飽和を克服し,デフォルトのMARLトレーニングよりも最適なコントローラに収束し,発電を向上する,新しいスキップトレーニング手法を提案する。 また,marlコントローラの個々のエージェントをベースラインのspring damper (sd)コントローラに対して個別にトレーニングし,その後,コンバージェンスを加速するために,複数のエージェントを一度にあるいはすべて同時に訓練する,新たなハイブリッドトレーニング初期化 (sthti) アプローチを提案する。 Asynchronous Advantage Actor-Critic (A3C)アルゴリズムを用いたMARLコントローラにより,ベースラインのSpring Damperコントローラよりも2桁のエネルギー効率向上を実現した。

Recent Wave Energy Converters (WEC) are equipped with multiple legs and generators to maximize energy generation. Traditional controllers have shown limitations to capture complex wave patterns and the controllers must efficiently maximize the energy capture. This paper introduces a Multi-Agent Reinforcement Learning controller (MARL), which outperforms the traditionally used spring damper controller. Our initial studies show that the complex nature of problems makes it hard for training to converge. Hence, we propose a novel skip training approach which enables the MARL training to overcome performance saturation and converge to more optimum controllers compared to default MARL training, boosting power generation. We also present another novel hybrid training initialization (STHTI) approach, where the individual agents of the MARL controllers can be initially trained against the baseline Spring Damper (SD) controller individually and then be trained one agent at a time or all together in future iterations to accelerate convergence. We achieved double-digit gains in energy efficiency over the baseline Spring Damper controller with the proposed MARL controllers using the Asynchronous Advantage Actor-Critic (A3C) algorithm.
翻訳日:2022-09-14 12:35:10 公開日:2022-09-13
# UCBに基づくベストアーム識別ポリシーに対する敵攻撃のサンプル複雑さ

Sample Complexity of an Adversarial Attack on UCB-based Best-arm Identification Policy ( http://arxiv.org/abs/2209.05692v1 )

ライセンス: Link先を確認
Varsha Pendyala(参考訳) 本研究は,Multi-armed bandit (MAB) において,報酬に対する敵の摂動の問題について考察する。 具体的には,確率MABに適用されたUCB型ベストアーム識別ポリシーに対する敵攻撃に焦点を当てる。 UCB攻撃は[1]で示され、ターゲットアームKを頻繁に引っ張る結果となる。 攻撃モデル[1]を使用して、ターゲットアームkを最良のアームとして選択するために必要なサンプル複雑さを導出しました。 I have found that the stop condition of UCB based best-arm identification algorithm in [2], can be achieved by the target arm K in T rounds, where T depends on the total number of arms and $\sigma$ parameter of $\sigma^2-$ sub-Gaussian random rewards of the arms。

In this work I study the problem of adversarial perturbations to rewards, in a Multi-armed bandit (MAB) setting. Specifically, I focus on an adversarial attack to a UCB type best-arm identification policy applied to a stochastic MAB. The UCB attack presented in [1] results in pulling a target arm K very often. I used the attack model of [1] to derive the sample complexity required for selecting target arm K as the best arm. I have proved that the stopping condition of UCB based best-arm identification algorithm given in [2], can be achieved by the target arm K in T rounds, where T depends only on the total number of arms and $\sigma$ parameter of $\sigma^2-$ sub-Gaussian random rewards of the arms.
翻訳日:2022-09-14 12:34:48 公開日:2022-09-13
# Borch: 完全な普遍確率型プログラミング言語

Borch: A Deep Universal Probabilistic Programming Language ( http://arxiv.org/abs/2209.06168v1 )

ライセンス: Link先を確認
Lewis Belcher, Johan Gudmundsson, Michael Green(参考訳) マルチレイヤーパーセプトロンが最初に導入されて以来、コネクショニストコミュニティは不確実性の概念とこのようなモデルでどのように表現できるかに苦労してきた。 この10年は、ニューラルネットワークのスケーラブルな性質を持つ確率モデリングの原理的なアプローチに参加することに多くの努力をしてきた。 この統合の理論的メリットは明確ですが、これらの取り組みにはいくつかの重要な実践的な側面があります。 これらの取り組みの多くは、既存のフレームワークを追加構造で拡張することに基づいている。 私たちはPyTorch上に構築されたスケーラブルで普遍的な確率的プログラミング言語であるBorchを紹介します。 コードは当社のリポジトリ https://gitlab.com/desupervised/borch.com でダウンロードと使用が可能です。

Ever since the Multilayered Perceptron was first introduced the connectionist community has struggled with the concept of uncertainty and how this could be represented in these types of models. This past decade has seen a lot of effort in trying to join the principled approach of probabilistic modeling with the scalable nature of deep neural networks. While the theoretical benefits of this consolidation are clear, there are also several important practical aspects of these endeavors; namely to force the models we create to represent, learn, and report uncertainty in every prediction that is made. Many of these efforts have been based on extending existing frameworks with additional structures. We present Borch, a scalable deep universal probabilistic programming language, built on top of PyTorch. The code is available for download and use in our repository https://gitlab.com/desupervised/borch.
翻訳日:2022-09-14 12:34:32 公開日:2022-09-13
# 介入密度推定のための正規化流れ

Normalizing Flows for Interventional Density Estimation ( http://arxiv.org/abs/2209.06203v1 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 因果推論のための既存の機械学習手法は通常、潜在的な結果の平均(例えば平均的な治療効果)で表される量を推定する。 しかし、そのような量は潜在的な結果の分布に関する完全な情報を捉えていない。 本研究では,観察データから介入後の潜在的結果の密度を推定する。 具体的には,この目的のために,介入正規化フローと呼ばれる,新しい完全パラメトリックな深層学習手法を提案する。 介入正規化フローは適切な正規化密度推定器を提供する。 そこで我々は,2つの正規化フロー,すなわち2つの正規化フローの反復的トレーニングを導入する。 (i)迷惑パラメータ推定のための教師フローとその評価 (ii)潜在的な結果の密度をパラメトリックに推定するための学生フロー。 学生フローパラメータの効率的かつ二重ロバストな推定のために,一段階のバイアス補正に基づく移動可能な最適化目標を考案する。 種々の実験において, インターベンショナル正規化フローは表現的かつ高効率であり, サンプルサイズと高次元共起の両方でスケール可能であることを示した。 私たちの知る限りでは、私たちの介入正規化フローは、潜在的な結果の密度推定のための最初の完全にパラメトリックな深層学習方法です。

Existing machine learning methods for causal inference usually estimate quantities expressed via the mean of potential outcomes (e.g., average treatment effect). However, such quantities do not capture the full information about the distribution of potential outcomes. In this work, we estimate the density of potential outcomes after interventions from observational data. Specifically, we propose a novel, fully-parametric deep learning method for this purpose, called Interventional Normalizing Flows. Our Interventional Normalizing Flows offer a properly normalized density estimator. For this, we introduce an iterative training of two normalizing flows, namely (i) a teacher flow for estimation of nuisance parameters and (ii) a student flow for parametric estimation of the density of potential outcomes. For efficient and doubly-robust estimation of the student flow parameters, we develop a custom tractable optimization objective based on a one-step bias correction. Across various experiments, we demonstrate that our Interventional Normalizing Flows are expressive and highly effective, and scale well with both sample size and high-dimensional confounding. To the best of our knowledge, our Interventional Normalizing Flows are the first fully-parametric, deep learning method for density estimation of potential outcomes.
翻訳日:2022-09-14 12:34:20 公開日:2022-09-13
# a tale of hodgerank and spectral method: target attack against rank aggregation is the fixed point of adversarial game

A Tale of HodgeRank and Spectral Method: Target Attack Against Rank Aggregation Is the Fixed Point of Adversarial Game ( http://arxiv.org/abs/2209.05742v1 )

ライセンス: Link先を確認
Ke Ma and Qianqian Xu and Jinshan Zeng and Guorong Li and Xiaochun Cao and Qingming Huang(参考訳) 対数比較によるランク集計は、選挙、スポーツ競技、レコメンデーション、情報検索において有望な結果を示している。 しかし、計算と統計特性に関する多くの研究とは対照的に、そのようなアルゴリズムのセキュリティ問題にはほとんど注意が払われていない。 巨大な利益によって、潜在的な敵はランキングを操作する強い動機と動機を持っている。 一方,ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。 考えられるリスクを十分に理解するため,本稿では,ペアワイズデータの変更による集計結果の指定を希望する,目的のある敵に焦点をあてる。 動的システムの観点からは、対象ランキングリストによる攻撃行動は、相手と被害者の構成に属する固定点である。 目標とする攻撃を行うために、2つの連続演算子からなるゲーム理論の枠組みとして敵と犠牲者の相互作用を定式化し、ナッシュ均衡を確立する。 次に、オリジナルデータの修正を作成するために、HodgeRank と RankCentrality に対する2つの手順を構築します。 さらに、敵が完全な情報をマスターすれば、被害者がターゲットランキングリストを作成することも証明する。 提案手法は,不完全な情報や不完全なフィードバックのみを保持し,目的的攻撃を行うことを可能にする。 提案した攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。 これらの実験結果は,摂動ランキングの上位候補が敵の指定候補であるという意味で,提案手法が攻撃者の目標を達成できることを示した。

Rank aggregation with pairwise comparisons has shown promising results in elections, sports competitions, recommendations, and information retrieval. However, little attention has been paid to the security issue of such algorithms, in contrast to numerous research work on the computational and statistical characteristics. Driven by huge profits, the potential adversary has strong motivation and incentives to manipulate the ranking list. Meanwhile, the intrinsic vulnerability of the rank aggregation methods is not well studied in the literature. To fully understand the possible risks, we focus on the purposeful adversary who desires to designate the aggregated results by modifying the pairwise data in this paper. From the perspective of the dynamical system, the attack behavior with a target ranking list is a fixed point belonging to the composition of the adversary and the victim. To perform the targeted attack, we formulate the interaction between the adversary and the victim as a game-theoretic framework consisting of two continuous operators while Nash equilibrium is established. Then two procedures against HodgeRank and RankCentrality are constructed to produce the modification of the original data. Furthermore, we prove that the victims will produce the target ranking list once the adversary masters the complete information. It is noteworthy that the proposed methods allow the adversary only to hold incomplete information or imperfect feedback and perform the purposeful attack. The effectiveness of the suggested target attack strategies is demonstrated by a series of toy simulations and several real-world data experiments. These experimental results show that the proposed methods could achieve the attacker's goal in the sense that the leading candidate of the perturbed ranking list is the designated one by the adversary.
翻訳日:2022-09-14 12:33:18 公開日:2022-09-13
# 概念に基づく語彙データの記述

Concept-Based Explanations for Tabular Data ( http://arxiv.org/abs/2209.05690v1 )

ライセンス: Link先を確認
Varsha Pendyala and Jihye Choi(参考訳) 機械学習モデルの解釈可能性は、機械学習システムの安全なデプロイに欠かせない研究領域である。 特定のアプローチの1つは、モデル決定を人間が理解できるハイレベルな概念に分類することです。 しかし、このような概念に基づく深層ニューラルネットワーク(dnn)の解説は、主に画像領域で研究されている。 本稿では,表型データに対する概念定義の考え方を提供することで,表型学習への帰属的アプローチであるTCAVを拡張した。 基礎概念と実世界のデータセットを備えた合成データセットにおいて,人間レベルの直観にマッチする解釈可能性結果を生成する際に,本手法の有効性を示す。 これに加えて,dnn のどの層がモデルに偏りのある予測をもたらす表現を学習したかを定量化する tcav に基づく公平性の概念を提案する。 また,TCAVに基づくフェアネスとグループフェアネスの概念であるデモグラフィックパリティとの関係を実証的に示す。

The interpretability of machine learning models has been an essential area of research for the safe deployment of machine learning systems. One particular approach is to attribute model decisions to high-level concepts that humans can understand. However, such concept-based explainability for Deep Neural Networks (DNNs) has been studied mostly on image domain. In this paper, we extend TCAV, the concept attribution approach, to tabular learning, by providing an idea on how to define concepts over tabular data. On a synthetic dataset with ground-truth concept explanations and a real-world dataset, we show the validity of our method in generating interpretability results that match the human-level intuitions. On top of this, we propose a notion of fairness based on TCAV that quantifies what layer of DNN has learned representations that lead to biased predictions of the model. Also, we empirically demonstrate the relation of TCAV-based fairness to a group fairness notion, Demographic Parity.
翻訳日:2022-09-14 12:30:07 公開日:2022-09-13
# 階層型マルチラベル画像分類のためのカプセルネットワーク

A Capsule Network for Hierarchical Multi-Label Image Classification ( http://arxiv.org/abs/2209.05723v1 )

ライセンス: Link先を確認
Khondaker Tasrif Noor, Antonio Robles-Kelly, Brano Kusy(参考訳) 画像分類はコンピュータビジョンにおいて最も重要な分野の1つである。 階層的な多ラベル分類は、階層構造や分類に基づくより小さな分類に分類された多クラス画像分類問題に適用される。 したがって、階層的分類モードは一般に各インスタンスに複数のクラス予測を提供し、画像クラスの構造を相互に関連するものとして反映することが期待される。 本稿では,階層分類のためのマルチラベルカプセルネットワーク(ML-CapsNet)を提案する。 ML-CapsNetは階層的なクラスラベル木構造に基づいて複数の画像クラスを予測する。 そこで本研究では,ネットワークのマルチラベル予測を考慮した損失関数を提案する。 その結果、ML-CapsNetのトレーニングアプローチでは、ラベル階層の分類レベルの構造との整合性を保ちながら、粗いパラダイムを用いている。 また,広く利用可能なデータセットを用いて実験を行い,文献の他の代替案と比較した。 我々の実験では、ML-CapsNetはこれらの代替手法に関して改善の限界をもたらす。

Image classification is one of the most important areas in computer vision. Hierarchical multi-label classification applies when a multi-class image classification problem is arranged into smaller ones based upon a hierarchy or taxonomy. Thus, hierarchical classification modes generally provide multiple class predictions on each instance, whereby these are expected to reflect the structure of image classes as related to one another. In this paper, we propose a multi-label capsule network (ML-CapsNet) for hierarchical classification. Our ML-CapsNet predicts multiple image classes based on a hierarchical class-label tree structure. To this end, we present a loss function that takes into account the multi-label predictions of the network. As a result, the training approach for our ML-CapsNet uses a coarse to fine paradigm while maintaining consistency with the structure in the classification levels in the label-hierarchy. We also perform experiments using widely available datasets and compare the model with alternatives elsewhere in the literature. In our experiments, our ML-CapsNet yields a margin of improvement with respect to these alternative methods.
翻訳日:2022-09-14 12:29:53 公開日:2022-09-13
# 効率的なロバストトレーニングのための逆コアセット選択

Adversarial Coreset Selection for Efficient Robust Training ( http://arxiv.org/abs/2209.05785v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) ニューラルネットワークは敵の攻撃に弱い: 入力に巧みに作り上げられた、知覚不能な摂動を加えることで、出力を変更できる。 敵の訓練は、そのような攻撃に対して堅牢なモデルを訓練するための最も効果的なアプローチの1つである。 残念ながら、トレーニングデータ全体の逆例をイテレーション毎に構築する必要があるため、ニューラルネットワークのバニラトレーニングよりもはるかに遅い。 コアセット選択の理論を活用することで、トレーニングデータの小さなサブセットの選択が、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供することを示す。 この目的のために、まず、逆コアセット選択に対する収束保証を提供する。 特に、収束境界は、コアセットがトレーニングデータ全体にわたって計算された勾配をいかにうまく近似できるかに直接関係していることを示す。 理論的解析により,この勾配近似誤差を逆コアセット選択目的として用いて,トレーニングセットのサイズを効果的に削減する。 一度構築すると、トレーニングデータのこのサブセット上で逆トレーニングを実行します。 既存の手法と異なり,TRADES,$\ell_p$-PGD,Perceptual Adversarial Trainingなど,さまざまなトレーニング対象に適用することができる。 我々は,我々のアプローチが,クリーンでロバストな精度の低下を経験しながら,敵のトレーニングを2~3倍高速化することを示すために,広範な実験を行った。

Neural networks are vulnerable to adversarial attacks: adding well-crafted, imperceptible perturbations to their input can modify their output. Adversarial training is one of the most effective approaches to training robust models against such attacks. Unfortunately, this method is much slower than vanilla training of neural networks since it needs to construct adversarial examples for the entire training data at every iteration. By leveraging the theory of coreset selection, we show how selecting a small subset of training data provides a principled approach to reducing the time complexity of robust training. To this end, we first provide convergence guarantees for adversarial coreset selection. In particular, we show that the convergence bound is directly related to how well our coresets can approximate the gradient computed over the entire training data. Motivated by our theoretical analysis, we propose using this gradient approximation error as our adversarial coreset selection objective to reduce the training set size effectively. Once built, we run adversarial training over this subset of the training data. Unlike existing methods, our approach can be adapted to a wide variety of training objectives, including TRADES, $\ell_p$-PGD, and Perceptual Adversarial Training. We conduct extensive experiments to demonstrate that our approach speeds up adversarial training by 2-3 times while experiencing a slight degradation in the clean and robust accuracy.
翻訳日:2022-09-14 12:29:40 公開日:2022-09-13
# 顔認識システムにおけるjust noticeable difference modeling

Just Noticeable Difference Modeling for Face Recognition System ( http://arxiv.org/abs/2209.05856v1 )

ライセンス: Link先を確認
Yu Tian and Zhangkai Ni and Baoliang Chen and Shurun Wang and Shiqi Wang and Hanli Wang and Sam Kwong(参考訳) 高品質な顔画像は、監視およびセキュリティシナリオにおける自動顔認識(FR)システムの安定性と信頼性を保証するために要求される。 しかし、大量の顔データは通常、送信やストレージの制限のために分析される前に圧縮される。 圧縮された画像は強力なアイデンティティ情報を失い、FRシステムの性能劣化を引き起こす。 ここでは、FR系が認識できない最大歪みとして定義できるFR系に対して、単に注意すべき差(JND)を研究するための最初の試みを行う。 具体的には、VVC(Versatile Video Coding)標準(VTM-15.0)に基づく高度な参照符号化/復号ソフトウェアによって生成された3530のオリジナル画像と137,670の圧縮画像を含むJNDデータセットを確立する。 続いて, FRシステムのJND画像を直接推測する新しいJND予測モデルを開発した。 特に,ロバストなアイデンティティ情報を損なうことなく冗長性除去を最大化するために,複数の特徴抽出と注意に基づく特徴分解モジュールを用いて,自己教師付き学習を通じて顔特徴を2つの非相関成分,すなわちアイデンティティと残差特徴に段階的に分解する。 そして、残余特徴をデコーダに供給して残余写像を生成する。 最後に、元の画像から残差マップを減じて予測されたJNDマップを得る。 実験結果から,提案モデルは最先端のJNDモデルと比較してJNDマップの精度が高く,VTM-15.0に比べてFRシステムの性能を維持しつつ,より多くのビットを節約できることがわかった。

High-quality face images are required to guarantee the stability and reliability of automatic face recognition (FR) systems in surveillance and security scenarios. However, a massive amount of face data is usually compressed before being analyzed due to limitations on transmission or storage. The compressed images may lose the powerful identity information, resulting in the performance degradation of the FR system. Herein, we make the first attempt to study just noticeable difference (JND) for the FR system, which can be defined as the maximum distortion that the FR system cannot notice. More specifically, we establish a JND dataset including 3530 original images and 137,670 compressed images generated by advanced reference encoding/decoding software based on the Versatile Video Coding (VVC) standard (VTM-15.0). Subsequently, we develop a novel JND prediction model to directly infer JND images for the FR system. In particular, in order to maximum redundancy removal without impairment of robust identity information, we apply the encoder with multiple feature extraction and attention-based feature decomposition modules to progressively decompose face features into two uncorrelated components, i.e., identity and residual features, via self-supervised learning. Then, the residual feature is fed into the decoder to generate the residual map. Finally, the predicted JND map is obtained by subtracting the residual map from the original image. Experimental results have demonstrated that the proposed model achieves higher accuracy of JND map prediction compared with the state-of-the-art JND models, and is capable of saving more bits while maintaining the performance of the FR system compared with VTM-15.0.
翻訳日:2022-09-14 12:29:17 公開日:2022-09-13
# 行動認識のための視覚変換器:サーベイ

Vision Transformers for Action Recognition: A Survey ( http://arxiv.org/abs/2209.05700v1 )

ライセンス: Link先を確認
Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna and Ajmal Mian(参考訳) コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。 最近の技術は、多数のビデオ関連タスクを解決するために、画像領域以外のトランスフォーマーの有効性も証明している。 このうち、人間の行動認識は、広く応用されているため、研究コミュニティから特に注目を集めている。 本稿では,行動認識のための視覚トランスフォーマー技術に関する包括的調査を行う。 本稿では, 動作認識のためのトランスフォーマーの適用に関する一般的なトレンドに注目しながら, 既存の文献と新興文献をこの方向で分析, 要約する。 彼らの特殊な用途のために、これらのメソッドをまとめて ``action transformers''' と呼ぶ。 文献レビューでは, アクショントランスフォーマーのアーキテクチャ, モダリティ, 意図した目的に基づいて, 適切な分類を提示する。 動作変換器のコンテキスト内では、時空間データ、次元減少、フレームパッチ、時空間構成、および様々な表現方法を符号化する手法を検討する。 また、1つの注意操作におけるトークン数を減らすことにより、より長いシーケンスを扱うトランスフォーマー層における時空間的注意の最適化についても検討する。 さらに,自己教師型やゼロショット学習などの異なるネットワーク学習戦略や,トランスフォーマーに基づく行動認識の損失についても検討する。 この調査はまた、アクショントランスフォーマーを用いた重要なベンチマークにおける評価基準値の獲得に向けた進展を要約している。 最後に、この研究の方向性に対する課題、展望、今後の方向性について議論する。

Vision transformers are emerging as a powerful tool to solve computer vision problems. Recent techniques have also proven the efficacy of transformers beyond the image domain to solve numerous video-related tasks. Among those, human action recognition is receiving special attention from the research community due to its widespread applications. This article provides the first comprehensive survey of vision transformer techniques for action recognition. We analyze and summarize the existing and emerging literature in this direction while highlighting the popular trends in adapting transformers for action recognition. Due to their specialized application, we collectively refer to these methods as ``action transformers''. Our literature review provides suitable taxonomies for action transformers based on their architecture, modality, and intended objective. Within the context of action transformers, we explore the techniques to encode spatio-temporal data, dimensionality reduction, frame patch and spatio-temporal cube construction, and various representation methods. We also investigate the optimization of spatio-temporal attention in transformer layers to handle longer sequences, typically by reducing the number of tokens in a single attention operation. Moreover, we also investigate different network learning strategies, such as self-supervised and zero-shot learning, along with their associated losses for transformer-based action recognition. This survey also summarizes the progress towards gaining grounds on evaluation metric scores on important benchmarks with action transformers. Finally, it provides a discussion on the challenges, outlook, and future avenues for this research direction.
翻訳日:2022-09-14 12:28:21 公開日:2022-09-13
# covidmis20:ディープラーニングモデルを用いたtwitterツイートの誤情報検出システム

CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets using Deep Learning Models ( http://arxiv.org/abs/2209.05667v1 )

ライセンス: Link先を確認
Aos Mulahuwaish, Manish Osti, Kevin Gyorick, Majdi Maabreh, Ajay Gupta, and Basheer Qolomany(参考訳) オンラインニュースや情報ソースは、現在の問題を学ぶための便利で使いやすい方法です。 例えば、全世界で3億人以上がTwitterの投稿に関わり、誤解を招く情報を広める可能性がある。 偽ニュースによって暴力犯罪が犯された例は多い。 この研究は、2020年2月から7月にかけて収集された1,375,592ツイートからなるCovidMis20データセット(COVID-19 Misinformation 2020データセット)を提示する。 CovidMis20は最新のニュースを取得するために自動的に更新され、https://github.com/everythingguy/CovidMis20で公開されている。 本研究は,Bi-LSTM深層学習とCNN+Bi-GRUを用いてフェイクニュースの検出を行った。 その結果、試験精度は92.23%と90.56%であり、アンサンブルCNN+Bi-GRUモデルはBi-LSTMモデルよりも一貫して高い精度を示した。

Online news and information sources are convenient and accessible ways to learn about current issues. For instance, more than 300 million people engage with posts on Twitter globally, which provides the possibility to disseminate misleading information. There are numerous cases where violent crimes have been committed due to fake news. This research presents the CovidMis20 dataset (COVID-19 Misinformation 2020 dataset), which consists of 1,375,592 tweets collected from February to July 2020. CovidMis20 can be automatically updated to fetch the latest news and is publicly available at: https://github.com/everythingguy/CovidMis20. This research was conducted using Bi-LSTM deep learning and an ensemble CNN+Bi-GRU for fake news detection. The results showed that, with testing accuracy of 92.23% and 90.56%, respectively, the ensemble CNN+Bi-GRU model consistently provided higher accuracy than the Bi-LSTM model.
翻訳日:2022-09-14 12:28:00 公開日:2022-09-13
# クラスレベルロジット摂動

Class-Level Logit Perturbation ( http://arxiv.org/abs/2209.05668v1 )

ライセンス: Link先を確認
Mengyang Li (1), Fengguang Su (1), Ou Wu (1), Ji Zhang (2) ((1) National Center for Applied Mathematics, Tianjin University, (2) University of Southern Queensland)(参考訳) 特徴、ロジット、ラベルは、サンプルがディープニューラルネットワークを通過する3つの主要なデータである。 近年,特徴摂動とラベル摂動が注目されている。 これらは様々なディープラーニングアプローチで有用であることが証明されている。 例えば、(逆)特徴摂動は学習モデルのロバスト性や一般化能力を改善することができる。 しかし、ロジットベクトルの摂動についての研究は限定的である。 本稿では,クラスレベルのロジット摂動に関連する既存手法について述べる。 対流摂動による正/負のデータ増大と損失変動の統一的な視点を確立する。 クラスレベルのロジット摂動が役に立つ理由を照らすために理論的解析が提供されている。 そこで, 単一ラベルと複数ラベルの分類タスクに対して, 摂動ロジットを明示的に学習するための新しい手法を提案する。 ベンチマーク画像分類データセットとそのロングテールバージョンに関する広範な実験は,学習手法の競争力を示した。 logit上でしか摂動しないため、既存の分類アルゴリズムと融合するためのプラグインとして使用できる。 すべてのコードはhttps://github.com/limengyang1992/lplで入手できる。

Features, logits, and labels are the three primary data when a sample passes through a deep neural network. Feature perturbation and label perturbation receive increasing attention in recent years. They have been proven to be useful in various deep learning approaches. For example, (adversarial) feature perturbation can improve the robustness or even generalization capability of learned models. However, limited studies have explicitly explored for the perturbation of logit vectors. This work discusses several existing methods related to class-level logit perturbation. A unified viewpoint between positive/negative data augmentation and loss variations incurred by logit perturbation is established. A theoretical analysis is provided to illuminate why class-level logit perturbation is useful. Accordingly, new methodologies are proposed to explicitly learn to perturb logits for both single-label and multi-label classification tasks. Extensive experiments on benchmark image classification data sets and their long-tail versions indicated the competitive performance of our learning method. As it only perturbs on logit, it can be used as a plug-in to fuse with any existing classification algorithms. All the codes are available at https://github.com/limengyang1992/lpl.
翻訳日:2022-09-14 12:24:29 公開日:2022-09-13
# majority predictor accuracy を用いた深層伝達学習のための一般化境界

Generalization Bounds for Deep Transfer Learning Using Majority Predictor Accuracy ( http://arxiv.org/abs/2209.05709v1 )

ライセンス: Link先を確認
Cuong N.Nguyen, Lam Si Tung Ho, Vu Dinh, Tal Hassner, Cuong V.Nguyen(参考訳) ソースから対象タスクに学習を転送して学習する深層学習モデルの新たな一般化境界を分析する。 我々の境界は、データから効率的に計算できるマジョリティ予測精度と呼ばれる量を利用する。 本理論は, 計算精度の大多数が伝達可能性尺度として使用可能であることを示すため, 実験によって検証される事実として有用であることを示す。

We analyze new generalization bounds for deep learning models trained by transfer learning from a source to a target task. Our bounds utilize a quantity called the majority predictor accuracy, which can be computed efficiently from data. We show that our theory is useful in practice since it implies that the majority predictor accuracy can be used as a transferability measure, a fact that is also validated by our experiments.
翻訳日:2022-09-14 12:24:16 公開日:2022-09-13
# r\'{e}nyiダイバージェンス深層相互学習

R\'{e}nyi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v1 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao(参考訳) 本稿では,非常に単純だが極めて効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 有効性はその優れた一般化品質に高い相関関係があることを観察する。 本稿では,DMLによる性能改善を,ほぼ近似したベイズ後方サンプリング法である,という新たな視点から解釈する。 これはまた、以前の(DMLの文脈における)分散制御をもたらすため、元のDMLを改善するためにR\'{e}nyiの発散を適用する基盤も確立する。 そこで我々はR\'{e}nyi Divergence Deep Mutual Learning (RDML)を提案する。 我々の経験的結果は、DMLと‘renyi{} divergence’の結婚の利点を表している。 R\'{e}nyi divergence によって課される柔軟な制御により、DMLをさらに改善し、より一般化されたモデルを学ぶことができる。

This paper revisits an incredibly simple yet exceedingly effective computing paradigm, Deep Mutual Learning (DML). We observe that the effectiveness correlates highly to its excellent generalization quality. In the paper, we interpret the performance improvement with DML from a novel perspective that it is roughly an approximate Bayesian posterior sampling procedure. This also establishes the foundation for applying the R\'{e}nyi divergence to improve the original DML, as it brings in the variance control of the prior (in the context of DML). Therefore, we propose R\'{e}nyi Divergence Deep Mutual Learning (RDML). Our empirical results represent the advantage of the marriage of DML and the \renyi{} divergence. The flexible control imposed by the R\'{e}nyi divergence is able to further improve DML to learn better generalized models.
翻訳日:2022-09-14 12:24:10 公開日:2022-09-13
# オンライン異常検知器のメタレベル解析

A Meta-level Analysis of Online Anomaly Detectors ( http://arxiv.org/abs/2209.05899v1 )

ライセンス: Link先を確認
Antonios Ntroumpogiannis, Michail Giannoulis, Nikolaos Myrtakis, Vassilis Christophides, Eric Simon, Ioannis Tsamardinos(参考訳) ストリーミングデータの異常のリアルタイム検出は、アラートの発行、障害の予測、業界全体の侵入や脅威の検出を可能にするため、注目を集めています。 しかし、ストリーミングデータ(オンラインアルゴリズム)に対する異常検出器の有効性と効率を比較することはほとんど注目されていない。 本稿では,様々なアルゴリズム系(距離,密度,木,投射系)のオンライン検出器の質的,総合的な概要を示し,検出モデルの構築,更新,テストの主なアイデアを強調する。 そこで本研究では,オンライン検出アルゴリズムとオフライン検出アルゴリズムの定量的評価結果の徹底的な分析を行った。 検出器の挙動は、異なるデータセット(すなわち、メタ特徴)の特性と相関し、その性能のメタレベル分析を提供する。 本研究は,文献などの欠落した知見に対処する。 a) ランダム分類器に対する検知器の信頼性とデータセットの特徴がランダムに動作させるもの b) オンライン検出器がオフライン装置の性能をどの程度近似しているか c) 検出器の戦略をスケッチし、プリミティブを更新する手法は、データセットの機能部分空間内でのみ見える異常を検出するのに最適である。 (d)異なるアルゴリズム系に属する検出器の有効性と効率のトレードオフは何か。 (e) データセットの特定の特性がどのオンラインアルゴリズムよりも優れているか。

Real-time detection of anomalies in streaming data is receiving increasing attention as it allows us to raise alerts, predict faults, and detect intrusions or threats across industries. Yet, little attention has been given to compare the effectiveness and efficiency of anomaly detectors for streaming data (i.e., of online algorithms). In this paper, we present a qualitative, synthetic overview of major online detectors from different algorithmic families (i.e., distance, density, tree or projection-based) and highlight their main ideas for constructing, updating and testing detection models. Then, we provide a thorough analysis of the results of a quantitative experimental evaluation of online detection algorithms along with their offline counterparts. The behavior of the detectors is correlated with the characteristics of different datasets (i.e., meta-features), thereby providing a meta-level analysis of their performance. Our study addresses several missing insights from the literature such as (a) how reliable are detectors against a random classifier and what dataset characteristics make them perform randomly; (b) to what extent online detectors approximate the performance of offline counterparts; (c) which sketch strategy and update primitives of detectors are best to detect anomalies visible only within a feature subspace of a dataset; (d) what are the tradeoffs between the effectiveness and the efficiency of detectors belonging to different algorithmic families; (e) which specific characteristics of datasets yield an online algorithm to outperform all others.
翻訳日:2022-09-14 12:23:55 公開日:2022-09-13
# 時間窓による多重tsp解の学習と深層強化学習による拒絶

Learning to Solve Multiple-TSP with Time Window and Rejections via Deep Reinforcement Learning ( http://arxiv.org/abs/2209.06094v1 )

ライセンス: Link先を確認
Rongkai Zhang, Cong Zhang, Zhiguang Cao, Wen Song, Puay Siew Tan, Jie Zhang, Bihan Wen, Justin Dauwels(参考訳) 本稿では、時間窓と拒否(mTSPTWR)を備えたトラベリングセールスマン問題(TSP)、複数車両TSP(TSP)の難易度かつ非自明な変種に対応するための、深い強化学習に基づくマネージャ・ワーカー・フレームワークを提案する。 特に,提案フレームワークでは,マネージャエージェントが,グラフ同型ネットワーク(GIN)ベースのポリシネットワークを通じて,各車両に顧客を割り当てることで,mTSPTWRをサブルーチンタスクに分割することを学ぶ。 作業者エージェントは、各車両の走行距離と拒絶率の両方の観点からコストを最小化し、サブルーチンタスクの解決を学習し、その最大値を管理者エージェントに送り、より良い課題を学習する。 実験結果から,提案フレームワークは解の質が向上し,計算時間も短縮された。 さらに重要なことに、訓練されたエージェントは、目に見えない大きなインスタンスを解決するための競争的パフォーマンスも達成します。

We propose a manager-worker framework based on deep reinforcement learning to tackle a hard yet nontrivial variant of Travelling Salesman Problem (TSP), \ie~multiple-vehicle TSP with time window and rejections (mTSPTWR), where customers who cannot be served before the deadline are subject to rejections. Particularly, in the proposed framework, a manager agent learns to divide mTSPTWR into sub-routing tasks by assigning customers to each vehicle via a Graph Isomorphism Network (GIN) based policy network. A worker agent learns to solve sub-routing tasks by minimizing the cost in terms of both tour length and rejection rate for each vehicle, the maximum of which is then fed back to the manager agent to learn better assignments. Experimental results demonstrate that the proposed framework outperforms strong baselines in terms of higher solution quality and shorter computation time. More importantly, the trained agents also achieve competitive performance for solving unseen larger instances.
翻訳日:2022-09-14 12:23:05 公開日:2022-09-13
# 認識パラメータ確率モデルを用いた教師なし表現学習

Unsupervised representational learning with recognition-parametrised probabilistic models ( http://arxiv.org/abs/2209.05661v1 )

ライセンス: Link先を確認
William I.Walker, Hugo Soulat, Changmin Yu, Maneesh Sahani(参考訳) 本稿では,認識パラメータモデル(RPM)に基づく確率的教師なし学習(probabilistic unsupervised learning)への新たなアプローチを提案する。 観測が条件的に独立であるとの前提の下では、rpmは直接「認識」過程をエンコードし、観測対象の事前分布と条件分布の両方をパラメトリライズする。 この認識モデルは、観測された各変数の限界分布の非パラメトリックな記述と組み合わせる。 したがって、焦点は、測定間の依存を捉える優れた潜在表現を学ぶことである。 rpmは、連続観測と潜在者間のマッピングがニューラルネットワークのような柔軟なモデルによって表現されたとしても、離散的潜在者と扱いやすい事前設定で正確な最大確率学習を可能にする。 抽出可能な先行変数を持つ連続潜伏変数の場合の効果的な近似法を開発した。 ヘルムホルツマシンや変分オートエンコーダのような双対パラメトリドモデルで必要とされる近似とは異なり、これらのRPM近似は小さなバイアスしか導入せず、漸近的に消えることがある。 さらに、前兆が難解である場合には、rpmを変分ベイズのような標準確率的手法と効果的に組み合わせることができる。 我々は,MNIST桁の弱教師付き学習形式や,知覚観測による潜在地図の発見など,高次元データ設定でモデルを実証する。 RPMは、動物と人工知能の両方にとって重要な機能である観測データに基づく潜在構造を発見し、表現し、推論する効果的な方法を提供する。

We introduce a new approach to probabilistic unsupervised learning based on the recognition-parametrised model (RPM): a normalised semi-parametric hypothesis class for joint distributions over observed and latent variables. Under the key assumption that observations are conditionally independent given the latents, RPMs directly encode the "recognition" process, parametrising both the prior distribution on the latents and their conditional distributions given observations. This recognition model is paired with non-parametric descriptions of the marginal distribution of each observed variable. Thus, the focus is on learning a good latent representation that captures dependence between the measurements. The RPM permits exact maximum likelihood learning in settings with discrete latents and a tractable prior, even when the mapping between continuous observations and the latents is expressed through a flexible model such as a neural network. We develop effective approximations for the case of continuous latent variables with tractable priors. Unlike the approximations necessary in dual-parametrised models such as Helmholtz machines and variational autoencoders, these RPM approximations introduce only minor bias, which may often vanish asymptotically. Furthermore, where the prior on latents is intractable the RPM may be combined effectively with standard probabilistic techniques such as variational Bayes. We demonstrate the model in high dimensional data settings, including a form of weakly supervised learning on MNIST digits and the discovery of latent maps from sensory observations. The RPM provides an effective way to discover, represent and reason probabilistically about the latent structure underlying observational data, functions which are critical to both animal and artificial intelligence.
翻訳日:2022-09-14 12:22:21 公開日:2022-09-13
# Genie: 新しい、高速で、かつ、外れ値耐性の階層的クラスタリングアルゴリズム

Genie: A new, fast, and outlier-resistant hierarchical clustering algorithm ( http://arxiv.org/abs/2209.05757v1 )

ライセンス: Link先を確認
Marek Gagolewski, Maciej Bartoszuk, Anna Cena(参考訳) 階層的クラスタリングアルゴリズムを適用するのに必要な時間は、しばしばペアの相似性尺度の計算数によって支配される。 このような制約は、より大きなデータセットに対して、従来のリンケージの基準を1つのリンケージの基準以外は使用しないという不利益をもたらす。 しかし、単一のリンケージクラスタリングアルゴリズムは、外れ値に非常に敏感であり、高度に歪んだデンドログラムを生成するため、クラスタが十分に分離されない限り、通常は真の基盤となるデータ構造を反映しないことが知られている。 その限界を克服するために、Genieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。 すなわち,このアルゴリズムは,クラスタサイズの選択された経済不平等尺度(gini-またはbonferroni-index)が与えられたしきい値を超えないように,二つのクラスターをリンクする。 提案するベンチマークは,導入手法の実用性が高いことを示すもので,単一リンクの速度を保ちながら,クラスタリング品質の点でウォードや平均リンケージを上回っていることが多い。 Genieアルゴリズムは容易に並列化可能であり、複数のスレッド上で実行することで実行をさらに高速化することができる。 そのメモリオーバーヘッドは小さく、所望のクラスタリングを得るために計算を実行するために完全な距離行列を事前に計算する必要はない。 これは、例えば、実ベクトル、DNAまたはタンパク質配列、画像、ランキング、インフォメトリデータなど、相似性尺度を備えた任意の空間に適用することができる。 アルゴリズムのリファレンス実装は、rのためのオープンソースの'genie'パッケージに含まれている。 https://genieclust.gagolewski.com for a new implementation (genieclust) -- available for r and python.comを参照。

The time needed to apply a hierarchical clustering algorithm is most often dominated by the number of computations of a pairwise dissimilarity measure. Such a constraint, for larger data sets, puts at a disadvantage the use of all the classical linkage criteria but the single linkage one. However, it is known that the single linkage clustering algorithm is very sensitive to outliers, produces highly skewed dendrograms, and therefore usually does not reflect the true underlying data structure -- unless the clusters are well-separated. To overcome its limitations, we propose a new hierarchical clustering linkage criterion called Genie. Namely, our algorithm links two clusters in such a way that a chosen economic inequity measure (e.g., the Gini- or Bonferroni-index) of the cluster sizes does not drastically increase above a given threshold. The presented benchmarks indicate a high practical usefulness of the introduced method: it most often outperforms the Ward or average linkage in terms of the clustering quality while retaining the single linkage's speed. The Genie algorithm is easily parallelizable and thus may be run on multiple threads to speed up its execution even further. Its memory overhead is small: there is no need to precompute the complete distance matrix to perform the computations in order to obtain a desired clustering. It can be applied on arbitrary spaces equipped with a dissimilarity measure, e.g., on real vectors, DNA or protein sequences, images, rankings, informetric data, etc. A reference implementation of the algorithm has been included in the open source 'genie' package for R. See also https://genieclust.gagolewski.com for a new implementation (genieclust) -- available for both R and Python.
翻訳日:2022-09-14 12:21:56 公開日:2022-09-13
# 非パラメトリックブートストラップによるスペクトルクラスタリングのオーバーフィットに対処する

Addressing overfitting in spectral clustering via a non-parametric bootstrap ( http://arxiv.org/abs/2209.05812v1 )

ライセンス: Link先を確認
Liam Welsh and Phillip Shreeves(参考訳) 有限混合モデリングはクラスタリングの分野では一般的な手法であり、そのソフトクラスタのメンバシップ確率に大きく寄与する。 しかし、有限混合モデルに適合する最も一般的なアルゴリズムであるemアルゴリズムは、多くの問題の原因となっている。 局所最大値に対応する解への収束や高次元の場合のアルゴリズムの高速化といった,有限混合モデルを用いたクラスタリングに悩まされるこれらの問題に対処する。 これはデータ行列のスペクトル分解と非パラメトリックブートストラップサンプリングスキームを組み込んだ2つの新しいアルゴリズムを開発することによって行われる。 シミュレーションはアルゴリズムの有効性を示し、その柔軟性だけでなく、有限混合モデルを推定する他の(ブートストラップ付き)クラスタリングアルゴリズムと比較して、局所最大に対応する解を避ける能力も示している。 我々の新しいアルゴリズムは、通常より一貫性のある収束基準を持ち、有限混合モデルに適合する他のブートストラップアルゴリズムよりも大幅に速度が向上する。

Finite mixture modelling is a popular method in the field of clustering and is beneficial largely due to its soft cluster membership probabilities. However, the most common algorithm for fitting finite mixture models, the EM algorithm, falls victim to a number of issues. We address these issues that plague clustering using finite mixture models, including convergence to solutions corresponding to local maxima and algorithm speed concerns in high dimensional cases. This is done by developing two novel algorithms that incorporate a spectral decomposition of the data matrix and a non-parametric bootstrap sampling scheme. Simulations show the validity of our algorithms and demonstrate not only their flexibility but also their ability to avoid solutions corresponding to local-maxima, when compared to other (bootstrapped) clustering algorithms for estimating finite mixture models. Our novel algorithms have a typically more consistent convergence criteria as well as a significant increase in speed over other bootstrapped algorithms that fit finite mixture models.
翻訳日:2022-09-14 12:21:28 公開日:2022-09-13
# 離散ベクトル場推定に基づく4次元CMRにおける心臓位相検出のための自己制御型モーションディスクリプタ

Self-supervised motion descriptor for cardiac phase detection in 4D CMR based on discrete vector field estimations ( http://arxiv.org/abs/2209.05778v1 )

ライセンス: Link先を確認
Sven Koehler and Tarique Hussain and Hamza Hussain and Daniel Young and Samir Sarikouch and Thomas Pickhardt and Gerald Greil and Sandy Engelhardt(参考訳) 心臓磁気共鳴(cmr)配列は、経時的に心臓機能のボクセルを可視化する。 同時に、ディープラーニングに基づく変形可能な画像登録は、cmrシーケンスの1つの時間ステップを後続に自己教師ありで警告する離散ベクトルフィールドを推定することができる。 しかし、これらの3d+tベクトル領域に含まれる豊富な情報ソースにもかかわらず、標準化された解釈は困難であり、今のところ臨床応用は限られている。 本研究では, 変形可能なベクトル場を効率的に利用し, 導出する1次元運動記述子を用いて心周期の動的過程を記述する方法を示す。 また, 収縮性心室の心血管生理的特性を考慮し, ラベルを使用せずに, エンドシストール (ES) およびエンドシストール (ED) を含む5つの心血管相の同定を可能にする一連の規則を定義した。 我々は, マルチディスリーブ, センター, 走査型短軸CMRデータセットにおけるモーションディスクリプタの妥当性を評価する。 まず,抽出した位相の周期的フレーム差などの定量的指標を報告する。 次に、時間的に再サンプリングし、両方のデータセットにまたがるすべてのインスタンスの動作記述子をアライメントする際に、定性的に一般的なパターンを比較する。 EDの平均周期的フレーム差は$0.80\pm{0.85}$,$0.69\pm{0.79}$で、サーバ間変動($1.07\pm{0.86}$,$0.91\pm{1.6}$)と教師付きベースライン法(1.18\pm{1.91}$, $1.21\pm{1.78}$)より若干優れている。 コードとラベルはGitHubリポジトリで公開されます。 https://github.com/Cardio-AI/cmr-phase-detection

Cardiac magnetic resonance (CMR) sequences visualise the cardiac function voxel-wise over time. Simultaneously, deep learning-based deformable image registration is able to estimate discrete vector fields which warp one time step of a CMR sequence to the following in a self-supervised manner. However, despite the rich source of information included in these 3D+t vector fields, a standardised interpretation is challenging and the clinical applications remain limited so far. In this work, we show how to efficiently use a deformable vector field to describe the underlying dynamic process of a cardiac cycle in form of a derived 1D motion descriptor. Additionally, based on the expected cardiovascular physiological properties of a contracting or relaxing ventricle, we define a set of rules that enables the identification of five cardiovascular phases including the end-systole (ES) and end-diastole (ED) without the usage of labels. We evaluate the plausibility of the motion descriptor on two challenging multi-disease, -center, -scanner short-axis CMR datasets. First, by reporting quantitative measures such as the periodic frame difference for the extracted phases. Second, by comparing qualitatively the general pattern when we temporally resample and align the motion descriptors of all instances across both datasets. The average periodic frame difference for the ED, ES key phases of our approach is $0.80\pm{0.85}$, $0.69\pm{0.79}$ which is slightly better than the inter-observer variability ($1.07\pm{0.86}$, $0.91\pm{1.6}$) and the supervised baseline method ($1.18\pm{1.91}$, $1.21\pm{1.78}$). Code and labels will be made available on our GitHub repository. https://github.com/Cardio-AI/cmr-phase-detection
翻訳日:2022-09-14 12:18:49 公開日:2022-09-13
# SeRP: 摂動点雲を用いた自己教師付き表現学習

SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds ( http://arxiv.org/abs/2209.06067v1 )

ライセンス: Link先を確認
Siddhant Garg, Mudit Chaudhary(参考訳) 本稿では,3次元点雲の自己監督学習のためのフレームワークであるSeRPを紹介する。 serpはエンコーダ/デコーダアーキテクチャで構成されており、乱れや破損したポイントクラウドを入力として、腐敗することなく元のポイントクラウドを再構築することを目指している。 エンコーダは、低次元部分空間における点雲の高レベル潜在表現を学習し、元の構造を復元する。 この作業では、TransformerとPointNetベースのAutoencodersを使用しました。 また,提案手法は,位置情報の漏洩や不均一な情報密度につながるトランスフォーマ・マスク・オートエンコーダの限界にも対処している。 完全なShapeNetデータセットでモデルをトレーニングし、下流分類タスクとしてModelNet40でそれらを評価しました。 事前学習したモデルでは,スクラッチからトレーニングしたネットワークよりも0.5-1%高い分類精度が得られた。 さらに,点群に対する自己教師付き表現学習のためのベクトル量子化オートエンコーダ (vector-quantized autoencoder) を提案する。

We present SeRP, a framework for Self-Supervised Learning of 3D point clouds. SeRP consists of encoder-decoder architecture that takes perturbed or corrupted point clouds as inputs and aims to reconstruct the original point cloud without corruption. The encoder learns the high-level latent representations of the points clouds in a low-dimensional subspace and recovers the original structure. In this work, we have used Transformers and PointNet-based Autoencoders. The proposed framework also addresses some of the limitations of Transformers-based Masked Autoencoders which are prone to leakage of location information and uneven information density. We trained our models on the complete ShapeNet dataset and evaluated them on ModelNet40 as a downstream classification task. We have shown that the pretrained models achieved 0.5-1% higher classification accuracies than the networks trained from scratch. Furthermore, we also proposed VASP: Vector-Quantized Autoencoder for Self-supervised Representation Learning for Point Clouds that employs Vector-Quantization for discrete representation learning for Transformer-based autoencoders.
翻訳日:2022-09-14 12:18:08 公開日:2022-09-13
# Robin: 静的ブレッドスとスケールの新しいオンライン自殺テキストコーパス

Robin: A Novel Online Suicidal Text Corpus of Substantial Breadth and Scale ( http://arxiv.org/abs/2209.05707v1 )

ライセンス: Link先を確認
Daniel DiPietro, Vivek Hazari, Soroush Vosoughi(参考訳) 自殺は主要な公衆衛生危機である。 毎年2万人以上の自殺未遂があり、自殺の意図を早期に検出することで数十万人の命を救える可能性がある。 伝統的なメンタルヘルススクリーニング手法は、時間を要するものであり、コストがかかり、しばしば不利な人口にアクセスできない。 ここでは、これまでで最大の非キーワード生成自殺コーパスであるRobinを紹介します。 前例のない大きさの他に、ロビンは自殺の遺書やフリップパント参照などの自殺のテキストの様々なカテゴリを含むように特別に構築されており、ロビンで訓練されたモデルは自殺の考えを表すテキストの微妙なニュアンスを学ぶことができる。 実験により,ロジスティック回帰 (F1=0.85) のような従来の手法とBERT (F1=0.92) のような大規模事前訓練された言語モデルの両方で,自殺テキストの分類における最先端の性能が得られた。 最後に、次世代の自殺感情研究を推進する可能性を持つマシンラーニングリソースとして、Robinデータセットを公開しています。

Suicide is a major public health crisis. With more than 20,000,000 suicide attempts each year, the early detection of suicidal intent has the potential to save hundreds of thousands of lives. Traditional mental health screening methods are time-consuming, costly, and often inaccessible to disadvantaged populations; online detection of suicidal intent using machine learning offers a viable alternative. Here we present Robin, the largest non-keyword generated suicidal corpus to date, consisting of over 1.1 million online forum postings. In addition to its unprecedented size, Robin is specially constructed to include various categories of suicidal text, such as suicide bereavement and flippant references, better enabling models trained on Robin to learn the subtle nuances of text expressing suicidal ideation. Experimental results achieve state-of-the-art performance for the classification of suicidal text, both with traditional methods like logistic regression (F1=0.85), as well as with large-scale pre-trained language models like BERT (F1=0.92). Finally, we release the Robin dataset publicly as a machine learning resource with the potential to drive the next generation of suicidal sentiment research.
翻訳日:2022-09-14 12:17:51 公開日:2022-09-13
# Dual Discriminator Generative Adversarial Networks を用いたJPEG圧縮領域における文書画像のバイナリ化

Document Image Binarization in JPEG Compressed Domain using Dual Discriminator Generative Adversarial Networks ( http://arxiv.org/abs/2209.05921v1 )

ライセンス: Link先を確認
Bulla Rajesh and Manav Kamlesh Agrawal and Milan Bhuva and Kisalaya Kishore and Mohammed Javed(参考訳) 画像バイナライゼーション技術は、単語スポッティング、文書検索、OCRといった異なる文書画像アンレイシス(DIA)アプリケーションに対応するノイズや劣化画像の強化に広く用いられている。 既存の技術のほとんどは、文書のバイナライゼーションを達成するために、コンボリューションニューラルネットワークにピクセル画像を送り込むことに重点を置いている。 そこで本研究では,文書画像のJPEG圧縮ストリームを用いた文書画像バイナライゼーションのアイデアを,Dual Discriminator Generative Adversarial Networks (DD-GANs) を用いて提案する。 ここでは、グローバルとローカルの2つの識別ネットワーク - 異なる画像比で作業し、焦点損失をジェネレータ損失として使用する。 提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。 モデルは非常に堅牢で、時間と空間の複雑さの両方において効率が良く、jpeg圧縮領域で最先端のパフォーマンスが得られた。

Image binarization techniques are being popularly used in enhancement of noisy and/or degraded images catering different Document Image Anlaysis (DIA) applications like word spotting, document retrieval, and OCR. Most of the existing techniques focus on feeding pixel images into the Convolution Neural Networks to accomplish document binarization, which may not produce effective results when working with compressed images that need to be processed without full decompression. Therefore in this research paper, the idea of document image binarization directly using JPEG compressed stream of document images is proposed by employing Dual Discriminator Generative Adversarial Networks (DD-GANs). Here the two discriminator networks - Global and Local work on different image ratios and use focal loss as generator loss. The proposed model has been thoroughly tested with different versions of DIBCO dataset having challenges like holes, erased or smudged ink, dust, and misplaced fibres. The model proved to be highly robust, efficient both in terms of time and space complexities, and also resulted in state-of-the-art performance in JPEG compressed domain.
翻訳日:2022-09-14 12:12:08 公開日:2022-09-13
# セマンティクスセグメンテーションにおける敵対的パッチ攻撃に対する認定防御

Certified Defences Against Adversarial Patch Attacks on Semantic Segmentation ( http://arxiv.org/abs/2209.05980v1 )

ライセンス: Link先を確認
Maksym Yatsura, Kaspar Sakmann, N. Grace Hua, Matthias Hein and Jan Hendrik Metzen(参考訳) 敵対的パッチ攻撃は、現実世界のディープラーニングアプリケーションにとって新たなセキュリティ脅威だ。 私たちは、この脅威モデルに対するセマンティックセグメンテーションモデルの堅牢性を証明する最初のアプローチであるDemasked Smoothingを紹介します。 パッチ攻撃に対する認証可能な防御に関する以前の作業は、主に画像分類タスクに焦点を当てており、しばしばモデルアーキテクチャの変更と、望ましくない計算コストの高い追加トレーニングを必要としている。 Demasked Smoothingでは、特定のトレーニング、微調整、アーキテクチャの制限なしにセグメンテーションモデルを適用することができる。 Demasked Smoothingは、さまざまなマスキング戦略を使用して、認証検出と認定回復の両方に適用することができる。 広範な実験により,ade20kデータセットの復元タスクに対する0.5%のパッチに対して,検出タスクの1%のパッチに対するピクセル予測の64%を平均で証明できることがわかった。

Adversarial patch attacks are an emerging security threat for real world deep learning applications. We present Demasked Smoothing, the first approach (up to our knowledge) to certify the robustness of semantic segmentation models against this threat model. Previous work on certifiably defending against patch attacks has mostly focused on image classification task and often required changes in the model architecture and additional training which is undesirable and computationally expensive. In Demasked Smoothing, any segmentation model can be applied without particular training, fine-tuning, or restriction of the architecture. Using different masking strategies, Demasked Smoothing can be applied both for certified detection and certified recovery. In extensive experiments we show that Demasked Smoothing can on average certify 64% of the pixel predictions for a 1% patch in the detection task and 48% against a 0.5% patch for the recovery task on the ADE20K dataset.
翻訳日:2022-09-14 12:11:46 公開日:2022-09-13
# 変分因果推論

Variational Causal Inference ( http://arxiv.org/abs/2209.05935v1 )

ライセンス: Link先を確認
Yulun Wu, Layne C. Price, Zichen Wang, Vassilis N. Ioannidis, George Karypis(参考訳) 反事実的治療下での個人の潜在的成果を推定することは、結果が高次元である場合(例えば、遺伝子発現、インパルス応答、人間の顔)に伝統的な因果推論や教師付き学習アプローチにとって難しい課題である。 この場合、反事実的治療の下で結果を構築するためには、観察された事実的結果に含まれる個々の情報を活用することが重要である。 本稿では,2つの主要な情報ソースを反事実的処理下で厳密に統合する深変動ベイズフレームワークを提案する。1つのソースは,高次元の事実的結果に埋め込まれた個々の特徴であり,もう1つのソースは,実際にこの関心の扱いを受けた類似の主題(同一の共変量を持つ主観)の応答分布である。

Estimating an individual's potential outcomes under counterfactual treatments is a challenging task for traditional causal inference and supervised learning approaches when the outcome is high-dimensional (e.g. gene expressions, impulse responses, human faces) and covariates are relatively limited. In this case, to construct one's outcome under a counterfactual treatment, it is crucial to leverage individual information contained in its observed factual outcome on top of the covariates. We propose a deep variational Bayesian framework that rigorously integrates two main sources of information for outcome construction under a counterfactual treatment: one source is the individual features embedded in the high-dimensional factual outcome; the other source is the response distribution of similar subjects (subjects with the same covariates) that factually received this treatment of interest.
翻訳日:2022-09-14 12:11:16 公開日:2022-09-13
# SkIn:BERTに基づくスキー集中型長文分類と医療コーパスへの応用

SkIn: Skimming-Intensive Long-Text Classification Based on BERT and Application to Medical Corpus ( http://arxiv.org/abs/2209.05741v1 )

ライセンス: Link先を確認
Yufeng Zhao, Haiying Che(参考訳) BERTは自然言語処理において広く使われている事前訓練モデルである。 しかしながら、その時間と空間の要求はテキスト長の2次レベルで増加するため、bertモデルは長文コーパスで直接使用するのが困難である。 収集されたテキストデータは通常、医療などいくつかの分野でかなり長い。 そこで本論文では,長い段落を読む際にヒトが用いたスイミング集約読解法を模倣して,BERTの事前学習言語知識を長文に適用するために,SkIn(Skimming-Intensive Model)を提案する。 BERT-Baseモデルへの入力の長さが大幅に削減され、分類アルゴリズムのコストを効果的に削減できるように、テキスト内の臨界情報を動的に選択することができる。 スキン法は医学分野における長文分類データセットのベースラインよりも優れた結果を得たが、その時間と空間の要求は長文データ上のbertの時間と空間のオーバーフロー問題を軽減するために、テキスト長と線形に増加する。

BERT is a widely used pre-trained model in natural language processing. However, because its time and space requirements increase with a quadratic level of the text length, the BERT model is difficult to use directly on the long-text corpus. The collected text data is usually quite long in some fields, such as health care. Therefore, to apply the pre-trained language knowledge of BERT to long text, in this paper, imitating the skimming-intensive reading method used by humans when reading a long paragraph, the Skimming-Intensive Model (SkIn) is proposed. It can dynamically select the critical information in the text so that the length of the input into the BERT-Base model is significantly reduced, which can effectively save the cost of the classification algorithm. Experiments show that the SkIn method has achieved better results than the baselines on long-text classification datasets in the medical field, while its time and space requirements increase linearly with the text length, alleviating the time and space overflow problem of BERT on long-text data.
翻訳日:2022-09-14 12:10:59 公開日:2022-09-13
# Visual Recipe Flow: 準備フローによるオブジェクトの状態変化を学習するためのデータセット

Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows ( http://arxiv.org/abs/2209.05840v1 )

ライセンス: Link先を確認
Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku, Shinsuke Mori(参考訳) 我々は、レシピテキストでそれぞれの調理行動結果を学ぶことができるVisual Recipe Flowと呼ばれる新しいマルチモーダルデータセットを提案する。 データセットはオブジェクトの状態変化とレシピテキストのワークフローで構成される。 状態変化はイメージペアとして表現され、ワークフローはレシピフローグラフ(r-FG)として表現される。 画像ペアはr-fgで接地され、交叉モーダル関係を提供する。 私たちのデータセットでは、マルチモーダルコモンセンス推論や手続きテキスト生成など、さまざまなアプリケーションを試すことができます。

We present a new multimodal dataset called Visual Recipe Flow, which enables us to learn each cooking action result in a recipe text. The dataset consists of object state changes and the workflow of the recipe text. The state change is represented as an image pair, while the workflow is represented as a recipe flow graph (r-FG). The image pairs are grounded in the r-FG, which provides the cross-modal relation. With our dataset, one can try a range of applications, from multimodal commonsense reasoning and procedural text generation.
翻訳日:2022-09-14 12:10:39 公開日:2022-09-13
# 最後のレイヤで言語モデルを判断しない:レイヤワイズアテンションプールによる対照的な学習

Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling ( http://arxiv.org/abs/2209.05972v1 )

ライセンス: Link先を確認
Dongsuk Oh, Yejin Kim, Hodong Lee, H. Howie Huang and Heuiseok Lim(参考訳) 近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。 PLMの積み重ね層でキャプチャされた属性は明確に識別されないため、PLMから文表現を導出するためには、最終層を埋め込むといった簡単なアプローチが好まれる。 本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。 対照的な学習目的は、階層的な注意プールを教師なしと教師なしの両方に適応させることができる。 その結果、事前訓練された埋め込みの異方性空間を正則化し、より均一となる。 我々は,標準的な意味的テキスト類似性(STS)と意味的検索タスクのモデルを評価する。 その結果,提案手法は,学習したBERT_baseと変種の性能を改善した。

Recent pre-trained language models (PLMs) achieved great success on many natural language processing tasks through learning linguistic features and contextualized sentence representation. Since attributes captured in stacked layers of PLMs are not clearly identified, straightforward approaches such as embedding the last layer are commonly preferred to derive sentence representations from PLMs. This paper introduces the attention-based pooling strategy, which enables the model to preserve layer-wise signals captured in each layer and learn digested linguistic features for downstream tasks. The contrastive learning objective can adapt the layer-wise attention pooling to both unsupervised and supervised manners. It results in regularizing the anisotropic space of pre-trained embeddings and being more uniform. We evaluate our model on standard semantic textual similarity (STS) and semantic search tasks. As a result, our method improved the performance of the base contrastive learned BERT_base and variants.
翻訳日:2022-09-14 12:10:30 公開日:2022-09-13
# オーストラリアにおけるサプライチェーンの異なる段階における小麦品質評価のためのハイパースペクトルイメージングの利用指針

A Guide to Employ Hyperspectral Imaging for Assessing Wheat Quality at Different Stages of Supply Chain in Australia: A Review ( http://arxiv.org/abs/2209.05727v1 )

ライセンス: Link先を確認
Priyabrata Karmakar, Shyh Wei Teng. Manzur Murshed, Paul Pang, Cuong Van Bui(参考訳) 小麦は世界中の主要作物の1つである。 そのため、人的消費の小麦品質を計測、維持、改善することが義務付けられている。 伝統的な小麦の品質測定方法はほとんどが侵略的であり、破壊的であり、小麦の小さなサンプルに限られている。 小麦の典型的なサプライチェーンでは、バルク小麦が到着し、貯蔵され、要求に従って転送される、多くの繰り返し点がある。 この点において、従来の品質測定手法の適用は困難であり、しばしば非常に高価である。 そのため,小麦の品質評価には非侵襲的,非破壊的リアルタイム手法が必要である。 上記の基準を満たす方法の1つは、食品品質測定のためのハイパースペクトルイメージング(HSI)であり、バルク試料にも適用することができる。 本研究では, 貯蔵小麦の品質評価のための文献としてHSIを用いた方法について検討した。 そのため、オーストラリアのサプライチェーンの異なる段階におけるリアルタイムデジタル品質評価手法を実装するために必要な情報は、単一かつコンパクトな文書で利用できる。

Wheat is one of the major staple crops across the globe. Therefore, it is mandatory to measure, maintain and improve the wheat quality for human consumption. Traditional wheat quality measurement methods are mostly invasive, destructive and limited to small samples of wheat. In a typical supply chain of wheat, there are many receival points where bulk wheat arrives, gets stored and forwarded as per the requirements. In this receival points, the application of traditional quality measurement methods is difficult and often very expensive. Therefore, there is a need for non-invasive, non-destructive real-time methods for wheat quality assessments. One such method that fulfils the above-mentioned criteria is hyperspectral imaging (HSI) for food quality measurement and it can also be applied to bulk samples. In this paper, we have investigated how HSI has been used in the literature for assessing stored wheat quality. So that the required information to implement real-time digital quality assessment methods at the different stages of Australian supply chain can be made available in a single and compact document.
翻訳日:2022-09-14 12:09:44 公開日:2022-09-13
# StoryDALL-E: 事前学習したテキスト・画像変換器をストーリー継続に適用する

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation ( http://arxiv.org/abs/2209.06192v1 )

ライセンス: Link先を確認
Adyasha Maharana, Darryl Hannan, and Mohit Bansal(参考訳) テキストから画像への合成の最近の進歩は、与えられたテキストから可視化を生成できる優れた能力を持つ、大きな事前学習されたトランスフォーマーを生み出した。 しかし、これらのモデルはストーリーの可視化のような専門的なタスクには不向きであり、エージェントは対応するキャプションのシーケンスを与えられた画像のシーケンスを作成し、物語を形成する必要がある。 さらに,物語の可視化作業は,新たな物語における未知のプロットやキャラクタへの一般化に適さないことがわかった。 そこで我々はまず,生成した視覚的ストーリをソースイメージに条件付けすることで,新たなキャラクタを持つ物語をより一般化する,ストーリー継続作業を提案する。 次に,事前学習されたテキストから画像への合成モデルをタスク固有のモジュールで拡張または「適合」する。 (a)シーケンシャルな画像生成と (b)初期フレームから関連要素をコピーすること。 そこで,本研究では,事前学習モデルのパラメータ効率適応のためのプロンプトベースチューニングとともに,フルモデルファインタニングについて検討する。 我々は,既存の2つのデータセットである PororoSV と FlintstonesSV に対して StoryDALL-E のアプローチを評価し,ビデオキャプションデータセットから収集した新しいデータセット DiDeMoSV を導入する。 また、ストーリー継続のためのGAN(Generative Adversarial Networks)に基づくStoryGANcモデルも開発し、StoryDALL-Eモデルと比較して、我々のアプローチの利点を実証する。 提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からのビジュアル要素のコピーを容易にし, 生成したビジュアルストーリーの連続性を向上させる。 最後に,事前学習したトランスフォーマーは,複数の文字を含む物語を理解するのに苦労していることを示す。 全体としては、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを示す。

Recent advances in text-to-image synthesis have led to large pretrained transformers with excellent capabilities to generate visualizations from a given text. However, these models are ill-suited for specialized tasks like story visualization, which requires an agent to produce a sequence of images given a corresponding sequence of captions, forming a narrative. Moreover, we find that the story visualization task fails to accommodate generalization to unseen plots and characters in new narratives. Hence, we first propose the task of story continuation, where the generated visual story is conditioned on a source image, allowing for better generalization to narratives with new characters. Then, we enhance or 'retro-fit' the pretrained text-to-image synthesis models with task-specific modules for (a) sequential image generation and (b) copying relevant elements from an initial frame. Then, we explore full-model finetuning, as well as prompt-based tuning for parameter-efficient adaptation, of the pre-trained model. We evaluate our approach StoryDALL-E on two existing datasets, PororoSV and FlintstonesSV, and introduce a new dataset DiDeMoSV collected from a video-captioning dataset. We also develop a model StoryGANc based on Generative Adversarial Networks (GAN) for story continuation, and compare it with the StoryDALL-E model to demonstrate the advantages of our approach. We show that our retro-fitting approach outperforms GAN-based models for story continuation and facilitates copying of visual elements from the source image, thereby improving continuity in the generated visual story. Finally, our analysis suggests that pretrained transformers struggle to comprehend narratives containing several characters. Overall, our work demonstrates that pretrained text-to-image synthesis models can be adapted for complex and low-resource tasks like story continuation.
翻訳日:2022-09-14 12:05:47 公開日:2022-09-13
# インド法典の事前学習用トランスフォーマー

Pre-training Transformers on Indian Legal Text ( http://arxiv.org/abs/2209.06049v1 )

ライセンス: Link先を確認
Shounak Paul, Arpan Mandal, Pawan Goyal and Saptarshi Ghosh(参考訳) 法律分野における自然言語処理は、トランスフォーマーベースの事前訓練言語モデル(PLM)の出現によって大きな恩恵を受けた。 PLMはヨーロッパやアメリカの法律文書、特にLegalBERTで訓練されている。 しかし、インドの法律文書に対するnlp申請が急速に増加しており、インドの法律文書の特徴を区別するようになり、インドの法律文書に対するlmsの事前訓練も必要になった。 本稿では,インドの法律文書の大規模なコーパス上で事前学習されたトランスフォーマーベースのplmを紹介する。 また、これらのplmを、インドの法律文書、すなわち、事実からの法定法定識別、裁判所判決のセマンティックセグメンテーション、および裁判所判断予測に対するいくつかのベンチマーク法定nlpタスクに適用する。 本研究で開発されたインド固有のPLMの有用性を実証した。

Natural Language Processing in the legal domain been benefited hugely by the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. There exist PLMs trained over European and US legal text, most notably LegalBERT. However, with the rapidly increasing volume of NLP applications on Indian legal documents, and the distinguishing characteristics of Indian legal text, it has become necessary to pre-train LMs over Indian legal text as well. In this work, we introduce transformer-based PLMs pre-trained over a large corpus of Indian legal documents. We also apply these PLMs over several benchmark legal NLP tasks over Indian legal documents, namely, Legal Statute Identification from facts, Semantic segmentation of court judgements, and Court Judgement Prediction. Our experiments demonstrate the utility of the India-specific PLMs developed in this work.
翻訳日:2022-09-14 12:05:16 公開日:2022-09-13
# 合成データジェネレータによるバイアスの調査--実証的エビデンスと哲学的解釈

Investigating Bias with a Synthetic Data Generator: Empirical Evidence and Philosophical Interpretation ( http://arxiv.org/abs/2209.05889v1 )

ライセンス: Link先を確認
Alessandro Castelnovo, Riccardo Crupi, Nicole Inverardi, Daniele Regoli, Andrea Cosentini(参考訳) 機械学習の応用は、私たちの社会でますます広まりつつある。 これらの意思決定システムはデータ駆動学習に依存しているため、データに埋め込まれたバイアスを体系的に分散するリスクがある。 本稿では,特定の種類のバイアスとそれらの組み合わせを持つ合成データを生成する枠組みを導入することにより,バイアスの分析を行う。 道徳と正義の枠組みとの関係を議論するこれらのバイアスの性質を掘り下げる。 最後に,提案する合成データ生成装置を用いて,様々なバイアスの組み合わせを用いて異なるシナリオで実験を行う。 これにより、非緩和機械学習モデルと緩和機械学習モデルの両方において、バイアスがパフォーマンスおよび公正度指標に与える影響を分析する。

Machine learning applications are becoming increasingly pervasive in our society. Since these decision-making systems rely on data-driven learning, risk is that they will systematically spread the bias embedded in data. In this paper, we propose to analyze biases by introducing a framework for generating synthetic data with specific types of bias and their combinations. We delve into the nature of these biases discussing their relationship to moral and justice frameworks. Finally, we exploit our proposed synthetic data generator to perform experiments on different scenarios, with various bias combinations. We thus analyze the impact of biases on performance and fairness metrics both in non-mitigated and mitigated machine learning models.
翻訳日:2022-09-14 12:05:04 公開日:2022-09-13
# 識別的画像パッチによる初期化時のワンショットネットワークプルーニング

One-shot Network Pruning at Initialization with Discriminative Image Patches ( http://arxiv.org/abs/2209.05683v1 )

ライセンス: Link先を確認
Yinan Yang, Ying Ji, Yu Wang, Heng Qi, Jien Kato(参考訳) One-shot Network Pruning at Initialization (OPaI) は、ネットワークプルーニングコストを削減する効果的な方法である。 近年、OPaIではデータが不要であるという信仰が高まっている。 しかし, SNIP と GraSP の2つの代表的な OPaI 法におけるアブレーション実験により, 逆の結論を得た。 具体的には,報知データが刈り取り性能の向上に不可欠であることが判明した。 本稿では,高レベルの視覚識別画像パッチを用いてネットワークをpruneする2つの手法,dop(discriminative one-shot network pruning)とsuper stitchingを提案する。 私たちの貢献は以下の通りです。 1)OPaIはデータ依存であることが明らかとなった。 2)super stitchingはベンチマークイメージネットのopai法に比べて,特に高圧縮モデルにおいて有意に優れた性能を示す。

One-shot Network Pruning at Initialization (OPaI) is an effective method to decrease network pruning costs. Recently, there is a growing belief that data is unnecessary in OPaI. However, we obtain an opposite conclusion by ablation experiments in two representative OPaI methods, SNIP and GraSP. Specifically, we find that informative data is crucial to enhancing pruning performance. In this paper, we propose two novel methods, Discriminative One-shot Network Pruning (DOP) and Super Stitching, to prune the network by high-level visual discriminative image patches. Our contributions are as follows. (1) Extensive experiments reveal that OPaI is data-dependent. (2) Super Stitching performs significantly better than the original OPaI method on benchmark ImageNet, especially in a highly compressed model.
翻訳日:2022-09-14 12:04:19 公開日:2022-09-13
# 主成分分析によるテスト時間適応

Test-Time Adaptation with Principal Component Analysis ( http://arxiv.org/abs/2209.05779v1 )

ライセンス: Link先を確認
Thomas Cordier and Victor Bouvier and Gilles H\'enaff and C\'eline Hudelot(参考訳) 機械学習モデルは、テストデータがトレーニングデータと異なる場合に失敗する傾向にあり、分散シフトとして知られる実際のアプリケーションでよく発生する状況である。 まだ有効ではあるが、トレーニング時の知識はより効果的になり、高いパフォーマンスを維持するためにはテスト時の適応が必要である。 バッチノーム層を仮定し,それらの統計値を用いて適応する手法に従えば,PCAの適合性を推定し,PCAの特異値に基づくスペクトルフィルタを試験時に適応し,破損に対する堅牢性を示すTTAwPCA(Test-Time Adaptation with principal Component Analysis)を提案する。 TTAwPCAは、与えられた層の出力を主成分分析(PCA)を用いて分解し、その特異値のペナル化によってフィルタし、PCA逆変換で再構成する。 このジェネリック拡張は現在のメソッドよりもパラメータを少なくする。 CIFAR-10-C と CIFAR-100-C の実験は,2000 パラメータのユニークなフィルタを用いて,本手法の有効性と限界を示す。

Machine Learning models are prone to fail when test data are different from training data, a situation often encountered in real applications known as distribution shift. While still valid, the training-time knowledge becomes less effective, requiring a test-time adaptation to maintain high performance. Following approaches that assume batch-norm layer and use their statistics for adaptation, we propose a Test-Time Adaptation with Principal Component Analysis (TTAwPCA), which presumes a fitted PCA and adapts at test time a spectral filter based on the singular values of the PCA for robustness to corruptions. TTAwPCA combines three components: the output of a given layer is decomposed using a Principal Component Analysis (PCA), filtered by a penalization of its singular values, and reconstructed with the PCA inverse transform. This generic enhancement adds fewer parameters than current methods. Experiments on CIFAR-10-C and CIFAR- 100-C demonstrate the effectiveness and limits of our method using a unique filter of 2000 parameters.
翻訳日:2022-09-14 12:04:07 公開日:2022-09-13
# sancl: 選択的注意と自然コントラスト学習によるマルチモーダルレビュー支援性予測

SANCL: Multimodal Review Helpfulness Prediction with Selective Attention and Natural Contrastive Learning ( http://arxiv.org/abs/2209.05040v2 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Zhen Hai, Soujanya Poria, Lidong Bing(参考訳) 電子商取引のブームに伴い、製品レビューを予測された有用度スコアに従ってソートすることを目的としたMRHP(Multimodal Review Helpfulness Prediction)が研究ホットスポットとなっている。 このタスクに関する以前の仕事は、注意に基づくモダリティ融合、情報統合、関係モデリングに焦点を当てている。 1) モデルは,無差別な注意定式化のために本質的な情報を把握できない場合がある。 2) 提供データ間の相関を最大限に活用する適切なモデリング手法が欠如している。 本稿では,MRHPのためのSANCL: Selective Attention and Natural Contrastive Learningを提案する。 SANCLは、より重要な領域に高い注意重みを強制するためのプローブベースの戦略を採用している。 また、データセット内の自然マッチングプロパティに基づいたコントラスト学習フレームワークも構築している。 3つのカテゴリを持つ2つのベンチマークデータセットの実験結果から、SANCLはメモリ消費を抑えながら最先端のベースライン性能を達成することが示された。

With the boom of e-commerce, Multimodal Review Helpfulness Prediction (MRHP), which aims to sort product reviews according to the predicted helpfulness scores has become a research hotspot. Previous work on this task focuses on attention-based modality fusion, information integration, and relation modeling, which primarily exposes the following drawbacks: 1) the model may fail to capture the really essential information due to its indiscriminate attention formulation; 2) lack appropriate modeling methods that take full advantage of correlation among provided data. In this paper, we propose SANCL: Selective Attention and Natural Contrastive Learning for MRHP. SANCL adopts a probe-based strategy to enforce high attention weights on the regions of greater significance. It also constructs a contrastive learning framework based on natural matching properties in the dataset. Experimental results on two benchmark datasets with three categories show that SANCL achieves state-of-the-art baseline performance with lower memory consumption.
翻訳日:2022-09-14 10:29:06 公開日:2022-09-13
# 行動の前に聞く - 質問による新しい環境への一般化

Ask Before You Act: Generalising to Novel Environments by Asking Questions ( http://arxiv.org/abs/2209.04665v2 )

ライセンス: Link先を確認
Ross Murphy, Sergey Mosesov, Javier Leguina Peral, Thymo ter Doest(参考訳) 時間拡張タスクを解くことは、ほとんどの強化学習(RL)アルゴリズム [arXiv:1906.07343] の課題である。 本稿では,自然言語質問を学習するrlエージェントの環境理解ツールとしての能力について検討し,新たな時間的拡張環境における一般化性能の向上について検討する。 私たちは、このエージェントに"yes-no"の質問を全知のオラクルに依頼することで、これを行います。 これによりエージェントは、新しい情報へのアクセスを制限しながら、手元のタスクに関するガイダンスを得ることができる。 時間的拡張タスクの文脈におけるこのような自然言語質問の出現を研究するために,まずミニグリッド環境でエージェントを訓練する。 そして、訓練されたエージェントを別のより難しい環境に移します。 質問できないベースラインエージェントと比較して,一般化性能は著しく向上している。 エージェントは、その環境における自然言語の理解を基盤として、その環境のダイナミクスを推論し、新しい環境に配備されたときに、新しい、関連する質問をすることができる。

Solving temporally-extended tasks is a challenge for most reinforcement learning (RL) algorithms [arXiv:1906.07343]. We investigate the ability of an RL agent to learn to ask natural language questions as a tool to understand its environment and achieve greater generalisation performance in novel, temporally-extended environments. We do this by endowing this agent with the ability of asking "yes-no" questions to an all-knowing Oracle. This allows the agent to obtain guidance regarding the task at hand, while limiting the access to new information. To study the emergence of such natural language questions in the context of temporally-extended tasks we first train our agent in a Mini-Grid environment. We then transfer the trained agent to a different, harder environment. We observe a significant increase in generalisation performance compared to a baseline agent unable to ask questions. Through grounding its understanding of natural language in its environment, the agent can reason about the dynamics of its environment to the point that it can ask new, relevant questions when deployed in a novel environment.
翻訳日:2022-09-14 10:28:48 公開日:2022-09-13
# ApproxTrain: DNNトレーニングと推論のための近似乗算器の高速シミュレーション

ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training and Inference ( http://arxiv.org/abs/2209.04161v2 )

ライセンス: Link先を確認
Jing Gong, Hassaan Saadat, Hasindu Gamaarachchi, Haris Javaid, Xiaobo Sharon Hu, Sri Parameswaran(参考訳) Deep Neural Networks(DNN)のエッジトレーニングは、継続的学習の望ましい目標であるが、トレーニングに必要な膨大な計算能力によって妨げられている。 ハードウェア近似乗算器は、dnn推論加速器の資源効率を向上させる効果を示しているが、近似乗算器を用いたトレーニングはほとんど未検討である。 DNN訓練を支援する近似乗算器を備えた資源効率の高い加速器を構築するには、異なるDNNアーキテクチャと異なる近似乗算器の訓練収束度と精度を徹底的に評価する必要がある。 本稿では,シミュレーション近似乗算器を用いたdnnトレーニングと推論の高速評価を可能にする,オープンソースのフレームワークであるapproxtrainを提案する。 ApproxTrainはTensorFlow(TF)と同じくらいユーザフレンドリで、近似乗算器のC/C++関数モデルとともに、DNNアーキテクチャの高レベルな記述のみを必要とする。 本稿では,新しいlutベース近似浮動小数点(fp)乗算シミュレータ(amsim)を用いて,乗算レベルでのシミュレーションの高速化を行う。 ApproxTrainはCUDAを活用して、商用GPUにおけるネイティブハードウェア近似乗算器の欠如を克服するため、AMSimをTensorFlowライブラリに効率的に統合する。 我々はApproxTrainを用いて、LeNetsとResNetsアーキテクチャを用いて、小規模および大規模データセット(ImageNetを含む)の近似乗算器を用いてDNNトレーニングの収束と精度を評価する。 その結果, FP32およびbfloat16乗算器と比較して, 同様の収束挙動とテスト精度の変化が認められた。 トレーニングと推論におけるCPUベースの近似乗算器シミュレーションと比較すると、GPUアクセラレーションされたApproxTrainは2500倍以上高速である。 ネイティブハードウェア乗算器を備えた高度に最適化されたクローズドソースのcuDNN/cuBLASライブラリをベースとして、オリジナルのTensorFlowは、ApproxTrainの8倍高速である。

Edge training of Deep Neural Networks (DNNs) is a desirable goal for continuous learning; however, it is hindered by the enormous computational power required by training. Hardware approximate multipliers have shown their effectiveness for gaining resource-efficiency in DNN inference accelerators; however, training with approximate multipliers is largely unexplored. To build resource efficient accelerators with approximate multipliers supporting DNN training, a thorough evaluation of training convergence and accuracy for different DNN architectures and different approximate multipliers is needed. This paper presents ApproxTrain, an open-source framework that allows fast evaluation of DNN training and inference using simulated approximate multipliers. ApproxTrain is as user-friendly as TensorFlow (TF) and requires only a high-level description of a DNN architecture along with C/C++ functional models of the approximate multiplier. We improve the speed of the simulation at the multiplier level by using a novel LUT-based approximate floating-point (FP) multiplier simulator on GPU (AMSim). ApproxTrain leverages CUDA and efficiently integrates AMSim into the TensorFlow library, in order to overcome the absence of native hardware approximate multiplier in commercial GPUs. We use ApproxTrain to evaluate the convergence and accuracy of DNN training with approximate multipliers for small and large datasets (including ImageNet) using LeNets and ResNets architectures. The evaluations demonstrate similar convergence behavior and negligible change in test accuracy compared to FP32 and bfloat16 multipliers. Compared to CPU-based approximate multiplier simulations in training and inference, the GPU-accelerated ApproxTrain is more than 2500x faster. Based on highly optimized closed-source cuDNN/cuBLAS libraries with native hardware multipliers, the original TensorFlow is only 8x faster than ApproxTrain.
翻訳日:2022-09-14 10:28:33 公開日:2022-09-13
# 新型コロナウイルス関連健康政策のための逆学習型スタンス分類器

Adversarial Learning-based Stance Classifier for COVID-19-related Health Policies ( http://arxiv.org/abs/2209.04631v2 )

ライセンス: Link先を確認
Feng Xie, Zhong Zhang, Xuechen Zhao, Jiaying Zou, Bin Zhou, Yusong Tan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の人々に不測の損失をもたらしている。 感染拡大を封じ込め、さらに危機を緩和するため、様々な健康政策(在宅勤務の指示など)が発行され、ユーザーがソーシャルメディア上で態度を共有するようになると熱い議論が巻き起こった。 本稿では、パンデミックに対するスタンス検出(クロスターゲット、ゼロショット設定)のより現実的なシナリオを考察し、新型コロナウイルス関連健康政策に対する公衆の態度を自動的に識別する対人学習に基づくスタンス分類器を提案する。 具体的には、モデルが大量のラベル付きデータをトレーニングし、ソーストピックから伝達可能な知識をキャプチャして、スパースラベル付きデータによる新興健康政策への一般化を可能にする逆学習を採用する。 一方、GeoEncoderは、各領域で指定された観測されていないコンテキスト要素を学習し、それを非テキスト情報として表現し、モデルの深い理解を高めるモデルである。 新型コロナウイルス関連政策のスタンス検出タスクにおける幅広い基準線の性能評価を行い,提案手法が目標とゼロショットの両方で最先端の性能を達成することを示す実験結果を得た。

The ongoing COVID-19 pandemic has caused immeasurable losses for people worldwide. To contain the spread of virus and further alleviate the crisis, various health policies (e.g., stay-at-home orders) have been issued which spark heat discussion as users turn to share their attitudes on social media. In this paper, we consider a more realistic scenario on stance detection (i.e., cross-target and zero-shot settings) for the pandemic and propose an adversarial learning-based stance classifier to automatically identify the public attitudes toward COVID-19-related health policies. Specifically, we adopt adversarial learning which allows the model to train on a large amount of labeled data and capture transferable knowledge from source topics, so as to enable generalize to the emerging health policy with sparse labeled data. Meanwhile, a GeoEncoder is designed which encourages model to learn unobserved contextual factors specified by each region and represents them as non-text information to enhance model's deeper understanding. We evaluate the performance of a broad range of baselines in stance detection task for COVID-19-related policies, and experimental results show that our proposed method achieves state-of-the-art performance in both cross-target and zero-shot settings.
翻訳日:2022-09-14 10:27:59 公開日:2022-09-13
# 空間的登録を伴う男性骨盤骨盤構造の原型的少数ショットセグメンテーション

Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration ( http://arxiv.org/abs/2209.05160v2 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Iani Gayo, Qianye Yang, Zhe Min, Shaheer Saeed, Wen Yan, Yipei Wang, J. Alison Noble, Mark Emberton, Matthew J. Clarkson, Henkjan Huisman, Dean Barratt, Victor Adrian Prisacariu, Yipeng Hu(参考訳) 医用画像解析において、少ないショットラーニングを望ましいものにする技術は、サポート画像データの効率的な利用であり、新しいクラスを分類または分割するためにラベル付けされている。 この研究は、訓練されたネットワークが、訓練中に欠落している臨床的に興味深い構造に効果的に適応できるように、完全に3次元のプロトタイプな少数ショットセグメンテーションアルゴリズムを記述する。 第一に、新しいクラスのエピソディックな適応における制度間の広く認められた空間変動を補うために、新しい空間登録機構を、セグメンテーションヘッドと空間アライメントモジュールからなる原型学習に統合する。 第2に,不完全なアライメントによるトレーニングを支援するため,サポートマスクコンディショニングモジュールを提案し,サポート画像から利用可能なアノテーションをさらに活用する。 7つの施設で取得した589個の骨盤T2強調MR画像のデータセットを用いて、介入計画に重要な8つの解剖学的構造を分割する実験を行った。 その結果,3次元の定式化,空間登録,サポートマスクコンディショニングの各効果が示され,それぞれが独立的あるいは集団的に正の貢献をした。 従来提案されていた2D代替機と比較して,支援データが同一または異なる機関からのものであっても,統計的に有意な差がみられた。

The prowess that makes few-shot learning desirable in medical image analysis is the efficient use of the support image data, which are labelled to classify or segment new classes, a task that otherwise requires substantially more training images and expert annotations. This work describes a fully 3D prototypical few-shot segmentation algorithm, such that the trained networks can be effectively adapted to clinically interesting structures that are absent in training, using only a few labelled images from a different institute. First, to compensate for the widely recognised spatial variability between institutions in episodic adaptation of novel classes, a novel spatial registration mechanism is integrated into prototypical learning, consisting of a segmentation head and an spatial alignment module. Second, to assist the training with observed imperfect alignment, support mask conditioning module is proposed to further utilise the annotation available from the support images. Extensive experiments are presented in an application of segmenting eight anatomical structures important for interventional planning, using a data set of 589 pelvic T2-weighted MR images, acquired at seven institutes. The results demonstrate the efficacy in each of the 3D formulation, the spatial registration, and the support mask conditioning, all of which made positive contributions independently or collectively. Compared with the previously proposed 2D alternatives, the few-shot segmentation performance was improved with statistical significance, regardless whether the support data come from the same or different institutes.
翻訳日:2022-09-14 10:27:35 公開日:2022-09-13
# マルチバックドア検出のための適応摂動生成

Adaptive Perturbation Generation for Multiple Backdoors Detection ( http://arxiv.org/abs/2209.05244v2 )

ライセンス: Link先を確認
Yuhang Wang, Huafeng Shi, Rui Min, Ruijia Wu, Siyuan Liang, Yichao Wu, Ding Liang and Aishan Liu(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、バックドア検出法の開発を動機付ける広範な証拠がある。 既存のバックドア検出方法は通常、個々の特定のタイプ(例えばパッチベースまたは摂動ベース)によるバックドア攻撃に適合する。 しかし、敵は実際には複数の種類のバックドア攻撃を発生させ、現在の検出戦略に挑戦する可能性がある。 本稿では,逆行性摂動がトリガーパターンと高い相関関係にあることを踏まえて,逆行性摂動を適応的に注入して複数種類のバックドア攻撃を検出する適応摂動生成(apg)フレームワークを提案する。 異なるトリガーパターンは、同じ対向的摂動の下で非常に多様な振る舞いを示すことが判明したので、まず、地域や攻撃予算を調整することで、複数の種類のバックドアトリガーに適合するグローバル・ローカル戦略を設計する。 摂動注入の効率をさらに高めるために,逆襲の最適領域を探索するための勾配誘導マスク生成戦略を提案する。 複数のデータセット(CIFAR-10, GTSRB, Tiny-ImageNet)で実施した大規模な実験により,本手法は最先端のベースライン(+12%)よりも優れていた。

Extensive evidence has demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks, which motivates the development of backdoor detection methods. Existing backdoor detection methods are typically tailored for backdoor attacks with individual specific types (e.g., patch-based or perturbation-based). However, adversaries are likely to generate multiple types of backdoor attacks in practice, which challenges the current detection strategies. Based on the fact that adversarial perturbations are highly correlated with trigger patterns, this paper proposes the Adaptive Perturbation Generation (APG) framework to detect multiple types of backdoor attacks by adaptively injecting adversarial perturbations. Since different trigger patterns turn out to show highly diverse behaviors under the same adversarial perturbations, we first design the global-to-local strategy to fit the multiple types of backdoor triggers via adjusting the region and budget of attacks. To further increase the efficiency of perturbation injection, we introduce a gradient-guided mask generation strategy to search for the optimal regions for adversarial attacks. Extensive experiments conducted on multiple datasets (CIFAR-10, GTSRB, Tiny-ImageNet) demonstrate that our method outperforms state-of-the-art baselines by large margins(+12%).
翻訳日:2022-09-14 10:27:09 公開日:2022-09-13
# 協力と競争:進化的マルチエージェント強化学習との融合

Cooperation and Competition: Flocking with Evolutionary Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.04696v2 )

ライセンス: Link先を確認
Yunxiao Guo, Xinjia Xie, Runhao Zhao, Chenglan Zhu, Jiangting Yin, Han Long(参考訳) フラッキングはマルチエージェントシステムにおいて非常に困難な問題であり、従来のフラッキング手法では環境の完全な知識と制御のための正確なモデルも必要である。 本稿では,協調と競争をほとんど事前知識と組み合わせたハイブリッドアルゴリズムであるflocking tasksにおける進化的マルチエージェント強化学習(emarl)を提案する。 協力については,boidsモデルに基づき,タスク群集に対するエージェントの報酬をデザインする。 競争において、高いフィットネスのエージェントはシニアエージェントとして設計され、低いフィットネスのエージェントはジュニアエージェントとして設計され、下位エージェントは統計的にシニアエージェントのパラメータを継承する。 競争を激化させるため,フロッディングタスクにおけるクレジット割り当ての有効性を示す進化的選択機構も設計する。 実験結果から、EMARLは完全な競合や協調手法よりも優れており、様々な挑戦的かつ自己コントラストなベンチマークが得られた。

Flocking is a very challenging problem in a multi-agent system; traditional flocking methods also require complete knowledge of the environment and a precise model for control. In this paper, we propose Evolutionary Multi-Agent Reinforcement Learning (EMARL) in flocking tasks, a hybrid algorithm that combines cooperation and competition with little prior knowledge. As for cooperation, we design the agents' reward for flocking tasks according to the boids model. While for competition, agents with high fitness are designed as senior agents, and those with low fitness are designed as junior, letting junior agents inherit the parameters of senior agents stochastically. To intensify competition, we also design an evolutionary selection mechanism that shows effectiveness on credit assignment in flocking tasks. Experimental results in a range of challenging and self-contrast benchmarks demonstrate that EMARL significantly outperforms the full competition or cooperation methods.
翻訳日:2022-09-14 10:26:43 公開日:2022-09-13
# SmartKex: ヒープダンプからSSHキーを抽出する機械学習

SmartKex: Machine Learning Assisted SSH Keys Extraction From The Heap Dump ( http://arxiv.org/abs/2209.05243v2 )

ライセンス: Link先を確認
Christofer Fellicious, Stewart Sentanoe, Michael Granitzer, Hans P. Reiser(参考訳) デジタル法医学(digital forensics)は、デジタル装置から証拠を抽出、保存、文書化する過程である。 デジタル法医学における一般的な方法は、デジタル装置のメインメモリからデータを抽出することである。 しかし、主な課題は抽出すべき重要なデータを特定することである。 ユーザ名やパスワード、SSHセッションキーなどの暗号化キーなど、重要な情報がメインメモリに存在する。 本論文では,OpenSSHプロセスのヒープメモリスナップショットからセッションキーを抽出する機械学習支援手法であるSmartKexを提案する。 さらに、オープンに利用可能なデータセットと、追加データを作成するためのツールチェーンもリリースします。 最後に,SmartKexと単純なブルートフォース法を比較し,SmartKexがセッションキーを高精度かつ高いスループットで抽出できることを実証的に示す。 提供されたリソースにより、デジタル法医学、サイバーセキュリティ、機械学習の交差点の研究を強化するつもりです。

Digital forensics is the process of extracting, preserving, and documenting evidence in digital devices. A commonly used method in digital forensics is to extract data from the main memory of a digital device. However, the main challenge is identifying the important data to be extracted. Several pieces of crucial information reside in the main memory, like usernames, passwords, and cryptographic keys such as SSH session keys. In this paper, we propose SmartKex, a machine-learning assisted method to extract session keys from heap memory snapshots of an OpenSSH process. In addition, we release an openly available dataset and the corresponding toolchain for creating additional data. Finally, we compare SmartKex with naive brute-force methods and empirically show that SmartKex can extract the session keys with high accuracy and high throughput. With the provided resources, we intend to strengthen the research on the intersection between digital forensics, cybersecurity, and machine learning.
翻訳日:2022-09-14 10:26:27 公開日:2022-09-13