このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211231となっている論文です。

PDF登録状況(公開日: 20211231)

TitleAuthorsAbstract論文公表日・翻訳日
# チャットボットにおけるヒューマン・レベル理解の深層学習手法

A Deep Learning Approach to Integrate Human-Level Understanding in a Chatbot ( http://arxiv.org/abs/2201.02735v1 )

ライセンス: Link先を確認
Afia Fairoose Abedin, Amirul Islam Al Mamun, Rownak Jahan Nowrin, Amitabha Chakrabarty, Moin Mostakim and Sudip Kumar Naskar(参考訳) 最近では、多くの人々が独自の事業の設立に携わっている。 人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。 チャットボットはタスク指向のアクティビティではうまく機能しますが、ほとんどの場合、パーソナライズされた意見やステートメント、さらにはクエリさえも理解できません。 ボットの理解能力の欠如は、人間と会話を続けることに関心がない。 通常、チャットボットはユーザーのテキストを正確に解釈できないとばかげた応答をする。 チャットボットを用いて、会話から顧客レビューを抽出することで、組織は、ユーザとチャットボットの間の理解のギャップを小さくし、製品やサービスの質を向上させることができます。 深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。 より詳細な分析により,本手法の効率性を示すことができる。

In recent times, a large number of people have been involved in establishing their own businesses. Unlike humans, chatbots can serve multiple customers at a time, are available 24/7 and reply in less than a fraction of a second. Though chatbots perform well in task-oriented activities, in most cases they fail to understand personalized opinions, statements or even queries which later impact the organization for poor service management. Lack of understanding capabilities in bots disinterest humans to continue conversations with them. Usually, chatbots give absurd responses when they are unable to interpret a user's text accurately. Extracting the client reviews from conversations by using chatbots, organizations can reduce the major gap of understanding between the users and the chatbot and improve their quality of products and services.Thus, in our research we incorporated all the key elements that are necessary for a chatbot to analyse and understand an input text precisely and accurately. We performed sentiment analysis, emotion detection, intent classification and named-entity recognition using deep learning to develop chatbots with humanistic understanding and intelligence. The efficiency of our approach can be demonstrated accordingly by the detailed analysis.
翻訳日:2022-01-16 16:19:57 公開日:2021-12-31
# (参考訳) DeepVisualInsight: 深層分類訓練における時空間因果関係の可視化 [全文訳有]

DeepVisualInsight: Time-Travelling Visualization for Spatio-Temporal Causality of Deep Classification Training ( http://arxiv.org/abs/2201.01155v1 )

ライセンス: CC BY 4.0
Xianglin Yang and Yun Lin and Ruofan Liu and Zhenfeng He and Chao Wang and Jin Song Dong and Hong Mei(参考訳) 学習過程において深層学習モデルがどのように形成されるかを理解することは,特に能動的学習などの非自明なトレーニング戦略を調査し,性能劣化などの予期せぬトレーニング結果の根本原因を追跡する必要がある場合に,モデル性能の向上とモデル欠陥の修正に不可欠である。 本研究では,深層学習画像分類器を訓練しながら時空間因果関係を明らかにすることを目的とした,時間経過の視覚的ソリューションDeepVisualInsight (DVI)を提案する。 時空間因果関係は,学習した入力表現のレイアウトや分類境界の連続的エポシックな変化に,勾配差アルゴリズムと様々なトレーニングデータサンプリング技術がどのように影響を与えるかを示す。 このような因果関係により、目に見える低次元空間における学習過程全体を観察し、分析することができる。 技術的には, 空間的および時間的特性を4つ提案し, それらを満たす可視化ソリューションを設計する。 これらの特性は、因果解析のために、可視低次元空間と可視高次元空間の間の入力サンプルを逆投影する際に最も重要な情報を保持する。 本研究では,ベースライン手法と比較して,空間的・時間的特性と可視化効率について最高の可視化性能が得られることを示す。 さらに,本ケーススタディでは,ディープラーニング学習プロセス解析のためのデバッグツールとしてDVIが有用であることを示すとともに,様々なトレーニングシナリオの特徴を視覚的に反映できることを示した。

Understanding how the predictions of deep learning models are formed during the training process is crucial to improve model performance and fix model defects, especially when we need to investigate nontrivial training strategies such as active learning, and track the root cause of unexpected training results such as performance degeneration. In this work, we propose a time-travelling visual solution DeepVisualInsight (DVI), aiming to manifest the spatio-temporal causality while training a deep learning image classifier. The spatio-temporal causality demonstrates how the gradient-descent algorithm and various training data sampling techniques can influence and reshape the layout of learnt input representation and the classification boundaries in consecutive epochs. Such causality allows us to observe and analyze the whole learning process in the visible low dimensional space. Technically, we propose four spatial and temporal properties and design our visualization solution to satisfy them. These properties preserve the most important information when inverse-)projecting input samples between the visible low-dimensional and the invisible high-dimensional space, for causal analyses. Our extensive experiments show that, comparing to baseline approaches, we achieve the best visualization performance regarding the spatial/temporal properties and visualization efficiency. Moreover, our case study shows that our visual solution can well reflect the characteristics of various training scenarios, showing good potential of DVI as a debugging tool for analyzing deep learning training processes.
翻訳日:2022-01-05 23:25:09 公開日:2021-12-31
# (参考訳) 効果的な見習い学習のための確率凸最適化 [全文訳有]

Stochastic convex optimization for provably efficient apprenticeship learning ( http://arxiv.org/abs/2201.00039v1 )

ライセンス: CC BY 4.0
Angeliki Kamoutsi, Goran Banjac, and John Lygeros(参考訳) 我々は,コスト関数が未知な大規模マルコフ決定プロセス(MDP)を考察し,有限セットの専門家による実証からポリシーを学習する模倣学習の問題に対処するために,確率的凸最適化ツールを用いる。 我々は、真のコスト関数が既知の特徴の線形結合として表現できるという仮定を持つ、見習い学習形式主義を採用する。 既存の逆強化学習アルゴリズムには強い理論的保証があるが、強化学習や計画アルゴリズムをサブルーチンとして使用するため計算コストが高い。 一方、現状の政策勾配に基づくアルゴリズム(IM-REINFORCE、IM-TRPO、GAILなど)は、ベンチマークタスクに挑戦する実験的な成功を収めているが、理論的にはよく理解されていない。 本研究では,非漸近的な性能保証に重点を置いて,コスト関数学習の中間段階を回避して,専門家による実証から方針を直接学習する手法を提案する。 本研究では, 確率的凸最適化の結果と, 最近の近似線形計画法を用いて, 抽出されたポリシーの品質に対する高い信頼感を浮き彫りにし, 計算効率の高いアルゴリズムを開発した。

We consider large-scale Markov decision processes (MDPs) with an unknown cost function and employ stochastic convex optimization tools to address the problem of imitation learning, which consists of learning a policy from a finite set of expert demonstrations. We adopt the apprenticeship learning formalism, which carries the assumption that the true cost function can be represented as a linear combination of some known features. Existing inverse reinforcement learning algorithms come with strong theoretical guarantees, but are computationally expensive because they use reinforcement learning or planning algorithms as a subroutine. On the other hand, state-of-the-art policy gradient based algorithms (like IM-REINFORCE, IM-TRPO, and GAIL), achieve significant empirical success in challenging benchmark tasks, but are not well understood in terms of theory. With an emphasis on non-asymptotic guarantees of performance, we propose a method that directly learns a policy from expert demonstrations, bypassing the intermediate step of learning the cost function, by formulating the problem as a single convex optimization problem over occupancy measures. We develop a computationally efficient algorithm and derive high confidence regret bounds on the quality of the extracted policy, utilizing results from stochastic convex optimization and recent works in approximate linear programming for solving forward MDPs.
翻訳日:2022-01-05 04:02:03 公開日:2021-12-31
# (参考訳) 災害回避:動的環境におけるマルチタスク学習を可能にするアクティブデンドライト

Avoiding Catastrophe: Active Dendrites Enable Multi-Task Learning in Dynamic Environments ( http://arxiv.org/abs/2201.00042v1 )

ライセンス: CC BY 4.0
Abhiram Iyer, Karan Grewal, Akash Velu, Lucas Oliveira Souza, Jeremy Forest, and Subutai Ahmad(参考訳) AIの鍵となる課題は、動的に変化する環境で動作する組み込みシステムを構築することだ。 このようなシステムはタスクコンテキストの変更に適応し、継続的に学習する必要があります。 標準的なディープラーニングシステムは静的ベンチマークで技術結果の状態を達成しているが、動的シナリオではしばしば苦労する。 これらの設定では、複数のコンテキストからのエラー信号が互いに干渉し合い、最終的には破滅的な忘れという現象につながる。 本稿では,これらの問題の解決策として生物学的にインスパイアされたアーキテクチャについて検討する。 具体的には,デンドライトと局所阻害系の生物物理特性により,ネットワークが動的に情報制限や経路を動的に制御できることを示す。 主な貢献は以下の通りである。 まず、アクティブなデンドライトとスパース表現を標準のディープラーニングフレームワークに組み込んだ新しい人工ニューラルネットワークアーキテクチャを提案する。 次に,ロボットエージェントが様々な操作タスクを同時に解くことを学ばなければならないマルチタスク強化学習環境であるMeta-Worldと,モデルの予測タスクがトレーニングを通して変化する連続学習ベンチマークである。 両方のベンチマークの分析は、重複するが区別され、スパースなサブネットワークの出現を示し、システムは最小限の忘れ物で複数のタスクを流動的に学習することができる。 私たちのニューラル実装は、マルチタスクと連続的な学習設定の両方において、単一のアーキテクチャが競合する結果を達成した初めてのものです。 私たちの研究は、神経の生物学的特性がディープラーニングシステムに対して、従来のannでは解決できない動的なシナリオに対処する方法に光を当てています。

A key challenge for AI is to build embodied systems that operate in dynamically changing environments. Such systems must adapt to changing task contexts and learn continuously. Although standard deep learning systems achieve state of the art results on static benchmarks, they often struggle in dynamic scenarios. In these settings, error signals from multiple contexts can interfere with one another, ultimately leading to a phenomenon known as catastrophic forgetting. In this article we investigate biologically inspired architectures as solutions to these problems. Specifically, we show that the biophysical properties of dendrites and local inhibitory systems enable networks to dynamically restrict and route information in a context-specific manner. Our key contributions are as follows. First, we propose a novel artificial neural network architecture that incorporates active dendrites and sparse representations into the standard deep learning framework. Next, we study the performance of this architecture on two separate benchmarks requiring task-based adaptation: Meta-World, a multi-task reinforcement learning environment where a robotic agent must learn to solve a variety of manipulation tasks simultaneously; and a continual learning benchmark in which the model's prediction task changes throughout training. Analysis on both benchmarks demonstrates the emergence of overlapping but distinct and sparse subnetworks, allowing the system to fluidly learn multiple tasks with minimal forgetting. Our neural implementation marks the first time a single architecture has achieved competitive results on both multi-task and continual learning settings. Our research sheds light on how biological properties of neurons can inform deep learning systems to address dynamic scenarios that are typically impossible for traditional ANNs to solve.
翻訳日:2022-01-05 03:45:48 公開日:2021-12-31
# (参考訳) 不規則な空間イベントのトランスフォーマー埋め込みとその参加者 [全文訳有]

Transformer Embeddings of Irregularly Spaced Events and Their Participants ( http://arxiv.org/abs/2201.00044v1 )

ライセンス: CC BY 4.0
Chenghao Yang, Hongyuan Mei, Jason Eisner(参考訳) 離散事象の不規則な間隔列をモデル化する手法を提案する。 最初は、タイムスタンプのないシーケンスに対して(Vaswani et al., 2017)定式化されたTransformerの連続時間変種から始める。 可能なイベント(あるいは他のブールの事実)を、時として$<t$(およびそれが発生したときの事実)に注意を払って、時に$t$(または、他のブールの事実)を埋め込む。 参加者を共有する事象と事実を関連付けるパターンマッチングロジックルールを用いて、この注意を制御します。 これらのルールは、どのイベントに出席するか、イベントと事実の埋め込みをどのように注意深いクエリ、キー、値に変換するかを決定する。 他の論理ルールは、イベントに応じて事実の集合をどのように変えるかを記述する。 我々のアプローチはMei et al. (2020a) に密接に従い、論理規則にDatalog Through Time 形式を採用する。 その作業において、ドメインの専門家は、最初に論理ルールのセットを書き、そのルールは、それぞれ$t$.t$で、可能なイベントやその他の事実のセットを確立する。 可能なイベントまたはその他の事実は、確立したルールから派生したニューラルアーキテクチャを使用して埋め込まれる。 Mei et al. (2020a)との唯一の違いは、よりシリアルなLSTMアーキテクチャを使用するのに対して、より平坦で注意に基づくニューラルアーキテクチャを導出することです。 当社の注意に基づくアプローチは,ロジックルールがパフォーマンス向上に重要な役割を果たすrobocupデータセット上で,ほぼ同じように動作することが分かりました。 また,これら2つの手法を,論理規則のない単純な合成・実領域について,従来の2つの注意に基づく手法(zuo et al., 2020; zhang et al., 2020a)と比較した。

We propose an approach to modeling irregularly spaced sequences of discrete events. We begin with a continuous-time variant of the Transformer, which was originally formulated (Vaswani et al., 2017) for sequences without timestamps. We embed a possible event (or other boolean fact) at time $t$ by using attention over the events that occurred at times $< t$ (and the facts that were true when they occurred). We control this attention using pattern-matching logic rules that relate events and facts that share participants. These rules determine which previous events will be attended to, as well as how to transform the embeddings of the events and facts into the attentional queries, keys, and values. Other logic rules describe how to change the set of facts in response to events. Our approach closely follows Mei et al. (2020a), and adopts their Datalog Through Time formalism for logic rules. As in that work, a domain expert first writes a set of logic rules that establishes the set of possible events and other facts at each time $t$. Each possible event or other fact is embedded using a neural architecture that is derived from the rules that established it. Our only difference from Mei et al. (2020a) is that we derive a flatter, attention-based neural architecture whereas they used a more serial LSTM architecture. We find that our attention-based approach performs about equally well on the RoboCup dataset, where the logic rules play an important role in improving performance. We also compared these two methods with two previous attention-based methods (Zuo et al., 2020; Zhang et al., 2020a) on simpler synthetic and real domains without logic rules, and found our proposed approach to be at least as good, and sometimes better, than each of the other three methods.
翻訳日:2022-01-05 03:44:14 公開日:2021-12-31
# (参考訳) 共変量シフトの最適表現

Optimal Representations for Covariate Shift ( http://arxiv.org/abs/2201.00057v1 )

ライセンス: CC BY 4.0
Yangjun Ruan, Yann Dubois, Chris J. Maddison(参考訳) 機械学習システムは、トレーニングとテストの間の分散シフトをしばしば経験する。 本稿では,リスク最小化器がベイズ予測器(例えば共変量シフト)を保持する分布シフトに対して頑健であることを保証するような,すべての表現の集合が最適である,単純な変分目的を導入する。 私たちの目標は2つのコンポーネントです。 第一に、ある表現はタスクに対して差別的であり続けなければならない、すなわち、ある予測者はソースとターゲットのリスクを同時に最小化できなければならない。 第二に、表現の限界サポートはソースとターゲットで同じである必要があります。 本手法は,頑健な表現の訓練に未学習のデータと拡張のみを使用する自己指導型学習手法を設計することによって実現している。 我々の目標は、DomainBedにおける最先端の成果を達成し、CLIPのような最近の手法の堅牢性に関する洞察を提供する。

Machine learning systems often experience a distribution shift between training and testing. In this paper, we introduce a simple variational objective whose optima are exactly the set of all representations on which risk minimizers are guaranteed to be robust to any distribution shift that preserves the Bayes predictor, e.g., covariate shifts. Our objective has two components. First, a representation must remain discriminative for the task, i.e., some predictor must be able to simultaneously minimize the source and target risk. Second, the representation's marginal support needs to be the same across source and target. We make this practical by designing self-supervised learning methods that only use unlabelled data and augmentations to train robust representations. Our objectives achieve state-of-the-art results on DomainBed, and give insights into the robustness of recent methods, such as CLIP.
翻訳日:2022-01-05 03:08:45 公開日:2021-12-31
# (参考訳) iCaps: 反復カテゴリーレベルのオブジェクトポースと形状推定 [全文訳有]

iCaps: Iterative Category-level Object Pose and Shape Estimation ( http://arxiv.org/abs/2201.00059v1 )

ライセンス: CC BY 4.0
Xinke Deng, Junyi Geng, Timothy Bretl, Yu Xiang and Dieter Fox(参考訳) 本稿では, カテゴリーレベルの6次元物体ポーズと形状推定アプローチ icaps を提案し, カテゴリー内の未知覚物体の6次元ポーズを追跡し, それらの3次元形状を推定する。 深度画像を入力として用いたカテゴリレベルのオートエンコーダネットワークを開発し,カテゴリ内のオブジェクトのポーズを自動エンコーダエンコーダエンコーダエンコーダから特徴埋め込みする。 オートエンコーダは、カテゴリ内のオブジェクトの6Dポーズを推定および追跡するために、パーティクルフィルタフレームワークで使用することができる。 符号付き距離関数に基づく暗黙的な形状表現を利用することで、オブジェクトの推定されたポーズから3次元形状の潜在表現を推定するために、LatentNetを構築する。 そして、推定されたポーズと形状を使って反復的にお互いを更新することができる。 カテゴリレベルの6Dオブジェクトのポーズと形状推定パイプラインは初期化のための2D検出とセグメンテーションのみを必要とする。 公開データセット上でのアプローチを評価し,その効果を実証する。 特に,本手法は形状推定における高い精度を実現する。

This paper proposes a category-level 6D object pose and shape estimation approach iCaps, which allows tracking 6D poses of unseen objects in a category and estimating their 3D shapes. We develop a category-level auto-encoder network using depth images as input, where feature embeddings from the auto-encoder encode poses of objects in a category. The auto-encoder can be used in a particle filter framework to estimate and track 6D poses of objects in a category. By exploiting an implicit shape representation based on signed distance functions, we build a LatentNet to estimate a latent representation of the 3D shape given the estimated pose of an object. Then the estimated pose and shape can be used to update each other in an iterative way. Our category-level 6D object pose and shape estimation pipeline only requires 2D detection and segmentation for initialization. We evaluate our approach on a publicly available dataset and demonstrate its effectiveness. In particular, our method achieves comparably high accuracy on shape estimation.
翻訳日:2022-01-05 03:07:43 公開日:2021-12-31
# (参考訳) Croesus: エッジクラウドシステムにおけるビデオ分析のためのマルチステージ処理とトランザクション [全文訳有]

Croesus: Multi-Stage Processing and Transactions for Video-Analytics in Edge-Cloud Systems ( http://arxiv.org/abs/2201.00063v1 )

ライセンス: CC BY 4.0
Samaa Gazzaz, Vishal Chakraborty, Faisal Nawab(参考訳) エッジアプリケーションは高速な応答遅延と複雑な処理の両方を必要とする。 これは、オブジェクト検出などの複雑な操作を短時間で処理できる高価なハードウェアなしでは実現できない。 多くの人はモデルの複雑さ -- モデル圧縮、プラニング、量子化 -- に対処するか、入力を圧縮することによって、この問題にアプローチします。 本稿では,パフォーマンス上の課題に取り組む際に異なる視点を提案する。 Croesusはエッジクラウドシステムに対するマルチステージアプローチであり、正確性とパフォーマンスのバランスを見つける機能を提供する。 クロエウスは2つの段階(これは複数の段階に一般化できる)から成り、初期段階と最終段階である。 初期段階は、エッジでの近似/ベストプラクティス計算を用いて、リアルタイムに計算を行う。 最終段階は、クラウドで完全な計算を行い、その結果を使用して、初期段階で発生したエラーを修正する。 本稿では,このような手法がビデオ解析のユースケースに与える影響を実証し,多段処理が精度と性能のバランスをいかに良くするかを示す。 さらに,マルチステージシリアライザビリティ(MS-SR)とマルチステージ不変コンバレンス(MS-IA)という2つの提案を通じて,マルチステージトランザクションの安全性を検討する。

Emerging edge applications require both a fast response latency and complex processing. This is infeasible without expensive hardware that can process complex operations -- such as object detection -- within a short time. Many approach this problem by addressing the complexity of the models -- via model compression, pruning and quantization -- or compressing the input. In this paper, we propose a different perspective when addressing the performance challenges. Croesus is a multi-stage approach to edge-cloud systems that provides the ability to find the balance between accuracy and performance. Croesus consists of two stages (that can be generalized to multiple stages): an initial and a final stage. The initial stage performs the computation in real-time using approximate/best-eff ort computation at the edge. The final stage performs the full computation at the cloud, and uses the results to correct any errors made at the initial stage. In this paper, we demonstrate the implications of such an approach on a video analytics use-case and show how multi-stage processing yields a better balance between accuracy and performance. Moreover, we study the safety of multi-stage transactions via two proposals: multi-stage serializability (MS-SR) and multi-stage invariant confluence with Apologies (MS-IA).
翻訳日:2022-01-05 02:49:47 公開日:2021-12-31
# (参考訳) 語彙意味論は翻訳にどのように影響するか 実証的研究 [全文訳有]

How do lexical semantics affect translation? An empirical study ( http://arxiv.org/abs/2201.00075v1 )

ライセンス: CC BY 4.0
Vivek Subramanian, Dhanasekar Sundararaman(参考訳) neural machine translation (nmt)システムは、ある言語から別の言語へテキストをマッピングすることを目的としている。 NMTには様々な応用があるが、最も重要なのは自然言語の翻訳である。 自然言語の区別要因は、単語が通常、ある言語の文法規則に従って順序づけされることである。 自然言語を翻訳するためのNMTシステムの開発には多くの進歩があるが、その単語の順序付けや語彙的類似性が翻訳性能に与える影響についてはほとんど研究されていない。 本稿では,ソース言語が英語であるopensubtitles2016データベースから,さまざまな低リソース言語ペアでこれらの関係を調査し,対象言語が英語に類似するほど,翻訳性能が向上することを示す。 さらに,英単語列中の単語の一部(POS)をNMTモデルに提供することの影響について検討し,トランスフォーマーモデルの場合,対象言語が英語と相違するほど,POSがもたらすメリットが大きくなることを明らかにする。

Neural machine translation (NMT) systems aim to map text from one language into another. While there are a wide variety of applications of NMT, one of the most important is translation of natural language. A distinguishing factor of natural language is that words are typically ordered according to the rules of the grammar of a given language. Although many advances have been made in developing NMT systems for translating natural language, little research has been done on understanding how the word ordering of and lexical similarity between the source and target language affect translation performance. Here, we investigate these relationships on a variety of low-resource language pairs from the OpenSubtitles2016 database, where the source language is English, and find that the more similar the target language is to English, the greater the translation performance. In addition, we study the impact of providing NMT models with part of speech of words (POS) in the English sequence and find that, for Transformer-based models, the more dissimilar the target language is from English, the greater the benefit provided by POS.
翻訳日:2022-01-05 02:23:21 公開日:2021-12-31
# POIカテゴリー識別に欠く2方向のグローバル遷移パターンと個人的嗜好

Exploiting Bi-directional Global Transition Patterns and Personal Preferences for Missing POI Category Identification ( http://arxiv.org/abs/2201.00014v1 )

ライセンス: Link先を確認
Dongbo Xi, Fuzhen Zhuang, Yanchi Liu, Hengshu Zhu, Pengpeng Zhao, Chang Tan, Qing He(参考訳) 近年では、パーソナライズされたPoint-of-Interest(PO I)レコメンデーションシステムを構築する機会として、Location-based Social Network(LBSN)サービスの人気が高まっている。 既存のPOIレコメンデーションおよび位置予測タスクでは,過去の情報を単一方向からの推薦や予測に活用する一方で,欠落したPOIカテゴリ識別タスクでは,欠落したカテゴリの前後のチェックイン情報を利用する必要がある。 したがって、長年にわたる課題は、モバイルユーザの実世界のチェックインデータにおいて、欠落したPOIカテゴリをいつでも効果的に識別する方法である。 そこで本稿では,両方向のグローバルな非個人的遷移パターンと,ユーザの個人的嗜好を統合して,欠落したPOIカテゴリを識別するニューラルネットワーク手法を提案する。 具体的には,チェックインカテゴリー情報が非個人的遷移パターンや個人的嗜好にどのように適合するかをモデル化するために,注意マッチングセルを繊細に設計する。 最後に,実世界の2つのデータセットを用いたモデルの評価を行い,その効果を最先端のベースラインと比較した。 さらに,本モデルは,次のPOIカテゴリの推薦や予測タスクに競合性能で対処するために自然に拡張することができる。

Recent years have witnessed the increasing popularity of Location-based Social Network (LBSN) services, which provides unparalleled opportunities to build personalized Point-of-Interest (POI) recommender systems. Existing POI recommendation and location prediction tasks utilize past information for future recommendation or prediction from a single direction perspective, while the missing POI category identification task needs to utilize the check-in information both before and after the missing category. Therefore, a long-standing challenge is how to effectively identify the missing POI categories at any time in the real-world check-in data of mobile users. To this end, in this paper, we propose a novel neural network approach to identify the missing POI categories by integrating both bi-directional global non-personal transition patterns and personal preferences of users. Specifically, we delicately design an attention matching cell to model how well the check-in category information matches their non-personal transition patterns and personal preferences. Finally, we evaluate our model on two real-world datasets, which clearly validate its effectiveness compared with the state-of-the-art baselines. Furthermore, our model can be naturally extended to address next POI category recommendation and prediction tasks with competitive performance.
翻訳日:2022-01-04 15:57:20 公開日:2021-12-31
# データ拡張を用いた深層音楽生成手法の評価

Evaluating Deep Music Generation Methods Using Data Augmentation ( http://arxiv.org/abs/2201.00052v1 )

ライセンス: Link先を確認
Toby Godwin and Georgios Rizos and Alice Baird and Najla D. Al Futaisi and Vincent Brisse and Bjoern W. Schuller(参考訳) 深層アルゴリズム音楽生成の進歩にもかかわらず、生成したサンプルの評価は、主観的でコストがかかる人間の評価に依存することが多い。 アルゴリズムによって生成された楽曲のサンプルを評価するための,均質で客観的なフレームワークの設計に着目する。 生成した音楽を評価するための工学的な手段は、通常、サンプルの音楽性を定義しようとするが、テーマやムードといった音楽の質を捉えない。 生成した楽曲の楽譜評価は行わず,感情や気分やテーマに関する意味のある情報が含まれているかを探る。 そこで本研究では,音楽のムード・テーマ分類器の学習データに生成したサンプルを加味して,予測性能の変化を計測する。 我々は,SampleRNN,Jukebox,D DSPの3つのモデルで生成された楽曲のサンプルを分析し,客観的比較を可能にするため,すべての手法で同質なフレームワークを使用している。 これは条件付き音楽で音楽ジャンル分類データセットを増強する最初の試みである。 本研究では、深層音楽生成を用いた分類性能向上と、データセットの追加的な感情アノテーションを用いて感情音楽作成能力について検討する。 最後に,実データに基づいて学習した分類器を用いて,クラス条件付き生成サンプルのラベル妥当性を評価する。

Despite advances in deep algorithmic music generation, evaluation of generated samples often relies on human evaluation, which is subjective and costly. We focus on designing a homogeneous, objective framework for evaluating samples of algorithmically generated music. Any engineered measures to evaluate generated music typically attempt to define the samples' musicality, but do not capture qualities of music such as theme or mood. We do not seek to assess the musical merit of generated music, but instead explore whether generated samples contain meaningful information pertaining to emotion or mood/theme. We achieve this by measuring the change in predictive performance of a music mood/theme classifier after augmenting its training data with generated samples. We analyse music samples generated by three models -- SampleRNN, Jukebox, and DDSP -- and employ a homogeneous framework across all methods to allow for objective comparison. This is the first attempt at augmenting a music genre classification dataset with conditionally generated music. We investigate the classification performance improvement using deep music generation and the ability of the generators to make emotional music by using an additional, emotion annotation of the dataset. Finally, we use a classifier trained on real data to evaluate the label validity of class-conditionally generated samples.
翻訳日:2022-01-04 15:56:58 公開日:2021-12-31
# ガウス過程回帰による未知力学系の形式的検証

Formal Verification of Unknown Dynamical Systems via Gaussian Process Regression ( http://arxiv.org/abs/2201.00655v1 )

ライセンス: Link先を確認
John Jackson, Luca Laurenti, Eric Frew, and Morteza Lahijanian(参考訳) 安全クリティカルなシナリオにおける自律システムの活用には、システムのダイナミクスに影響を与える不確実性やブラックボックスコンポーネントの存在下での行動を検証する必要がある。 本稿では,与えられた入出力データセットからの時相論理仕様に対する非モデル化ダイナミクスを持つ,部分観測可能な離散時間力学系を検証するためのフレームワークを開発した。 検証フレームワークはガウス過程(gp)回帰を用いてデータセットから未知のダイナミクスを学習し、連続空間系を有限状態不確定マルコフ決定プロセス(mdp)として抽象化する。 この抽象化は、再現可能なカーネルヒルベルト空間解析によるgp回帰の誤差による不確かさを捉える空間の離散化と遷移確率間隔と、離散化によって引き起こされる不確実性に依存する。 このフレームワークは、既存のモデルチェックツールを使用して、特定の時間論理仕様に対して不確実なMDP抽象化を検証する。 本研究は,基礎となる部分可観測系への抽象化による検証結果の拡張の正当性を確立する。 フレームワークの計算複雑性は、データセットのサイズと離散抽象の多項式であることを示す。 複雑性分析は、検証結果の品質と、より大きなデータセットとより細かい抽象化を扱う計算負荷の間のトレードオフを示しています。 最後に,線形・非線形・スイッチング力学系を用いたいくつかのケーススタディにおいて,学習・検証フレームワークの有効性を示す。

Leveraging autonomous systems in safety-critical scenarios requires verifying their behaviors in the presence of uncertainties and black-box components that influence the system dynamics. In this article, we develop a framework for verifying partially-observable , discrete-time dynamical systems with unmodelled dynamics against temporal logic specifications from a given input-output dataset. The verification framework employs Gaussian process (GP) regression to learn the unknown dynamics from the dataset and abstract the continuous-space system as a finite-state, uncertain Markov decision process (MDP). This abstraction relies on space discretization and transition probability intervals that capture the uncertainty due to the error in GP regression by using reproducible kernel Hilbert space analysis as well as the uncertainty induced by discretization. The framework utilizes existing model checking tools for verification of the uncertain MDP abstraction against a given temporal logic specification. We establish the correctness of extending the verification results on the abstraction to the underlying partially-observable system. We show that the computational complexity of the framework is polynomial in the size of the dataset and discrete abstraction. The complexity analysis illustrates a trade-off between the quality of the verification results and the computational burden to handle larger datasets and finer abstractions. Finally, we demonstrate the efficacy of our learning and verification framework on several case studies with linear, nonlinear, and switched dynamical systems.
翻訳日:2022-01-04 15:18:02 公開日:2021-12-31
# 高次元のカーネル2つのサンプルテスト:モーメントの不一致と次元とサンプルの順序の相互作用

Kernel Two-Sample Tests in High Dimension: Interplay Between Moment Discrepancy and Dimension-and-Sample Orders ( http://arxiv.org/abs/2201.00073v1 )

ライセンス: Link先を確認
Jian Yan, Xianyang Zhang(参考訳) 高次元および大規模データに対するカーネルベースのメトリクスの利用の増加に動機付けられ,次元とサンプルサイズが無限大に分散する際のカーネル2サンプルテストの漸近挙動について検討した。 我々は、ガウス核とラプラシア核とのMDDを含む、$k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$という形の核を持つ最大平均誤差(MMD)と、特別な場合としてのエネルギー距離に焦点を当てる。 核の2サンプル統計学の漸近展開を導出し、そこではヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。 新たな非Null CLTの結果から,カーネルの2サンプルテストとディメンション・アンド・サンプルオーダによって検出されるモーメントの差分と,微妙な相互作用を示す漸近的正確なパワー解析が可能となった。 漸近理論は数値的研究によってさらに裏付けられる。 近年の文献を補完し,高次元および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。

Motivated by the increasing use of kernel-based metrics for high-dimensional and large-scale data, we study the asymptotic behavior of kernel two-sample tests when the dimension and sample sizes both diverge to infinity. We focus on the maximum mean discrepancy (MMD) with the kernel of the form $k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$, including MMD with the Gaussian kernel and the Laplacian kernel, and the energy distance as special cases. We derive asymptotic expansions of the kernel two-sample statistics, based on which we establish the central limit theorem (CLT) under both the null hypothesis and the local and fixed alternatives. The new non-null CLT results allow us to perform asymptotic exact power analysis, which reveals a delicate interplay between the moment discrepancy that can be detected by the kernel two-sample tests and the dimension-and-sample orders. The asymptotic theory is further corroborated through numerical studies. Our findings complement those in the recent literature and shed new light on the use of kernel two-sample tests for high-dimensional and large-scale data.
翻訳日:2022-01-04 15:16:55 公開日:2021-12-31
# 表現トポロジの多様性:ニューラルネットワークの表現を比較する方法

Representation Topology Divergence: A Method for Comparing Neural Network Representations ( http://arxiv.org/abs/2201.00058v1 )

ライセンス: Link先を確認
Serguei Barannikov, Ilya Trofimov, Nikita Balabin, Evgeny Burnaev(参考訳) データ表現の比較は、まだ完全なソリューションを享受していない複雑な多重アスペクト問題である。 本稿では,2つのデータ表現を比較する手法を提案する。 表現トポロジ発散(rtd)を導入し、同じ大きさの2つの点雲間の多スケールトポロジーの相似性を測定し、各点間の1対1対応を示す。 データポイント雲は、異なる環境空間に横たわることが許されている。 RTDは、実際の機械学習データセットに適用可能な数少ないTDAベースの実践手法の1つである。 実験の結果,rtdはデータ表現の類似性を直感的に評価し,その位相構造に敏感であることがわかった。 学習ダイナミクス解析,データ分散シフト,転送学習,アンサンブル学習,絡み合い評価など,様々な問題に対して,コンピュータビジョンとnlpドメインのニューラルネットワーク表現に関する洞察を得るためにrtdを適用した。

Comparison of data representations is a complex multi-aspect problem that has not enjoyed a complete solution yet. We propose a method for comparing two data representations. We introduce the Representation Topology Divergence (RTD), measuring the dissimilarity in multi-scale topology between two point clouds of equal size with a one-to-one correspondence between points. The data point clouds are allowed to lie in different ambient spaces. The RTD is one of the few TDA-based practical methods applicable to real machine learning datasets. Experiments show that the proposed RTD agrees with the intuitive assessment of data representation similarity and is sensitive to its topological structure. We apply RTD to gain insights on neural networks representations in computer vision and NLP domains for various problems: training dynamics analysis, data distribution shift, transfer learning, ensemble learning, disentanglement assessment.
翻訳日:2022-01-04 14:47:50 公開日:2021-12-31
# BARACK: 部分的に監視されたグループロバスト性

BARACK: Partially Supervised Group Robustness With Guarantees ( http://arxiv.org/abs/2201.00072v1 )

ライセンス: Link先を確認
Nimit Sohoni, Maziar Sanjabi, Nicolas Ballas, Aditya Grover, Shaoliang Nie, Hamed Firooz, Christopher R\'e(参考訳) ニューラルネットワークは、平均ケースパフォーマンスの観点から分類タスクで顕著に成功したが、データの特定のグループでうまく機能しないことが多い。 このようなグループ情報を得るにはコストがかかるため、トレーニングデータにグループラベルが使用できない場合でも、ロバスト性や公正性に関する最近の研究で、最悪のグループパフォーマンスを改善する方法が提案されている。 しかし,これらの手法は,訓練時にグループ情報を利用する手法が不十分である。 本研究では,グループラベルのない大規模データセットとともに,少数のグループラベルへのアクセスを想定する。 トレーニングデータの欠落したグループラベルを予測するためにモデルをトレーニングし、これらの予測したグループラベルを堅牢な最適化目的に使用する。 理論的には, 最下位群性能の観点からの一般化境界を提供し, 一般化誤差が, トレーニングポイントの総数とグループラベル付きトレーニングポイント数の両方に対してどのようにスケールするかを示す。 実験的な手法では, 1-33%のポイントにグループラベルがある場合でも, グループ情報を使用しないベースラインよりも優れている。 我々は,フレームワークの堅牢性と拡張性をサポートするため,アブレーション研究を行う。

While neural networks have shown remarkable success on classification tasks in terms of average-case performance, they often fail to perform well on certain groups of the data. Such group information may be expensive to obtain; thus, recent works in robustness and fairness have proposed ways to improve worst-group performance even when group labels are unavailable for the training data. However, these methods generally underperform methods that utilize group information at training time. In this work, we assume access to a small number of group labels alongside a larger dataset without group labels. We propose BARACK, a simple two-step framework to utilize this partial group information to improve worst-group performance: train a model to predict the missing group labels for the training data, and then use these predicted group labels in a robust optimization objective. Theoretically, we provide generalization bounds for our approach in terms of the worst-group performance, showing how the generalization error scales with respect to both the total number of training points and the number of training points with group labels. Empirically, our method outperforms the baselines that do not use group information, even when only 1-33% of points have group labels. We provide ablation studies to support the robustness and extensibility of our framework.
翻訳日:2022-01-04 14:47:38 公開日:2021-12-31
# 視覚変圧器の多次元モデル圧縮

Multi-Dimensional Model Compression of Vision Transformer ( http://arxiv.org/abs/2201.00043v1 )

ライセンス: Link先を確認
Zejiang Hou and Sun-Yuan Kung(参考訳) 視覚変換器(ViT)は近年注目されているが、その膨大な計算コストは実用的展開の課題である。 従来型のViTプルーニング法では, モデルが1次元のみに沿ってプルークする傾向があり, 過度に還元され, 準最適モデルの品質が低下する可能性がある。 対照的に,多次元vit圧縮パラダイムを提唱し,注意頭,ニューロン,シーケンス次元からの冗長性低減を協調的に利用することを提案する。 まず,削除成分を識別するために,異なる次元に一般化可能な統計依存型刈り取り基準を提案する。 さらに,多次元圧縮を最適化として,計算予算下で圧縮モデルの精度を最大化する3次元にわたって最適プルーニングポリシーを学習した。 この問題はgaussian process searchの適応によって解決され,改善が期待できる。 実験の結果,vitモデルの計算コストを効果的に低減できることがわかった。 例えば,DeiTモデルとT2T-ViTモデルでは,トップ1の精度損失を伴わずに40\%のFLOPを削減し,従来の最先端モデルよりも優れていた。

Vision transformers (ViT) have recently attracted considerable attentions, but the huge computational cost remains an issue for practical deployment. Previous ViT pruning methods tend to prune the model along one dimension solely, which may suffer from excessive reduction and lead to sub-optimal model quality. In contrast, we advocate a multi-dimensional ViT compression paradigm, and propose to harness the redundancy reduction from attention head, neuron and sequence dimensions jointly. We firstly propose a statistical dependence based pruning criterion that is generalizable to different dimensions for identifying deleterious components. Moreover, we cast the multi-dimensional compression as an optimization, learning the optimal pruning policy across the three dimensions that maximizes the compressed model's accuracy under a computational budget. The problem is solved by our adapted Gaussian process search with expected improvement. Experimental results show that our method effectively reduces the computational cost of various ViT models. For example, our method reduces 40\% FLOPs without top-1 accuracy loss for DeiT and T2T-ViT models, outperforming previous state-of-the-arts.
翻訳日:2022-01-04 14:01:37 公開日:2021-12-31
# TransLog: ログ異常検出のための統一トランスフォーマーベースのフレームワーク

TransLog: A Unified Transformer-based Framework for Log Anomaly Detection ( http://arxiv.org/abs/2201.00016v1 )

ライセンス: Link先を確認
Hongcheng Guo, Xingyu Lin, Jian Yang, Yi Zhuang, Jiaqi Bai, Bo Zhang, Tieqiao Zheng, Zhoujun Li(参考訳) ログ異常検出は、IT運用のための人工知能(AIOps)分野における重要なコンポーネントである。 可変ドメインのログデータを考えると、未知ドメインのネットワーク全体をトレーニングすることは、特に低リソースドメインの実際の産業シナリオでは非効率である。 しかし、従来のディープモデルは、単に同じドメインのログシーケンスのセマンティクスを抽出することにのみ焦点をあて、マルチドメインログの一般化が不十分になった。 そこで本研究では,プリトレーニングとアダプタベースのチューニングステージからなる,ログ異常検出のための統一トランスフォーマティブフレームワーク(\ourmethod{})を提案する。 我々のモデルは、ログデータの共有セマンティック知識を得るために、まずソースドメイン上で事前訓練される。 そして、アダプタベースのチューニングにより、事前訓練されたモデルをターゲットドメインに転送する。 提案手法は1つのソースドメインと2つのターゲットドメインを含む3つのパブリックデータセットで評価される。 実験結果から,トレーニング可能なパラメータが少なく,目標領域でのトレーニングコストも低く,3つのベンチマークで最先端の性能を達成できた。

Log anomaly detection is a key component in the field of artificial intelligence for IT operations (AIOps). Considering log data of variant domains, retraining the whole network for unknown domains is inefficient in real industrial scenarios especially for low-resource domains. However, previous deep models merely focused on extracting the semantics of log sequence in the same domain, leading to poor generalization on multi-domain logs. Therefore, we propose a unified Transformer-based framework for log anomaly detection (\ourmethod{}), which is comprised of the pretraining and adapter-based tuning stage. Our model is first pretrained on the source domain to obtain shared semantic knowledge of log data. Then, we transfer the pretrained model to the target domain via the adapter-based tuning. The proposed method is evaluated on three public datasets including one source domain and two target domains. The experimental results demonstrate that our simple yet efficient approach, with fewer trainable parameters and lower training costs in the target domain, achieves state-of-the-art performance on three benchmarks.
翻訳日:2022-01-04 13:11:54 公開日:2021-12-31
# 深層学習に基づく理論誘導畳み込みニューラルネットワークによる地質モデルの構築

Deep-learning-based upscaling method for geologic models via theory-guided convolutional neural network ( http://arxiv.org/abs/2201.00698v1 )

ライセンス: Link先を確認
Nanzhe Wang, Qinzhuo Liao, Haibin Chang, Dongxiao Zhang(参考訳) 大規模または高解像度の地質モデルは通常、膨大な数のグリッドブロックで構成されており、数値シミュレーターで解くのに計算的要求と時間を要する。 したがって、微細な(高解像度の)グリッドから粗大なシステムまで、高度の地質モデル(例えば、水圧導電性)に有利である。 数値スケーリング法は地質モデルの粗大化に有効で堅牢であることが証明されているが、その効率は改善されていない。 そこで本研究では, 精密な地質モデルの拡張のために, 深層学習に基づく手法を提案する。 深層学習法では, 深層畳み込みニューラルネットワーク(cnn)を訓練し, 水圧導電界の粗い格子と水圧ヘッドの関係を近似し, 各粗いブロックの流動方程式を解きながら, 数値解法を置き換えることができる。 さらに、物理法則(例えば、制御方程式や周期境界条件)は、理論誘導畳み込みニューラルネットワーク(tgcnn)と呼ばれるディープcnnモデルのトレーニングプロセスにも組み込むことができる。 物理情報を考慮すると、深層学習モデルの訓練データ量への依存を大幅に低減することができる。 2d, 3d, 等方性, 異方性, 異方性など, 深層流動型高スケーリング法の性能をテストするため, いくつかの地下流場を導入した。 その結果, 深層学習法は数値法に等価なアップスケーリング精度を提供でき, 数値アップスケーリングと比較して効率を著しく向上できることがわかった。

Large-scale or high-resolution geologic models usually comprise a huge number of grid blocks, which can be computationally demanding and time-consuming to solve with numerical simulators. Therefore, it is advantageous to upscale geologic models (e.g., hydraulic conductivity) from fine-scale (high-resolution grids) to coarse-scale systems. Numerical upscaling methods have been proven to be effective and robust for coarsening geologic models, but their efficiency remains to be improved. In this work, a deep-learning-based method is proposed to upscale the fine-scale geologic models, which can assist to improve upscaling efficiency significantly. In the deep learning method, a deep convolutional neural network (CNN) is trained to approximate the relationship between the coarse grid of hydraulic conductivity fields and the hydraulic heads, which can then be utilized to replace the numerical solvers while solving the flow equations for each coarse block. In addition, physical laws (e.g., governing equations and periodic boundary conditions) can also be incorporated into the training process of the deep CNN model, which is termed the theory-guided convolutional neural network (TgCNN). With the physical information considered, dependence on the data volume of training the deep learning models can be reduced greatly. Several subsurface flow cases are introduced to test the performance of the proposed deep-learning-based upscaling method, including 2D and 3D cases, and isotropic and anisotropic cases. The results show that the deep learning method can provide equivalent upscaling accuracy to the numerical method, and efficiency can be improved significantly compared to numerical upscaling.
翻訳日:2022-01-04 13:03:21 公開日:2021-12-31
# (参考訳) 分類文法のための一階線形論理とテンソル型計算 [全文訳有]

First order linear logic and tensor type calculus for categorial grammars ( http://arxiv.org/abs/2112.15253v1 )

ライセンス: CC BY 4.0
Sergey Slavnov(参考訳) 異なる分類文法の表現を提供することで知られている一階乗法線形論理(mll1)と最近導入された拡張テンソル型計算(ettc)との関係について検討した。 我々は、多くの文法表現に十分と思われるMLL1の断片を特定し、ETTCとこの断片との対応を確立する。 したがって、システム ettc は、後者の幾何学的表現とともに、代替構文と本質的帰納的システムと見なすことができる。 また、ettc の自然な推論式も与えており、これは便利かもしれない。

We study relationship between first order multiplicative linear logic (MLL1), which has been known to provide representations to different categorial grammars, and the recently introduced extended tensor type calculus (ETTC). We identify a fragment of MLL1, which seems sufficient for many grammar representations, and establish a correspondence between ETTC and this fragment. The system ETTC, thus, can be seen as an alternative syntax and intrinsic deductive system together with a geometric representation for the latter. We also give a natural deduction formulation of ETTC, which might be convenient.
翻訳日:2022-01-03 23:22:00 公開日:2021-12-31
# (参考訳) 死亡予測モデルにおけるランダムコホート効果と年齢群依存性構造:混合効果時系列モデルアプローチ

Random cohort effects and age groups dependency structure for mortality modelling and forecasting: Mixed-effects time-series model approach ( http://arxiv.org/abs/2112.15258v1 )

ライセンス: CC BY 4.0
Ka Kin Lam, Bo Wang(参考訳) 過去数十年間、人口高齢化の継続的な成長が多くの先進国で深刻な問題となっていることを考えると、長寿リスクの解決に力を入れてきた。 Cairns-Blake-Dowdモデル(CBD)は、コホート効果のパラメータを同種の設計に組み込んだもので、高齢化と長寿命化のリスクをモデル化するための最もよく知られたアプローチの1つである。 本稿では,年齢群依存とランダムコホート効果パラメータを考慮した死亡率モデリングと予測のための新しい混合効果時系列手法を提案する。 提案モデルでは,コホート効果パラメータを推定するのに必要となる制約がなければ,より多くの死亡データ情報を開示し,モデルパラメータの自然な定量化を行うことができる。 提案手法の能力は, 経験的男女死亡データを用いた2つの応用により実証された。 提案手法は,いくつかの先進国の死亡率データを用いた短期・中期・長期予測において,cbdモデルと比較して予測精度が著しく向上することを示す。

There have been significant efforts devoted to solving the longevity risk given that a continuous growth in population ageing has become a severe issue for many developed countries over the past few decades. The Cairns-Blake-Dowd (CBD) model, which incorporates cohort effects parameters in its parsimonious design, is one of the most well-known approaches for mortality modelling at higher ages and longevity risk. This article proposes a novel mixed-effects time-series approach for mortality modelling and forecasting with considerations of age groups dependence and random cohort effects parameters. The proposed model can disclose more mortality data information and provide a natural quantification of the model parameters uncertainties with no pre-specified constraint required for estimating the cohort effects parameters. The abilities of the proposed approach are demonstrated through two applications with empirical male and female mortality data. The proposed approach shows remarkable improvements in terms of forecast accuracy compared to the CBD model in the short-, mid-and long-term forecasting using mortality data of several developed countries in the numerical examples.
翻訳日:2022-01-03 23:00:36 公開日:2021-12-31
# (参考訳) bp-net:汎用的深層畳み込み構造によるカフフリー、キャリブレーションフリー、非侵襲的血圧推定 [全文訳有]

BP-Net: Cuff-less, Calibration-free, and Non-invasive Blood Pressure Estimation via a Generic Deep Convolutional Architecture ( http://arxiv.org/abs/2112.15271v1 )

ライセンス: CC BY 4.0
Soheil Zabihi, Elahe Rahimian, Fatemeh Marefat, Amir Asif, Pedram Mohseni, and Arash Mohammadi(参考訳) 目的: 持続的かつカフレス血圧(bp)モニタリングのためのロバストで正確な処理ソリューションの開発に焦点を当てた。 本研究では,シストリックbpとジアストリックbpの低レイテンシ,連続性,キャリブレーションフリーな上下境界の計算のために,強固な深層学習に基づくフレームワークを提案する。 Method: BP-Netと呼ばれるこのフレームワークは、カジュアルなダイアル化畳み込みと残差接続の組み込みにより優れた性能を保ちながら、より長い有効メモリを提供する新しい畳み込みアーキテクチャである。 BP-Netは、内在的特徴(深部特徴)の抽出における深部学習の可能性を生かし、長期的堅牢性を高めるため、既存のソリューションで一般的な手作り特徴を抽出することなく、生心電図(ECG)と光胸波(PPG)信号を使用する。 結果:最近の文献で使用されるデータセットが統一的かつ適切に定義されていないという事実を生かして,physionet から得られた mimic-i および mimic-iii データベースからベンチマークデータセットを構築する。 提案するBP-Netは,有望な性能を示すベンチマークデータセットに基づいて評価し,より優れた一般化能力を示す。 結論:提案したBP-Netアーキテクチャは,正準リカレントネットワークよりも正確であり,BP推定タスクの長期ロバスト性を高める。 意義:提案されたBP-Netアーキテクチャは、既存のBP推定ソリューションの重要な欠点、すなわちパルス到着時間(PAT)や堅牢性の欠如といった手作り特徴の抽出に大きく依存している。 最後に、構築されたBP-Netデータセットは、深層学習に基づくBP推定アルゴリズムの評価と比較のための統一された基盤を提供する。

Objective: The paper focuses on development of robust and accurate processing solutions for continuous and cuff-less blood pressure (BP) monitoring. In this regard, a robust deep learning-based framework is proposed for computation of low latency, continuous, and calibration-free upper and lower bounds on the systolic and diastolic BP. Method: Referred to as the BP-Net, the proposed framework is a novel convolutional architecture that provides longer effective memory while achieving superior performance due to incorporation of casual dialated convolutions and residual connections. To utilize the real potential of deep learning in extraction of intrinsic features (deep features) and enhance the long-term robustness, the BP-Net uses raw Electrocardiograph (ECG) and Photoplethysmograph (PPG) signals without extraction of any form of hand-crafted features as it is common in existing solutions. Results: By capitalizing on the fact that datasets used in recent literature are not unified and properly defined, a benchmark dataset is constructed from the MIMIC-I and MIMIC-III databases obtained from PhysioNet. The proposed BP-Net is evaluated based on this benchmark dataset demonstrating promising performance and shows superior generalizable capacity. Conclusion: The proposed BP-Net architecture is more accurate than canonical recurrent networks and enhances the long-term robustness of the BP estimation task. Significance: The proposed BP-Net architecture addresses key drawbacks of existing BP estimation solutions, i.e., relying heavily on extraction of hand-crafted features, such as pulse arrival time (PAT), and; Lack of robustness. Finally, the constructed BP-Net dataset provides a unified base for evaluation and comparison of deep learning-based BP estimation algorithms.
翻訳日:2022-01-03 22:59:38 公開日:2021-12-31
# (参考訳) 効率的な乱流シミュレーションのための学習粗いモデル [全文訳有]

Learned Coarse Models for Efficient Turbulence Simulation ( http://arxiv.org/abs/2112.15275v1 )

ライセンス: CC BY 4.0
Kimberly Stachenfeld, Drummond B. Fielding, Dmitrii Kochkov, Miles Cranmer, Tobias Pfaff, Jonathan Godwin, Can Cui, Shirley Ho, Peter Battaglia, Alvaro Sanchez-Gonzalez(参考訳) 古典数値解法による乱流シミュレーションは、ダイナミクスを正確に解くために非常に高分解能の格子を必要とする。 そこで我々は,低空間および時間分解能のシミュレータを訓練し,高分解能で発生する乱流力学を捉える。 提案モデルでは, 従来の数値解法に比べて, 様々な科学的に関係のある指標で同じ低分解能で乱流力学を正確にシミュレートできることを示す。 我々のモデルは、データからエンドツーエンドに訓練され、最先端のAthena++エンジンによって生成される軌道を含む、様々な挑戦的なカオスと乱流のダイナミクスを低解像度で学習することができる。 学習した乱流シミュレーション文献から,より単純で汎用的なアーキテクチャが,より特殊で乱流特有のアーキテクチャよりも優れていることを示す。 一般に,学習シミュレータは不安定な軌跡を生じさせるが,トレーニングノイズのチューニングや時間的ダウンサンプリングがこの問題を解決していることを示す。 トレーニング分布を超えた一般化は,学習モデルや学習ノイズ,畳み込みアーキテクチャ,損失制約の追加といった面でも有効であることがわかった。 より広範に、学習シミュレータは、粗いグリッド上での従来の解法よりも優れており、単純な設計選択は安定性と堅牢な一般化をもたらすことを強調する。

Turbulence simulation with classical numerical solvers requires very high-resolution grids to accurately resolve dynamics. Here we train learned simulators at low spatial and temporal resolutions to capture turbulent dynamics generated at high resolution. We show that our proposed model can simulate turbulent dynamics more accurately than classical numerical solvers at the same low resolutions across various scientifically relevant metrics. Our model is trained end-to-end from data and is capable of learning a range of challenging chaotic and turbulent dynamics at low resolution, including trajectories generated by the state-of-the-art Athena++ engine. We show that our simpler, general-purpose architecture outperforms various more specialized, turbulence-specific architectures from the learned turbulence simulation literature. In general, we see that learned simulators yield unstable trajectories; however, we show that tuning training noise and temporal downsampling solves this problem. We also find that while generalization beyond the training distribution is a challenge for learned models, training noise, convolutional architectures, and added loss constraints can help. Broadly, we conclude that our learned simulator outperforms traditional solvers run on coarser grids, and emphasize that simple design choices can offer stability and robust generalization.
翻訳日:2022-01-03 22:47:10 公開日:2021-12-31
# (参考訳) 関数ネットワークのベイズ最適化 [全文訳有]

Bayesian Optimization of Function Networks ( http://arxiv.org/abs/2112.15311v1 )

ライセンス: CC BY 4.0
Raul Astudillo, Peter I. Frazier(参考訳) 本稿では,関数ネットワークの出力のベイジアン最適化,親ノードの出力の入力として各関数が要し,ネットワークの評価に要する時間について考察する。 このような問題は、強化学習、エンジニアリングデザイン、製造などにおいて発生する。 標準的なベイズ最適化アプローチは最終出力のみを観測するが、このアプローチは前者が無視する情報を活用することでクエリ効率が向上する:ネットワーク内の中間出力。 これは、ガウス過程を用いてネットワークのノードをモデル化し、我々の獲得関数として、目的のインプリッド後部について計算された期待改善を用いて評価する点を選択することで達成される。 この後部の非ガウス的性質は、我々の獲得関数を閉形式で計算することを妨げるが、サンプル平均近似により効率的に最大化できることが示される。 さらに,本手法が漸近的に一貫性があることを証明し,評価回数が無限に増大するにつれてグローバルに最適解を求めることにより,従来知られていた収束結果の一般化を期待できることを示した。 特に,本手法では領域を密に評価することができないが,領域を未探索のままにしておくために問題構造を利用する。 最後に,本手法は,いくつかの合成および実世界の問題において,標準的なベイズ最適化法よりも劇的に優れていることを示す。

We consider Bayesian optimization of the output of a network of functions, where each function takes as input the output of its parent nodes, and where the network takes significant time to evaluate. Such problems arise, for example, in reinforcement learning, engineering design, and manufacturing. While the standard Bayesian optimization approach observes only the final output, our approach delivers greater query efficiency by leveraging information that the former ignores: intermediate output within the network. This is achieved by modeling the nodes of the network using Gaussian processes and choosing the points to evaluate using, as our acquisition function, the expected improvement computed with respect to the implied posterior on the objective. Although the non-Gaussian nature of this posterior prevents computing our acquisition function in closed form, we show that it can be efficiently maximized via sample average approximation. In addition, we prove that our method is asymptotically consistent, meaning that it finds a globally optimal solution as the number of evaluations grows to infinity, thus generalizing previously known convergence results for the expected improvement. Notably, this holds even though our method might not evaluate the domain densely, instead leveraging problem structure to leave regions unexplored. Finally, we show that our approach dramatically outperforms standard Bayesian optimization methods in several synthetic and real-world problems.
翻訳日:2022-01-03 22:18:24 公開日:2021-12-31
# (参考訳) グラフアウェア強化学習を用いた外交ゲームにおける勝利戦略の同定(学生抽象) [全文訳有]

Using Graph-Aware Reinforcement Learning to Identify Winning Strategies in Diplomacy Games (Student Abstract) ( http://arxiv.org/abs/2112.15331v1 )

ライセンス: CC BY 4.0
Hansin Ahuja, Lynnette Hui Xian Ng, Kokil Jaidka(参考訳) 本稿では,オンライン政治戦略ゲームにおける多人数談話における複雑な社会現象の検出とモデル化の目標指向モデルへのアプローチを提案する。 まず,社会言語学的行動を言語的特徴としてエンコードし,強化学習を用いてプレイヤーに与える利点を推定する2層アプローチを開発した。 第1段階において、他者に影響を与えるために話者が使用する社会言語的行動は、同時二者対話において各プレイヤーが適用する説得的戦略を特定するために言語的特徴として符号化される。 第2層では、強化学習手法を用いて、グラフ認識報酬関数を推定し、この多人数構成において、各プレイヤーに与えられる利点を定量化する。 78人のユーザ間で15,000以上のメッセージを交換するデータセットを用いて,この手法をゲーム外交に適用する。 我々のグラフ認識アプローチは、コンテキストに依存しないセットアップに比べて堅牢なパフォーマンスを示している。

This abstract proposes an approach towards goal-oriented modeling of the detection and modeling complex social phenomena in multiparty discourse in an online political strategy game. We developed a two-tier approach that first encodes sociolinguistic behavior as linguistic features then use reinforcement learning to estimate the advantage afforded to any player. In the first tier, sociolinguistic behavior, such as Friendship and Reasoning, that speakers use to influence others are encoded as linguistic features to identify the persuasive strategies applied by each player in simultaneous two-party dialogues. In the second tier, a reinforcement learning approach is used to estimate a graph-aware reward function to quantify the advantage afforded to each player based on their standing in this multiparty setup. We apply this technique to the game Diplomacy, using a dataset comprising of over 15,000 messages exchanged between 78 users. Our graph-aware approach shows robust performance compared to a context-agnostic setup.
翻訳日:2022-01-03 21:35:29 公開日:2021-12-31
# (参考訳) facebookページからベトナム語会話をクラスタリングしてチャットボットのトレーニングデータセットを構築する [全文訳有]

Clustering Vietnamese Conversations From Facebook Page To Build Training Dataset For Chatbot ( http://arxiv.org/abs/2112.15338v1 )

ライセンス: CC BY-SA 4.0
Trieu Hai Nguyen, Thi-Kim-Ngoan Pham, Thi-Hong-Minh Bui, Thanh-Quynh-Chau Nguyen(参考訳) チャットボットを構築する上で最大の課題は、データのトレーニングだ。 必要なデータは現実的で、チャットボットを訓練するのに十分な大きさでなければならない。 私たちはfacebookページのfacebook messengerから実際のトレーニングデータを取得するツールを作成します。 テキスト前処理ステップの後、新たに取得したデータセットは、FVnCおよびSampleデータセットを生成する。 ベトナム語(PhoBERT)に対するBERTの再訓練を用いて,テキストデータの特徴を抽出する。 K-MeansとDBSCANクラスタリングアルゴリズムは、PhoBERT$_{base}$の出力埋め込みに基づくクラスタリングタスクに使用される。 クラスタリングアルゴリズムの性能評価には,V測定スコアとシルエットスコアを適用した。 また,PhoBERTの他のモデルと比較して,Sampleデータセットにおける特徴抽出の効率性を示す。 また,クラスタリング評価を併用したGridSearchアルゴリズムを提案し,最適パラメータを求める。 このような会話をクラスタリングすることで、チャットボットをトレーニングするためのデータとストーリーラインを構築するのに多くの時間と労力を節約できます。

The biggest challenge of building chatbots is training data. The required data must be realistic and large enough to train chatbots. We create a tool to get actual training data from Facebook messenger of a Facebook page. After text preprocessing steps, the newly obtained dataset generates FVnC and Sample dataset. We use the Retraining of BERT for Vietnamese (PhoBERT) to extract features of our text data. K-Means and DBSCAN clustering algorithms are used for clustering tasks based on output embeddings from PhoBERT$_{base}$. We apply V-measure score and Silhouette score to evaluate the performance of clustering algorithms. We also demonstrate the efficiency of PhoBERT compared to other models in feature extraction on Sample dataset. A GridSearch algorithm that combines both clustering evaluations is also proposed to find optimal parameters. Thanks to clustering such a number of conversations, we save a lot of time and effort to build data and storylines for training chatbot.
翻訳日:2022-01-03 21:32:16 公開日:2021-12-31
# (参考訳) 逐次最小方形による繰り返しニューラルネットワークの訓練と乗算器の交互方向法 [全文訳有]

Training Recurrent Neural Networks by Sequential Least Squares and the Alternating Direction Method of Multipliers ( http://arxiv.org/abs/2112.15348v1 )

ライセンス: CC BY 4.0
Alberto Bemporad(参考訳) 任意の凸と2次微分可能な損失関数と正規化項に基づく入力/出力トレーニングデータセットから非線形力学系の繰り返しニューラルネットワークモデルをトレーニングするために、最適ネットワークパラメータと隠れ状態を決定するための逐次最小二乗法を提案する。 さらに,l1,l0,group-lasso正規化子などの非スムース正規化項を処理し,整数や混合整数制約などの非凸制約を課すため,逐次最小二乗法と乗算器の交互方向法(admm)を組み合わせた。 NAILS(Nonconvex ADMM Iterations and Least Squares)と呼ばれる結果のアルゴリズムの性能を非線形システム同定ベンチマークで検証する。

For training recurrent neural network models of nonlinear dynamical systems from an input/output training dataset based on rather arbitrary convex and twice-differentiable loss functions and regularization terms, we propose the use of sequential least squares for determining the optimal network parameters and hidden states. In addition, to handle non-smooth regularization terms such as L1, L0, and group-Lasso regularizers, as well as to impose possibly non-convex constraints such as integer and mixed-integer constraints, we combine sequential least squares with the alternating direction method of multipliers (ADMM). The performance of the resulting algorithm, that we call NAILS (Nonconvex ADMM Iterations and Least Squares), is tested in a nonlinear system identification benchmark.
翻訳日:2022-01-03 21:12:29 公開日:2021-12-31
# (参考訳) 幾何学的制約による単一画像からの3次元レーン形状とカメラポッドの予測 [全文訳有]

Learning to Predict 3D Lane Shape and Camera Pose from a Single Image via Geometry Constraints ( http://arxiv.org/abs/2112.15351v1 )

ライセンス: CC BY 4.0
Ruijin Liu, Dapeng Chen, Tie Liu, Zhiliang Xiong, Zejian Yuan(参考訳) カメラから3Dレーンを検出することは、自動運転車にとってますます問題になる。 このタスクでは、正確なカメラのポーズが正確なレーンを生成する鍵であり、ビューからトップビューに画像を変換できる。 この変換により、3dレーンが似ているように見え、低次多項式によって正確に適合できるように、視点効果を取り除くことができる。 しかし、主流の3Dレーン検出器は、他のセンサーが提供する完璧なカメラのポーズに依存している。 この問題を解決するために,2段階のフレームワークを用いて1枚の画像からカメラポーズを推定することにより,3次元レーンの予測を提案する。 第1ステージは、視点画像からカメラポーズタスクを目標とする。 ポーズ推定を改善するために,マルチタスク学習の恩恵を受けるための補助的な3Dレーンタスクと幾何学的制約を導入する。 第2段階は3dレーンタスクをターゲットにしている。 従来推定されたポーズを用いて、距離不変レーンの外観を含むトップビュー画像を生成し、正確な3Dレーンを予測する。 実験により,地平カメラのポーズがなければ,本手法は最先端の完全カメラ配置法よりも優れ,最も少ないパラメータと計算量を有することが示された。 コードはhttps://github.com/l iuruijin17/CLGoで入手できる。

Detecting 3D lanes from the camera is a rising problem for autonomous vehicles. In this task, the correct camera pose is the key to generating accurate lanes, which can transform an image from perspective-view to the top-view. With this transformation, we can get rid of the perspective effects so that 3D lanes would look similar and can accurately be fitted by low-order polynomials. However, mainstream 3D lane detectors rely on perfect camera poses provided by other sensors, which is expensive and encounters multi-sensor calibration issues. To overcome this problem, we propose to predict 3D lanes by estimating camera pose from a single image with a two-stage framework. The first stage aims at the camera pose task from perspective-view images. To improve pose estimation, we introduce an auxiliary 3D lane task and geometry constraints to benefit from multi-task learning, which enhances consistencies between 3D and 2D, as well as compatibility in the above two tasks. The second stage targets the 3D lane task. It uses previously estimated pose to generate top-view images containing distance-invariant lane appearances for predicting accurate 3D lanes. Experiments demonstrate that, without ground truth camera pose, our method outperforms the state-of-the-art perfect-camera-pose- based methods and has the fewest parameters and computations. Codes are available at https://github.com/l iuruijin17/CLGo.
翻訳日:2022-01-03 20:54:53 公開日:2021-12-31
# (参考訳) スパースLiDARによる自己教師付きステレオ距離推定 [全文訳有]

Sparse LiDAR Assisted Self-supervised Stereo Disparity Estimation ( http://arxiv.org/abs/2112.15355v1 )

ライセンス: CC BY-SA 4.0
Xiaoming Zhao, Weihai Chen, Xingming Wu, Peter C. Y. Chen, Zhengguo Li(参考訳) 近年、ディープステレオマッチングは大きな進歩を遂げている。 しかし、最先端の手法は高価な4Dコストボリュームに基づいており、現実世界のアプリケーションでの使用を制限する。 この問題に対処するため,3次元相関マップと反復的格差更新が提案されている。 自動運転車やロボットのような現実世界のプラットフォームでは、Lidarは通常インストールされる。 したがって,スパルスライダー点を反復更新に導入することで,ゼロ状態との差を更新するネットワークの負担を軽減することができる。 さらに,ネットワークを自己教師付きでトレーニングし,任意のキャプチャデータでトレーニングすることで一般化能力を向上させることを提案する。 実験と比較の結果,提案手法は有効であり,関連する手法と同等の結果が得られた。

Deep stereo matching has made significant progress in recent years. However, state-of-the-art methods are based on expensive 4D cost volume, which limits their use in real-world applications. To address this issue, 3D correlation maps and iterative disparity updates have been proposed. Regarding that in real-world platforms, such as self-driving cars and robots, the Lidar is usually installed. Thus we further introduce the sparse Lidar point into the iterative updates, which alleviates the burden of network updating the disparity from zero states. Furthermore, we propose training the network in a self-supervised way so that it can be trained on any captured data for better generalization ability. Experiments and comparisons show that the presented method is effective and achieves comparable results with related methods.
翻訳日:2022-01-03 20:37:53 公開日:2021-12-31
# (参考訳) OpenQA: 構造化知識ベースと非構造化データに基づくハイブリッドQAシステム [全文訳有]

OpenQA: Hybrid QA System Relying on Structured Knowledge Base as well as Non-structured Data ( http://arxiv.org/abs/2112.15356v1 )

ライセンス: CC BY 4.0
Gaochen Wu, Bin Xu, Yuxin Qin, Yang Liu, Lingyu Liu, Ziwei Wang(参考訳) キーワード検索に基づく検索エンジンは、もはやキーワード関連インターネットページが返されることにより、インテリジェントなモノのインターネットの時代における情報獲得の方法に適応できない。 大規模なインターネットデータからユーザに必要な情報を迅速かつ正確に取得する方法が,緊急に解決すべき重要な課題のひとつとなっている。 本稿では,構造化KBと構造化されていないデータに基づくインテリジェントな問合せシステムOpenQAを提案する。 我々は、意味解析と深層表現学習に基づくKBQA構造化質問応答と、検索とニューラルマシン読解に基づく2段階非構造化質問応答をOpenQAに統合し、OpenQAの Transformer 回答選択モジュールを通して、最も高い確率で最終回答を返す。 構築したデータセットについて予備実験を行い,提案する知的質問応答システムの有効性を実証した。 同時に、OpenQAプラットフォームの各モジュールのコア技術は学術的ホットスポットの最前線にあり、これらの学術的ホットスポットに基づいて、OpenQAの理論的本質と豊かさをさらに探求する。

Search engines based on keyword retrieval can no longer adapt to the way of information acquisition in the era of intelligent Internet of Things due to the return of keyword related Internet pages. How to quickly, accurately and effectively obtain the information needed by users from massive Internet data has become one of the key issues urgently needed to be solved. We propose an intelligent question-answering system based on structured KB and unstructured data, called OpenQA, in which users can give query questions and the model can quickly give accurate answers back to users. We integrate KBQA structured question answering based on semantic parsing and deep representation learning, and two-stage unstructured question answering based on retrieval and neural machine reading comprehension into OpenQA, and return the final answer with the highest probability through the Transformer answer selection module in OpenQA. We carry out preliminary experiments on our constructed dataset, and the experimental results prove the effectiveness of the proposed intelligent question answering system. At the same time, the core technology of each module of OpenQA platform is still in the forefront of academic hot spots, and the theoretical essence and enrichment of OpenQA will be further explored based on these academic hot spots.
翻訳日:2022-01-03 20:22:10 公開日:2021-12-31
# (参考訳) 注意伝達に基づく条件付き生成データフリー知識蒸留 [全文訳有]

Conditional Generative Data-Free Knowledge Distillation based on Attention Transfer ( http://arxiv.org/abs/2112.15358v1 )

ライセンス: CC BY 4.0
Xinyi YU and Ling Yan and Linlin Ou(参考訳) 知識蒸留はモデル圧縮において顕著な成果を上げている。 しかし、既存のほとんどの方法は独自のトレーニングデータを必要とするが、実際のデータはしばしばプライバシー、セキュリティ、送信制限のために利用できない。 本稿では,実データ無しで効率的な携帯ネットワークを訓練するための条件付き生成型データフリー知識蒸留(cgdd)フレームワークを提案する。 本フレームワークでは,教師モデルから抽出した知識以外に,事前設定ラベルを付加的な補助情報として導入し,ジェネレータを訓練する。 そして、訓練されたジェネレータは、所定のカテゴリの有意義なトレーニングサンプルを必要に応じて生成することができる。 従来の蒸留損失以外の蒸留プロセスを促進するため, プレセットラベルを地上の真理ラベルとして扱うことにより, 学生ネットワークを合成トレーニングサンプルのカテゴリで直接管理する。 さらに,教師モデルの注意マップの模倣を学生ネットワークに強制し,その性能をさらに向上させる。 本手法の優位性を検証するため, 異なる蒸留法の有効性を直接比較するため, 新しい評価基準を相対的精度として設計する。 CIFAR10、CIFAR100、Caltech101では99.63%、99.07%、99.84%の相対精度が得られた。 実験により提案手法の優位性を示した。

Knowledge distillation has made remarkable achievements in model compression. However, most existing methods demand original training data, while real data in practice are often unavailable due to privacy, security and transmission limitation. To address this problem, we propose a conditional generative data-free knowledge distillation (CGDD) framework to train efficient portable network without any real data. In this framework, except using the knowledge extracted from teacher model, we introduce preset labels as additional auxiliary information to train the generator. Then, the trained generator can produce meaningful training samples of specified category as required. In order to promote distillation process, except using conventional distillation loss, we treat preset label as ground truth label so that student network is directly supervised by the category of synthetic training sample. Moreover, we force student network to mimic the attention maps of teacher model and further improve its performance. To verify the superiority of our method, we design a new evaluation metric is called as relative accuracy to directly compare the effectiveness of different distillation methods. Trained portable network learned with proposed data-free distillation method obtains 99.63%, 99.07% and 99.84% relative accuracy on CIFAR10, CIFAR100 and Caltech101, respectively. The experimental results demonstrate the superiority of proposed method.
翻訳日:2022-01-03 20:12:51 公開日:2021-12-31
# (参考訳) AIをスマートにする - AIと認知科学の橋渡し [全文訳有]

Making AI 'Smart': Bridging AI and Cognitive Science ( http://arxiv.org/abs/2112.15360v1 )

ライセンス: CC BY 4.0
Madhav Agarwal(参考訳) 過去20年間、人工知能は飛躍的な進歩を遂げてきた。 計算能力の指数関数的な成長は、ロボットのような人間の開発を願っている。 問題は、私たちはまだそこにいますか? たぶん違う。 認知科学の統合により、人工知能(AI)の「人工的な」特徴はすぐに「スマート」に置き換えられるかもしれない。 これにより、より強力なAIシステムが開発され、同時に人間の脳がどのように機能するかをよりよく理解できるようになる。 これら2つの分野をブリッジする様々な可能性と課題と、それらが相互に利益をもたらす方法について論じる。 このような高度なシステムを開発するためには、まず人間の脳をよりよく理解する必要があるため、AIが人間の文明を乗っ取る可能性は低いと我々は主張する。

The last two decades have seen tremendous advances in Artificial Intelligence. The exponential growth in terms of computation capabilities has given us hope of developing humans like robots. The question is: are we there yet? Maybe not. With the integration of cognitive science, the 'artificial' characteristic of Artificial Intelligence (AI) might soon be replaced with 'smart'. This will help develop more powerful AI systems and simultaneously gives us a better understanding of how the human brain works. We discuss the various possibilities and challenges of bridging these two fields and how they can benefit each other. We argue that the possibility of AI taking over human civilization is low as developing such an advanced system requires a better understanding of the human brain first.
翻訳日:2022-01-03 19:54:16 公開日:2021-12-31
# (参考訳) 誘導異方性拡散を用いた弱修正変化検出 [全文訳有]

Weakly Supervised Change Detection Using Guided Anisotropic Difusion ( http://arxiv.org/abs/2112.15367v1 )

ライセンス: CC BY-SA 4.0
Rodrigo Caye Daudt, Bertrand Le Saux, Alexandre Boulch, Yann Gousseau(参考訳) クラウドソースラベルや公開データから生成された大規模なデータセットは、大規模な学習アルゴリズムのトレーニングデータを提供する上で極めて重要である。 これらのデータセットは簡単に取得できるが、データは頻繁に騒がしく信頼できないため、弱い教師付き学習技術の研究が動機となっている。 本稿では,このようなデータセットを変化検出の文脈で活用するための独自のアイデアを提案する。 まず, エッジ保存フィルタリングを行うためのガイドとして, 入力画像を用いた意味セグメンテーション結果を改善する誘導異方性拡散(gad)アルゴリズムを提案する。 次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。 第1の戦略は、モデル最適化とGADを用いたデータのクリーン化を組み合わせて、オープンベクトルデータから生成された大規模変更検出データセットから有用な情報を抽出する反復学習手法である。 2つ目は、画像レベルのラベルから画素レベルの予測を実行するために訓練された弱い教師付きネットワークの精度を高める新しい空間的注意層にGADを組み込む。 最先端に関する改善は、4つの異なる公開データセットで実証されている。

Large scale datasets created from crowdsourced labels or openly available data have become crucial to provide training data for large scale learning algorithms. While these datasets are easier to acquire, the data are frequently noisy and unreliable, which is motivating research on weakly supervised learning techniques. In this paper we propose original ideas that help us to leverage such datasets in the context of change detection. First, we propose the guided anisotropic diffusion (GAD) algorithm, which improves semantic segmentation results using the input images as guides to perform edge preserving filtering. We then show its potential in two weakly-supervised learning strategies tailored for change detection. The first strategy is an iterative learning method that combines model optimisation and data cleansing using GAD to extract the useful information from a large scale change detection dataset generated from open vector data. The second one incorporates GAD within a novel spatial attention layer that increases the accuracy of weakly supervised networks trained to perform pixel-level predictions from image-level labels. Improvements with respect to state-of-the-art are demonstrated on 4 different public datasets.
翻訳日:2022-01-03 19:45:47 公開日:2021-12-31
# (参考訳) CNNにおける尺度の分離と特徴学習の熱力学的記述 [全文訳有]

Separation of scales and a thermodynamic description of feature learning in some CNNs ( http://arxiv.org/abs/2112.15383v1 )

ライセンス: CC BY 4.0
Inbar Seroussi and Zohar Ringel(参考訳) ディープニューラルネットワーク(dnn)は、情報圧縮と蒸留のための強力なツールである。 スケールと複雑さのため、何十億もの相互依存の内的自由度を含むことが多いため、正確な分析アプローチは、しばしば不足する。 このような場合の一般的な戦略は、基礎となる高速顕微鏡変数の不安定な振る舞いを平均化する遅い自由度を特定することである。 ここでは,過度にパラメータ化された深層畳み込みニューラルネットワーク(CNN)で発生するスケールの分離について述べる。 これは、ニューロンの前活性化が決定論的潜在核とほぼガウス的方法で変動することを意味する。 無限に多くのチャネルを持つcnnではこれらのカーネルは不活性であるが、有限cnnでは解析的に扱いやすい方法でデータから適応し学習する。 深層学習の熱力学理論は、いくつかの深い非線形CNN玩具モデルに対して正確な予測をもたらす。 さらに、cnnの分析と理解のための新しい方法を提供する。

Deep neural networks (DNNs) are powerful tools for compressing and distilling information. Due to their scale and complexity, often involving billions of inter-dependent internal degrees of freedom, exact analysis approaches often fall short. A common strategy in such cases is to identify slow degrees of freedom that average out the erratic behavior of the underlying fast microscopic variables. Here, we identify such a separation of scales occurring in over-parameterized deep convolutional neural networks (CNNs) at the end of training. It implies that neuron pre-activations fluctuate in a nearly Gaussian manner with a deterministic latent kernel. While for CNNs with infinitely many channels these kernels are inert, for finite CNNs they adapt and learn from data in an analytically tractable manner. The resulting thermodynamic theory of deep learning yields accurate predictions on several deep non-linear CNN toy models. In addition, it provides new ways of analyzing and understanding CNNs.
翻訳日:2022-01-03 19:24:05 公開日:2021-12-31
# (参考訳) 情報フローの厳密な形式性に基づく定量的因果解析と因果グラフ再構成の概観 [全文訳有]

An overview of the quantitative causality analysis and causal graph reconstruction based on a rigorous formalism of information flow ( http://arxiv.org/abs/2112.14839v1 )

ライセンス: CC BY 4.0
X. San Liang(参考訳) 現在、データからの因果関係の推測は人工知能の重要な分野となっている。 過去16年間、因果解析(定量的な意味で)は物理学において第一原理から独立して開発された。 この短い注記は、理論の一部といくつかの代表的な応用を含む、この一連の研究の要約である。

Inference of causal relations from data now has become an important field in artificial intelligence. During the past 16 years, causality analysis (in a quantitative sense) has been developed independently in physics from first principles. This short note is a brief summary of this line of work, including part of the theory and several representative applications.
翻訳日:2022-01-03 19:08:26 公開日:2021-12-31
# (参考訳) 機械学習のレンズによる高次元最適化

High Dimensional Optimization through the Lens of Machine Learning ( http://arxiv.org/abs/2112.15392v1 )

ライセンス: CC BY-SA 4.0
Felix Benning(参考訳) 本論文は,機械学習問題を考慮した数値最適化手法を考察する。 機械学習モデルは高度にパラメータ化されているため,高次元最適化に適した手法に着目する。 我々は、非凸最適化に適した方法を見出すために二次モデル上の直観を構築し、この方法の選択に対して凸関数上の収束証明を開発する。 確率勾配降下法と運動量法に関するこの理論的基礎を用いて,機械学習分野で広く用いられている手法がなぜこれほど成功したのかを説明する。 ヒューリスティックスの成功を説明することに加えて、最後の章はより理論的な手法のより広範なレビューも提供している。 なぜデフォルトのTensorflowオプティマイザがデフォルトに含まれているのか?

This thesis reviews numerical optimization methods with machine learning problems in mind. Since machine learning models are highly parametrized, we focus on methods suited for high dimensional optimization. We build intuition on quadratic models to figure out which methods are suited for non-convex optimization, and develop convergence proofs on convex functions for this selection of methods. With this theoretical foundation for stochastic gradient descent and momentum methods, we try to explain why the methods used commonly in the machine learning field are so successful. Besides explaining successful heuristics, the last chapter also provides a less extensive review of more theoretical methods, which are not quite as popular in practice. So in some sense this work attempts to answer the question: Why are the default Tensorflow optimizers included in the defaults?
翻訳日:2022-01-03 19:01:48 公開日:2021-12-31
# (参考訳) infonerf: ニューラルボリュームレンダリングのためのレイエントロピー最小化 [全文訳有]

InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering ( http://arxiv.org/abs/2112.15399v1 )

ライセンス: CC BY 4.0
Mijeong Kim, Seonguk Seo, Bohyung Han(参考訳) ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。 提案手法は、各線における密度のエントロピー制約を課すことにより、不十分な視点で発生する潜在的な再構成の不整合を最小化する。 また、全てのトレーニング画像がほぼ冗長な視点から取得された場合の潜在的な縮退問題を緩和するために、わずかに異なる視点の1対の光線から得られる情報を制限することにより、推定画像に空間的に滑らかな制約を組み込む。 アルゴリズムの主な考え方は、再構成されたシーンを個々の光線に沿ってコンパクトにし、近隣の光線に一貫性を持たせることである。 提案された正規化器は、NeRFに基づく既存のニューラルボリュームレンダリング技術の大部分に簡単にプラグインできる。 その単純さにもかかわらず、既存のニューラルビュー合成法と比較して、複数の標準ベンチマークで大きなマージンで一貫して性能が向上した。 プロジェクトのウェブサイトは \url{http://cvlab.snu.ac. kr/research/InfoNeRF } で閲覧できます。

We present an information-theoreti c regularization technique for few-shot novel view synthesis based on neural implicit representation. The proposed approach minimizes potential reconstruction inconsistency that happens due to insufficient viewpoints by imposing the entropy constraint of the density in each ray. In addition, to alleviate the potential degenerate issue when all training images are acquired from almost redundant viewpoints, we further incorporate the spatially smoothness constraint into the estimated images by restricting information gains from a pair of rays with slightly different viewpoints. The main idea of our algorithm is to make reconstructed scenes compact along individual rays and consistent across rays in the neighborhood. The proposed regularizers can be plugged into most of existing neural volume rendering techniques based on NeRF in a straightforward way. Despite its simplicity, we achieve consistently improved performance compared to existing neural view synthesis methods by large margins on multiple standard benchmarks. Our project website is available at \url{http://cvlab.snu.ac. kr/research/InfoNeRF }.
翻訳日:2022-01-03 19:00:36 公開日:2021-12-31
# (参考訳) 多元アノテーションに対する異種コントラスト回帰学習 [全文訳有]

Disjoint Contrastive Regression Learning for Multi-Sourced Annotations ( http://arxiv.org/abs/2112.15411v1 )

ライセンス: CC BY 4.0
Xiaoqian Ruan, Gaoang Wang(参考訳) 大規模データセットはディープラーニングモデルの開発に重要である。 このようなデータセットは通常、非常に時間がかかり、費用がかかる、大量のアノテーションを必要とする。 アノテーション手順を加速するために、データの異なるサブセットをラベル付けるために複数のアノテーションを使用することができる。 しかし,この課題に対処すべく,本論文では,各サンプルが1つのアノテーションによってラベル付けされ,複数のアノテーションがデータの非結合部分集合に作用する,非結合アノテーション問題に対処するための新しい対比回帰フレームワークを提案する。 アノテーション内一貫性とアノテーション間一貫性の両方を考慮するために、2つの戦略を採り入れ、まず、同じ注釈者の異なるサンプル間の相対的なランキングを学ぶためにコントラストベースの損失を適用し、同じ注釈者からのサンプルのランキングが満場一致であるように仮定する。 第二に、異なるアノテータに不変なロバスト表現を学習するために勾配反転層を適用する。 顔表情予測タスクと画像品質評価タスクの実験により,提案手法の有効性が検証された。

Large-scale datasets are important for the development of deep learning models. Such datasets usually require a heavy workload of annotations, which are extremely time-consuming and expensive. To accelerate the annotation procedure, multiple annotators may be employed to label different subsets of the data. However, the inconsistency and bias among different annotators are harmful to the model training, especially for qualitative and subjective tasks.To address this challenge, in this paper, we propose a novel contrastive regression framework to address the disjoint annotations problem, where each sample is labeled by only one annotator and multiple annotators work on disjoint subsets of the data. To take account of both the intra-annotator consistency and inter-annotator inconsistency, two strategies are employed.Firstly, a contrastive-based loss is applied to learn the relative ranking among different samples of the same annotator, with the assumption that the ranking of samples from the same annotator is unanimous. Secondly, we apply the gradient reversal layer to learn robust representations that are invariant to different annotators. Experiments on the facial expression prediction task, as well as the image quality assessment task, verify the effectiveness of our proposed framework.
翻訳日:2022-01-03 18:46:33 公開日:2021-12-31
# (参考訳) ComMA@ICONにおけるHypers: 攻撃性、ジェンダーバイアス、コミュニティバイアス識別のモデル化 [全文訳有]

Hypers at ComMA@ICON: Modelling Aggressiveness, Gender Bias and Communal Bias Identification ( http://arxiv.org/abs/2112.15417v1 )

ライセンス: CC BY 4.0
Sean Benhur, Roshan Nayak, Kanchana Sivanraju, Adeep Hande, Subalalitha Chinnaudayar Navaneethakrishnan, Ruba Priyadharshini, Bharathi Raja Chakravarthi6(参考訳) ソーシャルメディアの普及が急速に進んでいるため、社会を分裂させ、人々を暴力に陥れる可能性があるため、その否定的な側面に焦点を合わせることが不可欠である。 本稿では,共有タスクComMA@ICONにおける作業のシステム記述について述べる。そこでは,文章がいかに攻撃的であるか,文章が性バイアスであるか,あるいは共同バイアスであるかを分類する必要がある。 これら3つが社会に重大な問題を引き起こす主な原因である可能性がある。 チームhypersとして、注意力と平均プーリング方法を備えた、さまざまな事前学習モデルを使用するアプローチを提案しました。 ベンガル語で0.223のインスタンスF1スコア,ベンガル語で0.322のインスタンスF1スコア,マイタイ語で0.129のインスタンスF1スコア,ヒンディー語で0.336のインスタンスF1スコアでランク3を得ることができた。 この作業のソースコードと事前訓練されたモデルがここにある。

Due to the exponentially increasing reach of social media, it is essential to focus on its negative aspects as it can potentially divide society and incite people into violence. In this paper, we present our system description of work on the shared task ComMA@ICON, where we have to classify how aggressive the sentence is and if the sentence is gender-biased or communal biased. These three could be the primary reasons to cause significant problems in society. As team Hypers we have proposed an approach that utilizes different pretrained models with Attention and mean pooling methods. We were able to get Rank 3 with 0.223 Instance F1 score on Bengali, Rank 2 with 0.322 Instance F1 score on Multi-lingual set, Rank 4 with 0.129 Instance F1 score on Meitei and Rank 5 with 0.336 Instance F1 score on Hindi. The source code and the pretrained models of this work can be found here.
翻訳日:2022-01-03 18:30:44 公開日:2021-12-31
# (参考訳) クラスタに対するビューの一貫性割り当てによる表現学習 [全文訳有]

Representation Learning via Consistent Assignment of Views to Clusters ( http://arxiv.org/abs/2112.15421v1 )

ライセンス: CC BY-SA 4.0
Thalles Silva and Ad\'in Ram\'irez Rivera(参考訳) 本稿では,自己指導型コントラスト学習と深層クラスタリングを組み合わせた視覚表現学習手法であるConsistent Assignment for Representation Learning (CARL)を紹介する。 クラスタリングの観点からの対照的な学習を通して、CARLは、与えられた画像の異なるビューを同じプロトタイプに割り当てるために、エネルギーアンカーとして機能する一連の一般的なプロトタイプを学ぶことによって、教師なしの表現を学ぶ。 深層クラスタリングによるコントラスト学習に関する現代の研究とは異なり、carl氏は、クラスタ割り当て問題を解決するために非微分アルゴリズムやk平均を用いる必要なしに、勾配降下を用いて、一般的なプロトタイプのセットをオンライン形式で学習することを提案している。 CARLは、線形評価、半教師付き学習、トランスファー学習など、多くの表現型学習ベンチマークにおいて、競合他社を上回っている。

We introduce Consistent Assignment for Representation Learning (CARL), an unsupervised learning method to learn visual representations by combining ideas from self-supervised contrastive learning and deep clustering. By viewing contrastive learning from a clustering perspective, CARL learns unsupervised representations by learning a set of general prototypes that serve as energy anchors to enforce different views of a given image to be assigned to the same prototype. Unlike contemporary work on contrastive learning with deep clustering, CARL proposes to learn the set of general prototypes in an online fashion, using gradient descent without the necessity of using non-differentiable algorithms or K-Means to solve the cluster assignment problem. CARL surpasses its competitors in many representations learning benchmarks, including linear evaluation, semi-supervised learning, and transfer learning.
翻訳日:2022-01-03 18:23:03 公開日:2021-12-31
# (参考訳) ディープ・フェイス・シンセシス:新しい挑戦 [全文訳有]

Deep Facial Synthesis: A New Challenge ( http://arxiv.org/abs/2112.15439v1 )

ライセンス: CC BY 4.0
Deng-Ping Fan, Ziling Huang, Peng Zheng, Hong Liu, Xuebin Qin, and Luc Van Gool(参考訳) 本研究の目的は,顔のスケッチ合成(FSS)問題に関する包括的研究を行うことである。 しかし、手書きのスケッチデータセットを取得するコストが高いため、過去10年間のFSSアルゴリズムの開発を評価するための完全なベンチマークが欠如している。 そこで我々はまず,3種類のスケッチスタイル,画像背景,照明条件,肌色,顔属性からなる,fssの高品質データセットであるfs2kを紹介する。 FS2Kは従来のFSSデータセットと難易度、多様性、拡張性が異なるため、FSS研究の進展を促進する。 第2に,手作り特徴に基づく顔スケッチ合成手法,37の一般ニューラルスタイル変換法,43のディープイメージ・ツー・イメージ翻訳法,35のイメージ・ツー・スケッチアプローチを含む,139の古典的手法による最大規模のFSS研究を提案する。 さらに,既存の19個の最先端モデルに対する包括的実験を行った。 第3に、FSGANという単純なFSSのベースラインを示す。 FSGANは、顔認識マスキングとスタイルベクター拡張という2つの単純なコンポーネントだけで、提案されたFS2Kデータセットのすべての最先端モデルのパフォーマンスを大きく上回っている。 最後に,過去数年間に学んだ教訓から結論を出し,未解決の課題をいくつか指摘する。 当社のオープンソースコードはhttps://github.com/d engpingfan/fsganで利用可能です。

The goal of this paper is to conduct a comprehensive study on the facial sketch synthesis (FSS) problem. However, due to the high costs in obtaining hand-drawn sketch datasets, there lacks a complete benchmark for assessing the development of FSS algorithms over the last decade. As such, we first introduce a high-quality dataset for FSS, named FS2K, which consists of 2,104 image-sketch pairs spanning three types of sketch styles, image backgrounds, lighting conditions, skin colors, and facial attributes. FS2K differs from previous FSS datasets in difficulty, diversity, and scalability, and should thus facilitate the progress of FSS research. Second, we present the largest-scale FSS study by investigating 139 classical methods, including 24 handcrafted feature based facial sketch synthesis approaches, 37 general neural-style transfer methods, 43 deep image-to-image translation methods, and 35 image-to-sketch approaches. Besides, we elaborate comprehensive experiments for existing 19 cutting-edge models. Third, we present a simple baseline for FSS, named FSGAN. With only two straightforward components, i.e., facial-aware masking and style-vector expansion, FSGAN surpasses the performance of all previous state-of-the-art models on the proposed FS2K dataset, by a large margin. Finally, we conclude with lessons learned over the past years, and point out several unsolved challenges. Our open-source code is available at https://github.com/D engPingFan/FSGAN.
翻訳日:2022-01-03 18:08:14 公開日:2021-12-31
# (参考訳) 社会神経AI:AIの「暗黒物質」としての社会的相互作用 [全文訳有]

Social Neuro AI: Social Interaction as the "dark matter" of AI ( http://arxiv.org/abs/2112.15459v1 )

ライセンス: CC BY 4.0
Samuele Bolotta and Guillaume Dumas(参考訳) 我々は、社会心理学と社会神経科学の実証的な結果とダイナミクスの枠組みが、よりインテリジェントな人工エージェントの開発にインスピレーションを与えることができることを主張している。 複雑な人間の認知アーキテクチャは、その表現力の大部分を社会的・文化的学習に携わる能力に負っていると我々は特に主張する。 第1節では,社会学習が知性発達において重要な役割を担っていることを示す。 我々は、社会的・文化的学習理論を議論し、様々な動物が他者から学習する能力を調査し、また、社会的相互作用と学習の間に人間の脳を調べる社会神経科学からの知見を探求する。 次に,社会ニューロAIの傘下に置かれ,複雑な環境下での社会的に知能なエンボディエージェントの開発に寄与する3つの研究ラインについて論じる。 まず、グローバルワークスペース理論やアテンションスキーマ理論のような認知アーキテクチャの神経科学的理論は、生物学的な可能性を高め、個人と社会の知能理論をいかに橋渡しできるかを理解するのに役立つ。 第2に、知性は時間とともに発生するが、これはdynamicsが提供する強力なフレームワークに自然に組み込まれている。 第三に、社会的具体化は、より洗練されたコミュニケーションシグナルの配列を持つ仮想エージェントと人間の間の社会的相互作用を提供するために実証されている。 結論として, 上記の3つの軸を追従することで, どのように前進できるかを探求する多エージェントロボットシステムの分野について, 新たな視点を提供する。

We are making the case that empirical results from social psychology and social neuroscience along with the framework of dynamics can be of inspiration to the development of more intelligent artificial agents. We specifically argue that the complex human cognitive architecture owes a large portion of its expressive power to its ability to engage in social and cultural learning. In the first section, we aim at demonstrating that social learning plays a key role in the development of intelligence. We do so by discussing social and cultural learning theories and investigating the abilities that various animals have at learning from others; we also explore findings from social neuroscience that examine human brains during social interaction and learning. Then, we discuss three proposed lines of research that fall under the umbrella of Social NeuroAI and can contribute to developing socially intelligent embodied agents in complex environments. First, neuroscientific theories of cognitive architecture, such as the global workspace theory and the attention schema theory, can enhance biological plausibility and help us understand how we could bridge individual and social theories of intelligence. Second, intelligence occurs in time as opposed to over time, and this is naturally incorporated by the powerful framework offered by dynamics. Third, social embodiment has been demonstrated to provide social interactions between virtual agents and humans with a more sophisticated array of communicative signals. To conclude, we provide a new perspective on the field of multiagent robot systems, exploring how it can advance by following the aforementioned three axes.
翻訳日:2022-01-03 16:55:28 公開日:2021-12-31
# (参考訳) 群衆カウントのためのシーン適応型注意ネットワーク [全文訳有]

Scene-Adaptive Attention Network for Crowd Counting ( http://arxiv.org/abs/2112.15509v1 )

ライセンス: CC BY 4.0
Xing Wei, Yuanrui Kang, Jihao Yang, Yunfeng Qiu, Dahu Shi, Wenming Tan, Yihong Gong(参考訳) 近年、群衆数式の研究において大きな進展がみられている。 しかし、群衆に難易度の高いスケールのバリエーションや複雑なシーンが存在したため、従来の畳み込みネットワークや固定サイズの注意力を持つ最近のトランスフォーマーアーキテクチャではうまく処理できなかった。 そこで本稿では,saanetと呼ばれるシーン適応型アテンションネットワークを提案する。 まず,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習する,組込み型トランスフォーマーバックボーンの設計を行った。 次に,多レベル特徴融合とカウント・アテンティブ特徴拡張モジュールを提案し,グローバル画像コンテキストにおける特徴表現の強化を図る。 学習された表現は前景に出席することができ、群衆の異なるスケールに対応できる。 我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成することを示す。 特に,本手法は現在,NWPU-Crowdベンチマークの公開リーダボードで第1位にランクされている。 私たちは、この手法が将来の群衆数の研究を支援する強力なベースラインになることを願っています。 ソースコードはコミュニティにリリースされる予定だ。

In recent years, significant progress has been made on the research of crowd counting. However, as the challenging scale variations and complex scenes existed in crowds, neither traditional convolution networks nor recent Transformer architectures with fixed-size attention could handle the task well. To address this problem, this paper proposes a scene-adaptive attention network, termed SAANet. First of all, we design a deformable attention in-built Transformer backbone, which learns adaptive feature representations with deformable sampling locations and dynamic attention weights. Then we propose the multi-level feature fusion and count-attentive feature enhancement modules further, to strengthen feature representation under the global image context. The learned representations could attend to the foreground and are adaptive to different scales of crowds. We conduct extensive experiments on four challenging crowd counting benchmarks, demonstrating that our method achieves state-of-the-art performance. Especially, our method currently ranks No.1 on the public leaderboard of the NWPU-Crowd benchmark. We hope our method could be a strong baseline to support future research in crowd counting. The source code will be released to the community.
翻訳日:2022-01-03 16:41:30 公開日:2021-12-31
# (参考訳) OWLOOP:OOPオブジェクト階層内のOWL公理を記述するためのモジュールAPI [全文訳有]

OWLOOP: A Modular API to Describe OWL Axioms in OOP Objects Hierarchies ( http://arxiv.org/abs/2112.15544v1 )

ライセンス: CC BY-SA 4.0
Luca Buoncompagni, Syed Yusha Kareem, and Fulvio Mastrogiovanni(参考訳) OWLOOPは、オブジェクト指向プログラミング(OOP)を用いて、オントロジーWeb言語(OWL)を使用するためのアプリケーションプログラミングインタフェース(API)である。 OOPパラダイムを使ってソフトウェアアーキテクチャを設計し、モジュール性を高めることは一般的です。 アーキテクチャのコンポーネントが知識表現や推論のためにOWLオントロジーも利用している場合、OWLの公理でインターフェースする必要がある。 OWLOOPはOOPのパラダイムに従わないため、そのようなインターフェースはしばしばモジュール性に影響を与える定型的なコードをもたらし、OWLOOPはこの問題と関連する計算面に対処するように設計されています。 本稿では,OWL 公理と OOP オブジェクトの階層構造を考慮した OWL 公理間の汎用インターフェースを提供する OWL-API の拡張について述べる。

OWLOOP is an Application Programming Interface (API) for using the Ontology Web Language (OWL) by the means of Object-Oriented Programming (OOP). It is common to design software architectures using the OOP paradigm for increasing their modularity. If the components of an architecture also exploit OWL ontologies for knowledge representation and reasoning, they would require to be interfaced with OWL axioms. Since OWL does not adhere to the OOP paradigm, such an interface often leads to boilerplate code affecting modularity, and OWLOOP is designed to address this issue as well as the associated computational aspects. We present an extension of the OWL-API to provide a general-purpose interface between OWL axioms subject to reasoning and modular OOP objects hierarchies.
翻訳日:2022-01-03 16:13:28 公開日:2021-12-31
# テンソルCP分解による行列時系列のモデル化

Modelling matrix time series via a tensor CP-decomposition ( http://arxiv.org/abs/2112.15423v1 )

ライセンス: Link先を確認
Jinyuan Chang, Jing He, Lin Yang, Qiwei Yao(参考訳) テンソルcp分解に基づく行列時系列のモデル化を提案する。 cp分解を推定するための標準的な手法である反復アルゴリズムを用いる代わりに,基礎プロセスの逐次依存構造から構築した一般化固有解析に基づく新しい一パス推定手法を提案する。 新しい手順の鍵となる考え方は、階数還元行列で定義される一般化された等式を、全階行列を持つ低次元行列に射影し、固有値の数がゼロ、有限、無限大となる前者の複雑さを避けることである。 漸近理論は定常性のない一般的な設定の下で確立されている。 例えば、CP分解における全ての成分係数ベクトルは、時系列の次元とサンプルサイズの間の相対的なサイズによって異なる誤差率と一貫して推定される。 提案したモデルと推定法は、シミュレーションデータと実データの両方でさらに説明され、行列時系列のモデル化と予測に有効な次元推論を示す。

We propose to model matrix time series based on a tensor CP-decomposition. Instead of using an iterative algorithm which is the standard practice for estimating CP-decompositions, we propose a new and one-pass estimation procedure based on a generalized eigenanalysis constructed from the serial dependence structure of the underlying process. A key idea of the new procedure is to project a generalized eigenequation defined in terms of rank-reduced matrices to a lower-dimensional one with full-ranked matrices, to avoid the intricacy of the former of which the number of eigenvalues can be zero, finite and infinity. The asymptotic theory has been established under a general setting without the stationarity. It shows, for example, that all the component coefficient vectors in the CP-decomposition are estimated consistently with the different error rates, depending on the relative sizes between the dimensions of time series and the sample size. The proposed model and the estimation method are further illustrated with both simulated and real data; showing effective dimension-reduction in modelling and forecasting matrix time series.
翻訳日:2022-01-03 15:51:58 公開日:2021-12-31
# CSformer:圧縮センシングのためのブリッジングコンボリューションとトランスフォーマー

CSformer: Bridging Convolution and Transformer for Compressive Sensing ( http://arxiv.org/abs/2112.15299v1 )

ライセンス: Link先を確認
Dongjie Ye, Zhangkai Ni, Hanli Wang, Jian Zhang, Shiqi Wang, Sam Kwong(参考訳) 畳み込みニューラルネットワーク(CNN)は圧縮イメージセンシングに成功している。 しかしながら、局所性と重みの共有の帰納的バイアスのため、畳み込み操作は長距離依存性のモデリングにおいて固有の制限を示す。 当初シーケンシャル・ツー・シーケンス・モデルとして設計されたtransformerは、限定的なローカライズ機能を備えていても、セルフ・アテンション・ベースのアーキテクチャによるグローバル・コンテクストのキャプチャに優れている。 本稿では,cnnからの詳細な空間情報と,トランスフォーマによって提供されるグローバルコンテキストを併用して表現学習の強化を実現するハイブリッドフレームワークcsformerを提案する。 提案手法は適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。 サンプリングモジュールでは、画像は学習したサンプリング行列によってブロック単位で測定される。 再建段階では、測定は二重茎に投影される。 1つは畳み込みによって近隣関係をモデル化するcnnのstemと、もう1つはグローバル・セルフ・アテンション・メカニズムを採用するトランスフォーマーのstemである。 双対分岐構造は並列であり、局所的な特徴と大域的な表現は異なる解像度で融合され、特徴の補完を最大化する。 さらに,プログレッシブストラテジーとウィンドウベースのトランスフォーマーブロックを探索し,パラメータと計算複雑性を低減した。 実験結果は, 圧縮センシングのための専用変圧器アーキテクチャの有効性を実証するものである。

Convolution neural networks (CNNs) have succeeded in compressive image sensing. However, due to the inductive bias of locality and weight sharing, the convolution operations demonstrate the intrinsic limitations in modeling the long-range dependency. Transformer, designed initially as a sequence-to-sequence model, excels at capturing global contexts due to the self-attention-based architectures even though it may be equipped with limited localization abilities. This paper proposes CSformer, a hybrid framework that integrates the advantages of leveraging both detailed spatial information from CNN and the global context provided by transformer for enhanced representation learning. The proposed approach is an end-to-end compressive image sensing method, composed of adaptive sampling and recovery. In the sampling module, images are measured block-by-block by the learned sampling matrix. In the reconstruction stage, the measurement is projected into dual stems. One is the CNN stem for modeling the neighborhood relationships by convolution, and the other is the transformer stem for adopting global self-attention mechanism. The dual branches structure is concurrent, and the local features and global representations are fused under different resolutions to maximize the complementary of features. Furthermore, we explore a progressive strategy and window-based transformer block to reduce the parameter and computational complexity. The experimental results demonstrate the effectiveness of the dedicated transformer-based architecture for compressive sensing, which achieves superior performance compared to state-of-the-art methods on different datasets.
翻訳日:2022-01-03 15:51:23 公開日:2021-12-31
# フレキシブル生産システム分野における人工知能研究の課題

A Research Agenda for Artificial Intelligence in the Field of Flexible Production Systems ( http://arxiv.org/abs/2112.15484v1 )

ライセンス: Link先を確認
Aljosha K\"ocher and Ren\'e Heesch and Niklas Widulle and Anna Nordhausen and Julian Putzke and Alexander Windmann and Sven Vagt and Oliver Niggemann(参考訳) 生産企業は、需要の変動や要求の変更に迅速に生産制御を適用することに関して問題に直面している。 サービスという意味で生産機能をカプセル化する制御手法は,サイバー物理生産システムの柔軟性を高めるために有望であることが示されている。 しかし、このようなアプローチの既存の課題は、要求された機能と提供された機能の間に直接(すなわち構文)一致しない場合に、要求のセットに対する提供された機能に基づく生産計画を見つけることである。 このような場合、要求を満たすプランに配置できる機能を見つけるのが複雑になる可能性がある。 生産計画には様々なアプローチがあるが、フレキシブル生産は既存の研究でカバーされていない特定の要件をもたらす。 この貢献により、私たちはまず、フレキシブルなプロダクション環境に対するこれらの要件を捉えます。 その後、前述の課題を克服するために利用できる現在の人工知能アプローチの概要が述べられている。 シンボリックAI計画と機械学習に基づくアプローチの両方からのアプローチが議論され、最終的には要件と比較される。 この比較に基づいて研究課題を導出する。

Production companies face problems when it comes to quickly adapting their production control to fluctuating demands or changing requirements. Control approaches aiming to encapsulate production functions in the sense of services have shown to be promising in order to increase flexibility of Cyber-Physical Production Systems. But an existing challenge of such approaches is finding production plans based on provided functionalities for a set of requirements, especially when there is no direct (i.e., syntactic) match between demanded and provided functions. In such cases it can become complicated to find those provided functions that can be arranged into a plan satisfying the demand. While there is a variety of different approaches to production planning, flexible production poses specific requirements that are not covered by existing research. In this contribution, we first capture these requirements for flexible production environments. Afterwards, an overview of current Artificial Intelligence approaches that can be utilized in order to overcome the aforementioned challenges is given. Approaches from both symbolic AI planning as well as approaches based on Machine Learning are discussed and eventually compared against the requirements. Based on this comparison, a research agenda is derived.
翻訳日:2022-01-03 15:50:56 公開日:2021-12-31
# 職場におけるz世代参加のグローバルビジョンに向けて--数学的モデリング

Towards the global vision of engagement of Generation Z at the workplace: Mathematical modeling ( http://arxiv.org/abs/2112.15401v1 )

ライセンス: Link先を確認
Rados{\l}aw A. Kycia, Agnieszka Niemczynowicz, Joanna Nie\.zurawska-Zaj\k{a}c(参考訳) 職場におけるジェネレーションZエンゲージメント調査における相関とクラスタ分析(K平均,ガウス混合モデル)を行った。 クラスタリングは、従業員のエンゲージメントを表すさまざまな要因間の関係を示す。 最も顕著な要因は、仕事における責任と課題に関する明確な声明である。 これらの要因は実践上不可欠である。 本論文は,ジェネレーションZ従業員を対象としたモチベーション向上システムの構築に有効である。

Correlation and cluster analyses (k-Means, Gaussian Mixture Models) were performed on Generation Z engagement surveys at the workplace. The clustering indicates relations between various factors that describe the engagement of employees. The most noticeable factors are a clear statement about the responsibilities at work, and challenging work. These factors are essential in practice. The results of this paper can be used in preparing better motivational systems aimed at Generation Z employees.
翻訳日:2022-01-03 15:49:20 公開日:2021-12-31
# 機械学習アプリケーション開発:実践者の洞察

Machine Learning Application Development: Practitioners' Insights ( http://arxiv.org/abs/2112.15277v1 )

ライセンス: Link先を確認
Md Saidur Rahman, Foutse Khomh, Alaleh Hamidi, Jinghui Cheng, Giuliano Antoniol and Hironori Washizaki(参考訳) 今日、人工知能(AI)と機械学習(ML)の最近のブレークスルーのおかげで、さまざまな現実世界の問題に対するデータ駆動ソリューションを提供することで、インテリジェントなシステムやサービスがますます人気を集めています。 しかし、機械学習は、有望な可能性だけでなく、いくつかの固有の課題ともソフトウェアエンジニアリングを満たしている。 最近の研究努力にもかかわらず、MLベースのアプリケーションを開発することの課題と現在の業界プラクティスについて、まだ明確には理解していません。 さらに、ソフトウェアエンジニアリング研究者がmlアプリケーション開発者をより良くサポートするための努力をどこに集中すべきかは不明だ。 本稿では,MLアプリケーション開発の課題とベストプラクティスを理解することを目的とした調査について報告する。 80人の実践者(多様なスキル、経験、アプリケーションドメインを持つ)から得られた結果を17の発見にまとめ、MLアプリケーション開発における課題とベストプラクティスの概要を述べる。 mlベースのソフトウェアシステムの開発に携わる実践者は、システムの品質を改善するために要約されたベストプラクティスを活用できる。 報告された課題が、MLベースのアプリケーションのエンジニアリングプロセスと品質を改善するために調査すべきトピックについて、研究コミュニティに知らせてくれることを期待しています。

Nowadays, intelligent systems and services are getting increasingly popular as they provide data-driven solutions to diverse real-world problems, thanks to recent breakthroughs in Artificial Intelligence (AI) and Machine Learning (ML). However, machine learning meets software engineering not only with promising potentials but also with some inherent challenges. Despite some recent research efforts, we still do not have a clear understanding of the challenges of developing ML-based applications and the current industry practices. Moreover, it is unclear where software engineering researchers should focus their efforts to better support ML application developers. In this paper, we report about a survey that aimed to understand the challenges and best practices of ML application development. We synthesize the results obtained from 80 practitioners (with diverse skills, experience, and application domains) into 17 findings; outlining challenges and best practices for ML application development. Practitioners involved in the development of ML-based software systems can leverage the summarized best practices to improve the quality of their system. We hope that the reported challenges will inform the research community about topics that need to be investigated to improve the engineering process and the quality of ML-based applications.
翻訳日:2022-01-03 15:46:56 公開日:2021-12-31
# POIチェックイン識別の欠如に対する双方向時空間依存性のモデル化とユーザの動的選好

Modelling of Bi-directional Spatio-Temporal Dependence and Users' Dynamic Preferences for Missing POI Check-in Identification ( http://arxiv.org/abs/2112.15285v1 )

ライセンス: Link先を確認
Dongbo Xi, Fuzhen Zhuang, Yanchi Liu, Jingjing Gu, Hui Xiong, Qing He(参考訳) Point-of-Interest(PO I)チェックインから蓄積された人間のモビリティデータは、ユーザの振る舞いを理解する大きな機会を提供する。 しかし、現実の移動データにおけるデータ品質の問題(位置情報情報不足、非現実的なチェックイン、データ空間)は、実際のアプリケーションに適用した場合、既存のPOI指向の研究の有効性を制限する。 そこで本稿では,2方向の時空間依存性とユーザの動的嗜好を統合可能なBi-STDDPというモデルを開発し,ユーザが特定の時間に訪れた場合のPOIチェックインを識別する。 具体的には,poisの双方向大域的空間的および局所的時間的情報を用いて,複雑な依存関係を捉える。 そして、ユーザとPOI情報を組み合わせたターゲット時間パターンを多層ネットワークに入力し、ユーザの動的嗜好をキャプチャする。 さらに、動的選好は、最終的なモデルを形成するための依存関係と同じ空間に変換される。 最後に,提案手法を3つの大規模実世界のデータセットで評価し,本モデルの有効性を最先端の手法と比較した。 また,提案手法を自然に拡張してPOI推薦や位置予測タスクを競合性能で処理できることも注目に値する。

Human mobility data accumulated from Point-of-Interest (POI) check-ins provides great opportunity for user behavior understanding. However, data quality issues (e.g., geolocation information missing, unreal check-ins, data sparsity) in real-life mobility data limit the effectiveness of existing POI-oriented studies, e.g., POI recommendation and location prediction, when applied to real applications. To this end, in this paper, we develop a model, named Bi-STDDP, which can integrate bi-directional spatio-temporal dependence and users' dynamic preferences, to identify the missing POI check-in where a user has visited at a specific time. Specifically, we first utilize bi-directional global spatial and local temporal information of POIs to capture the complex dependence relationships. Then, target temporal pattern in combination with user and POI information are fed into a multi-layer network to capture users' dynamic preferences. Moreover, the dynamic preferences are transformed into the same space as the dependence relationships to form the final model. Finally, the proposed model is evaluated on three large-scale real-world datasets and the results demonstrate significant improvements of our model compared with state-of-the-art methods. Also, it is worth noting that the proposed model can be naturally extended to address POI recommendation and location prediction tasks with competitive performances.
翻訳日:2022-01-03 15:46:37 公開日:2021-12-31
# 生産・再生作業における行動から知覚的意思決定パラメータを推定する

Inferring perceptual decision making parameters from behavior in production and reproduction tasks ( http://arxiv.org/abs/2112.15521v1 )

ライセンス: Link先を確認
Nils Neup\"artl and Constantin A. Rothkopf(参考訳) ベイズ行動のモデルは、様々な心理物理学的タスクにおいて計算レベルの説明を提供している。 1つの基本的な実験パラダイムは生産または再生タスクであり、被験者は、以前に感知された刺激の大きさを再現するか、目標応答を達成するアクションを生成するように指示される。 このタイプのタスクは、反応が連続的であり、努力が反応の規模を増大させる上で重要な役割を果たすという点において、他の精神物理学的なタスクと自身を区別する。 ベイズ決定理論に基づいて,人間の反応に基づく知覚の不確実性,応答変動性,コスト関数を回復する推論手法を提案する。 重要なことに、コスト関数は、作業が明示的に含まれるようにパラメータ化される。 本稿では,適切な提案分布を用いたMCMCサンプリングと,最適応答分布のモードを近似したニューラルネットワークを用いた償却推論を用いた内部ループを用いたハイブリッド推論手法を提案する。 本研究では, このモデルを用いて, 実験設計の不確定性を回避し, パラメータを合成および実験データに対する検証により回収できることを示す。 本稿では,行動科学者が生産・再生タスクにおける意思決定パラメータのベイズ推定を行う。

Bayesian models of behavior have provided computational level explanations in a range of psychophysical tasks. One fundamental experimental paradigm is the production or reproduction task, in which subjects are instructed to generate an action that either reproduces a previously sensed stimulus magnitude or achieves a target response. This type of task therefore distinguishes itself from other psychophysical tasks in that the responses are on a continuum and effort plays an important role with increasing response magnitude. Based on Bayesian decision theory we present an inference method to recover perceptual uncertainty, response variability, and the cost function underlying human responses. Crucially, the cost function is parameterized such that effort is explicitly included. We present a hybrid inference method employing MCMC sampling utilizing appropriate proposal distributions and an inner loop utilizing amortized inference with a neural network that approximates the mode of the optimal response distribution. We show how this model can be utilized to avoid unidentifiability of experimental designs and that parameters can be recovered through validation on synthetic and application to experimental data. Our approach will enable behavioral scientists to perform Bayesian inference of decision making parameters in production and reproduction tasks.
翻訳日:2022-01-03 15:46:13 公開日:2021-12-31
# ランダムウォークに基づく自己教師型学習によるスケーラブルディープグラフクラスタリング

Scalable Deep Graph Clustering with Random-walk based Self-supervised Learning ( http://arxiv.org/abs/2112.15530v1 )

ライセンス: Link先を確認
Xiang Li (1), Dong Li (2), Ruoming Jin (2), Gagan Agrawal (3), Rajiv Ramnath (4) ((1) Ohio State University, (2) Kent State University, (3) Augusta University)(参考訳) Webベースのインタラクションは、しばしば属性付きグラフによって表現され、そのようなグラフのノードクラスタリングは最近、多くの注目を集めています。 グラフ畳み込みネットワーク(GCN: Graph Convolutional Networks)の適用は成功したが、GCNが過度にスムースな問題に悩まされていることが示されているため、精度にいくつかの制限がある。 他の方法(特にラプラシアン・スムーシングに基づくもの)では精度が向上しているが、全ての作業の基本的な制限はスケーラビリティの欠如である。 本稿では,ラプラシアン平滑化を一般ページランクに関連付け,ランダムウォークに基づくアルゴリズムをスケーラブルなグラフフィルタとして適用することで,この問題に対処する。 これは、我々のスケーラブルなディープクラスタリングアルゴリズムRwSLの基礎となり、セルフ教師付きミニバッチトレーニング機構により、サンプルクラスタ割り当て分布のためのディープニューラルネットワークとクラスタリング指向の埋め込みのためのオートエンコーダを同時に最適化する。 実世界の6つのデータセットと6つのクラスタリングメトリクスを用いて、RwSLが最近のベースラインよりも改善された結果を得たことを示す。 最も注目すべきは、rwslが他のすべてのディープクラスタリングフレームワークと異なり、100万以上のノード、すなわちwebスケールを扱うグラフを越えてスケールし続けることができることです。 また、単一のgpuだけで18億のエッジを持つグラフ上で、rwslがノードクラスタリングを実行する方法も示しています。

Web-based interactions can be frequently represented by an attributed graph, and node clustering in such graphs has received much attention lately. Multiple efforts have successfully applied Graph Convolutional Networks (GCN), though with some limits on accuracy as GCNs have been shown to suffer from over-smoothing issues. Though other methods (particularly those based on Laplacian Smoothing) have reported better accuracy, a fundamental limitation of all the work is a lack of scalability. This paper addresses this open problem by relating the Laplacian smoothing to the Generalized PageRank and applying a random-walk based algorithm as a scalable graph filter. This forms the basis for our scalable deep clustering algorithm, RwSL, where through a self-supervised mini-batch training mechanism, we simultaneously optimize a deep neural network for sample-cluster assignment distribution and an autoencoder for a clustering-oriented embedding. Using 6 real-world datasets and 6 clustering metrics, we show that RwSL achieved improved results over several recent baselines. Most notably, we show that RwSL, unlike all other deep clustering frameworks, can continue to scale beyond graphs with more than one million nodes, i.e., handle web-scale. We also demonstrate how RwSL could perform node clustering on a graph with 1.8 billion edges using only a single GPU.
翻訳日:2022-01-03 15:45:54 公開日:2021-12-31
# 機械学習によるマップの試行 - フローベースのサンプリングのスケールアップへの第一歩

Machine Learning Trivializing Maps: A First Step Towards Understanding How Flow-Based Samplers Scale Up ( http://arxiv.org/abs/2112.15532v1 )

ライセンス: Link先を確認
Luigi Del Debbio and Joe Marsh Rossney and Michael Wilson(参考訳) 自明写像 (trivializing map) とは、ジャコビアン行列式が作用における相互作用項を正確に取り消し、サンプリングが自明な分布の決定論的変換という観点から理論の表現を提供する場変換である。 albergo, kanwar, shanahan [arxiv:1904.12072] による原理実証研究により、自明写像の近似は \textit{normalizing flow} と呼ばれる可逆可微分ニューラルネットワークのクラスによって「機械学習」できることが示された。 ヤコビ行列式を効率的に計算できることを保証することにより、簡単な分布からサンプルを描画してネットワークに渡すことで、関心理論からの漸近的に正確なサンプリングを行うことができる。 理論的には、このアプローチは従来のマルコフ連鎖モンテカルロサンプリング技術よりも効率的になる可能性があり、自己相関は連続体限界に近づくにつれてサンプリング効率を著しく低下させる。 大きな欠点は、モデルのサイズとトレーニングコストがスケールすると予想されているのか、まだ分かっていないことだ。 まず,2次元の$\phi^4$と最大20^2$の格子サイトを用いた探索的スケーリング調査を行った。 私たちの研究の範囲は特定のモデルアーキテクチャとトレーニングアルゴリズムに限定されているが、最初の結果はトレーニングコストが非常に速く増加する興味深い図を示している。 本稿では,スケーリングの貧弱さに対する候補的説明を述べるとともに,今後の作業状況を明らかにするための意図について概説する。

A trivializing map is a field transformation whose Jacobian determinant exactly cancels the interaction terms in the action, providing a representation of the theory in terms of a deterministic transformation of a distribution from which sampling is trivial. Recently, a proof-of-principle study by Albergo, Kanwar and Shanahan [arXiv:1904.12072] demonstrated that approximations of trivializing maps can be `machine-learned' ; by a class of invertible, differentiable neural models called \textit{normalizing flows}. By ensuring that the Jacobian determinant can be computed efficiently, asymptotically exact sampling from the theory of interest can be performed by drawing samples from a simple distribution and passing them through the network. From a theoretical perspective, this approach has the potential to become more efficient than traditional Markov Chain Monte Carlo sampling techniques, where autocorrelations severely diminish the sampling efficiency as one approaches the continuum limit. A major caveat is that it is not yet understood how the size of models and the cost of training them is expected to scale. As a first step, we have conducted an exploratory scaling study using two-dimensional $\phi^4$ with up to $20^2$ lattice sites. Although the scope of our study is limited to a particular model architecture and training algorithm, initial results paint an interesting picture in which training costs grow very quickly indeed. We describe a candidate explanation for the poor scaling, and outline our intentions to clarify the situation in future work.
翻訳日:2022-01-03 15:45:27 公開日:2021-12-31
# マルチスケール学習を用いたデュアルパス接続を用いた高能率単一画像超解像

Efficient Single Image Super-Resolution Using Dual Path Connections with Multiple Scale Learning ( http://arxiv.org/abs/2112.15386v1 )

ライセンス: Link先を確認
Bin-Cheng Yang and Gangshan Wu(参考訳) 近年、ディープ畳み込みニューラルネットワークはSISRに有効であることが示されている。 一方, フォワード情報や後方勾配流を緩和し, 性能を向上させるために, 残差接続と密接な接続が広く利用されている。 しかし、現在の手法では、ほとんどのネットワーク層でサブ最適方法で、残差接続と高密度接続を別々に使用する。 一方, 計算効率の向上やパラメータの削減, 性能向上のために複数のスケールファクタのトレーニングデータの利用など, 様々なネットワークや手法が設計されているが, HR空間での超解像処理によって計算コストが高くなるか, パラメータと推定時間を節約するために, 異なるスケールファクタのモデル間でパラメータを共有できないかのどちらかである。 これらの課題に対処するために,EMSRDPN という名前のマルチスケール学習とデュアルパス接続を用いた効率的な単一画像超解像ネットワークを提案する。 デュアルパスネットワークにインスパイアされたデュアルパス接続をEMSRDPNに導入することにより、ほとんどのネットワーク層において残差接続と高密度接続を使用する。 デュアルパス接続は、残留接続の共通特徴の再利用と、SISRの優れた表現を学ぶための高密度接続の新たな特徴の探索の両方の利点がある。 EMSRDPNは、複数のスケールファクタの特徴相関を利用するために、異なるスケールファクタ間でLR空間内の全てのネットワークユニットを共有して共有特徴を学習し、複数のスケールファクタのトレーニングデータを利用して性能を向上させるとともに、複数のスケールファクタのパラメータを節約し、共有推論をサポートし、効率を向上させる。 実験により、EMSRDPNはSOTA法よりも優れた性能と同等またはそれ以上のパラメータと推論効率を達成することが示された。

Deep convolutional neural networks have been demonstrated to be effective for SISR in recent years. On the one hand, residual connections and dense connections have been used widely to ease forward information and backward gradient flows to boost performance. However, current methods use residual connections and dense connections separately in most network layers in a sub-optimal way. On the other hand, although various networks and methods have been designed to improve computation efficiency, save parameters, or utilize training data of multiple scale factors for each other to boost performance, it either do super-resolution in HR space to have a high computation cost or can not share parameters between models of different scale factors to save parameters and inference time. To tackle these challenges, we propose an efficient single image super-resolution network using dual path connections with multiple scale learning named as EMSRDPN. By introducing dual path connections inspired by Dual Path Networks into EMSRDPN, it uses residual connections and dense connections in an integrated way in most network layers. Dual path connections have the benefits of both reusing common features of residual connections and exploring new features of dense connections to learn a good representation for SISR. To utilize the feature correlation of multiple scale factors, EMSRDPN shares all network units in LR space between different scale factors to learn shared features and only uses a separate reconstruction unit for each scale factor, which can utilize training data of multiple scale factors to help each other to boost performance, meanwhile which can save parameters and support shared inference for multiple scale factors to improve efficiency. Experiments show EMSRDPN achieves better performance and comparable or even better parameter and inference efficiency over SOTA methods.
翻訳日:2022-01-03 15:44:20 公開日:2021-12-31
# ネットワーク上の分散ランダムリシャフリング

Distributed Random Reshuffling over Networks ( http://arxiv.org/abs/2112.15287v1 )

ライセンス: Link先を確認
Kun Huang, Xiao Li, Andre Milzarek, Shi Pu, and Junwen Qiu(参考訳) 本稿では,ローカルコスト関数を持つ$n$エージェントが,ネットワーク上のローカルコスト関数の平均を協調的に最小化する分散最適化問題を考察する。 本研究では,従来の分散勾配降下法 (dgd) 法とランダム回帰法 (rr) を組み合わせた分散ランダムリシャッフル法 (d-rr) を提案する。 D-RR は滑らかな凸関数と滑らかな非凸関数の両方に対して RR の優越性を継承することを示す。 特に、滑らかな強凸対象函数に対して、D-RR はイテレートと一意の最小値の間の平方距離の収束率 $\mathcal{O}(1/T^2)$ を達成する(ここでは、$T$ は反復の総数を数える)。 目的関数が滑らかな非凸でリプシッツ連続成分関数を持つと仮定すると、D-RR が勾配の平方ノルムを $0$ に、$\mathcal{O}(1/T^{2/3})$ の速度で駆動することを示す。 これらの収束結果は(定数因子まで)集中型RRと一致する。

In this paper, we consider the distributed optimization problem where $n$ agents, each possessing a local cost function, collaboratively minimize the average of the local cost functions over a connected network. To solve the problem, we propose a distributed random reshuffling (D-RR) algorithm that combines the classical distributed gradient descent (DGD) method and Random Reshuffling (RR). We show that D-RR inherits the superiority of RR for both smooth strongly convex and smooth nonconvex objective functions. In particular, for smooth strongly convex objective functions, D-RR achieves $\mathcal{O}(1/T^2)$ rate of convergence (here, $T$ counts the total number of iterations) in terms of the squared distance between the iterate and the unique minimizer. When the objective function is assumed to be smooth nonconvex and has Lipschitz continuous component functions, we show that D-RR drives the squared norm of gradient to $0$ at a rate of $\mathcal{O}(1/T^{2/3})$. These convergence results match those of centralized RR (up to constant factors).
翻訳日:2022-01-03 15:42:42 公開日:2021-12-31
# 畳み込みニューラルネットワークを用いたTAIGA実験における複数IACT画像の処理

Processing Images from Multiple IACTs in the TAIGA Experiment with Convolutional Neural Networks ( http://arxiv.org/abs/2112.15382v1 )

ライセンス: Link先を確認
Stanislav Polyakov, Andrey Demichev, Alexander Kryukov, Evgeny Postnikov(参考訳) 地球大気と相互作用する高エネルギー粒子によって生成される広範囲の空気シャワーは、チェレンコフ望遠鏡 (iacts) で観測できる。 IACT画像はガンマ線とハドロンによって引き起こされる事象を区別し、一次粒子のエネルギーなどの事象のパラメータを推測するために分析することができる。 我々は、TAIGA実験の望遠鏡からモンテカルロシミュレーション画像を分析するために畳み込みニューラルネットワーク(CNN)を用いる。 この分析は、ガンマ線によるシャワーに対応する画像の選択と、ガンマ線のエネルギーを推定することを含む。 一つの望遠鏡の画像と2つの望遠鏡の画像を用いてCNNの性能を比較した。

Extensive air showers created by high-energy particles interacting with the Earth atmosphere can be detected using imaging atmospheric Cherenkov telescopes (IACTs). The IACT images can be analyzed to distinguish between the events caused by gamma rays and by hadrons and to infer the parameters of the event such as the energy of the primary particle. We use convolutional neural networks (CNNs) to analyze Monte Carlo-simulated images from the telescopes of the TAIGA experiment. The analysis includes selection of the images corresponding to the showers caused by gamma rays and estimating the energy of the gamma rays. We compare performance of the CNNs using images from a single telescope and the CNNs using images from two telescopes as inputs.
翻訳日:2022-01-03 15:42:19 公開日:2021-12-31
# パーコレーションと有向パーコレーションにおける相転移の転移学習

Transfer learning of phase transitions in percolation and directed percolation ( http://arxiv.org/abs/2112.15516v1 )

ライセンス: Link先を確認
Jianmin Shen, Feiyi Liu, Shiyang Chen, Dian Xu, Xiangna Chen, Shengfeng Deng, Wei Li, Gabor Papp, Chunbin Yang(参考訳) 統計物理学の最近の進歩は、位相遷移の同定における機械学習の顕著な性能を示している。 本稿では,伝達学習に基づくドメイン逆ニューラルネットワーク(dann)を,それぞれパーコレーションモデルと指向型パーコレーション(dp)モデルである非平衡相転移モデルと平衡相転移モデルの研究に適用する。 DANNでは、臨界点を捉えるために、少数の入力構成(2d画像)にラベルを付ける必要があり、それが自動的に選択される。 DPモデルを学習するために、クリティカル指数$\nu_{\perp}$を計算する際のデータ崩壊の前提条件である臨界点を決定する反復的な手順により、この手法を洗練する。 次に,順序パラメータに関連する情報を含む可能性のある最大のクラスタのみを含むようにフィルタされた2次元のサイトパーコレーションに適用する。 両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。 また,本研究では,教師付き学習に比べて,極めて低いコストで極めて高い精度が得られることを示した。

The latest advances of statistical physics have shown remarkable performance of machine learning in identifying phase transitions. In this paper, we apply domain adversarial neural network (DANN) based on transfer learning to studying non-equilibrium and equilibrium phase transition models, which are percolation model and directed percolation (DP) model, respectively. With the DANN, only a small fraction of input configurations (2d images) needs to be labeled, which is automatically chosen, in order to capture the critical point. To learn the DP model, the method is refined by an iterative procedure in determining the critical point, which is a prerequisite for the data collapse in calculating the critical exponent $\nu_{\perp}$. We then apply the DANN to a two-dimensional site percolation with configurations filtered to include only the largest cluster which may contain the information related to the order parameter. The DANN learning of both models yields reliable results which are comparable to the ones from Monte Carlo simulations. Our study also shows that the DANN can achieve quite high accuracy at much lower cost, compared to the supervised learning.
翻訳日:2022-01-03 15:42:08 公開日:2021-12-31
# (参考訳) 機械学習による疾患診断 : 包括的レビュー [全文訳有]

Machine learning based disease diagnosis: A comprehensive review ( http://arxiv.org/abs/2112.15538v1 )

ライセンス: CC BY 4.0
Md Manjurul Ahsan, Zahed Siddique(参考訳) 世界中で、様々な病気を効果的に診断する必要性は極めて大きい。 異なる疾患のメカニズムと患者集団の根本症状の複雑さは、早期診断ツールの開発と効果的な治療に多大な困難をもたらす。 人工知能(ai)の分野である機械学習(ml)は、研究者、医師、患者がこれらの問題を解決することができる。 関連する研究に基づいて、機械学習(ML)とディープラーニング(DL)が、多くの病気の早期発見にどのように利用されているかを説明する。 まず、Scopus and Web of Science (WOS)データベースのデータを用いて、出版物に関する文献学的研究を行う。 1216の出版物に関する文献学的研究は、最も多作な著者、国、組織、そして最も引用された記事を決定するために行われた。 次に、アルゴリズム、疾患タイプ、データタイプ、アプリケーション、評価メトリクスといった要素を考慮して、機械学習に基づく疾患診断(mlbdd)における最新のトレンドとアプローチを要約する。 最後に、この論文は重要な結果を強調し、MLBDD領域における今後のトレンドと機会についての洞察を提供する。

Globally, there is a substantial unmet need to diagnose various diseases effectively. The complexity of the different disease mechanisms and underlying symptoms of the patient population presents massive challenges to developing the early diagnosis tool and effective treatment. Machine Learning (ML), an area of Artificial Intelligence (AI), enables researchers, physicians, and patients to solve some of these issues. Based on relevant research, this review explains how Machine Learning (ML) and Deep Learning (DL) are being used to help in the early identification of numerous diseases. To begin, a bibliometric study of the publication is given using data from the Scopus and Web of Science (WOS) databases. The bibliometric study of 1216 publications was undertaken to determine the most prolific authors, nations, organizations, and most cited articles. The review then summarizes the most recent trends and approaches in Machine Learning-based Disease Diagnosis (MLBDD), considering the following factors: algorithm, disease types, data type, application, and evaluation metrics. Finally, the paper highlights key results and provides insight into future trends and opportunities in the MLBDD area.
翻訳日:2022-01-03 15:39:34 公開日:2021-12-31
# 複雑な天然物における未知の外観再構築のための3次元物質移動

3-D Material Style Transfer for Reconstructing Unknown Appearance in Complex Natural Materials ( http://arxiv.org/abs/2112.15589v1 )

ライセンス: Link先を確認
Shashank Ranjan and Corey Toler-Franklin(参考訳) 本研究では, 複雑な天然物から目に見えない(あるいは失明した)外観特性を再構築するための3次元物質移動フレームワークを提案する。 本アルゴリズムは,両物体が複雑で非対応な色パターンを持つ場合,外見特性を同一物質から同一物質に伝達する技術的課題に対処する。 例えば、卵殻、外骨格、鉱物は、高度にランダム化された有機および無機化合物からなるパターンを持つ。 これらの材料は、物体から物体、および局所パターン領域における表面色変化を決定する化合物の分布として、課題となる。 提案手法は, 対象物の材料特性分布を例示する材料特性分布からの外観観察に適応し, その未知の外観を再構成する。 我々は,3次元バイスペクトルテクスチャの反射率を測定し,変化する材料特性の分布を記録する。 球面高調波の新たな実装では,化学と生物学の原理を用いて,色(色と彩度)と物質組成・濃度の関係を学習する。 符号化された関係は、色回復および材料割り当てのためのターゲットの特性分布に変換される。 定量的および質的評価法は,形状対応や粗いレベルの知覚差にのみ依存する手法よりも,色パターンを正確に再現することを示す。 本研究は,絶滅した化石の色を復元し,消失した遺物を復元し,合成テクスチャを生成するための応用例を示す。

We propose a 3-D material style transfer framework for reconstructing invisible (or faded) appearance properties in complex natural materials. Our algorithm addresses the technical challenge of transferring appearance properties from one object to another of the same material when both objects have intricate, noncorresponding color patterns. Eggshells, exoskeletons, and minerals, for example, have patterns composed of highly randomized layers of organic and inorganic compounds. These materials pose a challenge as the distribution of compounds that determine surface color changes from object to object and within local pattern regions. Our solution adapts appearance observations from a material property distribution in an exemplar to the material property distribution of a target object to reconstruct its unknown appearance. We use measured reflectance in 3-D bispectral textures to record changing material property distributions. Our novel implementation of spherical harmonics uses principles from chemistry and biology to learn relationships between color (hue and saturation) and material composition and concentration in an exemplar. The encoded relationships are transformed to the property distribution of a target for color recovery and material assignment. Quantitative and qualitative evaluation methods show that we replicate color patterns more accurately than methods that only rely on shape correspondences and coarse-level perceptual differences. We demonstrate applications of our work for reconstructing color in extinct fossils, restoring faded artifacts and generating synthetic textures.
翻訳日:2022-01-03 15:07:18 公開日:2021-12-31
# ユーザのイベントシーケンス解析のためのニューラルネットワーク階層化マシン

Neural Hierarchical Factorization Machines for User's Event Sequence Analysis ( http://arxiv.org/abs/2112.15292v1 )

ライセンス: Link先を確認
Dongbo Xi, Fuzhen Zhuang, Bowen Song, Yongchun Zhu, Shuai Chen, Dan Hong, Tao Chen, Xi Gu, Qing He(参考訳) 実世界のアプリケーションの多くの予測タスクは、より優れた検出性能を得るために、ユーザのイベントシーケンスにおけるマルチオーダー機能インタラクションをモデル化する必要がある。 しかし、既存のポピュラーなソリューションは通常2つの大きな問題に悩まされる。 1) 特徴的相互作用のみに着目して,シーケンスの影響を捉えない。 2) シーケンス情報のみに注目するが、各イベントの内部的特徴関係を無視し、よりよいイベント表現を抽出できない。 本稿では,ユーザのイベントシーケンス上で階層情報をキャプチャする2レベル構造について検討する。 1)効果的な特徴相互作用に基づくイベント表現の学習 2)ユーザの履歴イベントのシーケンス表現のモデル化。 産業用および公共用両方のデータセットに対する実験結果から,本モデルが最先端のベースラインに比べて性能が著しく向上していることが明らかとなった。

Many prediction tasks of real-world applications need to model multi-order feature interactions in user's event sequence for better detection performance. However, existing popular solutions usually suffer two key issues: 1) only focusing on feature interactions and failing to capture the sequence influence; 2) only focusing on sequence information, but ignoring internal feature relations of each event, thus failing to extract a better event representation. In this paper, we consider a two-level structure for capturing the hierarchical information over user's event sequence: 1) learning effective feature interactions based event representation; 2) modeling the sequence representation of user's historical events. Experimental results on both industrial and public datasets clearly demonstrate that our model achieves significantly better performance compared with state-of-the-art baselines.
翻訳日:2022-01-03 15:03:17 公開日:2021-12-31
# 説明可能なAIのための帰納的論理プログラミング手法の批判的レビュー

A Critical Review of Inductive Logic Programming Techniques for Explainable AI ( http://arxiv.org/abs/2112.15319v1 )

ライセンス: Link先を確認
Zheng Zhang, Levent Yilmaz and Bo Liu(参考訳) 最近の機械学習アルゴリズムの進歩にもかかわらず、基盤となるメカニズムの不透明さが採用の障害となっている。 人工知能システムの信頼性と信頼性を高めるために、現代の機械学習アルゴリズムの説明可能性の向上に対する反応として説明可能な人工知能が登場した。 インダクティブ論理プログラミング(ILP)は,その直感的な論理駆動型フレームワークによって解釈可能な説明を生成する上で,有望な役割を担っている。 ilpは帰納的推論を効果的に活用し、例と背景知識から説明可能な一階クラウス理論を生成する。 しかし、ICPにインスパイアされた手法開発におけるいくつかの課題は、実際に成功したアプリケーションに対処する必要がある。 例えば、既存のILPシステムは広大な解空間を持ち、誘導された解はノイズや乱れに非常に敏感である。 本稿では、ilpの最近の進歩と、icpの相乗的視点を提供する統計的関係学習とニューラルシンボリックアルゴリズムの議論を要約する。 近年の進歩を批判的にレビューし、観察した課題を概説し、自己説明型人工知能システムの開発に向けたさらなる ilp モチベーション研究の可能性を強調した。

Despite recent advances in modern machine learning algorithms, the opaqueness of their underlying mechanisms continues to be an obstacle in adoption. To instill confidence and trust in artificial intelligence systems, Explainable Artificial Intelligence has emerged as a response to improving modern machine learning algorithms' explainability. Inductive Logic Programming (ILP), a subfield of symbolic artificial intelligence, plays a promising role in generating interpretable explanations because of its intuitive logic-driven framework. ILP effectively leverages abductive reasoning to generate explainable first-order clausal theories from examples and background knowledge. However, several challenges in developing methods inspired by ILP need to be addressed for their successful application in practice. For example, existing ILP systems often have a vast solution space, and the induced solutions are very sensitive to noises and disturbances. This survey paper summarizes the recent advances in ILP and a discussion of statistical relational learning and neural-symbolic algorithms, which offer synergistic views to ILP. Following a critical review of the recent advances, we delineate observed challenges and highlight potential avenues of further ILP-motivated research toward developing self-explanatory artificial intelligence systems.
翻訳日:2022-01-03 15:03:04 公開日:2021-12-31
# ソフトアクター批判のアクター損失について

Actor Loss of Soft Actor Critic Explained ( http://arxiv.org/abs/2112.15568v1 )

ライセンス: Link先を確認
Thibault Lahire(参考訳) 本技術報告は,アクターのソフトアクター批評家の喪失と関連する勾配推定について述べるものである。 これは、理論的なアクター損失から実際に実装された方程式まで、すべての表現方程式を導出するために必要な数学的背景を与える。 これは、ソフトアクタ批評家がnablaログトリックで使用する再パラメータ化トリックと比べる必要があり、最も効率的な方法に関する疑問が開かれた。

This technical report is devoted to explaining how the actor loss of soft actor critic is obtained, as well as the associated gradient estimate. It gives the necessary mathematical background to derive all the presented equations, from the theoretical actor loss to the one implemented in practice. This necessitates a comparison of the reparameterization trick used in soft actor critic with the nabla log trick, which leads to open questions regarding the most efficient method to use.
翻訳日:2022-01-03 15:02:45 公開日:2021-12-31
# オフライン強化学習のためのシングルショットプルーニング

Single-Shot Pruning for Offline Reinforcement Learning ( http://arxiv.org/abs/2112.15579v1 )

ライセンス: Link先を確認
Samin Yeasar Arnob, Riyasat Ohib, Sergey Plis, Doina Precup(参考訳) deep reinforcement learning(rl)は、複雑な現実世界の問題を解決する強力なフレームワークである。 フレームワークで使用される大規模なニューラルネットワークは、伝統的により優れた一般化機能に関連付けられているが、そのサイズの増加は、広範なトレーニング期間、相当なハードウェアリソース、より長い推論時間の欠点を伴う。 この問題に取り組む1つの方法は、必要なパラメータだけを残すニューラルネットワークをpruneすることです。 データの分散が固定されたアプリケーションでは,最先端の並列プルーニング手法が極めてうまく機能する。 しかし、これらはまだRLの文脈で十分に研究されていない。 我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。 固定データセットを利用して、RLトレーニングを開始する前にニューラルネットワークをプルークする。 次に,ネットワーク幅の異なる実験を行い,連続制御タスクの初期化手法におけるプルーニングの有効性を評価する。 以上の結果から,ネットワーク重みの95%を切断したオフラインRLアルゴリズムは,実験の大部分で性能を維持できることがわかった。 我々の知る限り、RLにおけるプルーニングを利用した事前の作業は、これほど高いレベルの性能を維持しませんでした。 さらに、初期化手法でのプルーニングは学習目標を変更することなく既存のオフライン-RLアルゴリズムに容易に組み込むことができる。

Deep Reinforcement Learning (RL) is a powerful framework for solving complex real-world problems. Large neural networks employed in the framework are traditionally associated with better generalization capabilities, but their increased size entails the drawbacks of extensive training duration, substantial hardware resources, and longer inference times. One way to tackle this problem is to prune neural networks leaving only the necessary parameters. State-of-the-art concurrent pruning techniques for imposing sparsity perform demonstrably well in applications where data distributions are fixed. However, they have not yet been substantially explored in the context of RL. We close the gap between RL and single-shot pruning techniques and present a general pruning approach to the Offline RL. We leverage a fixed dataset to prune neural networks before the start of RL training. We then run experiments varying the network sparsity level and evaluating the validity of pruning at initialization techniques in continuous control tasks. Our results show that with 95% of the network weights pruned, Offline-RL algorithms can still retain performance in the majority of our experiments. To the best of our knowledge, no prior work utilizing pruning in RL retained performance at such high levels of sparsity. Moreover, pruning at initialization techniques can be easily integrated into any existing Offline-RL algorithms without changing the learning objective.
翻訳日:2022-01-03 15:02:36 公開日:2021-12-31
# 道路交通のためのインテリジェント自動運転トラックシステム

An Intelligent Self-driving Truck System For Highway Transportation ( http://arxiv.org/abs/2112.15304v1 )

ライセンス: Link先を確認
Dawei Wang, Lingping Gao, Ziquan Lan, Wei Li, Jiaping Ren, Jiahui Zhang, Peng Zhang, Pei Zhou, Shengao Wang, Jia Pan, Dinesh Manocha and Ruigang Yang(参考訳) 近年、自動運転社会には多くの進歩があり、学界や産業から多くの注目を集めている。 しかし、既存の仕事は主に車に焦点を当てており、自動運転トラックのアルゴリズムやモデルにはさらなる開発が必要である。 本稿では,インテリジェントな自動運転トラックシステムを提案する。 提案システムは3つの主成分から構成される。 1)テストシナリオにおける現実的なトラヒックフローを生成するための現実的なトラヒックシミュレーションモジュール 2)実世界の展開における実車応答を模倣した高忠実度トラックモデルの設計と評価 3)学習に基づく意思決定アルゴリズムと多モード軌道プランナを備えたインテリジェントな計画モジュールで,トラックの制約,道路斜面の変化,周辺交通流を考慮した。 各部品について個別に定量的評価を行い,各部品の忠実性と性能を示す。 また,提案するシステムを実車に展開し,実車間ギャップを緩和するシステムの能力を示す実物実験を行う。 私たちのコードはhttps://github.com/I nceptioResearch/IITS で利用可能です。

Recently, there have been many advances in autonomous driving society, attracting a lot of attention from academia and industry. However, existing works mainly focus on cars, extra development is still required for self-driving truck algorithms and models. In this paper, we introduce an intelligent self-driving truck system. Our presented system consists of three main components, 1) a realistic traffic simulation module for generating realistic traffic flow in testing scenarios, 2) a high-fidelity truck model which is designed and evaluated for mimicking real truck response in real-world deployment, 3) an intelligent planning module with learning-based decision making algorithm and multi-mode trajectory planner, taking into account the truck's constraints, road slope changes, and the surrounding traffic flow. We provide quantitative evaluations for each component individually to demonstrate the fidelity and performance of each part. We also deploy our proposed system on a real truck and conduct real world experiments which shows our system's capacity of mitigating sim-to-real gap. Our code is available at https://github.com/I nceptioResearch/IITS
翻訳日:2022-01-03 15:02:17 公開日:2021-12-31
# (参考訳) 病理組織像における癌診断のためのトランスファーラーニング [全文訳有]

Transfer learning for cancer diagnosis in histopathological images ( http://arxiv.org/abs/2112.15523v1 )

ライセンス: CC BY 4.0
Sandhya Aneja, Nagender Aneja, Pg Emeroylariffion Abas, Abdul Ghani Naim(参考訳) トランスファー学習は、あるタスクから得られた知識を活用して、別のタスクの解決を支援することができます。 現代のコンピュータビジョン研究において、問題はどのアーキテクチャが与えられたデータセットに対してより良く機能するかである。 本稿では,各モデルがネーティブモデル,特徴抽出モデル,微調整モデルとして構成された病理組織学的癌検出データセット上で,14種類の画像ネットモデルの性能を比較する。 densenet161は精度が高く、resnet101は高いリコール率を持つ。 フォローアップ試験コストが高い場合には高精度モデルが適しているが、フォローアップ試験コストが低い場合には、精度は低いが高いリコール/感度モデルを用いることができる。 また、トランスファー学習はモデルをより早く収束させるのに役立つ。

Transfer learning allows us to exploit knowledge gained from one task to assist in solving another but relevant task. In modern computer vision research, the question is which architecture performs better for a given dataset. In this paper, we compare the performance of 14 pre-trained ImageNet models on the histopathologic cancer detection dataset, where each model has been configured as a naive model, feature extractor model, or fine-tuned model. Densenet161 has been shown to have high precision whilst Resnet101 has a high recall. A high precision model is suitable to be used when follow-up examination cost is high, whilst low precision but a high recall/sensitivity model can be used when the cost of follow-up examination is low. Results also show that transfer learning helps to converge a model faster.
翻訳日:2022-01-03 15:01:01 公開日:2021-12-31
# p2p-loc:ポイント・ツー・ポイント小人定位

P2P-Loc: Point to Point Tiny Person Localization ( http://arxiv.org/abs/2112.15344v1 )

ライセンス: Link先を確認
Xuehui Yu, Di Wu, Qixiang Ye, Jianbin Jiao and Zhenjun Han(参考訳) バウンディングボックスアノテーション形式は、視覚オブジェクトのローカライゼーションタスクで最も頻繁に使用される方法である。 しかし、バウンディングボックスアノテーションは、コストが高く、労力がかかり、実用的なシナリオでは不可能であり、サイズを気にしていないアプリケーションでも冗長である、バウンディングボックスの正確な注釈の大量に依存する。 そこで本稿では,各人物を対象範囲内の任意の点である粗点(コアポイント)として,正確なバウンディングボックスを使わずにアノテートすることにより,個人ローカライゼーションタスクのための新しいポイントベースフレームワークを提案する。 そして、画像内の2D座標として人物の位置を予測する。 これはデータアノテーションパイプラインを大幅に単純化します。 しかし、粗点アノテーションは必然的にラベル信頼性の低下(ラベルの不確実性)とトレーニング中のネットワーク混乱を引き起こす。 そこで本研究では,ポイントアノテーションを反復的に自己ペースで更新するポイント自己定義手法を提案する。 提案システムでは,ラベルの不確実性を緩和し,局所化性能を徐々に向上させる。 実験の結果,アノテーションを最大80$\%のコストで保存しながら,オブジェクトのローカライゼーション性能が同等であることが確認された。 コードは補充資料に収められている。

Bounding-box annotation form has been the most frequently used method for visual object localization tasks. However, bounding-box annotation relies on the large amounts of precisely annotating bounding boxes, which is expensive, laborious, thus impossible in practical scenarios, and even redundant for some applications caring not about size. Therefore, we propose a novel point-based framework for the person localization task by annotating each person as a coarse point (CoarsePoint) which can be any point within the object extent, instead of an accurate bounding box. And then predict the person's location as a 2D coordinate in the image. That greatly simplifies the data annotation pipeline. However, the CoarsePoint annotation inevitably causes the label reliability decrease (label uncertainty) and network confusion during training. As a result, we propose a point self-refinement approach, which iteratively updates point annotations in a self-paced way. The proposed refinement system alleviates the label uncertainty and progressively improves localization performance. Experiments show that our approach achieves comparable object localization performance while saving annotation cost up to 80$\%$. Code is enclosed in the supplementary materials.
翻訳日:2022-01-03 14:44:40 公開日:2021-12-31
# pifenet:ポイントクラウドからのリアルタイム3d歩行者検出のための柱特徴ネットワーク

PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection from Point Cloud ( http://arxiv.org/abs/2112.15458v1 )

ライセンス: Link先を確認
Duy-Tho Le, Hengcan Shi, Hamid Rezatofighi, Jianfei Cai(参考訳) ポイント雲からの歩行者検出のための,効率的かつ正確なリアルタイム3D検出器PiFeNetを提案する。 歩行者を検知する際の3次元物体検出フレームワークが直面する課題は、柱の特徴の低表現性と、点群における歩行者の小さな占有領域である。 まず,点群内の騒音を抑えつつ,柱の特徴抽出性を高めるために,積み重ね可能な柱認識注意(paa)モジュールを導入する。 マルチポイント・アウェア・プール、ポイントワイズ、チャンネルワイズ、タスクアウェアの注意を単純なモジュールに統合することで、追加のコンピューティングリソースをほとんど必要とせずに表現能力を高めることができる。 また,双方向情報フローとマルチレベルクロススケール機能融合を実現する,小型かつ効果的な機能ネットワークであるmini-bifpnを提案する。 提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。

We present PiFeNet, an efficient and accurate real-time 3D detector for pedestrian detection from point clouds. We address two challenges that 3D object detection frameworks encounter when detecting pedestrians: low expressiveness of pillar features and small occupation areas of pedestrians in point clouds. Firstly, we introduce a stackable Pillar Aware Attention (PAA) module for enhanced pillar features extraction while suppressing noises in the point clouds. By integrating multi-point-aware-po oling, point-wise, channel-wise, and task-aware attention into a simple module, the representation capabilities are boosted while requiring little additional computing resources. We also present Mini-BiFPN, a small yet effective feature network that creates bidirectional information flow and multi-level cross-scale feature fusion to better integrate multi-resolution features. Our approach is ranked 1st in KITTI pedestrian BEV and 3D leaderboards while running at 26 frames per second (FPS), and achieves state-of-the-art performance on Nuscenes detection benchmark.
翻訳日:2022-01-03 14:44:20 公開日:2021-12-31
# (参考訳) PCACE:CNNの解釈可能性に関する統計的アプローチ [全文訳有]

PCACE: A Statistical Approach to Ranking Neurons for CNN Interpretability ( http://arxiv.org/abs/2112.15571v1 )

ライセンス: CC BY 4.0
S\'ilvia Casacuberta, Esra Suel, Seth Flaxman(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の解釈可能性向上における新たな課題を紹介する。 これまでの研究は、CNNを視覚的に解釈する方法に関する問題に焦点を合わせてきたが、どの層やニューロンに注意を向けるべきなのか、ということを問う。 現代のディープラーニングネットワークアーキテクチャの規模が大きいため、ニューロンの相対的重要性をランク付けするためには、自動化された定量的手法が必要である。 ネットワークのどの畳み込み層にも隠れたニューロンをランク付けするための新しい統計手法を提案する。 我々は,アクティベーションマップとクラススコアの最大相関として重要度を定義する。 本手法をmnistおよびimagenetを用いて可視化するために用いる方法が異なる方法を示し, 道路レベル画像を用いた大気汚染予測への実世界への応用を示す。

In this paper we introduce a new problem within the growing literature of interpretability for convolution neural networks (CNNs). While previous work has focused on the question of how to visually interpret CNNs, we ask what it is that we care to interpret, that is, which layers and neurons are worth our attention? Due to the vast size of modern deep learning network architectures, automated, quantitative methods are needed to rank the relative importance of neurons so as to provide an answer to this question. We present a new statistical method for ranking the hidden neurons in any convolutional layer of a network. We define importance as the maximal correlation between the activation maps and the class score. We provide different ways in which this method can be used for visualization purposes with MNIST and ImageNet, and show a real-world application of our method to air pollution prediction with street-level images.
翻訳日:2022-01-03 14:42:36 公開日:2021-12-31
# 十分な統計メモリAMP

Sufficient Statistic Memory AMP ( http://arxiv.org/abs/2112.15327v1 )

ライセンス: Link先を確認
Lei Liu, Shunqi Huang, and Brian M. Kurkoski(参考訳) 近似メッセージパッシング(AMP)は非ガウス信号を用いたある種の高次元線形システムの未知信号再構成のための有望な手法である。 amp型アルゴリズムの特徴は、そのダイナミクスが状態進化によって厳密に記述できる点である。 しかし、状態進化は反復アルゴリズムの収束を必ずしも保証しない。 本稿では,AMP型アルゴリズムの収束問題を原理として,十分な統計条件下でのメモリAMP(MAMP)を提案する。 SS-MAMPの共分散行列はLバンドで収束することを示す。 任意の MAMP が与えられると、減衰により SS-MAMP を構築することができ、これは MAMP の収束を保証するだけでなく、MAMP の直交性も維持する。 副産物としてベイズ最適直交ベクトルAMP(BO-OAMP/VAMP)がSS-MAMPであることが証明される。 その結果,大規模システムに対するBO-OAMP/VAMPの2つの興味深い特性が明らかになった。 1) 共分散行列はLバンドであり、BO-OAMP/VAMPに収束する。 2) 減衰とメモリはbo-oamp/vampでは役に立たない(すなわち性能改善を行わない)。 例えば、状態の進化が一意な不動点を持ち、mseが元のbo-mampよりも悪くない場合にベイズ最適となる十分な統計量ベイズ最適マンプ(bo-mamp)を構築する。 最後に,理論結果の妥当性と正確性を検証するためにシミュレーションを行った。

Approximate message passing (AMP) is a promising technique for unknown signal reconstruction of certain high-dimensional linear systems with non-Gaussian signaling. A distinguished feature of the AMP-type algorithms is that their dynamics can be rigorously described by state evolution. However, state evolution does not necessarily guarantee the convergence of iterative algorithms. To solve the convergence problem of AMP-type algorithms in principle, this paper proposes a memory AMP (MAMP) under a sufficient statistic condition, named sufficient statistic MAMP (SS-MAMP). We show that the covariance matrices of SS-MAMP are L-banded and convergent. Given an arbitrary MAMP, we can construct an SS-MAMP by damping, which not only ensures the convergence of MAMP but also preserves the orthogonality of MAMP, i.e., its dynamics can be rigorously described by state evolution. As a byproduct, we prove that the Bayes-optimal orthogonal/vector AMP (BO-OAMP/VAMP) is an SS-MAMP. As a result, we reveal two interesting properties of BO-OAMP/VAMP for large systems: 1) the covariance matrices are L-banded and are convergent in BO-OAMP/VAMP, and 2) damping and memory are useless (i.e., do not bring performance improvement) in BO-OAMP/VAMP. As an example, we construct a sufficient statistic Bayes-optimal MAMP (BO-MAMP), which is Bayes optimal if its state evolution has a unique fixed point and its MSE is not worse than the original BO-MAMP. Finally, simulations are provided to verify the validity and accuracy of the theoretical results.
翻訳日:2022-01-03 14:27:27 公開日:2021-12-31
# (参考訳) 生成モデリングのための三角流:統計整合性、滑らか性クラス、高速

Triangular Flows for Generative Modeling: Statistical Consistency, Smoothness Classes, and Fast Rates ( http://arxiv.org/abs/2112.15595v1 )

ライセンス: CC BY 4.0
Nicholas J. Irons and Meyer Scetbon and Soumik Pal and Zaid Harchaoui(参考訳) 三角流(Kn\"{o}the-Rosenblatt measure couplings)は、生成モデリングと密度推定のための正規化フローモデルの重要な構成要素であり、実数値非体積保存変換モデル(Real NVP)のような一般的な自己回帰フローモデルを含む。 三角流統計モデルに対する統計的保証とサンプル複雑性境界を示す。 特に、kn\"{o}the-rosenblatt測度結合のkullback-leibler推定器の統計的一貫性と有限サンプル収束率を経験的過程理論のツールを用いて確立する。 本結果は, 三角流における関数クラスの異方性幾何, 最適座標順序付けに光を放ち, ヤコビ流の統計的保証をもたらすものである。 本研究は, 合成データの数値実験を行い, 理論的結果の実用的意義について述べる。

Triangular flows, also known as Kn\"{o}the-Rosenblatt measure couplings, comprise an important building block of normalizing flow models for generative modeling and density estimation, including popular autoregressive flow models such as real-valued non-volume preserving transformation models (Real NVP). We present statistical guarantees and sample complexity bounds for triangular flow statistical models. In particular, we establish the statistical consistency and the finite sample convergence rates of the Kullback-Leibler estimator of the Kn\"{o}the-Rosenblatt measure coupling using tools from empirical process theory. Our results highlight the anisotropic geometry of function classes at play in triangular flows, shed light on optimal coordinate ordering, and lead to statistical guarantees for Jacobian flows. We conduct numerical experiments on synthetic data to illustrate the practical implications of our theoretical findings.
翻訳日:2022-01-03 14:25:18 公開日:2021-12-31
# SplitBrain: ハイブリッドデータとモデル並列ディープラーニング

SplitBrain: Hybrid Data and Model Parallel Deep Learning ( http://arxiv.org/abs/2112.15317v1 )

ライセンス: Link先を確認
Farley Lai, Asim Kadav, Erik Kruus(参考訳) ディープラーニングアプリケーションの最近の成功は、巨大なデータセットを持つ高度な機械学習モデルをトレーニングするための、広く利用可能な強力な計算リソースと一致している。 それでも、モデル並列性(データ並列性とは対照的に)を用いた畳み込みニューラルネットワークなどの大規模モデルのトレーニングは、モデルシャード間の通信の複雑な性質が、許容できるトレードオフで複数のマシン間で効率的に計算を分割することを困難にしているため、難しい。 本稿ではハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。 具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を共配置する層固有のパーティショニングを提供する。 通信オーバーヘッドを低減し,さらにトレーニングスループットを向上させるために,スケーラブルなグループ通信を提案する。 その結果,データとモデル並列VGGをCIFAR-10上で最大67倍のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。

The recent success of deep learning applications has coincided with those widely available powerful computational resources for training sophisticated machine learning models with huge datasets. Nonetheless, training large models such as convolutional neural networks using model parallelism (as opposed to data parallelism) is challenging because the complex nature of communication between model shards makes it difficult to partition the computation efficiently across multiple machines with an acceptable trade-off. This paper presents SplitBrain, a high performance distributed deep learning framework supporting hybrid data and model parallelism. Specifically, SplitBrain provides layer-specific partitioning that co-locates compute intensive convolutional layers while sharding memory demanding layers. A novel scalable group communication is proposed to further improve the training throughput with reduced communication overhead. The results show that SplitBrain can achieve nearly linear speedup while saving up to 67\% of memory consumption for data and model parallel VGG over CIFAR-10.
翻訳日:2022-01-03 14:23:10 公開日:2021-12-31
# inversemv:畳み込みビデオ音楽トランスフォーマーによるピアノ楽譜の作曲

InverseMV: Composing Piano Scores with a Convolutional Video-Music Transformer ( http://arxiv.org/abs/2112.15320v1 )

ライセンス: Link先を確認
Chin-Tung Lin, Mu Yang(参考訳) 多くのソーシャルメディアユーザーは、テキストではなくビデオの形でコンテンツを消費することを好む。 しかし、コンテンツ制作者が高いクリックスルー率でビデオを制作するためには、映像を音楽に合わせるために多くの編集が必要である。 これはアマチュアビデオ制作者にとってさらなる課題を提起する。 そこで本研究では,ビデオフレームからピアノ楽譜を自動的に生成する注意型モデルvmt(video-music transformer)を提案する。 モデルから生成された音楽を使用することで、しばしば既存の音楽を使用する著作権侵害を防止できる。 私たちの知る限りでは、ビデオのための音楽の作曲を目的とした提案されているvmt以外の作業はありません。 さらに、アライメントされたビデオとシンボリック音楽のデータセットが欠けている。 我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。 我々は,VMT,SeqSeqモデル(我々のベースライン),およびオリジナルのピアノバージョンサウンドトラックに対する人間評価実験を行った。 VMTは、音楽のスムーズさとビデオの関連性に基づくベースラインよりも一貫した改善を実現している。 特に,関連性スコアと事例スタディを用いて,音楽生成のためのフレームレベルのアクタの動きに対するマルチモーダリティの能力を示した。 我々のVMTモデルは、新しいデータセットとともに、ビデオのマッチングサウンドトラックを構成するための有望な研究方向を示す。 コードをhttps://github.com/l inchintung/VMTでリリースしました。

Many social media users prefer consuming content in the form of videos rather than text. However, in order for content creators to produce videos with a high click-through rate, much editing is needed to match the footage to the music. This posts additional challenges for more amateur video makers. Therefore, we propose a novel attention-based model VMT (Video-Music Transformer) that automatically generates piano scores from video frames. Using music generated from models also prevent potential copyright infringements that often come with using existing music. To the best of our knowledge, there is no work besides the proposed VMT that aims to compose music for video. Additionally, there lacks a dataset with aligned video and symbolic music. We release a new dataset composed of over 7 hours of piano scores with fine alignment between pop music videos and MIDI files. We conduct experiments with human evaluation on VMT, SeqSeq model (our baseline), and the original piano version soundtrack. VMT achieves consistent improvements over the baseline on music smoothness and video relevance. In particular, with the relevance scores and our case study, our model has shown the capability of multimodality on frame-level actors' movement for music generation. Our VMT model, along with the new dataset, presents a promising research direction toward composing the matching soundtrack for videos. We have released our code at https://github.com/l inchintung/VMT
翻訳日:2022-01-03 14:22:54 公開日:2021-12-31
# グラフに基づく自己チューニングネットワークによる高調波画像再構成

Calibrated Hyperspectral Image Reconstruction via Graph-based Self-Tuning Network ( http://arxiv.org/abs/2112.15362v1 )

ライセンス: Link先を確認
Jiamian Wang, Yulun Zhang, Xin Yuan, Ziyi Meng, Zhiqiang Tao(参考訳) 近年,高スペクトルイメージング(HSI)が注目され,特にCASSI(コーデック・アパーチャ・スナップショット・スペクトル・イメージング)システムに基づく画像が注目されている。 既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクによって与えられる2次元圧縮された測定に基づいて元の信号を取得するためにペア化されたデータに基づいて訓練され、その間、マスクは復元性能に大きな影響を与え、データ拡張を統括する「モデルハイパーパラメータ」として機能する。 このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。 この課題に対処するために,完全変分ベイズ学習処理によるhsiのマスク不確実性を導入し,実際のハードウェアに触発されたマスク分解を通じて明示的にモデル化する。 具体的には,異なるハードウェア間のマスクの空間構造に不確実性を適用するための,新しいグラフ型自己チューニング(gst)ネットワークを提案する。 さらに,マスクのハイパーパラメータ特性を考慮したhsi再構成と不確実性推定を両立する2レベル最適化フレームワークを開発した。 提案したGST法の有効性(33/30dB以上)を2つの誤校正シナリオで検証し,最先端の校正手法と比較して高い競争性能を示した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/J iamian Wang/mask_uncertaint y_spectral_SCIで利用可能です。

Recently, hyperspectral imaging (HSI) has attracted increasing research attention, especially for the ones based on a coded aperture snapshot spectral imaging (CASSI) system. Existing deep HSI reconstruction models are generally trained on paired data to retrieve original signals upon 2D compressed measurements given by a particular optical hardware mask in CASSI, during which the mask largely impacts the reconstruction performance and could work as a "model hyperparameter" governing on data augmentations. This mask-specific training style will lead to a hardware miscalibration issue, which sets up barriers to deploying deep HSI models among different hardware and noisy environments. To address this challenge, we introduce mask uncertainty for HSI with a complete variational Bayesian learning treatment and explicitly model it through a mask decomposition inspired by real hardware. Specifically, we propose a novel Graph-based Self-Tuning (GST) network to reason uncertainties adapting to varying spatial structures of masks among different hardware. Moreover, we develop a bilevel optimization framework to balance HSI reconstruction and uncertainty estimation, accounting for the hyperparameter property of masks. Extensive experimental results and model discussions validate the effectiveness (over 33/30 dB) of the proposed GST method under two miscalibration scenarios and demonstrate a highly competitive performance compared with the state-of-the-art well-calibrated methods. Our code and pre-trained model are available at https://github.com/J iamian Wang/mask_uncertaint y_spectral_SCI
翻訳日:2022-01-03 14:22:33 公開日:2021-12-31
# (参考訳) 野生のベースラインを改善する [全文訳有]

Improving Baselines in the Wild ( http://arxiv.org/abs/2112.15550v1 )

ライセンス: CC BY 4.0
Kazuki Irie, Imanol Schlag, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) 最近リリースされたwildsベンチマークは、ドメインシフトにロバストなモデルとトレーニング戦略の開発に特化した10のデータセットのコレクションです。 いくつかの実験は、WILDSに関する今後の研究に一般的な関心を持ついくつかの批判的な観察をもたらす。 本研究は,iWildCamとFMoWの2つのデータセットに焦点を当てた。 1) 評価基準ごとに個別の相互評価を行うことは, 両データセットにとって重要であること, (2) 検証とテスト性能の弱い相関関係がiwildcamのモデル開発を困難にする可能性があること, (3) ハイパーパラメータのトレーニングのマイナーな変更は, 比較的大きなマージン(主にfmow)でベースラインを改善すること, (4) 特定のドメインと特定のターゲットラベル(主にiwildcam)との間に強い相関があることが示されている。 我々の知る限りでは、これらのデータセットに関する先行研究は、明らかな重要性にもかかわらず、これらの観測を報告していない。 私たちのコードは公開されています。

We share our experience with the recently released WILDS benchmark, a collection of ten datasets dedicated to developing models and training strategies which are robust to domain shifts. Several experiments yield a couple of critical observations which we believe are of general interest for any future work on WILDS. Our study focuses on two datasets: iWildCam and FMoW. We show that (1) Conducting separate cross-validation for each evaluation metric is crucial for both datasets, (2) A weak correlation between validation and test performance might make model development difficult for iWildCam, (3) Minor changes in the training of hyper-parameters improve the baseline by a relatively large margin (mainly on FMoW), (4) There is a strong correlation between certain domains and certain target labels (mainly on iWildCam). To the best of our knowledge, no prior work on these datasets has reported these observations despite their obvious importance. Our code is public.
翻訳日:2022-01-03 14:20:12 公開日:2021-12-31
# シフト同変類似性-列のハイパーベクトル表現を保存する

Shift-Equivariant Similarity-Preservin g Hypervector Representations of Sequences ( http://arxiv.org/abs/2112.15475v1 )

ライセンス: Link先を確認
Dmitri A. Rachkovskij(参考訳) 超次元コンピューティング(HDC、Vector-Symbolic Architectures、略称:VSA)は、認知アーキテクチャや人工知能システムの開発、技術応用、新しいニューロモルフィックおよびナノスケールハードウェアのための有望なフレームワークである。 HDC/VSAは超ベクトル、すなわち大きな固定次元(通常は1000)の分散ベクトル表現で動作する。 HDC/VSAの重要な要素の1つは、様々な種類のデータ(数値スカラーやベクトルからグラフまで)をハイパーベクターに符号化する方法である。 本稿では,配列のシフトに関して等分散性を提供し,近接位置において同一の要素を持つ配列の類似性を保持する列の超ベクトルの形成に関するアプローチを提案する。 提案手法は, 配列要素を合成ハイパーベクターで表現し, 配列要素の順序を表すためにハイパーベクターの置換を利用する。 提案手法はシンボリック文字列の形でデータを含む多様なタスク群を用いて実験的に検討した。 我々のアプローチは、その位置における記号の超ベクトルから列の超ベクトルを形成するため、特徴のないものであるが、サブシーケンスのような様々な特徴を応用した手法と同等の性能を示す。 提案手法はSparse Binary Distributed Representationsとして知られるHDC/VSAモデルのために設計された。 しかし、それらは他のhdc/vsaモデルのフォーマットの超ベクトルやシンボリック文字列以外の型の列に適応することができる。

Hyperdimensional Computing (HDC), also known as Vector-Symbolic Architectures (VSA), is a promising framework for the development of cognitive architectures and artificial intelligence systems, as well as for technical applications and emerging neuromorphic and nanoscale hardware. HDC/VSA operate with hypervectors, i.e., distributed vector representations of large fixed dimension (usually > 1000). One of the key ingredients of HDC/VSA are the methods for encoding data of various types (from numeric scalars and vectors to graphs) into hypervectors. In this paper, we propose an approach for the formation of hypervectors of sequences that provides both an equivariance with respect to the shift of sequences and preserves the similarity of sequences with identical elements at nearby positions. Our methods represent the sequence elements by compositional hypervectors and exploit permutations of hypervectors for representing the order of sequence elements. We experimentally explored the proposed representations using a diverse set of tasks with data in the form of symbolic strings. Although our approach is feature-free as it forms the hypervector of a sequence from the hypervectors of its symbols at their positions, it demonstrated the performance on a par with the methods that apply various features, such as subsequences. The proposed techniques were designed for the HDC/VSA model known as Sparse Binary Distributed Representations. However, they can be adapted to hypervectors in formats of other HDC/VSA models, as well as for representing sequences of types other than symbolic strings.
翻訳日:2022-01-03 14:11:56 公開日:2021-12-31
# 一般部分ランクからのMNLモデルの高速学習とネットワーク形成モデルへの応用

Fast Learning of MNL Model from General Partial Rankings with Application to Network Formation Modeling ( http://arxiv.org/abs/2112.15575v1 )

ライセンス: Link先を確認
Jiaqi Ma, Xingjian Zhang, Qiaozhu Mei(参考訳) MNL(Multinomial Logit)は最も人気のある個別選択モデルの一つで、ランキングデータのモデル化に広く利用されている。 しかし、多くの実世界のランキングデータからMNLを学習するための長年の技術的課題がある: \emph{partial rankings} の MNL の正確な計算は、一般的には難解である。 本研究では,多項式時間複雑性における一般部分ランクのmnl確率を近似するスケーラブルな手法を開発した。 また,提案手法を拡張してMNLの混合学習を行う。 提案手法は,ネットワーク内の新たなエッジの形成を,候補集合よりも友達を選択する個人としてみなす,選択に基づくネットワーク形成モデリングへの応用に特に有用であることを示す。 部分的なランク付けからmnlモデルの混合を学習する問題は、このような応用において自然に生じる。 また,提案手法は,すべてのエッジ形成の時間順序が利用できるという強い仮定を持たずに,ネットワークデータからmnlモデルを学ぶことができる。 提案手法が従来手法よりも正確なパラメータ推定と適合性を実現することを実証するために,合成ネットワークデータと実世界のネットワークデータの両方について実験を行った。

Multinomial Logit (MNL) is one of the most popular discrete choice models and has been widely used to model ranking data. However, there is a long-standing technical challenge of learning MNL from many real-world ranking data: exact calculation of the MNL likelihood of \emph{partial rankings} is generally intractable. In this work, we develop a scalable method for approximating the MNL likelihood of general partial rankings in polynomial time complexity. We also extend the proposed method to learn mixture of MNL. We demonstrate that the proposed methods are particularly helpful for applications to choice-based network formation modeling, where the formation of new edges in a network is viewed as individuals making choices of their friends over a candidate set. The problem of learning mixture of MNL models from partial rankings naturally arises in such applications. And the proposed methods can be used to learn MNL models from network data without the strong assumption that temporal orders of all the edge formation are available. We conduct experiments on both synthetic and real-world network data to demonstrate that the proposed methods achieve more accurate parameter estimation and better fitness of data compared to conventional methods.
翻訳日:2022-01-03 14:11:32 公開日:2021-12-31
# 逆ロバスト線形分類におけるベニグオーバーフィッティング

Benign Overfitting in Adversarially Robust Linear Classification ( http://arxiv.org/abs/2112.15250v1 )

ライセンス: Link先を確認
Jinghui Chen and Yuan Cao and Quanquan Gu(参考訳) 分類器がうるさいトレーニングデータを記憶しながらも優れた一般化性能を発揮できる「良質な過剰フィッティング」は、機械学習コミュニティに大きな注目を集めている。 この驚くべき現象を説明するために、一連の研究は過度にパラメータ化された線形回帰、分類、およびカーネル法の理論的な正当化を提供した。 しかし、敵の例、すなわち分類器を騙すために、小さく意図的な摂動がある例の存在下で、良質な過剰フィッティングがいまだに起こるかどうかは明らかではない。 本報告では, 敵の事例を防御するための原則的アプローチである敵の訓練において, 良性過剰フィッティングが実際に発生することを示す。 具体的には、$\ell_p$ の逆摂動の下でのサブガウスデータの混合上で、逆訓練された線形分類器のリスク境界を証明する。 以上の結果から,中等度摂動下では,雑音の多い学習データに過度に適合するにもかかわらず,線形分類器は準最適基準と逆のリスクを達成できる可能性が示唆された。 数値実験は我々の理論的な結果を検証する。

"Benign overfitting", where classifiers memorize noisy training data yet still achieve a good generalization performance, has drawn great attention in the machine learning community. To explain this surprising phenomenon, a series of works have provided theoretical justification in over-parameterized linear regression, classification, and kernel methods. However, it is not clear if benign overfitting still occurs in the presence of adversarial examples, i.e., examples with tiny and intentional perturbations to fool the classifiers. In this paper, we show that benign overfitting indeed occurs in adversarial training, a principled approach to defend against adversarial examples. In detail, we prove the risk bounds of the adversarially trained linear classifier on the mixture of sub-Gaussian data under $\ell_p$ adversarial perturbations. Our result suggests that under moderate perturbations, adversarially trained linear classifiers can achieve the near-optimal standard and adversarial risks, despite overfitting the noisy training data. Numerical experiments validate our theoretical findings.
翻訳日:2022-01-03 14:10:16 公開日:2021-12-31
# ネットワークアライメント問題に対する改良アルゴリズムとバイナリ差分法への応用

Improved Algorithm for the Network Alignment Problem with Application to Binary Diffing ( http://arxiv.org/abs/2112.15336v1 )

ライセンス: Link先を確認
Elie Mengin (SAMM), Fabrice Rossi (CEREMADE)(参考訳) 本稿では,ネットワークアライメント問題に対処する新しいアルゴリズムを提案する。 Bayatiらによる以前のメッセージパッシングフレームワークから着想を得たものだ。 メッセージ更新を著しくスピードアップし、収束を強制するように設計されたいくつかの変更が含まれている。 実験の結果,提案手法は他の解法よりも優れていることがわかった。 最後に,バイナリ・ディッフィング問題に対処するため,本手法の応用を提案する。 提案手法は,ほとんどすべてのインスタンスで異なる参照よりも優れた割り当てを提供し,バイナリプログラムのグラフィカルな構造を活用することの重要性を概説する。

In this paper, we present a novel algorithm to address the Network Alignment problem. It is inspired from a previous message passing framework of Bayati et al. [2] and includes several modifications designed to significantly speed up the message updates as well as to enforce their convergence. Experiments show that our proposed model outperforms other state-of-the-art solvers. Finally, we propose an application of our method in order to address the Binary Diffing problem. We show that our solution provides better assignment than the reference differs in almost all submitted instances and outline the importance of leveraging the graphical structure of binary programs.
翻訳日:2022-01-03 14:09:57 公開日:2021-12-31
# (参考訳) 圧縮重み空間におけるニューラルネットワークの訓練と生成 [全文訳有]

Training and Generating Neural Networks in Compressed Weight Space ( http://arxiv.org/abs/2112.15545v1 )

ライセンス: CC BY 4.0
Kazuki Irie and J\"urgen Schmidhuber(参考訳) いくつかのニューラルネットの入力および/または出力は他のニューラルネットの重み行列である。 間接エンコーディングやウェイト行列のエンドツーエンド圧縮は、そのようなアプローチをスケールするのに役立ちます。 私たちの目標は、重み行列が離散コサイン変換によって符号化される文字レベル言語モデリングのための再帰的ニューラルネットワークから、このトピックに関する議論を開くことです。 その高速重みバージョンは、圧縮重みをパラメータ化するために再帰的なニューラルネットワークを使用する。 enwik8データセットに関する実験結果を示す。

The inputs and/or outputs of some neural nets are weight matrices of other neural nets. Indirect encodings or end-to-end compression of weight matrices could help to scale such approaches. Our goal is to open a discussion on this topic, starting with recurrent neural networks for character-level language modelling whose weight matrices are encoded by the discrete cosine transform. Our fast weight version thereof uses a recurrent neural network to parameterise the compressed weights. We present experimental results on the enwik8 dataset.
翻訳日:2022-01-03 14:08:42 公開日:2021-12-31
# データフリーな知識伝達: 調査

Data-Free Knowledge Transfer: A Survey ( http://arxiv.org/abs/2112.15278v1 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang, Jianyong Wang(参考訳) 過去10年間、多くのディープラーニングモデルが十分に訓練され、さまざまな機械学習分野、特にコンピュータビジョンと自然言語処理で大きな成功を収めてきた。 ドメイン内あるいはドメイン間移動学習におけるこれらのよく訓練されたモデルの有用性をよりよく活用するために、知識蒸留(KD)とドメイン適応(DA)を提案し、研究のハイライトとなる。 どちらも、トレーニングデータを使ってトレーニングされたモデルから有用な情報を転送することを目的としている。 しかし、プライバシや著作権、機密性のため、オリジナルのデータは必ずしも利用できないことが多い。 近年,訓練データへのアクセスを必要とせずに,訓練済みモデルから貴重な知識を蒸留する手法として,データフリーな知識伝達パラダイムが注目されている。 特に、主にデータフリー知識蒸留(DFKD)とソースデータフリードメイン適応(SFDA)で構成されている。 一方,DFKDは,教師ネットワークからモデル圧縮と効率的な推論のためのコンパクトな学生ネットワークへ,原データのドメイン内知識を伝達することを目的としている。 一方、sfdaの目標は、十分に訓練されたソースモデルに格納されたクロスドメインの知識を再利用し、ターゲットドメインに適応させることである。 本稿では,知識蒸留と非教師なしドメイン適応の観点から,データフリーな知識伝達に関する総合的な調査を行い,現在の研究状況とアイデアをより深く理解できるようにする。 2つの分野の応用と課題は、それぞれ簡単にレビューされる。 さらに,今後の研究課題についても考察する。

In the last decade, many deep learning models have been well trained and made a great success in various fields of machine intelligence, especially for computer vision and natural language processing. To better leverage the potential of these well-trained models in intra-domain or cross-domain transfer learning situations, knowledge distillation (KD) and domain adaptation (DA) are proposed and become research highlights. They both aim to transfer useful information from a well-trained model with original training data. However, the original data is not always available in many cases due to privacy, copyright or confidentiality. Recently, the data-free knowledge transfer paradigm has attracted appealing attention as it deals with distilling valuable knowledge from well-trained models without requiring to access to the training data. In particular, it mainly consists of the data-free knowledge distillation (DFKD) and source data-free domain adaptation (SFDA). On the one hand, DFKD aims to transfer the intra-domain knowledge of original data from a cumbersome teacher network to a compact student network for model compression and efficient inference. On the other hand, the goal of SFDA is to reuse the cross-domain knowledge stored in a well-trained source model and adapt it to a target domain. In this paper, we provide a comprehensive survey on data-free knowledge transfer from the perspectives of knowledge distillation and unsupervised domain adaptation, to help readers have a better understanding of the current research status and ideas. Applications and challenges of the two areas are briefly reviewed, respectively. Furthermore, we provide some insights to the subject of future research.
翻訳日:2022-01-03 13:58:53 公開日:2021-12-31
# 普遍摂動の特異性について

On Distinctive Properties of Universal Perturbations ( http://arxiv.org/abs/2112.15329v1 )

ライセンス: Link先を確認
Sung Min Park, Kuo-An Wei, Kai Xiao, Jerry Li, Aleksander Madry(参考訳) 我々は、標準対向摂動と区別する普遍対向摂動(UAP)の特性を同定する。 具体的には、投影勾配降下によって生成された標的UAPが、標準的な対向的摂動を欠く意味的局所性と空間的不変性という2つの人間的な特性を示すことを示す。 また、UAPは標準対向摂動よりも一般化の信号が著しく少ないこと、すなわち、UAPは標準対向摂動よりも小さな範囲で非破壊的特徴を利用することを示した。

We identify properties of universal adversarial perturbations (UAPs) that distinguish them from standard adversarial perturbations. Specifically, we show that targeted UAPs generated by projected gradient descent exhibit two human-aligned properties: semantic locality and spatial invariance, which standard targeted adversarial perturbations lack. We also demonstrate that UAPs contain significantly less signal for generalization than standard adversarial perturbations -- that is, UAPs leverage non-robust features to a smaller extent than standard adversarial perturbations.
翻訳日:2022-01-03 13:58:32 公開日:2021-12-31
# 経験のリプレイを再考する: タスク-ワイズ関係の適応的調整による継続的な学習

Revisiting Experience Replay: Continual Learning by Adaptively Tuning Task-wise Relationship ( http://arxiv.org/abs/2112.15402v1 )

ライセンス: Link先を確認
Quanziang Wang, Yuexiang Li, Dong Wei, Renzhen Wang, Kai Ma, Yefeng Zheng, Deyu Meng(参考訳) 継続的な学習には、学習した知識を維持しながら新しいタスクを学習するモデルが必要である。 この課題に対処するために様々なアルゴリズムが提案されている。 現在、経験リプレイのようなリハーサルベースの手法は最先端のパフォーマンスを実現している。 これらのアプローチは、過去のタスクのデータの一部をメモリバッファとして保存し、モデルが以前学んだ知識を忘れないようにする。 しかし、それらの多くは全ての新しいタスク、すなわちフレームワークのハイパーパラメータを固定し、異なる新しいタスクを学習する。 このような設定は、過去と新しいタスクの関係や類似性を考慮していない。 例えば、犬から学んだ以前の知識や特徴は、バスから学んだものに比べて猫の識別に有益である(新しいタスク)。 本稿では,過去から抽出した知識と新たなタスクの関係を適応的に調整する,双方向最適化に基づくメタ学習アルゴリズムを提案する。 したがって、連続学習中の勾配の適切な方向を見つけることができ、メモリバッファの過度なオーバーフィッティング問題を回避することができる。 大規模な実験は3つの公開データセット(CIFAR-10、CIFAR-100、Tiny ImageNet)で実施されている。 実験の結果,提案手法は,すべてのベースラインの性能を一貫して向上できることがわかった。

Continual learning requires models to learn new tasks while maintaining previously learned knowledge. Various algorithms have been proposed to address this real challenge. Till now, rehearsal-based methods, such as experience replay, have achieved state-of-the-art performance. These approaches save a small part of the data of the past tasks as a memory buffer to prevent models from forgetting previously learned knowledge. However, most of them treat every new task equally, i.e., fixed the hyperparameters of the framework while learning different new tasks. Such a setting lacks the consideration of the relationship/similar ity between past and new tasks. For example, the previous knowledge/features learned from dogs are more beneficial for the identification of cats (new task), compared to those learned from buses. In this regard, we propose a meta learning algorithm based on bi-level optimization to adaptively tune the relationship between the knowledge extracted from the past and new tasks. Therefore, the model can find an appropriate direction of gradient during continual learning and avoid the serious overfitting problem on memory buffer. Extensive experiments are conducted on three publicly available datasets (i.e., CIFAR-10, CIFAR-100, and Tiny ImageNet). The experimental results demonstrate that the proposed method can consistently improve the performance of all baselines.
翻訳日:2022-01-03 13:58:22 公開日:2021-12-31
# 生成的対向ネットワークが異常検出に及ぼす影響について

on the effectiveness of generative adversarial network on anomaly detection ( http://arxiv.org/abs/2112.15541v1 )

ライセンス: Link先を確認
Laya Rafiee Sevyeri, Thomas Fevens(参考訳) 異常の識別は、トレーニングデータ分布に似ていないサンプルを検出することを指す。 多くの生成モデルは異常を見つけるために使われており、その中でもGAN(Generative Adversarial Network)に基づくアプローチが現在非常に人気である。 GANは主に、実際のトレーニング分布を特定するために、これらのモデルのリッチなコンテキスト情報に依存する。 この類似性に従って,自動エンコーダとGANを組み合わせた新しい教師なしモデルを提案する。 さらに、識別器の内部表現と生成器の視覚表現と、オートエンコーダの符号化表現とを線形に組み合わせて、提案した異常スコアを定義するための新たなスコア関数が導入された。 このモデルは、SVHN、CIFAR10、MNISTなどのベンチマークデータセット、および白血病画像の公開医療データセットでさらに評価された。 全ての実験において、我々のモデルは既存のモデルよりも優れ、推論時間もわずかに改善した。

Identifying anomalies refers to detecting samples that do not resemble the training data distribution. Many generative models have been used to find anomalies, and among them, generative adversarial network (GAN)-based approaches are currently very popular. GANs mainly rely on the rich contextual information of these models to identify the actual training distribution. Following this analogy, we suggested a new unsupervised model based on GANs --a combination of an autoencoder and a GAN. Further, a new scoring function was introduced to target anomalies where a linear combination of the internal representation of the discriminator and the generator's visual representation, plus the encoded representation of the autoencoder, come together to define the proposed anomaly score. The model was further evaluated on benchmark datasets such as SVHN, CIFAR10, and MNIST, as well as a public medical dataset of leukemia images. In all the experiments, our model outperformed its existing counterparts while slightly improving the inference time.
翻訳日:2022-01-03 13:58:03 公開日:2021-12-31
# Dual-module Adversarial Trainingに基づく教師なしドメイン適応モデル

An Unsupervised Domain Adaptation Model based on Dual-module Adversarial Training ( http://arxiv.org/abs/2112.15555v1 )

ライセンス: Link先を確認
Yiju Yang, Tianxiao Zhang, Guanyu Li, Taejoon Kim, Guanghui Wang(参考訳) 本稿では、ドメイン識別機能モジュールを用いて、ドメイン不変機能モジュールを奨励し、さらにドメイン不変機能を学ぶためのデュアルモジュールネットワークアーキテクチャを提案する。 提案アーキテクチャは、教師なしドメイン適応にドメイン不変性を利用するモデルに適用でき、ドメイン不変性を取り出す能力を向上させることができる。 本稿では,ニューラルネットワークモデル(DANN)を代表アルゴリズムとして実験を行った。 トレーニングプロセスでは、同じ入力を2つのモジュールに供給し、各モジュールの特徴分布と予測結果を抽出する。 本稿では,予測結果の相違点と2つのモジュール間の特徴分布を求めるための相違損失を提案する。 それらの特徴分布の損失を最大化し、予測結果の相違を最小化することにより、両モジュールは、それぞれよりドメイン識別的およびドメイン不変な特徴を学習することを奨励する。 広範な比較評価を行い,提案手法は教師なしドメイン適応タスクのほとんどにおいて最先端を上回っている。

In this paper, we propose a dual-module network architecture that employs a domain discriminative feature module to encourage the domain invariant feature module to learn more domain invariant features. The proposed architecture can be applied to any model that utilizes domain invariant features for unsupervised domain adaptation to improve its ability to extract domain invariant features. We conduct experiments with the Domain-Adversarial Training of Neural Networks (DANN) model as a representative algorithm. In the training process, we supply the same input to the two modules and then extract their feature distribution and prediction results respectively. We propose a discrepancy loss to find the discrepancy of the prediction results and the feature distribution between the two modules. Through the adversarial training by maximizing the loss of their feature distribution and minimizing the discrepancy of their prediction results, the two modules are encouraged to learn more domain discriminative and domain invariant features respectively. Extensive comparative evaluations are conducted and the proposed approach outperforms the state-of-the-art in most unsupervised domain adaptation tasks.
翻訳日:2022-01-03 13:57:49 公開日:2021-12-31
# (参考訳) プログラム合成による計算,微分方程式,線形代数学など,ニューラルネットワークが数学問題を解いて生成する

A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More ( http://arxiv.org/abs/2112.15594v1 )

ライセンス: CC BY 4.0
Iddo Drori, Sunny Tran, Roman Wang, Newman Cheng, Kevin Liu, Leonard Tang, Elizabeth Ke, Nikhil Singh, Taylor L. Patti, Jayson Lynch, Avi Shporer, Nakul Verma, Eugene Wu, Gilbert Strang(参考訳) テキストで事前学習し、コードで微調整したニューラルネットワークが、プログラム合成によって数学の問題を解くことを実証する。 We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042) as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. 提案手法では,プロットによる解を含む問題解決プログラムをトランスフォーマーが生成できるようにする。 各トピックにおけるランダムな質問のサンプルに対して正しい回答を生成する。 原質問と変換された質問のギャップを定量化し,生成した質問の品質と難易度を評価する調査を行う。 これは、高等教育のマイルストーンとなる大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。

We demonstrate that a neural network pre-trained on text and fine-tuned on code solves Mathematics problems by program synthesis. We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042) as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. We explore prompt generation methods that enable Transformers to generate question solving programs for these subjects, including solutions with plots. We generate correct answers for a random sample of questions in each topic. We quantify the gap between the original and transformed questions and perform a survey to evaluate the quality and difficulty of generated questions. This is the first work to automatically solve, grade, and generate university-level Mathematics course questions at scale which represents a milestone for higher education.
翻訳日:2022-01-03 13:57:22 公開日:2021-12-31
# SimSR: 深層強化学習のための簡易距離ベース状態表現

SimSR: Simple Distance-based State Representation for Deep Reinforcement Learning ( http://arxiv.org/abs/2112.15303v1 )

ライセンス: Link先を確認
Hongyu Zang, Xin Li, Mingzhong Wang(参考訳) 本研究は, 深部強化学習手法を用いた画像ベース観測から, 頑健で一般化可能な状態表現の学習方法について検討する。 計算複雑性, 厳密な仮定, ビシミュレーション・メトリックの既存の作業における表現崩壊問題に対処するため, ビシミュレーション・メトリックと比較して複雑性を減少させながら, 同等の機能を実現するSimple State Representation (SimSR) 演算子を考案した。 SimSRにより、観測から潜在表現空間へマッピング関数(エンコーダ)を実際に学習できる確率近似に基づく手法を設計できる。 理論的解析の他に、視覚的 MuJoCo タスクにおける最近の最先端ソリューションを実験して比較した。 その結果,モデルの性能は向上し,ロバスト性や一般化性も向上した。

This work explores how to learn robust and generalizable state representation from image-based observations with deep reinforcement learning methods. Addressing the computational complexity, stringent assumptions, and representation collapse challenges in the existing work of bisimulation metric, we devise Simple State Representation (SimSR) operator, which achieves equivalent functionality while reducing the complexity by an order in comparison with bisimulation metric. SimSR enables us to design a stochastic-approxima tion-based method that can practically learn the mapping functions (encoders) from observations to latent representation space. Besides the theoretical analysis, we experimented and compared our work with recent state-of-the-art solutions in visual MuJoCo tasks. The results show that our model generally achieves better performance and has better robustness and good generalization.
翻訳日:2022-01-03 13:53:49 公開日:2021-12-31
# ロバストエントロピー規則化マルコフ決定過程

Robust Entropy-regularized Markov Decision Processes ( http://arxiv.org/abs/2112.15364v1 )

ライセンス: Link先を確認
Tien Mai and Patrick Jaillet(参考訳) エントロピー規則化マルコフ決定プロセス(ER-MDP)による確率的かつソフトな最適政策は、探索および模倣学習アプリケーションに望ましい。 このような政策が状態遷移確率に敏感であること、およびそれらの確率の推定が不正確であることに動機づけられ、確率的最適政策が基礎となる遷移確率の曖昧さに対して堅牢であることを要求するer-mdpモデルのロバストなバージョンについて研究する。 我々の研究は、強化学習(RL)における2つの重要なスキーム、すなわち堅牢なMDPとエントロピー正規化されたMDPの交差にある。 我々は, ER-MDPとロバストな非正規化MDPモデルに係わる基本特性も設定に保持し, 堅牢なER-MDP問題を抽出可能であることを示す。 我々は、我々のフレームワークと結果が、新しいロバストなRLアルゴリズムや不確実性を扱う逆RLアルゴリズムにつながる、値や(修正)ポリシーの繰り返しを含む異なるアルゴリズムスキームにどのように統合できるかを示す。 従来の不確実性設定下での計算複雑性と誤差伝播の解析も行う。

Stochastic and soft optimal policies resulting from entropy-regularized Markov decision processes (ER-MDP) are desirable for exploration and imitation learning applications. Motivated by the fact that such policies are sensitive with respect to the state transition probabilities, and the estimation of these probabilities may be inaccurate, we study a robust version of the ER-MDP model, where the stochastic optimal policies are required to be robust with respect to the ambiguity in the underlying transition probabilities. Our work is at the crossroads of two important schemes in reinforcement learning (RL), namely, robust MDP and entropy regularized MDP. We show that essential properties that hold for the non-robust ER-MDP and robust unregularized MDP models also hold in our settings, making the robust ER-MDP problem tractable. We show how our framework and results can be integrated into different algorithmic schemes including value or (modified) policy iteration, which would lead to new robust RL and inverse RL algorithms to handle uncertainties. Analyses on computational complexity and error propagation under conventional uncertainty settings are also provided.
翻訳日:2022-01-03 13:53:34 公開日:2021-12-31
# メタ強化学習におけるバイアスの設定とメタグラディエント推定のばらつき

Settling the Bias and Variance of Meta-Gradient Estimation for Meta-Reinforcement Learning ( http://arxiv.org/abs/2112.15400v1 )

ライセンス: Link先を確認
Bo Liu, Xidong Feng, Haifeng Zhang, Jun Wang, Yaodong Yang(参考訳) 近年、勾配に基づくメタrl(gmrl)手法は、1つのタスクで効果的なオンラインハイパーパラメータ(xu et al., 2018)を発見するか、マルチタスク転送学習(finn et al., 2017)のための良い初期化を学ぶかで、顕著な成功を収めている。 経験的な成功にもかかわらず、バニラバックプロパゲーションによるメタ勾配の計算が不定義であることはしばしば無視される。 本稿では,既存の多くのMGRL法で採用されている確率的メタ勾配推定が,実際には偏りがあることを論じる。 1)構成最適化問題の構造に内在する構成バイアス 2) 直接的自動微分による多段階ヘッセン推定のバイアス メタグラデーションバイアスをよりよく理解するために,我々は,その種の最初の研究を行い,それぞれの量の定量化を行う。 まず、既存のGMRLアルゴリズムの統一導出を行い、その後、既存の勾配推定法のバイアスと分散の両方を理論的に解析する。 バイアスの基本原理を理解するために,オフ・ポリシー補正法と多段階ヘッセン推定法に基づく2つの緩和解を提案する。 包括的アブレーション研究を行い,(1)これら2つのバイアスの存在と,異なる推定器/サンプルサイズ/ステップおよび学習率と組み合わせた場合のメタ勾配推定にどのように影響するかを明らかにした。 2) メタ段階的推定におけるこれらの緩和手法の有効性と, LOLA-DiCEとメタ段階的強化学習の2つの実践的メタRLアルゴリズムの最終的な回帰効果について検討した。

In recent years, gradient based Meta-RL (GMRL) methods have achieved remarkable successes in either discovering effective online hyperparameter for one single task (Xu et al., 2018) or learning good initialisation for multi-task transfer learning (Finn et al., 2017). Despite the empirical successes, it is often neglected that computing meta gradients via vanilla backpropagation is ill-defined. In this paper, we argue that the stochastic meta-gradient estimation adopted by many existing MGRL methods are in fact biased; the bias comes from two sources: 1) the compositional bias that is inborn in the structure of compositional optimisation problems and 2) the bias of multi-step Hessian estimation caused by direct automatic differentiation. To better understand the meta gradient biases, we perform the first of its kind study to quantify the amount for each of them. We start by providing a unifying derivation for existing GMRL algorithms, and then theoretically analyse both the bias and the variance of existing gradient estimation methods. On understanding the underlying principles of bias, we propose two mitigation solutions based on off-policy correction and multi-step Hessian estimation techniques. Comprehensive ablation studies have been conducted and results reveals: (1) The existence of these two biases and how they influence the meta-gradient estimation when combined with different estimator/sample size/step and learning rate. (2) The effectiveness of these mitigation approaches for meta-gradient estimation and thereby the final return on two practical Meta-RL algorithms: LOLA-DiCE and Meta-gradient Reinforcement Learning.
翻訳日:2022-01-03 13:53:13 公開日:2021-12-31
# オフライン強化学習における経験的サンプル複雑性分析の重要性

Importance of Empirical Sample Complexity Analysis for Offline Reinforcement Learning ( http://arxiv.org/abs/2112.15578v1 )

ライセンス: Link先を確認
Samin Yeasar Arnob, Riashat Islam, Doina Precup(参考訳) オフライン強化学習(RL)のサンプル複雑性を実証的に研究することは、実世界におけるRLの実践的応用にとって重要であると仮定する。 いくつかの最近の研究は、オフラインデータから直接ポリシーを学ぶ能力を示している。 本研究では,オフラインデータから学習するためのサンプル数への依存度について質問する。 我々の目的は、オフラインRLのサンプル複雑性の研究が重要であり、既存のオフラインアルゴリズムの有用性を示す指標であることを強調することである。 オフラインRLのサンプル複雑性解析のための評価手法を提案する。

We hypothesize that empirically studying the sample complexity of offline reinforcement learning (RL) is crucial for the practical applications of RL in the real world. Several recent works have demonstrated the ability to learn policies directly from offline data. In this work, we ask the question of the dependency on the number of samples for learning from offline data. Our objective is to emphasize that studying sample complexity for offline RL is important, and is an indicator of the usefulness of existing offline algorithms. We propose an evaluation approach for sample complexity analysis of offline RL.
翻訳日:2022-01-03 13:51:49 公開日:2021-12-31
# 反復ガウス過程はいつ確実に正確か?

When are Iterative Gaussian Processes Reliably Accurate? ( http://arxiv.org/abs/2112.15246v1 )

ライセンス: Link先を確認
Wesley J. Maddox, Sanyam Kapoor, Andrew Gordon Wilson(参考訳) 共役勾配法とランチョス分解に関する最近の研究は、高精度な点予測によるスケーラブルなガウス過程推論を達成しているが、いくつかの実装では、これらの反復的手法は、カーネルハイパーパラメータの学習における数値不安定性やテスト可能性の低さに苦しむようである。 CG許容度、プレコンディショナーランク、およびランツォス分解ランクを調査することにより、これらの問題を修正するための特に単純な処方令を提供する: CG許容度(\epsilon \leq 0.01$)と大きな根分解サイズ(r \geq 5000$)を使用することを推奨する。 さらに,L-BFGS-Bが反復型GPの高次最適化であり,勾配更新の少ない収束を実現していることを示す。

While recent work on conjugate gradient methods and Lanczos decompositions have achieved scalable Gaussian process inference with highly accurate point predictions, in several implementations these iterative methods appear to struggle with numerical instabilities in learning kernel hyperparameters, and poor test likelihoods. By investigating CG tolerance, preconditioner rank, and Lanczos decomposition rank, we provide a particularly simple prescription to correct these issues: we recommend that one should use a small CG tolerance ($\epsilon \leq 0.01$) and a large root decomposition size ($r \geq 5000$). Moreover, we show that L-BFGS-B is a compelling optimizer for Iterative GPs, achieving convergence with fewer gradient updates.
翻訳日:2022-01-03 13:51:24 公開日:2021-12-31
# エントロピー正則化最適輸送独立基準

Entropy Regularized Optimal Transport Independence Criterion ( http://arxiv.org/abs/2112.15265v1 )

ライセンス: Link先を確認
Lang Liu, Soumik Pal, Zaid Harchaoui(参考訳) 最適なトランスポート(OT)とそのエントロピー正規化された子孫は、マシンラーニングとAIドメインの両方で注目を集めている。 特に、最適輸送は確率分布間の確率メトリクスを開発するために用いられてきた。 本稿では,エントロピー正規化最適輸送に基づく独立基準を提案する。 私たちの基準は、2つのサンプル間の独立性をテストするために使用できます。 我々はテスト統計学の非漸近境界を確立し、その統計挙動をヌル仮説と代替仮説の両方の下で研究する。 我々の理論結果は、Uプロセス理論と最適輸送理論のツールを含む。 提案する基準の関心を示しながら,既存のベンチマークで実験結果を示す。

Optimal transport (OT) and its entropy regularized offspring have recently gained a lot of attention in both machine learning and AI domains. In particular, optimal transport has been used to develop probability metrics between probability distributions. We introduce in this paper an independence criterion based on entropy regularized optimal transport. Our criterion can be used to test for independence between two samples. We establish non-asymptotic bounds for our test statistic, and study its statistical behavior under both the null and alternative hypothesis. Our theoretical results involve tools from U-process theory and optimal transport theory. We present experimental results on existing benchmarks, illustrating the interest of the proposed criterion.
翻訳日:2022-01-03 13:51:08 公開日:2021-12-31
# 無限幅(有限深さ)のニューラルネットワークは、浅いガウス過程とは異なり、マルチタスク学習の恩恵を受ける -- 正確な定量的マクロキャラクタリゼーション

Infinite wide (finite depth) Neural Networks benefit from multi-task learning unlike shallow Gaussian Processes -- an exact quantitative macroscopic characterization ( http://arxiv.org/abs/2112.15577v1 )

ライセンス: Link先を確認
Jakob Heiss, Josef Teichmann, Hanna Wutte(参考訳) 本稿では、パラメータのl2正規化に最適化された少なくとも1つの隠蔽層を持つReLUニューラルネットワーク(NN)が、表現学習によるマルチタスク学習を強制することを示す。 これは、ワイド(ReLU)-NNが制限幅から無限の範囲でマルチタスク学習の恩恵を受ける能力を緩めるという文献で議論された他の複数の理想的な設定とは対照的である。 関数空間における学習NNの正確な量的マクロ的特徴を証明し,マルチタスク学習能力を推定する。

We prove in this paper that wide ReLU neural networks (NNs) with at least one hidden layer optimized with l2-regularization on the parameters enforces multi-task learning due to representation-learn ing - also in the limit width to infinity. This is in contrast to multiple other idealized settings discussed in the literature where wide (ReLU)-NNs loose their ability to benefit from multi-task learning in the limit width to infinity. We deduce the multi-task learning ability from proving an exact quantitative macroscopic characterization of the learned NN in function space.
翻訳日:2022-01-03 13:51:01 公開日:2021-12-31
# ERNIE-ViLG:双方向ビジョンランゲージ生成のための統合生成事前学習

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation ( http://arxiv.org/abs/2112.15283v1 )

ライセンス: Link先を確認
Han Zhang, Weichong Yin, Yewei Fang, Lanxin Li, Boqiang Duan, Zhihua Wu, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 画像テキスト生成タスクの従来の手法では,生成したサンプルの品質と忠実性を改善するためのタスク固有のフレームワークの設計に重点を置いている。 近年,視覚言語事前学習モデルでは画像・テキスト生成タスクの性能が大幅に向上しているが,テキスト・画像合成タスクの大規模事前学習モデルはまだ未開発である。 本稿では,トランスフォーマーモデルを用いた双方向画像テキスト生成のための統合生成前学習フレームワークernie-vilgを提案する。 画像量子化モデルに基づいて、画像生成とテキスト生成を、テキスト/画像入力に条件付き自己回帰生成タスクとして定式化する。 双方向画像テキスト生成モデリングは、視覚と言語間のセマンティックアライメントを容易にする。 テキスト対画像生成プロセスでは、視覚シーケンス生成装置と画像再構成装置を共同で学習するエンドツーエンドのトレーニング手法も提案する。 双方向テキスト画像生成のための大規模事前学習の展望を探るため、テキスト間合成と画像間合成のためのms-cocoのfid7.9と、画像キャプションのためのcoco-cnとaic-iccのベスト結果を得るために、テキスト間処理と画像間処理の両方の最先端性能を実現する、1億4500万(中国)の大規模データセット上で、10億のパラメータernie-vilgモデルをトレーニングする。

Conventional methods for the image-text generation tasks mainly tackle the naturally bidirectional generation tasks separately, focusing on designing task-specific frameworks to improve the quality and fidelity of the generated samples. Recently, Vision-Language Pre-training models have greatly improved the performance of the image-to-text generation tasks, but large-scale pre-training models for text-to-image synthesis task are still under-developed. In this paper, we propose ERNIE-ViLG, a unified generative pre-training framework for bidirectional image-text generation with transformer model. Based on the image quantization models, we formulate both image generation and text generation as autoregressive generative tasks conditioned on the text/image input. The bidirectional image-text generative modeling eases the semantic alignments across vision and language. For the text-to-image generation process, we further propose an end-to-end training method to jointly learn the visual sequence generator and the image reconstructor. To explore the landscape of large-scale pre-training for bidirectional text-image generation, we train a 10-billion parameter ERNIE-ViLG model on a large-scale dataset of 145 million (Chinese) image-text pairs which achieves state-of-the-art performance for both text-to-image and image-to-text tasks, obtaining an FID of 7.9 on MS-COCO for text-to-image synthesis and best results on COCO-CN and AIC-ICC for image captioning.
翻訳日:2022-01-03 13:32:18 公開日:2021-12-31
# デコンボリックな視覚接地

Deconfounded Visual Grounding ( http://arxiv.org/abs/2112.15324v1 )

ライセンス: Link先を確認
Jianqiang Huang, Yu Qin, Jiaxin Qi, Qianru Sun, Hanwang Zhang(参考訳) 私たちは、視覚的グラウンドリングパイプラインにおける言語と位置の相反するバイアスに注目し、このバイアスが視覚的推論のボトルネックとなっていることに気付きました。 例えば、グラウンドリングプロセスは通常、視覚的推論なしで、羊を含む言語クエリをほぼ中央の領域に接地する、というような自明な言語配置アソシエーションである。 まず、視覚的な接地パイプラインを因果グラフにフレーム化し、画像、クエリ、ターゲット位置、そして基礎となる共同設立者間の因果関係を示す。 因果グラフを通じて、私たちは接地ボトルネックを分解する方法を知っています。 第二に、共同設立者が一般的に観察できない課題に取り組むために、私たちは、conferencion expression deconfounder (red) と呼ばれる共同設立者に依存しないアプローチを提案します。 第3に、redを単純な言語注意として実装し、任意の接地方法に適用できる。 一般的なベンチマークでは、REDは様々な最先端の接地方法を大幅に改善している。 コードは、 https://github.com/J ianqiangH/Decon founded_VG.comで間もなく利用可能になる。

We focus on the confounding bias between language and location in the visual grounding pipeline, where we find that the bias is the major visual reasoning bottleneck. For example, the grounding process is usually a trivial language-location association without visual reasoning, e.g., grounding any language query containing sheep to the nearly central regions, due to that most queries about sheep have ground-truth locations at the image center. First, we frame the visual grounding pipeline into a causal graph, which shows the causalities among image, query, target location and underlying confounder. Through the causal graph, we know how to break the grounding bottleneck: deconfounded visual grounding. Second, to tackle the challenge that the confounder is unobserved in general, we propose a confounder-agnostic approach called: Referring Expression Deconfounder (RED), to remove the confounding bias. Third, we implement RED as a simple language attention, which can be applied in any grounding method. On popular benchmarks, RED improves various state-of-the-art grounding methods by a significant margin. Code will soon be available at: https://github.com/J ianqiangH/Deconfound ed_VG.
翻訳日:2022-01-03 13:31:45 公開日:2021-12-31
# ViNMT:ニューラルマシン翻訳ツール

ViNMT: Neural Machine Translation Tookit ( http://arxiv.org/abs/2112.15272v1 )

ライセンス: Link先を確認
Nguyen Hoang Quan, Nguyen Thanh Dat, Nguyen Hoang Minh Cong, Nguyen Van Vinh, Ngo Thi Vinh, Nguyen Phuong Thai, and Tran Hong Viet(参考訳) ニューラルネットワーク翻訳(NMT)のためのオープンソースツールキットを提案する。 この新しいツールキットは主にVaswaniらによるVaulted Transformer(2017年)に基づいており、以下に詳述した多くの改良とともに、さまざまなドメインの機械翻訳タスクのための、自己完結でシンプルな、一貫性のある、包括的なフレームワークを作成する。 それぞれのコーパスからモデルを構築することから、新しい予測を推論したり、モデルをサービス可能なjitフォーマットにパッケージングすることまで、バイリンガルおよび多言語翻訳タスクの両方をサポートするためのツールである。

We present an open-source toolkit for neural machine translation (NMT). The new toolkit is mainly based on vaulted Transformer (Vaswani et al., 2017) along with many other improvements detailed below, in order to create a self-contained, simple to use, consistent and comprehensive framework for Machine Translation tasks of various domains. It is tooled to support both bilingual and multilingual translation tasks, starting from building the model from respective corpora, to inferring new predictions or packaging the model to serving-capable JIT format.
翻訳日:2022-01-03 13:31:26 公開日:2021-12-31
# カテゴリーアテンションネットワークを用いた深い感情分析のためのドメイン適応

Domain Adaptation with Category Attention Network for Deep Sentiment Analysis ( http://arxiv.org/abs/2112.15290v1 )

ライセンス: Link先を確認
Dongbo Xi, Fuzhen Zhuang, Ganbin Zhou, Xiaohu Cheng, Fen Lin, Qing He(参考訳) クロスドメイン感情分類などのドメイン適応タスクは、ソースドメイン内の既存のラベル付きデータと、ターゲットドメイン内のラベルなしまたは少ないラベル付きデータを利用して、データ分布間のシフトを減らすことで、ターゲットドメイン内のパフォーマンスを改善することを目的としている。 既存のドメイン横断感情分類手法は、優れた適応性能を得るために、ピボット、すなわちドメイン共有感情語と非ピボット、すなわちドメイン固有感情語を区別する必要がある。 本稿では、まずカテゴリー注意ネットワーク(CAN)を設計し、次にCANと畳み込みニューラルネットワーク(CNN)を統合するモデルCAN-CNNを提案する。 一方、このモデルでは、ピボットや非ピボットを一意なカテゴリ属性語とみなし、ドメイン適応性能を向上させるために自動的にそれらを取り込むことができ、一方、変換されたカテゴリ属性語を解釈しやすくする試みを行っている。 具体的には、モデルの最適化目的には3つの異なる要素がある。 1) 分類上の損失 2 カテゴリーの特徴重みの分布の損失 3) ドメイン不分散損失。 最後に,提案モデルが3つの公開感情分析データセット上で評価され,can-cnnが他の様々なベースライン手法よりも優れていることを示す。

Domain adaptation tasks such as cross-domain sentiment classification aim to utilize existing labeled data in the source domain and unlabeled or few labeled data in the target domain to improve the performance in the target domain via reducing the shift between the data distributions. Existing cross-domain sentiment classification methods need to distinguish pivots, i.e., the domain-shared sentiment words, and non-pivots, i.e., the domain-specific sentiment words, for excellent adaptation performance. In this paper, we first design a Category Attention Network (CAN), and then propose a model named CAN-CNN to integrate CAN and a Convolutional Neural Network (CNN). On the one hand, the model regards pivots and non-pivots as unified category attribute words and can automatically capture them to improve the domain adaptation performance; on the other hand, the model makes an attempt at interpretability to learn the transferred category attribute words. Specifically, the optimization objective of our model has three different components: 1) the supervised classification loss; 2) the distributions loss of category feature weights; 3) the domain invariance loss. Finally, the proposed model is evaluated on three public sentiment analysis datasets and the results demonstrate that CAN-CNN can outperform other various baseline methods.
翻訳日:2022-01-03 13:31:15 公開日:2021-12-31
# イベント知識グラフとは何か: 調査

What is Event Knowledge Graph: A Survey ( http://arxiv.org/abs/2112.15280v1 )

ライセンス: Link先を確認
Saiping Guan, Xueqi Cheng, Long Bai, Fujun Zhang, Zixuan Li, Yutao Zeng, Xiaolong Jin, and Jiafeng Guo(参考訳) 通常、知識グラフ(KG)として組織されるエンティティ中心の知識に加えて、イベントは世界でも必須の知識であり、イベント中心の知識表現形式であるイベントKG(EKG)が誕生するきっかけとなる。 インテリジェント検索、質問回答、レコメンデーション、テキスト生成など、多くの機械学習や人工知能アプリケーションにおいて、ますます重要な役割を担っている。 本稿では,歴史,オントロジー,例,アプリケーションビューからEKGを包括的に調査する。 具体的には、EKGを徹底的に特徴づけるために、その歴史、定義、スキーマ誘導、取得、関連する代表グラフ/システム、アプリケーションに焦点を当てる。 そこで開発プロセスと動向を考察する。 さらに、今後のEKG研究を促進するために、視点方向を要約する。

Besides entity-centric knowledge, usually organized as Knowledge Graph (KG), events are also an essential kind of knowledge in the world, which trigger the spring up of event-centric knowledge representation form like Event KG (EKG). It plays an increasingly important role in many machine learning and artificial intelligence applications, such as intelligent search, question-answering, recommendation, and text generation. This paper provides a comprehensive survey of EKG from history, ontology, instance, and application views. Specifically, to characterize EKG thoroughly, we focus on its history, definitions, schema induction, acquisition, related representative graphs/systems, and applications. The development processes and trends are studied therein. We further summarize perspective directions to facilitate future research on EKG.
翻訳日:2022-01-03 13:21:00 公開日:2021-12-31
# 信念伝播によるネットワークアライメント問題としてのバイナリ差分法

Binary Diffing as a Network Alignment Problem via Belief Propagation ( http://arxiv.org/abs/2112.15337v1 )

ライセンス: Link先を確認
Elie Mengin (SAMM), Fabrice Rossi (CEREMADE)(参考訳) 本稿では,二分法における最も一般的なタスクの一つである二分法における2つのプログラムの関数間の対応やマッチングの課題について述べる。 本稿では,プログラムのコールグラフ上のグラフ編集問題の具体例として,この問題の新しい定式化を提案する。 この定式化では、関数内容とコールグラフの類似性の両方に関して、マッピングの品質を同時に評価する。 この定式化はネットワークアライメント問題と同値であることを示す。 本稿では,最大積の信念伝播に基づく問題解決戦略を提案する。 最後に,本手法のプロトタイプであるQBinDiffを実装し,本手法が技術拡散ツールの状況より優れていることを示す広範囲な評価手法を提案する。

In this paper, we address the problem of finding a correspondence, or matching, between the functions of two programs in binary form, which is one of the most common task in binary diffing. We introduce a new formulation of this problem as a particular instance of a graph edit problem over the call graphs of the programs. In this formulation, the quality of a mapping is evaluated simultaneously with respect to both function content and call graph similarities. We show that this formulation is equivalent to a network alignment problem. We propose a solving strategy for this problem based on max-product belief propagation. Finally, we implement a prototype of our method, called QBinDiff, and propose an extensive evaluation which shows that our approach outperforms state of the art diffing tools.
翻訳日:2022-01-03 13:20:47 公開日:2021-12-31