このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230610となっている論文です。

PDF登録状況(公開日: 20230610)

TitleAuthorsAbstract論文公表日・翻訳日
# 技術的負債の文脈で壊れたWindows理論をテストする

Testing the Broken Windows Theory in the context of Technical Debt ( http://arxiv.org/abs/2209.01549v2 )

ライセンス: Link先を確認
William Lev\'en, Hampus Broman, Terese Besker, and Richard Torkar(参考訳) コンテキスト: 技術的負債(TD)という用語は、システムの進化とメンテナンスを妨げるのに役立つ準最適ソリューションの集合を表現します。 破れたウィンドウ理論(BWT)は犯罪学から借用された概念であり、ソフトウェア開発プロジェクトにも適用されると主張する者もいる。 この理論では、以前の犯罪(例えば壊れた窓)の存在は、さらなる犯罪行為の可能性を増加させ、tdはソフトウェアシステムの壊れた窓と見なすことができる。 目的: システムのtd密度と、そのシステムの拡張中に新しいtdを導入する開発者の傾向との因果関係を実証的に調査すること。 方法: 本研究は, 対照実験と随伴調査, フォローアップインタビューからなる混合メソドス研究戦略を用いた。 この実験では、TD密度の高い既存のシステムでシステム拡張タスクを完了した経験レベルの開発者を合計29名とした。 結果: tdレベルが再実装(再利用ではなく)する傾向,非記述変数名の選択,ソフトウェアツールであるsonarqubeによって識別された他のコードの臭いに及ぼす影響が,95%以上の信頼できる間隔で明らかにされた。 結論: 3つの重要な結果と有効な質的な結果を組み合わせることで、ソフトウェア工学の文脈におけるBWTの存在の実質的な証拠を形成します。 本研究は,既存のTDが開発中に様々なタイプの新しいTDを導入することの妥当性に大きな影響を与えることを明らかにする。

Context: The term technical debt (TD) describes the aggregation of sub-optimal solutions that serve to impede the evolution and maintenance of a system. Some claim that the broken windows theory (BWT), a concept borrowed from criminology, also applies to software development projects. The theory states that the presence of indications of previous crime (such as a broken window) will increase the likelihood of further criminal activity; TD could be considered the broken windows of software systems. Objective: To empirically investigate the causal relationship between the TD density of a system and the propensity of developers to introduce new TD during the extension of that system. Method: The study used a mixed-methods research strategy consisting of a controlled experiment with an accompanying survey and follow-up interviews. The experiment had a total of 29 developers of varying experience levels completing system extension tasks in already existing systems with high or low TD density. Results: The analysis revealed significant effects of TD level on the subjects' tendency to re-implement (rather than reuse) functionality, choose non-descriptive variable names, and introduce other code smells identified by the software tool SonarQube, all with at least 95% credible intervals. Conclusions: Three separate significant results along with a validating qualitative result combine to form substantial evidence of the BWT's existence in software engineering contexts. This study finds that existing TD can have a major impact on developers propensity to introduce new TD of various types during development.
翻訳日:2023-10-24 15:07:23 公開日:2023-06-10
# Search-Generate-Modifyによる自動コード編集

Automated Code Editing with Search-Generate-Modify ( http://arxiv.org/abs/2306.06490v1 )

ライセンス: Link先を確認
Changshu Liu, Pelin Cetin, Yogesh Patodia, Saikat Chakraborty, Yangruibo Ding, Baishakhi Ray(参考訳) コード編集はソフトウェア開発の発展に不可欠である。 情報検索ベースの技術と機械学習ベースのコード生成とコード編集モデルの両方を活用する多くの自動コード編集ツールが提案されている。 それぞれのテクニックには独自の約束と危険が伴い、その強みを補完し、弱点を補うためにしばしば使用される。 本稿では,コード検索,生成,修正のパワーを活用して,コード編集をより良く合成するためのハイブリッドアプローチを提案する。 我々のキーとなる観察は、たとえ不完全であっても、検索と検索によって得られたパッチは、コード生成モデルに有用なガイダンスを提供することができることである。 しかし、コード生成モデルによって生成された検索誘導パッチは、意図したパッチからいくつかのトークンを外すことができる。 生成されたパッチは、意図したパッチを作成するためにわずかに変更することができる。 SARGAMは、実際の開発者のコード編集動作を模倣するように設計された新しいツールである。 オリジナルのコードバージョンが与えられたら、開発者は関連するパッチを検索し、コードの生成や書き込みを行い、生成したコードを変更して適切なコンテキストに適応することができる。 編集生成におけるsargamの評価は,現在の技術において優れた性能を示す。 SARGAMは、自動プログラム修復タスクにも優れた効果を示す。

Code editing is essential in evolving software development. Many automated code editing tools have been proposed that leverage both Information Retrieval-based techniques and Machine Learning-based code generation and code editing models. Each technique comes with its own promises and perils, and they are often used together to complement their strengths and compensate for their weaknesses. This paper proposes a hybrid approach to better synthesize code edits by leveraging the power of code search, generation, and modification. Our key observation is that a patch obtained by search and retrieval, even if imperfect, can provide helpful guidance to a code generation model. However, a retrieval-guided patch produced by a code generation model can still be a few tokens off from the intended patch. Such generated patches can be slightly modified to create the intended patches. SARGAM is a novel tool designed to mimic a real developer's code editing behavior. Given an original code version, the developer may search for related patches, generate or write the code, and then modify the generated code to adapt it to the right context. Our evaluation of SARGAM on edit generation shows superior performance with respect to current state-of-the-art techniques. SARGAM also shows great effectiveness on automated program repair tasks.
翻訳日:2023-10-24 03:55:48 公開日:2023-06-10
# ScaffML: Scaffoldのための量子行動インタフェース仕様言語

ScaffML: A Quantum Behavioral Interface Specification Language for Scaffold ( http://arxiv.org/abs/2306.06468v1 )

ライセンス: Link先を確認
Tiancheng Jin, Jianjun Zhao(参考訳) 量子プログラムの正確性を保証することは、量子ソフトウェアの品質保証に不可欠である。 古典的プログラムには様々な効果的な検証方法が存在するが、量子重ね合わせや絡み合いといった実行ロジックの基本的な違いのために量子プログラムに適用することはできない。 これにより、量子プログラムの正確性を検証する新しい方法が要求される。 本稿では,量子プログラミング言語Scaffoldに対するScaffMLと呼ばれる振舞いインタフェース仕様言語(BISL)を提案する。 ScaffMLは、Scaffoldモジュールの事前条件と後条件の指定を可能にし、Scaffoldコードとのアサーションの混合を可能にし、量子プログラムのデバッグと検証を容易にする。 本稿では,ScaffMLの目標と全体的アプローチについて論じ,例を通して言語の基本的特徴について述べる。 ScaffMLは量子プログラマに使いやすい仕様言語を提供し、静的解析、実行時チェック、Scaffoldプログラムの正式な検証をサポートする。 最後に、ScoffMLのワークフローと機能を説明するいくつかの例を示す。

Ensuring the correctness of quantum programs is crucial for quantum software quality assurance. Although various effective verification methods exist for classical programs, they cannot be applied to quantum programs due to the fundamental differences in their execution logic, such as quantum superposition and entanglement. This calls for new methods to verify the correctness of quantum programs. In this paper, we present a behavioral interface specification language (BISL) called ScaffML for the quantum programming language Scaffold. ScaffML allows the specification of pre- and post-conditions for Scaffold modules and enables the mixing of assertions with Scaffold code, thereby facilitating debugging and verification of quantum programs. This paper discusses the goals and overall approach of ScaffML and describes the basic features of the language through examples. ScaffML provides an easy-to-use specification language for quantum programmers, supporting static analysis, run-time checking, and formal verification of Scaffold programs. Finally, we present several instances to illustrate the workflow and functionalities of ScaffML.
翻訳日:2023-10-24 03:55:30 公開日:2023-06-10
# コードとコメントの不整合を検出するための事前訓練済み言語モデルのブートストラップ

Bootstrapping Code-Text Pretrained Language Model to Detect Inconsistency Between Code and Comment ( http://arxiv.org/abs/2306.06347v1 )

ライセンス: Link先を確認
Anh T. V. Dau, Nghi D. Q. Bui, Jin L. C. Guo(参考訳) ソースコードに対するコメントは、開発者がコードの機能を理解し、適切に使用できるようにするための重要なドキュメントである。 しかし、特にソフトウェアが時間とともに進化するにつれて、コメントが対応するコードを正確に反映させることは困難である。 コードとコメントの矛盾を識別し修正するための自動化手法の開発には関心が高まっているが、既存の手法は主にヒューリスティックなルールに依存している。 本稿では,コードとコメントの矛盾を検出するディープラーニングツールであるdoccheckerを提案する。 DocCheckerは、ノイズの多いコード補完ペアを検出して合成コメントを生成するように訓練されており、関連するコードスニペットにマッチしないコメントを判断し、修正することができる。 その効果は、他の最先端手法と比較してJust-In-Timeデータセットで実証されている。 このツールはhttps://github.com/FSoft-AI4Code/DocCheckerとhttp://4.193.50.237:5000/で入手できる。

Comments on source code serve as critical documentation for enabling developers to understand the code's functionality and use it properly. However, it is challenging to ensure that comments accurately reflect the corresponding code, particularly as the software evolves over time. Although increasing interest has been taken in developing automated methods for identifying and fixing inconsistencies between code and comments, the existing methods have primarily relied on heuristic rules. In this paper, we propose DocChecker, a deep-learning-based tool to detect the inconsistency between code and comments. DocChecker is trained to detect noisy code-comment pairs and generate synthetic comments, enabling it to determine comments that do not match their associated code snippets and correct them. Its effectiveness is demonstrated on the Just-In-Time dataset compared with other state-of-the-art methods. This tool is available at https://github.com/FSoft-AI4Code/DocChecker and http://4.193.50.237:5000/; the demonstration video can be found on https://youtu.be/KFbyaSf2I3c.
翻訳日:2023-10-24 03:54:58 公開日:2023-06-10
# 学習障害者を対象としたオープンラーニングコンテンツのwebアクセシビリティ評価の改善

Improved Web Accessibility Evaluation of Open Learning Contents for Individuals with Learning Disabilities ( http://arxiv.org/abs/2306.10039v1 )

ライセンス: Link先を確認
Muhammad Ishaq(参考訳) Webコンテンツは、電子デバイス上で正常で障害のあるコミュニティにアクセスできなければならない。 Web Accessibility Initiative(WAI)は、Web Content Accessibility Guidelines(WCAG)と呼ばれる標準ガイドラインを作成している。 Mobile Web Best Practice (MWBP) は、WAIによって、デスクトップコンピュータやスマートフォン、タブレット、iPad、iPhone、iPodなどのモバイルデバイス上のWebサイトのアクセシビリティーのために提案されている。 無償の学習コンテンツを提供する教育リソースはwcagのテストに使用される。 障害のあるコミュニティは、電子機器を通じてこれらの学習材料にアクセスする権利も平等である。 本研究の目的は, 学習障害のみを有する個人を対象に, 選択したオープン教材を評価することである。 本研究は,学習管理システムのアクセシビリティレベルを改善するためのいくつかの勧告を提供する。 今後の研究には、アクセシビリティエラーを最小限に抑える、あるいは不要な、よりアクセス可能な学習管理システムの開発が含まれる。 障害には身体障害、精神障害、認知の欠如、学習、感情障害が含まれる。 個人によっては複数の障害がある。 学習障害はその1つだ。 人々は未知の要因や知能の低い商(IQ)のため、学習が難しい。

Web content should be accessible to normal and disabled communities on electronic devices. The Web Accessibility Initiative (WAI) has created standard guidelines called Web Content Accessibility Guidelines (WCAG). Mobile Web Best Practice (MWBP) is also proposed by WAI for accessibility of websites on desktop computers and mobile devices like smartphones, tablets, iPads, iPhones, and iPods. Educational Resources that provide free licensed learning content are used to test the WCAG. The disabled community also has equal rights to gain access to these learning materials through electronic devices. The main purpose of this research is to evaluate these selected open educational learning materials for individuals with only learning disabilities. This research provides several recommendations to improve the accessibility level of the Learning Management Systems. Future research includes developing a more accessible learning management system with minimized or no accessibility errors. Disability includes physical impairments, mental disorders, lack of cognition, learning and emotional disability. Some individuals have multiple disorders. Learning disabilities are one of them. People have difficulty learning because of an unknown factor or low intelligence quotient (IQ).
翻訳日:2023-06-26 01:50:27 公開日:2023-06-10
# 北京PM2.5予測のための3つのディープラーニングモデルに基づくPSOハイパーパラメータの最適化

Optimized Three Deep Learning Models Based-PSO Hyperparameters for Beijing PM2.5 Prediction ( http://arxiv.org/abs/2306.07296v1 )

ライセンス: Link先を確認
Andri Pranolo, Yingchi Mao, Aji Prasetya Wibawa, Agung Bella Putra Utama, Felix Andika Dwiyanto(参考訳) ディープラーニングは、自然言語処理、画像識別、予測など、さまざまなアプリケーションで優れたパフォーマンスを実現する機械学習アプローチである。 ディープラーニングネットワークのパフォーマンスはハイパーパラメータ設定に依存する。 本研究では,Long short term memory (LSTM), Convolutional Neural Network (CNN), Multilayer perceptron (MLP) のディープラーニングアーキテクチャを,PSO (PSO-LSTM), Proposed M-1 (PSO-MLP), M-2 (PSO-CNN), M-3 (PSO-MLP) を用いて予測する手法を提案する。 北京pm2.5データセットを解析して,提案モデルの性能を測定した。 PM2.5は露点,圧力,温度,累積風速,積雪時間,降雨時間の影響を受けていた。 ディープラーニングネットワークのインプットは、毎日、毎週、毎月の3つのシナリオで構成される。 その結果, 3層を隠蔽したM-1は, M-2, M-3および全てのベースラインと比較して, RMSEとMAPEの最良の結果が得られることがわかった。 これらの最適化モデルを用いた大気汚染対策の提言

Deep learning is a machine learning approach that produces excellent performance in various applications, including natural language processing, image identification, and forecasting. Deep learning network performance depends on the hyperparameter settings. This research attempts to optimize the deep learning architecture of Long short term memory (LSTM), Convolutional neural network (CNN), and Multilayer perceptron (MLP) for forecasting tasks using Particle swarm optimization (PSO), a swarm intelligence-based metaheuristic optimization methodology: Proposed M-1 (PSO-LSTM), M-2 (PSO-CNN), and M-3 (PSO-MLP). Beijing PM2.5 datasets was analyzed to measure the performance of the proposed models. PM2.5 as a target variable was affected by dew point, pressure, temperature, cumulated wind speed, hours of snow, and hours of rain. The deep learning network inputs consist of three different scenarios: daily, weekly, and monthly. The results show that the proposed M-1 with three hidden layers produces the best results of RMSE and MAPE compared to the proposed M-2, M-3, and all the baselines. A recommendation for air pollution management could be generated by using these optimized models
翻訳日:2023-06-14 16:38:15 公開日:2023-06-10
# 畳み込みニューラルネットワークのための高能率2次ニューロンによる表現性向上

Expressivity Enhancement with Efficient Quadratic Neurons for Convolutional Neural Networks ( http://arxiv.org/abs/2306.07294v1 )

ライセンス: Link先を確認
Chuangtao Chen and Grace Li Zhang and Xunzhao Yin and Cheng Zhuo and Ulf Schlichtmann and Bing Li(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類やオブジェクトセグメンテーションなど、さまざまな分野に適用されている。 表現性を向上するため、新しいCNNアーキテクチャなど様々な技術が研究されている。 しかし、このような技術による性能向上は減少する傾向にある。 この課題に対処するため、多くの研究者は、ニューラルネットワークの基本的な構成要素であるニューロンの非線形性を高めることに焦点を移した。 しかしながら、これらのアプローチの多くは多数のパラメータを発生させ、必然的に計算コストを抑え、実行時に効率を損なう。 本研究では, パラメータと計算コストのオーバーヘッドだけで非線形性を保つために, 効率的な二次ニューロン構造を提案する。 提案する二次ニューロンは,2次計算情報の利用を最大化し,ネットワーク性能を向上させる。 実験の結果,提案する二次ニューロンは,従来の研究から得られた線形ニューロンと非線形ニューロンと比較して,分類タスクにおいて高い精度と計算効率を達成できることがわかった。

Convolutional neural networks (CNNs) have been successfully applied in a range of fields such as image classification and object segmentation. To improve their expressivity, various techniques, such as novel CNN architectures, have been explored. However, the performance gain from such techniques tends to diminish. To address this challenge, many researchers have shifted their focus to increasing the non-linearity of neurons, the fundamental building blocks of neural networks, to enhance the network expressivity. Nevertheless, most of these approaches incur a large number of parameters and thus formidable computation cost inevitably, impairing their efficiency to be deployed in practice. In this work, an efficient quadratic neuron structure is proposed to preserve the non-linearity with only negligible parameter and computation cost overhead. The proposed quadratic neuron can maximize the utilization of second-order computation information to improve the network performance. The experimental results have demonstrated that the proposed quadratic neuron can achieve a higher accuracy and a better computation efficiency in classification tasks compared with both linear neurons and non-linear neurons from previous works.
翻訳日:2023-06-14 16:37:52 公開日:2023-06-10
# 音声アシスタントによる画面テキストの参照

Referring to Screen Texts with Voice Assistants ( http://arxiv.org/abs/2306.07298v1 )

ライセンス: Link先を確認
Shruti Bhargava, Anand Dhoot, Ing-Marie Jonsson, Hoang Long Nguyen, Alkesh Patel, Hong Yu, Vincent Renkens(参考訳) 音声アシスタントは、ユーザーが電話をかけたり、メッセージを送ったり、イベントを作ったり、ナビゲートしたり、いろんなことができる。 しかし、アシスタントはユーザーのコンテキストを理解する能力に限界がある。 この作業では、この方向を一歩進めることを目指しています。 我々の研究は、ユーザーが電話番号、住所、メールアドレス、URL、日付を電話画面で参照するための新しい体験を掘り下げている。 視覚的な接地のように、複数の類似したテキストが画面に現れると、特に興味深い。 データセットを収集し、この新しい体験のための軽量汎用モデルを提案する。 ピクセルを直接消費するコストが高いため,本システムはuiから抽出されたテキストに依存するように設計されている。 我々のモデルはモジュール化されており、柔軟性、解釈可能性の改善、効率的なランタイムメモリ利用を提供する。

Voice assistants help users make phone calls, send messages, create events, navigate, and do a lot more. However, assistants have limited capacity to understand their users' context. In this work, we aim to take a step in this direction. Our work dives into a new experience for users to refer to phone numbers, addresses, email addresses, URLs, and dates on their phone screens. Our focus lies in reference understanding, which becomes particularly interesting when multiple similar texts are present on screen, similar to visual grounding. We collect a dataset and propose a lightweight general-purpose model for this novel experience. Due to the high cost of consuming pixels directly, our system is designed to rely on the extracted text from the UI. Our model is modular, thus offering flexibility, improved interpretability, and efficient runtime memory utilization.
翻訳日:2023-06-14 16:26:24 公開日:2023-06-10
# chatgptによる医療データ拡張:医薬品の識別と薬剤イベントの分類に関する事例研究

Medical Data Augmentation via ChatGPT: A Case Study on Medication Identification and Medication Event Classification ( http://arxiv.org/abs/2306.07297v1 )

ライセンス: Link先を確認
Shouvon Sarker, Lijun Qian, Xishuang Dong(参考訳) 電子カルテや臨床ノートにおける薬剤、疾患、関係などの重要な要因の同定は、臨床分野において幅広い応用がある。 N2C2 2022コンペティションでは、コンテキスト化メディケーションイベントデータセット(CMED)を用いた電子健康記録(EHR)の重要な要素の同定を促進するために、様々なタスクが提示された。 事前訓練された大規模言語モデル (LLM) はこれらのタスクにおいて例外的な性能を示した。 本研究の目的は,ALM(特にChatGPT)をデータ拡張に利用し,注釈付きデータの限られた可用性を克服し,EHRの重要な要素を特定することである。 さらに、ウィキペディアやMIMICのような広範なデータセットでトレーニングされたさまざまな事前トレーニングされたBERTモデルを使用して、統合データセットの微調整を通じて、EHRにおけるこれらの重要な変数を識別するモデルを開発した。 薬物識別と薬物イベント分類という2つの EHR 分析タスクの実験結果から,ChatGPT に基づくデータ拡張は,薬物識別と薬物イベント分類の両方のパフォーマンス向上に有効であることが示唆された。

The identification of key factors such as medications, diseases, and relationships within electronic health records and clinical notes has a wide range of applications in the clinical field. In the N2C2 2022 competitions, various tasks were presented to promote the identification of key factors in electronic health records (EHRs) using the Contextualized Medication Event Dataset (CMED). Pretrained large language models (LLMs) demonstrated exceptional performance in these tasks. This study aims to explore the utilization of LLMs, specifically ChatGPT, for data augmentation to overcome the limited availability of annotated data for identifying the key factors in EHRs. Additionally, different pre-trained BERT models, initially trained on extensive datasets like Wikipedia and MIMIC, were employed to develop models for identifying these key variables in EHRs through fine-tuning on augmented datasets. The experimental results of two EHR analysis tasks, namely medication identification and medication event classification, indicate that data augmentation based on ChatGPT proves beneficial in improving performance for both medication identification and medication event classification.
翻訳日:2023-06-14 16:26:13 公開日:2023-06-10
# チェーン・オブ・マインド(chain-of-thought)を通した人間のループ

Human-in-the-Loop through Chain-of-Thought ( http://arxiv.org/abs/2306.07932v1 )

ライセンス: Link先を確認
Zefan Cai, Baobao Chang, Wenjuan Han(参考訳) 強力な言語モデルの出現とChain-of- Thoughtプロンプトによって、自動化が一様になる一方で、長期的な論理的推論や多段階論理的推論において、その弱点が示されることもある。 例えば、ユーザーは人間の関与なしに複雑な数学的問題に対して望ましい回答を得るとは限らない。 そこで本研究では,理論理論における部分論理の手動補正がllmの推論性能をいかに向上させるかを検討するために,ループ内ヒューマン・イン・ザ・ループシステムである手作業補正システム(mcs)を提案する。 一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。 そこで,本稿では,古典経済学理論を基礎として,費用対効果分析モデル(CAMLOP)を提案し,実用性とそれに対応するコストを分析し,定量化し,バランスをとる。 MCSとCAMLOPを12のデータセットで実験する。 w.r.t のコストとユーティリティは、強力なベースラインよりも優れていることを証明している。

While the emergence of powerful language models along with Chain-of-thought prompting has made automation more and more omnipresent, it sometimes demonstrates its weakness in long-term or multi-step logical reasoning. For example, users don't always get desirable answers for complex mathematical problems without human involvement. Against this background, we present the Manual Correction System (MCS) -- a human-in-the-loop system enhanced by Chain-of-Thought prompting, which explores how manual correction of sub-logics in rationales can improve LLM's reasoning performance. Moving one step forward, considering a system with human-in-the-loop involves more than having humans improve performance but also controlling the cost. Therefore, we post a Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on classical economics theory to analyze, quantify and balance the utility and the corresponding cost. We conduct experiments of MCS and CAMLOP with twelve datasets. A significant advantage w.r.t cost and utility proves its superiority over strong baselines.
翻訳日:2023-06-14 12:34:55 公開日:2023-06-10
# 反復的mpcにおける未知の制約を満たすための学習

Learning to Satisfy Unknown Constraints in Iterative MPC ( http://arxiv.org/abs/2006.05054v3 )

ライセンス: Link先を確認
Monimoy Bujarbaruah, Charlott Vallon, Francesco Borrelli(参考訳) 未知多面体状態制約を満たすために反復的に学習する線形時間不変系の制御設計法を提案する。 繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。 この推定制約セットは、追加データの収集によって反復的に改善される。 MPCコントローラは、推定された制約セットを確実に満たすように設計されている。 本稿では,提案手法の詳細を述べるとともに,実行タスクの反復回数の関数として制約満足度を頑健かつ確率論的に保証する。 提案フレームワークの安全性を実証し,その安全性と性能のトレードオフを詳細な数値例で検証する。

We propose a control design method for linear time-invariant systems that iteratively learns to satisfy unknown polyhedral state constraints. At each iteration of a repetitive task, the method constructs an estimate of the unknown environment constraints using collected closed-loop trajectory data. This estimated constraint set is improved iteratively upon collection of additional data. An MPC controller is then designed to robustly satisfy the estimated constraint set. This paper presents the details of the proposed approach, and provides robust and probabilistic guarantees of constraint satisfaction as a function of the number of executed task iterations. We demonstrate the safety of the proposed framework and explore the safety vs. performance trade-off in a detailed numerical example.
翻訳日:2023-06-14 03:42:58 公開日:2023-06-10
# 逐次ランダム化実験のための弱信号漸近

Weak Signal Asymptotics for Sequentially Randomized Experiments ( http://arxiv.org/abs/2101.09855v6 )

ライセンス: Link先を確認
Xu Kuang and Stefan Wager(参考訳) 弱信号漸近のレンズを用いて,複数腕のバンディット問題を解決する際に発生するものを含む,逐次ランダム化実験のクラスを研究する。 n$の時間ステップを持つ実験では、アクション間の平均報酬ギャップを1/\sqrt{n}$にすることで、n$が増加するにつれて学習タスクの難易度を保ちます。 この方法では、逐次ランダム化実験(このスケーリング方式に適合し、状態によって連続的に変化するアーム選択確率を持つ)のサンプルパスが、確率微分方程式の解として与えられた拡散限界に弱収束することを示す。 拡散限界は、確率力学の洗練された例特有な特徴を導出し、トンプソンサンプリングを含む一連の実験の後悔と信念の進化に関するいくつかの洞察を得ることを可能にする(ただし、UCBは我々の連続性仮定を満たさない)。 ランダム化確率が観測データに連続的に依存する全ての連続実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔性能に悩まされることを示す。 逆に,asymptoticly uninformative prior varianceによるトンプソンサンプリングは,報奨ギャップが大きいことを含め,最適に近いインスタンス固有の後悔のスケーリングを実現するが,これらの優れた後悔特性は,極めて不安定な後方信念の犠牲になる。

We use the lens of weak signal asymptotics to study a class of sequentially randomized experiments, including those that arise in solving multi-armed bandit problems. In an experiment with $n$ time steps, we let the mean reward gaps between actions scale to the order $1/\sqrt{n}$ so as to preserve the difficulty of the learning task as $n$ grows. In this regime, we show that the sample paths of a class of sequentially randomized experiments -- adapted to this scaling regime and with arm selection probabilities that vary continuously with state -- converge weakly to a diffusion limit, given as the solution to a stochastic differential equation. The diffusion limit enables us to derive refined, instance-specific characterization of stochastic dynamics, and to obtain several insights on the regret and belief evolution of a number of sequential experiments including Thompson sampling (but not UCB, which does not satisfy our continuity assumption). We show that all sequential experiments whose randomization probabilities have a Lipschitz-continuous dependence on the observed data suffer from sub-optimal regret performance when the reward gaps are relatively large. Conversely, we find that a version of Thompson sampling with an asymptotically uninformative prior variance achieves near-optimal instance-specific regret scaling, including with large reward gaps, but these good regret properties come at the cost of highly unstable posterior beliefs.
翻訳日:2023-06-14 03:38:58 公開日:2023-06-10
# オフラインおよびオンラインソースフリードメイン適応のためのBAITのキャスト

Casting a BAIT for Offline and Online Source-free Domain Adaptation ( http://arxiv.org/abs/2010.12427v5 )

ライセンス: Link先を確認
Shiqi Yang, Yaxing Wang, Joost van de Weijer, Luis Herranz and Shangling Jui(参考訳) 我々は、ソースフリードメイン適応(SFDA)問題に対処し、ターゲットドメインへの適応中にのみソースモデルが利用可能となる。 各ターゲットサンプルの予測に到達するために、すべてのターゲットデータを複数回(epochs)訪問可能なオフライン設定と、到着時にターゲットデータを直接分類する必要があるオンライン設定の2つだ。 本稿では,多様な分類器に基づくドメイン適応法に着想を得て,第2の分類器を提案する。 対象ドメインに適応すると、ソース分類器から初期化された追加の分類器が誤分類された特徴を見つけることが期待される。 次に、機能抽出器を更新すると、これらの機能はソース決定境界の右側にプッシュされ、ソース不要のドメイン適応が達成される。 実験の結果,提案手法は,既存のDA法やSFDA法と比較して,いくつかのベンチマークデータセット上で,オフラインSFDAの競合的な結果が得られることがわかった。

We address the source-free domain adaptation (SFDA) problem, where only the source model is available during adaptation to the target domain. We consider two settings: the offline setting where all target data can be visited multiple times (epochs) to arrive at a prediction for each target sample, and the online setting where the target data needs to be directly classified upon arrival. Inspired by diverse classifier based domain adaptation methods, in this paper we introduce a second classifier, but with another classifier head fixed. When adapting to the target domain, the additional classifier initialized from source classifier is expected to find misclassified features. Next, when updating the feature extractor, those features will be pushed towards the right side of the source decision boundary, thus achieving source-free domain adaptation. Experimental results show that the proposed method achieves competitive results for offline SFDA on several benchmark datasets compared with existing DA and SFDA methods, and our method surpasses by a large margin other SFDA methods under online source-free domain adaptation setting.
翻訳日:2023-06-14 03:37:57 公開日:2023-06-10
# カテゴリ間の変換へのロバストネス:不変神経表現による変換へのロバストネス?

Robustness to Transformations Across Categories: Is Robustness To Transformations Driven by Invariant Neural Representations? ( http://arxiv.org/abs/2007.00112v3 )

ライセンス: Link先を確認
Hojin Jang, Syed Suleman Abbas Zaidi, Xavier Boix, Neeraj Prasad, Sharon Gilad-Gutnick, Shlomit Ben-Ami, Pawan Sinha(参考訳) 深層畳み込みニューラルネットワーク(DCNN)は、これらの変換がトレーニングセットに含まれる場合、変換中のオブジェクト(例えば、ぼやけやノイズ)を認識するための印象的な堅牢性を示している。 このようなロバスト性を説明する仮説は、dcnnが画像が変換された後も不変な神経表現を発達させることである。 しかし、この仮説がどの程度真であるかは、例えば不変性とは異なる性質で変換に対する堅牢性が達成できるため、決定的な疑問である。 ネットワークの一部は、変換された画像または非変換された画像を認識するために特化することができる。 本稿では, 学習分布を超えた変換に対するロバスト性を促進することによって, 不変な神経表現が出現する条件について検討する。 具体的には、トレーニング中にいくつかのオブジェクトカテゴリのみが変換されるトレーニングパラダイムを分析し、dcnnが変換されないカテゴリ全体の変換にロバストであるかどうかを評価する。 その結果,不変なニューラルネットワーク表現がない場合でも,ネットワークはトレーニング中に変換されるカテゴリのロバスト性を示すため,不変なニューラルネットワーク表現が変換に対するロバスト性を常に駆動するとは限らない。 不変性は、トレーニングセット内の変換されたカテゴリの数が増えるときにのみ現れる。 この現象は、物体の空間配置の変化を伴う回転や薄化のような幾何学的変換よりも、ぼやけやハイパスフィルタリングのような局所的変換で顕著である。 その結果,深層学習における不変神経表現の理解が深層学習と自然発生状態の理解を深めることができた。

Deep Convolutional Neural Networks (DCNNs) have demonstrated impressive robustness to recognize objects under transformations (eg. blur or noise) when these transformations are included in the training set. A hypothesis to explain such robustness is that DCNNs develop invariant neural representations that remain unaltered when the image is transformed. However, to what extent this hypothesis holds true is an outstanding question, as robustness to transformations could be achieved with properties different from invariance, eg. parts of the network could be specialized to recognize either transformed or non-transformed images. This paper investigates the conditions under which invariant neural representations emerge by leveraging that they facilitate robustness to transformations beyond the training distribution. Concretely, we analyze a training paradigm in which only some object categories are seen transformed during training and evaluate whether the DCNN is robust to transformations across categories not seen transformed. Our results with state-of-the-art DCNNs indicate that invariant neural representations do not always drive robustness to transformations, as networks show robustness for categories seen transformed during training even in the absence of invariant neural representations. Invariance only emerges as the number of transformed categories in the training set is increased. This phenomenon is much more prominent with local transformations such as blurring and high-pass filtering than geometric transformations such as rotation and thinning, which entail changes in the spatial arrangement of the object. Our results contribute to a better understanding of invariant neural representations in deep learning and the conditions under which it spontaneously emerges.
翻訳日:2023-06-14 03:37:01 公開日:2023-06-10
# フェアアクティブラーニング:保険におけるラベル付け問題の解決

Fair Active Learning: Solving the Labeling Problem in Insurance ( http://arxiv.org/abs/2112.09466v3 )

ライセンス: Link先を確認
Romuald Elie, Caroline Hillairet, Fran\c{c}ois Hu, Marc Juillard(参考訳) 本稿では,保険業界における機械学習モデルの普及に伴う大きな障害に対処する。 最初の課題は、保険のラベルのないデータを効果的に活用し、ラベル付けの労力を削減し、アクティブな学習技術によるデータの関連性を強調することだ。 本稿は,様々なアクティブラーニングサンプリング手法を探求し,合成データと実際の保険データの両方に与える影響を評価した。 この分析は、機械学習モデルが基盤となるデータに見られるバイアスや差別を再現する可能性があるため、公平なモデル推論を達成することの難しさを強調している。 そこで本稿では,これら相互に絡み合った課題に取り組むために,革新的フェアアクティブ学習手法を提案する。 保険データセットの数値実験で確認されたように,提案手法は有益かつ公平な事例をサンプリングし,モデル予測性能と公平さのバランスを両立させる。

This paper addresses significant obstacles that arise from the widespread use of machine learning models in the insurance industry, with a specific focus on promoting fairness. The initial challenge lies in effectively leveraging unlabeled data in insurance while reducing the labeling effort and emphasizing data relevance through active learning techniques. The paper explores various active learning sampling methodologies and evaluates their impact on both synthetic and real insurance datasets. This analysis highlights the difficulty of achieving fair model inferences, as machine learning models may replicate biases and discrimination found in the underlying data. To tackle these interconnected challenges, the paper introduces an innovative fair active learning method. The proposed approach samples informative and fair instances, achieving a good balance between model predictive performance and fairness, as confirmed by numerical experiments on insurance datasets.
翻訳日:2023-06-14 03:29:34 公開日:2023-06-10
# 経験誘導モンテカルロ木探索による再合成計画

Retrosynthetic Planning with Experience-Guided Monte Carlo Tree Search ( http://arxiv.org/abs/2112.06028v2 )

ライセンス: Link先を確認
Siqi Hong, Hankz Hankui Zhuo, Kebing Jin, Guang Shao, Zhanwen Zhou(参考訳) 逆合成計画では、単純な構成要素を使って複雑な分子を合成する多くの可能な経路は、組み合わせ可能性の爆発を引き起こす。 経験豊富な化学者でさえ、最も有望な変換を選択するのが難しいことが多い。 現在のアプローチは、化学知識が限られている人や機械が訓練したスコア関数に依存している。 本稿では,経験誘導型モンテカルロ木探索(EG-MCTS)を提案し,この問題に対処する。 ロールアウトの代わりに、検索中に合成体験から知識を学ぶためのエクスペリエンスガイダンスネットワークを構築します。 USPTOデータセットのベンチマーク実験によると、EG-MCTSは効率と有効性の両方において最先端のアプローチよりも大幅に改善されている。 文献との比較実験では,コンピュータ生成経路は報告経路とほぼ一致した。 実際の薬物化合物用に設計された経路は、レトロ合成分析を行う化学者を支援するeg-mctsの有効性を示す。

In retrosynthetic planning, the huge number of possible routes to synthesize a complex molecule using simple building blocks leads to a combinatorial explosion of possibilities. Even experienced chemists often have difficulty to select the most promising transformations. The current approaches rely on human-defined or machine-trained score functions which have limited chemical knowledge or use expensive estimation methods for guiding. Here we an propose experience-guided Monte Carlo tree search (EG-MCTS) to deal with this problem. Instead of rollout, we build an experience guidance network to learn knowledge from synthetic experiences during the search. Experiments on benchmark USPTO datasets show that, EG-MCTS gains significant improvement over state-of-the-art approaches both in efficiency and effectiveness. In a comparative experiment with the literature, our computer-generated routes mostly matched the reported routes. Routes designed for real drug compounds exhibit the effectiveness of EG-MCTS on assisting chemists performing retrosynthetic analysis.
翻訳日:2023-06-14 03:28:53 公開日:2023-06-10
# データから動的モデルを抽出する

Extracting Dynamical Models from Data ( http://arxiv.org/abs/2110.06917v5 )

ライセンス: Link先を確認
Michael F. Zimmer(参考訳) 時間とともに与えられたデータのみを与えられた場合、システムの基盤となるダイナミクスを決定する問題は、何十年も科学者に挑戦してきた。 本稿では、相空間変数の「em update」をモデル化するために機械学習を使う手法を紹介し、相空間変数の関数として実行する。 (より一般的には、モデリングは変数のジェット空間上で行われる。) このアプローチは、調和振動子、振り子、ダッフィング振動子の例に対する力学を正確に再現することを示し、基礎となる微分方程式もそれぞれの例で正確に復元される。 さらに、データは時間とともにどのようにサンプリングされるか(定期的に、または不規則に)にもよらない。 このアプローチ(FJet)は、RK(Runge-Kutta)数値積分スキームのテイラー級数展開によるモデルと似ていることが示されている。 この類似性は、モデリングで使用する適切な関数を明確に明らかにすることの利点と、更新のエラー推定を明らかにすることの利点である。 このように、この新しいアプローチは、機械学習によってRKスキームの係数を決定する方法として考えられる。 最後に、無損傷の高調波発振器の例で、更新の安定性は4次RKよりも10^9$長く安定であることが示されている。

The problem of determining the underlying dynamics of a system when only given data of its state over time has challenged scientists for decades. In this paper, the approach of using machine learning to model the {\em updates} of the phase space variables is introduced; this is done as a function of the phase space variables. (More generally, the modeling is done over the jet space of the variables.) This approach is shown to accurately replicate the dynamics for the examples of the harmonic oscillator, the pendulum, and the Duffing oscillator; the underlying differential equation is also accurately recovered in each example. In addition, the results in no way depend on how the data is sampled over time (i.e., regularly or irregularly). It is demonstrated that this approach (named "FJet") is similar to the model resulting from a Taylor series expansion of the Runge-Kutta (RK) numerical integration scheme. This analogy confers the advantage of explicitly revealing the appropriate functions to use in the modeling, as well as revealing the error estimate of the updates. Thus, this new approach can be thought of as a way to determine the coefficients of an RK scheme by machine learning. Finally, it is shown in the undamped harmonic oscillator example that the stability of the updates is stable for $10^9$ times longer than with $4$th-order RK.
翻訳日:2023-06-14 03:27:22 公開日:2023-06-10
# 欠落データモデルにおける適合テストの検証可能性と良さについて

On Testability and Goodness of Fit Tests in Missing Data Models ( http://arxiv.org/abs/2203.00132v2 )

ライセンス: Link先を確認
Razieh Nabi, Rohit Bhattacharya(参考訳) モデリング仮定を有向非巡回グラフで記述できるデータ問題に対する識別と推定手法の開発において、重要な進展が見られた。 このような手法を用いた結果の妥当性は、グラフが真とする仮定に依存するが、これらの仮定の検証は、事前の作業において十分な注意を払われていない。 本稿では,データグラフィカルモデルが欠落している3つのクラスにおいて,テスト可能な意味に関する新たな知見を提供する。 探索されたモデルのクラスは、ドロップアウト/検閲による縦断的研究のモデリングに使用できるシーケンシャルな非ランダムモデルと、横断的な研究や調査に適用できる自己検閲モデルである。

Significant progress has been made in developing identification and estimation techniques for missing data problems where modeling assumptions can be described via a directed acyclic graph. The validity of results using such techniques rely on the assumptions encoded by the graph holding true; however, verification of these assumptions has not received sufficient attention in prior work. In this paper, we provide new insights on the testable implications of three broad classes of missing data graphical models, and design goodness-of-fit tests for them. The classes of models explored are: sequential missing-at-random and missing-not-at-random models which can be used for modeling longitudinal studies with dropout/censoring, and a no self-censoring model which can be applied to cross-sectional studies and surveys.
翻訳日:2023-06-14 03:19:32 公開日:2023-06-10
# 連立が与える影響:大選挙における有権者の影響の評価

The Impact of a Coalition: Assessing the Likelihood of Voter Influence in Large Elections ( http://arxiv.org/abs/2202.06411v4 )

ライセンス: Link先を確認
Lirong Xia(参考訳) 何世紀もの間、有権者の小さな連立政権の影響は大きな選挙で無視できると広く信じられてきた。 その結果、投票が特定の分布に従う場合に影響される可能性、特に不公平文化(ic)として知られる一元的な一元的分布の下で単一の投票者によって操作可能である可能性を示す多くの文献が存在する。 本稿では,(1)分布相手が最悪の場合の分布を選択し,次に汚染相手がデータの一部を$\psi$に修正するような,より一般的な半ランダムモデルを提案し,(2)連立操作,勝利の限界,様々な投票制御と収賄を含む多くの連立的影響問題を考察し,(3)任意かつ可変な連立サイズをB$とみなす。 我々の主定理は、幅広い投票規則の下で選挙に成功する大きさのB$連立政権の存在の半ランダムな可能性に関する漸近的に厳密な境界を提供する。 主定理の応用とその証明技法は、ICの下での連立操作可能性の可能性に関する長年のオープンな疑問を解決し、多くの一般的な投票規則に対して、確率が$\Theta\left(\min\left\{\frac{B}{\sqrt n}, 1\right\right)$であることを示す。 主な技術的貢献は、ポアソン多項変数(PMV)が不安定となる半ランダムな確率を特徴づけることである。

For centuries, it has been widely believed that the influence of a small coalition of voters is negligible in a large election. Consequently, there is a large body of literature on characterizing the likelihood for an election to be influenced when the votes follow certain distributions, especially the likelihood of being manipulable by a single voter under the i.i.d. uniform distribution, known as the Impartial Culture (IC). In this paper, we extend previous studies in three aspects: (1) we propose a more general semi-random model, where a distribution adversary chooses a worst-case distribution and then a contamination adversary modifies up to $\psi$ portion of the data, (2) we consider many coalitional influence problems, including coalitional manipulation, margin of victory, and various vote controls and bribery, and (3) we consider arbitrary and variable coalition size $B$. Our main theorem provides asymptotically tight bounds on the semi-random likelihood of the existence of a size-$B$ coalition that can successfully influence the election under a wide range of voting rules. Applications of the main theorem and its proof techniques resolve long-standing open questions about the likelihood of coalitional manipulability under IC, by showing that the likelihood is $\Theta\left(\min\left\{\frac{B}{\sqrt n}, 1\right\}\right)$ for many commonly-studied voting rules. The main technical contribution is a characterization of the semi-random likelihood for a Poisson multinomial variable (PMV) to be unstable, which we believe to be a general and useful technique with independent interest.
翻訳日:2023-06-14 03:18:35 公開日:2023-06-10
# 逆応答を伴う普遍回帰

Universal Regression with Adversarial Responses ( http://arxiv.org/abs/2203.05067v3 )

ライセンス: Link先を確認
Mo\"ise Blanchard, Patrick Jaillet(参考訳) 一般に分離可能な距離空間上の非i.i.d.インスタンス列のクラスで逆応答を持つ回帰アルゴリズムを提供する。 また,この回帰文脈における学習可能性の特徴付けを行う。 我々は,値応答の制約を伴わずに学習者の強い一貫性を求める普遍的一貫性を考える。 解析により、そのような目的は定常過程よりもはるかに大きなインスタンス列に対して達成可能であることを示し、値空間の基本的な二分法を明らかにする。 さらに、楽観的に普遍的な学習規則、すなわち、普遍的な一貫性を達成できなければ、他のアルゴリズムも失敗する。 非境界損失に対しては,非i.i.d.インスタンス列の大きなクラスの下で逆回帰を行うアルゴリズムが存在するような軽度可積分条件を提案する。 さらに,本解析は,シーケンス上のモーメント条件を伴わずに逆応答下で一貫性のある一般距離空間における平均推定の学習規則も提供する。

We provide algorithms for regression with adversarial responses under large classes of non-i.i.d. instance sequences, on general separable metric spaces, with provably minimal assumptions. We also give characterizations of learnability in this regression context. We consider universal consistency which asks for strong consistency of a learner without restrictions on the value responses. Our analysis shows that such an objective is achievable for a significantly larger class of instance sequences than stationary processes, and unveils a fundamental dichotomy between value spaces: whether finite-horizon mean estimation is achievable or not. We further provide optimistically universal learning rules, i.e., such that if they fail to achieve universal consistency, any other algorithms will fail as well. For unbounded losses, we propose a mild integrability condition under which there exist algorithms for adversarial regression under large classes of non-i.i.d. instance sequences. In addition, our analysis also provides a learning rule for mean estimation in general metric spaces that is consistent under adversarial responses without any moment conditions on the sequence, a result of independent interest.
翻訳日:2023-06-14 03:08:19 公開日:2023-06-10
# モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ

Recovering 3D Human Mesh from Monocular Images: A Survey ( http://arxiv.org/abs/2203.01923v3 )

ライセンス: Link先を確認
Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang(参考訳) 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。 統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。 2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。 一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム 二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。 一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。 過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。 私たちの知る限りでは、これはモノラルな3Dメッシュ回復の課題に焦点を当てた初めての調査である。 まず、ボディモデルの導入から始め、その強みと弱みを詳細に分析することで、リカバリフレームワークとトレーニング目標の精巧な分析を行います。 また、データセット、評価メトリクス、ベンチマーク結果も要約します。 オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。 定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。

Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and physically plausible mesh results, two paradigms have been developed to overcome challenges in the 2D-to-3D lifting process: i) an optimization-based paradigm, where different data terms and regularization terms are exploited as optimization objectives; and ii) a regression-based paradigm, where deep learning techniques are embraced to solve the problem in an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving the quality of 3D mesh labels for a wide range of datasets. Though remarkable progress has been achieved in the past decade, the task is still challenging due to flexible body motions, diverse appearances, complex environments, and insufficient in-the-wild annotations. To the best of our knowledge, this is the first survey that focuses on the task of monocular 3D human mesh recovery. We start with the introduction of body models and then elaborate recovery frameworks and training objectives by providing in-depth analyses of their strengths and weaknesses. We also summarize datasets, evaluation metrics, and benchmark results. Open issues and future directions are discussed in the end, hoping to motivate researchers and facilitate their research in this area. A regularly updated project page can be found at https://github.com/tinatiansjz/hmr-survey.
翻訳日:2023-06-14 03:07:06 公開日:2023-06-10
# 完全活性空間結合クラスター法のための3つのラグランジアン

Three Lagrangians for the complete-active space coupled-cluster method ( http://arxiv.org/abs/2205.08792v2 )

ライセンス: Link先を確認
Simen Kvaal(参考訳) 完全活性空間結合クラスター(cascc)法の3つの完全変分式を導出する。 この定式化には、滑らかな多様体によってモデルベクトルを近似する能力が含まれており、これにより、CAS型のモデル空間の指数関数的壁を克服する可能性が開ける。 特に行列-積状態のモデルベクトルについて考察し、現在の変分定式化は多重参照結合クラスタ計算を好適にスケーリングするだけでなく、高速かつ多項式スケーリングの量子化学密度-行列再正規化法を体系的に補正できるだけでなく、化学的精度で動的相関を適切に解決する能力に欠けると主張している。 時間領域への変分公式の拡張についても、抽象進化方程式の導出とともに論じる。

Three fully variational formulations of the complete-active space coupled-cluster (CASCC) method are derived. The formulations include the ability to approximate the model vectors by smooth manifolds, thereby opening up the possibility for overcoming the exponential wall of scaling for model spaces of CAS type. In particular, model vectors of matrix-product states are considered, and it is argued that the present variational formulation allows not only favorably-scaling multireference coupled-cluster calculations, but also systematic correction of tailored coupled-cluster calculation and of quantum chemical density-matrix renormalization group methods, which are fast and polynomial scaling, but lacks the ability to properly resolve dynamical correlation at chemical accuracy. The extension of the variational formulations to the time-domain is also discussed, with derivations of abstract evolution equations.
翻訳日:2023-06-14 02:57:42 公開日:2023-06-10
# 3次元未知視線トモグラフィのための空間コンセンサスを用いた直交行列検索

Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View Tomography ( http://arxiv.org/abs/2207.02985v2 )

ライセンス: Link先を確認
Shuai Huang, Mona Zehni, Ivan Dokmani\'c, Zhizhen Zhao(参考訳) 未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。 kam (1980) で始まる一連の作業では、回転不変フーリエ特徴を持つモーメント法 (mom) を用いて周波数領域のuvtを解き、向きが一様分布することを仮定している。 この一連の研究には、行列分解に基づく最近の直交行列探索(OMR)アプローチが含まれており、これはエレガントではあるが、利用できない密度についての側面情報を必要とする。 OMRがこれらの制約から解放されるためには、密度マップと直交行列を相互に整合性を持つことを要求して、共同で回復することを提案する。 得られた非凸最適化問題を、離散化された参照射影と非負性制約により正規化する。 これは空間的自己相関機能のための新しいクローズドフォーム式によって実現されている。 さらに,復元問題の非凸性を効果的に緩和する計算容易な初期密度マップを設計する。 実験結果から,空間的コンセンサスを有するOMRは,従来の3次元UVTの低SNRシナリオにおいて,従来のOMRアプローチよりも頑健で,優れた性能を示した。

Unknown-view tomography (UVT) reconstructs a 3D density map from its 2D projections at unknown, random orientations. A line of work starting with Kam (1980) employs the method of moments (MoM) with rotation-invariant Fourier features to solve UVT in the frequency domain, assuming that the orientations are uniformly distributed. This line of work includes the recent orthogonal matrix retrieval (OMR) approaches based on matrix factorization, which, while elegant, either require side information about the density that is not available, or fail to be sufficiently robust. For OMR to break free from those restrictions, we propose to jointly recover the density map and the orthogonal matrices by requiring that they be mutually consistent. We regularize the resulting non-convex optimization problem by a denoised reference projection and a nonnegativity constraint. This is enabled by the new closed-form expressions for spatial autocorrelation features. Further, we design an easy-to-compute initial density map which effectively mitigates the non-convexity of the reconstruction problem. Experimental results show that the proposed OMR with spatial consensus is more robust and performs significantly better than the previous state-of-the-art OMR approach in the typical low-SNR scenario of 3D UVT.
翻訳日:2023-06-14 02:50:28 公開日:2023-06-10
# ミニバッチ重球運動量の高速収束について

On the fast convergence of minibatch heavy ball momentum ( http://arxiv.org/abs/2206.07553v3 )

ライセンス: Link先を確認
Raghu Bollapragada, Tyler Chen, Rachel Ward(参考訳) 単純な確率運動量法は機械学習の最適化に広く用いられているが、その優れた実用性能は、文学における加速の理論的保証がないことと相反する。 本研究は,2次最適化問題において,確率重球運動量が(決定論的)重球運動量の高速線形速度を保っていることを示すことにより,理論と実践のギャップを埋めることを目的としている。 このアルゴリズムは,極小バッチと重い球運動量を持つランダム化カッツマーズアルゴリズムと解釈できる。 この分析は運動量遷移行列を慎重に分解し、独立なランダム行列の積に対して新しいスペクトルノルム濃度境界を用いる。 境界が合理的に鋭いことを示す数値図面を提供する。

Simple stochastic momentum methods are widely used in machine learning optimization, but their good practical performance is at odds with an absence of theoretical guarantees of acceleration in the literature. In this work, we aim to close the gap between theory and practice by showing that stochastic heavy ball momentum retains the fast linear rate of (deterministic) heavy ball momentum on quadratic optimization problems, at least when minibatching with a sufficiently large batch size. The algorithm we study can be interpreted as an accelerated randomized Kaczmarz algorithm with minibatching and heavy ball momentum. The analysis relies on carefully decomposing the momentum transition matrix, and using new spectral norm concentration bounds for products of independent random matrices. We provide numerical illustrations demonstrating that our bounds are reasonably sharp.
翻訳日:2023-06-14 02:48:41 公開日:2023-06-10
# ロバストマルコフ決定過程の1次政策最適化

First-order Policy Optimization for Robust Markov Decision Process ( http://arxiv.org/abs/2209.10579v2 )

ライセンス: Link先を確認
Yan Li, Guanghui Lan, Tuo Zhao(参考訳) 我々は,安定なマルコフ決定過程 (MDP) の解法について考察する。これは,不確実な遷移カーネルを持つ,割引された有限状態有限作用空間 MDP の集合を含む。 計画の目標は、移行の不確実性に対して最悪の場合の値を最適化し、そのため、特別のケースとして標準のMDP計画を包含する堅牢な政策を見つけることである。 $(\mathbf{s},\mathbf{a})$-正方形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的観察を確立し、ポリシーに基づく一階法、すなわちロバストなポリシーミラー降下(RPMD)の開発を促進する。 a $\mathcal{o}(\log(1/\epsilon))$ cycle complexity for find a $\epsilon$-optimal policy is established with linearly increasing stepsizes.(英語版) さらに,SRPMDと名づけられたロバストポリシーミラー降下手法の確率的変種を開発し,その1次情報は,名目環境とのオンラインインタラクションを通じてのみ利用可能である。 最適性ギャップはノイズレベルまで線形に収束し,政策評価のための時間差学習法を開発することにより,サンプル複雑性を$\tilde{\mathcal{o}}(1/\epsilon^2)$とする。 反復とサンプルの複雑さは、RPMDに対して一定のステップサイズで議論される。 我々の知る限り、上記の結果はすべて、ロバストなMDP問題に適用されたポリシーベースの一階法に新しいものと思われる。

We consider the problem of solving robust Markov decision process (MDP), which involves a set of discounted, finite state, finite action space MDPs with uncertain transition kernels. The goal of planning is to find a robust policy that optimizes the worst-case values against the transition uncertainties, and thus encompasses the standard MDP planning as a special case. For $(\mathbf{s},\mathbf{a})$-rectangular uncertainty sets, we establish several structural observations on the robust objective, which facilitates the development of a policy-based first-order method, namely the robust policy mirror descent (RPMD). An $\mathcal{O}(\log(1/\epsilon))$ iteration complexity for finding an $\epsilon$-optimal policy is established with linearly increasing stepsizes. We further develop a stochastic variant of the robust policy mirror descent method, named SRPMD, when the first-order information is only available through online interactions with the nominal environment. We show that the optimality gap converges linearly up to the noise level, and consequently establish an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity by developing a temporal difference learning method for policy evaluation. Both iteration and sample complexities are also discussed for RPMD with a constant stepsize. To the best of our knowledge, all the aforementioned results appear to be new for policy-based first-order methods applied to the robust MDP problem.
翻訳日:2023-06-14 02:42:16 公開日:2023-06-10
# 逐次意思決定過程の確率的ダイナミクスの理解:多武装バンディットの経路積分解析

Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits ( http://arxiv.org/abs/2208.06245v2 )

ライセンス: Link先を確認
Bo Li and Chi Ho Yeung(参考訳) マルチアームバンディット(MAB)モデルは、不確実な環境で意思決定を研究する最も古典的なモデルの一つである。 このモデルでは、プレイヤーは各時間ステップで演奏するバンディットマシンの$k$のアームのいずれかを選択し、対応するアームは特定の未知の分布からプレイヤーにランダムな報酬を返す。 プレイヤーの目標は、プロセス中にできるだけ多くの報酬を集めることである。 その単純さにもかかわらず、MABモデルは、探究と搾取の間のトレードオフを研究し、不確実性の下でシーケンシャルな意思決定のための効果的なアルゴリズムを設計するための優れた遊び場を提供する。 多くの漸近的最適アルゴリズムが確立されているが、決定と報酬の相互関係のため、MABモデルの確率力学の有限時間挙動はより解析が困難であるように見える。 本稿では,統計物理学の手法を用いてmabモデルの解析を行い,有限短時間における累積的後悔の分布,mabアルゴリズムに対する関心の中心量,およびモデルの複雑な動的挙動のキャラクタリゼーションを容易にする。 シミュレーションとよく一致した解析結果から, 最適アームからの初回不運な出力により, サブ最適アームが過剰に活用されたことによる大きな後悔が, 興味深いマルチモーダル後悔分布の出現を示唆する。

The multi-armed bandit (MAB) model is one of the most classical models to study decision-making in an uncertain environment. In this model, a player chooses one of $K$ possible arms of a bandit machine to play at each time step, where the corresponding arm returns a random reward to the player, potentially from a specific unknown distribution. The target of the player is to collect as many rewards as possible during the process. Despite its simplicity, the MAB model offers an excellent playground for studying the trade-off between exploration versus exploitation and designing effective algorithms for sequential decision-making under uncertainty. Although many asymptotically optimal algorithms have been established, the finite-time behaviors of the stochastic dynamics of the MAB model appear much more challenging to analyze, due to the intertwine between the decision-making and the rewards being collected. In this paper, we employ techniques in statistical physics to analyze the MAB model, which facilitates the characterization of the distribution of cumulative regrets at a finite short time, the central quantity of interest in an MAB algorithm, as well as the intricate dynamical behaviors of the model. Our analytical results, in good agreement with simulations, point to the emergence of an interesting multimodal regret distribution, with large regrets resulting from excess exploitation of sub-optimal arms due to an initial unlucky output from the optimal one.
翻訳日:2023-06-14 02:40:09 公開日:2023-06-10
# 量子計算アルゴリズムにおけるリアルタイムクリロフ理論

Real-Time Krylov Theory for Quantum Computing Algorithms ( http://arxiv.org/abs/2208.01063v3 )

ライセンス: Link先を確認
Yizhi Shen, Katherine Klymko, James Sud, David B. Williams-Young, Wibe A. de Jong, Norm M. Tubman(参考訳) 量子コンピュータは、従来のハードウェアではシミュレートが難しいシステムの基底および励起状態特性にアクセスするための新しい手段を提供する。 リアルタイム進化によって生成された部分空間を用いた新しい手法は固有状態情報抽出の効率性を示しているが、そのような手法の完全な能力はまだ理解されていない。 近年,量子ハードウェア上で固有値を抽出するためのコンパクトで効率的なリアルタイムアルゴリズムである変分量子位相推定(vqpe)法を開発した。 ここでは、Krylov部分空間がパラメタライズされたリアルタイム進化によって構築される一般化されたKrylovスキームを理論的に数値的に探索し、VQPEアルゴリズムにも適用することによって、この研究に基づいて構築する。 我々は、スペクトル近似の高速収束を正当化する誤差境界を確立する。 また,高エネルギー固有状態との重なり合いを実時間部分空間対角化から抑制し,特定の固有エネルギーにおける符号位相のキャンセルを示す過程を可視化する。 本稿では,様々なアルゴリズムの実装について検討し,スペクトル統計学の形で,対象ハミルトニアンに確率性を加える場合の性能について考察する。 このようなリアルタイム進化の実践性を実証するため、強相関系に対する電子構造予測などの量子計算の基本問題への応用について論じる。

Quantum computers provide new avenues to access ground and excited state properties of systems otherwise difficult to simulate on classical hardware. New approaches using subspaces generated by real-time evolution have shown efficiency in extracting eigenstate information, but the full capabilities of such approaches are still not understood. In recent work, we developed the variational quantum phase estimation (VQPE) method, a compact and efficient real-time algorithm to extract eigenvalues on quantum hardware. Here we build on that work by theoretically and numerically exploring a generalized Krylov scheme where the Krylov subspace is constructed through a parametrized real-time evolution, which applies to the VQPE algorithm as well as others. We establish an error bound that justifies the fast convergence of our spectral approximation. We also derive how the overlap with high energy eigenstates becomes suppressed from real-time subspace diagonalization and we visualize the process that shows the signature phase cancellations at specific eigenenergies. We investigate various algorithm implementations and consider performance when stochasticity is added to the target Hamiltonian in the form of spectral statistics. To demonstrate the practicality of such real-time evolution, we discuss its application to fundamental problems in quantum computation such as electronic structure predictions for strongly correlated systems.
翻訳日:2023-06-14 02:39:44 公開日:2023-06-10
# TCDM: 知覚的クラウド品質評価のための変換複雑度に基づく歪み指標

TCDM: Transformational Complexity Based Distortion Metric for Perceptual Point Cloud Quality Assessment ( http://arxiv.org/abs/2210.04671v2 )

ライセンス: Link先を確認
Yujie Zhang, Qi Yang, Yifei Zhou, Xiaozhong Xu, Le Yang, Yiling Xu(参考訳) 客観的クラウド品質評価(PCQA)研究の目標は、ポイントクラウド品質を知覚的に一貫した方法で測定する定量的メトリクスを開発することである。 本稿では,認知科学と人間の視覚システム(HVS)の直観を融合させ,歪んだ点雲を基準に戻す複雑さを計測することにより,点雲の品質を評価する。 この目的のために,まず3次元ボロノイ図に基づいて,参照点雲と歪点雲の空間分割を行い,一連の局所パッチペアを得る。 次に,予測符号化理論に触発されて,空間認識ベクトル自己回帰モデル(sa-var)を用いて,各参照パッチの形状と色チャネルをそれぞれ歪むパッチの有無で符号化する。 残差誤差が多変量ガウス分布に従うと仮定すると、参照と歪んだサンプルの間の自己複雑度と変換複雑性は共分散行列を用いて計算される。 また、最終品質予測を促進するために、sa-varが生成する予測項を補助機能として導入する。 提案手法であるtcdm(transformal complexity based distortion metric)の有効性を,5つのパブリッククラウド品質評価データベース上で広範な実験により評価した。 その結果,TCDMは最新技術(SOTA)の性能を達成し,さらに分析により様々なシナリオにおける堅牢性を確認した。

The goal of objective point cloud quality assessment (PCQA) research is to develop quantitative metrics that measure point cloud quality in a perceptually consistent manner. Merging the research of cognitive science and intuition of the human visual system (HVS), in this paper, we evaluate the point cloud quality by measuring the complexity of transforming the distorted point cloud back to its reference, which in practice can be approximated by the code length of one point cloud when the other is given. For this purpose, we first make space segmentation for the reference and distorted point clouds based on a 3D Voronoi diagram to obtain a series of local patch pairs. Next, inspired by the predictive coding theory, we utilize one space-aware vector autoregressive (SA-VAR) model to encode the geometry and color channels of each reference patch with and without the distorted patch, respectively. Assuming that the residual errors follow the multi-variate Gaussian distributions, the self-complexity of the reference and the transformational complexity between the reference and distorted samples are computed using covariance matrices. Additionally, the prediction terms generated by SA-VAR are introduced as one auxiliary feature to promote the final quality prediction. The effectiveness of the proposed transformational complexity based distortion metric (TCDM) is evaluated through extensive experiments conducted on five public point cloud quality assessment databases. The results demonstrate that the TCDM achieves state-of-the-art (SOTA) performance, and further analysis confirms its robustness across various scenarios.
翻訳日:2023-06-14 02:30:54 公開日:2023-06-10
# unrolling と bilevel optimization を用いた変分モデルの学習

Learning Variational Models with Unrolling and Bilevel Optimization ( http://arxiv.org/abs/2209.12651v4 )

ライセンス: Link先を確認
Christoph Brauer, Niklas Breustedt, Timo de Wolff, Dirk A. Lorenz(参考訳) 本稿では,リスク最小化による教師付き学習の文脈における変動モデルの学習の問題を考える。 我々のゴールは、バイレベル最適化とアルゴリズムのアンロールによる変分モデルの学習の2つのアプローチをより深く理解することである。 前者は、変動モデルがリスク最小化問題より低いレベルの最適化問題であると考え、後者は、その問題をおよそ解くアルゴリズムによって下位レベルの最適化問題を置き換える。 どちらのアプローチも実際は使用されるが、アンローリングは計算の観点からはるかに単純である。 2つのアプローチを解析・比較するために,簡単な玩具モデルを検討し,リスクと各推定器を明示的に計算する。 アンローリングは二段階最適化手法よりも優れているが、アンローリングの性能はさらなるパラメータに大きく依存し、時には予期せぬ方法でも良いことが示される: アンローリングアルゴリズムのステップサイズは、非常に重要な問題である(そして、ステップサイズを学ぶことは大きな改善をもたらす)が、アンローリングされたイテレーションの数は、マイナーな役割を担っている。

In this paper we consider the problem of learning variational models in the context of supervised learning via risk minimization. Our goal is to provide a deeper understanding of the two approaches of learning of variational models via bilevel optimization and via algorithm unrolling. The former considers the variational model as a lower level optimization problem below the risk minimization problem, while the latter replaces the lower level optimization problem by an algorithm that solves said problem approximately. Both approaches are used in practice, but unrolling is much simpler from a computational point of view. To analyze and compare the two approaches, we consider a simple toy model, and compute all risks and the respective estimators explicitly. We show that unrolling can be better than the bilevel optimization approach, but also that the performance of unrolling can depend significantly on further parameters, sometimes in unexpected ways: While the stepsize of the unrolled algorithm matters a lot (and learning the stepsize gives a significant improvement), the number of unrolled iterations plays a minor role.
翻訳日:2023-06-14 02:28:21 公開日:2023-06-10
# 高次元到達性のための形式安全保証の生成

Generating Formal Safety Assurances for High-Dimensional Reachability ( http://arxiv.org/abs/2209.12336v3 )

ライセンス: Link先を確認
Albert Lin and Somil Bansal(参考訳) 自律システムに対する正式な安全性とパフォーマンス保証の提供がますます重要になっている。 hamilton-jacobi (hj) reachability analysisは一般的な形式的検証ツールであり、一般的な非線形系のダイナミクス、境界付けられた対向系外乱、状態と入力の制約を扱うことができる。 しかし、PDEは状態次元に関して計算とメモリの複雑さが指数関数的にスケールするので、大規模システムで直接利用することができる。 最近提案されたdeepreachという手法は、高次元到達可能性問題に対して正弦波型神経pdeソルバを用いることで、この課題を克服している。 残念なことに、ニューラルネットワークはエラーを発生させるため、計算されたソリューションは安全ではないかもしれない。 本研究では,deepreach の解に対するエラーバウンドを計算する手法を提案する。 この誤差境界は到達可能な管の補正に使用され、真の到達可能な管の安全な近似となる。 また、一般非線形力学系に対するこの誤差補正の確率境界を計算するためのシナリオベース最適化手法を提案する。 本研究では,高次元ロケットランディングおよび多車両衝突回避問題に対して,確率論的に安全な到達管を得るための提案手法の有効性を示す。

Providing formal safety and performance guarantees for autonomous systems is becoming increasingly important. Hamilton-Jacobi (HJ) reachability analysis is a popular formal verification tool for providing these guarantees, since it can handle general nonlinear system dynamics, bounded adversarial system disturbances, and state and input constraints. However, it involves solving a PDE, whose computational and memory complexity scales exponentially with respect to the state dimensionality, making its direct use on large-scale systems intractable. A recently proposed method called DeepReach overcomes this challenge by leveraging a sinusoidal neural PDE solver for high-dimensional reachability problems, whose computational requirements scale with the complexity of the underlying reachable tube rather than the state space dimension. Unfortunately, neural networks can make errors and thus the computed solution may not be safe, which falls short of achieving our overarching goal to provide formal safety assurances. In this work, we propose a method to compute an error bound for the DeepReach solution. This error bound can then be used for reachable tube correction, resulting in a safe approximation of the true reachable tube. We also propose a scenario-based optimization approach to compute a probabilistic bound on this error correction for general nonlinear dynamical systems. We demonstrate the efficacy of the proposed approach in obtaining probabilistically safe reachable tubes for high-dimensional rocket-landing and multi-vehicle collision-avoidance problems.
翻訳日:2023-06-14 02:28:03 公開日:2023-06-10
# MARS: 関数空間におけるスコアマッチングとしてのメタラーニング

MARS: Meta-Learning as Score Matching in the Function Space ( http://arxiv.org/abs/2210.13319v3 )

ライセンス: Link先を確認
Krunoslav Lehman Pavasovic, Jonas Rothfuss and Andreas Krause(参考訳) メタラーニングは、関連するデータセットから有用な帰納的バイアスを抽出することを目的としている。 ベイジアンメタラーニングでは、ニューラルネットワークパラメータの事前分布を構築してこれを達成している。 しかし、高次元ニューラルネットワークパラメータ上で計算可能な事前分布の族を特定することは困難である。 結果として、既存のアプローチはメタラーニングの制限された対角的なガウスの先行に頼り、表現力と性能を著しく制限する。 これらの問題を回避するため,機能的ベイズニューラルネットワーク推論のレンズを通してメタラーニングにアプローチし,事前を確率的プロセスとみなし,関数空間で推論を行う。 具体的には、メタトレーニングタスクをデータ生成プロセスのサンプルとして捉え、メタラーニングをこの確率過程の法則を実証的に推定するものとして形式化する。 我々の手法は,パラメータ空間の先行ではなく,データ生成プロセスのスコア関数をメタ学習することで,複雑な事前知識をシームレスに獲得し,表現することができる。 総合ベンチマークでは,予測精度と不確実性評価の質が大幅に向上し,最先端の性能が得られることを示す。

Meta-learning aims to extract useful inductive biases from a set of related datasets. In Bayesian meta-learning, this is typically achieved by constructing a prior distribution over neural network parameters. However, specifying families of computationally viable prior distributions over the high-dimensional neural network parameters is difficult. As a result, existing approaches resort to meta-learning restrictive diagonal Gaussian priors, severely limiting their expressiveness and performance. To circumvent these issues, we approach meta-learning through the lens of functional Bayesian neural network inference, which views the prior as a stochastic process and performs inference in the function space. Specifically, we view the meta-training tasks as samples from the data-generating process and formalize meta-learning as empirically estimating the law of this stochastic process. Our approach can seamlessly acquire and represent complex prior knowledge by meta-learning the score function of the data-generating process marginals instead of parameter space priors. In a comprehensive benchmark, we demonstrate that our method achieves state-of-the-art performance in terms of predictive accuracy and substantial improvements in the quality of uncertainty estimates.
翻訳日:2023-06-14 02:20:51 公開日:2023-06-10
# NeuroPrim:NP-hardスパンニングツリー問題の解決のための注意に基づくモデル

NeuroPrim: An Attention-based Model for Solving NP-hard Spanning Tree Problems ( http://arxiv.org/abs/2210.12453v2 )

ライセンス: Link先を確認
Yuchen Shi, Congying Han, Tiande Guo(参考訳) 特定の制約でツリー問題をスパンニングすることは現実のシナリオでは解決が困難であり、しばしば複雑なアルゴリズム設計と指数時間を必要とする。 近年、ルーティング問題を解決するためのエンドツーエンドのディープニューラルネットワークへの関心が高まっている。 しかし、そのような方法は一般に頂点の列を生成するため、様々なスパンディングツリー問題のように解集合がエッジからなる一般組合せ最適化問題に適用するのが困難である。 本稿では,グラフ上の一般組合せ最適化問題に対するマルコフ決定過程(mdp)を定義することにより,様々なスパンディングツリー問題を解決するための新しい枠組みであるneuroprimを提案する。 提案手法は,Primのアルゴリズムを用いて動作と状態空間を削減し,REINFORCEを用いて結果モデルを訓練する。 この枠組みをユークリッド空間上の3つの難しい問題に適用する: Degree-constrained Minimum Spanning Tree (DCMST) 問題、最小ルーティングコストSpanning Tree (MRCST) 問題、グラフにおけるSteiner Tree Problem (STP) 問題。 文献実験の結果,モデルが強いヒューリスティックを上回り,最大250頂点の小さな最適ギャップを達成することが示された。 さらに,本モデルには強い一般化能力が備わっており,1000以上の問題事例では有意な劣化はみられなかった。 以上の結果から,本フレームワークは木にまたがるより広範な組合せ最適化問題の解決に有効であることが示唆された。

Spanning tree problems with specialized constraints can be difficult to solve in real-world scenarios, often requiring intricate algorithmic design and exponential time. Recently, there has been growing interest in end-to-end deep neural networks for solving routing problems. However, such methods typically produce sequences of vertices, which makes it difficult to apply them to general combinatorial optimization problems where the solution set consists of edges, as in various spanning tree problems. In this paper, we propose NeuroPrim, a novel framework for solving various spanning tree problems by defining a Markov Decision Process (MDP) for general combinatorial optimization problems on graphs. Our approach reduces the action and state space using Prim's algorithm and trains the resulting model using REINFORCE. We apply our framework to three difficult problems on Euclidean space: the Degree-constrained Minimum Spanning Tree (DCMST) problem, the Minimum Routing Cost Spanning Tree (MRCST) problem, and the Steiner Tree Problem in graphs (STP). Experimental results on literature instances demonstrate that our model outperforms strong heuristics and achieves small optimality gaps of up to 250 vertices. Additionally, we find that our model has strong generalization ability, with no significant degradation observed on problem instances as large as 1000. Our results suggest that our framework can be effective for solving a wide range of combinatorial optimization problems beyond spanning tree problems.
翻訳日:2023-06-14 02:20:32 公開日:2023-06-10
# モデル予測のクリッピングによる雑音ラベルの記憶の緩和

Mitigating Memorization of Noisy Labels by Clipping the Model Prediction ( http://arxiv.org/abs/2212.04055v2 )

ライセンス: Link先を確認
Hongxin Wei, Huiping Zhuang, Renchunzi Xie, Lei Feng, Gang Niu, Bo An, Yixuan Li(参考訳) ノイズラベルの存在下では、深いニューラルネットワークの一般化性能を確保するためにロバストな損失関数の設計が重要である。 クロスエントロピー(CE)の損失は、その非有界性のため、ノイズの多いラベルに対して堅牢ではないことが示されている。 この問題を緩和するために、既存の作品は通常、対称条件で特に堅牢な損失を設計し、通常は不適合の問題に繋がる。 本稿では,ロジットレベルでの損失を誘導し,既存の損失のノイズロバスト性を高めることを目的とする。 具体的には、logitベクトルのノルムをクランプして、それが定数によって上界であることを保証するlogitクリップ(logitclip)を提案する。 このように、我々のLogitClip法によるCE損失を効果的に有界化し、ノイズのあるラベルを持つ例への過度な適合を緩和する。 さらに,LogitClipの耐雑音性を証明する理論的解析を行った。 大規模な実験により、LogitClipはCE損失のノイズロバスト性を著しく向上するだけでなく、一般的なロバスト損失の一般化性能を広く向上させることが示された。

In the presence of noisy labels, designing robust loss functions is critical for securing the generalization performance of deep neural networks. Cross Entropy (CE) loss has been shown to be not robust to noisy labels due to its unboundedness. To alleviate this issue, existing works typically design specialized robust losses with the symmetric condition, which usually lead to the underfitting issue. In this paper, our key idea is to induce a loss bound at the logit level, thus universally enhancing the noise robustness of existing losses. Specifically, we propose logit clipping (LogitClip), which clamps the norm of the logit vector to ensure that it is upper bounded by a constant. In this manner, CE loss equipped with our LogitClip method is effectively bounded, mitigating the overfitting to examples with noisy labels. Moreover, we present theoretical analyses to certify the noise-tolerant ability of LogitClip. Extensive experiments show that LogitClip not only significantly improves the noise robustness of CE loss, but also broadly enhances the generalization performance of popular robust losses.
翻訳日:2023-06-14 02:01:55 公開日:2023-06-10
# モデル勾配によるトレーニングデータの再構成, 実現可能

Reconstructing Training Data from Model Gradient, Provably ( http://arxiv.org/abs/2212.03714v3 )

ライセンス: Link先を確認
Zihan Wang, Jason D. Lee, Qi Lei(参考訳) モデルの勾配がトレーニングサンプルに関する情報を漏洩する時期と程度を理解することは、プライバシに関する重要な質問である。 本稿では,データのトレーニングや記憶がなくても,ランダムに選択されたパラメータ値で,単一の勾配クエリからトレーニングサンプルを完全に再構築することができる,という驚くべき結果を示す。 我々は,浅層ニューラルネットワークや深層ニューラルネットワーク,幅広い活性化関数を用いて,温和な条件下でのトレーニングデータの識別可能性を証明する。 また,テンソル分解に基づく統計的かつ計算効率の良いアルゴリズムを提案し,トレーニングデータを再構成する。 センシティブなトレーニングデータを示す証明可能な攻撃として、我々の発見はプライバシー、特に連邦学習における深刻な脅威を示唆している。

Understanding when and how much a model gradient leaks information about the training sample is an important question in privacy. In this paper, we present a surprising result: even without training or memorizing the data, we can fully reconstruct the training samples from a single gradient query at a randomly chosen parameter value. We prove the identifiability of the training data under mild conditions: with shallow or deep neural networks and a wide range of activation functions. We also present a statistically and computationally efficient algorithm based on tensor decomposition to reconstruct the training data. As a provable attack that reveals sensitive training data, our findings suggest potential severe threats to privacy, especially in federated learning.
翻訳日:2023-06-14 02:01:34 公開日:2023-06-10
# FacT:視覚変換器の軽量適応のための因子調整

FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer ( http://arxiv.org/abs/2212.03145v2 )

ライセンス: Link先を確認
Shibo Jie, Zhi-Hong Deng(参考訳) 最近の研究は、パラメータ効率を向上させるために少数のパラメータを更新することで、事前訓練された視覚変換器(ViT)に適応する可能性を探っている。 現在のpetl手法では、パラメータのわずか0.5%をチューニングすることで、vitは完全な微調整よりも優れたパフォーマンスで下流タスクに適応できることが示されている。 本稿では,実世界のアプリケーションにおける極端なストレージ制約を満たすため,PETLの効率をさらに向上することを目的とする。 この目的のために,各vitの重みを1つの3次元テンソルにテンソル化し,その重みを軽量な因子に分解する,重みを格納するテンソル化分解フレームワークを提案する。 微調整プロセスでは、FacT(Facter-Tuning)と呼ばれる要素のみを更新、保存する必要がある。 VTAB-1Kベンチマークでは,提案手法は5倍のパラメータ効率を有しつつ,最先端PETL法であるNOAHと同等に動作する。 また、トレーニング可能なパラメータは8K(ViTのパラメータの0.01%)しか使用していないが、完全な微調整やVPTやBitFitといったPETLメソッドよりも優れています。 少数の設定では、FacTは最も少ないパラメータを使ってPETLベースラインを全て破り、低データのレシエーションにおいてその強みを示す。

Recent work has explored the potential to adapt a pre-trained vision transformer (ViT) by updating only a few parameters so as to improve storage efficiency, called parameter-efficient transfer learning (PETL). Current PETL methods have shown that by tuning only 0.5% of the parameters, ViT can be adapted to downstream tasks with even better performance than full fine-tuning. In this paper, we aim to further promote the efficiency of PETL to meet the extreme storage constraint in real-world applications. To this end, we propose a tensorization-decomposition framework to store the weight increments, in which the weights of each ViT are tensorized into a single 3D tensor, and their increments are then decomposed into lightweight factors. In the fine-tuning process, only the factors need to be updated and stored, termed Factor-Tuning (FacT). On VTAB-1K benchmark, our method performs on par with NOAH, the state-of-the-art PETL method, while being 5x more parameter-efficient. We also present a tiny version that only uses 8K (0.01% of ViT's parameters) trainable parameters but outperforms full fine-tuning and many other PETL methods such as VPT and BitFit. In few-shot settings, FacT also beats all PETL baselines using the fewest parameters, demonstrating its strong capability in the low-data regime.
翻訳日:2023-06-14 02:01:20 公開日:2023-06-10
# 分布外一般化のためのスタイル伝達による因果推論

Causal Inference via Style Transfer for Out-of-distribution Generalisation ( http://arxiv.org/abs/2212.03063v2 )

ライセンス: Link先を確認
Toan Nguyen, Kien Do, Duc Thanh Nguyen, Bao Duong, Thin Nguyen(参考訳) out-of-distribution (ood) 一般化は、複数のソースドメインの知識を使用して、対象とするドメインをうまく一般化できるモデルを構築することを目的としている。 この目的のために、モデルは入力とラベルの間の因果依存性を求めなければならない。 しかしながら、統計的あるいは非法的な手法は、しばしばこの依存を捉えられず、観察されていない共同設立者を通じてモデルトレーニングから学んだ散発的な相関を考慮しないため、成績が悪くなる。 バックドア調整のような既知の因果推論手法は、共同創設者の観察を必要とするため、急激な相関を取り除くには適用できない。 本稿では,正面調整(FA)を成功させて,隠れた共同創設者を効果的に扱う手法を提案する。 FAは、共同創設者の観察を必要とせず、因果的メカニズムにアクセスするのに役立つ画像の意味情報とみなす仲介者を選ぶ必要がある。 さらに, スタイル転送アルゴリズムを用いて, メディアータと他の観測画像の組み合わせをフロントドア式で推定する。 FAを推定するためのスタイル転送は,OODの一般化には新鮮かつ合理的であり,広く使用されているベンチマークデータセットに対する広範な実験結果によって正当化される。

Out-of-distribution (OOD) generalisation aims to build a model that can generalise well on an unseen target domain using knowledge from multiple source domains. To this end, the model should seek the causal dependence between inputs and labels, which may be determined by the semantics of inputs and remain invariant across domains. However, statistical or non-causal methods often cannot capture this dependence and perform poorly due to not considering spurious correlations learnt from model training via unobserved confounders. A well-known existing causal inference method like back-door adjustment cannot be applied to remove spurious correlations as it requires the observation of confounders. In this paper, we propose a novel method that effectively deals with hidden confounders by successfully implementing front-door adjustment (FA). FA requires the choice of a mediator, which we regard as the semantic information of images that helps access the causal mechanism without the need for observing confounders. Further, we propose to estimate the combination of the mediator with other observed images in the front-door formula via style transfer algorithms. Our use of style transfer to estimate FA is novel and sensible for OOD generalisation, which we justify by extensive experimental results on widely used benchmark datasets.
翻訳日:2023-06-14 02:00:54 公開日:2023-06-10
# multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning ( http://arxiv.org/abs/2212.10773v3 )

ライセンス: Link先を確認
Zhiyang Xu, Ying Shen, Lifu Huang(参考訳) 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。 しかし、まだビジョンやマルチモーダルタスクについては検討されていない。 本稿では、10のカテゴリをカバーする統一されたseq-to-seqフォーマットで62の多様なマルチモーダルタスクからなる、最初のマルチモーダル命令チューニングベンチマークデータセットであるmul-tiinstructを紹介する。 タスクは21の既存のオープンソースデータセットから派生し、各タスクには5つの専門家による命令が付属する。 我々は、ofaをマルチモーダル命令チューニングの基本事前学習モデルとして捉え、そのゼロショット性能をさらに向上するために、大規模自然命令データセットを活用するために、複数の転送学習戦略を探求する。 実験結果は,未認識のマルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの転送学習の利点を示している。 また、モデルが様々な命令にどの程度敏感であるかを評価するために、新しい評価指標、すなわち感度も設計します。 その結果、様々なタスクや命令でモデルを微調整することで、各タスクの命令のばらつきに対する感度が低下することが示唆された。

Instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it has yet to be explored for vision and multimodal tasks. In this work, we introduce MUL-TIINSTRUCT, the first multimodal instruction tuning benchmark dataset that consists of 62 diverse multimodal tasks in a unified seq-to-seq format covering 10 broad categories. The tasks are derived from 21 existing open-source datasets and each task is equipped with 5 expert-written instructions. We take OFA as the base pre-trained model for multimodal instruction tuning, and to further improve its zero-shot performance, we explore multiple transfer learning strategies to leverage the large-scale NATURAL INSTRUCTIONS dataset. Experimental results demonstrate strong zero-shot performance on various unseen multimodal tasks and the benefit of transfer learning from a text-only instruction dataset. We also design a new evaluation metric - Sensitivity, to evaluate how sensitive the model is to the variety of instructions. Our results indicate that fine-tuning the model on a diverse set of tasks and instructions leads to a reduced sensitivity to variations in instructions for each task.
翻訳日:2023-06-14 01:50:43 公開日:2023-06-10
# ローレンツ群同変オートエンコーダ

Lorentz group equivariant autoencoders ( http://arxiv.org/abs/2212.07347v2 )

ライセンス: Link先を確認
Zichun Hao, Raghav Kansal, Javier Duarte, Nadezda Chernyavskaya(参考訳) 近年、分類、シミュレーション、異常検出といったタスクのための高エネルギー物理学(HEP)における機械学習(ML)モデルの開発において重要な研究が行われている。 これらのモデルは、しばしば、コンピュータビジョンや自然言語処理のデータセット用に設計されたもので、HEPデータに適合する帰納的バイアスがない。 このようなバイアスにより、モデルのパフォーマンスと解釈性が向上し、必要なトレーニングデータの量を削減することが示されている。 その目的のために、正規時間ローレンツ群 $\mathrm{so}^+(3,1)$ に対して同値なオートエンコーダモデルであるローレンツ群オートエンコーダ (lgae) を開発し、その群の表現の中に潜在空間が存在する。 我々はLHCのジェット機のアーキテクチャと実験結果を示し、いくつかの圧縮、再構成、異常検出の指標に基づいて、グラフと畳み込みニューラルネットワークのベースラインモデルより優れています。 また,自動エンコーダの潜伏空間の解析において,そのような同変モデルの利点を示すとともに,そのようなMLモデルによって発見された潜在的な異常の説明可能性を向上させることができる。

There has been significant work recently in developing machine learning (ML) models in high energy physics (HEP) for tasks such as classification, simulation, and anomaly detection. Often these models are adapted from those designed for datasets in computer vision or natural language processing, which lack inductive biases suited to HEP data, such as equivariance to its inherent symmetries. Such biases have been shown to make models more performant and interpretable, and reduce the amount of training data needed. To that end, we develop the Lorentz group autoencoder (LGAE), an autoencoder model equivariant with respect to the proper, orthochronous Lorentz group $\mathrm{SO}^+(3,1)$, with a latent space living in the representations of the group. We present our architecture and several experimental results on jets at the LHC and find it outperforms graph and convolutional neural network baseline models on several compression, reconstruction, and anomaly detection metrics. We also demonstrate the advantage of such an equivariant model in analyzing the latent space of the autoencoder, which can improve the explainability of potential anomalies discovered by such ML models.
翻訳日:2023-06-14 01:49:23 公開日:2023-06-10
# 偶然の光プローブ

Accidental Light Probes ( http://arxiv.org/abs/2301.05211v3 )

ライセンス: Link先を確認
Hong-Xing Yu, Samir Agarwala, Charles Herrmann, Richard Szeliski, Noah Snavely, Jiajun Wu, Deqing Sun(参考訳) 単一の画像からシーン内の照明を復元することは、コンピュータビジョンの根本的な問題である。 ミラーボール光プローブは全方位光を捉えることができるが、光プローブは日常の画像では一般的に利用できない。 本研究は、毎日の場面にしばしば現れるコカイン缶のような、一般的な光沢のある物体である偶発的な光プローブ(alps)からの照明の復元について研究する。 そこで本研究では,ALPを物理的にモデル化する手法を提案する。 主な考え方は、フォトグラム的原理によるシェーディングによるALPの出現をモデル化し、この過程を微分レンダリングによって逆転させ、偶発的な照明を回復させることである。 我々は,高忠実度照明推定を可能にするために,alpをシーンに配置できることを実証する。 我々のモデルは、ALPを含む既存の画像の照明を復元することもできる。

Recovering lighting in a scene from a single image is a fundamental problem in computer vision. While a mirror ball light probe can capture omnidirectional lighting, light probes are generally unavailable in everyday images. In this work, we study recovering lighting from accidental light probes (ALPs) -- common, shiny objects like Coke cans, which often accidentally appear in daily scenes. We propose a physically-based approach to model ALPs and estimate lighting from their appearances in single images. The main idea is to model the appearance of ALPs by photogrammetrically principled shading and to invert this process via differentiable rendering to recover incidental illumination. We demonstrate that we can put an ALP into a scene to allow high-fidelity lighting estimation. Our model can also recover lighting for existing images that happen to contain an ALP.
翻訳日:2023-06-14 01:42:13 公開日:2023-06-10
# 周波数コム量子ビットとパッシブデバイスを用いた線形光量子計算

Linear Optical Quantum Computation with Frequency-Comb Qubits and Passive Devices ( http://arxiv.org/abs/2301.03188v2 )

ライセンス: Link先を確認
Tomohiro Yamazaki, Tomoaki Arizono, Toshiki Kobayashi, Rikizo Ikuta, and Takashi Yamamoto(参考訳) 時間周波数自由度を用いた線形光量子計算法を提案する。 この方式では、量子ビットを単一光子周波数コムに符号化し、時間分解検出器、ビームスプリッター、光インターリーバーを用いて量子ビットの操作を行う。 この方式では高速スイッチや電気光学変調器などのアクティブデバイスは必要とせず、主に検出器の有限分解能によって引き起こされる時間的およびスペクトル的誤差に対して頑健である。 現在の技術は、フォールトトレラント量子計算の要件をほぼ満たしている。

We propose a linear optical quantum computation scheme using time-frequency degree of freedom. In this scheme, a qubit is encoded in single-photon frequency combs, and manipulation of the qubits is performed using time-resolving detectors, beam splitters, and optical interleavers. This scheme does not require active devices such as high-speed switches and electro-optic modulators and is robust against temporal and spectral errors, which are mainly caused by the detectors' finite resolution. We show that current technologies almost meet the requirements for fault-tolerant quantum computation.
翻訳日:2023-06-14 01:41:40 公開日:2023-06-10
# StyleTalk: 制御可能な話し方を備えたワンショットトーキングヘッドジェネレーション

StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles ( http://arxiv.org/abs/2301.01081v2 )

ライセンス: Link先を確認
Yifeng Ma, Suzhen Wang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding, Zhidong Deng and Xin Yu(参考訳) さまざまな人が多様なパーソナライズドスピーキングスタイルで話します。 既存のワンショット発声ヘッド法は, 口唇シンク, 自然な表情, 安定した頭部動作において大きな進歩を遂げているが, 最終的な発声ヘッドビデオでは, 多様な発声スタイルを生成できない。 この問題に対処するために,ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。 簡単に言えば、任意の参照音声ビデオから発話スタイルを取得し、ワンショットのポートレートを駆動して、参照音声スタイルと他のオーディオと対話することを目指している。 具体的には,まず,スタイル参照ビデオの動的顔動作パターンを抽出し,それをスタイルコードにエンコードするスタイルエンコーダを開発した。 その後、音声コンテンツとスタイルコードからスタイリッシュな顔アニメーションを合成するスタイル制御可能なデコーダを導入する。 そこで本稿では,参照発話スタイルを生成映像に統合するために,符号化されたスタイルコードがフィードフォワード層の重みを調整できるように,スタイル認識適応トランスフォーマを設計した。 スタイルを意識した適応機構のおかげで、参照発話スタイルをデコード中に合成ビデオに組み込むことができる。 広汎な実験により,1つのポートレート画像と1つの音声クリップから多種多様な発話スタイルで音声ヘッドビデオを生成することができるとともに,視覚効果を実感できることがわかった。 プロジェクトページ: https://github.com/fuxivirtualhuman/styletalk.com

Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
翻訳日:2023-06-14 01:40:55 公開日:2023-06-10
# オーディオディープフェイク検出における敵攻撃対策

Defense Against Adversarial Attacks on Audio DeepFake Detection ( http://arxiv.org/abs/2212.14597v2 )

ライセンス: Link先を確認
Piotr Kawa, Marcin Plata, Piotr Syga(参考訳) ディープフェイク(英: Audio DeepFakes, DF)は、ディープラーニングを用いて人工的に生成された発話であり、リスナーを非常に説得力のある方法で騙すことが主な目的である。 彼らの品質は、ニュースの信頼性や破壊など、セキュリティとプライバシーの面で深刻な脅威をもたらすのに十分である。 脅威を回避するために,複数のニューラルネットワークを用いた生成音声検出手法が提案されている。 本研究は,入力データに表面的(人によって見分けにくい)変化を加えることで,検出器の性能を低下させる敵対的攻撃の話題を扱っている。 本研究は,2つのシナリオ(ホワイトボックスとトランスファービリティ)における敵意攻撃に対する3つの検出アーキテクチャのロバスト性を評価し,新しい適応訓練による敵意トレーニングを用いて後から強化することを含む。 さらに、調査されたアーキテクチャのひとつがRawNet3で、私たちの知る限り、私たちは初めてDeepFake検出に適応しました。

Audio DeepFakes (DF) are artificially generated utterances created using deep learning, with the primary aim of fooling the listeners in a highly convincing manner. Their quality is sufficient to pose a severe threat in terms of security and privacy, including the reliability of news or defamation. Multiple neural network-based methods to detect generated speech have been proposed to prevent the threats. In this work, we cover the topic of adversarial attacks, which decrease the performance of detectors by adding superficial (difficult to spot by a human) changes to input data. Our contribution contains evaluating the robustness of 3 detection architectures against adversarial attacks in two scenarios (white-box and using transferability) and enhancing it later by using adversarial training performed by our novel adaptive training. Moreover, one of the investigated architectures is RawNet3, which, to the best of our knowledge, we adapted for the first time to DeepFake detection.
翻訳日:2023-06-14 01:40:04 公開日:2023-06-10
# Delta$DPの廃止: デモグラフィックパーティのための新しい配布レベルメトリクス

Retiring $\Delta$DP: New Distribution-Level Metrics for Demographic Parity ( http://arxiv.org/abs/2301.13443v3 )

ライセンス: Link先を確認
Xiaotian Han, Zhimeng Jiang, Hongye Jin, Zirui Liu, Na Zou, Qifan Wang, Xia Hu(参考訳) 人口格差は機械学習において最も広く認識されている集団公平度尺度であり、異なる集団の平等な扱いを保証する。 多くの作品は、一般的に使われる計量である$\delta dp$を追求することで、人口格差を達成することを目指している。 残念なことに、本論文では、フェアネス指標の$\Delta DP$は、本質的に以下の欠点があるため、人口統計学的平等違反を正確に測定することはできない。 i) ゼロ値$\Delta DP$は、人口比率のゼロ違反を保証しない。 i)$\Delta DP$値は、分類しきい値によって異なる。 そこで本研究では,確率密度関数曲線 (ABPC) と累積密度関数曲線 (ABCC) の2つの新しい公正度尺度を提案し,分布レベルでの人口統計学的等価性の違反を正確に測定する。 新しい公平度指標は、異なる人口統計グループに対する予測確率の分布の差を直接測定する。 そこで、提案する新しいメトリクスを楽しめます。 一 ABCC/ABPCは、人口格差のゼロを保障する。 二 ABCC/ABPCは、分類基準が調整されている間、人口格差を保証する。 さらに,提案する公平度指標を用いて,既存の公正度モデルを再評価し,新しい測定基準の下で異なる公平度挙動を観察する。 コードはhttps://github.com/ahxt/new_metric_for_demographic_parityで入手できる。

Demographic parity is the most widely recognized measure of group fairness in machine learning, which ensures equal treatment of different demographic groups. Numerous works aim to achieve demographic parity by pursuing the commonly used metric $\Delta DP$. Unfortunately, in this paper, we reveal that the fairness metric $\Delta DP$ can not precisely measure the violation of demographic parity, because it inherently has the following drawbacks: i) zero-value $\Delta DP$ does not guarantee zero violation of demographic parity, ii) $\Delta DP$ values can vary with different classification thresholds. To this end, we propose two new fairness metrics, Area Between Probability density function Curves (ABPC) and Area Between Cumulative density function Curves (ABCC), to precisely measure the violation of demographic parity at the distribution level. The new fairness metrics directly measure the difference between the distributions of the prediction probability for different demographic groups. Thus our proposed new metrics enjoy: i) zero-value ABCC/ABPC guarantees zero violation of demographic parity; ii) ABCC/ABPC guarantees demographic parity while the classification thresholds are adjusted. We further re-evaluate the existing fair models with our proposed fairness metrics and observe different fairness behaviors of those models under the new metrics. The code is available at https://github.com/ahxt/new_metric_for_demographic_parity
翻訳日:2023-06-14 01:32:30 公開日:2023-06-10
# 骨格に基づく行動認識のためのグラフコントラスト学習

Graph Contrastive Learning for Skeleton-based Action Recognition ( http://arxiv.org/abs/2301.10900v2 )

ライセンス: Link先を確認
Xiaohu Huang, Hao Zhou, Jian Wang, Haocheng Feng, Junyu Han, Errui Ding, Jingdong Wang, Xinggang Wang, Wenyu Liu, Bin Feng(参考訳) スケルトンに基づく行動認識の分野では、現在のトップパフォーマンスグラフ畳み込みネットワーク(GCN)は、列内コンテキストを利用して特徴集約のための適応グラフを構築する。 しかし、そのような文脈は、リッチな直交関係が明確に研究されていないため、依然として \textit{local} であると主張する。 本稿では,骨格に基づく行動認識(\textit{SkeletonGCL})のためのグラフコントラスト学習フレームワークを提案する。 具体的には、スケルトンgclは、グラフをクラス差別的、すなわちクラス内コンパクトかつクラス間分散に強制することによって、シーケンス間でのグラフ学習を関連付け、様々なアクションパターンを識別するgcn能力を向上させる。 さらに、2つのメモリバンクは、複数のコンテキストスケールでグラフコントラスト学習を可能にするために、2つの補完的なレベルである \emph{i}インスタンスとセマンティックレベルからクロスシーケンスコンテキストを豊かにするように設計されている。 その結果、SkeletonGCLは新しいトレーニングパラダイムを確立し、現在のGCNにシームレスに組み込むことができる。 一般性を失うことなく、SkeletonGCLを3つのGCN(2S-ACGN、CTR-GCN、InfoGCN)と組み合わせ、NTU60、NTU120、NW-UCLAベンチマークで一貫した改善を実現した。 ソースコードは \url{https://github.com/OliverHxh/SkeletonGCL} で入手できる。

In the field of skeleton-based action recognition, current top-performing graph convolutional networks (GCNs) exploit intra-sequence context to construct adaptive graphs for feature aggregation. However, we argue that such context is still \textit{local} since the rich cross-sequence relations have not been explicitly investigated. In this paper, we propose a graph contrastive learning framework for skeleton-based action recognition (\textit{SkeletonGCL}) to explore the \textit{global} context across all sequences. In specific, SkeletonGCL associates graph learning across sequences by enforcing graphs to be class-discriminative, \emph{i.e.,} intra-class compact and inter-class dispersed, which improves the GCN capacity to distinguish various action patterns. Besides, two memory banks are designed to enrich cross-sequence context from two complementary levels, \emph{i.e.,} instance and semantic levels, enabling graph contrastive learning in multiple context scales. Consequently, SkeletonGCL establishes a new training paradigm, and it can be seamlessly incorporated into current GCNs. Without loss of generality, we combine SkeletonGCL with three GCNs (2S-ACGN, CTR-GCN, and InfoGCN), and achieve consistent improvements on NTU60, NTU120, and NW-UCLA benchmarks. The source code will be available at \url{https://github.com/OliverHxh/SkeletonGCL}.
翻訳日:2023-06-14 01:31:55 公開日:2023-06-10
# グラフニューラルネットワークの信号伝搬改善

Improving Signed Propagation for Graph Neural Networks ( http://arxiv.org/abs/2301.08918v3 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim(参考訳) 隣接ノードから情報を収集するメッセージパスグラフニューラルネットワーク(GNN)は、ホモ親和性グラフの満足度を達成している。 しかし、その性能は不均一であり、多くの研究者がこの問題を解決するためのスキームを提案している。 特に、エッジの符号をひっくり返すことは強い理論的基礎に根ざしており、大幅な性能向上を達成している。 それでも、以前の分析ではバイナリクラスのシナリオを前提としており、適用性に制限がある可能性がある。 本稿では,(1)2つのノードが異なるクラスに属し,高い類似性を持つ場合,署名された伝搬は,GNNの識別力を低下させることができること,(2)署名されたメッセージは,アルゴリズムの安定性を阻害する予測の不確実性(例えば,競合する証拠)を高めること,の2つの欠点を指摘する。 理論的理解に基づき,多クラスグラフにおける署名伝達を改善するための2つの新しい戦略を導入する。 提案手法はキャリブレーションとロバスト性を確保しつつ不確実性を低減させる。 6つのベンチマークグラフデータセットに対する広範な実験により,本定理の有効性を示す。

Message-passing Graph Neural Networks (GNNs), which collect information from adjacent nodes, achieve satisfying results on homophilic graphs. However, their performances are dismal in heterophilous graphs, and many researchers have proposed a plethora of schemes to solve this problem. Especially, flipping the sign of edges is rooted in a strong theoretical foundation, and attains significant performance enhancements. Nonetheless, previous analyses assume a binary class scenario and they may suffer from confined applicability. This paper extends the prior understandings to multi-class scenarios and points out two drawbacks: (1) In case two nodes belong to different classes but have a high similarity, signed propagation can decrease the discrimination power of the GNNs, (2) signed message also increases the prediction uncertainty (e.g., conflict evidence) which can impede the stability of the algorithm. Based on the theoretical understanding, we introduce two novel strategies for improving signed propagation under multi-class graphs. The proposed scheme combines calibration to secure robustness while reducing uncertainty. We show the efficacy of our theorem through extensive experiments on six benchmark graph datasets.
翻訳日:2023-06-14 01:29:56 公開日:2023-06-10
# ドメインインデクシング変分ベイズ: ドメイン適応のための解釈可能なドメインインデックス

Domain-Indexing Variational Bayes: Interpretable Domain Index for Domain Adaptation ( http://arxiv.org/abs/2302.02561v5 )

ライセンス: Link先を確認
Zihao Xu, Guang-Yuan Hao, Hao He, Hao Wang(参考訳) これまでの研究では、ドメインインデックスの活用はドメイン適応性能を大幅に向上させることが示されている(arXiv:2007.01807, arXiv:2202.03628)。 しかし、そのようなドメインインデックスは必ずしも利用できない。 この課題に対処するために、まず確率論的観点からドメインインデックスの形式的定義を行い、その後、多領域データからドメインインデックスを推論し、ドメイン関係に関するさらなる洞察を与え、ドメイン適応性能を向上させる、逆変分ベイズフレームワークを提案する。 理論解析の結果, 逆変分ベイズフレームワークは最適領域指数を平衡で求めることがわかった。 合成データと実データの両方における実験結果から,モデルが解釈可能なドメインインデックスを生成できることを確認し,最先端のドメイン適応法と比較して優れた性能を実現する。 コードはhttps://github.com/Wang-ML-Lab/VDIで入手できる。

Previous studies have shown that leveraging domain index can significantly boost domain adaptation performance (arXiv:2007.01807, arXiv:2202.03628). However, such domain indices are not always available. To address this challenge, we first provide a formal definition of domain index from the probabilistic perspective, and then propose an adversarial variational Bayesian framework that infers domain indices from multi-domain data, thereby providing additional insight on domain relations and improving domain adaptation performance. Our theoretical analysis shows that our adversarial variational Bayesian framework finds the optimal domain index at equilibrium. Empirical results on both synthetic and real data verify that our model can produce interpretable domain indices which enable us to achieve superior performance compared to state-of-the-art domain adaptation methods. Code is available at https://github.com/Wang-ML-Lab/VDI.
翻訳日:2023-06-14 01:22:30 公開日:2023-06-10
# 効率的なグラフフィールド積分器がポイントクラウドと出会う

Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v4 )

ライセンス: Link先を確認
Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller(参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。 第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。 どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。 ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。 アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。 また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。

We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant.
翻訳日:2023-06-14 01:21:36 公開日:2023-06-10
# カイラル量子ウォークを用いた情報の量子ルーティング

Quantum routing of information using chiral quantum walks ( http://arxiv.org/abs/2302.08472v2 )

ライセンス: Link先を確認
Alberto Bottarelli, Massimo Frigerio, Matteo G. A. Paris(参考訳) 量子ネットワーク上の古典的および量子的情報のルーティングに対処し、キラリティを利用してほぼ最適で堅牢な輸送を実現する方法を示す。 特に,連続時間カイラル量子が最小限のグラフの上を歩くことで,ネットワーク上での情報転送やルーティングをモデル化できることを示す。 まず、単純なグラフの1つの頂点に局所化された励起にエンコードされた古典情報は、1つの位相をチューニングすることで、他の任意の選択された位置へほぼ単位の忠実度で送信されることを示す。 そして、高忠実度輸送は状態のコヒーレント重ね合わせ、すなわち量子情報のルーティングにも可能であることを証明した。 さらに、位相パラメータをチューニングすることで、入力状態の独立性など、普遍的な量子ルーティングが得られることを示す。 本手法では, キラリティは単一位相で制御され, ルーティング確率はこのパラメータの変動に対して頑健である。 最後に,量子ルータの特性に対処し,グラフの自己エネルギーを利用して位相パラメータを高精度に推定する方法を示す。

We address routing of classical and quantum information over quantum network, and show how to exploit chirality to achieve nearly optimal and robust transport. In particular, we prove how continuous time chiral quantum walks over a minimal graph may be used to model directional transfer and routing of information over a network. At first, we show how classical information, encoded onto an excitation localized at one vertex of a simple graph, may be sent to any other chosen location with nearly unit fidelity by tuning a single phase. Then, we prove that high-fidelity transport is also possible for coherent superpositions of states, i.e. for routing of quantum information. Furthermore, we show that by tuning the phase parameter one obtains universal quantum routing, i.e. indipendent on the input state. In our scheme, chirality is governed by a single phase, and the routing probability is robust against fluctuations of this parameter. Finally, we address characterization of quantum routers and show how to exploit the self energies of the graph to achieve high precision in estimating the phase parameter.
翻訳日:2023-06-14 01:11:49 公開日:2023-06-10
# RMMDet:自動運転のための道路側マルチタイプ・マルチグループセンサ検出システム

RMMDet: Road-Side Multitype and Multigroup Sensor Detection System for Autonomous Driving ( http://arxiv.org/abs/2303.05203v3 )

ライセンス: Link先を確認
Xiuyu Yang, Zhuangyan Zhang, Haikuo Du, Sui Yang, Fengping Sun, Yanbo Liu, Ling Pei, Wenchao Xu, Weiqi Sun, Zhengyu Li(参考訳) 人工知能のおかげで、自律運転は大きな進歩を遂げ、単一のセンサーやマルチセンサー検出方法を含む、車両のエンドターゲット検出のための多くの高度な手法が提案されている。 しかし、実際の交通状況の複雑さと多様性は、これらの手法を実際の道路状況でどのように利用するかを検討する必要がある。 本稿では、自動運転のための道路側マルチタイプ・マルチグループセンサ検出システムであるrmmdetを提案する。 実環境,特にセンサの物理的および機能的構成をシミュレーションするために,ROSベースの仮想環境を用いる。 そして、この環境でミューティ型センサ検出とマルチグループセンサー融合を実装し、結果レベル融合に基づくカメラレーダーとカメラライダー検出を行う。 ローカルデータセットと実際のサンドテーブルフィールドを作成し、様々な実験を行います。 さらに,マルチエージェント協調スケジューリングシステムと融合検出システムとをリンクする。 これにより、路側知覚、融合検出、スケジューリング計画により路側検出システム全体が形成される。 実験の結果, RMMDetシステムは自動車と道路の協調と最適化において重要な役割を担っていることがわかった。 コードと補足資料は、https://github.com/orangesodahub/rmmdetにある。

Autonomous driving has now made great strides thanks to artificial intelligence, and numerous advanced methods have been proposed for vehicle end target detection, including single sensor or multi sensor detection methods. However, the complexity and diversity of real traffic situations necessitate an examination of how to use these methods in real road conditions. In this paper, we propose RMMDet, a road-side multitype and multigroup sensor detection system for autonomous driving. We use a ROS-based virtual environment to simulate real-world conditions, in particular the physical and functional construction of the sensors. Then we implement muti-type sensor detection and multi-group sensors fusion in this environment, including camera-radar and camera-lidar detection based on result-level fusion. We produce local datasets and real sand table field, and conduct various experiments. Furthermore, we link a multi-agent collaborative scheduling system to the fusion detection system. Hence, the whole roadside detection system is formed by roadside perception, fusion detection, and scheduling planning. Through the experiments, it can be seen that RMMDet system we built plays an important role in vehicle-road collaboration and its optimization. The code and supplementary materials can be found at: https://github.com/OrangeSodahub/RMMDet
翻訳日:2023-06-14 01:03:59 公開日:2023-06-10
# DART: ニューラルネットワークの一般化を改善

DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural Networks ( http://arxiv.org/abs/2302.14685v2 )

ライセンス: Link先を確認
Samyak Jain, Sravanti Addepalli, Pawan Sahu, Priyam Dey and R. Venkatesh Babu(参考訳) ニューラルネットワークの一般化は、現実世界に安全にデプロイするには不可欠である。 一般化を改善するための一般的なトレーニング戦略は、データ拡張、センスリング、モデル平均化の使用である。 本研究は,まず,トレーニングミニバッチ内で多種多様な拡張を生かした,驚くほど単純だが強力な一般化ベンチマークを構築し,よりバランスの取れた機能分布を学習できることを示す。 さらに,損失盆地を探索するために,異なる拡張(あるいはドメイン)を用いた多種多様なモデルを訓練し,その専門知識を組み合わせるために重みを集約し,一般化する,多種多様化・集約・リピート訓練(dart)戦略を提案する。 トレーニングを通じて集約のステップを繰り返すことで、全体的な最適化軌道が向上し、個々のモデルに十分な損失障壁があることが保証され、それらの組み合わせによる一般化が向上する。 shenらによって提案されたフレームワークにキャストすることで、私たちのアプローチに光を当て、理論的にはそれがより一般化していることを示している。 In-Domain Generalizationの改善に加えて、人気のあるDomainBedフレームワークのDomain GeneralizationベンチマークでもSOTAのパフォーマンスを実証する。 本手法は汎用的であり,複数のベーストレーニングアルゴリズムと容易に統合して性能向上を図ることができる。

Generalization of neural networks is crucial for deploying them safely in the real world. Common training strategies to improve generalization involve the use of data augmentations, ensembling and model averaging. In this work, we first establish a surprisingly simple but strong benchmark for generalization which utilizes diverse augmentations within a training minibatch, and show that this can learn a more balanced distribution of features. Further, we propose Diversify-Aggregate-Repeat Training (DART) strategy that first trains diverse models using different augmentations (or domains) to explore the loss basin, and further Aggregates their weights to combine their expertise and obtain improved generalization. We find that Repeating the step of Aggregation throughout training improves the overall optimization trajectory and also ensures that the individual models have a sufficiently low loss barrier to obtain improved generalization on combining them. We shed light on our approach by casting it in the framework proposed by Shen et al. and theoretically show that it indeed generalizes better. In addition to improvements in In- Domain generalization, we demonstrate SOTA performance on the Domain Generalization benchmarks in the popular DomainBed framework as well. Our method is generic and can easily be integrated with several base training algorithms to achieve performance gains.
翻訳日:2023-06-14 01:03:01 公開日:2023-06-10
# (Re)$^2$H2O: 逆正規化ハイブリッドオフライン・オンライン強化学習による自律運転シナリオ生成

(Re)$^2$H2O: Autonomous Driving Scenario Generation via Reversely Regularized Hybrid Offline-and-Online Reinforcement Learning ( http://arxiv.org/abs/2302.13726v2 )

ライセンス: Link先を確認
Haoyi Niu, Kun Ren, Yizhou Xu, Ziyuan Yang, Yichen Lin, Yi Zhang, Jianming Hu(参考訳) 自動運転とその普及は、長い間大きな約束を守ってきた。 それでも、信頼できる徹底的なテスト手順がなければ、業界は大量生産の自動運転車(AV)に苦戦するだけでなく、一般大衆も政策立案者もイノベーションを受け入れることを確信していない。 AVに重大な課題をもたらす安全クリティカルなシナリオを生成することは、テストにおける重要な第一歩です。 現実のデータセットには自然的だが過度に安全な運転行動が含まれており、シミュレーションは多様な攻撃的な交通シナリオの無制限な探索を可能にする。 逆に、シミュレーションにおける高次元探索空間は、実世界のデータ分布のない効率的なシナリオ生成を暗黙の制約として無効にする。 両者の利点を活かすために、オフラインの現実世界とオンラインのシミュレーションデータの両方からシナリオを同時に生成することを学ぶことは、魅力的に思える。 そこで我々は,実世界のデータに対するq値のペナライズとシミュレーションデータへのq値の報奨を行うために,逆正規化したオフライン・アンド・オンライン((re)$^2$h2o)強化学習レシピを調整した。 広範な実験を通じて、我々のソリューションは、競争力のあるベースラインよりもリスクの高いシナリオを生み出すことを証明し、様々な自律運転モデルで動作するように一般化することができる。 さらに、これらの生成されたシナリオは、avパフォーマンスの微調整が可能なように調整される。

Autonomous driving and its widespread adoption have long held tremendous promise. Nevertheless, without a trustworthy and thorough testing procedure, not only does the industry struggle to mass-produce autonomous vehicles (AV), but neither the general public nor policymakers are convinced to accept the innovations. Generating safety-critical scenarios that present significant challenges to AV is an essential first step in testing. Real-world datasets include naturalistic but overly safe driving behaviors, whereas simulation would allow for unrestricted exploration of diverse and aggressive traffic scenarios. Conversely, higher-dimensional searching space in simulation disables efficient scenario generation without real-world data distribution as implicit constraints. In order to marry the benefits of both, it seems appealing to learn to generate scenarios from both offline real-world and online simulation data simultaneously. Therefore, we tailor a Reversely Regularized Hybrid Offline-and-Online ((Re)$^2$H2O) Reinforcement Learning recipe to additionally penalize Q-values on real-world data and reward Q-values on simulated data, which ensures the generated scenarios are both varied and adversarial. Through extensive experiments, our solution proves to produce more risky scenarios than competitive baselines and it can generalize to work with various autonomous driving models. In addition, these generated scenarios are also corroborated to be capable of fine-tuning AV performance.
翻訳日:2023-06-14 01:02:23 公開日:2023-06-10
# リフレクション: 言語エージェントによる言語強化学習

Reflexion: Language Agents with Verbal Reinforcement Learning ( http://arxiv.org/abs/2303.11366v3 )

ライセンス: Link先を確認
Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao(参考訳) 大規模言語モデル(LLM)は、ゲーム、コンパイラ、APIといった外部環境との対話にゴール駆動エージェントとして使われるようになった。 しかし、従来の強化学習法では広範なトレーニングサンプルと高価なモデル微調整が必要であるため、これらの言語エージェントが試行錯誤から迅速かつ効率的に学習することは依然として困難である。 本稿では,重み付けの更新ではなく,言語フィードバックによる言語エージェント強化のための新しいフレームワークであるreflexionを提案する。 具体的には、リフレクションエージェントはタスクフィードバック信号を口頭で反射し、その後、エピソディックメモリバッファに独自のリフレクションテキストを保持し、その後の試行でより良い意思決定を誘導する。 反射は様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレーション)を組み込むのに十分な柔軟性があり、様々なタスク(逐次意思決定、コーディング、言語推論)でベースラインエージェントよりも大幅に改善されている。 例えば、reflexionは、humanevalコーディングベンチマークで91%のpass@1精度を達成し、80%を達成する以前の最先端gpt-4を上回っている。 また, 異なるフィードバック信号, フィードバック組込み法, エージェントタイプを用いたアブレーションおよび分析を行い, それらの性能への影響について考察する。

Large language models (LLMs) have been increasingly used to interact with external environments (e.g., games, compilers, APIs) as goal-driven agents. However, it remains challenging for these language agents to quickly and efficiently learn from trial-and-error as traditional reinforcement learning methods require extensive training samples and expensive model fine-tuning. We propose Reflexion, a novel framework to reinforce language agents not by updating weights, but instead through linguistic feedback. Concretely, Reflexion agents verbally reflect on task feedback signals, then maintain their own reflective text in an episodic memory buffer to induce better decision-making in subsequent trials. Reflexion is flexible enough to incorporate various types (scalar values or free-form language) and sources (external or internally simulated) of feedback signals, and obtains significant improvements over a baseline agent across diverse tasks (sequential decision-making, coding, language reasoning). For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.
翻訳日:2023-06-14 00:53:02 公開日:2023-06-10
# Batch Updating および/または Approximate Gradients を用いたモーメントベースヘビーボール法の収束性

Convergence of Momentum-Based Heavy Ball Method with Batch Updating and/or Approximate Gradients ( http://arxiv.org/abs/2303.16241v2 )

ライセンス: Link先を確認
Tadipatri Uday Kiran Reddy and Mathukumalli Vidyasagar(参考訳) 本稿では,1964年に polyak が導入した凸および非凸最適化のための有名な "heavy ball" 法について検討し,その収束を様々な状況下で確立する。 従来、ほとんどのアルゴリズムは "full-coordinate update" を使用しており、各ステップで引数のすべてのコンポーネントが更新される。 しかし、引数の次元が非常に高い場合、各イテレーションで引数のすべてのコンポーネントを更新するよりも効率的である。 本論文では,これを"バッチ更新"と呼ぶ。 勾配に基づくアルゴリズムがバッチ更新と共に使用される場合、原則として、引数が更新される勾配のコンポーネントのみを計算するのに十分である。 しかしながら、これらの成分を計算するためにバックプロパゲーションのような方法を使用する場合、勾配のいくつかのコンポーネントしか計算しないため、勾配全体の計算よりも多くの節約が得られない。 したがって、各ステップにおけるCPU使用量の顕著な削減を実現するため、勾配を近似するために一階差を用いることができる。 結果の見積もりは偏りがあり、非有界な分散も持つ。 したがって、完全座標更新の代わりにバッチ更新を使用する場合、hbアルゴリズムが収束することを保証するには、いくつかの微妙な解析が必要であり、真の勾配の代わりに近似勾配を用いる。 本稿では,目的関数の定常点への反復のほぼ確実収束を適切な条件下で定め,また収束率の上界も導出する。 私たちの知る限りでは、これらの機能をすべて組み合わせた論文は他にありません。 この論文はBoris Teodorovich Polyakの記憶に捧げられている。

In this paper, we study the well-known "Heavy Ball" method for convex and nonconvex optimization introduced by Polyak in 1964, and establish its convergence under a variety of situations. Traditionally, most algorithms use "full-coordinate update," that is, at each step, every component of the argument is updated. However, when the dimension of the argument is very high, it is more efficient to update some but not all components of the argument at each iteration. We refer to this as "batch updating" in this paper. When gradient-based algorithms are used together with batch updating, in principle it is sufficient to compute only those components of the gradient for which the argument is to be updated. However, if a method such as backpropagation is used to compute these components, computing only some components of gradient does not offer much savings over computing the entire gradient. Therefore, to achieve a noticeable reduction in CPU usage at each step, one can use first-order differences to approximate the gradient. The resulting estimates are biased, and also have unbounded variance. Thus some delicate analysis is required to ensure that the HB algorithm converge when batch updating is used instead of full-coordinate updating, and/or approximate gradients are used instead of true gradients. In this paper, we establish the almost sure convergence of the iterations to the stationary point(s) of the objective function under suitable conditions; in addition, we also derive upper bounds on the rate of convergence. To the best of our knowledge, there is no other paper that combines all of these features. This paper is dedicated to the memory of Boris Teodorovich Polyak
翻訳日:2023-06-14 00:43:06 公開日:2023-06-10
# びまん性グリオーマ分類のための組織学と分子マーカーのマルチタスク学習

Multi-task Learning of Histology and Molecular Markers for Classifying Diffuse Glioma ( http://arxiv.org/abs/2303.14845v2 )

ライセンス: Link先を確認
Xiaofei Wang and Stephen Price and Chao Li(参考訳) 最近のがんの病理診断は、分子製造と組織学的特徴の統合にシフトしつつある。 分子マーカーと組織学を効果的に統合するデジタル病理学法が緊急に必要であり、現実世界のシナリオにおいてより正確な診断につながる可能性がある。 本稿では,分子マーカーと組織学的特徴を共同で予測し,その相互作用をモデル化するための最初の試みについて述べる。 具体的には,組織学と分子マーカーを共同で予測する階層型マルチタスクマルチインスタンス学習フレームワークを提案する。 さらに,分子マーカーの共起をモデル化する共起確率に基づくラベル補正グラフネットワークを提案する。 最後に,組織学と分子マーカーの相互作用をモデル化するために,動的信頼度制約損失を伴うオミック間相互作用戦略を設計する。 実験により, 拡散グリオーマの分類法や, 関連組織学, 分子マーカーを多施設データセットで比較した。

Most recently, the pathology diagnosis of cancer is shifting to integrating molecular makers with histology features. It is a urgent need for digital pathology methods to effectively integrate molecular markers with histology, which could lead to more accurate diagnosis in the real world scenarios. This paper presents a first attempt to jointly predict molecular markers and histology features and model their interactions for classifying diffuse glioma bases on whole slide images. Specifically, we propose a hierarchical multi-task multi-instance learning framework to jointly predict histology and molecular markers. Moreover, we propose a co-occurrence probability-based label correction graph network to model the co-occurrence of molecular markers. Lastly, we design an inter-omic interaction strategy with the dynamical confidence constraint loss to model the interactions of histology and molecular markers. Our experiments show that our method outperforms other state-of-the-art methods in classifying diffuse glioma,as well as related histology and molecular markers on a multi-institutional dataset.
翻訳日:2023-06-14 00:42:40 公開日:2023-06-10
# GPUシミュレータにおける非凸物体の効率的なシミュレーションのための局所物体衝突ネットワーク

Local object crop collision network for efficient simulation of non-convex objects in GPU-based simulators ( http://arxiv.org/abs/2304.09439v2 )

ライセンス: Link先を確認
Dongwon Son and Beomjoon Kim(参考訳) 本研究の目的は,非凸物体の大規模gpuシミュレーションのための効率的な接触検出アルゴリズムの開発である。 現在のGPUベースのシミュレータであるIsaacGymやBraxは、非凸オブジェクトをシミュレートする際に、忠実さ、一般性、あるいは両方で速度をトレードオフしなければならない。 GJK(Gilbert-Johnson-Keerthi)のような既存のCDアルゴリズムは、非凸物体同士の衝突数が増加するにつれて、その計算速度を精度でトレードオフしなければならない。 本稿では,オンライン計算時間よりもオフラインデータセットの品質と量にのみ依存するcdのためのデータ駆動手法を提案する。 gjkとは異なり、本手法は一様計算フローを持ち、xla (accelerated linear algebra) のような高度なコンパイラに基づく効率的なgpu利用を容易にする。 さらに,学習が難しいグローバルな物体ではなく,局所的な作物の形状を衝突させるパターンを学習することで,データ効率の高いソリューションを提供する。 提案手法は, 既存のCD手法の効率を, 比較精度の高い非凸オブジェクトに対して5-10倍に向上することを示した。 従来のニューラルネットワークベースのコンタクト検出器の接触分解能に関する研究から,我々のCDアルゴリズムをオープンソースGPUベースのシミュレータであるBraxに統合し,IsaacGymよりも効率を向上し,標準Braxよりも汎用性を向上できることを示す。 補充材料に含まれるシミュレータの動画を強く推奨する。

Our goal is to develop an efficient contact detection algorithm for large-scale GPU-based simulation of non-convex objects. Current GPU-based simulators such as IsaacGym and Brax must trade-off speed with fidelity, generality, or both when simulating non-convex objects. Their main issue lies in contact detection (CD): existing CD algorithms, such as Gilbert-Johnson-Keerthi (GJK), must trade off their computational speed with accuracy which becomes expensive as the number of collisions among non-convex objects increases. We propose a data-driven approach for CD, whose accuracy depends only on the quality and quantity of offline dataset rather than online computation time. Unlike GJK, our method inherently has a uniform computational flow, which facilitates efficient GPU usage based on advanced compilers such as XLA (Accelerated Linear Algebra). Further, we offer a data-efficient solution by learning the patterns of colliding local crop object shapes, rather than global object shapes which are harder to learn. We demonstrate our approach improves the efficiency of existing CD methods by a factor of 5-10 for non-convex objects with comparable accuracy. Using the previous work on contact resolution for a neural-network-based contact detector, we integrate our CD algorithm into the open-source GPU-based simulator, Brax, and show that we can improve the efficiency over IsaacGym and generality over standard Brax. We highly recommend the videos of our simulator included in the supplementary materials.
翻訳日:2023-06-14 00:34:16 公開日:2023-06-10
# ディープラーニングを用いた異常特徴付き異方性構成探索:古典的および量子古典的ハイブリッド異常検出の適用

Exploring exotic configurations with anomalous features using deep learning: Application of classical and quantum-classical hybrid anomaly detection ( http://arxiv.org/abs/2304.08616v2 )

ライセンス: Link先を確認
Kumar J. B. Ghosh, Sumit Ghosh(参考訳) 本稿では,古典的および量子古典的ハイブリッド異常検出スキームを用いて,異常な特徴を持つエキゾチックな構成を探索する。 我々はアンダーソンモデルを,強い不純物の存在下での高コンダクタンスと弱い不純物の存在下での低コンダクタンスという2種類の異常をランダムな不純物分布の関数として定義するプロトタイプとみなす。 このような異常な結果がデータセットの不可避な割合を構成し、トレーニングプロセスの一部ではない。 これらのエキゾチックな構成は、リッチな新しい物理学の源となり得るが、通常は従来の分類法や回帰法に従わず、適切な異常検出方式でのみ追跡できる。 また,古典的および量子古典的ハイブリッド異常検出手法の性能に関する系統的研究を行い,量子回路を組み込むことで,適切な性能指標で定量化する異常検出性能を大幅に向上させることを示す。 私たちのアプローチは本質的に非常に汎用的であり、エキゾチックな新機能を保持できる新しい構成を見つけるために多くのパラメータに依存するあらゆるシステムで使用できます。

In this article we present the application of classical and quantum-classical hybrid anomaly detection schemes to explore exotic configuration with anomalous features. We consider the Anderson model as a prototype where we define two types of anomalies - a high conductance in presence of strong impurity and low conductance in presence of weak impurity - as a function of random impurity distribution. Such anomalous outcome constitutes an imperceptible fraction of the data set and is not a part of the training process. These exotic configurations, which can be a source of rich new physics, usually remain elusive to conventional classification or regression methods and can be tracked only with a suitable anomaly detection scheme. We also present a systematic study of the performance of the classical and the quantum-classical hybrid anomaly detection method and show that the inclusion of a quantum circuit significantly enhances the performance of anomaly detection which we quantify with suitable performance metrics. Our approach is quite generic in nature and can be used for any system that relies on a large number of parameters to find their new configurations which can hold exotic new features.
翻訳日:2023-06-14 00:33:32 公開日:2023-06-10
# 人間-AI協調のための言語指導強化学習

Language Instructed Reinforcement Learning for Human-AI Coordination ( http://arxiv.org/abs/2304.07297v2 )

ライセンス: Link先を確認
Hengyuan Hu, Dorsa Sadigh(参考訳) AIの基本的な課題の1つは、人間とうまく協調するエージェントを作ることである。 マルチエージェント強化学習(rl:multi-agent reinforcement learning)は、人間が好むものと異なる均衡に収束することが多いからだ。 自然言語による指示によって、aiパートナーにどのような戦略を期待できるかを人間が指定できる、新しいフレームワークinstructrlを提案する。 我々は、事前訓練された大規模言語モデルを用いて、人間の指示に基づく事前ポリシーを生成し、RLの目的を正規化するために事前ポリシーを使用する。 これにより、RLエージェントはヒトの嗜好に沿った平衡に収束する。 InstructRLは,概念実証環境において与えられた指示を満足する人間的なポリシーと,ハナビベンチマークに収束することを示す。 最後に,ハナビにおける人的評価において,言語指導の知識が人間とAIの協調性能を著しく向上させることを示す。

One of the fundamental quests of AI is to produce agents that coordinate well with humans. This problem is challenging, especially in domains that lack high quality human behavioral data, because multi-agent reinforcement learning (RL) often converges to different equilibria from the ones that humans prefer. We propose a novel framework, instructRL, that enables humans to specify what kind of strategies they expect from their AI partners through natural language instructions. We use pretrained large language models to generate a prior policy conditioned on the human instruction and use the prior to regularize the RL objective. This leads to the RL agent converging to equilibria that are aligned with human preferences. We show that instructRL converges to human-like policies that satisfy the given instructions in a proof-of-concept environment as well as the challenging Hanabi benchmark. Finally, we show that knowing the language instruction significantly boosts human-AI coordination performance in human evaluations in Hanabi.
翻訳日:2023-06-14 00:33:09 公開日:2023-06-10
# 符号化による効率的な画像テキスト検索のための画像へのECG信号変換

Converting ECG Signals to Images for Efficient Image-text Retrieval via Encoding ( http://arxiv.org/abs/2304.06286v2 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Shiqi Liu, William Han, Jingqi Zhang, Chaojing Duan, Michael Rosenberg, Emerson Liu, Douglas Weber, Ding Zhao(参考訳) 心電図の自動解釈(ECG)は,機械学習手法の進歩とともに注目されている。 機械学習を用いた心電図の自動解釈への関心は高まっているが、現在の研究のほとんどは分類や退行のタスクのみに焦点を当てており、心電図診断の重要な側面である経験豊富なヒト臨床医による診断報告を見落としている。 本稿では,Large Language Models (LLM) と Vision-Transformer (ViT) モデルにおける最近のブレークスルーを活用し,ECGの解釈に新しいアプローチを導入する。 心電図診断を分類または回帰タスクとして扱うのではなく、入力された心電図データに基づいて最も類似した臨床症例を自動的に同定する別の方法を提案する。 また,ECGを画像として解釈しやすく,利用しやすいので,ECGを符号化画像として処理し,符号化されたECG画像とECG診断レポートの視覚言語アライメントを共同学習するための視覚言語学習パラダイムを採用する。 画像に心電図をエンコードすることで,効率的な心電図検索システムを実現することができる。 さらに重要なことは、過去の未開発のため、紙で印刷したECG画像のみにアクセス可能な地域において、診断サービスを提供するための重要なリソースとなる可能性がある。

Automated interpretation of electrocardiograms (ECG) has garnered significant attention with the advancements in machine learning methodologies. Despite the growing interest in automated ECG interpretation using machine learning, most current studies focus solely on classification or regression tasks and overlook a crucial aspect of clinical cardio-disease diagnosis: the diagnostic report generated by experienced human clinicians. In this paper, we introduce a novel approach to ECG interpretation, leveraging recent breakthroughs in Large Language Models (LLMs) and Vision-Transformer (ViT) models. Rather than treating ECG diagnosis as a classification or regression task, we propose an alternative method of automatically identifying the most similar clinical cases based on the input ECG data. Also, since interpreting ECG as images are more affordable and accessible, we process ECG as encoded images and adopt a vision-language learning paradigm to jointly learn vision-language alignment between encoded ECG images and ECG diagnosis reports. Encoding ECG into images can result in an efficient ECG retrieval system, which will be highly practical and useful in clinical applications. More importantly, our findings could serve as a crucial resource for providing diagnostic services in regions where only paper-printed ECG images are accessible due to past underdevelopment.
翻訳日:2023-06-14 00:32:06 公開日:2023-06-10
# imagenet-hard:画像分類におけるズームのパワーと空間バイアスの研究から残る最も難しい画像

ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of Zoom and Spatial Biases in Image Classification ( http://arxiv.org/abs/2304.05538v2 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer, Anh Nguyen(参考訳) 画像分類器は設計によって情報を捨てる機械である。 しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。 画像分類器が高い精度に達するための1つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測し、残りの部分を捨てることである。 alexnetからclipまで6つの人気ネットワークを調べた結果、入力画像の適切なフレーミングがimagenetイメージの98.91%の正しい分類につながることがわかった。 さらに、様々なデータセットにおける位置バイアス、特にImageNet-AとObjectNetの2つの一般的なデータセットにおける強力な中心バイアスを明らかにする。 最後に,ズーム処理の可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に行なわせることによって,分類精度を向上させるtta(test-time augmentation)手法を提案する。 我々の手法は、最先端(SOTA)TTA法であるMEMOよりも解釈可能で正確で高速である。 我々は、最適なズームが許された場合でも、大きな視覚言語モデルを含むSOTA分類器に挑戦する新しいベンチマークであるImageNet-Hardを紹介する。

Image classifiers are information-discarding machines, by design. Yet, how these models discard information remains mysterious. We hypothesize that one way for image classifiers to reach high accuracy is to first zoom to the most discriminative region in the image and then extract features from there to predict image labels, discarding the rest of the image. Studying six popular networks ranging from AlexNet to CLIP, we find that proper framing of the input image can lead to the correct classification of 98.91% of ImageNet images. Furthermore, we uncover positional biases in various datasets, especially a strong center bias in two popular datasets: ImageNet-A and ObjectNet. Finally, leveraging our insights into the potential of zooming, we propose a test-time augmentation (TTA) technique that improves classification accuracy by forcing models to explicitly perform zoom-in operations before making predictions. Our method is more interpretable, accurate, and faster than MEMO, a state-of-the-art (SOTA) TTA method. We introduce ImageNet-Hard, a new benchmark that challenges SOTA classifiers including large vision-language models even when optimal zooming is allowed.
翻訳日:2023-06-14 00:31:20 公開日:2023-06-10
# wizardlm: 大きな言語モデルに複雑な命令に従う権限を与える

WizardLM: Empowering Large Language Models to Follow Complex Instructions ( http://arxiv.org/abs/2304.12244v2 )

ライセンス: Link先を確認
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang(参考訳) 大規模言語モデル(LLM)のトレーニングは、データに続くオープンドメイン命令で成功している。 しかし、手動でこのような命令データを作成するのは非常に時間がかかり、労力がかかる。 さらに、人間は複雑な指示を出すのに苦労する。 本稿では,人間の代わりにLSMを用いて,様々なレベルの複雑さを持つ大量の命令データを生成する方法を示す。 最初の命令セットから始めると、提案するevol-instructを使ってステップバイステップでより複雑な命令に書き直す。 次に、生成されたすべての命令データを微調整LLaMAに混合する。 結果のモデルをWizardLMと呼びます。 複雑性バランステストベッドとヴィクナのテストセット上の人間による評価は、Evol-Instructからの指示が人間が作ったものよりも優れていることを示している。 高複雑性部の人体評価結果を解析することにより,OpenAI ChatGPTの出力よりもWizardLMの出力の方が好ましいことを示す。 GPT-4の自動評価では、29スキル中17スキルにおいて、WizardLMは90パーセント以上のChatGPT能力を達成する。 WizardLMはまだChatGPTに遅れを取っているが、我々の研究結果は、AIに進化した命令による微調整がLLMの強化に有望な方向であることを示唆している。 私たちのコードとデータはhttps://github.com/nlpxucan/wizardlmで公開されている。

Training large language models (LLMs) with open-domain instruction following data brings colossal success. However, manually creating such instruction data is very time-consuming and labor-intensive. Moreover, humans may struggle to produce high-complexity instructions. In this paper, we show an avenue for creating large amounts of instruction data with varying levels of complexity using LLM instead of humans. Starting with an initial set of instructions, we use our proposed Evol-Instruct to rewrite them step by step into more complex instructions. Then, we mix all generated instruction data to fine-tune LLaMA. We call the resulting model WizardLM. Human evaluations on a complexity-balanced test bed and Vicuna's testset show that instructions from Evol-Instruct are superior to human-created ones. By analyzing the human evaluation results of the high complexity part, we demonstrate that outputs from our WizardLM are preferred to outputs from OpenAI ChatGPT. In GPT-4 automatic evaluation, WizardLM achieves more than 90\% capacity of ChatGPT on 17 out of 29 skills. Even though WizardLM still lags behind ChatGPT in some aspects, our findings suggest that fine-tuning with AI-evolved instructions is a promising direction for enhancing LLMs. Our code and data are public at https://github.com/nlpxucan/WizardLM
翻訳日:2023-06-14 00:23:11 公開日:2023-06-10
# 古典計画としての量子回路の最適レイアウト合成

Optimal Layout Synthesis for Quantum Circuits as Classical Planning ( http://arxiv.org/abs/2304.12014v3 )

ライセンス: Link先を確認
Irfansha Shaik and Jaco van de Pol(参考訳) レイアウト合成において、量子回路の論理量子ビットは、与えられた量子ハードウェアプラットフォームの物理量子ビットにマッピングされ、物理量子ビットの接続性を考慮する。 これは、操作が遠いキュービットに適用される前にSWAPゲートを挿入することを含む。 SWAPゲートの数の最小化は、量子回路を実行する際のエラー率を直接緩和する。 近年,スワップ挿入を最小化する手法がいくつか提案されている。 提案した正確なアプローチは、少数の量子ビットにしかスケールできない。 スワップ挿入が最適であることを証明することは、近似最適写像を生成するよりもはるかに難しい。 本稿では,古典的計画問題として最適レイアウト合成のための2つの符号化を提案する。 最適な古典的プランナーを用いて標準ベンチマークの最適レイアウトを合成する。 その結果,これまでの先行アプローチと比較して,アプローチのスケーラビリティが示された。 9量子ビットの回路を14量子ビットのプラットフォームに最適にマッピングできるが、正確な方法では処理できなかった。

In Layout Synthesis, the logical qubits of a quantum circuit are mapped to the physical qubits of a given quantum hardware platform, taking into account the connectivity of physical qubits. This involves inserting SWAP gates before an operation is applied on distant qubits. Optimal Layout Synthesis is crucial for practical Quantum Computing on current error-prone hardware: Minimizing the number of SWAP gates directly mitigates the error rates when running quantum circuits. In recent years, several approaches have been proposed for minimizing the required SWAP insertions. The proposed exact approaches can only scale to a small number of qubits. Proving that a number of swap insertions is optimal is much harder than producing near optimal mappings. In this paper, we provide two encodings for Optimal Layout Synthesis as a classical planning problem. We use optimal classical planners to synthesize the optimal layout for a standard set of benchmarks. Our results show the scalability of our approach compared to previous leading approaches. We can optimally map circuits with 9 qubits onto a 14 qubit platform, which could not be handled before by exact methods.
翻訳日:2023-06-14 00:22:50 公開日:2023-06-10
# OpenLane-V2: 自動運転におけるシーン理解のためのトポロジ推論ベンチマーク

OpenLane-V2: A Topology Reasoning Benchmark for Scene Understanding in Autonomous Driving ( http://arxiv.org/abs/2304.10440v2 )

ライセンス: Link先を確認
Huijie Wang, Tianyu Li, Yang Li, Li Chen, Chonghao Sima, Zhenbo Liu, Yuting Wang, Shengyin Jiang, Peijin Jia, Bangjun Wang, Feng Wen, Hang Xu, Ping Luo, Junchi Yan, Wei Zhang, Hongyang Li(参考訳) 複雑な交通シーンを正確に描写することは、自動運転車が正確な判断を行う上で重要な要素である。 しかし、既存のベンチマークはレーン知覚タスクのみに焦点を当ててシーンを単純化する傾向がある。 人間の運転者が車線と交通信号の両方に依存して車両を安全に運転することを観察し、交通シーン構造のトポロジー推論に関する最初のデータセットであるopenlane-v2を提示する。 提案したデータセットは,交通要素や車線などの知覚的実体間の関係を調べることにより,道路景観の構造を理解するための研究を進めることを目的としている。 既存のデータセットを活用して、openlane-v2は2000の注釈付き道路シーンで構成され、トラフィック要素とそのレーンとの相関を記述している。 openlaneから受け継いだ3dレーン検出を含む3つの主要なサブタスクと、モデルのパフォーマンスを評価するための対応するメトリクスで構成されている。 様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。

Accurately depicting the complex traffic scene is a vital component for autonomous vehicles to execute accurate judgments. However, existing benchmarks tend to oversimplify the scene by solely focusing on lane perception tasks. Observing that human drivers rely on both lanes and traffic signals to operate their vehicles safely, we present OpenLane-V2, the first dataset on topology reasoning for traffic scene structure. The objective of the presented dataset is to advance research in understanding the structure of road scenes by examining the relationship between perceived entities, such as traffic elements and lanes. Leveraging existing datasets, OpenLane-V2 consists of 2,000 annotated road scenes that describe traffic elements and their correlation to the lanes. It comprises three primary sub-tasks, including the 3D lane detection inherited from OpenLane, accompanied by corresponding metrics to evaluate the model's performance. We evaluate various state-of-the-art methods, and present their quantitative and qualitative results on OpenLane-V2 to indicate future avenues for investigating topology reasoning in traffic scenes.
翻訳日:2023-06-14 00:22:06 公開日:2023-06-10
# 因果情報分割:分散シフトへのロバストネスのためのエンジニアリングプロキシ機能

Causal Information Splitting: Engineering Proxy Features for Robustness to Distribution Shifts ( http://arxiv.org/abs/2305.05832v2 )

ライセンス: Link先を確認
Bijan Mazaheri, Atalanti Mastakouri, Dominik Janzing, Michaela Hardt(参考訳) 統計的予測モデルは、しばしば、最終的なユースケースと異なる確率分布から引き出されるデータに基づいて訓練される。 これらのシフトを積極的に準備する一つのアプローチは、因果メカニズムは環境間で不変であるべきだという直観を利用する。 ここでは、ターゲットの因果変数と反因果変数が観測されない困難な設定に焦点を当てる。 情報理論に基づいて、プロキシとして機能する観測下流変数の特徴選択と工学的手法を開発する。 安定モデル構築に役立つプロキシを特定し、補助的なトレーニングタスクを使用して、プロキシから安定性向上情報を抽出する。 合成データおよび実データに対する本手法の有効性を実証する。

Statistical prediction models are often trained on data that is drawn from different probability distributions than their eventual use cases. One approach to proactively prepare for these shifts harnesses the intuition that causal mechanisms should remain invariant between environments. Here we focus on a challenging setting in which the causal and anticausal variables of the target are unobserved. Leaning on information theory, we develop feature selection and engineering techniques for the observed downstream variables that act as proxies. We identify proxies that help to build stable models and moreover utilize auxiliary training tasks to extract stability-enhancing information from proxies. We demonstrate the effectiveness of our techniques on synthetic and real data.
翻訳日:2023-06-14 00:14:03 公開日:2023-06-10
# 構成員へのテキスト分割の統計的探究--創世記と出世記の典拠を事例として

A Statistical Exploration of Text Partition Into Constituents: The Case of the Priestly Source in the Books of Genesis and Exodus ( http://arxiv.org/abs/2305.02170v3 )

ライセンス: Link先を確認
Gideon Yoffe and Axel B\"uhler and Nachum Dershowitz and Israel Finkelstein and Eli Piasetzky and Thomas R\"omer and Barak Sober(参考訳) 本稿では,統計的テキスト探索のためのパイプラインを提案する。スタイロメトリーに基づく説明と,テキストの仮説的な分割の統計的検証を提供する。 Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. 聖書の最初の2冊の本にパイプラインを適用し、聖書学者の目には1つの様式的な要素、すなわち神聖な要素が際立っている。 我々は、プリーストリー成分と非プリーストリー成分の統計的に重要な構造的差異を特定し、調査する。

We present a pipeline for a statistical textual exploration, offering a stylometry-based explanation and statistical validation of a hypothesized partition of a text. Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. We apply our pipeline to the first two books in the Bible, where one stylistic component stands out in the eyes of biblical scholars, namely, the Priestly component. We identify and explore statistically significant stylistic differences between the Priestly and non-Priestly components.
翻訳日:2023-06-14 00:12:30 公開日:2023-06-10
# 知識誘導型プロンプティングに基づく因果認識概念抽出

Causality-aware Concept Extraction based on Knowledge-guided Prompting ( http://arxiv.org/abs/2305.01876v5 )

ライセンス: Link先を確認
Siyu Yuan, Deqing Yang, Jinxi Liu, Shuyu Tian, Jiaqing Liang, Yanghua Xiao, Rui Xie(参考訳) 概念は自然言語理解に役立つが、既存の知識グラフ(kgs)では完璧ではない。 近年,テキストベース概念抽出(CE)において,事前学習言語モデル (PLM) が広く用いられている。 しかし、plmはトークン間の本当の因果効果ではなく、事前学習された知識として大量のコーパスから共起関係を掘り出す傾向がある。 その結果、事前学習された知識はPLMを組み合わさり、素早い共起相関に基づく偏りのある概念を抽出し、必然的に低い精度をもたらす。 本稿では, 構造因果モデル (SCM) のレンズを用いて, 概念バイアスを軽減するため, 知識誘導型プロンプトを用いたPLM抽出器を提案する。 このプロンプトは、与えられた実体のトピックを既存のKGの知識から採用し、実体と偏見のある概念の間の急激な共起相関を緩和する。 代表的多言語KGデータセットに関する広範な実験により,提案するプロンプトが概念バイアスを効果的に緩和し,PLMベースのCEモデルの性能を向上させることが確認された。

Concepts benefit natural language understanding but are far from complete in existing knowledge graphs (KGs). Recently, pre-trained language models (PLMs) have been widely used in text-based concept extraction (CE). However, PLMs tend to mine the co-occurrence associations from massive corpus as pre-trained knowledge rather than the real causal effect between tokens. As a result, the pre-trained knowledge confounds PLMs to extract biased concepts based on spurious co-occurrence correlations, inevitably resulting in low precision. In this paper, through the lens of a Structural Causal Model (SCM), we propose equipping the PLM-based extractor with a knowledge-guided prompt as an intervention to alleviate concept bias. The prompt adopts the topic of the given entity from the existing knowledge in KGs to mitigate the spurious co-occurrence correlations between entities and biased concepts. Our extensive experiments on representative multilingual KG datasets justify that our proposed prompt can effectively alleviate concept bias and improve the performance of PLM-based CE models.The code has been released on https://github.com/siyuyuan/KPCE.
翻訳日:2023-06-14 00:12:16 公開日:2023-06-10
# シーケンスレコメンダシステムのトレーニング損失における項目関連性の統合

Integrating Item Relevance in Training Loss for Sequential Recommender Systems ( http://arxiv.org/abs/2305.10824v3 )

ライセンス: Link先を確認
Andrea Bacciu, Federico Siciliano, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 逐次レコメンダシステム(sequential recommender systems, srss)は、ユーザの履歴から学び、対話する可能性のある次の項目を予測する、一般的なレコメンダシステムである。 しかし、ユーザインタラクションは、アカウント共有、一貫性のない好み、偶然クリックに起因するノイズに影響される可能性がある。 この問題に対処するために (i)複数の将来の項目を考慮した新しい評価プロトコルの提案と提案 (II)複数項目のSRSを訓練し,騒音に対する耐性を高めるための新しい関連認識損失関数を導入する。 我々の関連性認識モデルは従来の評価プロトコルでは1.2%、従来の評価プロトコルでは0.88%、新しい評価プロトコルでは1.63%、hr w.r.tでは1.5%の改善を得た。

Sequential Recommender Systems (SRSs) are a popular type of recommender system that learns from a user's history to predict the next item they are likely to interact with. However, user interactions can be affected by noise stemming from account sharing, inconsistent preferences, or accidental clicks. To address this issue, we (i) propose a new evaluation protocol that takes multiple future items into account and (ii) introduce a novel relevance-aware loss function to train a SRS with multiple future items to make it more robust to noise. Our relevance-aware models obtain an improvement of ~1.2% of NDCG@10 and 0.88% in the traditional evaluation protocol, while in the new evaluation protocol, the improvement is ~1.63% of NDCG@10 and ~1.5% of HR w.r.t the best performing models.
翻訳日:2023-06-14 00:05:30 公開日:2023-06-10
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v4 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は、Brick World、NLVRベースのManipulations、Natural Language Navigationという一連の新しいタスクからなるNatural Language Planning and Action(Natala)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。 https://github.com/hanxuhu/chain-of-symbol-planning

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World. Code and data available at: https://github.com/hanxuhu/chain-of-symbol-planning
翻訳日:2023-06-14 00:05:14 公開日:2023-06-10
# ニューラルネットワークの低次スペクトルバイアスを克服するスケーラブルなwalsh-hadamard正則化器

A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree Spectral Bias of Neural Networks ( http://arxiv.org/abs/2305.09779v2 )

ライセンス: Link先を確認
Ali Gorji, Andisheh Amrollahi, Andreas Krause(参考訳) 任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしば ``simpler'' 関数に対するバイアスを示す。 この振る舞いを特徴付けるために、シンプルさの様々な概念が導入された。 ここでは、離散(0-one)、高次元の入力をフーリエ変換(walsh-hadamard)のレンズを通して行うニューラルネットワークの場合に焦点を当て、フーリエ係数の次数を通じて単純性の概念を捉える。 ニューラルネットワークが低次周波数を学習する傾向があることを実証的に示す。 低次周波数に対するこのスペクトルバイアスが、実際に現実世界のデータセットに対するニューラルネットワークの一般化を損なうことを示しています。 そこで本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。 我々の正規化器はまた、低度周波数の誤識別を回避し、一般化をさらに改善する。 合成データセット上の正規化器を広範囲に評価し,その挙動を把握した。 最後に、標準ニューラルネットワークや他の関連するベースラインと比較して、4つの異なるデータセットの一般化を著しく改善した。

Despite the capacity of neural nets to learn arbitrary functions, models trained through gradient descent often exhibit a bias towards ``simpler'' functions. Various notions of simplicity have been introduced to characterize this behavior. Here, we focus on the case of neural networks with discrete (zero-one), high-dimensional, inputs through the lens of their Fourier (Walsh-Hadamard) transforms, where the notion of simplicity can be captured through the degree of the Fourier coefficients. We empirically show that neural networks have a tendency to learn lower-degree frequencies. We show how this spectral bias towards low-degree frequencies can in fact hurt the neural network's generalization on real-world datasets. To remedy this we propose a new scalable functional regularization scheme that aids the neural network to learn higher degree frequencies. Our regularizer also helps avoid erroneous identification of low-degree frequencies, which further improves generalization. We extensively evaluate our regularizer on synthetic datasets to gain insights into its behavior. Finally, we show significantly improved generalization on four different datasets compared to standard neural networks and other relevant baselines.
翻訳日:2023-06-14 00:04:06 公開日:2023-06-10
# 残差計算のない車両検出と分類:ランダム摂動注入によるHEVC画像デコーディングの高速化

Vehicle Detection and Classification without Residual Calculation: Accelerating HEVC Image Decoding with Random Perturbation Injection ( http://arxiv.org/abs/2305.08265v2 )

ライセンス: Link先を確認
Muhammet Sebul Berato\u{g}lu and Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) ビデオ分析,特に交通監視の分野では,映像データの処理と理解のための効率的かつ効果的な手法の必要性が高まっている。 従来のフルビデオデコーディング技術は計算集約的で時間を要するため、研究者は圧縮された領域における代替アプローチを探求する。 本研究では,高効率ビデオ符号化(HEVC)ビットストリームから画像を再構成する,ランダム摂動に基づく圧縮領域法を提案する。 本手法は,映像理解タスクに関連する情報を保持しつつ,特に車両の検知・分類を重要なユースケースとして重視しながら,元の画像の凝縮表現を作成し,残差に対するランダムな摂動の置換を提案する最初の方法である。 残差データを使用しないことにより,提案手法は画像再構成プロセスに必要なデータを大幅に削減し,より効率的な情報保存と送信を可能にする。 これは、監視アプリケーションに関わる膨大なビデオデータを考える際に特に重要である。 提案手法は,一般のビットベクトルデータセットに適用することで,従来のフルデコード法に比べて復元速度が著しく向上し,画素領域法よりも約56%高速であることを示す。 さらに,画素領域法と比較して検出精度が99.9%,分類精度96.84%であり,画素領域法よりわずか0.98%低い。 さらに,データサイズが大幅に削減され,ストレージや送信の効率が向上することを示す。 本研究は、速度とデータサイズが重要な要因である交通監視アプリケーションにおいて、圧縮されたドメインメソッドの可能性を立証する。

In the field of video analytics, particularly traffic surveillance, there is a growing need for efficient and effective methods for processing and understanding video data. Traditional full video decoding techniques can be computationally intensive and time-consuming, leading researchers to explore alternative approaches in the compressed domain. This study introduces a novel random perturbation-based compressed domain method for reconstructing images from High Efficiency Video Coding (HEVC) bitstreams, specifically designed for traffic surveillance applications. To the best of our knowledge, our method is the first to propose substituting random perturbations for residual values, creating a condensed representation of the original image while retaining information relevant to video understanding tasks, particularly focusing on vehicle detection and classification as key use cases. By not using residual data, our proposed method significantly reduces the data needed in the image reconstruction process, allowing for more efficient storage and transmission of information. This is particularly important when considering the vast amount of video data involved in surveillance applications. Applied to the public BIT-Vehicle dataset, we demonstrate a significant increase in the reconstruction speed compared to the traditional full decoding approach, with our proposed method being approximately 56% faster than the pixel domain method. Additionally, we achieve a detection accuracy of 99.9%, on par with the pixel domain method, and a classification accuracy of 96.84%, only 0.98% lower than the pixel domain method. Furthermore, we showcase the significant reduction in data size, leading to more efficient storage and transmission. Our research establishes the potential of compressed domain methods in traffic surveillance applications, where speed and data size are critical factors.
翻訳日:2023-06-14 00:03:19 公開日:2023-06-10
# 面ベース検索による検索言語モデルの難易度低減

Surface-Based Retrieval Reduces Perplexity of Retrieval-Augmented Language Models ( http://arxiv.org/abs/2305.16243v2 )

ライセンス: Link先を確認
Ehsan Doostmohammadi, Tobias Norlund, Marco Kuhlmann, Richard Johansson(参考訳) 検索機構による言語モデルの強化は,パラメータ数を低く保ちながら,性能を著しく向上させることが示されている。 検索型モデルは通常、クエリチャンクの密表現と潜在的な隣人の類似性に基づく意味的検索機構に依存する。 本稿では,現状のRetroモデルについて検討し,トークン重複などの表面レベルの類似性により,その性能向上がよりよく説明できることを示した。 これに触発されて,レトロのセマンティック検索をbm25に基づく表面レベル手法に置き換え,パープレキシティの大幅な低減を図る。 BM25の完全検索は大規模データセットに対して計算コストがかかるため,計算オーバーヘッドを最小に抑えることで,再分類シナリオにも適用することができる。

Augmenting language models with a retrieval mechanism has been shown to significantly improve their performance while keeping the number of parameters low. Retrieval-augmented models commonly rely on a semantic retrieval mechanism based on the similarity between dense representations of the query chunk and potential neighbors. In this paper, we study the state-of-the-art Retro model and observe that its performance gain is better explained by surface-level similarities, such as token overlap. Inspired by this, we replace the semantic retrieval in Retro with a surface-level method based on BM25, obtaining a significant reduction in perplexity. As full BM25 retrieval can be computationally costly for large datasets, we also apply it in a re-ranking scenario, gaining part of the perplexity reduction with minimal computational overhead.
翻訳日:2023-06-13 23:55:11 公開日:2023-06-10
# 説明付き文法的誤り訂正システムの実現

Enhancing Grammatical Error Correction Systems with Explanations ( http://arxiv.org/abs/2305.15676v2 )

ライセンス: Link先を確認
Yuejiao Fei, Leyang Cui, Sen Yang, Wai Lam, Zhenzhong Lan, Shuming Shi(参考訳) 文法的誤り訂正システムは、言語誤りの検出と修正により、書き込み通信を改善する。 言語学習者がgecシステムが特定の修正を行う理由をよりよく理解するために、エラーの原因(明確な単語)と対応するエラータイプは2つの重要な要因である。 GECシステムに説明を伴い,エビデンスワードと文法的誤り型を付加した大規模データセットEXPECTを導入する。 このタスクを理解するために,いくつかのベースラインと分析を提案する。 さらに,人間の評価は,説明可能なgecシステムの説明を検証すれば,修正提案を受け入れるか否かを判断し,関連する文法規則を理解する上で,第二言語学習者を支援することができる。

Grammatical error correction systems improve written communication by detecting and correcting language mistakes. To help language learners better understand why the GEC system makes a certain correction, the causes of errors (evidence words) and the corresponding error types are two key factors. To enhance GEC systems with explanations, we introduce EXPECT, a large dataset annotated with evidence words and grammatical error types. We propose several baselines and analysis to understand this task. Furthermore, human evaluation verifies our explainable GEC system's explanations can assist second-language learners in determining whether to accept a correction suggestion and in understanding the associated grammar rule.
翻訳日:2023-06-13 23:54:55 公開日:2023-06-10
# 不確かさに直面するあいまいさ : 単語センスの曖昧さに対する不確かさ推定の検討

Ambiguity Meets Uncertainty: Investigating Uncertainty Estimation for Word Sense Disambiguation ( http://arxiv.org/abs/2305.13119v2 )

ライセンス: Link先を確認
Zhu Liu and Ying Liu(参考訳) 目的語に対する適切な意味を決定することを目的とした単語感覚曖昧化(WSD)は、自然言語理解に不可欠である。 既存の教師付き手法はWSDを分類タスクとして扱い、優れたパフォーマンスを実現した。 しかし、データは常にノイズが多く分布外である実世界の環境での不確実性推定(UE)を無視する。 本稿では,WSD 向けに設計されたベンチマーク上で UE を広範囲に研究する。 具体的には、まず、最先端のWSDモデルに対する4つの不確実性スコアを比較し、モデルの最後に得られた従来の予測確率が不適切であることを検証する。 そこで, モデルが適切に設計されたテストシナリオにおいて, 選択したUEスコアを用いて, モデルによるデータとモデルの不確実性を捕捉し, モデルの不確かさを十分に反映していることを確認した。 さらに,データ不確実性に内在する多数の語彙特性を探索し,構文カテゴリー,形態,知覚粒度,意味関係の4つの重要な側面を詳細に分析した。 コードはhttps://github.com/RyanLiut/WSD-UEで公開されている。

Word sense disambiguation (WSD), which aims to determine an appropriate sense for a target word given its context, is crucial for natural language understanding. Existing supervised methods treat WSD as a classification task and have achieved remarkable performance. However, they ignore uncertainty estimation (UE) in the real-world setting, where the data is always noisy and out of distribution. This paper extensively studies UE on the benchmark designed for WSD. Specifically, we first compare four uncertainty scores for a state-of-the-art WSD model and verify that the conventional predictive probabilities obtained at the end of the model are inadequate to quantify uncertainty. Then, we examine the capability of capturing data and model uncertainties by the model with the selected UE score on well-designed test scenarios and discover that the model reflects data uncertainty satisfactorily but underestimates model uncertainty. Furthermore, we explore numerous lexical properties that intrinsically affect data uncertainty and provide a detailed analysis of four critical aspects: the syntactic category, morphology, sense granularity, and semantic relations. The code is available at https://github.com/RyanLiut/WSD-UE.
翻訳日:2023-06-13 23:53:07 公開日:2023-06-10
# 文脈内学習におけるラベルバイアスの軽減

Mitigating Label Biases for In-context Learning ( http://arxiv.org/abs/2305.19148v2 )

ライセンス: Link先を確認
Yu Fei, Yifan Hou, Zeming Chen, Antoine Bosselut(参考訳) インコンテキスト学習(ICL)における様々な設計設定、例えばインコンテキストの例の選択と順序は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。 多くの研究がこれらの設計選択について論じているが、それらを分類し、その影響を緩和する体系的な調査はほとんど行われていない。 本研究では,テキスト分類におけるICLの3種類のラベルバイアスについて,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアス(概念化と検出を初めて行う)の3種類のタイプを定義した。 本分析により, 先行ラベルバイアス校正法は, 3種類のバイアスに対処できないことがわかった。 特に、ドメインラベルバイアスは、コンテキスト内例の選択によらず、多くのタスクでllmをランダムレベルのパフォーマンスに制限する。 これらのバイアスの影響を緩和するために,タスクコーパスからランダムなドメイン内単語を用いて言語モデルのラベルバイアスを推定する簡易なバイアス校正法を提案する。 予測時のこの推定バイアスを制御した後、ドメインコンテキストキャリブレーションにより、幅広いタスクにおけるGPT-JとGPT-3のICL性能が大幅に向上する。 利益はドメインラベルバイアスが大きいタスク(マクロf1では最大37%)に相当します。 さらに,様々なスケール,プリトレーニング手法,手作業によるタスク指示のモデルに一般化し,iclにおけるラベルバイアスの有意さを示した。

Various design settings for in-context learning (ICL), such as the choice and order of the in-context examples, can bias a model toward a particular prediction without being reflective of an understanding of the task. While many studies discuss these design choices, there have been few systematic investigations into categorizing them and mitigating their impact. In this work, we define a typology for three types of label biases in ICL for text classification: vanilla-label bias, context-label bias, and domain-label bias (which we conceptualize and detect for the first time). Our analysis demonstrates that prior label bias calibration methods fall short of addressing all three types of biases. Specifically, domain-label bias restricts LLMs to random-level performance on many tasks regardless of the choice of in-context examples. To mitigate the effect of these biases, we propose a simple bias calibration method that estimates a language model's label bias using random in-domain words from the task corpus. After controlling for this estimated bias when making predictions, our novel domain-context calibration significantly improves the ICL performance of GPT-J and GPT-3 on a wide range of tasks. The gain is substantial on tasks with large domain-label bias (up to 37% in Macro-F1). Furthermore, our results generalize to models with different scales, pretraining methods, and manually-designed task instructions, showing the prevalence of label biases in ICL.
翻訳日:2023-06-13 23:46:06 公開日:2023-06-10
# w-procer: 重み付き原型的コントラスト学習による医療用少数ショットエンティティ認識

W-procer: Weighted Prototypical Contrastive Learning for Medical Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.18624v2 )

ライセンス: Link先を確認
Mingchen Li, Yang Ye, Jeremy Yeung, Huixue Zhou, Huaiyuan Chu, Rui Zhang(参考訳) 対照的学習は、NER(Non-shot Name Entity Regniation)の一般的なソリューションとなっている。 従来の構成では、同じラベルを持つトークン間の距離を減らし、異なるラベルを持つトークン間の距離を増やそうとしている。 しかし、医療分野では、OUTSIDE (O) として注釈付けされたエンティティが多数存在し、現在の対照的な学習方法によってOUTSIDE (O) とラベル付けされていない他のエンティティに非推奨にプッシュされ、ラベルのセマンティックな表現のためのノイズの多いプロトタイプで終わるが、OUTSIDE (O) にラベル付けされたエンティティがラベル付けされたエンティティに関連するものも多い。 この課題に対処するために,医用フリューショット名義エンティティ認識のためのWeighted Prototypeal Contrastive Learning (W-PROCER) という新しい手法を提案する。 当社のアプローチは主に,プロトタイプベースの契約損失と重み付けネットワークの構築を中心に展開している。 これらのコンポーネントは、外部(o)トークンから負のサンプルを区別し、コントラスト学習の識別能力を高める上で、モデルを支援する上で重要な役割を果たす。 実験の結果,提案するW-PROCERフレームワークは,3つのベンチマークデータセットの強いベースラインを著しく上回ることがわかった。

Contrastive learning has become a popular solution for few-shot Name Entity Recognization (NER). The conventional configuration strives to reduce the distance between tokens with the same labels and increase the distance between tokens with different labels. The effect of this setup may, however, in the medical domain, there are a lot of entities annotated as OUTSIDE (O), and they are undesirably pushed apart to other entities that are not labeled as OUTSIDE (O) by the current contrastive learning method end up with a noisy prototype for the semantic representation of the label, though there are many OUTSIDE (O) labeled entities are relevant to the labeled entities. To address this challenge, we propose a novel method named Weighted Prototypical Contrastive Learning for Medical Few Shot Named Entity Recognization (W-PROCER). Our approach primarily revolves around constructing the prototype-based contractive loss and weighting network. These components play a crucial role in assisting the model in differentiating the negative samples from OUTSIDE (O) tokens and enhancing the discrimination ability of contrastive learning. Experimental results show that our proposed W-PROCER framework significantly outperforms the strong baselines on the three medical benchmark datasets.
翻訳日:2023-06-13 23:45:42 公開日:2023-06-10
# スケーラブルで弱められた銀行取引分類

Scalable and Weakly Supervised Bank Transaction Classification ( http://arxiv.org/abs/2305.18430v2 )

ライセンス: Link先を確認
Liam Toran, Cory Van Der Walt, Alan Sammarone, Alex Keller (Flowcast.ai)(参考訳) 本稿では,弱い監督,自然言語処理,ディープニューラルネットワーク技術を用いて,銀行取引を分類することを目的とする。 我々の手法は、ヒューリスティックスとドメイン知識を活用して正確なトランザクション分類器を訓練することで、高価で入手が難しい手動アノテーションへの依存を最小限に抑える。 本稿では,データプリプロセッシング,トランザクションテキスト埋め込み,アンカー,ラベル生成,識別型ニューラルネットワークトレーニング,システムアーキテクチャの概要など,効果的でスケーラブルなエンドツーエンドデータパイプラインを提案する。 本手法は,既存の市場主導型ソリューションよりも優れており,正確な分類が可能であり,新規および複合的なユースケースに素早く拡張できることを示す。 これにより、金融健康報告や信用リスク評価など、多くの金融応用を解き放つことができる。

This paper aims to categorize bank transactions using weak supervision, natural language processing, and deep neural network techniques. Our approach minimizes the reliance on expensive and difficult-to-obtain manual annotations by leveraging heuristics and domain knowledge to train accurate transaction classifiers. We present an effective and scalable end-to-end data pipeline, including data preprocessing, transaction text embedding, anchoring, label generation, discriminative neural network training, and an overview of the system architecture. We demonstrate the effectiveness of our method by showing it outperforms existing market-leading solutions, achieves accurate categorization, and can be quickly extended to novel and composite use cases. This can in turn unlock many financial applications such as financial health reporting and credit risk assessment.
翻訳日:2023-06-13 23:45:17 公開日:2023-06-10
# 信頼できない絡み合い支援による絡み合い防止チャネルの通信

Communication Over Entanglement-Breaking Channels With Unreliable Entanglement Assistance ( http://arxiv.org/abs/2305.17692v2 )

ライセンス: Link先を確認
Uzi Pereg(参考訳) 絡み合い支援は通信速度を大幅に向上させることができる。 しかし、その世代は容易に失敗する。 最近導入された信頼できない援助のモデルはこれらの課題に対処している。 以前の研究は、アンアシストとアンタグルメント支援による過剰率のトレードオフに対する漸近的な公式を提供した。 エンタングルメント破壊チャネルの完全特徴を導出し,エンタングルメント支援と非アシスト符号化の組み合わせが最適であることを示す。 ネットワークの観点からすると、この発見は非自明であり、重ね合わせから生じる量子的挙動を強調する。

Entanglement assistance can improve communication rates significantly. Yet, its generation can easily fail. The recently-introduced model of unreliable assistance accounts for those challenges. Previous work provided an asymptotic formula for the tradeoff between the unassisted and excess rates from entanglement assistance. We derive a full characterization for entanglement-breaking channels, and show that combining entanglement-assisted and unassisted coding is suboptimal. From a networking perspective, this finding is nontrivial and highlights a quantum behavior arising from superposition.
翻訳日:2023-06-13 23:44:49 公開日:2023-06-10
# 次文予測と相互情報を用いた潜在空間におけるオープンドメイン対話の評価

Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information ( http://arxiv.org/abs/2305.16967v3 )

ライセンス: Link先を確認
Kun Zhao, Bohao Yang, Chenghua Lin, Wenge Rong, Aline Villavicencio and Xiaohui Cui(参考訳) オープンドメイン対話の長年にわたる一対多問題は、自動評価手法に重大な課題を生じさせ、例えば、与えられた会話コンテキストのセマンティクスが異なる複数の適切な応答が存在する可能性がある。 この課題に取り組むために,条件付き変分オートエンコーダ(cvaes)を次文予測(nsp)目標で拡張し,相互情報(mi)を用いて潜在空間におけるテキストの意味的類似性をモデル化することにより,オープンドメイン対話を頑健に評価できる新しい学習型自動評価指標(cmn)を提案する。 2つのオープンドメイン対話データセットにおける実験結果から,本手法は広範囲のベースライン,特にセマンティクスにおけるゴールデンリファレンス応答に遠く及ばない応答の処理において優れていることが示された。

The long-standing one-to-many issue of the open-domain dialogues poses significant challenges for automatic evaluation methods, i.e., there may be multiple suitable responses which differ in semantics for a given conversational context. To tackle this challenge, we propose a novel learning-based automatic evaluation metric (CMN), which can robustly evaluate open-domain dialogues by augmenting Conditional Variational Autoencoders (CVAEs) with a Next Sentence Prediction (NSP) objective and employing Mutual Information (MI) to model the semantic similarity of text in the latent space. Experimental results on two open-domain dialogue datasets demonstrate the superiority of our method compared with a wide range of baselines, especially in handling responses which are distant to the golden reference responses in semantics.
翻訳日:2023-06-13 23:43:31 公開日:2023-06-10
# 制御可能なテキスト生成のためのフォーカス付きプレフィックスチューニング

Focused Prefix Tuning for Controllable Text Generation ( http://arxiv.org/abs/2306.00369v2 )

ライセンス: Link先を確認
Congda Ma, Tianyu Zhao, Makoto Shing, Kei Sawada, Manabu Okumura(参考訳) 制御可能なテキスト生成データセットでは、無関係な学習信号をトレーニングに使用するモデルに提供し、そのパフォーマンスを低下させる無注釈属性が存在する。 この問題を緩和し、制御者が所望の属性に集中できるようにするために、FPT( Focus prefix tuning)を提案する。 実験結果から,FPTは単一属性制御タスクにおけるベースラインモデルよりも制御精度とテキスト流速を向上できることが示された。 マルチ属性制御タスクでは、FPTは既存のモデルを再トレーニングすることなく、新しい属性を制御する柔軟性を維持しながら、最先端のアプローチと同等の制御精度を達成する。

In a controllable text generation dataset, there exist unannotated attributes that could provide irrelevant learning signals to models that use it for training and thus degrade their performance. We propose focused prefix tuning(FPT) to mitigate the problem and to enable the control to focus on the desired attribute. Experimental results show that FPT can achieve better control accuracy and text fluency than baseline models in single-attribute control tasks. In multi-attribute control tasks, FPT achieves comparable control accuracy with the state-of-the-art approach while keeping the flexibility to control new attributes without retraining existing models.
翻訳日:2023-06-13 23:35:09 公開日:2023-06-10
# LoCoOp: プロンプト学習による分布検出

LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning ( http://arxiv.org/abs/2306.01293v2 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) 本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。 OOD検出は、トレーニング中に見つからないクラスから、少数のラベル付きIDイメージを使用してOOD画像を検出することを目的としている。 CoOpのような素早い学習手法は、数発のID分類において有効性と効率性を示しているが、テキスト埋め込みにおけるID関連情報の存在の可能性から、OOD検出の制限に直面している。 この問題を解決するために、トレーニング中にCLIPローカル機能の一部をOOD機能として利用するOOD正規化を行うLoCoOp(Local regularized Context Optimization)という新しいアプローチを導入する。 CLIPのローカル機能は、ID非関連なニュアンス(例えば、バックグラウンド)が多く、IDクラステキストの埋め込みからそれらを押し離すことで、IDクラステキストの埋め込みにあるニュアンスを取り除き、IDとOODの分離を強化することができる。 大規模なImageNet OOD検出ベンチマークの実験では、ゼロショットで完全に教師付き検出方法と迅速な学習方法よりも、LoCoOpの方が優れていることが示された。 特に、クラス毎に1つのラベルを持つワンショット設定であっても、LoCoOpは既存のゼロショットと完全に教師付き検出メソッドよりも優れています。 コードはhttps://github.com/AtsuMiyai/LoCoOp.comから入手できる。

We present a novel vision-language prompt learning approach for few-shot out-of-distribution (OOD) detection. Few-shot OOD detection aims to detect OOD images from classes that are unseen during training using only a few labeled in-distribution (ID) images. While prompt learning methods such as CoOp have shown effectiveness and efficiency in few-shot ID classification, they still face limitations in OOD detection due to the potential presence of ID-irrelevant information in text embeddings. To address this issue, we introduce a new approach called Local regularized Context Optimization (LoCoOp), which performs OOD regularization that utilizes the portions of CLIP local features as OOD features during training. CLIP's local features have a lot of ID-irrelevant nuisances (e.g., backgrounds), and by learning to push them away from the ID class text embeddings, we can remove the nuisances in the ID class text embeddings and enhance the separation between ID and OOD. Experiments on the large-scale ImageNet OOD detection benchmarks demonstrate the superiority of our LoCoOp over zero-shot, fully supervised detection methods and prompt learning methods. Notably, even in a one-shot setting -- just one label per class, LoCoOp outperforms existing zero-shot and fully supervised detection methods. The code will be available via https://github.com/AtsuMiyai/LoCoOp.
翻訳日:2023-06-13 23:26:26 公開日:2023-06-10
# AIは学業ミスのルールを変えるのか? 学生の「AI-giarism」に対する認識についての一考察

Is AI Changing the Rules of Academic Misconduct? An In-depth Look at Students' Perceptions of 'AI-giarism' ( http://arxiv.org/abs/2306.03358v2 )

ライセンス: Link先を確認
Cecilia Ka Yuk Chan(参考訳) この先駆的な研究は、高等教育の文脈において、aiと盗作を含む学術的不正の創発的な形態であるai-giarismに対する学生の認識を探求する。 様々な分野の大学生,大学院生393名を対象に,AI-ギアリズムの多様なシナリオに対する認識を調査した。 この発見は、AIコンテンツの直接生成に対して明確な不承認をもって、複雑な理解の風景を描いている。 この研究は、AIギアリズムの初期の概念化として新しい道具を紹介し、教育者や政策立案者に重要なツールを提供する。 このスケールは、AI統合の時代における教育設計と評価を支援するAI関連の学術的不正行為に関する理解と議論を促進する。 さらに、AI技術の進化に対応するために適応する必要性を強調し、学術的不正行為の伝統的な定義に挑戦する。 AIの急速な変化や便利なサンプリングの使用といった制限にもかかわらず、この研究は学術、政策決定、そして教育におけるAI技術のより広範な統合に対する重要な洞察を提供する。

This pioneering study explores students' perceptions of AI-giarism, an emergent form of academic dishonesty involving AI and plagiarism, within the higher education context. A survey, undertaken by 393 undergraduate and postgraduate students from a variety of disciplines, investigated their perceptions of diverse AI-giarism scenarios. The findings portray a complex landscape of understanding, with clear disapproval for direct AI content generation, yet more ambivalent attitudes towards subtler uses of AI. The study introduces a novel instrument, as an initial conceptualization of AI-giarism, offering a significant tool for educators and policy-makers. This scale facilitates understanding and discussions around AI-related academic misconduct, aiding in pedagogical design and assessment in an era of AI integration. Moreover, it challenges traditional definitions of academic misconduct, emphasizing the need to adapt in response to evolving AI technology. Despite limitations, such as the rapidly changing nature of AI and the use of convenience sampling, the study provides pivotal insights for academia, policy-making, and the broader integration of AI technology in education.
翻訳日:2023-06-13 23:16:21 公開日:2023-06-10
# LLM-Blender: Pairwise RankingとGenerative Fusionを備えた大規模言語モデルの構築

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion ( http://arxiv.org/abs/2306.02561v2 )

ライセンス: Link先を確認
Dongfu Jiang, Xiang Ren, Bill Yuchen Lin(参考訳) llm-blenderは,複数のオープンソース大規模言語モデル(llm)の多様な強みを活用して,一貫して優れたパフォーマンスを実現するためのフレームワークである。 pairranker と genfuser という2つのモジュールで構成されており、異なる例に対する最適な llm の観測に対処しています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。 入力テキストと候補のペアを共同でエンコードし、クロスアテンションエンコーダを使用して上位のテキストを決定する。 以上の結果から,PairRankerはChatGPTによるランキングよりも高い相関を示した。 そしてGenFuserは、上位候補をマージし、その強みを活かして弱点を緩和することで、改善されたアウトプットを生成する。 大規模評価を容易にするために,オラクル対比較を特徴とする複数の命令データセットを混合したベンチマークデータセットMixInstructを導入する。 我々のLLM-Blenderは、様々な指標で個々のLLMとベースラインメソッドを著しく上回り、大きなパフォーマンスギャップを確立しました。

We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.
翻訳日:2023-06-13 23:14:57 公開日:2023-06-10
# 適応的特徴グリッドを備えたNICE-SLAM

NICE-SLAM with Adaptive Feature Grids ( http://arxiv.org/abs/2306.02395v2 )

ライセンス: Link先を確認
Ganlin Zhang, Deheng Zhang, Feichi Lu, Anqi Li(参考訳) NICE-SLAMは、ニューラルな暗黙表現と階層的なグリッドベースのシーン表現の利点を組み合わせた高密度視覚SLAMシステムである。 しかし、階層的なグリッド機能は密に格納されており、フレームワークを大きなシーンに適応させる際のメモリ爆発の問題を引き起こす。 本稿では,Voxel Hashing のアイデアを NICE-SLAM フレームワークに組み込んだスパースSLAM システムである NICE-SLAM を提案する。 スペース全体の機能グリッドを初期化する代わりに、表面付近のvoxel機能は適応的に追加され、最適化される。 実験により、NICE-SLAMアルゴリズムと比較して、我々の手法はメモリをはるかに少なくし、同じデータセット上で同等の再構成品質を達成することが示された。 実装はhttps://github.com/zhangganlin/NICE-SLAM-with-Adaptive-Feature-Gridsで公開しています。

NICE-SLAM is a dense visual SLAM system that combines the advantages of neural implicit representations and hierarchical grid-based scene representation. However, the hierarchical grid features are densely stored, leading to memory explosion problems when adapting the framework to large scenes. In our project, we present sparse NICE-SLAM, a sparse SLAM system incorporating the idea of Voxel Hashing into NICE-SLAM framework. Instead of initializing feature grids in the whole space, voxel features near the surface are adaptively added and optimized. Experiments demonstrated that compared to NICE-SLAM algorithm, our approach takes much less memory and achieves comparable reconstruction quality on the same datasets. Our implementation is available at https://github.com/zhangganlin/NICE-SLAM-with-Adaptive-Feature-Grids.
翻訳日:2023-06-13 23:13:49 公開日:2023-06-10
# 拡散を考慮したプロバスケットボール選手行動合成

Professional Basketball Player Behavior Synthesis via Planning with Diffusion ( http://arxiv.org/abs/2306.04090v2 )

ライセンス: Link先を確認
Xiusi Chen, Wei-Yao Wang, Ziniu Hu, Curtis Chou, Lam Hoang, Kun Jin, Mingyan Liu, P. Jeffrey Brantingham, Wei Wang(参考訳) 多様な領域における意思決定を改善するために,マルチエージェントシステムの動的計画法が検討されている。 プロバスケットボールはダイナミックな時空間試合の魅力的な例であり、隠れた戦略方針と意思決定の両方を含んでいる。 しかし,様々なオンコート信号の処理や潜在的な行動や成果の膨大な空間のナビゲートは,進化する状況に対応する最適な戦略を迅速に特定することが困難である。 本研究ではまず,条件付き軌道生成プロセスとして逐次決定過程を定式化する。 さらに,プレーヤ意思決定の促進手法であるPLAYBEST(PLAYer BEhavior Synthesis)を紹介する。 我々は,NBA選手の運動追跡データから,最先端の生成モデルである拡散確率モデルを拡張して,マルチエージェント環境の動態を学習する。 データ駆動戦略を組み込むために、プランガイダンスとして対応する報酬と共にプレイバイプレイデータを用いて補助値関数を訓練する。 報酬誘導軌道生成を実現するため、値関数上の拡散モデルに条件付きサンプリングを導入し、分類器誘導サンプリングを行う。 実世界のデータから総合的なシミュレーション研究を行い, プロバスケットボールチームとプロバスケットボールチームの比較を行い, プレイベストの有効性を検証した。 提案手法は, 適応性, 柔軟性, 総合性能の観点から, 従来の計画手法を超越した, 高性能なバスケットボールコースの創出に優れていた。 さらに、合成されたプレイ戦略はプロの戦術と顕著な一致を示し、バスケットボールの試合の複雑なダイナミクスをとらえるモデルの能力を強調した。

Dynamically planning in multi-agent systems has been explored to improve decision-making in various domains. Professional basketball serves as a compelling example of a dynamic spatio-temporal game, encompassing both concealed strategic policies and decision-making. However, processing the diverse on-court signals and navigating the vast space of potential actions and outcomes makes it difficult for existing approaches to swiftly identify optimal strategies in response to evolving circumstances. In this study, we first formulate the sequential decision-making process as a conditional trajectory generation process. We further introduce PLAYBEST (PLAYer BEhavior SynThesis), a method for enhancing player decision-making. We extend the state-of-the-art generative model, diffusion probabilistic model, to learn challenging multi-agent environmental dynamics from historical National Basketball Association (NBA) player motion tracking data. To incorporate data-driven strategies, an auxiliary value function is trained using the play-by-play data with corresponding rewards acting as the plan guidance. To accomplish reward-guided trajectory generation, conditional sampling is introduced to condition the diffusion model on the value function and conduct classifier-guided sampling. We validate the effectiveness of PLAYBEST via comprehensive simulation studies from real-world data, contrasting the generated trajectories and play strategies with those employed by professional basketball teams. Our results reveal that the model excels at generating high-quality basketball trajectories that yield efficient plays, surpassing conventional planning techniques in terms of adaptability, flexibility, and overall performance. Moreover, the synthesized play strategies exhibit a remarkable alignment with professional tactics, highlighting the model's capacity to capture the intricate dynamics of basketball games.
翻訳日:2023-06-13 23:07:36 公開日:2023-06-10
# 対話ディスタングルのための会話談話の再検討

Revisiting Conversation Discourse for Dialogue Disentanglement ( http://arxiv.org/abs/2306.03975v2 )

ライセンス: Link先を確認
Bobo Li, Hao Fei, Fei Li, Shengqiong Wu, Lizi Liao, Yinwei Wei, Tat-Seng Chua, Donghong Ji(参考訳) 対話の混乱は、時系列的に順序付けられた発話をいくつかの独立したセッションに分割することを目的としている。 会話発話は基本的に、下層の談話によって構成され、記述されるので、対話の解離は本質的な談話属性の完全な理解と活用を必要とする。 本稿では,対話談話の特徴を最大限に活用し,対話の絡み合いを高めることを提案する。 まず、特徴符号化段階において、静的な話者-話者構造(話者-発話構造と話者-メンション構造)と動的文脈構造(発話距離と部分復元構造)を含む、様々な対話特有の談話構造の特徴をモデル化するために、異種グラフ表現を構築する。 次に、対話的意味コンテキストのモデリングを改善するために、リッチな構造機能を統合する構造認識フレームワークを開発した。 第2に、モデル学習段階では、対話発話を異なる談話レベルにグループ化し、ペアレベルとセッションレベルでの学習を階層的に行う階層的ランキング損失機構を用いて最適化を行う。 第3に, 推定段階では, 従来の逐次復号順序の制約を破って, 難解な方法で発話ペアリングを行う, 容易第一の復号アルゴリズムを考案する。 2つのベンチマークデータセットに対して,本システムでは,すべての評価において,新たな最先端性能を実現する。 より詳細な分析により,提案手法が課題の進行にどう役立つかを明らかにした。 我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。

Dialogue disentanglement aims to detach the chronologically ordered utterances into several independent sessions. Conversation utterances are essentially organized and described by the underlying discourse, and thus dialogue disentanglement requires the full understanding and harnessing of the intrinsic discourse attribute. In this paper, we propose enhancing dialogue disentanglement by taking full advantage of the dialogue discourse characteristics. First of all, in feature encoding stage, we construct the heterogeneous graph representations to model the various dialogue-specific discourse structural features, including the static speaker-role structures (i.e., speaker-utterance and speaker-mentioning structure) and the dynamic contextual structures (i.e., the utterance-distance and partial-replying structure). We then develop a structure-aware framework to integrate the rich structural features for better modeling the conversational semantic context. Second, in model learning stage, we perform optimization with a hierarchical ranking loss mechanism, which groups dialogue utterances into different discourse levels and carries training covering pair-wise and session-wise levels hierarchically. Third, in inference stage, we devise an easy-first decoding algorithm, which performs utterance pairing under the easy-to-hard manner with a global context, breaking the constraint of traditional sequential decoding order. On two benchmark datasets, our overall system achieves new state-of-the-art performances on all evaluations. In-depth analyses further demonstrate the efficacy of each proposed idea and also reveal how our methods help advance the task. Our work has great potential to facilitate broader multi-party multi-thread dialogue applications.
翻訳日:2023-06-13 23:07:09 公開日:2023-06-10
# TKDP: 名前付きエンティティ認識のための3倍の知識強化深部プロンプトチューニング

TKDP: Threefold Knowledge-enriched Deep Prompt Tuning for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2306.03974v2 )

ライセンス: Link先を確認
Jiang Liu, Hao Fei, Fei Li, Jingye Li, Bobo Li, Liang Zhao, Chong Teng and Donghong Ji(参考訳) 名前付きエンティティ認識(NER)は限定アノテーション付きインスタンスを利用して名前付き参照を識別する。 これにより、内部または外部のリソースを効果的に転送することが、少数ショットNERの鍵となる。 既存のプロンプトチューニング手法は目覚ましい数ショットパフォーマンスを示しているが、知識のフル活用には至っていない。 本研究では,より強力なNERのためのチューニングを促すため,豊富な知識の統合について検討する。 内部を含む3つの知識(すなわちTKDP)を組み込んだディーププロンプトチューニングフレームワークを提案する。 1)文脈知識と外部 2)ラベル知識、3)セム知識。 TKDPはこれら3つの特徴源を符号化し、それらをソフトプロンプト埋め込みに組み込む。 5つのベンチマークデータセットにおいて、我々の知識豊か化モデルは、生のディーププロンプト法よりも少なくとも11.53%F1を向上し、5/10/20ショット設定で8つの強力なパフォーマンスベースラインシステムを大幅に上回り、数発のNERにおいて大きな可能性を秘めている。 われわれのTKDPは、他の数発のタスクに、手間をかけずに広く適応できる。

Few-shot named entity recognition (NER) exploits limited annotated instances to identify named mentions. Effectively transferring the internal or external resources thus becomes the key to few-shot NER. While the existing prompt tuning methods have shown remarkable few-shot performances, they still fail to make full use of knowledge. In this work, we investigate the integration of rich knowledge to prompt tuning for stronger few-shot NER. We propose incorporating the deep prompt tuning framework with threefold knowledge (namely TKDP), including the internal 1) context knowledge and the external 2) label knowledge & 3) sememe knowledge. TKDP encodes the three feature sources and incorporates them into the soft prompt embeddings, which are further injected into an existing pre-trained language model to facilitate predictions. On five benchmark datasets, our knowledge-enriched model boosts by at most 11.53% F1 over the raw deep prompt method, and significantly outperforms 8 strong-performing baseline systems in 5-/10-/20-shot settings, showing great potential in few-shot NER. Our TKDP can be broadly adapted to other few-shot tasks without effort.
翻訳日:2023-06-13 23:06:38 公開日:2023-06-10
# ECQED: 対話における感情的四重項抽出

ECQED: Emotion-Cause Quadruple Extraction in Dialogs ( http://arxiv.org/abs/2306.03969v2 )

ライセンス: Link先を確認
Li Zheng, Donghong Ji, Fei Li, Hao Fei, Shengqiong Wu, Jingye Li, Bobo Li, Chong Teng(参考訳) 既存のemotion-induced pair extraction (ecpe)タスクは残念ながら、感情のタイプと原因のタイプを抽出することを無視するが、これらのきめ細かいメタ情報は実際のアプリケーション、例えばチャットロボットや共感的な対話生成で実際に有用である。 また、現在のECPEは、より現実的な値を持つはずのダイアログレベルでの研究を無視しながら、シングルテキストのシナリオに限られています。 本稿では,ECPEタスクをより広い定義とシナリオで拡張し,感情に起因した発話のペアと感情と原因のタイプを検出することを必要とする,新たなタスクであるECQED(Emotion-Cause Quadruple extract in Dialogs)を提案する。 本稿では,構造的および意味的不均一グラフに基づくecqedモデルと並列グリッドタグ付け方式を提案する。 実験により, 微粒な感情の導入と特徴の付与がダイアログ生成の促進に役立つことが明らかとなった。 また,提案したECQEDシステムでは,感情に起因した4重項タスクとペア抽出タスクの両方に対して,高い効率性を示す。

The existing emotion-cause pair extraction (ECPE) task, unfortunately, ignores extracting the emotion type and cause type, while these fine-grained meta-information can be practically useful in real-world applications, i.e., chat robots and empathic dialog generation. Also the current ECPE is limited to the scenario of single text piece, while neglecting the studies at dialog level that should have more realistic values. In this paper, we extend the ECPE task with a broader definition and scenario, presenting a new task, Emotion-Cause Quadruple Extraction in Dialogs (ECQED), which requires detecting emotion-cause utterance pairs and emotion and cause types. We present an ECQED model based on a structural and semantic heterogeneous graph as well as a parallel grid tagging scheme, which advances in effectively incorporating the dialog context structure, meanwhile solving the challenging overlapped quadruple issue. Via experiments we show that introducing the fine-grained emotion and cause features evidently helps better dialog generation. Also our proposed ECQED system shows exceptional superiority over baselines on both the emotion-cause quadruple or pair extraction tasks, meanwhile being highly efficient.
翻訳日:2023-06-13 23:06:13 公開日:2023-06-10
# 限定ラベル付き言語におけるヘイトスピーチ検出における自然言語推論の有効性の評価

Evaluating the Effectiveness of Natural Language Inference for Hate Speech Detection in Languages with Limited Labeled Data ( http://arxiv.org/abs/2306.03722v2 )

ライセンス: Link先を確認
Janis Goldzycher, Moritz Preisig, Chantal Amrhein, Gerold Schneider(参考訳) ヘイトスピーチ検出に関するほとんどの研究は、大量のラベル付きトレーニングデータが利用できる英語に焦点を当てている。 しかし、ヘイトスピーチ検出をより多くの言語に拡張するには、最小限のトレーニングデータを必要とするアプローチが必要である。 本稿では,対象言語で限られたラベル付きデータしか利用できない場合において,ゼロおよび少数ショット設定で良好に動作する自然言語推論(NLI)モデルが,ヘイトスピーチ検出性能に有用かどうかを検証する。 対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。 しかし、英語データにおける中間微調整を提案する以前の研究の有効性は一致しない。 英語のトレーニングデータがテスト領域と一致しない場合のみ、我々のカスタマイズされたNLI形式は英語の中間微調整よりも優れる。 そこで本研究では,ラベル付き学習データを最小限に抑える言語におけるヘイトスピーチ検出のための一連の推奨手法を提案する。

Most research on hate speech detection has focused on English where a sizeable amount of labeled training data is available. However, to expand hate speech detection into more languages, approaches that require minimal training data are needed. In this paper, we test whether natural language inference (NLI) models which perform well in zero- and few-shot settings can benefit hate speech detection performance in scenarios where only a limited amount of labeled data is available in the target language. Our evaluation on five languages demonstrates large performance improvements of NLI fine-tuning over direct fine-tuning in the target language. However, the effectiveness of previous work that proposed intermediate fine-tuning on English data is hard to match. Only in settings where the English training data does not match the test domain, can our customised NLI-formulation outperform intermediate fine-tuning on English. Based on our extensive experiments, we propose a set of recommendations for hate speech detection in languages where minimal labeled training data is available.
翻訳日:2023-06-13 23:05:33 公開日:2023-06-10
# SDR-GAIN: 自動走行のための高リアルタイムOccluded Pedestrian Pose Completion法

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving ( http://arxiv.org/abs/2306.03538v2 )

ライセンス: Link先を確認
Honghao Fu, Libo Sun(参考訳) 本研究では,人間のポーズキーポイントに基づく歩行者検出手法における部分閉塞から生じる課題を軽減するために,分割・次元減少に基づく生成逆計算ネットワーク(SDR-GAIN)と呼ばれる新しい歩行者ポーズキーポイント完了手法を提案する。 まず、OpenPoseを使って画像中の歩行者のポーズを推定する。 そして,閉塞などの要因により不完全な鍵点を持つ歩行者の頭と胴のキーポイントを分離し,次元的削減を行い,特徴量を高め,さらに特徴分布を統一する。 最後に, フーバー損失, 残差構造, l1正規化を組み込んだgenerative adversarial networks (gan) フレームワークに基づく生成モデルについて紹介する。 我々は,MS COCOとJAADデータセットを用いて,SDR-GAINが基本的なGAINフレームワーク,PCHIPとMAKIMA,機械学習手法k-NN,MissForestをポーズ完了タスクで上回ることを示す。 さらに、SDR-GAINアルゴリズムは、約0.4msの驚くほど短い実行時間を示し、例外的なリアルタイム性能を誇っている。 このように、自律運転の分野では、高いシステム応答速度が最重要となる重要な実践的価値を持っている。 具体的には、人間のポーズキーポイントを迅速かつ正確に捉えることに優れており、歩行者の行動認識や予測に限らず、ポーズキーポイントに基づく歩行者検出タスクの幅広い応用が可能となる。

To mitigate the challenges arising from partial occlusion in human pose keypoint based pedestrian detection methods , we present a novel pedestrian pose keypoint completion method called the separation and dimensionality reduction-based generative adversarial imputation networks (SDR-GAIN). Firstly, we utilize OpenPose to estimate pedestrian poses in images. Then, we isolate the head and torso keypoints of pedestrians with incomplete keypoints due to occlusion or other factors and perform dimensionality reduction to enhance features and further unify feature distribution. Finally, we introduce two generative models based on the generative adversarial networks (GAN) framework, which incorporate Huber loss, residual structure, and L1 regularization to generate missing parts of the incomplete head and torso pose keypoints of partially occluded pedestrians, resulting in pose completion. Our experiments on MS COCO and JAAD datasets demonstrate that SDR-GAIN outperforms basic GAIN framework, interpolation methods PCHIP and MAkima, machine learning methods k-NN and MissForest in terms of pose completion task. Furthermore, the SDR-GAIN algorithm exhibits a remarkably short running time of approximately 0.4ms and boasts exceptional real-time performance. As such, it holds significant practical value in the domain of autonomous driving, wherein high system response speeds are of paramount importance. Specifically, it excels at rapidly and precisely capturing human pose key points, thus enabling an expanded range of applications for pedestrian detection tasks based on pose key points, including but not limited to pedestrian behavior recognition and prediction.
翻訳日:2023-06-13 23:05:16 公開日:2023-06-10
# 画像認識モデルのフレームワーク変換のためのフォールトローカライズ

Fault Localization for Framework Conversions of Image Recognition Models ( http://arxiv.org/abs/2306.06157v1 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) ディープニューラルネットワーク(dnn)をデプロイする場合、開発者はモデルをディープラーニングフレームワークから別のもの(tensorflowからpytorchなど)に変換することが多い。 しかし、このプロセスはエラーを起こしやすく、ターゲットモデルの精度に影響を及ぼす可能性がある。 このような影響の程度を特定するため、画像認識に使用される3つのDNN(MobileNetV2、ResNet101、InceptionV3)に対して、よく知られたディープラーニングフレームワーク(PyTorch、Keras、TensorFlow(TF)、TFLite)に変換された差分解析を行い、最大100%のモデルクラッシュと出力ラベルの相違を明らかにした。 このような誤りを軽減するため,本研究では,事前学習された画像認識モデルに着目した,バギー深層学習フレームワーク変換のフォールトローカライズと修復への新しいアプローチを提案する。 我々の手法は4つの主要な分析段階からなる。 1)変換ツール、 2)モデルパラメータ。 3)モデルハイパーパラメータ、及び 4)グラフ表現。 さらに,検出した断層の故障修復に向けたいくつかの戦略を提案する。 我々は,この手法をapache tvm深層学習コンパイラ上に実装し,inceptionv3のtfからtfliteへの変換のための予備的フォールトローカライズ分析を行い,その検証を行った。 提案手法では,変換過程においてtf2onnxツールが特に畳み込み層の重み付けをモデル化するために精度誤差を導入し,モデル精度に悪影響を及ぼした。 次に、影響を受ける重みをソースモデルに置き換えることで、ターゲットモデルを修復した。

When deploying Deep Neural Networks (DNNs), developers often convert models from one deep learning framework to another (e.g., TensorFlow to PyTorch). However, this process is error-prone and can impact target model accuracy. To identify the extent of such impact, we perform and briefly present a differential analysis against three DNNs used for image recognition (MobileNetV2, ResNet101, and InceptionV3), converted across four well-known deep learning frameworks (PyTorch, Keras, TensorFlow (TF), and TFLite), which revealed numerous model crashes and output label discrepancies of up to 100%. To mitigate such errors, we present a novel approach towards fault localization and repair of buggy deep learning framework conversions, focusing on pre-trained image recognition models. Our technique consists of four primary stages of analysis: 1) conversion tools, 2) model parameters, 3) model hyperparameters, and 4) graph representation. In addition, we propose a number of strategies towards fault repair of the faults detected. We implement our technique on top of Apache TVM deep learning compiler, and we test it by conducting a preliminary fault localization analysis for the conversion of InceptionV3, from TF to TFLite. Our approach detected that the tf2onnx tool used in the conversion process introduced precision errors to model weights for convolutional layers in particular, which negatively affected the model accuracy. We then repaired the target model by replacing the affected weights with those from source model.
翻訳日:2023-06-13 20:52:09 公開日:2023-06-10
# 数学推論と問題解決におけるChatGPTの有効性の検討:ベトナム国立高校卒業試験から

Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination ( http://arxiv.org/abs/2306.06331v1 )

ライセンス: Link先を確認
Xuan-Quy Dao and Ngoc-Bich Le(参考訳) 本研究は,ベトナム国立高校卒業試験(VNHSGE)における複数項目の質問に応答するChatGPTの数学能力について,様々な課題と難易度について完全な分析を行った。 データセットには、知識(K)、理解(C)、応用(A)、高適用(H)の4つのレベルに分けられた250の質問と、多様な数学的概念をカバーする10のテーマが含まれていた。 その結果,ChatGPTの性能は難易度や課題によって異なることが示された。 レベル (k) の質問で最高の成績をあげたが、難易度が上昇するにつれて成績は悪く、精度は10\%$であった。 この研究は、ChatGPTが指数関数や対数関数、幾何学的進行、算術的進行といった問題に対する回答を提供することに成功していることも示している。 研究によると、chatgptは微分や応用、空間幾何学、オキシズ空間計算といったトピックに関する質問に正しく答えられなかった。 さらに,本研究ではベトナム人学生のVNHSGEや他の数学コンペティションとChatGPTの結果を比較した。 ChatGPTはSAT Mathの競争で70 %$、VNHSGEの数学(58.8 %)$で優位に立った。 しかし、その成功率はAP統計、GRE定量、AMC 10、AMC 12、AP Calculus BCなど他の試験よりも低かった。 これらの結果は、chatgptが数学の効果的な教育ツールになる可能性が示唆されているが、グラフィックデータの取り扱いを強化し、より困難になっている質問によって提示される課題に対処するためには、さらに多くの作業が必要である。

This study offers a complete analysis of ChatGPT's mathematics abilities in responding to multiple-choice questions for the Vietnamese National High School Graduation Examination (VNHSGE) on a range of subjects and difficulty levels. The dataset included 250 questions divided into four levels: knowledge (K), comprehension (C), application (A), and high application (H), and it included ten themes that covered diverse mathematical concepts. The outcomes demonstrate that ChatGPT's performance varies depending on the difficulty level and subject. It performed best on questions at Level (K), with an accuracy rate of $83\%$; but, as the difficulty level rose, it scored poorly, with an accuracy rate of $10\%$. The study has also shown that ChatGPT significantly succeeds in providing responses to questions on subjects including exponential and logarithmic functions, geometric progression, and arithmetic progression. The study found that ChatGPT had difficulty correctly answering questions on topics including derivatives and applications, spatial geometry, and Oxyz spatial calculus. Additionally, this study contrasted ChatGPT outcomes with Vietnamese students in VNHSGE and in other math competitions. ChatGPT dominated in the SAT Math competition with a success rate of $70\%$, followed by VNHSGE mathematics ($58.8\%)$. However, its success rates were lower on other exams, such as AP Statistics, the GRE Quantitative, AMC 10, AMC 12, and AP Calculus BC. These results suggest that ChatGPT has the potential to be an effective teaching tool for mathematics, but more work is needed to enhance its handling of graphical data and address the challenges presented by questions that are getting more challenging.
翻訳日:2023-06-13 19:45:25 公開日:2023-06-10
# 学習タイヤモデルによる3分間のデータによる自律ドリフト

Autonomous Drifting with 3 Minutes of Data via Learned Tire Models ( http://arxiv.org/abs/2306.06330v1 )

ライセンス: Link先を確認
Franck Djeumou and Jonathan Y.M. Goh and Ufuk Topcu and Avinash Balachandran(参考訳) 接着限界付近では、タイヤによって生じる力は非線形で複雑な結合である。 この地域の効率的かつ正確なモデリングは、特に高力を必要とする緊急時の安全性を向上させることができる。 そこで本研究では,ニューラル常微分方程式とニューラル-ExpTanhパラメータ化に基づくタイヤ力モデルを提案する。 これらのモデルは、物理的に洞察に富んだ仮定を満たすとともに、車両の状態測定から直接高次効果を捉えるのに十分な忠実さを持つように設計されている。 既存の非線形モデル予測制御フレームワークにおける解析的ブラシタイヤモデルのドロップイン置換として使用される。 トヨタ・スプラの実験では、運転データが少ない(3分未満)ため、高速で45mphの速度で高速な自動ドリフトを実現するのに十分であることが示された。 ベンチマークモデルと比較すると、パフォーマンスの追跡、制御入力のスムーズ化、高速で一貫性のある計算時間の改善が4 \times$で示されている。

Near the limits of adhesion, the forces generated by a tire are nonlinear and intricately coupled. Efficient and accurate modelling in this region could improve safety, especially in emergency situations where high forces are required. To this end, we propose a novel family of tire force models based on neural ordinary differential equations and a neural-ExpTanh parameterization. These models are designed to satisfy physically insightful assumptions while also having sufficient fidelity to capture higher-order effects directly from vehicle state measurements. They are used as drop-in replacements for an analytical brush tire model in an existing nonlinear model predictive control framework. Experiments with a customized Toyota Supra show that scarce amounts of driving data -- less than three minutes -- is sufficient to achieve high-performance autonomous drifting on various trajectories with speeds up to 45mph. Comparisons with the benchmark model show a $4 \times$ improvement in tracking performance, smoother control inputs, and faster and more consistent computation time.
翻訳日:2023-06-13 19:44:55 公開日:2023-06-10
# HIPODE:政策分離アプローチによる高品質合成データによるオフライン強化学習の促進

HIPODE: Enhancing Offline Reinforcement Learning with High-Quality Synthetic Data from a Policy-Decoupled Approach ( http://arxiv.org/abs/2306.06329v1 )

ライセンス: Link先を確認
Shixi Lian, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng(参考訳) オフライン強化学習(ORL)は,事前収集した静的データを用いた強化学習モデルの訓練手段として注目されている。 限られたデータの問題に対処し、下流ORLのパフォーマンスを改善するため、最近の研究はデータ拡張を通じてデータセットのカバレッジを拡大しようと試みている。 しかし、これらの手法のほとんどは特定のポリシー(政治に依存している)に結びついており、生成されたデータは現在の下流ORLポリシーをサポートすることのみを保証し、他の下流ポリシーの使用範囲を制限する。 さらに、合成データの質はよくよく制御されておらず、下流のポリシーをさらに改善する可能性を制限する。 これらの問題に対処するため,ORL の新たなデータ拡張手法である \textbf{HI}gh-quality \textbf{PO}licy-\textbf{DE} Coupled~(HIPODE)を提案する。 一方、HIPODEは、負のサンプリング手法を用いて、候補状態間で潜在的に高い値のデータセット分布近傍の状態を選択することによって、高品質な合成データを生成する。 一方、HIPODEはポリシ分離されているため、ダウンストリームORLプロセスの共通プラグインメソッドとして使用できる。 我々は、広く研究されているTD3BCおよびCQLアルゴリズムの実験を行い、その結果、HIPODEは、D4RLベンチマーク上で、最先端のポリシー分離データ拡張法および最も一般的なモデルベースORL法よりも優れていることを示した。

Offline reinforcement learning (ORL) has gained attention as a means of training reinforcement learning models using pre-collected static data. To address the issue of limited data and improve downstream ORL performance, recent work has attempted to expand the dataset's coverage through data augmentation. However, most of these methods are tied to a specific policy (policy-dependent), where the generated data can only guarantee to support the current downstream ORL policy, limiting its usage scope on other downstream policies. Moreover, the quality of synthetic data is often not well-controlled, which limits the potential for further improving the downstream policy. To tackle these issues, we propose \textbf{HI}gh-quality \textbf{PO}licy-\textbf{DE}coupled~(HIPODE), a novel data augmentation method for ORL. On the one hand, HIPODE generates high-quality synthetic data by selecting states near the dataset distribution with potentially high value among candidate states using the negative sampling technique. On the other hand, HIPODE is policy-decoupled, thus can be used as a common plug-in method for any downstream ORL process. We conduct experiments on the widely studied TD3BC and CQL algorithms, and the results show that HIPODE outperforms the state-of-the-art policy-decoupled data augmentation method and most prevalent model-based ORL methods on D4RL benchmarks.
翻訳日:2023-06-13 19:44:39 公開日:2023-06-10
# 遅い磁場変動によるDLCZ量子ネットワーク上の単一励起絡み合いのデコヒーレンスと保護アプローチ

Decoherence of Single-Excitation Entanglement over DLCZ Quantum Networks Caused by Slow-Magnetic-Field Fluctuations and Protection Approach ( http://arxiv.org/abs/2306.06328v1 )

ライセンス: Link先を確認
Can Sun, Ya Li, Yi-bo Hou, Min-jie Wang, Shu-jing Li, Hai Wang(参考訳) 原子スピン波(sw)メモリは量子リピータの構成要素である。 しかし、原子運動と磁場勾配によるデコヒーレンスにより、SW回収効率は貯蔵時間とともに低下する。 SMFF(slow magnetic-field fluctuations)はSWのショット・ツー・ショット位相ノイズを引き起こすが、以前のリピータプロトコルでは考慮されていない。 本稿では,SMFFによる均一位相雑音を含むSWモデルを開発し,その位相雑音がリレーダリンクにおける2つの原子アンサンブル間の単一励起エンタングルのデコヒーレンスを引き起こすことを示す。 この結論を検証するため,冷原子アンサンブル中の2つのSW間の単一励起アンタングルを実験的に作成し,SMFFによる絡み合いデコヒーレンスを観察した。 SMFFによって制限され、リピータリンク上の単一励起エンタングルメントの寿命は、たとえリンクが光格子原子をノードとして使っているとしても、およそ135msである。 次に、このような制限を克服するアプローチを示し、この寿命を ~1.7 s まで延長する。

Atomic spin-wave (SW) memory is a building block for quantum repeater. However, due to decoherence caused by atomic motions and magnetic-field gradients, SW retrieval efficiency decays with storage time. Slow magnetic-field fluctuations (SMFFs) lead to shot-to-shot phase noises of SWs, but have not been considered in previous repeater protocols. Here, we develop a SW model including a homogeneous phase noise caused by SMFFs, and then reveal that such phase noise induces decoherence of single-excitation entanglement between two atomic ensembles in a repeater link. For verify this conclusion, we experimentally prepare single-excitation entanglement between two SWs in a cold atomic ensemble and observe entanglement decoherence induced by SMFFs. Limited by SMFFs, the evaluated lifetime of the single-excitation entanglement over a repeater link is ~135 ms, even if the link uses optical-lattice atoms as nodes. We then present an approach that may overcome such limitation and extend this lifetime to ~1.7 s.
翻訳日:2023-06-13 19:44:11 公開日:2023-06-10
# 任意の次元同変ニューラルネットワーク

Any-dimensional equivariant neural networks ( http://arxiv.org/abs/2306.06327v1 )

ライセンス: Link先を確認
Eitan Levin and Mateo D\'iaz(参考訳) 従来の教師付き学習は、関数を固定次元の入出力ペアに適合させることで未知のマッピングを学ぶことを目的としている。 適合関数は、同じ次元の入力に対して定義される。 しかし、多くの設定において、未知のマッピングは任意の次元の入力を取る;例えば、任意の大きさのグラフ上で定義されるグラフパラメータや、任意の数の粒子で定義される物理量を含む。 我々は、代数トポロジで新たに発見された現象である表現安定性を利用して、任意の次元でデータでトレーニングし、任意の次元で入力を受け入れるよう拡張できる同変ニューラルネットワークを定義する。 このアプローチはユーザフレンドリーであり,ネットワークアーキテクチャとグループのみを等価に要求し,任意のトレーニング手順と組み合わせることが可能である。 本手法の簡単なオープンソース実装と予備的な数値実験を提供する。

Traditional supervised learning aims to learn an unknown mapping by fitting a function to a set of input-output pairs with a fixed dimension. The fitted function is then defined on inputs of the same dimension. However, in many settings, the unknown mapping takes inputs in any dimension; examples include graph parameters defined on graphs of any size and physics quantities defined on an arbitrary number of particles. We leverage a newly-discovered phenomenon in algebraic topology, called representation stability, to define equivariant neural networks that can be trained with data in a fixed dimension and then extended to accept inputs in any dimension. Our approach is user-friendly, requiring only the network architecture and the groups for equivariance, and can be combined with any training procedure. We provide a simple open-source implementation of our methods and offer preliminary numerical experiments.
翻訳日:2023-06-13 19:43:48 公開日:2023-06-10
# 偽物による機械学習決定の医師への説明

Explaining a machine learning decision to physicians via counterfactuals ( http://arxiv.org/abs/2306.06325v1 )

ライセンス: Link先を確認
Supriya Nagesh, Nina Mishra, Yonatan Naamad, James M. Rehg, Mehul A. Shah, Alexei Wagner(参考訳) 機械学習モデルは、いくつかの医療タスクでうまく機能し、医療システムの負担を軽減するのに役立つ。 しかし、説明責任の欠如は、病院における導入の大きな障害となっている。 mlモデルの決定を医師に説明するには、どうすればよいのか? } 本論文で考慮された説明は, 反事実 (CF) であり, その逆の結果となる仮説的シナリオである。 具体的には、医師の会話の仕方や「血圧が下がったら血管圧薬を患者に与える」という判断に触発されて、時系列CFを調査した。 臨床環境で特に有意義なCFの主な性質は、生理的妥当性、課題への関連性、スパース摂動である。 cf生成に関する過去の仕事はこれらの特性を満たしていない、具体的には、現実的な時系列cfは生成されない。 これらの特性をキャプチャする変分オートエンコーダ(vae)ベースのアプローチが提案されている。 本手法は, 従来の手法を定量的に改善するCF(Wr.tの原データ分布の確率で評価し, 100$\times$ CFの生成速度で評価し, 定性的に(2$\times$ より可塑性で関連性の高いCF)を生成する。

Machine learning models perform well on several healthcare tasks and can help reduce the burden on the healthcare system. However, the lack of explainability is a major roadblock to their adoption in hospitals. \textit{How can the decision of an ML model be explained to a physician?} The explanations considered in this paper are counterfactuals (CFs), hypothetical scenarios that would have resulted in the opposite outcome. Specifically, time-series CFs are investigated, inspired by the way physicians converse and reason out decisions `I would have given the patient a vasopressor if their blood pressure was lower and falling'. Key properties of CFs that are particularly meaningful in clinical settings are outlined: physiological plausibility, relevance to the task and sparse perturbations. Past work on CF generation does not satisfy these properties, specifically plausibility in that realistic time-series CFs are not generated. A variational autoencoder (VAE)-based approach is proposed that captures these desired properties. The method produces CFs that improve on prior approaches quantitatively (more plausible CFs as evaluated by their likelihood w.r.t original data distribution, and 100$\times$ faster at generating CFs) and qualitatively (2$\times$ more plausible and relevant) as evaluated by three physicians.
翻訳日:2023-06-13 19:43:35 公開日:2023-06-10
# 連合パラダイムにおける微分プライベートスライス逆回帰

Differentially private sliced inverse regression in the federated paradigm ( http://arxiv.org/abs/2306.06324v1 )

ライセンス: Link先を確認
Shuaida He, Jiarui Zhang, Xin Chen(参考訳) 我々は分散化データの課題に対処し、プライバシと通信効率を優先するために、有名なスライスされた逆回帰を拡張する。 フェデレートされたスライス逆回帰 (FSIR) は、複数のクライアント間で十分な次元削減部分空間を協調的に推定し、感度の高いデータセットを露出から保護するためにのみ局所的な推定を共有する。 FSIRは、潜在的な敵攻撃を防ぐために、統計精度の低いコストで差分プライバシーを保証する新しい多変量ガウス機構を含む様々な摂動戦略を採用する。 さらにFSIRは、協調的な変数スクリーニングのステップを自然に組み込んで、高次元のクライアントデータの効果的な処理を可能にする。 FSIRの理論的特性は低次元と高次元の両方で確立されており、広範な数値実験と実データ解析によって支えられている。

We extend the celebrated sliced inverse regression to address the challenges of decentralized data, prioritizing privacy and communication efficiency. Our approach, federated sliced inverse regression (FSIR), facilitates collaborative estimation of the sufficient dimension reduction subspace among multiple clients, solely sharing local estimates to protect sensitive datasets from exposure. To guard against potential adversary attacks, FSIR further employs diverse perturbation strategies, including a novel multivariate Gaussian mechanism that guarantees differential privacy at a low cost of statistical accuracy. Additionally, FSIR naturally incorporates a collaborative variable screening step, enabling effective handling of high-dimensional client data. Theoretical properties of FSIR are established for both low-dimensional and high-dimensional settings, supported by extensive numerical experiments and real data analysis.
翻訳日:2023-06-13 19:43:09 公開日:2023-06-10
# 多層発電機のための学習ジョイント潜在空間ebm事前モデル

Learning Joint Latent Space EBM Prior Model for Multi-layer Generator ( http://arxiv.org/abs/2306.06323v1 )

ライセンス: Link先を確認
Jiali Cui, Ying Nian Wu, Tian Han(参考訳) 本稿では,多層発電機モデル学習の基本問題について述べる。 多層ジェネレータモデルは、ジェネレータの上に先行モデルとして潜伏変数の複数のレイヤを構築し、複雑なデータ分散と階層表現の学習に役立ちます。 しかし、そのような事前モデルは通常、モデル表現性に制限のある非インフォーマティブ(条件付き)ガウス分布を仮定することで、潜在変数間の層間関係のモデル化に焦点を当てている。 この問題に対処し、より表現力のある先行モデルを学ぶために、多層ジェネレータをバックボーンとする潜在変数のすべての層にまたがるジョイント潜在空間上のエネルギーベースモデル(EBM)を提案する。 このようなジョイント潜時空間ebm事前モデルは、層毎のエネルギー項を通じて各層における層内コンテキスト関係をキャプチャし、異なる層間の潜時変数を共同で補正する。 そこで本研究では, マルコフ連鎖モンテカルロ (mcmc) による各層からの潜在変数の事前分布と後方分布をサンプリングするmle (maximum likelihood estimation) による共同学習法を開発した。 さらに,効率的な推論と学習を実現するために,コストのかかる後方mcmcサンプリングの償却に推論モデルを用いる変分訓練方式を提案する。 実験では,学習モデルが高品質な画像の生成と階層的特徴のキャプチャによって,より優れた異常検出を実現することを実証した。

This paper studies the fundamental problem of learning multi-layer generator models. The multi-layer generator model builds multiple layers of latent variables as a prior model on top of the generator, which benefits learning complex data distribution and hierarchical representations. However, such a prior model usually focuses on modeling inter-layer relations between latent variables by assuming non-informative (conditional) Gaussian distributions, which can be limited in model expressivity. To tackle this issue and learn more expressive prior models, we propose an energy-based model (EBM) on the joint latent space over all layers of latent variables with the multi-layer generator as its backbone. Such joint latent space EBM prior model captures the intra-layer contextual relations at each layer through layer-wise energy terms, and latent variables across different layers are jointly corrected. We develop a joint training scheme via maximum likelihood estimation (MLE), which involves Markov Chain Monte Carlo (MCMC) sampling for both prior and posterior distributions of the latent variables from different layers. To ensure efficient inference and learning, we further propose a variational training scheme where an inference model is used to amortize the costly posterior MCMC sampling. Our experiments demonstrate that the learned model can be expressive in generating high-quality images and capturing hierarchical features for better outlier detection.
翻訳日:2023-06-13 19:42:52 公開日:2023-06-10
# 感性分析のためのアラビアマルチモーダルデータセットを目指して

Towards Arabic Multimodal Dataset for Sentiment Analysis ( http://arxiv.org/abs/2306.06322v1 )

ライセンス: Link先を確認
Abdelhamid Haouhat, Slimane Bellaouar, Attia Nehar, Hadda Cherroun(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は近年,多くの実世界のアプリケーションにおいて中心的な研究方向となっている。 この拡大は、意見がほとんどすべての人間の活動の中心であり、私たちの行動に影響を与えているという事実によるものです。 さらに、近年のDeep Learning-based (DL)モデルの展開は、広範囲の西洋言語で高い効率性を示している。 対照的に、アラビア語 DL に基づくマルチモーダル感情分析(MSA)は、主に標準データセットの欠如により、まだ幼児期にある。 本稿では,本研究を2つにまとめる。 まず、現在最先端のトランスフォーマーと、単語アライメント手法における特徴抽出ツールの両方を活用するアラビアマルチモーダルデータセット構築を支援するパイプラインを設計する。 その後、マルチモーダリティを扱う最先端のトランスフォーマティモデルを用いてデータセットを検証する。 結果データセットのサイズは小さいが、実験によればアラビア語のマルチモダリティは非常に有望である

Multimodal Sentiment Analysis (MSA) has recently become a centric research direction for many real-world applications. This proliferation is due to the fact that opinions are central to almost all human activities and are key influencers of our behaviors. In addition, the recent deployment of Deep Learning-based (DL) models has proven their high efficiency for a wide range of Western languages. In contrast, Arabic DL-based multimodal sentiment analysis (MSA) is still in its infantile stage due, mainly, to the lack of standard datasets. In this paper, our investigation is twofold. First, we design a pipeline that helps building our Arabic Multimodal dataset leveraging both state-of-the-art transformers and feature extraction tools within word alignment techniques. Thereafter, we validate our dataset using state-of-the-art transformer-based model dealing with multimodality. Despite the small size of the outcome dataset, experiments show that Arabic multimodality is very promising
翻訳日:2023-06-13 19:42:10 公開日:2023-06-10
# EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応

EventCLIP: Adapting CLIP for Event-based Object Recognition ( http://arxiv.org/abs/2306.06354v1 )

ライセンス: Link先を確認
Ziyi Wu, Xudong Liu, Igor Gilitschenski(参考訳) 近年の2次元ゼロショットと少数ショット認識の進歩は、CLIPのような大規模な訓練済み視覚言語モデル(VLM)を利用することが多い。 適切なデータセットが不足しているため、イベントカメラデータのためにそのようなモデルをトレーニングすることは不可能である。 したがって、モダリティにまたがる既存のモデルを活用することは重要な研究課題である。 本研究では,イベントカメラデータに対するゼロショット認識と少数ショット認識にCLIPを利用する新しい手法であるEventCLIPを提案する。 まず,rawイベントを2dグリッドベース表現に変換することで,ゼロショットイベント分類のためのクリップ画像埋め込みの適合性を示す。 第2に,イベントフレーム上で時間情報を集約し,テキスト埋め込みを洗練し,視覚的入力との整合性を向上させる機能アダプタを提案する。 我々は,N-Caltech,N-Cars,N-ImageNetのデータセットを,EventCLIPが最先端のパフォーマンスを達成する数ショットの学習環境下で評価した。 最後に,データ変動に対する既存のイベントベース分類器の堅牢性は,EventCLIPを組み込むことでさらに向上できることを示す。

Recent advances in 2D zero-shot and few-shot recognition often leverage large pre-trained vision-language models (VLMs) such as CLIP. Due to a shortage of suitable datasets, it is currently infeasible to train such models for event camera data. Thus, leveraging existing models across modalities is an important research challenge. In this work, we propose EventCLIP, a new method that utilizes CLIP for zero-shot and few-shot recognition on event camera data. First, we demonstrate the suitability of CLIP's image embeddings for zero-shot event classification by converting raw events to 2D grid-based representations. Second, we propose a feature adapter that aggregates temporal information over event frames and refines text embeddings to better align with the visual inputs. We evaluate our work on N-Caltech, N-Cars, and N-ImageNet datasets under the few-shot learning setting, where EventCLIP achieves state-of-the-art performance. Finally, we show that the robustness of existing event-based classifiers against data variations can be further boosted by ensembling with EventCLIP.
翻訳日:2023-06-13 19:35:31 公開日:2023-06-10
# 事前訓練言語モデルによる非自己回帰翻訳品質の向上, 蒸留とCTCのアップサンプリング戦略

Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC ( http://arxiv.org/abs/2306.06345v1 )

ライセンス: Link先を確認
Shen-sian Syu, Juncheng Xie, Hung-yi Lee(参考訳) 非自己回帰的アプローチは、翻訳モデルの推論速度、特に1パスフォワードで出力を生成するものを改善することを目的としている。 しかし、これらのアプローチは、しばしば自己回帰モデルと比較して翻訳品質が大幅に低下する。 本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるために,推論速度の大幅な高速化を維持しつつ,一連の革新的な技術を紹介する。 我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。 さらに,トークン複製の代わりにMASK挿入方式を採用し,さらなる性能向上を目的とした埋込み蒸留法を提案する。 我々の実験では、WMT'14 DE$\leftrightarrow$EN、WMT'16 RO$\leftrightarrow$EN、IWSLT'14 DE$\leftrightarrow$ENなど、複数のデータセット上でのベースライン自己回帰モデル(Transformer \textit{base})よりも優れています。 特に、トレーニング中に蒸留データを使用しなくても、IWSLT'14 En$\leftrightarrow$DeおよびWMT'16 En$\leftrightarrow$Roデータセットのベースライン自己回帰モデルよりも優れたパフォーマンスを実現する。 iwslt'14 de$\rightarrow$enデータセットでは、このモデルは39.59という印象的なbleuスコアを達成し、新たな最先端のパフォーマンスを実現しています。 さらに,本モデルは自己回帰モデルと比較して16.35倍の速度向上を示した。

Non-autoregressive approaches aim to improve the inference speed of translation models, particularly those that generate output in a one-pass forward manner. However, these approaches often suffer from a significant drop in translation quality compared to autoregressive models. This paper introduces a series of innovative techniques to enhance the translation quality of Non-Autoregressive Translation (NAT) models while maintaining a substantial acceleration in inference speed. We propose fine-tuning Pretrained Multilingual Language Models (PMLMs) with the CTC loss to train NAT models effectively. Furthermore, we adopt the MASK insertion scheme for up-sampling instead of token duplication, and we present an embedding distillation method to further enhance performance. In our experiments, our model outperforms the baseline autoregressive model (Transformer \textit{base}) on multiple datasets, including WMT'14 DE$\leftrightarrow$EN, WMT'16 RO$\leftrightarrow$EN, and IWSLT'14 DE$\leftrightarrow$EN. Notably, our model achieves better performance than the baseline autoregressive model on the IWSLT'14 En$\leftrightarrow$De and WMT'16 En$\leftrightarrow$Ro datasets, even without using distillation data during training. It is worth highlighting that on the IWSLT'14 DE$\rightarrow$EN dataset, our model achieves an impressive BLEU score of 39.59, setting a new state-of-the-art performance. Additionally, our model exhibits a remarkable speed improvement of 16.35 times compared to the autoregressive model.
翻訳日:2023-06-13 19:35:12 公開日:2023-06-10
# シーンレベル拡散による言語誘導交通シミュレーション

Language-Guided Traffic Simulation via Scene-Level Diffusion ( http://arxiv.org/abs/2306.06344v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Davis Rempe, Yuxiao Chen, Boris Ivanovic, Yulong Cao, Danfei Xu, Marco Pavone, Baishakhi Ray(参考訳) 現実的で制御可能な交通シミュレーションは、自動運転車(AV)の開発を加速するために必要なコア機能である。 しかし、学習ベースのトラフィックモデルを制御するための現在のアプローチでは、かなりの専門知識が必要であり、実践者が使うのは難しい。 そこで本稿では,シーンレベルの条件拡散モデルであるCTG++を提案する。 これを開発するには、現実的で制御可能なトラフィックモデルバックボーンの必要性と、言語を使用してトラフィックモデルと対話する効果的な方法の2つの課題に取り組む必要がある。 これらの課題に対処するために,我々はまず,現実的で制御可能なトラフィックを生成する時空間トランスフォーマーバックボーンを備えたシーンレベルの拡散モデルを提案する。 次に、大きな言語モデル(LLM)を用いて、ユーザのクエリを損失関数に変換し、クエリに準拠した生成に向けて拡散モデルを導く。 提案手法の有効性を総合的に評価し,提案手法の有効性を実証する。

Realistic and controllable traffic simulation is a core capability that is necessary to accelerate autonomous vehicle (AV) development. However, current approaches for controlling learning-based traffic models require significant domain expertise and are difficult for practitioners to use. To remedy this, we present CTG++, a scene-level conditional diffusion model that can be guided by language instructions. Developing this requires tackling two challenges: the need for a realistic and controllable traffic model backbone, and an effective method to interface with a traffic model using language. To address these challenges, we first propose a scene-level diffusion model equipped with a spatio-temporal transformer backbone, which generates realistic and controllable traffic. We then harness a large language model (LLM) to convert a user's query into a loss function, guiding the diffusion model towards query-compliant generation. Through comprehensive evaluation, we demonstrate the effectiveness of our proposed method in generating realistic, query-compliant traffic simulations.
翻訳日:2023-06-13 19:34:42 公開日:2023-06-10
# 分子ハミルトニアンをモジュラーcQEDプロセッサのハミルトニアンにマッピングする

Mapping Molecular Hamiltonians into Hamiltonians of Modular cQED Processors ( http://arxiv.org/abs/2306.06341v1 )

ライセンス: Link先を確認
Ningyi Lyu and Alessandro Miano and Ioannis Tsioutsios and Rodrigo Cortinas and Kenneth Jung and Yuchen Wang and Zixuan Hu and Eitan Geva and Sabre Kais and Victor S. Batista(参考訳) 本稿では,任意のモデル系のハミルトニアンを回路量子電磁力学(cqed)プロセッサのハミルトニアンにマッピングするために,ダイソン・マスレエフ変換の演算子に基づく一般的な手法を提案する。 さらに、マッピングハミルトンに対応するコンポーネントを持つcQEDプロセッサをプログラムするためのモジュラーアプローチを導入する。 この方法は、FMO(Fenna-Matthews-Olson)錯体の量子力学シミュレーションや電荷移動のスピン-ボソンモデルに応用される。 分子ハミルトニアンへの応用を超えて、マッピングはcqedプロセッサにおける単一のボソニックモードの生成と消滅の力に対応するユニタリ変換の列という観点から任意のユニタリ作用素を実装する一般的なアプローチを提供する。

We introduce a general method based on the operators of the Dyson-Masleev transformation to map the Hamiltonian of an arbitrary model system into the Hamiltonian of a circuit Quantum Electrodynamics (cQED) processor. Furthermore, we introduce a modular approach to program a cQED processor with components corresponding to the mapping Hamiltonian. The method is illustrated as applied to quantum dynamics simulations of the Fenna-Matthews-Olson (FMO) complex and the spin-boson model of charge transfer. Beyond applications to molecular Hamiltonians, the mapping provides a general approach to implement any unitary operator in terms of a sequence of unitary transformations corresponding to powers of creation and annihilation operators of a single bosonic mode in a cQED processor.
翻訳日:2023-06-13 19:34:27 公開日:2023-06-10
# ECGBERT:自己監督型表現学習によるECGの隠れ言語理解

ECGBERT: Understanding Hidden Language of ECGs with Self-Supervised Representation Learning ( http://arxiv.org/abs/2306.06340v1 )

ライセンス: Link先を確認
Seokmin Choi, Sajad Mousavi, Phillip Si, Haben G. Yhdego, Fatemeh Khadem, Fatemeh Afghah(参考訳) 医学分野では、現在のECG信号分析アプローチは、大量のラベル付きデータを必要とする特定のタスクのために訓練された教師付きディープニューラルネットワークに依存している。 しかし,本稿では,ECGの基本言語を開放する自己教師型表現学習手法であるECGBERTを紹介する。 モデルの教師なし事前トレーニングにより、十分にラベル付けされた医療データの不足による課題を軽減する。 ECGBERTは自然言語処理と大規模言語モデルの進歩に触発され、様々なECGベースの問題に対して最小限の追加レイヤで微調整することができる。 心房細動不整脈検出,心拍分類,睡眠時無呼吸検出,ユーザ認証の4つのタスクを通じて,多種多様なタスクにおいて,ECGBERTの最先端性を実現する可能性を実証した。

In the medical field, current ECG signal analysis approaches rely on supervised deep neural networks trained for specific tasks that require substantial amounts of labeled data. However, our paper introduces ECGBERT, a self-supervised representation learning approach that unlocks the underlying language of ECGs. By unsupervised pre-training of the model, we mitigate challenges posed by the lack of well-labeled and curated medical data. ECGBERT, inspired by advances in the area of natural language processing and large language models, can be fine-tuned with minimal additional layers for various ECG-based problems. Through four tasks, including Atrial Fibrillation arrhythmia detection, heartbeat classification, sleep apnea detection, and user authentication, we demonstrate ECGBERT's potential to achieve state-of-the-art results on a wide variety of tasks.
翻訳日:2023-06-13 19:34:11 公開日:2023-06-10
# 画像分類の2段階的・相対的説明法

Two-Stage Holistic and Contrastive Explanation of Image Classification ( http://arxiv.org/abs/2306.06339v1 )

ライセンス: Link先を確認
Weiyan Xie, Xiao-Hui Li, Zhi Lin, Leonard K. M. Poon, Caleb Chen Cao, Nevin L. Zhang(参考訳) ディープニューラルネットワーク分類器の出力を説明する必要性が広く認識されている。 従来の手法では出力の1つのクラスを説明するのが一般的だが、複数のクラスにまたがる確率分布である出力全体を説明する。 全体的なアウトプットの説明は、人間のユーザがモデルの1つの側面ではなく、モデル行動の全体的な理解を得るのに役立つ。 また、競合するクラスを区別するために用いられる証拠を調べ、対照的な説明を得ることができる自然な枠組みを提供することもできる。 本稿では,画像分類のための対比的全出力弁別法(cwox)を提案し,定量的指標と対象研究を通して評価する。 CWOXのソースコードはhttps://github.com/vaynexie/CWOXで入手できる。

The need to explain the output of a deep neural network classifier is now widely recognized. While previous methods typically explain a single class in the output, we advocate explaining the whole output, which is a probability distribution over multiple classes. A whole-output explanation can help a human user gain an overall understanding of model behaviour instead of only one aspect of it. It can also provide a natural framework where one can examine the evidence used to discriminate between competing classes, and thereby obtain contrastive explanations. In this paper, we propose a contrastive whole-output explanation (CWOX) method for image classification, and evaluate it using quantitative metrics and through human subject studies. The source code of CWOX is available at https://github.com/vaynexie/CWOX.
翻訳日:2023-06-13 19:33:55 公開日:2023-06-10
# 機械学習によるカテゴリデータセットの欠落値計算

Machine Learning Based Missing Values Imputation in Categorical Datasets ( http://arxiv.org/abs/2306.06338v1 )

ライセンス: Link先を確認
Muhammad Ishaq, Laila iftikhar, Majid Khan, Asfandyar Khan, Arshad Khan(参考訳) 本研究では,分類型データセットにおける欠落値の予測と推定に機械学習アルゴリズムを用いた。 本研究では, 誤り訂正出力符号(ECOC)フレームワークを用いたアンサンブルモデルに着目し, SVM, KNN, MLPモデルを組み合わせたアンサンブル分類器について検討した。 これらのアルゴリズムを,CPUデータセット,甲状腺機能低下データセット,乳癌データセットの3つのデータセットに適用した。 実験の結果、機械学習アルゴリズムは、特定のデータセットや欠落した値パターンに応じて、欠落した値の予測とインプットにおいて、優れたパフォーマンスを実現することができた。 誤り訂正出力符号 (ECOC) を用いたアンサンブルモデルは, 個々のモデルと比較して精度と堅牢性を向上させるのに特に有効であった。 しかし、大量のラベル付きデータの必要性や過剰フィッティングの可能性など、値インプテーションの欠如に対してディープラーニングを使用する上での課題や制限もある。 さらに, 深層学習アルゴリズムの有効性と効率性を評価するとともに, 起こりうる課題や限界に対処するための戦略を開発する必要がある。

This study explored the use of machine learning algorithms for predicting and imputing missing values in categorical datasets. We focused on ensemble models that use the error correction output codes (ECOC) framework, including SVM-based and KNN-based ensemble models, as well as an ensemble classifier that combines SVM, KNN, and MLP models. We applied these algorithms to three datasets: the CPU dataset, the hypothyroid dataset, and the Breast Cancer dataset. Our experiments showed that the machine learning algorithms were able to achieve good performance in predicting and imputing the missing values, with some variations depending on the specific dataset and missing value pattern. The ensemble models using the error correction output codes (ECOC) framework were particularly effective in improving the accuracy and robustness of the predictions, compared to individual models. However, there are also challenges and limitations to using deep learning for missing value imputation, including the need for large amounts of labeled data and the potential for overfitting. Further research is needed to evaluate the effectiveness and efficiency of deep learning algorithms for missing value imputation and to develop strategies for addressing the challenges and limitations that may arise.
翻訳日:2023-06-13 19:33:42 公開日:2023-06-10
# 量子プラズモニックレジームにおけるTMDCヘテロビ層における励起子ダイナミクス

Tailoring Exciton Dynamics in TMDC Heterobilayers in the Quantum Plasmonic Regime ( http://arxiv.org/abs/2306.06337v1 )

ライセンス: Link先を確認
Mahfujur Rahaman, Gwangwoo Kim, Kyung Yeol Ma, Seunguk Song, Hyeon Suk Shin, and Deep Jariwala(参考訳) 遷移金属ジアルコゲナイド(TMDC)およびそれらのヘテロ構造における励起子の制御は、光-物質相互作用を調整し、高効率光電子・非線形フォトニックデバイスにおけるそれらの潜在的な応用を探索するために根本的に興味深い。 TMDCの層内および層間エキシトンはともに研究されているが、TMDCまたはそのヘテロ構造が光的に励起され、同時にトンネル接合バリアとして機能する量子トンネル系におけるそれらの挙動は未解明のままである。 そこで, 原子間力顕微鏡における金属プローブの自由度を用いて, 微調整されたサブナノメータ先端試料キャビティ内の局所制御接合電流を介してtmdcヘテロ二層中の層内および層間励起子のダイナミクスを調べた。 両e-h対の双極子の配向の相違により, 層内および層間励起子の励起子-量子プラズモン結合が著しく異なることが明らかとなった。 定常速度方程式を適合させて,接合電流の有無に関わらず,励起子の磁場勾配,放射緩和および非放射緩和率を抽出した。 その結果, プルセル効果により, 層内励起子の先端誘導放射(非放射)緩和が量子トンネル理論において支配的になることがわかった。 これらの知見は, 強結合系における励起材料の近接場探索に重要な意味を持つ。

Control of excitons in transition metal dichalcogenides (TMDCs) and their heterostructures is fundamentally interesting for tailoring light-matter interactions and exploring their potential applications in high-efficiency optoelectronic and nonlinear photonic devices. While both intra- and interlayer excitons in TMDCs have been heavily studied, their behavior in the quantum tunneling regime, in which the TMDC or its heterostructure is optically excited and concurrently serves as a tunnel junction barrier, remains unexplored. Here, using the degree of freedom of a metallic probe in an atomic force microscope, we investigated both intralayer and interlayer excitons dynamics in TMDC heterobilayers via locally controlled junction current in a finely tuned sub-nanometer tip-sample cavity. Our tip-enhanced photoluminescence measurements reveal a significantly different exciton-quantum plasmon coupling for intralayer and interlayer excitons due to different orientation of the dipoles of the respective e-h pairs. Using a steady-state rate equation fit, we extracted field gradients, radiative and nonradiative relaxation rates for excitons in the quantum tunneling regime with and without junction current. Our results show that tip-induced radiative (nonradiative) relaxation of intralayer (interlayer) excitons becomes dominant in the quantum tunneling regime due to the Purcell effect. These findings have important implications for near-field probing of excitonic materials in the strong-coupling regime.
翻訳日:2023-06-13 19:33:19 公開日:2023-06-10
# 3分間のデータから学習と一般化:物理制約と不確実性を考慮したニューラル確率微分方程式

How to Learn and Generalize From Three Minutes of Data: Physics-Constrained and Uncertainty-Aware Neural Stochastic Differential Equations ( http://arxiv.org/abs/2306.06335v1 )

ライセンス: Link先を確認
Franck Djeumou and Cyrus Neary and Ufuk Topcu(参考訳) 本稿では、ニューラルネットワークによってドリフト項と拡散項がパラメータ化されるSDEを用いて、制御力学モデルを学ぶためのフレームワークとアルゴリズムを提案する。 我々は,事前の物理学知識を帰納的バイアスとして活用するためにドリフト項を構築し,学習モデルの予測の不確実性に対する距離認識推定を表す拡散項を設計した。 提案するニューラルsdesはモデル予測制御アルゴリズムで使用するのに十分な速さで評価できるし、モデルに基づく強化学習のシミュレータとして使うことができる。 さらに、状態空間の限られた領域をカバーする小さなデータセットでトレーニングされた場合でも、長時間の地平線を越えて正確な予測を行う。 手動で収集した3分間の飛行データを用いてトレーニングされたニューラルSDEは、ヘキサコプターの速度とオイラー角を正確に追跡し、トレーニングデータセットで観測された最大値のほぼ2倍の速度で、攻撃的な軌道を正確に追跡するモデルベースの制御ポリシーを実行します。

We present a framework and algorithms to learn controlled dynamics models using neural stochastic differential equations (SDEs) -- SDEs whose drift and diffusion terms are both parametrized by neural networks. We construct the drift term to leverage a priori physics knowledge as inductive bias, and we design the diffusion term to represent a distance-aware estimate of the uncertainty in the learned model's predictions -- it matches the system's underlying stochasticity when evaluated on states near those from the training dataset, and it predicts highly stochastic dynamics when evaluated on states beyond the training regime. The proposed neural SDEs can be evaluated quickly enough for use in model predictive control algorithms, or they can be used as simulators for model-based reinforcement learning. Furthermore, they make accurate predictions over long time horizons, even when trained on small datasets that cover limited regions of the state space. We demonstrate these capabilities through experiments on simulated robotic systems, as well as by using them to model and control a hexacopter's flight dynamics: A neural SDE trained using only three minutes of manually collected flight data results in a model-based control policy that accurately tracks aggressive trajectories that push the hexacopter's velocity and Euler angles to nearly double the maximum values observed in the training dataset.
翻訳日:2023-06-13 19:32:53 公開日:2023-06-10
# 2つの荷電場の散逸相互作用から生じる漸近的絡み合い状態

Asymptotic entangled states from the dissipative interaction of two charged fields ( http://arxiv.org/abs/2306.06332v1 )

ライセンス: Link先を確認
R. Cartas-Fuentevilla, O. Cruz-Lim\'on, C. Ram\'irez-Romero(参考訳) 熱場理論の散逸系の有効二重化場定式化を自然に再現する超複素環形式論を用いて散逸系に対する場理論を構築する。 システムは、システムのユニタリ性を保存する非正準アンサッツによって量子化される。 漸近的に絡み合った状態は、絡み合うシステムのエルゴード性の研究を導入するために構築される。

We construct a field theory for dissipative systems using a hypercomplex ring formalism that reproduces naturally the effective doubling field formulation of dissipative systems of thermal field theory. The system is quantized by a noncanonical ansatz that gives the unitarity of the system is conserved. Asymptotically entangled states are constructed to introduce the study of the ergodicity of systems that undergo entanglement.
翻訳日:2023-06-13 19:32:27 公開日:2023-06-10
# 静寂を喜ぶ:静寂遷移を伴う確率ペトリネットの解析

Enjoy the Silence: Analysis of Stochastic Petri Nets with Silent Transitions ( http://arxiv.org/abs/2306.06376v1 )

ライセンス: Link先を確認
Sander J. J. Leemans, Fabrizio M. Maggi, Marco Montali(参考訳) ビジネスや業務プロセスにおける確率的行動の獲得は、プロセス内で意思決定を行う際に非決定性がどのように解決されるかを定量的に理解するために不可欠である。 これはプロセスマイニングに特に関心があり、プロセスの実際の実行を追跡するイベントデータがプロセスモデルと関連付けられ、周波数と確率に関する洞察を提供する。 確率的ペトリネットの変種は、これに対する自然な形式的基礎を提供する。 しかし、プロセスをキャプチャする際、そのようなネットは(おそらく重複した)アクティビティとラベル付けされ、プロセスのオーケストレーションに関連する内部の非ログインステップをモデル化するサイレントトランジションを備える必要がある。 同時に、それらは有限トレースセマンティクスで分析されなければならず、各プロセスの実行は有限個のステップで構成されるという事実に一致する。 これらの2つの側面は、確率論的ペトリネットの既存の技法の直接的な適用を妨げ、ラベルとサイレント遷移を有限トレースのセマンティクスに組み込む新しい特徴を求める。 本稿では,一般化された確率的ペトリネットから始まり,ラベル付き確率過程(lsps)の枠組みを得る。 本フレームワークでは,LSPの痕跡とその確率について,様々な重要な解析タスクを導入する。 これらの分析タスクはすべて解析的に解決可能であり、特に、lsp内の関心の振る舞いを単一にするためにオートマトンベースのテクニックと、マルコフ連鎖を吸収してその確率を推論するテクニックを組み合わせた単一のメソッドに還元できることが示されている。 最後に、概念実証による実用性を示す確率的コンフォーマンスチェックの文脈における我々のアプローチの意義と、その異なるデータセットへの応用を実証する。

Capturing stochastic behaviors in business and work processes is essential to quantitatively understand how nondeterminism is resolved when taking decisions within the process. This is of special interest in process mining, where event data tracking the actual execution of the process are related to process models, and can then provide insights on frequencies and probabilities. Variants of stochastic Petri nets provide a natural formal basis for this. However, when capturing processes, such nets need to be labelled with (possibly duplicated) activities, and equipped with silent transitions that model internal, non-logged steps related to the orchestration of the process. At the same time, they have to be analyzed in a finite-trace semantics, matching the fact that each process execution consists of finitely many steps. These two aspects impede the direct application of existing techniques for stochastic Petri nets, calling for a novel characterization that incorporates labels and silent transitions in a finite-trace semantics. In this article, we provide such a characterization starting from generalized stochastic Petri nets and obtaining the framework of labelled stochastic processes (LSPs). On top of this framework, we introduce different key analysis tasks on the traces of LSPs and their probabilities. We show that all such analysis tasks can be solved analytically, in particular reducing them to a single method that combines automata-based techniques to single out the behaviors of interest within a LSP, with techniques based on absorbing Markov chains to reason on their probabilities. Finally, we demonstrate the significance of how our approach in the context of stochastic conformance checking, illustrating practical feasibility through a proof-of-concept implementation and its application to different datasets.
翻訳日:2023-06-13 19:25:11 公開日:2023-06-10
# 分散オンライン学習のための最適勾配追跡

Optimized Gradient Tracking for Decentralized Online Learning ( http://arxiv.org/abs/2306.06375v1 )

ライセンス: Link先を確認
Shivangi Dubey Sharma (1) and Ketan Rajawat (1), ((1) Indian Institute of Technology Kanpur)(参考訳) 本研究は,ネットワーク内の複数のノードに分散した時間変化関数の総和を最適に追跡することを目的とした分散オンライン学習の課題を考察する。 関数とその勾配の局所的な可用性は、ノード間の協調とコンセンサスを必要とする。 我々は,最先端のアプローチを含む既存のアプローチを統一する一般化勾配追跡(ggt)フレームワークを発表した。 提案したGGTアルゴリズムの性能は、非常に一般的な条件下で、勾配境界性仮定を必要とせず、所望の後悔境界が得られるような、新しい半定プログラムベース解析を用いて理論的に解析される。 結果は、様々な最先端のアルゴリズムと、様々な古典的な分散アルゴリズムの新しい動的バージョンを含むGGTの特殊なケースに適用できる。 さらに後悔を最小限に抑えるため、GGTの縮合版は4つの自由パラメータしか持たないと考える。 問題パラメータのみを用いたパラメータのオフラインチューニング手順についても詳述する。 その結果、最適化されたggt(oggt)アルゴリズムは、改善された動的後悔境界を達成するだけでなく、合成データと実世界のデータセットの両方で最先端のアルゴリズムを上回る。

This work considers the problem of decentralized online learning, where the goal is to track the optimum of the sum of time-varying functions, distributed across several nodes in a network. The local availability of the functions and their gradients necessitates coordination and consensus among the nodes. We put forth the Generalized Gradient Tracking (GGT) framework that unifies a number of existing approaches, including the state-of-the-art ones. The performance of the proposed GGT algorithm is theoretically analyzed using a novel semidefinite programming-based analysis that yields the desired regret bounds under very general conditions and without requiring the gradient boundedness assumption. The results are applicable to the special cases of GGT, which include various state-of-the-art algorithms as well as new dynamic versions of various classical decentralized algorithms. To further minimize the regret, we consider a condensed version of GGT with only four free parameters. A procedure for offline tuning of these parameters using only the problem parameters is also detailed. The resulting optimized GGT (oGGT) algorithm not only achieves improved dynamic regret bounds, but also outperforms all state-of-the-art algorithms on both synthetic and real-world datasets.
翻訳日:2023-06-13 19:24:42 公開日:2023-06-10
# 半無限導波路で閉じた2原子ネットワークの量子フィードバック制御

Quantum feedback control of a two-atom network closed by a semi-infinite waveguide ( http://arxiv.org/abs/2306.06373v1 )

ライセンス: Link先を確認
Haijin Ding, Guofeng Zhang, Mu-Tian Cheng, Guoqing Cai(参考訳) 本研究の目的は、2つの2レベル原子が半無限導波路と結合するコヒーレントフィードバックネットワークのダイナミクスを研究することである。 このセットアップでは、2レベル原子が光子源として機能し、光子が導波路内の原子と異なる方向伝播モードとの結合強度が同一であるか否かに応じて、原子と導波路の間の非キラル結合またはキラル結合を介して導波路に放出される。 2つの原子のうちの1つから放出される光子は、終端ミラーで反射するか、他の原子と相互作用し、光子は元の原子と再相互作用することができる。 2つの原子が最初に励起されると、2光子、1光子またはゼロ光子状態が自発的放出とフィードバック相互作用を介して導波路に存在し、これは原子の位置と原子と導波路の間の結合のキラリティーに影響される。 同様に、2つの原子のうち1つだけが初期励起の場合、導波路にゼロまたは1つの光子が存在する。 したがって、フィードバックループの長さと原子と導波路の間のキラル結合をチューニングすることにより、導波路と原子状態における光子数を制御できる。 導波路内のフォトニック状態は周波数領域と空間領域で解析され、この2つの領域の包括的解析に基づいて光子放出の過渡過程をよりよく理解することができる。

The purpose of this paper is to study the dynamics of a coherent feedback network where two two-level atoms are coupled with a semi-infinite waveguide. In this set-up, the two-level atoms can work as the photon source, and the photons can be emitted into the waveguide via the nonchiral or chiral couplings between the atom and the waveguide, according to whether the coupling strengths between the atoms and different directional propagating modes in the waveguide are identical or not. For the photon emitted by one of the two atoms, it can be reflected by the terminal mirror, or interact with the other atom, and then the photon can re-interact with the former atom. When the two atoms are both initially excited, finally there can be two-photon, one-photon or zero-photon states in the waveguide via the spontaneous emission and feedback interactions, and this is influenced by the locations of the atoms and the chirality of the coupling between the atom and the waveguide. Similarly, if only one of the two atoms is initially excited, there can be zero or one photon in the waveguide. Thus we can control the number of the photons in the waveguide and the atomic states by tuning the feedback loop length and the chiral couplings between the atom and waveguide. The photonic state in the waveguide is analyzed in the frequency domain and the spatial domain, and the transient process of photon emissions can be better understood based on the comprehensive analysis in these two domains.
翻訳日:2023-06-13 19:24:22 公開日:2023-06-10
# 自然言語テキストからのjavaコード生成のための最先端手法の包括的レビュー

A Comprehensive Review of State-of-The-Art Methods for Java Code Generation from Natural Language Text ( http://arxiv.org/abs/2306.06371v1 )

ライセンス: Link先を確認
Jessica L\'opez Espejel, Mahaman Sanoussi Yahaya Alassan, El Mehdi Chouham, Walid Dahhane, El Hassane Ettifouri(参考訳) Javaコード生成は、自然言語テキストから自動的にJavaコードを生成することで構成される。 このNLPタスクは、最も単純で反復的なタスクに対する即時解決策を提供することで、プログラマの生産性を高めるのに役立つ。 コード生成は、難しい構文規則とプログラミング言語の意味的な側面を深く理解する必要があるため、困難な作業である。 多くの研究がRNNベースのモデルやTransformerベースのモデルを使ってこの問題に取り組みました。 後者はドメインの大幅な進歩を達成し、(1)エンコーダのみのモデル、(2)デコーダのみのモデル、(3)エンコーダ-デコーダモデルという3つのグループに分けられる。 本稿では、javaコード生成タスクにおけるディープラーニングモデルの進化と進歩について、包括的なレビューを行う。 我々は,最も重要な手法に焦点を合わせ,そのメリットと限界,およびコミュニティが使用する目的的機能を示す。 さらに,文献で使用されるデータセットと評価指標について,詳細な説明を行う。 最後に,CONCODEデータセット上で異なるモデルの結果について議論し,今後の方向性を提案する。

Java Code Generation consists in generating automatically Java code from a Natural Language Text. This NLP task helps in increasing programmers' productivity by providing them with immediate solutions to the simplest and most repetitive tasks. Code generation is a challenging task because of the hard syntactic rules and the necessity of a deep understanding of the semantic aspect of the programming language. Many works tried to tackle this task using either RNN-based, or Transformer-based models. The latter achieved remarkable advancement in the domain and they can be divided into three groups: (1) encoder-only models, (2) decoder-only models, and (3) encoder-decoder models. In this paper, we provide a comprehensive review of the evolution and progress of deep learning models in Java code generation task. We focus on the most important methods and present their merits and limitations, as well as the objective functions used by the community. In addition, we provide a detailed description of datasets and evaluation metrics used in the literature. Finally, we discuss results of different models on CONCODE dataset, then propose some future directions.
翻訳日:2023-06-13 19:23:53 公開日:2023-06-10
# AutoSAM: Prompt EncoderをオーバーロードしてSAMを医療画像に適用する

AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt Encoder ( http://arxiv.org/abs/2306.06370v1 )

ライセンス: Link先を確認
Tal Shaharabany, Aviad Dahan, Raja Giryes and Lior Wolf(参考訳) 最近導入されたSegment Anything Model (SAM)は、巧妙なアーキテクチャと大量のトレーニングデータを組み合わせて、素晴らしい画像セグメンテーション機能を得る。 しかし,医療画像などのOFドメインに対して,そのような結果の再現に失敗する。 さらに、SAMはマスクまたは一組の点に条件付けされているが、完全な自動解を持つことが望ましい。 本研究では,SAMの条件付けを同一の入力画像で動作するエンコーダに置き換える。 このエンコーダを追加してSAMをさらに微調整することなく、複数の医用画像およびビデオベンチマークで最先端の結果を得る。 この新しいエンコーダは、凍ったSAMによって提供される勾配によって訓練される。 その中の知識を検査し、軽量なセグメンテーションソリューションを提供するには、浅いデコンボリューションネットワークによってマスクにデコードすることを学びます。

The recently introduced Segment Anything Model (SAM) combines a clever architecture and large quantities of training data to obtain remarkable image segmentation capabilities. However, it fails to reproduce such results for Out-Of-Distribution (OOD) domains such as medical images. Moreover, while SAM is conditioned on either a mask or a set of points, it may be desirable to have a fully automatic solution. In this work, we replace SAM's conditioning with an encoder that operates on the same input image. By adding this encoder and without further fine-tuning SAM, we obtain state-of-the-art results on multiple medical images and video benchmarks. This new encoder is trained via gradients provided by a frozen SAM. For inspecting the knowledge within it, and providing a lightweight segmentation solution, we also learn to decode it into a mask by a shallow deconvolution network.
翻訳日:2023-06-13 19:23:36 公開日:2023-06-10
# 運動補間のためのシャッフル自己回帰

Shuffled Autoregression For Motion Interpolation ( http://arxiv.org/abs/2306.06367v1 )

ライセンス: Link先を確認
Shuo Huang, Jia Jia, Zongxin Yang, Wei Wang, Haozhe Wu, Yi Yang, Junliang Xing(参考訳) 本研究の目的は,動作補間作業のためのディープラーニングソリューションを提供することである。 以前の研究では幾何学的重み関数を用いて解いた。 他の研究では、連続したポーズシーケンスを入力として、異なる問題設定のためのニューラルネットワークを提案する。 しかし、運動補間はより複雑な問題であり、孤立したポーズ(例えば、1つの開始ポーズと1つの終了ポーズ)を入力として取る。 動き補間に適用すると、これらの深層学習法は、元の幾何学式のように補間フレーム間の柔軟な依存関係を活用しないため、性能が限られる。 この補間特性を実現するために, 自己回帰を任意の(シャッフル)順序で生成し, 任意のフレーム間の依存関係を有向非巡回グラフとしてモデル化する, \emph{shuffled autoregression} と呼ばれる新しい枠組みを提案する。 さらに,3つのステージをエンドツーエンドの時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。 現在最大のデータセットの1つでの実験結果は、我々のモデルが1つのスタートフレームから1つのエンドフレームまでの鮮明でコヒーレントな動きを生成し、競合メソッドを大きなマージンで上回っていることを示している。 提案モデルは、複数のキーフレームの動作補間タスクや他の領域補間タスクにも拡張可能である。

This work aims to provide a deep-learning solution for the motion interpolation task. Previous studies solve it with geometric weight functions. Some other works propose neural networks for different problem settings with consecutive pose sequences as input. However, motion interpolation is a more complex problem that takes isolated poses (e.g., only one start pose and one end pose) as input. When applied to motion interpolation, these deep learning methods have limited performance since they do not leverage the flexible dependencies between interpolation frames as the original geometric formulas do. To realize this interpolation characteristic, we propose a novel framework, referred to as \emph{Shuffled AutoRegression}, which expands the autoregression to generate in arbitrary (shuffled) order and models any inter-frame dependencies as a directed acyclic graph. We further propose an approach to constructing a particular kind of dependency graph, with three stages assembled into an end-to-end spatial-temporal motion Transformer. Experimental results on one of the current largest datasets show that our model generates vivid and coherent motions from only one start frame to one end frame and outperforms competing methods by a large margin. The proposed model is also extensible to multiple keyframes' motion interpolation tasks and other areas' interpolation.
翻訳日:2023-06-13 19:23:20 公開日:2023-06-10
# FalconNet:軽量なConvNetのファクタ化

FalconNet: Factorization for the Light-weight ConvNets ( http://arxiv.org/abs/2306.06365v1 )

ライセンス: Link先を確認
Zhicheng Cai, Qiu Shen(参考訳) パラメータやフラップが少ない軽量cnnモデルの設計は、重要な研究課題である。 しかし、現在の軽量CNNでは3つの重大な問題が続いている。 一 アーキテクチャの一貫性の欠如は、冗長性及び能力比較の妨げとなるとともに、アーキテクチャの選択と性能向上の因果関係の曖昧さにつながります。 二 単分岐深さ畳み込みの利用は、モデル表現能力に支障を来す。 三 深度的な畳み込みは、パラメータやフロップの比率が大きいが、軽量化のための効率的な方法が欠如している。 これらの問題に対処するため、軽量CNNの4つの重要な要素を粗いものから細かなものへと分解し、再設計する。 i) 他の軽量CNNの基本ブロックを単に実装するだけで性能が向上するLightNetという軽量総合アーキテクチャを設計する。 二 空間演算子及びチャネル演算子からなるメタライトブロックを抽象化し、一様に現在の基本ブロックを記述すること。 三 表現能力を高めるため、複数の空間演算子分岐を構成するRepSOを立ち上げる。 iv) 受信範囲の概念を提起し、チャンネル演算子を緩やかに分解するためにRefCOを提起する。 上記の4つの重要なコンポーネントに基づいて、FalconNetと呼ばれる新しい軽量CNNモデルを立ち上げる。 実験の結果、ファルコンネットは既存の軽量cnnよりも低いパラメータとフロップ数で高い精度を達成できることが確認された。

Designing light-weight CNN models with little parameters and Flops is a prominent research concern. However, three significant issues persist in the current light-weight CNNs: i) the lack of architectural consistency leads to redundancy and hindered capacity comparison, as well as the ambiguity in causation between architectural choices and performance enhancement; ii) the utilization of a single-branch depth-wise convolution compromises the model representational capacity; iii) the depth-wise convolutions account for large proportions of parameters and Flops, while lacking efficient method to make them light-weight. To address these issues, we factorize the four vital components of light-weight CNNs from coarse to fine and redesign them: i) we design a light-weight overall architecture termed LightNet, which obtains better performance by simply implementing the basic blocks of other light-weight CNNs; ii) we abstract a Meta Light Block, which consists of spatial operator and channel operator and uniformly describes current basic blocks; iii) we raise RepSO which constructs multiple spatial operator branches to enhance the representational ability; iv) we raise the concept of receptive range, guided by which we raise RefCO to sparsely factorize the channel operator. Based on above four vital components, we raise a novel light-weight CNN model termed as FalconNet. Experimental results validate that FalconNet can achieve higher accuracy with lower number of parameters and Flops compared to existing light-weight CNNs.
翻訳日:2023-06-13 19:22:56 公開日:2023-06-10
# Aria Digital Twin:エゴセントリックな3Dマシン知覚のためのベンチマークデータセット

Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception ( http://arxiv.org/abs/2306.06362v1 )

ライセンス: Link先を確認
Xiaqing Pan, Nicholas Charron, Yongqian Yang, Scott Peters, Thomas Whelan, Chen Kong, Omkar Parkhi, Richard Newcombe, Carl (Yuheng) Ren(参考訳) aria digital twin (adt) - 広範囲のオブジェクト、環境、人間レベルの根拠を備えたaraメガネでキャプチャされた、エゴセントリックなデータセットである。 このADTリリースは、Aria装着者が398のオブジェクトインスタンスを持つ2つの屋内シーンで実施する200の実世界のアクティビティを含む(324の定常および74の動的)。 各シーケンスは以下の通りである。 a) モノクロカメラストリーム2つ,RGBカメラストリーム1つ,IMUストリーム2つの生データ b) センサの完全な校正 c) aria装置の連続6自由度(6dof)ポーズ、対象6dofポーズ、3d視線ベクトル、3d人間のポーズ、2d画像分割、画像深度マップを含む地上真実データ d) フォトリアリスティックな合成レンダリング。 私たちの知る限りでは、ADTに匹敵する正確性、フォトリアリズム、包括性を備えた既存のエゴセントリックデータセットはありません。 これは3dオブジェクトの検出と追跡、シーンの再構築と理解、sim-to-real learning、人間のポーズ予測といった非常に困難な研究課題を含むと同時に、拡張現実(ar)アプリケーションのための新しい機械知覚タスクにも刺激を与えます。 ADT研究のユースケースの探索を開始するために,ADTのベンチマークデータセットとしての有用性を実証するオブジェクト検出,セグメンテーション,画像翻訳タスクの最先端手法をいくつか評価した。

We introduce the Aria Digital Twin (ADT) - an egocentric dataset captured using Aria glasses with extensive object, environment, and human level ground truth. This ADT release contains 200 sequences of real-world activities conducted by Aria wearers in two real indoor scenes with 398 object instances (324 stationary and 74 dynamic). Each sequence consists of: a) raw data of two monochrome camera streams, one RGB camera stream, two IMU streams; b) complete sensor calibration; c) ground truth data including continuous 6-degree-of-freedom (6DoF) poses of the Aria devices, object 6DoF poses, 3D eye gaze vectors, 3D human poses, 2D image segmentations, image depth maps; and d) photo-realistic synthetic renderings. To the best of our knowledge, there is no existing egocentric dataset with a level of accuracy, photo-realism and comprehensiveness comparable to ADT. By contributing ADT to the research community, our mission is to set a new standard for evaluation in the egocentric machine perception domain, which includes very challenging research problems such as 3D object detection and tracking, scene reconstruction and understanding, sim-to-real learning, human pose prediction - while also inspiring new machine perception tasks for augmented reality (AR) applications. To kick start exploration of the ADT research use cases, we evaluated several existing state-of-the-art methods for object detection, segmentation and image translation tasks that demonstrate the usefulness of ADT as a benchmarking dataset.
翻訳日:2023-06-13 19:22:32 公開日:2023-06-10
# 運動構造を用いた3次元再構成

3D reconstruction using Structure for Motion ( http://arxiv.org/abs/2306.06360v1 )

ライセンス: Link先を確認
Kshitij Karnawat, Hritvik Choudhari, Abhimanyu Saxena, Mudit Singal, Raajith Gadam(参考訳) 我々は,屋内移動フロアロボットに搭載されたステレオビジョン構成のHDRカメラを用いた室内空間の3次元再構成を目指して,様々なテクスチャや空間的特徴を2次元画像として捉え,このデータをアルゴリズムのフィードとして同時に利用することにより,深度マップの可視化を可能にする。

We are working towards 3D reconstruction of indoor spaces using a pair of HDR cameras in a stereo vision configuration mounted on an indoor mobile floor robot that captures various textures and spatial features as 2D images and this data is simultaneously utilized as a feed to our algorithm which will allow us to visualize the depth map.
翻訳日:2023-06-13 19:22:05 公開日:2023-06-10
# NeRFool: 対向性摂動に対する一般化可能なニューラルラジアンスフィールドの脆弱性を明らかにする

NeRFool: Uncovering the Vulnerability of Generalizable Neural Radiance Fields against Adversarial Perturbations ( http://arxiv.org/abs/2306.06359v1 )

ライセンス: Link先を確認
Yonggan Fu, Ye Yuan, Souvik Kundu, Shang Wu, Shunyao Zhang, Yingyan Lin(参考訳) Generalizable Neural Radiance Fields (GNeRF)は、そのクロスシーンの一般化能力と、新しいシーンでの即時レンダリングの可能性により、新しいビュー合成のための最も有望な現実のソリューションの1つである。 現実の応用には敵の堅牢性が不可欠であるが、GNeRFに対する影響を理解する研究はほとんど行われていない。 我々は、GNeRFはインターネットやサードパーティーからしばしば取得される新しいシーンのソースビューを条件付けして実装されているため、現実世界のアプリケーションに新たなセキュリティ上の懸念が生じる可能性があると仮定する。 一方、ニューラルネットワークの対角性に対する既存の理解と解決策は、GNeRFには適用できないかもしれない。 この目的のために我々は,GNeRFの対角的堅牢性を理解するための最初の研究であるNeRFoolを提案する。 特に、NeRFoolはGNeRFの対角的堅牢性に関する脆弱性パターンと重要な洞察を明らかにしている。 以上の知見に基づいて、我々は、GNeRFを広範囲のターゲットビューで効果的に攻撃できる2つの技術を統合したNeRFool+を開発し、提案した攻撃に対する防御ガイドラインを提供する。 我々は、我々のNeRFool/NeRFool+が、堅牢な現実世界のGNeRFソリューションを開発する上で、将来のイノベーションの基盤となると信じている。 私たちのコードは、https://github.com/GATECH-EIC/NeRFool.comで利用可能です。

Generalizable Neural Radiance Fields (GNeRF) are one of the most promising real-world solutions for novel view synthesis, thanks to their cross-scene generalization capability and thus the possibility of instant rendering on new scenes. While adversarial robustness is essential for real-world applications, little study has been devoted to understanding its implication on GNeRF. We hypothesize that because GNeRF is implemented by conditioning on the source views from new scenes, which are often acquired from the Internet or third-party providers, there are potential new security concerns regarding its real-world applications. Meanwhile, existing understanding and solutions for neural networks' adversarial robustness may not be applicable to GNeRF, due to its 3D nature and uniquely diverse operations. To this end, we present NeRFool, which to the best of our knowledge is the first work that sets out to understand the adversarial robustness of GNeRF. Specifically, NeRFool unveils the vulnerability patterns and important insights regarding GNeRF's adversarial robustness. Built upon the above insights gained from NeRFool, we further develop NeRFool+, which integrates two techniques capable of effectively attacking GNeRF across a wide range of target views, and provide guidelines for defending against our proposed attacks. We believe that our NeRFool/NeRFool+ lays the initial foundation for future innovations in developing robust real-world GNeRF solutions. Our codes are available at: https://github.com/GATECH-EIC/NeRFool.
翻訳日:2023-06-13 19:21:57 公開日:2023-06-10
# 確率収束を伴う制約付き強化学習のための1ループディープアクター・クライブアルゴリズム

A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence ( http://arxiv.org/abs/2306.06402v1 )

ライセンス: Link先を確認
Kexuan Wang, An Liu, and Baishuo Liu(参考訳) Abstract -- Deep Actor-Criticアルゴリズムは、Actor-CriticとDeep Neural Network(DNN)を組み合わせることで、シミュレーション環境における意思決定問題に対する最も一般的な強化学習アルゴリズムのひとつだ。 しかし、既存のディープアクター・クライブアルゴリズムは、非凸確率制約と環境との相互作用に高いコストで現実的な問題を解くためにまだ成熟していない。 本稿では,一般制約強化学習(CRL)問題に対する単一ループディープアクター・クリティカル(SLDAC)アルゴリズムフレームワークを提案する。 アクターステップでは、制約付き確率連続凸近似(CSSCA)法を適用し、非凸確率目標と制約を扱う。 批評家のステップでは、批評家のDNNはイテレーション毎に1回または数回だけ更新され、アルゴリズムをシングルループフレームワークに単純化する(既存の作業では、各イテレーションのインナーループの十分な収束を保証するために、批評家のステップに対して十分な数の更新が必要である)。 さらに、旧方針からの観測を再利用することにより、政策勾配推定のばらつきを低減する。 単一ループ設計と観察再利用により,エージェント-環境相互作用コストと計算複雑性を効果的に低減できる。 単一ループ設計と観測再利用によって生じる偏りのある政策勾配の推定にも拘わらず,本問題の始点を持つSLDACがKKT(Karush-Kuhn-Tuker)点にほぼ確実に収束できることを示す。 シミュレーションにより、sldacアルゴリズムはより低い相互作用コストで優れた性能が得られることが示された。

Abstract -- Deep Actor-Critic algorithms, which combine Actor-Critic with deep neural network (DNN), have been among the most prevalent reinforcement learning algorithms for decision-making problems in simulated environments. However, the existing deep Actor-Critic algorithms are still not mature to solve realistic problems with non-convex stochastic constraints and high cost to interact with the environment. In this paper, we propose a single-loop deep Actor-Critic (SLDAC) algorithmic framework for general constrained reinforcement learning (CRL) problems. In the actor step, the constrained stochastic successive convex approximation (CSSCA) method is applied to handle the non-convex stochastic objective and constraints. In the critic step, the critic DNNs are only updated once or a few finite times for each iteration, which simplifies the algorithm to a single-loop framework (the existing works require a sufficient number of updates for the critic step to ensure a good enough convergence of the inner loop for each iteration). Moreover, the variance of the policy gradient estimation is reduced by reusing observations from the old policy. The single-loop design and the observation reuse effectively reduce the agent-environment interaction cost and computational complexity. In spite of the biased policy gradient estimation incurred by the single-loop design and observation reuse, we prove that the SLDAC with a feasible initial point can converge to a Karush-Kuhn-Tuker (KKT) point of the original problem almost surely. Simulations show that the SLDAC algorithm can achieve superior performance with much lower interaction cost.
翻訳日:2023-06-13 19:16:34 公開日:2023-06-10
# 個人化グラフフェデレーション学習と差分プライバシー

Personalized Graph Federated Learning with Differential Privacy ( http://arxiv.org/abs/2306.06399v1 )

ライセンス: Link先を確認
Francois Gauthier, Vinay Chakravarthi Gogineni, Stefan Werner, Yih-Fang Huang, Anthony Kuh(参考訳) 本稿では,分散接続されたサーバとそのエッジデバイスが,各デバイスのプライバシを維持しながらデバイスやクラスタ固有のモデルを協調的に学習する,パーソナライズドグラフフェデレーション学習(pgfl)フレームワークを提案する。 提案手法では,異なるモデル間の類似性を生かして,多様なデータ分布や不釣り合いなデータセットの状況においても,各デバイスに対してより適切なエクスペリエンスを提供する。 さらに,協調型パーソナライズ学習への安全かつ効率的なアプローチを確保するために,ノイズシーケンスがモデル交換を混乱させるディファレンシャルプライバシ,特にゼロ集中ディファレンシャルプライバシを利用したpgfl実装の変種について検討する。 提案するプライバシ保存型pgflアルゴリズムは,線形時間で各クラスタの最適クラスタ固有解に収束することを示す。 また、クラスタ間の類似性を利用すると、元の解までの距離が有界な別の出力となり、この境界はアルゴリズムのハイパーパラメータを変更することで調整できることを示した。 さらに,本アルゴリズムは,ゼロ集中型差分プライバシーの観点から,全クライアントの局所的な差分プライバシーを保証する。 最後に, 合成データとmnistデータセットを用いて, 回帰・分類の文脈で数値実験を行い, pgflアルゴリズムの性能について検討した。

This paper presents a personalized graph federated learning (PGFL) framework in which distributedly connected servers and their respective edge devices collaboratively learn device or cluster-specific models while maintaining the privacy of every individual device. The proposed approach exploits similarities among different models to provide a more relevant experience for each device, even in situations with diverse data distributions and disproportionate datasets. Furthermore, to ensure a secure and efficient approach to collaborative personalized learning, we study a variant of the PGFL implementation that utilizes differential privacy, specifically zero-concentrated differential privacy, where a noise sequence perturbs model exchanges. Our mathematical analysis shows that the proposed privacy-preserving PGFL algorithm converges to the optimal cluster-specific solution for each cluster in linear time. It also shows that exploiting similarities among clusters leads to an alternative output whose distance to the original solution is bounded, and that this bound can be adjusted by modifying the algorithm's hyperparameters. Further, our analysis shows that the algorithm ensures local differential privacy for all clients in terms of zero-concentrated differential privacy. Finally, the performance of the proposed PGFL algorithm is examined by performing numerical experiments in the context of regression and classification using synthetic data and the MNIST dataset.
翻訳日:2023-06-13 19:15:42 公開日:2023-06-10
# PEAR: 階層的強化学習を促進するための原始的適応的リラベリング

PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.06394v1 )

ライセンス: Link先を確認
Utsav Singh, Vinay P Namboodiri(参考訳) 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。 しかし、階層エージェントは、低レベルプリミティブを継続的に変更するため、固有の非定常性に苦しむため、トレーニングが難しい。 提案手法は,まず,いくつかの専門家による実験を行い,サブゴール監視データセットを生成して,HRLエージェントの正規化に擬似学習を用いる2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レラベリング(PEAR)を提案する。 本手法の最適性は, 理論境界を用いて限定し, 複雑なロボット課題を解決するための実用的なhrlアルゴリズムを考案する。 我々は,mazeナビゲーション,ピックアンドプレース,ロープ操作,キッチン環境といったロボット課題について実験を行い,提案手法が長期的意思決定を必要とする複雑なタスクを解決できることを実証する。 本手法は一握りの専門家による実証を行い,タスク構造に最小限の制限を課すことができるため,ロボットタスクのほとんどを解決するために,典型的なモデルフリー強化学習アルゴリズムと容易に統合することができる。 従来の階層ベースラインや非階層ベースラインよりも優れており,サンプル効率も良好であることを示す。 また,学習方針を実際のロープ操作タスクに展開することで実世界のロボット実験を行い,PEARが一貫してベースラインを上回っていることを示す。 補足ビデオのリンク: \url{https://tinyurl.com/pearOverview}

Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train as they suffer from inherent non-stationarity due to continuously changing low level primitive. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where firstly we perform adaptive relabeling on a few expert demonstrations to generate subgoal supervision dataset, and then employ imitation learning for regularizing HRL agents. We bound the sub-optimality of our method using theoretical bounds and devise a practical HRL algorithm for solving complex robotic tasks. We perform experiments on challenging robotic tasks: maze navigation, pick and place, rope manipulation and kitchen environments, and demonstrate that the proposed approach is able to solve complex tasks that require long term decision making. Since our method uses a handful of expert demonstrations and makes minimal limiting assumptions on task structure, it can be easily integrated with typical model free reinforcement learning algorithms to solve most robotic tasks. We empirically show that our approach outperforms previous hierarchical and non-hierarchical baselines, and exhibits better sample efficiency. We also perform real world robotic experiments by deploying the learned policy on a real robotic rope manipulation task and demonstrate that PEAR consistently outperforms the baselines. Here is the link for supplementary video: \url{https://tinyurl.com/pearOverview}
翻訳日:2023-06-13 19:15:17 公開日:2023-06-10
# NeRFLiXからNeRFLiX++へ: 一般的なNeRFに依存しないレゾラーパラダイム

From NeRFLiX to NeRFLiX++: A General NeRF-Agnostic Restorer Paradigm ( http://arxiv.org/abs/2306.06388v1 )

ライセンス: Link先を確認
Kun Zhou, Wenbo Li, Nianjuan Jiang, Xiaoguang Han, Jiangbo Lu(参考訳) ニューラルレイディアンス場(NeRF)は、新規なビュー合成において大きな成功を収めている。 しかし,非完全キャリブレーション情報やシーン表現の不正確さのため,現実のシーンから高品質な詳細を復元することは,既存のNeRFベースのアプローチでは依然として困難である。 高品質なトレーニングフレームであっても、NeRFモデルで作られた合成された新しいビューは、ノイズやぼやけなどの顕著なレンダリングアーチファクトに悩まされている。 そこで本研究では,分解駆動の視点間ミキサーを学習するNeRFLiXを提案する。 特に,nerf型劣化モデリング手法を設計,大規模トレーニングデータを構築し,深層ニューラルネットワークのnerfネイティブレンダリングアーティファクトを効果的に除去することを可能にした。 さらに, 劣化除去の他に, 高度に関連性の高い訓練画像を融合し, 最先端のNeRFモデルの性能を全く新しいレベルに押し上げ, 高度光写実的合成ビューを生成する視点間集約フレームワークを提案する。 このパラダイムに基づき,より強固な2段階のnrf分解シミュレータと高速なビューポイント間ミキサーを備えたnerflix++をさらに提示し,計算効率を大幅に向上した優れた性能を実現する。 特に、NeRFLiX++はノイズの多い低解像度のNeRFレンダリングビューからフォトリアリスティックな超高解像度出力を復元することができる。 様々な新しいビュー合成ベンチマークで、NeRFLiX++の優れた復元能力を実証した。

Neural radiance fields (NeRF) have shown great success in novel view synthesis. However, recovering high-quality details from real-world scenes is still challenging for the existing NeRF-based approaches, due to the potential imperfect calibration information and scene representation inaccuracy. Even with high-quality training frames, the synthetic novel views produced by NeRF models still suffer from notable rendering artifacts, such as noise and blur. To address this, we propose NeRFLiX, a general NeRF-agnostic restorer paradigm that learns a degradation-driven inter-viewpoint mixer. Specially, we design a NeRF-style degradation modeling approach and construct large-scale training data, enabling the possibility of effectively removing NeRF-native rendering artifacts for deep neural networks. Moreover, beyond the degradation removal, we propose an inter-viewpoint aggregation framework that fuses highly related high-quality training images, pushing the performance of cutting-edge NeRF models to entirely new levels and producing highly photo-realistic synthetic views. Based on this paradigm, we further present NeRFLiX++ with a stronger two-stage NeRF degradation simulator and a faster inter-viewpoint mixer, achieving superior performance with significantly improved computational efficiency. Notably, NeRFLiX++ is capable of restoring photo-realistic ultra-high-resolution outputs from noisy low-resolution NeRF-rendered views. Extensive experiments demonstrate the excellent restoration ability of NeRFLiX++ on various novel view synthesis benchmarks.
翻訳日:2023-06-13 19:14:48 公開日:2023-06-10
# ai時代の学習者ソーシング: コンテンツ制作のための学生、教育者、機械とのパートナーシップ

Learnersourcing in the Age of AI: Student, Educator and Machine Partnerships for Content Creation ( http://arxiv.org/abs/2306.06386v1 )

ライセンス: Link先を確認
Hassan Khosravi and Paul Denny and Steven Moore and John Stamper(参考訳) 学習者ソーシング(learnersourcing)とも呼ばれる新しいコンテンツの作成に熱心である学生は、高階学習を促進する効果的なアプローチとして認識され、コース教材に深く関与し、パーソナライズされた学習に適したコンテンツの大きなリポジトリを開発する。 これらの利点にもかかわらず、一般的な懸念や批判は学習者ソーシング(例えば、学生が生み出すリソースの質、エンゲージメントのインセンティブの課題、信頼性の高い学習者ソーシングシステムの可用性の欠如)と関連しており、採用が制限されている。 本稿では,既存の学習者ソーシング文献,学習科学からの最新の知見,AIの進歩を考察し,学習者ソーシングシステムの開発に向けた将来的な方向性を示す枠組みを提案する。 本フレームワークは,(1)新規コンテンツの作成,(2)コンテンツの品質評価,(3)学生の学習支援活動の活用,(4)学習指導者による学習指導支援の4つの重要な側面に関する重要な質問や人間とAIの連携を中心に設計されている。 次に,提案するフレームワークを既存の2つの学習者ソーシングシステムに応用した2つの総合ケーススタディを提案する。

Engaging students in creating novel content, also referred to as learnersourcing, is increasingly recognised as an effective approach to promoting higher-order learning, deeply engaging students with course material and developing large repositories of content suitable for personalized learning. Despite these benefits, some common concerns and criticisms are associated with learnersourcing (e.g., the quality of resources created by students, challenges in incentivising engagement and lack of availability of reliable learnersourcing systems), which have limited its adoption. This paper presents a framework that considers the existing learnersourcing literature, the latest insights from the learning sciences and advances in AI to offer promising future directions for developing learnersourcing systems. The framework is designed around important questions and human-AI partnerships relating to four key aspects: (1) creating novel content, (2) evaluating the quality of the created content, (3) utilising learnersourced contributions of students and (4) enabling instructors to support students in the learnersourcing process. We then present two comprehensive case studies that illustrate the application of the proposed framework in relation to two existing popular learnersourcing systems.
翻訳日:2023-06-13 19:14:23 公開日:2023-06-10
# 頑健なエネルギー予測のための配電時空間データ連続学習

Continually learning out-of-distribution spatiotemporal data for robust energy forecasting ( http://arxiv.org/abs/2306.06385v1 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 建設管理者がエネルギー消費を最適化しコストを削減できるため、建設エネルギー利用の予測は持続可能性の向上と廃棄物削減に不可欠である。 この重要性は、新型コロナウイルス(COVID-19)のパンデミックなど異常な期間に拡大され、占有パターンを乱し、正確な予測をより困難にしている。 異常期間におけるエネルギー利用予測は、占有パターンの変化とエネルギー利用行動のために困難である。 この主な理由の1つは、多くの人々が在宅勤務や家庭から学んでいる、占有パターンの分布の変化である。 これにより、占有パターンの変化に適応できる新しい予測方法の必要性が生まれました。 オンライン学習はこの課題に対する有望な解決策として現れており、ビルマネージャが占有パターンの変化に適応し、それに応じてエネルギー使用量を調整することができる。 オンライン学習では、モデルを新しいデータポイントごとにインクリメンタルに更新することで、学習と適応をリアルタイムで行うことができる。 もう1つの解決策は、人の移動データを占有率のプロキシとして使用し、モバイルデバイスの普及を利用して移動パターンを追跡し、占有率を推測することである。 人間の移動データは、従来のセンサーや手動のデータ収集方法に頼ることなく、占有パターンを監視する方法を提供するので、この文脈で有用である。 これらの手法の有効性を試すために,6棟からのデータを用いて広範囲にわたる実験を行った。 しかし、これらのメソッドを現実世界にデプロイすることには、いくつかの課題がある。

Forecasting building energy usage is essential for promoting sustainability and reducing waste, as it enables building managers to optimize energy consumption and reduce costs. This importance is magnified during anomalous periods, such as the COVID-19 pandemic, which have disrupted occupancy patterns and made accurate forecasting more challenging. Forecasting energy usage during anomalous periods is difficult due to changes in occupancy patterns and energy usage behavior. One of the primary reasons for this is the shift in distribution of occupancy patterns, with many people working or learning from home. This has created a need for new forecasting methods that can adapt to changing occupancy patterns. Online learning has emerged as a promising solution to this challenge, as it enables building managers to adapt to changes in occupancy patterns and adjust energy usage accordingly. With online learning, models can be updated incrementally with each new data point, allowing them to learn and adapt in real-time. Another solution is to use human mobility data as a proxy for occupancy, leveraging the prevalence of mobile devices to track movement patterns and infer occupancy levels. Human mobility data can be useful in this context as it provides a way to monitor occupancy patterns without relying on traditional sensors or manual data collection methods. We have conducted extensive experiments using data from six buildings to test the efficacy of these approaches. However, deploying these methods in the real world presents several challenges.
翻訳日:2023-06-13 19:13:59 公開日:2023-06-10
# 低リソース拡散補正のための逆トレーニング

Adversarial Training For Low-Resource Disfluency Correction ( http://arxiv.org/abs/2306.06384v1 )

ライセンス: Link先を確認
Vineet Bhat, Preethi Jyothi and Pushpak Bhattacharyya(参考訳) 分散は会話音声でよく起こる。 障害のある音声は、機械翻訳のような下流のタスクに影響を与えるノイズの多い自動音声認識(ASR)の書き起こしをもたらす可能性がある。 本稿では,少量のラベル付き実データと大量のラベル付き非ラベル付きデータとを併用した,逆向きに訓練されたDisfluency Correction(DC)のシーケンスタギングモデルを提案する。 提案手法は,インド三言語ベンガル語,ヒンディー語,マラティ語(すべてインド・アーリア語族出身)のdcに対して評価することで,合成的に生成した不流動データに大きく依存する。 また,本手法は,音声障害によって導入されたASR文字の発声障害の除去にも有効である。 3つの言語で比較して,f1-scoreにおける平均6.15ポイントの改善を達成した。 我々の知識を最大限に活用するために、我々はdcの敵対的トレーニングを最初に活用し、それを英語の混乱を正すために使用し、このタスクの新しいベンチマークを確立しました。

Disfluencies commonly occur in conversational speech. Speech with disfluencies can result in noisy Automatic Speech Recognition (ASR) transcripts, which affects downstream tasks like machine translation. In this paper, we propose an adversarially-trained sequence-tagging model for Disfluency Correction (DC) that utilizes a small amount of labeled real disfluent data in conjunction with a large amount of unlabeled data. We show the benefit of our proposed technique, which crucially depends on synthetically generated disfluent data, by evaluating it for DC in three Indian languages- Bengali, Hindi, and Marathi (all from the Indo-Aryan family). Our technique also performs well in removing stuttering disfluencies in ASR transcripts introduced by speech impairments. We achieve an average 6.15 points improvement in F1-score over competitive baselines across all three languages mentioned. To the best of our knowledge, we are the first to utilize adversarial training for DC and use it to correct stuttering disfluencies in English, establishing a new benchmark for this task.
翻訳日:2023-06-13 19:13:36 公開日:2023-06-10
# 近距離機械翻訳におけるkNN知識の注入

INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2306.06381v1 )

ライセンス: Link先を確認
Wenhao Zhu, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen(参考訳) ニューラルマシン翻訳は多くの翻訳タスクで有望な結果を得た。 しかし、これまでの研究では、神経モデルは非スムース表現空間を誘導し、一般化の結果を損なうことが示されている。 近年、knn-mtは推論中の隣接表現に基づく予測を円滑にするための効果的なパラダイムを提供している。 有望な結果にもかかわらず、kNN-MTは通常、大きな推論オーバーヘッドを必要とする。 我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を直接滑らかにするための効果的なトレーニングフレームワークINKを提案する。 新しいパラメータは、新しいkNN知識を非同期に取得するために、表現データストア全体を更新するために使用される。 このループは収束するまで継続する。 4つのベンチマークデータセットの実験により、Shamethodは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリスペースと1.9倍の推論速度を持つ最先端のkNN-MTシステムを上回った。

Neural machine translation has achieved promising results on many translation tasks. However, previous studies have shown that neural models induce a non-smooth representation space, which harms its generalization results. Recently, kNN-MT has provided an effective paradigm to smooth the prediction based on neighbor representations during inference. Despite promising results, kNN-MT usually requires large inference overhead. We propose an effective training framework INK to directly smooth the representation space via adjusting representations of kNN neighbors with a small number of new parameters. The new parameters are then used to refresh the whole representation datastore to get new kNN knowledge asynchronously. This loop keeps running until convergence. Experiments on four benchmark datasets show that \method achieves average gains of 1.99 COMET and 1.0 BLEU, outperforming the state-of-the-art kNN-MT system with 0.02x memory space and 1.9x inference speedup.
翻訳日:2023-06-13 19:13:18 公開日:2023-06-10
# d2match: サブグラフマッチングのためのディープラーニングと縮退の活用

D2Match: Leveraging Deep Learning and Degeneracy for Subgraph Matching ( http://arxiv.org/abs/2306.06380v1 )

ライセンス: Link先を確認
Xuanzhou Liu, Lin Zhang, Jiaqi Sun, Yujiu Yang, Haiqin Yang(参考訳) グラフベースのアプリケーションでは、サブグラフマッチングは基本的なビルディングブロックであり、その高次組合せの性質から難しい。 既存の研究は通常、組合せ最適化や学習に基づく手法でそれに取り組む。 しかし、指数関数計算コストや、理論的な保証なしにマッチングを探すことに苦しむ。 本稿では,ディープラーニングとデジェネリシーの効率を活用してD2Matchを開発した。 より具体的には、まず、部分グラフマッチングが部分木マッチングに退化できることを証明し、その後、二部グラフ上の完全マッチングを見つけることと同値である。 次に,グラフニューラルネットワーク上の木構造集約機構を組み込んだ線形時間複雑性の実装を実現する。 さらに、円構造とノード属性をD2Matchに簡単に組み込むことができ、マッチング性能が向上する。 最後に、我々のD2Matchの優れた性能を示すための広範な実験を行い、我々のD2Matchが実際にサブツリーを利用しており、データ分散の分散を記憶する既存のGNNベースのサブグラフマッチング方法とは異なることを確認した。

Subgraph matching is a fundamental building block for graph-based applications and is challenging due to its high-order combinatorial nature. Existing studies usually tackle it by combinatorial optimization or learning-based methods. However, they suffer from exponential computational costs or searching the matching without theoretical guarantees. In this paper, we develop D2Match by leveraging the efficiency of Deep learning and Degeneracy for subgraph matching. More specifically, we first prove that subgraph matching can degenerate to subtree matching, and subsequently is equivalent to finding a perfect matching on a bipartite graph. We can then yield an implementation of linear time complexity by the built-in tree-structured aggregation mechanism on graph neural networks. Moreover, circle structures and node attributes can be easily incorporated in D2Match to boost the matching performance. Finally, we conduct extensive experiments to show the superior performance of our D2Match and confirm that our D2Match indeed exploits the subtrees and differs from existing GNNs-based subgraph matching methods that depend on memorizing the data distribution divergence
翻訳日:2023-06-13 19:13:02 公開日:2023-06-10
# 収束保証付きハイパースペクトル画像デコンボリューションのための最適化に基づくDeep Equilibriumモデル

An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees ( http://arxiv.org/abs/2306.06378v1 )

ライセンス: Link先を確認
Alexandros Gkillas, Dimitris Ampeliotis, Kostas Berberidis(参考訳) 本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。 この問題は極めて不適切であり、hsi信号の固有スペクトル-空間相関をモデル化するために適切な事前(レギュラライザー)が必要である。 この目的のために、ニューラルネットワークの形式で学習可能な正規化器を利用する新しい最適化問題を定式化する。 この問題に対処するために, 半二次分割法を用いて有効な解法を提案する。 導出された反復解法は、Deep Equilibrium (DEQ) フレームワーク内の不動点計算問題として表現され、解釈可能なアーキテクチャとなり、そのパラメータや収束特性を明確に説明できる。 提案手法は, 従来のhsi劣化問題に対して, 異なるボケリングカーネルとノイズレベルを, 計算効率の高い単一深部平衡モデルを用いて対処する最初の試みである。 広範な数値実験により,提案手法が最先端手法よりも優れていることが検証された。 この優れた復元性能は、既存の方法に比べて99.85\%少ない計算時間で達成される。

In this paper, we propose a novel methodology for addressing the hyperspectral image deconvolution problem. This problem is highly ill-posed, and thus, requires proper priors (regularizers) to model the inherent spectral-spatial correlations of the HSI signals. To this end, a new optimization problem is formulated, leveraging a learnable regularizer in the form of a neural network. To tackle this problem, an effective solver is proposed using the half quadratic splitting methodology. The derived iterative solver is then expressed as a fixed-point calculation problem within the Deep Equilibrium (DEQ) framework, resulting in an interpretable architecture, with clear explainability to its parameters and convergence properties with practical benefits. The proposed model is a first attempt to handle the classical HSI degradation problem with different blurring kernels and noise levels via a single deep equilibrium model with significant computational efficiency. Extensive numerical experiments validate the superiority of the proposed methodology over other state-of-the-art methods. This superior restoration performance is achieved while requiring 99.85\% less computation time as compared to existing methods.
翻訳日:2023-06-13 19:12:43 公開日:2023-06-10
# 計測モデルに基づくスライディングウインドウニューラル生成追跡

Sliding Window Neural Generated Tracking Based on Measurement Model ( http://arxiv.org/abs/2306.06434v1 )

ライセンス: Link先を確認
Haya Ejjawi, Amal El Fallah Seghrouchni, Frederic Barbaresco, and Raed Abu Zitar(参考訳) 目標追尾分野のさらなる進歩を追求するため,本研究では,Kalmanフィルタが生成したトラックと提案したニューラルネットワークが生成したトラックとを最終的に比較することを目的とした,ドローントラックの予測におけるフィードフォワードニューラルネットワークの有効性について検討する。 提案するニューラルネットワークトラッカーのユニークな特徴は、トラックの次の状態を推定するために測定モデルのみを使用していることである。 オブジェクトモデルの選択と線形化は、トラッキングプロセスで常に直面する課題の1つです。 ニューラルネットワークは、スライディングウィンドウを使用して、トラック値の推定を適用する際の測定履歴を組み込む。 実験結果はカルマンフィルタが生成したものに匹敵するもので、特に測定値の共分散が低かった場合の試験結果に匹敵する。 このモデルを用いた場合、線形化の複雑さは避けられる。

In the pursuit of further advancement in the field of target tracking, this paper explores the efficacy of a feedforward neural network in predicting drones tracks, aiming to eventually, compare the tracks created by the well-known Kalman filter and the ones created by our proposed neural network. The unique feature of our proposed neural network tracker is that it is using only a measurement model to estimate the next states of the track. Object model selection and linearization is one of the challenges that always face in the tracking process. The neural network uses a sliding window to incorporate the history of measurements when applying estimations of the track values. The testing results are comparable to the ones generated by the Kalman filter, especially for the cases where there is low measurement covariance. The complexity of linearization is avoided when using this proposed model.
翻訳日:2023-06-13 19:05:56 公開日:2023-06-10
# 量子計算による酸素同位体中の中性子ドリップ線の予測

Prediction of the neutron drip line in oxygen isotopes using quantum computation ( http://arxiv.org/abs/2306.06432v1 )

ライセンス: Link先を確認
Chandan Sarma, Olivia Di Matteo, Abhishek Abhishek, Praveen C. Srivastava(参考訳) ノイズの多い中間スケール量子時代において、変分アルゴリズムは量子多体問題を解く標準的なアプローチとなっている。 ここでは,シェルモデル記述中の選択酸素同位体の変動量子固有解法(VQE)について述べる。 本研究の目的は, 現象学的USDB相互作用に加えて, 異なる微視的相互作用 (DJ16, JISP16, N3LO) を持つユニタリカップリングクラスタ (UCC) 型アンサターゼを用いて酸素鎖の中性子ドリップ線を見つけることである。 当初、現代の量子ハードウェア上では実行できないが、問題のサイズは、カスタム回路の設計と最適化と共にキュービットテーパリング技術を用いて大幅に削減される。 古典的なシミュレーションから得られたアンサッツパラメータの最適値はdj16相互作用にあてられ、テーパ付き回路は閉じ込められたイオン量子コンピュータであるionqのaria上で実行される。 3つの同位体にゲート誤差緩和を施した後、数パーセントの誤差で正確な基底状態エネルギーを再現した。 ハードウェアによる後処理の結果、酸素鎖のドリップライン核として$^{24}$Oが明らかに示されている。 将来の量子ハードウェアの改良により、重い核のドリップ線を見つけることができる。

In the noisy intermediate-scale quantum era, variational algorithms have become a standard approach to solving quantum many-body problems. Here, we present variational quantum eigensolver (VQE) results of selected oxygen isotopes within the shell model description. The aim of the present work is to locate the neutron drip line of the oxygen chain using unitary coupled cluster (UCC) type ansatze with different microscopic interactions (DJ16, JISP16, and N3LO), in addition to a phenomenological USDB interaction. While initially infeasible to execute on contemporary quantum hardware, the size of the problem is reduced significantly using qubit tapering techniques in conjunction with custom circuit design and optimization. The optimal values of ansatz parameters from classical simulation are taken for the DJ16 interaction, and the tapered circuits are run on IonQ's Aria, a trapped-ion quantum computer. After applying gate error mitigation for three isotopes, we reproduced exact ground state energies within a few percent error. The post-processed results from hardware also clearly show $^{24}$O as the drip line nucleus of the oxygen chain. Future improvements in quantum hardware could make it possible to locate drip lines of heavier nuclei.
翻訳日:2023-06-13 19:05:43 公開日:2023-06-10
# Chain-of-Knowledge Promptingによる言語モデルの強化

Boosting Language Models Reasoning with Chain-of-Knowledge Prompting ( http://arxiv.org/abs/2306.06427v1 )

ライセンス: Link先を確認
Jianing Wang, Qiushi Sun, Nuo Chen, Xiang Li, Ming Gao(参考訳) これは ``let's think step by step'''' のような単純なプロンプトを設計することや、複数のコンテキスト内exemplarsを適切に設計し、大きな言語モデル(llm)を導出して中間的な推論ステップを生成することを目的としている。 しかし、生成された合理性はしばしば間違いを伴い、非事実的で不誠実な推論連鎖を作る。 この脆さを緩和するために,我々は,LLMを3重構造形式で明示的な知識証拠を生成することを目的とした,新しい知識の連鎖(CoK)プロンプトを提案する。 これは人間の行動、つまり、複雑な質問に答える前に脳の推論証拠としてマインドマップや知識マップを描けることにインスパイアされている。 さらに, 事実性および忠実性の観点から, 推論チェーンの信頼性を推定するF^2-Verification法を導入する。 信頼できない反応については、誤った証拠がLSMに再考を促すために示される。 広範な実験により,本手法はコモンセンス,ファクトラル,シンボリック,算術推論タスクの性能をさらに向上できることが証明された。

Recently, Chain-of-Thought (CoT) prompting has delivered success on complex reasoning tasks, which aims at designing a simple prompt like ``Let's think step by step'' or multiple in-context exemplars with well-designed rationales to elicit Large Language Models (LLMs) to generate intermediate reasoning steps. However, the generated rationales often come with mistakes, making unfactual and unfaithful reasoning chains. To mitigate this brittleness, we propose a novel Chain-of-Knowledge (CoK) prompting, where we aim at eliciting LLMs to generate explicit pieces of knowledge evidence in the form of structure triple. This is inspired by our human behaviors, i.e., we can draw a mind map or knowledge map as the reasoning evidence in the brain before answering a complex question. Benefiting from CoK, we additionally introduce a F^2-Verification method to estimate the reliability of the reasoning chains in terms of factuality and faithfulness. For the unreliable response, the wrong evidence can be indicated to prompt the LLM to rethink. Extensive experiments demonstrate that our method can further improve the performance of commonsense, factual, symbolic, and arithmetic reasoning tasks.
翻訳日:2023-06-13 19:05:22 公開日:2023-06-10
# 触覚・審美情報からのLSTMに基づく物体認識におけるベイズとニューラル推論

Bayesian and Neural Inference on LSTM-based Object Recognition from Tactile and Kinesthetic Information ( http://arxiv.org/abs/2306.06423v1 )

ライセンス: Link先を確認
Francisco Pastor (1), Jorge Garc\'ia-Gonz\'alez (2), Juan M. Gandarias (1), Daniel Medina (3), Pau Closas (4), Alfonso J. Garc\'ia-Cerezo (1), Jes\'us M. G\'omez-de-Gabriel (1) ((1) Robotics and Mechatronics Group, University of Malaga, Spain, (2) Department of Computer Languages and Computer Science, University of Malaga, Spain, (3) Institute of Communications and Navigation, German Aerospace Center (DLR), Germany, (4) Department of Electrical and Computer Engineering, Northeastern University, Boston, USA)(参考訳) インテリジェントロボットマニピュレーションの最近の進歩は、ロボットハンドにタッチ感度を提供する。 触覚知覚は、タッチの感覚(触覚や審美感覚など)に遭遇する感覚的様相を包含する。 このレターはマルチモーダルオブジェクト認識に焦点をあて、触覚と審美に基づく分類結果を融合する分析およびデータ駆動手法を提案する。 高分解能触覚センサを内蔵した3本指作動グリッパーは、eps(suse-and-release exploratory procedure)を実行する。 指関節の角センサを用いて取得した触覚画像と審美情報は、興味のある時系列データセットを構成する。 各テンポラリデータセットはlong short-term memory (lstm)ニューラルネットワークに供給され、手作業でオブジェクトを分類するように訓練される。 LSTMは、対応する測定値から各物体の後方確率を推定し、融合後はベイジアンおよびニューラル推論手法を用いて物体を推定することができる。 また,36種類のクラスを用いて,融合,触覚,審美の知覚システムの性能評価と比較を行った結果,ベイズ分類器は物体認識能力を改善し,ニューラルアプローチよりも優れた性能を示した。

Recent advances in the field of intelligent robotic manipulation pursue providing robotic hands with touch sensitivity. Haptic perception encompasses the sensing modalities encountered in the sense of touch (e.g., tactile and kinesthetic sensations). This letter focuses on multimodal object recognition and proposes analytical and data-driven methodologies to fuse tactile- and kinesthetic-based classification results. The procedure is as follows: a three-finger actuated gripper with an integrated high-resolution tactile sensor performs squeeze-and-release Exploratory Procedures (EPs). The tactile images and kinesthetic information acquired using angular sensors on the finger joints constitute the time-series datasets of interest. Each temporal dataset is fed to a Long Short-term Memory (LSTM) Neural Network, which is trained to classify in-hand objects. The LSTMs provide an estimation of the posterior probability of each object given the corresponding measurements, which after fusion allows to estimate the object through Bayesian and Neural inference approaches. An experiment with 36-classes is carried out to evaluate and compare the performance of the fused, tactile, and kinesthetic perception systems.The results show that the Bayesian-based classifiers improves capabilities for object recognition and outperforms the Neural-based approach.
翻訳日:2023-06-13 19:04:59 公開日:2023-06-10
# Revealing Model Biases:Recovered Sample Analysisによるディープニューラルネットワークの評価

Revealing Model Biases: Assessing Deep Neural Networks via Recovered Sample Analysis ( http://arxiv.org/abs/2306.06414v1 )

ライセンス: Link先を確認
Mohammad Mahdi Mehmanchi, Mahbod Nouri, Mohammad Sabokrou(参考訳) 本稿では、深層ニューラルネットワーク(dnn)が、サンプルのトレーニングの第一概念に依存しているか、クラスを区別可能な、しかし単純で無関係な特徴を単に学習しているかを評価するための、単純で費用効果の高いアプローチを提案する。 論文は、識別分類器としてのdnnがクラス間を識別する最も単純な特徴を見いだすことがしばしばあり、無関係な特徴に対する潜在的なバイアスと時として一般化が欠如していることを強調する。 一般化テストは、トレーニングされたモデルのパフォーマンスを評価する方法の1つだが、モデルが主要な概念を学んだことを保証するために、コストがかかり、すべてのシナリオをカバーすることはできない。 さらに、一般化テストを行っても、モデルのバイアスを特定することは不可能である。 本稿では,トレーニングモデルのパラメータからサンプルを回収し,復元品質を分析する手法を提案する。 モデルの重みがいくつかの特徴に基づいて識別するために最適化された場合、これらの特徴は再構成されたサンプルに反映されると考えられる。 得られたサンプルがトレーニングデータの主要な概念を含んでいる場合、モデルは本質的かつ決定的な特徴を学習したと結論付けることができる。 一方、回収されたサンプルが無関係な特徴を含む場合、モデルがこれらの特徴に偏っていると結論付けることができる。 提案手法は,テストや一般化のサンプルを一切必要とせず,訓練対象モデルのパラメータとマージンにあるトレーニングデータのみを必要とする。 実験により,提案手法は,学習データの特徴を学習したかどうかを判断できることを示した。 論文は、これらのモデルがどのように機能するかの理解が限られていることを強調し、提案されたアプローチがこの問題に対処している。

This paper proposes a straightforward and cost-effective approach to assess whether a deep neural network (DNN) relies on the primary concepts of training samples or simply learns discriminative, yet simple and irrelevant features that can differentiate between classes. The paper highlights that DNNs, as discriminative classifiers, often find the simplest features to discriminate between classes, leading to a potential bias towards irrelevant features and sometimes missing generalization. While a generalization test is one way to evaluate a trained model's performance, it can be costly and may not cover all scenarios to ensure that the model has learned the primary concepts. Furthermore, even after conducting a generalization test, identifying bias in the model may not be possible. Here, the paper proposes a method that involves recovering samples from the parameters of the trained model and analyzing the reconstruction quality. We believe that if the model's weights are optimized to discriminate based on some features, these features will be reflected in the reconstructed samples. If the recovered samples contain the primary concepts of the training data, it can be concluded that the model has learned the essential and determining features. On the other hand, if the recovered samples contain irrelevant features, it can be concluded that the model is biased towards these features. The proposed method does not require any test or generalization samples, only the parameters of the trained model and the training data that lie on the margin. Our experiments demonstrate that the proposed method can determine whether the model has learned the desired features of the training data. The paper highlights that our understanding of how these models work is limited, and the proposed approach addresses this issue.
翻訳日:2023-06-13 19:04:39 公開日:2023-06-10
# OpenSR:マルチモーダルアライメントの維持によるオープンモーダル音声認識

OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment ( http://arxiv.org/abs/2306.06410v1 )

ライセンス: Link先を確認
Xize Cheng, Tao Jin, Linjun Li, Wang Lin, Xinyu Duan and Zhou Zhao(参考訳) 音声認識は、マルチメディアストリーミング(オーディオオンリー、ビジュアルオンリー、オーディオビジュアル)と対応するテキスト転写の間に橋渡しを構築する。 しかし、新しいドメインの特定のモデルをトレーニングする場合、新しいドメインの発話、特にラベル付き視覚的な発話の欠如に悩まされることが多い。 この制限を打破するために,事前学習中に高リソース領域で未ラベルのマルチメディア発話で学習した音素空間におけるマルチモーダルアライメントを維持させることにより,ゼロショットモダリティトランスファーを実現するとともに,よりモダリティ(例えば,視覚のみおよび視覚的)に適応可能な単一モーダルで訓練されたモデルを可能にする訓練システムであるオープンモダリティ音声認識(\textbf{OpenSR})を提案する。 さらに、クラスタベースのプロンプトチューニング戦略を用いて、シナリオのドメインシフトを、新しいドメイン発話で一般的な単語だけで処理する。 我々は,OpenSRが3つの異なる設定(ゼロショット,少数ショット,フルショット)で1対1のモダリティ転送を可能にし,既存の複数ショットとフルショットのリップリード方式と比較して,高い競争力のあるゼロショット性能を実現することを実証した。 我々の知る限り、OpenSRはLRS2における2.7\%と25.0\%の音声視覚音声認識における単語誤り率の最先端性能を達成する。 コードとデモはhttps://github.com/exgc/opensrで入手できる。

Speech Recognition builds a bridge between the multimedia streaming (audio-only, visual-only or audio-visual) and the corresponding text transcription. However, when training the specific model of new domain, it often gets stuck in the lack of new-domain utterances, especially the labeled visual utterances. To break through this restriction, we attempt to achieve zero-shot modality transfer by maintaining the multi-modality alignment in phoneme space learned with unlabeled multimedia utterances in the high resource domain during the pre-training \cite{shi2022learning}, and propose a training system Open-modality Speech Recognition (\textbf{OpenSR}) that enables the models trained on a single modality (e.g., audio-only) applicable to more modalities (e.g., visual-only and audio-visual). Furthermore, we employ a cluster-based prompt tuning strategy to handle the domain shift for the scenarios with only common words in the new domain utterances. We demonstrate that OpenSR enables modality transfer from one to any in three different settings (zero-, few- and full-shot), and achieves highly competitive zero-shot performance compared to the existing few-shot and full-shot lip-reading methods. To the best of our knowledge, OpenSR achieves the state-of-the-art performance of word error rate in LRS2 on audio-visual speech recognition and lip-reading with 2.7\% and 25.0\%, respectively. The code and demo are available at https://github.com/Exgc/OpenSR.
翻訳日:2023-06-13 19:04:10 公開日:2023-06-10
# 関数因果ベイズ最適化

Functional Causal Bayesian Optimization ( http://arxiv.org/abs/2306.06409v1 )

ライセンス: Link先を確認
Limor Gultchin and Virginia Aglietti and Alexis Bellot and Silvia Chiappa(参考訳) 本稿では,既知の因果グラフにおいて目標変数を最適化する介入を探索する手法である関数因果ベイズ最適化(fcbo)を提案する。 fcboはcboファミリを拡張して関数的介入を可能にし、変数をグラフ内の他の変数の決定論的関数に設定する。 fCBOは、再生カーネルヒルベルト空間で入力が定義されるガウス過程で未知の目的をモデル化し、ベクトル値関数間の距離を計算することができる。 これにより、標準的なBO設定の典型的な計算トラクタビリティを維持しつつ、期待される改善獲得関数を最大化することにより、シーケンシャルに探索する関数を選択できる。 機能的介入を考慮した場合、より良い目標効果が得られ、選択された介入が条件的目標効果に最適である条件も導入する。 本手法の利点を合成と実世界の因果グラフで示す。

We propose functional causal Bayesian optimization (fCBO), a method for finding interventions that optimize a target variable in a known causal graph. fCBO extends the CBO family of methods to enable functional interventions, which set a variable to be a deterministic function of other variables in the graph. fCBO models the unknown objectives with Gaussian processes whose inputs are defined in a reproducing kernel Hilbert space, thus allowing to compute distances among vector-valued functions. In turn, this enables to sequentially select functions to explore by maximizing an expected improvement acquisition functional while keeping the typical computational tractability of standard BO settings. We introduce graphical criteria that establish when considering functional interventions allows attaining better target effects, and conditions under which selected interventions are also optimal for conditional target effects. We demonstrate the benefits of the method in a synthetic and in a real-world causal graph.
翻訳日:2023-06-13 19:03:39 公開日:2023-06-10
# 分布外検出と条件正規化流の適応による高速光電場3次元顕微鏡

Fast light-field 3D microscopy with out-of-distribution detection and adaptation through Conditional Normalizing Flows ( http://arxiv.org/abs/2306.06408v1 )

ライセンス: Link先を確認
Josu\'e Page Vizca\'ino, Panagiotis Symvoulidis, Zeguan Wang, Jonas Jelten, Paolo Favaro, Edward S. Boyden, Tobias Lasser(参考訳) リアルタイム3次元蛍光顕微鏡は、神経活動モニタリングなどの生物の時空間分析に不可欠である。 拡張視野光電界顕微鏡(extended field-of-view light field microscope, xlfm)は、フーリエ光電界顕微鏡(fourier light field microscope)とも呼ばれる。 XLFMは、単一のカメラ露光において空間角情報を取得する。 その後のステップでは、3Dボリュームをアルゴリズムで再構成することができ、リアルタイムの3D取得と潜在的な分析に非常に適している。 残念なことに、従来の再構成手法(デコンボリューションなど)は処理時間(0.0220Hz)を必要とし、XLFMの速度優位性を妨げている。 ニューラルネットワークアーキテクチャは、確実性指標の欠如を犠牲にして、速度制約を克服することができるため、バイオメディカル領域では信頼できない。 本研究は, 条件付き正規化フローに基づいて, 生きた固定化ゼブラフィッシュ神経活動の高速な3次元再構成を行うアーキテクチャを提案する。 512x512x96ボクセルにまたがる8Hzのボリュームを再構築し、小さなデータセット(10のイメージボリュームペア)のために2時間以内にトレーニングすることができる。 さらに、フローの正規化により、分布監視が可能となり、新しいサンプルが検出された場合、システムの配布外検出と再学習が行われる。 提案手法は,複数の分布内サンプル(遺伝的に同一のゼブラフィッシュ)と分布外サンプルを含むクロスバリデーション手法について検討した。

Real-time 3D fluorescence microscopy is crucial for the spatiotemporal analysis of live organisms, such as neural activity monitoring. The eXtended field-of-view light field microscope (XLFM), also known as Fourier light field microscope, is a straightforward, single snapshot solution to achieve this. The XLFM acquires spatial-angular information in a single camera exposure. In a subsequent step, a 3D volume can be algorithmically reconstructed, making it exceptionally well-suited for real-time 3D acquisition and potential analysis. Unfortunately, traditional reconstruction methods (like deconvolution) require lengthy processing times (0.0220 Hz), hampering the speed advantages of the XLFM. Neural network architectures can overcome the speed constraints at the expense of lacking certainty metrics, which renders them untrustworthy for the biomedical realm. This work proposes a novel architecture to perform fast 3D reconstructions of live immobilized zebrafish neural activity based on a conditional normalizing flow. It reconstructs volumes at 8 Hz spanning 512x512x96 voxels, and it can be trained in under two hours due to the small dataset requirements (10 image-volume pairs). Furthermore, normalizing flows allow for exact Likelihood computation, enabling distribution monitoring, followed by out-of-distribution detection and retraining of the system when a novel sample is detected. We evaluate the proposed method on a cross-validation approach involving multiple in-distribution samples (genetically identical zebrafish) and various out-of-distribution ones.
翻訳日:2023-06-13 19:03:24 公開日:2023-06-10
# d3l: 2次元関節から3次元関節への3次元回転とリフトの分解によるメッシュの回復

D3L: Decomposition of 3D Rotation and Lift from 2D Joint to 3D for Human Mesh Recovery ( http://arxiv.org/abs/2306.06406v1 )

ライセンス: Link先を確認
Xiaoyang Hao (1 and 2), Han Li (1), Jun Cheng (2), Lei Wang (2) ((1) Southern University of Science and Technology, (2) Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)(参考訳) 3次元メッシュ復元のための既存の方法は、常に関節回転と形状パラメータの両方を含むSMPLパラメータを直接推定する。 しかし, これらの手法では, 回転意味の曖昧さ, 回転誤差の蓄積, 形状推定過度に適合し, 推定ポーズの誤差も生じる。 さらに、これらの手法は、他のホットトピックである人間のポーズ推定の進歩を効果的に活用していない。 これらの課題に対処するために,2次元関節から3次元メッシュ(D3L)への3次元回転とリフトの分解という新しいアプローチを提案する。 我々は3次元関節回転を骨方向と骨ねじり方向に切り離して、人間のメッシュ回復タスクを、独立して扱うことができるポーズ、ツイスト、形状の推定に分解する。 そして、2次元関節位置列からねじれ方向と3次元関節位置を推定する2次元から3次元リフトネットワークを設計し、形状パラメータと骨方向を適合させる非線形最適化手法を提案する。 提案手法は,人間のポーズ推定手法を活用でき,形状推定によるポーズ誤りを回避できる。 我々はHuman3.6Mデータセット上で実験を行い、既存の手法と比較して大きなマージンで性能を向上したことを示す。

Existing methods for 3D human mesh recovery always directly estimate SMPL parameters, which involve both joint rotations and shape parameters. However, these methods present rotation semantic ambiguity, rotation error accumulation, and shape estimation overfitting, which also leads to errors in the estimated pose. Additionally, these methods have not efficiently leveraged the advancements in another hot topic, human pose estimation. To address these issues, we propose a novel approach, Decomposition of 3D Rotation and Lift from 2D Joint to 3D mesh (D3L). We disentangle 3D joint rotation into bone direction and bone twist direction so that the human mesh recovery task is broken down into estimation of pose, twist, and shape, which can be handled independently. Then we design a 2D-to-3D lifting network for estimating twist direction and 3D joint position from 2D joint position sequences and introduce a nonlinear optimization method for fitting shape parameters and bone directions. Our approach can leverage human pose estimation methods, and avoid pose errors introduced by shape estimation overfitting. We conduct experiments on the Human3.6M dataset and demonstrate improved performance compared to existing methods by a large margin.
翻訳日:2023-06-13 19:02:53 公開日:2023-06-10
# 不均一意味論-ネイティブコミュニケーションのためのベイズ逆文脈推論

Bayesian Inverse Contextual Reasoning for Heterogeneous Semantics-Native Communication ( http://arxiv.org/abs/2306.06403v1 )

ライセンス: Link先を確認
Hyowoon Seo, Yoonseong Kang, Mehdi Bennis, Wan Choi(参考訳) この研究は異種意味通信(SNC)問題を扱う。 エージェントが同じコミュニケーションコンテキストを共有しない場合、他のエージェントのコンテキストを推測するエージェントを呼び出すコンテキスト推論(CR)の有効性が妥協される。 本稿では,2つのベイジアン推論手法,すなわちベイジアン逆CR(iCR)とベイジアン逆線形化CR(iLCR)を用いて,SNCにおけるCRの逆問題の解法を提案する。 最初の提案手法はマルコフ連鎖モンテカルロ(mcmc)サンプリングを用いて、計算コストの高いエージェントのコンテキストを推定する。 この問題に対処するために、線形ニューラルネットワークをトレーニングして線形化CR(LCR)モデルを得るベイズiLCR法を用いる。 実験の結果,ベイジアンiLCR法は計算量が少なく,ベイジアンiLCRに比べて推論精度が高いことがわかった。 さらに、ベイジアンiLCR法により得られた文脈に基づく異種SNCは、ベイジアンiLCR法よりも良好な通信効率を示す。 全体として、エージェントが異なる状況において、SNCの有効性を改善するための貴重な洞察と方法を提供する。

This work deals with the heterogeneous semantic-native communication (SNC) problem. When agents do not share the same communication context, the effectiveness of contextual reasoning (CR) is compromised calling for agents to infer other agents' context. This article proposes a novel framework for solving the inverse problem of CR in SNC using two Bayesian inference methods, namely: Bayesian inverse CR (iCR) and Bayesian inverse linearized CR (iLCR). The first proposed Bayesian iCR method utilizes Markov Chain Monte Carlo (MCMC) sampling to infer the agent's context while being computationally expensive. To address this issue, a Bayesian iLCR method is leveraged which obtains a linearized CR (LCR) model by training a linear neural network. Experimental results show that the Bayesian iLCR method requires less computation and achieves higher inference accuracy compared to Bayesian iCR. Additionally, heterogeneous SNC based on the context obtained through the Bayesian iLCR method shows better communication effectiveness than that of Bayesian iCR. Overall, this work provides valuable insights and methods to improve the effectiveness of SNC in situations where agents have different contexts.
翻訳日:2023-06-13 19:02:32 公開日:2023-06-10
# 機械学習モデルの解釈可能な差異

Interpretable Differencing of Machine Learning Models ( http://arxiv.org/abs/2306.06473v1 )

ライセンス: Link先を確認
Swagatam Haldar, Diptikalyan Saha, Dennis Wei, Rahul Nair, Elizabeth M. Daly(参考訳) 機械学習(ML)モデルの違いを理解することは、競合するモデルのセットを選択することから、新しいトレーニングデータでデプロイされたモデルを更新することまで、シナリオに関心がある。 このような場合、私たちは、特徴空間における \emph{where} を特定する精度など、全体的な指標の違いを超えて、違いが生じることを望んでいます。 本稿では,2つのMLモデルの出力の相似性関数の予測の1つとして,その差分を人間解釈可能とするモデル \emph{difference} の問題を定式化する。 我々の解は、2つのモデルのための2つの連結決定木サロゲートからなる \emph{joint surrogate tree} (jst) を学ぶことである。 jstは、違いの直感的な表現を提供し、モデルの決定ロジックのコンテキストに変化を配置します。 コンテキストは、aiシステムの基盤となるメンタルモデルに差異をマップするのに役立つため、重要である。 また,JSTの精度を高めるための改良手法を提案する。 経験的評価を通じて,このような文脈的差異は簡潔であり,単純アプローチよりも忠実さを損なうことなく達成できることを実証する。

Understanding the differences between machine learning (ML) models is of interest in scenarios ranging from choosing amongst a set of competing models, to updating a deployed model with new training data. In these cases, we wish to go beyond differences in overall metrics such as accuracy to identify \emph{where} in the feature space do the differences occur. We formalize this problem of model \emph{differencing} as one of predicting a dissimilarity function of two ML models' outputs, subject to the representation of the differences being human-interpretable. Our solution is to learn a \emph{Joint Surrogate Tree} (JST), which is composed of two conjoined decision tree surrogates for the two models. A JST provides an intuitive representation of differences and places the changes in the context of the models' decision logic. Context is important as it helps users to map differences to an underlying mental model of an AI system. We also propose a refinement procedure to increase the precision of a JST. We demonstrate, through an empirical evaluation, that such contextual differencing is concise and can be achieved with no loss in fidelity over naive approaches.
翻訳日:2023-06-13 18:56:53 公開日:2023-06-10
# グラフ畳み込みネットワークを用いたコヒーレンス評価のための文書間の構造的類似性のモデル化

Modeling Structural Similarities between Documents for Coherence Assessment with Graph Convolutional Networks ( http://arxiv.org/abs/2306.06472v1 )

ライセンス: Link先を確認
Wei Liu, Xiyan Fu, Michael Strube(参考訳) コヒーレンスはテキスト品質の重要な側面であり、コヒーレンスモデリングに様々なアプローチが適用されている。 しかし、既存の手法は文書間の関係を無視し、単一の文書のコヒーレンスパターンにのみフォーカスする。 文書間の構造的類似性を捉えることができるGCNに基づくコヒーレンスモデルについて検討する。 我々のモデルはまず各文書のグラフ構造を作成し、そこから異なるサブグラフパターンを抽出します。 次に、トレーニングコーパスのための異種グラフを構築し、共有サブグラフに基づいて文書を接続する。 最後に、ヘテロジニアスグラフにGCNを適用して接続関係をモデル化する。 提案手法を2つのタスクで評価し,談話コヒーレンスと自動エッセイスコアを評価する。 その結果、GCNベースのモデルはすべてのベースラインを上回り、両方のタスクで新しい最先端を実現しています。

Coherence is an important aspect of text quality, and various approaches have been applied to coherence modeling. However, existing methods solely focus on a single document's coherence patterns, ignoring the underlying correlation between documents. We investigate a GCN-based coherence model that is capable of capturing structural similarities between documents. Our model first creates a graph structure for each document, from where we mine different subgraph patterns. We then construct a heterogeneous graph for the training corpus, connecting documents based on their shared subgraphs. Finally, a GCN is applied to the heterogeneous graph to model the connectivity relationships. We evaluate our method on two tasks, assessing discourse coherence and automated essay scoring. Results show that our GCN-based model outperforms all baselines, achieving a new state-of-the-art on both tasks.
翻訳日:2023-06-13 18:56:33 公開日:2023-06-10
# ORGAN:ツリー推論による観測誘導放射線学レポート作成

ORGAN: Observation-Guided Radiology Report Generation via Tree Reasoning ( http://arxiv.org/abs/2306.06466v1 )

ライセンス: Link先を確認
Wenjun Hou, Kaishuai Xu, Yi Cheng, Wenjie Li, Jiang Liu(参考訳) 本稿では,一組のラジオグラフィーのための自由テキスト記述を生成することを目的とした,ラジオロジーレポート生成の課題について考察する。 このタスクの重要な課題の1つは、画像と長いレポートの一貫性をいかに正しく維持するかである。 これまでの研究は、高レベルな計画のみに基づいてレポートを生成する計画ベースの手法によってこの問題を解決した。 しかし、これらの計画は通常、x線写真(例えば、肺の不透明性)からの主な観察のみを含み、観察特性や予備的な臨床診断などの必要な情報が不足している。 この問題に対処するために、システムは、画像情報をテキスト計画と共に考慮し、生成プロセス中により強力な推論を行う必要がある。 本稿では,観測誘導放射線学レポート生成フレームワーク(ORGAN)を提案する。 まず、観測計画を作成し、次に、各観測のマルチフォーマットを捉えて、観測グラフとツリー推論機構を採用する、レポート作成のための計画と放射線グラフの両方を供給し、計画情報を精度良く豊かにする。 実験結果から,本フレームワークは従来のテキスト品質と臨床効果に関する最先端手法を上回っていることが判明した。

This paper explores the task of radiology report generation, which aims at generating free-text descriptions for a set of radiographs. One significant challenge of this task is how to correctly maintain the consistency between the images and the lengthy report. Previous research explored solving this issue through planning-based methods, which generate reports only based on high-level plans. However, these plans usually only contain the major observations from the radiographs (e.g., lung opacity), lacking much necessary information, such as the observation characteristics and preliminary clinical diagnoses. To address this problem, the system should also take the image information into account together with the textual plan and perform stronger reasoning during the generation process. In this paper, we propose an observation-guided radiology report generation framework (ORGAN). It first produces an observation plan and then feeds both the plan and radiographs for report generation, where an observation graph and a tree reasoning mechanism are adopted to precisely enrich the plan information by capturing the multi-formats of each observation. Experimental results demonstrate that our framework outperforms previous state-of-the-art methods regarding text quality and clinical efficacy
翻訳日:2023-06-13 18:56:20 公開日:2023-06-10
# 特徴量確率平滑化による対向ロバスト性向上

Boosting Adversarial Robustness using Feature Level Stochastic Smoothing ( http://arxiv.org/abs/2306.06462v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Samyak Jain, Gaurang Sriramanan, R. Venkatesh Babu(参考訳) 敵対的防御の進歩により、ディープニューラルネットワークの堅牢性が大幅に向上した。 しかし、現在の最先端防衛のロバストな正確性は、ロボット工学や自律ナビゲーションシステムのような重要な応用における要件とは程遠い。 さらに,実運用の場合,ネットワーク予測だけでは十分ではなく,予測に対する信頼値の割り当てが重要となる。 そこで本研究では,ネットワーク予測に確率性を導入する汎用的な手法を提案し,これを用いて決定境界を平滑化し,信頼度の低い予測を拒絶し,サンプルのロバスト性を高める。 提案する特徴レベルの確率的平滑化に基づく分類は,既存の対向訓練法を無視することなくロバスト性が向上する。 最後に,提案手法と逆検出手法を組み合わせることにより,両手法の利点を享受する。

Advances in adversarial defenses have led to a significant improvement in the robustness of Deep Neural Networks. However, the robust accuracy of present state-ofthe-art defenses is far from the requirements in critical applications such as robotics and autonomous navigation systems. Further, in practical use cases, network prediction alone might not suffice, and assignment of a confidence value for the prediction can prove crucial. In this work, we propose a generic method for introducing stochasticity in the network predictions, and utilize this for smoothing decision boundaries and rejecting low confidence predictions, thereby boosting the robustness on accepted samples. The proposed Feature Level Stochastic Smoothing based classification also results in a boost in robustness without rejection over existing adversarial training methods. Finally, we combine the proposed method with adversarial detection methods, to achieve the benefits of both approaches.
翻訳日:2023-06-13 18:56:00 公開日:2023-06-10
# 大型鋳造シリコンフォトニクスにおける波長可変量子エミッタ

Tunable quantum emitters on large-scale foundry silicon photonics ( http://arxiv.org/abs/2306.06460v1 )

ライセンス: Link先を確認
Hugo Larocque, Mustafa Atabey Buyukkaya, Carlos Errando-Herranz, Samuel Harper, Jacques Carolan, Chang-Min Lee, Christopher J.K. Richardson, Gerald L. Leake, Daniel J. Coleman, Michael L. Fanto, Edo Waks, Dirk Englund(参考訳) 単一光子と単一原子系のレベルでの大規模多体量子システム制御は、量子情報科学と技術における中心的な目標である。 集中的な研究と開発により、鋳物ベースのシリコン・オン・インシュレーターフォトニック集積回路は、個々のモードをプログラム可能な大規模光制御のための主要なプラットフォームへと推進された。 しかし、原子量子系と単一エミッタのチューナビリティを統合することは、未解決の課題である。 ここでは,高輝度赤外半導体量子ドット単一光子エミッタを含む複数InAs/InPマイクロチップレットを300〜mmのファクトリープロセスで作製したシリコンオン絶縁体フォトニック集積回路に結合することで,この障壁を克服する。 このプラットフォームでは、共振蛍光による単一光子放出と、電気的に制御された不揮発性メモリによるスケーラブルな発光波長可変性を実現する。 フォトニックと量子システムの複合制御は、半導体ファイントリーで製造されるプログラマブルな量子情報プロセッサへの扉を開く。

Controlling large-scale many-body quantum systems at the level of single photons and single atomic systems is a central goal in quantum information science and technology. Intensive research and development has propelled foundry-based silicon-on-insulator photonic integrated circuits to a leading platform for large-scale optical control with individual mode programmability. However, integrating atomic quantum systems with single-emitter tunability remains an open challenge. Here, we overcome this barrier through the hybrid integration of multiple InAs/InP microchiplets containing high-brightness infrared semiconductor quantum dot single photon emitters into advanced silicon-on-insulator photonic integrated circuits fabricated in a 300~mm foundry process. With this platform, we achieve single photon emission via resonance fluorescence and scalable emission wavelength tunability through an electrically controlled non-volatile memory. The combined control of photonic and quantum systems opens the door to programmable quantum information processors manufactured in leading semiconductor foundries.
翻訳日:2023-06-13 18:55:47 公開日:2023-06-10
# BlockTheFall:高齢者のための機械学習とブロックチェーンを利用したウェアラブルデバイスベースの転倒検出フレームワーク

BlockTheFall: Wearable Device-based Fall Detection Framework Powered by Machine Learning and Blockchain for Elderly Care ( http://arxiv.org/abs/2306.06452v1 )

ライセンス: Link先を確認
Bilash Saha, Md Saiful Islam, Abm Kamrul Riad, Sharaban Tahora, Hossain Shahriar, Sweta Sneha(参考訳) 高齢者の転倒は大きな健康上の懸念であり、重傷を負い、生活の質が低下することが多い。 本稿では,ウェアラブルデバイスからのセンサデータを用いて,リアルタイムに落下を検出するウェアラブルデバイスベースの転倒検出フレームワークであるBlockTheFallを提案する。 パターンを正確に識別し,フォールを検出するために,機械学習アルゴリズムを用いて収集したセンサデータを解析する。 データ整合性とセキュリティを保証するため、ブロックチェーン技術を使用して、フォールイベントデータを格納し、検証する。 提案手法は,高齢者全体の健康状態と緊急対応の改善を伴う転倒検出のための効率的かつ信頼性の高いソリューションを提供することを目的としている。 また,本手法の有効性と実現性を検証するための実験や評価が行われ,本手法の有効性が実証され,本手法の有効性が実証された。 タイムリーかつ正確な転倒検出および応答を提供することにより、介護の質を大幅に向上させる可能性がある。

Falls among the elderly are a major health concern, frequently resulting in serious injuries and a reduced quality of life. In this paper, we propose "BlockTheFall," a wearable device-based fall detection framework which detects falls in real time by using sensor data from wearable devices. To accurately identify patterns and detect falls, the collected sensor data is analyzed using machine learning algorithms. To ensure data integrity and security, the framework stores and verifies fall event data using blockchain technology. The proposed framework aims to provide an efficient and dependable solution for fall detection with improved emergency response, and elderly individuals' overall well-being. Further experiments and evaluations are being carried out to validate the effectiveness and feasibility of the proposed framework, which has shown promising results in distinguishing genuine falls from simulated falls. By providing timely and accurate fall detection and response, this framework has the potential to substantially boost the quality of elderly care.
翻訳日:2023-06-13 18:55:34 公開日:2023-06-10
# HIPAAChecker: Android mHealthアプリにおけるHIPAA準拠の総合ソリューション

HIPAAChecker: The Comprehensive Solution for HIPAA Compliance in Android mHealth Apps ( http://arxiv.org/abs/2306.06448v1 )

ライセンス: Link先を確認
Bilash Saha, Sharaban Tahora, Abdul Barek, Hossain Shahriar(参考訳) モバイル健康技術やmhealthアプリの普及は、個人の健康記録を保護することの重要性を最も高めている。 これらのデジタルプラットフォームは、個人が健康に関する問題を監視し管理したり、医療記録や治療情報を保存、共有、アクセスしたりすることができる。 mhealthアプリの利用が普及するにつれて、hipaa(health insurance portability and accountability act)の規制に従って、保護された健康情報(phi)が効果的かつ安全に送信、受信、作成、維持されることを保証することが不可欠である。 しかし、mHealthアプリを含む多くのモバイルアプリ開発者がHIPAAのセキュリティとプライバシガイドラインを完全に認識していないことには残念な点がある。 これは、開発者がセキュアでHIPAAに準拠したソースコードを維持するのに役立つ分析フレームワークを開発するためのユニークな機会を提供すると同時に、機密性の高い健康情報のプライバシとセキュリティに対する消費者の認識を高めます。 計画では、mHealthアプリ開発者のための統合開発環境(IDE)プラグインと、mHealthアプリコンシューマのためのWebベースのインターフェースの開発の基礎となるフレームワークを開発する予定だ。 これにより、開発者は開発プロセス中にHIPAAコンプライアンスの問題を特定して対処し、mHealthアプリのプライバシとセキュリティを評価するツールをコンシューマに提供する。 目標は、個人の健康情報を安全に保護するmHealthアプリの開発を促進することだ。

The proliferation of mobile health technology, or mHealth apps, has necessitated the paramount importance of safeguarding personal health records. These digital platforms afford individuals the ability to effortlessly monitor and manage their health-related issues, as well as store, share, and access their medical records and treatment information. As the utilization of mHealth apps becomes increasingly widespread, it is imperative to ensure that protected health information (PHI) is effectively and securely transmitted, received, created, and maintained in accordance with the regulations set forth by the Health Insurance Portability and Accountability Act (HIPAA). However, it is unfortunate to note that many mobile app developers, including those of mHealth apps, are not fully cognizant of the HIPAA security and privacy guidelines. This presents a unique opportunity for research to develop an analytical framework that can aid developers in maintaining a secure and HIPAA-compliant source code, while also raising awareness among consumers about the privacy and security of sensitive health information. The plan is to develop a framework which will serve as the foundation for developing an integrated development environment (IDE) plugin for mHealth app developers and a web-based interface for mHealth app consumers. This will help developers identify and address HIPAA compliance issues during the development process and provide consumers with a tool to evaluate the privacy and security of mHealth apps before downloading and using them. The goal is to encourage the development of secure and compliant mHealth apps that safeguard personal health information.
翻訳日:2023-06-13 18:55:18 公開日:2023-06-10
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v1 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan (Celine) Lin(参考訳) 視覚トランスフォーマー(vits)は印象的なパフォーマンスを示し、複数の視覚タスクのための統一バックボーンとなった。 しかし、ViTの注意と多層知覚(MLP)は、濃密な乗算のために十分に効率が良くないため、訓練と推論にコストがかかる。 この目的のために我々は,プリミティブ(ビットワイズシフトや加算など)の混合による事前学習ViTの再パラメータ化を,スクラッチからトレーニングを必要とせずにGPU上でのエンドツーエンドの推論高速化を目的とした,$\textbf{ShiftAddViT}$と呼ばれる新しいタイプの乗算還元モデルに向けて提案する。 特に、クエリ、キー、値の$\texttt{matmuls}$は、クエリとキーをハミングスペースのバイナリコードにマッピングした後、加算カーネルによって再パラメータ化されます。 残りのMLPや線形層はシフトカーネルによって再パラメータ化される。 我々はTVMを利用して、GPU上でハードウェアを実際に展開するためのカスタマイズされたカーネルを実装し、最適化する。 このような再パラメータ化はモデルの精度を保ちつつも,MLPに適用した場合の精度低下を必然的に招きかねない。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば乗算とシフト、新しい遅延対応ロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 原則として、より高速な専門家が実行すればするほど、大量の入力トークンが割り当てられる。 拡張実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ削減に$\textbf{5.18$\times$}、省エネに$\textbf{42.9%}を達成した。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. But both attention and multi-layer perceptions (MLPs) in ViTs are not efficient enough due to dense multiplications, resulting in costly training and inference. To this end, we propose to reparameterize the pre-trained ViT with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims for end-to-end inference speedups on GPUs without the need of training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized by additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized by shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on (quadratic or linear) attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. In principle, the faster experts run, the larger amount of input tokens are assigned. Extensive experiments consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9%}$ energy savings, while maintaining comparable accuracy as original or efficient ViTs.
翻訳日:2023-06-13 18:54:51 公開日:2023-06-10
# ランダムなメカニズムの欠如による十分同定条件と半パラメトリック推定

Sufficient Identification Conditions and Semiparametric Estimation under Missing Not at Random Mechanisms ( http://arxiv.org/abs/2306.06443v1 )

ライセンス: Link先を確認
Anna Guo, Jiwei Zhao, Razieh Nabi(参考訳) 有効な統計解析を行うことは、行方不明データ(mnar)の存在下では困難であり、欠落メカニズムは観測データに依存しても欠落値自体に依存する。 ここでは、MNARモデルについて、2つの方法で一般化する。第1に、基礎となる結合データ分布に課される統計的独立性の仮定に関して、制限が小さく、第2に、観測されたサンプルのすべての変数が欠落する値を持つことができる。 このMNARモデルは、欠落したデータ全体の非パラメトリック識別を阻止する、欠落データのグラフィカルモデルに関する文献で考えられているいわゆるcriss-cross構造に対応する。 それでも、完全なデータ分布の一部は、非パラメータ的に識別可能である。 この事実を生かして、指数関数的家族分布の豊富なクラスを考えることで、全データ分布の同定と欠落機構全体の同定に十分な条件を確立する。 そこで我々は,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。 我々は、オッズ比パラメータを推定し、対応する漸近理論を確立するための2つの半パラメトリックアプローチを採用する: 1つは、順序統計量で条件付き確率を最大化し、もう1つは方程式を推定する。 本手法の有用性はシミュレーション研究によって示される。

Conducting valid statistical analyses is challenging in the presence of missing-not-at-random (MNAR) data, where the missingness mechanism is dependent on the missing values themselves even conditioned on the observed data. Here, we consider a MNAR model that generalizes several prior popular MNAR models in two ways: first, it is less restrictive in terms of statistical independence assumptions imposed on the underlying joint data distribution, and second, it allows for all variables in the observed sample to have missing values. This MNAR model corresponds to a so-called criss-cross structure considered in the literature on graphical models of missing data that prevents nonparametric identification of the entire missing data model. Nonetheless, part of the complete-data distribution remains nonparametrically identifiable. By exploiting this fact and considering a rich class of exponential family distributions, we establish sufficient conditions for identification of the complete-data distribution as well as the entire missingness mechanism. We then propose methods for testing the independence restrictions encoded in such models using odds ratio as our parameter of interest. We adopt two semiparametric approaches for estimating the odds ratio parameter and establish the corresponding asymptotic theories: one involves maximizing a conditional likelihood with order statistics and the other uses estimating equations. The utility of our methods is illustrated via simulation studies.
翻訳日:2023-06-13 18:54:08 公開日:2023-06-10
# 画像ベクトル化:一考察

Image Vectorization: a Review ( http://arxiv.org/abs/2306.06441v1 )

ライセンス: Link先を確認
Maria Dziuba, Ivan Jarsky, Valeria Efimova and Andrey Filchenkov(参考訳) 現在、テキストや他の入力領域から画像を生成するための印象的な結果を示す拡散・自己回帰モデルが多数存在する。 しかし、これらの手法は超高分解能画像合成を意図していない。 ベクトルグラフィックスはこの欠点を欠いているので、このフォーマットでの画像の生成は非常に有望に思える。 直接ベクトル画像を生成する代わりに、まずラスタ画像を合成し、次にベクトル化を適用することができる。 ベクトル化は、原始形状を用いてラスタ画像を類似したベクトル画像に変換する過程である。 類似性に加えて、生成したベクトル画像はレンダリングのための最小の形状を含む必要がある。 本稿では,機械学習に適合するベクトル化手法に着目した。 我々はMang2Vec、Deep Vectorization of Technical Drawings、DiffVG、LIVEモデルを検討している。 また,既存のオンライン手法の概要についても概説する。 また,他のアルゴリズム手法,Im2Vec と ClipGEN モデルも参照するが,これらの手法のオープン実装や公式実装が正しく動作しないため,比較には参加していない。 本研究は, 形状や形状を直接指定できるにもかかわらず, 既存の機械学習手法が非常に長く動作し, 元の画像を正確に再現することができないことを示す。 我々は、高速な普遍的自動アプローチはなく、あらゆる方法に人的制御が必要であると考えている。

Nowadays, there are many diffusion and autoregressive models that show impressive results for generating images from text and other input domains. However, these methods are not intended for ultra-high-resolution image synthesis. Vector graphics are devoid of this disadvantage, so the generation of images in this format looks very promising. Instead of generating vector images directly, you can first synthesize a raster image and then apply vectorization. Vectorization is the process of converting a raster image into a similar vector image using primitive shapes. Besides being similar, generated vector image is also required to contain the minimum number of shapes for rendering. In this paper, we focus specifically on machine learning-compatible vectorization methods. We are considering Mang2Vec, Deep Vectorization of Technical Drawings, DiffVG, and LIVE models. We also provide a brief overview of existing online methods. We also recall other algorithmic methods, Im2Vec and ClipGEN models, but they do not participate in the comparison, since there is no open implementation of these methods or their official implementations do not work correctly. Our research shows that despite the ability to directly specify the number and type of shapes, existing machine learning methods work for a very long time and do not accurately recreate the original image. We believe that there is no fast universal automatic approach and human control is required for every method.
翻訳日:2023-06-13 18:53:43 公開日:2023-06-10
# インテリジェンス空間の定義と探索

Defining and Explorting the Intelligence Space ( http://arxiv.org/abs/2306.06499v1 )

ライセンス: Link先を確認
Paul S. Rosenbloom(参考訳) 知性は、多くの試みにもかかわらず、定義するのが難しい概念である。 この記事では,3段階の知能のネスト階層と,その周辺に構築された広い空間の両方を誘導する定義のカスケードを配置し,インテリジェンスとは何か,という広い視点を紹介する。 このインテリジェンス空間内では、人間のようなインテリジェンスというクロスオーバーの概念とともに、自然(特に人間)のインテリジェンスと人工知能(AI)の両方に対応する領域が特定される。 これらの定義は、特異性、生成的AI、倫理、知的財産権という、より先進的でより議論の的になる4つのトピックの初期の探索で活用される。

Intelligence is a difficult concept to define, despite many attempts at doing so. Rather than trying to settle on a single definition, this article introduces a broad perspective on what intelligence is, by laying out a cascade of definitions that induces both a nested hierarchy of three levels of intelligence and a wider-ranging space that is built around them and approximations to them. Within this intelligence space, regions are identified that correspond to both natural -- most particularly, human -- intelligence and artificial intelligence (AI), along with the crossover notion of humanlike intelligence. These definitions are then exploited in early explorations of four more advanced, and likely more controversial, topics: the singularity, generative AI, ethics, and intellectual property.
翻訳日:2023-06-13 18:45:36 公開日:2023-06-10
# 医用視覚言語理解・生成のためのマルチモーダル事前学習 : 新しいベンチマークによる実証的研究

Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark ( http://arxiv.org/abs/2306.06494v1 )

ライセンス: Link先を確認
Li Xu, Bo Liu, Ameer Hamza Khan, Lu Fan, Xiao-Ming Wu(参考訳) MSCOCOのような大規模で包括的で汎用的な視覚言語(VL)データセットが利用可能になったことで、視覚言語事前学習(VLP)は研究の活発な領域となり、視覚探索応答などの様々なVLタスクに有効であることが証明された。 しかし,これまでの医療領域におけるvlpの研究は少ない。 医用VLタスクにおけるVLPの総合的な視点を提供するため、統合視覚言語変換器を用いて、VLPの性能に影響を与える重要な要因を研究するための徹底的な実験的な分析を行った。 提案するRadioGraphy Captions(RGC)は,オープンアクセス型オンラインデータベースMedPixから収集した18,434枚の画像キャプチャ対を含む,高品質で多モードなラジオグラフィデータセットである。 RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用できる。 RGCやその他の利用可能なデータセットを事前トレーニングに活用することにより、将来の医療用VLP研究と、様々な医療用VLタスクのための新しい強力なベースラインをガイドできるいくつかの重要な洞察を開拓する。

With the availability of large-scale, comprehensive, and general-purpose vision-language (VL) datasets such as MSCOCO, vision-language pre-training (VLP) has become an active area of research and proven to be effective for various VL tasks such as visual-question answering. However, studies on VLP in the medical domain have so far been scanty. To provide a comprehensive perspective on VLP for medical VL tasks, we conduct a thorough experimental analysis to study key factors that may affect the performance of VLP with a unified vision-language Transformer. To allow making sound and quick pre-training decisions, we propose RadioGraphy Captions (RGC), a high-quality, multi-modality radiographic dataset containing 18,434 image-caption pairs collected from an open-access online database MedPix. RGC can be used as a pre-training dataset or a new benchmark for medical report generation and medical image-text retrieval. By utilizing RGC and other available datasets for pre-training, we develop several key insights that can guide future medical VLP research and new strong baselines for various medical VL tasks.
翻訳日:2023-06-13 18:45:22 公開日:2023-06-10
# RAMAN: Edge上の推論のための再構成可能でスパースな小さなMLアクセラレータ

RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on Edge ( http://arxiv.org/abs/2306.06493v1 )

ライセンス: Link先を確認
Adithya Krishna, Srikanth Rohit Nudurupati, Chandana D G, Pritesh Dwivedi, Andr\'e van Schaik, Mahesh Mehendale and Chetan Singh Thakur(参考訳) エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムは、ターゲットアプリケーションのレイテンシ制約を満たしながら、低コストで低電力で実装する必要があるため、難しい。 スパシティは、DNN固有のアクティベーションとウェイトの両方において、活用すべき重要なノブである。 本稿では、エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANについて述べる。 RAMANは,さまざまな畳み込みレイヤタイプと,さまざまなレイヤパラメータ(フィーチャーマップサイズとチャネル数)で構成される,幅広いDNNトポロジをサポートするように構成することができる。 RAMANは、コンパイル時および実行時にデプロイされるテクニックを使用して、電力/遅延トレードオフに対する正確性をサポートするように構成することもできる。 我々は、アーキテクチャの優れた特徴を示し、実装結果を提供し、最新技術と比較する。 RAMANはGustavsonのアルゴリズムにインスパイアされた新しいデータフローを採用し、メモリアクセスと全体的なデータ移動コストを最小限に抑えるために、最適な入力アクティベーション(IA)と出力アクティベーション(OA)を再利用する。 データフローにより、RAMANは処理要素配列内の部分和(Psum)を局所的に削減し、Psumの書き込みトラフィックを排除できる。 さらに,同じメモリ空間でiaとoaを重ね合わせることで,最大50%のストレージ要求を削減できるピークアクティベーションメモリの削減方法を提案する。 RAMANは37.2K LUTと8.6Kレジスタを使用した低消費電力かつリソース制約のEfinix Ti60 FPGA上で実装された。 RAMAN は 98.47 GOp/s/W で MobileNetV1 モデルの全層、79.68 GOp/s/W で DS-CNN モデルを処理する。

Deep Neural Network (DNN) based inference at the edge is challenging as these compute and data-intensive algorithms need to be implemented at low cost and low power while meeting the latency constraints of the target applications. Sparsity, in both activations and weights inherent to DNNs, is a key knob to leverage. In this paper, we present RAMAN, a Re-configurable and spArse tinyML Accelerator for infereNce on edge, architected to exploit the sparsity to reduce area (storage), power as well as latency. RAMAN can be configured to support a wide range of DNN topologies - consisting of different convolution layer types and a range of layer parameters (feature-map size and the number of channels). RAMAN can also be configured to support accuracy vs power/latency tradeoffs using techniques deployed at compile-time and run-time. We present the salient features of the architecture, provide implementation results and compare the same with the state-of-the-art. RAMAN employs novel dataflow inspired by Gustavson's algorithm that has optimal input activation (IA) and output activation (OA) reuse to minimize memory access and the overall data movement cost. The dataflow allows RAMAN to locally reduce the partial sum (Psum) within a processing element array to eliminate the Psum writeback traffic. Additionally, we suggest a method to reduce peak activation memory by overlapping IA and OA on the same memory space, which can reduce storage requirements by up to 50%. RAMAN was implemented on a low-power and resource-constrained Efinix Ti60 FPGA with 37.2K LUTs and 8.6K register utilization. RAMAN processes all layers of the MobileNetV1 model at 98.47 GOp/s/W and the DS-CNN model at 79.68 GOp/s/W by leveraging both weight and activation sparsity.
翻訳日:2023-06-13 18:44:58 公開日:2023-06-10
# X線、CT、MRIのオンライン学習

Online learning for X-ray, CT or MRI ( http://arxiv.org/abs/2306.06491v1 )

ライセンス: Link先を確認
Mosabbir Bhuiyan, MD Abdullah Al Nasim, Sarwar Saif, Dr. Kishor Datta Gupta, Md Jahangir Alam, Sajedul Talukder(参考訳) 医療画像は、疾患の特定において医療部門において重要な役割を担っている。 X線、CTスキャン、MRIは医療画像のいくつかの例である。 ほとんどの場合、これらのイメージング技術は疾患の検査と診断に利用される。 医療専門家は、画像を分析して問題を特定する。 しかし、人間の目が画像の複雑なパターンを認識できるとは限らないため、手動による識別は難しい。 このため、あらゆる専門家が迅速かつ正確な疾患を認識することは困難である。 近年,医療専門家は医療画像の評価にコンピュータ支援診断(CAD)システムを採用し始めている。 このシステムは画像を分析し、病気を極めて正確にかつ迅速に検出することができる。 しかし,本システムには,解析前に処理する必要があるという欠点がある。 医学研究はすでに人工知能(AI)と呼ばれる新しい研究の時代に入っています。 AIは画像から複雑なパターンを自動的に見つけ、病気を識別する。 本章では,ai技術を用いた医用イメージング手法について紹介する。

Medical imaging plays an important role in the medical sector in identifying diseases. X-ray, computed tomography (CT) scans, and magnetic resonance imaging (MRI) are a few examples of medical imaging. Most of the time, these imaging techniques are utilized to examine and diagnose diseases. Medical professionals identify the problem after analyzing the images. However, manual identification can be challenging because the human eye is not always able to recognize complex patterns in an image. Because of this, it is difficult for any professional to recognize a disease with rapidity and accuracy. In recent years, medical professionals have started adopting Computer-Aided Diagnosis (CAD) systems to evaluate medical images. This system can analyze the image and detect the disease very precisely and quickly. However, this system has certain drawbacks in that it needs to be processed before analysis. Medical research is already entered a new era of research which is called Artificial Intelligence (AI). AI can automatically find complex patterns from an image and identify diseases. Methods for medical imaging that uses AI techniques will be covered in this chapter.
翻訳日:2023-06-13 18:44:19 公開日:2023-06-10
# 等価モデルを用いたロボット把持学習について

On Robot Grasp Learning Using Equivariant Models ( http://arxiv.org/abs/2306.06489v1 )

ライセンス: Link先を確認
Xupeng Zhu, Dian Wang, Guanang Su, Ondrej Biza, Robin Walters and Robert Platt(参考訳) 実世界の把持検出は、把持ダイナミクスとハードウェアのノイズの確率性から困難である。 理想的には、システムは物理システムに直接トレーニングすることで現実世界に適応する。 しかし、ほとんどの学習モデルで必要とされる大量のトレーニングデータのために、これは一般的に難しい。 本稿では、平面把持関数が$\se(2)$-同変であることに注意し、学習中に使用されるニューラルネットワークを制約するためにこの構造が使用できることを示す。 これによってインダクティブバイアスが発生し、把持学習のサンプル効率が大幅に向上し、最大600ドルの把持試行で、物理的ロボット上でエンドツーエンドのトレーニングをスクラッチから行えるようになる。 我々はこの手法をSymGrasp Learning (SymGrasp)と呼び、物理的なロボット時間1.5時間以下で「スクラッチから」を学習できることを示します。

Real-world grasp detection is challenging due to the stochasticity in grasp dynamics and the noise in hardware. Ideally, the system would adapt to the real world by training directly on physical systems. However, this is generally difficult due to the large amount of training data required by most grasp learning models. In this paper, we note that the planar grasp function is $\SE(2)$-equivariant and demonstrate that this structure can be used to constrain the neural network used during learning. This creates an inductive bias that can significantly improve the sample efficiency of grasp learning and enable end-to-end training from scratch on a physical robot with as few as $600$ grasp attempts. We call this method Symmetric Grasp learning (SymGrasp) and show that it can learn to grasp ``from scratch'' in less that 1.5 hours of physical robot time.
翻訳日:2023-06-13 18:44:07 公開日:2023-06-10
# TensorNet:分子ポテンシャルの効率的な学習のためのモンテカルトテンソル表現

TensorNet: Cartesian Tensor Representations for Efficient Learning of Molecular Potentials ( http://arxiv.org/abs/2306.06482v1 )

ライセンス: Link先を確認
Guillem Simeon, Gianni de Fabritiis(参考訳) 分子系表現のための効率的な機械学習モデルの開発は、科学研究において重要である。 我々は、デカルトテンソル表現を利用する、革新的な$\mathrm{o}(3)$-equivariant message-passing neural networkアーキテクチャであるtensornetを紹介する。 カルトテンソル原子埋め込みを用いて、行列積演算により特徴混合を単純化する。 さらに、これらのテンソルを回転群既約表現にコスト効率良く分解することで、必要に応じてスカラー、ベクトル、テンソルの分離処理が可能になる。 高階球面テンソルモデルと比較して、TensorNetはパラメータが大幅に少ない最先端の性能を示す。 小さな分子ポテンシャルエネルギーの場合、これは単一の相互作用層でも達成できる。 これらの特性の結果として、モデルの計算コストは大幅に削減される。 さらに、ポテンシャルエネルギーと力の上のベクトルとテンソル分子量の正確な予測が可能となる。 要約すると、TensorNetのフレームワークは最先端の同変モデルの設計のための新しい空間を開く。

The development of efficient machine learning models for molecular systems representation is becoming crucial in scientific research. We introduce TensorNet, an innovative $\mathrm{O}(3)$-equivariant message-passing neural network architecture that leverages Cartesian tensor representations. By using Cartesian tensor atomic embeddings, feature mixing is simplified through matrix product operations. Furthermore, the cost-effective decomposition of these tensors into rotation group irreducible representations allows for the separate processing of scalars, vectors, and tensors when necessary. Compared to higher-rank spherical tensor models, TensorNet demonstrates state-of-the-art performance with significantly fewer parameters. For small molecule potential energies, this can be achieved even with a single interaction layer. As a result of all these properties, the model's computational cost is substantially decreased. Moreover, the accurate prediction of vector and tensor molecular quantities on top of potential energies and forces is possible. In summary, TensorNet's framework opens up a new space for the design of state-of-the-art equivariant models.
翻訳日:2023-06-13 18:43:53 公開日:2023-06-10
# Auxiliary Discourse Connective Generation を用いたアノテーションによる暗黙的談話関係分類

Annotation-Inspired Implicit Discourse Relation Classification with Auxiliary Discourse Connective Generation ( http://arxiv.org/abs/2306.06480v1 )

ライセンス: Link先を確認
Wei Liu and Michael Strube(参考訳) 暗黙の談話関係分類は、談話接続が存在しないため難しい課題である。 この問題を克服するため,我々は,pdtbのアノテーションプロセスに触発されたタスクの会話接続を明示的に生成するために,エンドツーエンドのニューラルモデルを設計する。 具体的には,議論間の談話接続を生成し,議論と生成した連結関係に基づいて談話関係を予測する。 学習の初期段階において,関係分類器が,トレーニングと推論の相違を緩和しつつ,弱い結合によって誤用されることを防止するため,共同学習にスケジューリングサンプリングを採用する。 提案手法をPDTB 2.0,PDTB 3.0,PCCの3つのベンチマークで評価した。 その結果,3つのデータセットにおいて,関節モデルは様々なベースラインを著しく上回り,タスクの優越性を示した。

Implicit discourse relation classification is a challenging task due to the absence of discourse connectives. To overcome this issue, we design an end-to-end neural model to explicitly generate discourse connectives for the task, inspired by the annotation process of PDTB. Specifically, our model jointly learns to generate discourse connectives between arguments and predict discourse relations based on the arguments and the generated connectives. To prevent our relation classifier from being misled by poor connectives generated at the early stage of training while alleviating the discrepancy between training and inference, we adopt Scheduled Sampling to the joint learning. We evaluate our method on three benchmarks, PDTB 2.0, PDTB 3.0, and PCC. Results show that our joint model significantly outperforms various baselines on three datasets, demonstrating its superiority for the task.
翻訳日:2023-06-13 18:43:40 公開日:2023-06-10
# 浅部ReLUネットワークによるニューロンの学習 : 相関入力のダイナミクスとインプシットバイアス

Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias for Correlated Inputs ( http://arxiv.org/abs/2306.06479v1 )

ライセンス: Link先を確認
Dmitry Chistikov, Matthias Englert, Ranko Lazic(参考訳) 1つのニューロンを学習する基本的な回帰タスクにおいて、小さな初期化から勾配流による任意の幅の1重層reluネットワークの訓練はゼロ損失に収束し、暗黙的にバイアスを負ってネットワークパラメータのランクを最小化することが証明される。 トレーニングポイントが教師ニューロンと相関していると仮定して,直交データセットを考慮した先行研究を補完する。 本研究は, トレーニング中, 隠れたニューロンの動態の非漸近的解析に基づいて行った。 また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。 最後に,様々な数値実験を行い,理論的な知見を裏付ける。

We prove that, for the fundamental regression task of learning a single neuron, training a one-hidden layer ReLU network of any width by gradient flow from a small initialisation converges to zero loss and is implicitly biased to minimise the rank of network parameters. By assuming that the training points are correlated with the teacher neuron, we complement previous work that considered orthogonal datasets. Our results are based on a detailed non-asymptotic analysis of the dynamics of each hidden neuron throughout the training. We also show and characterise a surprising distinction in this setting between interpolator networks of minimal rank and those of minimal Euclidean norm. Finally we perform a range of numerical experiments, which corroborate our theoretical findings.
翻訳日:2023-06-13 18:43:27 公開日:2023-06-10
# 補助言語と伝達学習を用いた低リソースNERの実現

Enhancing Low Resource NER Using Assisting Language And Transfer Learning ( http://arxiv.org/abs/2306.06477v1 )

ライセンス: Link先を確認
Maithili Sabane, Aparna Ranade, Onkar Litake, Parth Patil, Raviraj Joshi, Dipali Kadam(参考訳) 名前付きエンティティ認識(ner)はnlpの基本的なタスクであり、テキスト中の重要な情報を見つけるのに使われ、主に会話や検索システムで使われている。 商用アプリケーションでは、NERや同等のスロットフィリングメソッドが一般的な言語に広くデプロイされている。 NERは、ヒューマンリソース、カスタマーサービス、検索エンジン、コンテンツ分類、アカデミックなどのアプリケーションで使用されている。 本稿では,ヒンディー語やマラティ語など,近縁な低リソースのインドの言語の名前の識別に焦点をあてる。 教師付きNERモデルのトレーニングには、baseBERT、AlBERT、RoBERTaといったBERTの様々な適応を使用します。 また,多言語モデルとモノリンガルモデルを比較し,ベースラインを確立する。 本研究では,NERタスクにおけるヒンディー語とマラティ語の補助機能について述べる。 複数の言語で訓練されたモデルは、1つの言語よりも優れた性能を示す。 しかし、すべてのデータセットのブラインドミキシングが必ずしも改善を提供しておらず、データ選択方法が必要かもしれないことも観察した。

Named Entity Recognition (NER) is a fundamental task in NLP that is used to locate the key information in text and is primarily applied in conversational and search systems. In commercial applications, NER or comparable slot-filling methods have been widely deployed for popular languages. NER is used in applications such as human resources, customer service, search engines, content classification, and academia. In this paper, we draw focus on identifying name entities for low-resource Indian languages that are closely related, like Hindi and Marathi. We use various adaptations of BERT such as baseBERT, AlBERT, and RoBERTa to train a supervised NER model. We also compare multilingual models with monolingual models and establish a baseline. In this work, we show the assisting capabilities of the Hindi and Marathi languages for the NER task. We show that models trained using multiple languages perform better than a single language. However, we also observe that blind mixing of all datasets doesn't necessarily provide improvements and data selection methods may be required.
翻訳日:2023-06-13 18:43:11 公開日:2023-06-10
# マルチモーダル機械学習におけるモダリティの影響

Modality Influence in Multimodal Machine Learning ( http://arxiv.org/abs/2306.06476v1 )

ライセンス: Link先を確認
Abdelhamid Haouhat, Slimane Bellaouar, Attia Nehar, Hadda Cherroun(参考訳) マルチモーダル機械学習は、感性分析、感情認識、機械翻訳、ヘイト音声認識、映画ジェネア分類など、様々な応用において顕著な研究方向として現れてきた。 このアプローチは、現代のディープラーニングアーキテクチャを活用することで、有望な結果を示している。 達成にもかかわらず、データ表現、アライメント技術、推論、生成、マルチモーダル学習における定量化といった課題は残る。 また、意思決定におけるテキストモダリティの優位性に関する仮定もなされている。 しかし,マルチモーダル機械学習システムにおいて,様々なモダリティの影響について限定的な調査がなされている。 本稿では,マルチモーダル学習タスクにおける各モダリティの影響を研究することにより,このギャップを解消することを目的とする。 この研究は、推定の検証と異なるモダリティの使用に関する洞察を得ることに焦点を当てている。 この研究の主な貢献は、様々なタスクから複数のマルチモーダル機械学習モデルとデータセットに対する各モーダルの影響を決定する方法論の提案である。 具体的には,マルチモーダル感情分析,マルチモーダル感情認識,マルチモーダルヘイト音声認識,マルチモーダル病検出について検討した。 本研究の目的は,SOTA MultiModal Machine Learning Modelをマスクモードでトレーニングし,パフォーマンスへの影響を評価することである。 さらに,各タスクの最も影響力のあるモダリティやモダリティのセットを特定し,多様なマルチモーダル分類タスクの結論を導き出すことを目的としている。 これらの研究により、多モーダル学習における個別のモダリティの役割をより深く理解し、この分野での今後の進歩に価値ある洞察を提供する。

Multimodal Machine Learning has emerged as a prominent research direction across various applications such as Sentiment Analysis, Emotion Recognition, Machine Translation, Hate Speech Recognition, and Movie Genre Classification. This approach has shown promising results by utilizing modern deep learning architectures. Despite the achievements made, challenges remain in data representation, alignment techniques, reasoning, generation, and quantification within multimodal learning. Additionally, assumptions about the dominant role of textual modality in decision-making have been made. However, limited investigations have been conducted on the influence of different modalities in Multimodal Machine Learning systems. This paper aims to address this gap by studying the impact of each modality on multimodal learning tasks. The research focuses on verifying presumptions and gaining insights into the usage of different modalities. The main contribution of this work is the proposal of a methodology to determine the effect of each modality on several Multimodal Machine Learning models and datasets from various tasks. Specifically, the study examines Multimodal Sentiment Analysis, Multimodal Emotion Recognition, Multimodal Hate Speech Recognition, and Multimodal Disease Detection. The study objectives include training SOTA MultiModal Machine Learning models with masked modalities to evaluate their impact on performance. Furthermore, the research aims to identify the most influential modality or set of modalities for each task and draw conclusions for diverse multimodal classification tasks. By undertaking these investigations, this research contributes to a better understanding of the role of individual modalities in multi-modal learning and provides valuable insights for future advancements in this field.
翻訳日:2023-06-13 18:42:55 公開日:2023-06-10
# TS-MoCo:自己監督型生理学的表現学習のための時系列モーメントコントラスト

TS-MoCo: Time-Series Momentum Contrast for Self-Supervised Physiological Representation Learning ( http://arxiv.org/abs/2306.06522v1 )

ライセンス: Link先を確認
Philipp Hallgarten, David Bethge, Ozan \"Ozdenizci, Tobias Grosse-Puppendahl, Enkelejda Kasneci(参考訳) ラベル付き生理データの限られた利用は、しばしばバイオメディカルマシンインテリジェンス領域における強力な教師付きディープラーニングモデルの使用を禁止している。 本稿では,様々な生理領域の多変量時系列からラベルを必要とせずに表現を学習するために,運動量コントラストを用いた自己教師付き学習に基づく新しい符号化フレームワークを提案する。 本モデルは、線形出力分類層を最適化することにより、容易に分類問題に適用できるトランスアーキテクチャを用いる。 我々は,脳波による人間の活動認識と脳波による感情認識という,異なる領域から利用可能な2つの生理的データセットを用いて,我々の枠組みを実験的に評価した。 自己教師付き学習アプローチは,下流分類タスクで活用可能な識別的特徴を実際に学習できることを実証する。 本研究は,生理領域から多変量時系列データを効果的に解析できる,ドメインに依存しない知的システムの開発を可能にする。

Limited availability of labeled physiological data often prohibits the use of powerful supervised deep learning models in the biomedical machine intelligence domain. We approach this problem and propose a novel encoding framework that relies on self-supervised learning with momentum contrast to learn representations from multivariate time-series of various physiological domains without needing labels. Our model uses a transformer architecture that can be easily adapted to classification problems by optimizing a linear output classification layer. We experimentally evaluate our framework using two publicly available physiological datasets from different domains, i.e., human activity recognition from embedded inertial sensory and emotion recognition from electroencephalography. We show that our self-supervised learning approach can indeed learn discriminative features which can be exploited in downstream classification tasks. Our work enables the development of domain-agnostic intelligent systems that can effectively analyze multivariate time-series data from physiological domains.
翻訳日:2023-06-13 18:37:13 公開日:2023-06-10
# ユニバーサル言語モデリングエージェント

Universal Language Modelling agent ( http://arxiv.org/abs/2306.06521v1 )

ライセンス: Link先を確認
Anees Aslam(参考訳) 大規模言語モデルは複雑な言語を理解するように設計されている。 しかし、動物言語の理解は、人間と他の種とのコミュニケーションのギャップを埋めるために、長い間興味をそそられてきた。 本研究は,1400年にさかのぼるアラビア語の聖典であるクアン語に見られる言語概念から着想を得た新しいアプローチを提案する。 コーランの言語構造、特に ism, fil, harf の構成要素を探索することにより、音声データを用いて動物の会話に埋め込まれた意図や意味を解き明かすことを目指している。 動物言語の複雑な複雑さを明らかにするために,各周波数成分の分析に単語埋め込み技術を用いる。 この手法は潜在的な相関関係の同定とデータから有意義な洞察の抽出を可能にする。 さらに,自然言語処理(nlp)技術を訓練するための貴重な資源として,生体音響モデルを用いて音声を生成する。 本稿では,各単語を翻訳するよりも,動物の言語の裏側にある意図を見つけることを目的とした。

Large Language Models are designed to understand complex Human Language. Yet, Understanding of animal language has long intrigued researchers striving to bridge the communication gap between humans and other species. This research paper introduces a novel approach that draws inspiration from the linguistic concepts found in the Quran, a revealed Holy Arabic scripture dating back 1400 years. By exploring the linguistic structure of the Quran, specifically the components of ism, fil, and harf, we aim to unlock the underlying intentions and meanings embedded within animal conversations using audio data. To unravel the intricate complexities of animal language, we employ word embedding techniques to analyze each distinct frequency component. This methodology enables the identification of potential correlations and the extraction of meaningful insights from the data. Furthermore, we leverage a bioacoustics model to generate audio, which serves as a valuable resource for training natural language processing (NLP) techniques. This Paper aims to find the intention* behind animal language rather than having each word translation.
翻訳日:2023-06-13 18:36:57 公開日:2023-06-10
# 確率的多次元分類

Probabilistic Multi-Dimensional Classification ( http://arxiv.org/abs/2306.06517v1 )

ライセンス: Link先を確認
Vu-Linh Nguyen, Yang Yang and Cassio de Campos(参考訳) 多次元分類(MDC)は、各インスタンスごとに複数のクラス変数を予測する必要がある様々なアプリケーションに適用できる。 多くの既存のmdcメソッドは、少なくとも1つの不正確さ、スケーラビリティ、特定の種類のデータへの限定使用、解釈の困難さ、確率的(確実性のない)推定の欠如に苦しんでいる。 本稿は,これらすべての欠点を同時に解決する試みである。 本稿では,最適多次元分類器の学習を一般性を失うことなく分解し,(より小さい)単一変数の確率的分類器と有向非巡回グラフの集合を学習する確率的MDCの形式的枠組みを提案する。 確率的分類とグラフィカルモデル学習の両立は, 柔軟かつ確実に最適なフレームワークを, 直接的に強化することができる。 このMDCフレームワークの有用性を明らかにするために,実験の収集を行う。

Multi-dimensional classification (MDC) can be employed in a range of applications where one needs to predict multiple class variables for each given instance. Many existing MDC methods suffer from at least one of inaccuracy, scalability, limited use to certain types of data, hardness of interpretation or lack of probabilistic (uncertainty) estimations. This paper is an attempt to address all these disadvantages simultaneously. We propose a formal framework for probabilistic MDC in which learning an optimal multi-dimensional classifier can be decomposed, without loss of generality, into learning a set of (smaller) single-variable multi-class probabilistic classifiers and a directed acyclic graph. Current and future developments of both probabilistic classification and graphical model learning can directly enhance our framework, which is flexible and provably optimal. A collection of experiments is conducted to highlight the usefulness of this MDC framework.
翻訳日:2023-06-13 18:36:40 公開日:2023-06-10
# クラス非依存な画像復元のための画像適応型コードブックの学習

Learning Image-Adaptive Codebooks for Class-Agnostic Image Restoration ( http://arxiv.org/abs/2306.06513v1 )

ライセンス: Link先を確認
Kechun Liu, Yitong Jiang, Inchang Choi, Jinwei Gu(参考訳) コードブックの形で、離散生成前処理に関する最近の研究は、コードブックにまたがる離散前処理空間が多様な画像劣化に対するロバスト性を高めるため、画像再構成と復元におけるエキサイティングな性能を示している。 しかしながら、これらの手法では、異なる画像カテゴリのコードブックを個別にトレーニングする必要があるため、特定の画像カテゴリのみ(例えば、顔、アーキテクチャなど)に制限され、任意の自然画像を扱うことができない。 本稿では,クラスに依存しない画像復元のための画像適応型コードブックを学習するためのadacodeを提案する。 イメージカテゴリごとに1つのコードブックを学習するのではなく、基本コードブックのセットを学習します。 入力画像に対して、adacodeは、これらの基底コードブックの重み付き組合せを計算した重みマップを学習し、適応画像復元を行う。 直感的には、AdaCodeは以前の作業よりも柔軟で表現力豊かな離散生成である。 実験により,AdaCodeは,画像の超解像や塗装など,画像の復元と復元作業における最先端のパフォーマンスを達成できることが示されている。

Recent work on discrete generative priors, in the form of codebooks, has shown exciting performance for image reconstruction and restoration, as the discrete prior space spanned by the codebooks increases the robustness against diverse image degradations. Nevertheless, these methods require separate training of codebooks for different image categories, which limits their use to specific image categories only (e.g. face, architecture, etc.), and fail to handle arbitrary natural images. In this paper, we propose AdaCode for learning image-adaptive codebooks for class-agnostic image restoration. Instead of learning a single codebook for each image category, we learn a set of basis codebooks. For a given input image, AdaCode learns a weight map with which we compute a weighted combination of these basis codebooks for adaptive image restoration. Intuitively, AdaCode is a more flexible and expressive discrete generative prior than previous work. Experimental results demonstrate that AdaCode achieves state-of-the-art performance on image reconstruction and restoration tasks, including image super-resolution and inpainting.
翻訳日:2023-06-13 18:36:24 公開日:2023-06-10
# 領域適応のための部分識別可能性

Partial Identifiability for Domain Adaptation ( http://arxiv.org/abs/2306.06510v1 )

ライセンス: Link先を確認
Lingjing Kong, Shaoan Xie, Weiran Yao, Yujia Zheng, Guangyi Chen, Petar Stojanov, Victor Akinwande, Kun Zhang(参考訳) 教師なしのドメイン適応は、ターゲットドメインでラベル情報が利用できない多くの現実世界のアプリケーションにとって重要である。 一般に、それ以上の仮定なしでは、特徴とラベルの合同分布はターゲット領域では特定できない。 この問題に対処するために、我々は分散シフトの不要な影響を最小限に抑えるために、ドメイン間の因果メカニズムの最小限の変更の特性に依存する。 この特性を符号化するために、まず2つの分割された潜在部分空間を持つ潜在変数モデルを用いてデータ生成プロセスを定式化する。 さらに、変化するコンポーネントに制限的な影響を与えるよう、ドメインシフトを制約します。 穏やかな条件下では,潜在変数が部分的に識別可能であることを示し,対象領域におけるデータとラベルの同時分布も識別可能であることを示す。 理論的考察から,iMSDAと呼ばれる実用的なドメイン適応フレームワークを提案する。 大規模な実験結果から,iMSDAはベンチマークデータセット上で最先端のドメイン適応アルゴリズムよりも優れており,フレームワークの有効性が示された。

Unsupervised domain adaptation is critical to many real-world applications where label information is unavailable in the target domain. In general, without further assumptions, the joint distribution of the features and the label is not identifiable in the target domain. To address this issue, we rely on the property of minimal changes of causal mechanisms across domains to minimize unnecessary influences of distribution shifts. To encode this property, we first formulate the data-generating process using a latent variable model with two partitioned latent subspaces: invariant components whose distributions stay the same across domains and sparse changing components that vary across domains. We further constrain the domain shift to have a restrictive influence on the changing components. Under mild conditions, we show that the latent variables are partially identifiable, from which it follows that the joint distribution of data and labels in the target domain is also identifiable. Given the theoretical insights, we propose a practical domain adaptation framework called iMSDA. Extensive experimental results reveal that iMSDA outperforms state-of-the-art domain adaptation algorithms on benchmark datasets, demonstrating the effectiveness of our framework.
翻訳日:2023-06-13 18:36:06 公開日:2023-06-10
# クロスサイロ連合学習における協調構造最適化

Optimizing the Collaboration Structure in Cross-Silo Federated Learning ( http://arxiv.org/abs/2306.06508v1 )

ライセンス: Link先を確認
Wenxuan Bao, Haohan Wang, Jun Wu, Jingrui He(参考訳) federated learning (fl)では、複数のクライアントが協力して、データを分散させながら機械学習モデルをトレーニングする。 FLは、より多くのトレーニングデータを利用することで、潜在的な負の転送問題に悩まされる:グローバルFLモデルは、ローカルデータのみでトレーニングされたモデルよりも、さらにパフォーマンスが悪くなるかもしれない。 本稿では,クライアントの分散距離とデータ量に基づく非重複連立へのクラスタリングによる負の転送を緩和する新しいFLフレームワークであるFedCollabを提案する。 その結果、各クライアントは、同様のデータ分散を持つクライアントとのみ協働し、データが少ない場合により多くのクライアントと協調する傾向がある。 我々は,このフレームワークを,データセット,モデル,および非IIDnessのタイプで評価する。 その結果,feedcollab は幅広い fl アルゴリズムにおける負の伝達を効果的に軽減し,他のクラスタ型 fl アルゴリズムを一貫して上回ることがわかった。

In federated learning (FL), multiple clients collaborate to train machine learning models together while keeping their data decentralized. Through utilizing more training data, FL suffers from the potential negative transfer problem: the global FL model may even perform worse than the models trained with local data only. In this paper, we propose FedCollab, a novel FL framework that alleviates negative transfer by clustering clients into non-overlapping coalitions based on their distribution distances and data quantities. As a result, each client only collaborates with the clients having similar data distributions, and tends to collaborate with more clients when it has less data. We evaluate our framework with a variety of datasets, models, and types of non-IIDness. Our results demonstrate that FedCollab effectively mitigates negative transfer across a wide range of FL algorithms and consistently outperforms other clustered FL algorithms.
翻訳日:2023-06-13 18:35:48 公開日:2023-06-10
# 対物的特徴重要度を計算・可視化する

Calculating and Visualizing Counterfactual Feature Importance Values ( http://arxiv.org/abs/2306.06506v1 )

ライセンス: Link先を確認
Bjorge Meulemeester, Raphael Mazzine Barbosa De Oliveira, David Martens(参考訳) 複雑な機械学習アルゴリズムの成功は、主に予測タスクの卓越したパフォーマンスによって正当化されているが、その固有の不透明な性質は、その責任あるアプリケーションに対する挑戦である。 個々の意思決定結果を説明するための潜在的な解決策として、カウンターファクチュアルな説明が急増した。 しかし2つの大きな欠点は,(1) 特徴変化のアイソノミクス的視点,(2) 修正された各特徴が予測に影響を及ぼし,(2) 反実的説明を可視化するためのグラフィカルなリソースが欠如していること,の2つに直接的な影響がある。 各機能変更に重要値を割り当てる方法として、所定の反事実説明において、cfi(counterfactual feature (change) importance)値をソリューションとして導入します。 これらの値を計算するために,2つの潜在的CFI手法を提案する。 一つは単純で速く、欲張りのある性質がある。 もう1つはCounterShapleyと呼ばれ、事実と事実のペア間のShapley値を計算する方法を提供する。 これらの重要な値を用いて、カウンターファクトの説明を視覚化する3つのチャートタイプも導入する。 (a) 予測スコアのグレディシーケンシャルパスを示すグリーディチャートは、予測クラス変更まで増加する。 (b)その各スコアを単純かつ一次元の図で表し、最後に、カウンターサプリーチャート (c)Constellationチャートは、機能変更の可能なすべての組み合わせと、モデルの予測スコアへの影響を示す。 提案するcfi手法と可視化スキームのそれぞれについて,反事実的説明についてより詳細な情報を提供する方法を示す。 最後にオープンソース実装が提供され、あらゆる反事実説明生成アルゴリズムと互換性がある。 コードリポジトリ: https://github.com/admantwerp/counterplots

Despite the success of complex machine learning algorithms, mostly justified by an outstanding performance in prediction tasks, their inherent opaque nature still represents a challenge to their responsible application. Counterfactual explanations surged as one potential solution to explain individual decision results. However, two major drawbacks directly impact their usability: (1) the isonomic view of feature changes, in which it is not possible to observe \textit{how much} each modified feature influences the prediction, and (2) the lack of graphical resources to visualize the counterfactual explanation. We introduce Counterfactual Feature (change) Importance (CFI) values as a solution: a way of assigning an importance value to each feature change in a given counterfactual explanation. To calculate these values, we propose two potential CFI methods. One is simple, fast, and has a greedy nature. The other, coined CounterShapley, provides a way to calculate Shapley values between the factual-counterfactual pair. Using these importance values, we additionally introduce three chart types to visualize the counterfactual explanations: (a) the Greedy chart, which shows a greedy sequential path for prediction score increase up to predicted class change, (b) the CounterShapley chart, depicting its respective score in a simple and one-dimensional chart, and finally (c) the Constellation chart, which shows all possible combinations of feature changes, and their impact on the model's prediction score. For each of our proposed CFI methods and visualization schemes, we show how they can provide more information on counterfactual explanations. Finally, an open-source implementation is offered, compatible with any counterfactual explanation generator algorithm. Code repository at: https://github.com/ADMAntwerp/CounterPlots
翻訳日:2023-06-13 18:35:31 公開日:2023-06-10
# vista-morph:可視熱対の非教師なし画像登録

Vista-Morph: Unsupervised Image Registration of Visible-Thermal Facial Pairs ( http://arxiv.org/abs/2306.06505v1 )

ライセンス: Link先を確認
Catherine Ordun, Edward Raff, Sanjay Purushotham(参考訳) 様々な生体計測クロススペクトルタスクでは、可視熱(vt)対が用いられる。 しかし、ラボでのキャリブレーションの欠如により、2つの異なるセンサー間の写真撮影は、人物の再同定と生成的なaiに悪い結果をもたらす深刻なミスアライメントのペアにつながる。 この問題を解決するために,VT画像登録システムであるVista Morphを提案する。 既存のVT顔認証では、手動で手作りでピクセルマッチングや監視されたサーマルリファレンスを必要とするが、Vista Morphは参照を必要とせずに完全に監督されていない。 ViT(Vision Transformer)ベースのSpatial Transformer Network(STN)とGenerative Adversarial Networks(GAN)を通じてアフィンマトリックスを学習することにより、Vista Morphは顔と非顔のVT画像の整列に成功した。 私たちのアプローチは、ハード、ノー、ローライトの視覚設定でワープを学び、テスト時に幾何学的摂動と消去に頑健です。 V2T画像翻訳を行う際に、Vista Morphでトレーニングデータを登録することで、生成した熱面の主観的同一性を改善することを示す。

For a variety of biometric cross-spectral tasks, Visible-Thermal (VT) facial pairs are used. However, due to a lack of calibration in the lab, photographic capture between two different sensors leads to severely misaligned pairs that can lead to poor results for person re-identification and generative AI. To solve this problem, we introduce our approach for VT image registration called Vista Morph. Unlike existing VT facial registration that requires manual, hand-crafted features for pixel matching and/or a supervised thermal reference, Vista Morph is completely unsupervised without the need for a reference. By learning the affine matrix through a Vision Transformer (ViT)-based Spatial Transformer Network (STN) and Generative Adversarial Networks (GAN), Vista Morph successfully aligns facial and non-facial VT images. Our approach learns warps in Hard, No, and Low-light visual settings and is robust to geometric perturbations and erasure at test time. We conduct a downstream generative AI task to show that registering training data with Vista Morph improves subject identity of generated thermal faces when performing V2T image translation.
翻訳日:2023-06-13 18:35:05 公開日:2023-06-10
# 医療用AIモデルのドメイン転送におけるプライバシ保護は、パフォーマンスコストを伴わない:差分プライバシーの不可欠な役割

Preserving privacy in domain transfer of medical AI models comes at no performance costs: The integral role of differential privacy ( http://arxiv.org/abs/2306.06503v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Mahshad Lotfinia, Teresa Nolte, Marwin Saehn, Peter Isfort, Christiane Kuhl, Sven Nebelung, Georgios Kaissis, Daniel Truhn(参考訳) 医療で堅牢で効果的な人工知能(AI)モデルを開発するには、大量の患者データにアクセスする必要がある。 大規模なマルチ機関データセットにのみトレーニングされたAIモデルを使用することは、これに役立つが、データプライバシを確実に維持するための必須条件は、特に患者の機密性を侵害する会員推測のリスクである。 提案する治療法として,差分プライバシー(DP)の統合を提唱する。 本稿では, DPを使わずにトレーニングしたモデルに対して, トレーニング中に学習したモデル(外的検証など)の性能について, DPを使わずにトレーニングしたモデルと比較し, 臨床応用の反映となる状況について検討する。 5施設の590,000以上の胸部X線写真を用いて, 心肥大, 胸水, 肺炎, 心電図, 健常者の診断におけるDP-DTの有用性を検討した。 dp-dtと非dp-dtを併用し, 主指標としてレシーバー動作特性曲線(auc)下の領域, 精度, 感度, 特異性を用いて, 診断精度, 統計学的公平性を検討した。 その結果,DP-DTは極めて高いプライバシレベル(esilon around 1)であっても,非DP-DT(P>0.119)と同等に機能することがわかった。 さらに,DP-DTは非DP-DTと比較してほぼすべてのサブグループに対して,AUCの差が1%未満であった。 DPモデルがオンドメインアプリケーションに顕著な性能低下をもたらすという一貫した証拠にもかかわらず、オフドメインの性能はほとんど影響しないことを示す。 したがって、パフォーマンスへの影響を最小限に抑えながら、診断医療aiモデルのトレーニングにおけるdpの採用を熱心に提唱する。

Developing robust and effective artificial intelligence (AI) models in medicine requires access to large amounts of patient data. The use of AI models solely trained on large multi-institutional datasets can help with this, yet the imperative to ensure data privacy remains, particularly as membership inference risks breaching patient confidentiality. As a proposed remedy, we advocate for the integration of differential privacy (DP). We specifically investigate the performance of models trained with DP as compared to models trained without DP on data from institutions that the model had not seen during its training (i.e., external validation) - the situation that is reflective of the clinical use of AI models. By leveraging more than 590,000 chest radiographs from five institutions, we evaluated the efficacy of DP-enhanced domain transfer (DP-DT) in diagnosing cardiomegaly, pleural effusion, pneumonia, atelectasis, and in identifying healthy subjects. We juxtaposed DP-DT with non-DP-DT and examined diagnostic accuracy and demographic fairness using the area under the receiver operating characteristic curve (AUC) as the main metric, as well as accuracy, sensitivity, and specificity. Our results show that DP-DT, even with exceptionally high privacy levels (epsilon around 1), performs comparably to non-DP-DT (P>0.119 across all domains). Furthermore, DP-DT led to marginal AUC differences - less than 1% - for nearly all subgroups, relative to non-DP-DT. Despite consistent evidence suggesting that DP models induce significant performance degradation for on-domain applications, we show that off-domain performance is almost not affected. Therefore, we ardently advocate for the adoption of DP in training diagnostic medical AI models, given its minimal impact on performance.
翻訳日:2023-06-13 18:34:40 公開日:2023-06-10
# 雲中の炭素を意識した時空間負荷シフトの利点の定量化

Quantifying the Benefits of Carbon-Aware Temporal and Spatial Workload Shifting in the Cloud ( http://arxiv.org/abs/2306.06502v1 )

ライセンス: Link先を確認
Thanathorn Sukprasert, Abel Souza, Noman Bashir, David Irwin, Prashant Shenoy(参考訳) 気候変動を緩和するために、その時間と場所をいつ、どこで低炭素エネルギーが利用できるかにシフトさせることにより、コンピュータの二酸化炭素排出量を減らすことに最近焦点が当てられている。 しかしながら、炭素を意識した時空間のワークロードシフトが顕著であるにもかかわらず、以前の作業は特定の領域における特定のワークロードに対して、狭い設定でのみそのメリットを定量化してきた。 その結果、負荷特性とエネルギー特性の両方の機能である時空間的ワークロードスケジューリングの潜在的な利点は明らかでない。 そこで本論文では,クラウドを含む123の地域において,エネルギーの炭素強度の時間変化に基づいて,仕事の期間,期限,SLO,メモリフットプリントなど,さまざまな特性のワークロードに対して,炭素を意識した時空間的ワークロードシフトのメリットを1年間にわたって定量化する。 特に、一部のワークロードには、カーボンアウェアの時空間的ワークロードシフトによるメリットがあるが、このアプローチは、多くのワークロードやクラウドリージョンに限定的なメリットをもたらす。 加えて、単純なスケジューリングポリシーが多くの利点をもたらすことも示しています。 したがって、従来の知恵に反する。 一 クラウドプラットフォームの二酸化炭素排出量を著しく減少させるため、炭素を意識した時空間負荷シフトは、おそらくパナセアではない。 二 高度政策のさらなる研究を追求することは、少なからぬ利益を生じさせるおそれがある。

To mitigate climate change, there has been a recent focus on reducing computing's carbon emissions by shifting its time and location to when and where lower-carbon energy is available. However, despite the prominence of carbon-aware spatiotemporal workload shifting, prior work has only quantified its benefits in narrow settings, i.e., for specific workloads in select regions. As a result, the potential benefits of spatiotemporal workload scheduling, which are a function of both workload and energy characteristics, are unclear. To address the problem, this paper quantifies the upper bound on the benefits of carbon-aware spatiotemporal workload shifting for a wide range of workloads with different characteristics, e.g., job duration, deadlines, SLOs, memory footprint, etc., based on hourly variations in energy's carbon-intensity across 123 distinct regions, including cloud regions, over a year. Notably, while we find that some workloads can benefit from carbon-aware spatiotemporal workload shifting in some regions, the approach yields limited benefits for many workloads and cloud regions. In addition, we also show that simple scheduling policies often yield most of the benefits. Thus, contrary to conventional wisdom, i) carbon-aware spatiotemporal workload shifting is likely not a panacea for significantly reducing cloud platforms' carbon emissions, and ii) pursuing further research on sophisticated policies is likely to yield little marginal benefits.
翻訳日:2023-06-13 18:34:04 公開日:2023-06-10
# 産業におけるAIフェアネスをめぐるクロスファンクショナルコラボレーションの実践と機会

Investigating Practices and Opportunities for Cross-functional Collaboration around AI Fairness in Industry Practice ( http://arxiv.org/abs/2306.06542v1 )

ライセンス: Link先を確認
Wesley Hanwen Deng, Nur Yildirim, Monica Chang, Motahhare Eslami, Ken Holstein, Michael Madaio(参考訳) 新たな研究機関は、AI設計と開発における公平性の問題に対処する上で、非効果的なクロスファンクショナルコラボレーション(業界関係者による役割横断の学際的な作業)が大きな障壁であることを示している。 本研究では,AIフェアネスのためのクロスファンクショナルコラボレーションを実現するための実践者の現在の実践と戦術をより理解し,より効果的なコラボレーションを支援する機会を特定することを目的とした。 17社からさまざまな役割を担った23の業界実践者を対象に,一連のインタビューとデザインワークショップを開催した。 実践者は、役割間のAIフェアネスに関する理解、文脈化、評価の摩擦を克服するために、ブリッジ作業に従事していることがわかった。 さらに、フェアネスワークのためのリソースやインセンティブが不足している組織的文脈では、実践者はしばしば既存の要件(プライバシー評価など)とAI開発規範(量的評価基準の使用など)に悩まされるが、これらの戦術が根本的に損なわれる恐れがある。 最後に,このブリッジングとピギーバックの作業の一環として実践者が引き受ける,不公平のための学際的なコラボレーションを実践する見えない労働に注意を向ける。 FAccTの研究者とAI実践者の両方が、AIシステムの設計と開発における公正性のためのクロスファンクショナルなコラボレーションをよりよくサポートする機会について、議論を締めくくった。

An emerging body of research indicates that ineffective cross-functional collaboration -- the interdisciplinary work done by industry practitioners across roles -- represents a major barrier to addressing issues of fairness in AI design and development. In this research, we sought to better understand practitioners' current practices and tactics to enact cross-functional collaboration for AI fairness, in order to identify opportunities to support more effective collaboration. We conducted a series of interviews and design workshops with 23 industry practitioners spanning various roles from 17 companies. We found that practitioners engaged in bridging work to overcome frictions in understanding, contextualization, and evaluation around AI fairness across roles. In addition, in organizational contexts with a lack of resources and incentives for fairness work, practitioners often piggybacked on existing requirements (e.g., for privacy assessments) and AI development norms (e.g., the use of quantitative evaluation metrics), although they worry that these tactics may be fundamentally compromised. Finally, we draw attention to the invisible labor that practitioners take on as part of this bridging and piggybacking work to enact interdisciplinary collaboration for fairness. We close by discussing opportunities for both FAccT researchers and AI practitioners to better support cross-functional collaboration for fairness in the design and development of AI systems.
翻訳日:2023-06-13 18:27:14 公開日:2023-06-10
# 低地球軌道における平衡ホモジン検出による量子超解像

Quantum Super-Resolution with Balanced Homodyne Detection in Low-Earth-Orbit ( http://arxiv.org/abs/2306.06541v1 )

ライセンス: Link先を確認
Ronakraj K Gosalia, Robert Malaney, Ryan Aguinaldo and Jonathan Green(参考訳) 量子超解像は、レイリー限界以下の2つの源を量子光学を用いて解くことを含む。 このような手法は、高精度の衛星間測位と通信と航海星座の追跡を可能にする。 低軌道(LEO)衛星に典型的な大きさ、重量、電力制約のため、単純な解決策が好まれる。 ここでは, 単モード局所発振器を用いた平衡ホモダイン検出(BHD)が, 典型的なフォトニック損失にもかかわらず超高分解能を実現することを示す。 さらに,衛星ポインティング問題による変動性および固定型遠心性不一致の影響を解析し,固定型不一致がbhd設定の性能に比較的有害であることを確認した。 そこで本研究では,最新のLEO衛星プラットフォームで超高分解能を実現するために,BHDの実用的な評価を行う。

Quantum super-resolution involves resolving two sources below the Rayleigh limit using quantum optics. Such a technique would allow high-precision inter-satellite positioning and tracking on communication and navigation constellations. Due to the size, weight and power constraints typical of low-earth-orbit (LEO) satellites, a simple solution is often preferred. Here, we show that a balanced homodyne detection (BHD) setup using a shaped single-mode local oscillator can achieve super-resolution despite typical photonic losses. We further analyze the impact of a fluctuating and fixed centroid misalignment due to satellite pointing issues, and find that fixed misalignment is comparatively more detrimental to the performance of a BHD setup. Thus, our study provides a practical assessment of BHD to achieve super-resolution on a modern LEO satellite platform.
翻訳日:2023-06-13 18:26:31 公開日:2023-06-10
# 重み付き最大カットのための普遍量子アルゴリズムとその問題

A Universal Quantum Algorithm for Weighted Maximum Cut and Ising Problems ( http://arxiv.org/abs/2306.06539v1 )

ライセンス: Link先を確認
Natacha Kuete Meli, Florian Mannel, Jan Lellmann(参考訳) 二元組合せ問題の近似解を計算するためのハイブリッド量子古典アルゴリズムを提案する。 我々は、重み付き最大カットまたはイジングハミルトニアンをブロックエンコードするユニタリかつエルミート作用素を実装するために、浅い深さの量子回路を用いる。 この作用素の変動量子状態への期待を測定すると、量子系の変動エネルギーが得られる。 このシステムは、正規化勾配降下を用いて角度の集合を最適化することにより、問題ハミルトニアンの基底状態に向かって進化するように強制される。 実験により,提案アルゴリズムはランダムな完全連結グラフ上での最先端量子近似アルゴリズムよりも優れ,より優れた近似解を生成することでD-Wave量子アニールに挑戦する。 ソースコードとデータファイルは公開されている。

We propose a hybrid quantum-classical algorithm to compute approximate solutions of binary combinatorial problems. We employ a shallow-depth quantum circuit to implement a unitary and Hermitian operator that block-encodes the weighted maximum cut or the Ising Hamiltonian. Measuring the expectation of this operator on a variational quantum state yields the variational energy of the quantum system. The system is enforced to evolve towards the ground state of the problem Hamiltonian by optimizing a set of angles using normalized gradient descent. Experimentally, our algorithm outperforms the state-of-the-art quantum approximate optimization algorithm on random fully connected graphs and challenges D-Wave quantum annealers by producing better approximate solutions. Source code and data files are publicly available.
翻訳日:2023-06-13 18:25:55 公開日:2023-06-10
# k-テンソル:正の半定義行列のクラスタリング

K-Tensors: Clustering Positive Semi-Definite Matrices ( http://arxiv.org/abs/2306.06534v1 )

ライセンス: Link先を確認
Hanchao Zhang, Thaddeus Tarpey(参考訳) 本稿では,その固有構造に基づく正半定義行列用に設計された,新しい自己整合クラスタリングアルゴリズム(k-tensors)を提案する。 正の半定義行列は、$\re^p$, $p \ge 2$ で楕円体または楕円体として表現できるので、効果的なクラスタリングを行うために構造情報を維持することが重要である。 しかし、伝統的なクラスタリングアルゴリズムはしばしば行列をベクトル化し、重要な構造情報が失われる。 この問題に対処するために,正の半定値行列の構造情報に基づく距離計量を提案する。 この距離メートル法により、クラスタリングアルゴリズムは正の半定値行列と正の半定値行列の集合にまたがる共通空間への射影の違いを考えることができる。 正の半定義行列をクラスタリングするこの革新的なアプローチは、機能的接続データの解析など、金融および生物医学研究を含むいくつかの分野に広く応用されている。 提案アルゴリズムは,正半定値行列の構造情報を維持することにより,正半定値行列をより有意義な方法でクラスタリングし,基礎となるデータに対する深い洞察を促進する。

This paper introduces a novel self-consistency clustering algorithm (K-Tensors) designed for positive-semidefinite matrices based on their eigenstructures. As positive semi-definite matrices can be represented as ellipses or ellipsoids in $\Re^p$, $p \ge 2$, it is critical to maintain their structural information to perform effective clustering. However, traditional clustering algorithms often vectorize the matrices, resulting in a loss of essential structural information. To address this issue, we propose a distance metric that is specifically based on the structural information of positive semi-definite matrices. This distance metric enables the clustering algorithm to consider the differences between positive semi-definite matrices and their projection onto the common space spanned by a set of positive semi-definite matrices. This innovative approach to clustering positive semi-definite matrices has broad applications in several domains, including financial and biomedical research, such as analyzing functional connectivity data. By maintaining the structural information of positive semi-definite matrices, our proposed algorithm promises to cluster the positive semi-definite matrices in a more meaningful way, thereby facilitating deeper insights into the underlying data in various applications.
翻訳日:2023-06-13 18:25:32 公開日:2023-06-10
# autotamp: llmを翻訳者とチェッカーとして用いた自動回帰タスクとモーションプランニング

AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers ( http://arxiv.org/abs/2306.06531v1 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Yang Zhang, Nicholas Roy, Chuchu Fan(参考訳) 人間とロボットの効果的なインタラクションには、自然言語で記述された複雑な長期タスクを理解し、計画し、実行する必要がある。 近年の大規模言語モデル(llms)の進歩は、複雑なタスクのために自然言語をロボットのアクションシーケンスに変換することを約束している。 しかし、既存の多くのアプローチは、自然言語を直接ロボット軌道に変換するか、あるいは言語をタスクサブゴールに分解して推論プロセスを分解し、各サブゴールを実行するためにモーションプランナーに依存する。 複雑な環境と時間的制約が伴う場合、従来のタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを用いた動作計画と協調して計画タスクの推測を行い、そのような分解を抑えられないようにする。 LLMを使ってタスクサブゴールを直接計画するのではなく、自然言語タスク記述から中間タスク表現への数ショットの変換を行い、TAMPアルゴリズムによってタスクと動作プランを共同で解決する。 翻訳を改善するために,自動回帰的再プロンプトによる構文的誤りと意味的誤りの両方を自動的に検出し,訂正し,タスク補完を大幅に改善する。 提案手法は,複雑なタスク領域のプランナーとしてllmを用いた手法よりも優れていることを示す。

For effective human-robot interaction, robots need to understand, plan, and execute complex, long-horizon tasks described by natural language. The recent and remarkable advances in large language models (LLMs) have shown promise for translating natural language into robot action sequences for complex tasks. However, many existing approaches either translate the natural language directly into robot trajectories, or factor the inference process by decomposing language into task sub-goals, then relying on a motion planner to execute each sub-goal. When complex environmental and temporal constraints are involved, inference over planning tasks must be performed jointly with motion plans using traditional task-and-motion planning (TAMP) algorithms, making such factorization untenable. Rather than using LLMs to directly plan task sub-goals, we instead perform few-shot translation from natural language task descriptions to an intermediary task representation that can then be consumed by a TAMP algorithm to jointly solve the task and motion plan. To improve translation, we automatically detect and correct both syntactic and semantic errors via autoregressive re-prompting, resulting in significant improvements in task completion. We show that our approach outperforms several methods using LLMs as planners in complex task domains.
翻訳日:2023-06-13 18:25:12 公開日:2023-06-10
# 有限証人定理による多重集合、測度、グラフに対する神経注入関数

Neural Injective Functions for Multisets, Measures and Graphs via a Finite Witness Theorem ( http://arxiv.org/abs/2306.06529v1 )

ライセンス: Link先を確認
Tal Amir, Steven J. Gortler, Ilai Avni, Ravina Ravina, Nadav Dym(参考訳) インジェクティブ・マルチセット関数は、マルチセットとグラフ上の機械学習の理論研究において重要な役割を果たす。 しかし、一般に多項式モーメントに依存する理論で検討されている有理な単射多重集合関数と、通常$\textit{neural moments}$に依存する実使用の多重集合関数との間にはギャップが残っている。 本稿では,解析的非多項アクティベーションを用いることにより,ニューラルネットワークのモーメントがインジェクション的マルチセット関数を定義することを示すことで,このギャップを橋渡しする。 我々の理論が要求するモーメントの数は2の乗算係数まで最適である。 この結果を証明するために、我々は$\textit{finite witness theorem}$を宣言し、証明する。 主定理のまとめとして、多重集合と測度上の関数に対する新しい近似結果とグラフニューラルネットワークに対する新たな分離結果を導出する。 また,(1)区分線形ニューラルネットワークのモーメントは単射マルチセット関数につながりず,(2)モーメントベースマルチセット関数が単射である場合でも、バイリプシッツとはならないことを示した。

Injective multiset functions have a key role in the theoretical study of machine learning on multisets and graphs. Yet, there remains a gap between the provably injective multiset functions considered in theory, which typically rely on polynomial moments, and the multiset functions used in practice which typically rely on $\textit{neural moments}$, whose injectivity on multisets has not been studied to date. In this paper we bridge this gap by showing that moments of neural network do define an injective multiset function, provided that an analytic non-polynomial activation is used. The number of moments required by our theory is optimal up to a multiplicative factor of two. To prove this result, we state and prove a $\textit{finite witness theorem}$, which is of independent interest. As a corollary to our main theorem, we derive new approximation results for functions on multisets and measures, and new separation results for graph neural networks. We also provide two negative results: We show that (1) moments of piecewise-linear neural networks do not lead to injective multiset functions, and (2) even when moment-based multiset functions are injective, they will never be bi-Lipschitz.
翻訳日:2023-06-13 18:24:48 公開日:2023-06-10
# Pus$\mathbb{H}$:関数空間を持つ並行確率計画法

Pus$\mathbb{H}$: Concurrent Probabilistic Programming with Function Spaces ( http://arxiv.org/abs/2306.06528v1 )

ライセンス: Link先を確認
Daniel Huang, Christian Cama\~no, Jonathan Tsegaye(参考訳) ベイズ深層学習(bdl)に焦点をあてた関数空間上でベイズ推論を行うために、pus$\mathbb{h}$と呼ばれるプロトタイプ確率型プログラミング言語(ppl)を導入する。 本稿では,Pus$\mathbb{H}$のコア抽象化を,ニューラルネットワーク(NN)として特定されたモデルと,メッセージパッシングにインスパイアされたプログラミングモデルを用いて,粒子上のプロシージャとして規定された推論とをリンクする粒子に基づいて記述する。 最後に,Pus$\mathbb{H}$を,自然関数空間推論問題のある領域である科学機械学習(SciML)で使用するさまざまなモデルやデータセット上でテストし,単一ノードマルチGPUデバイス上でのPus$\mathbb{H}$のスケーリングを評価する。 そこで我々は,関数空間上のベイズ推論の文脈における確率的プログラミング,NN,並列性の組み合わせについて検討する。 コードはhttps://github.com/lbai-lab/pushにある。

We introduce a prototype probabilistic programming language (PPL) called Pus$\mathbb{H}$ for performing Bayesian inference on function spaces with a focus on Bayesian deep learning (BDL). We describe the core abstraction of Pus$\mathbb{H}$ based on particles that links models, specified as neural networks (NNs), with inference, specified as procedures on particles using a programming model inspired by message passing. Finally, we test Pus$\mathbb{H}$ on a variety of models and datasets used in scientific machine learning (SciML), a domain with natural function space inference problems, and we evaluate scaling of Pus$\mathbb{H}$ on single-node multi-GPU devices. Thus we explore the combination of probabilistic programming, NNs, and concurrency in the context of Bayesian inference on function spaces. The code can be found at https://github.com/lbai-lab/PusH.
翻訳日:2023-06-13 18:24:25 公開日:2023-06-10
# ロボット・オートノミーへのコンポーテーション・コレクションの貢献

Contribution \`a l'Optimisation d'un Comportement Collectif pour un Groupe de Robots Autonomes ( http://arxiv.org/abs/2306.06527v1 )

ライセンス: Link先を確認
Amine Bendahmane(参考訳) 本論文は集団ロボット工学の領域、特に探索・経路計画・協調の文脈におけるマルチロボットシステムの最適化問題を研究する。 これには2つの貢献がある。 1つ目は、バタフライ最適化アルゴリズム(BOA)を用いて、動的環境におけるエネルギー制約を伴う未知領域探索問題を解くことである。 このアルゴリズムは、私たちが知る限り、ロボット工学の問題を解決するために使われることはなかった。 提案手法は,クロスオーバー演算子に基づくxboaと呼ばれる新しいアルゴリズムを提案し,候補解の多様性を改善し,アルゴリズムの収束を高速化する。 第2の貢献は、探索タスクのようなロボット工学における動的増分問題をベンチマークするための新しいシミュレーションフレームワークの開発である。 このフレームワークは、様々なメタヒューリスティックと最小限の修正を迅速に比較し、シングルとマルチロボットのシナリオに容易に適応できるように、汎用的に作られています。 また、研究者に実験の自動化とビジュアル生成のためのツールを提供し、新しいアルゴリズムのモデリングなど、より重要なタスクに集中できるようにする。 有望な結果を示す一連の実験を行い、アプローチとモデルの検証を可能にしました。

This thesis studies the domain of collective robotics, and more particularly the optimization problems of multirobot systems in the context of exploration, path planning and coordination. It includes two contributions. The first one is the use of the Butterfly Optimization Algorithm (BOA) to solve the Unknown Area Exploration problem with energy constraints in dynamic environments. This algorithm was never used for solving robotics problems before, as far as we know. We proposed a new version of this algorithm called xBOA based on the crossover operator to improve the diversity of the candidate solutions and speed up the convergence of the algorithm. The second contribution is the development of a new simulation framework for benchmarking dynamic incremental problems in robotics such as exploration tasks. The framework is made in such a manner to be generic to quickly compare different metaheuristics with minimum modifications, and to adapt easily to single and multi-robot scenarios. Also, it provides researchers with tools to automate their experiments and generate visuals, which will allow them to focus on more important tasks such as modeling new algorithms. We conducted a series of experiments that showed promising results and allowed us to validate our approach and model.
翻訳日:2023-06-13 18:24:06 公開日:2023-06-10
# アクセント識別器は何を学べるか? Wav2vec2に基づくアクセント同定モデルにおける音声情報と韻律情報の探索

What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification Model ( http://arxiv.org/abs/2306.06524v1 )

ライセンス: Link先を確認
Mu Yang, Ram C. M. C. Shekar, Okim Kang, John H. L. Hansen(参考訳) 本研究は,アクセント識別(AID)微調整タスクによる自己監督学習(SSL)モデルで符号化された音素と韻律情報の変化の理解と定量化に焦点を当てた。 この問題はモデル探索に基づいて解決される。 具体的には,音素相関タスクにおいてトランスフォーマレイヤの表現を体系的に階層的に分析し,新しい単語レベルの韻律予測タスクを行う。 トレーニング済みおよび微調整済みSSLモデルの探索性能を比較した。 その結果、AIDファインチューニングタスクは上位2層を操り、よりリッチな音素と韻律表現を学ぶことができた。 これらの変化は、音声認識タスクによる微調整の効果と類似している。 また,第9層ではアクセント特異的な音素表現が強い。 要約すると、この研究はSSL機能の理解と微調整タスクとのインタラクションに関する洞察を提供する。

This study is focused on understanding and quantifying the change in phoneme and prosody information encoded in the Self-Supervised Learning (SSL) model, brought by an accent identification (AID) fine-tuning task. This problem is addressed based on model probing. Specifically, we conduct a systematic layer-wise analysis of the representations of the Transformer layers on a phoneme correlation task, and a novel word-level prosody prediction task. We compare the probing performance of the pre-trained and fine-tuned SSL models. Results show that the AID fine-tuning task steers the top 2 layers to learn richer phoneme and prosody representation. These changes share some similarities with the effects of fine-tuning with an Automatic Speech Recognition task. In addition, we observe strong accent-specific phoneme representations in layer 9. To sum up, this study provides insights into the understanding of SSL features and their interactions with fine-tuning tasks.
翻訳日:2023-06-13 18:23:48 公開日:2023-06-10
# グラフニューラルネットワークによるハミルトニアンサイクルの探索

Finding Hamiltonian cycles with graph neural networks ( http://arxiv.org/abs/2306.06523v1 )

ライセンス: Link先を確認
Filip Bosni\'c, Mile \v{S}iki\'c(参考訳) 我々は、臨界状態におけるErd\H{o}s-R\enyiランダムグラフ上のハミルトン周期を予測するために、小さなメッセージパスグラフニューラルネットワークを訓練する。 1つのGPUで約2.5時間トレーニングした後、既存の手作りヒューリスティックよりも優れています。 本研究は,計算要求問題(np-hard)を実際に解くための代替手法を提案する。 手動でヒューリスティックを設計する代わりに、ニューラルネットワークを使ってエンドツーエンドにトレーニングすることができる。 これにはいくつかの利点がある。 まず、比較的速く、問題固有の知識はほとんど必要ありません。 第二に、ネットワークはトレーニングサンプルの分布に適応でき、最も関連する問題インスタンスのパフォーマンスを向上させることができる。 モデルは人工的に生成された問題インスタンス上で教師あり学習を用いて訓練されるが、この訓練手順では教師あり信号を生成するために既存の解決器を使用しない。 最後に、モデルはより大きなグラフサイズにうまく一般化し、元の8倍のグラフでも妥当なパフォーマンスを保ちます。

We train a small message-passing graph neural network to predict Hamiltonian cycles on Erd\H{o}s-R\'enyi random graphs in a critical regime. It outperforms existing hand-crafted heuristics after about 2.5 hours of training on a single GPU. Our findings encourage an alternative approach to solving computationally demanding (NP-hard) problems arising in practice. Instead of devising a heuristic by hand, one can train it end-to-end using a neural network. This has several advantages. Firstly, it is relatively quick and requires little problem-specific knowledge. Secondly, the network can adjust to the distribution of training samples, improving the performance on the most relevant problem instances. The model is trained using supervised learning on artificially created problem instances; this training procedure does not use an existing solver to produce the supervised signal. Finally, the model generalizes well to larger graph sizes and retains reasonable performance even on graphs eight times the original size.
翻訳日:2023-06-13 18:23:33 公開日:2023-06-10
# MANER: クラッタ環境における物体のマルチエージェントニューラルアレンジメント計画

MANER: Multi-Agent Neural Rearrangement Planning of Objects in Cluttered Environments ( http://arxiv.org/abs/2306.06543v1 )

ライセンス: Link先を確認
Vivek Gupta, Praphpreet Dhir, Jeegn Dani, Ahmed H. Qureshi(参考訳) オブジェクトの並べ替えはロボット工学における根本的な問題であり、倉庫の管理から家庭のキッチンの清掃、整理まで様々な応用が考えられる。 既存の研究は主に単一エージェントのソリューションに焦点を当てているが、現実のシナリオでは複数のロボットが並べ替え作業を行う必要がある。 本稿では,複雑な環境におけるタスクシーケンシングと経路計画の課題に対処する,マルチエージェントオブジェクト再構成計画のための総合的な学習ベースフレームワークを提案する。 提案手法は,オブジェクトを反復的に選択し,その転置領域を判定し,目標配置を達成するためのキネマティック実現性とタスク到達性を備えたロボットとペアリングする。 多様な環境における本実験は,提案フレームワークの有効性とロバスト性を示すものである。 さらに, トラバース時間と成功率に関して, ベースラインアプローチと比較して, 性能が向上したことを示す。

Object rearrangement is a fundamental problem in robotics with various practical applications ranging from managing warehouses to cleaning and organizing home kitchens. While existing research has primarily focused on single-agent solutions, real-world scenarios often require multiple robots to work together on rearrangement tasks. This paper proposes a comprehensive learning-based framework for multi-agent object rearrangement planning, addressing the challenges of task sequencing and path planning in complex environments. The proposed method iteratively selects objects, determines their relocation regions, and pairs them with available robots under kinematic feasibility and task reachability for execution to achieve the target arrangement. Our experiments on a diverse range of environments demonstrate the effectiveness and robustness of the proposed framework. Furthermore, results indicate improved performance in terms of traversal time and success rate compared to baseline approaches.
翻訳日:2023-06-13 18:14:33 公開日:2023-06-10
# CoCo: 教師なしドメイン適応グラフ分類のための結合コントラストフレームワーク

CoCo: A Coupled Contrastive Framework for Unsupervised Domain Adaptive Graph Classification ( http://arxiv.org/abs/2306.04979v2 )

ライセンス: Link先を確認
Nan Yin, Li Shen, Mengzhu Wang, Long Lan, Zeyu Ma, Chong Chen, Xian-Sheng Hua, Xiao Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類において目覚ましい成果を上げたが、多くのタスク固有のラベルが必要であり、取得には広範囲にコストがかかる。 信頼できる解決策は、ターゲットドメインでの教師なし学習を強化するためにラベル付きグラフを追加することである。 しかし、グラフトポロジの探究が不十分であり、また重要な領域差があるため、GNNをドメイン適応に適用する方法は未解決のままである。 本稿では,結合学習分野からトポロジ情報を抽出し,コントラスト学習による領域差を低減するCoCo(CoCo)を提案する。 CoCoにはグラフ畳み込みネットワークブランチと階層的なグラフカーネルネットワークブランチがあり、グラフトポロジを暗黙的かつ明示的な方法で探索する。 このフレームワークは、補完的な視点から学習したグラフ表現を拡張的理解のために組み込むだけでなく、ドメインアライメントのための同じ意味を持つドメイン間のサンプルペア間の類似性を促進します。 一般的なデータセットに関する大規模な実験は、CoCoがこれらの競合するベースラインを一般的に異なる設定で上回っていることを示している。

Although graph neural networks (GNNs) have achieved impressive achievements in graph classification, they often need abundant task-specific labels, which could be extensively costly to acquire. A credible solution is to explore additional labeled graphs to enhance unsupervised learning on the target domain. However, how to apply GNNs to domain adaptation remains unsolved owing to the insufficient exploration of graph topology and the significant domain discrepancy. In this paper, we propose Coupled Contrastive Graph Representation Learning (CoCo), which extracts the topological information from coupled learning branches and reduces the domain discrepancy with coupled contrastive learning. CoCo contains a graph convolutional network branch and a hierarchical graph kernel network branch, which explore graph topology in implicit and explicit manners. Besides, we incorporate coupled branches into a holistic multi-view contrastive learning framework, which not only incorporates graph representations learned from complementary views for enhanced understanding, but also encourages the similarity between cross-domain example pairs with the same semantics for domain alignment. Extensive experiments on popular datasets show that our CoCo outperforms these competing baselines in different settings generally.
翻訳日:2023-06-13 11:36:51 公開日:2023-06-10
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v5 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-06-13 11:35:46 公開日:2023-06-10
# DP-Fast MH:大規模ベイズ推定のためのプライベート,高速,高精度メトロポリスハスティング

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference ( http://arxiv.org/abs/2303.06171v3 )

ライセンス: Link先を確認
Wanrong Zhang, Ruqi Zhang(参考訳) ベイズ推論は、複雑なデータから学習し、不確実性の下で推論するための原則付きフレームワークを提供する。 医学的診断、薬物設計、政策立案といった機械学習のタスクに広く応用されている。 これらの一般的なアプリケーションでは、データは極めて敏感である。 differential privacy (dp)は、強力な最悪ケースのプライバシー保証を備えたデータ分析ツールを提供し、プライバシ保存データ解析における主要なアプローチとして開発されている。 本稿では,最も基本的なMCMC手法の一つであるMetropolis-Hastings(MH)について,差分プライバシー下での大規模ベイズ推定について検討する。 既存のプライベートmcmcアルゴリズムの多くは、プライバシを得るために精度と効率を犠牲にしているが、ほとんどのイテレーションでデータのミニバッチのみを使用して、初めて正確かつ高速なdp mhアルゴリズムを提供する。 さらに,プライバシ,スケーラビリティ(バッチサイズ),効率性(収束率)の3方向トレードオフを初めて明らかにし,ベイズ推論におけるプライバシが実用性や計算コストに与える影響を理論的に特徴付ける。 我々は,様々な実験において,アルゴリズムの有効性と効率を実証する。

Bayesian inference provides a principled framework for learning from complex data and reasoning under uncertainty. It has been widely applied in machine learning tasks such as medical diagnosis, drug design, and policymaking. In these common applications, data can be highly sensitive. Differential privacy (DP) offers data analysis tools with powerful worst-case privacy guarantees and has been developed as the leading approach in privacy-preserving data analysis. In this paper, we study Metropolis-Hastings (MH), one of the most fundamental MCMC methods, for large-scale Bayesian inference under differential privacy. While most existing private MCMC algorithms sacrifice accuracy and efficiency to obtain privacy, we provide the first exact and fast DP MH algorithm, using only a minibatch of data in most iterations. We further reveal, for the first time, a three-way trade-off among privacy, scalability (i.e. the batch size), and efficiency (i.e. the convergence rate), theoretically characterizing how privacy affects the utility and computational cost in Bayesian inference. We empirically demonstrate the effectiveness and efficiency of our algorithm in various experiments.
翻訳日:2023-06-13 11:35:27 公開日:2023-06-10