このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230606となっている論文です。

PDF登録状況(公開日: 20230606)

TitleAuthorsAbstract論文公表日・翻訳日
# フレキシブル・バイ・コンストラクション・プログラミング

Flexible Correct-by-Construction Programming ( http://arxiv.org/abs/2211.15261v4 )

ライセンス: Link先を確認
Tobias Runge, Tabea Bordis, Alex Potanin, Thomas Th\"um, Ina Schaefer(参考訳) correctness-by-struction (cbc) は、機能的に正しいプログラムを構築するためのインクリメンタルなプログラム構築プロセスである。 プログラムは、本質的に満足が保証される仕様とともに段階的に構築されます。 cbcは、プログラム言語の上に追加のルールである固定粒度の事前定義された修正ルールを必要とするため、特別なツールサポートなしで使うのが複雑である。 各リファインメントルールは特定のプログラミングステートメントを導入し、開発者はこれらのルールから離れてプログラムを構築することはできない。 CbCはソフトウェアを構造化されたインクリメンタルな方法で開発することで、正確性を保証することができるが、柔軟性の制限はCbCの欠点である。 本研究では,従来のCbCとCbC-Block,TritCbCを比較した。 CbC-BlockとTritCbCはどちらもCbCに関連しているが、より柔軟なソフトウェア構築アプローチを可能にする新しい言語構造を持っている。 我々は、CbCと同様のプログラミングガイドラインを両方のアプローチで提供し、十分に構造化されたプログラムを生み出す。 CbC-BlockはCbCを拡張し、ステートメントのブロックを挿入する精細化ルールを追加する。 そこで我々はCbCの拡張としてCbC-Blockを導入する。 TraitCbCは、特定のメソッドによる特性に基づいて、コンストラクションの正確性を実装する。 正式にTraitCbCを導入し,建設戦略の健全性を証明する。 これら3つの開発アプローチは、プログラム構成、ツールサポート、特定のタスクや開発者に適したものを評価するユーザビリティについて質的に比較されている。

Correctness-by-Construction (CbC) is an incremental program construction process to construct functionally correct programs. The programs are constructed stepwise along with a specification that is inherently guaranteed to be satisfied. CbC is complex to use without specialized tool support, since it needs a set of predefined refinement rules of fixed granularity which are additional rules on top of the programming language. Each refinement rule introduces a specific programming statement and developers cannot depart from these rules to construct programs. CbC allows to develop software in a structured and incremental way to ensure correctness, but the limited flexibility is a disadvantage of CbC. In this work, we compare classic CbC with CbC-Block and TraitCbC. Both approaches CbC-Block and TraitCbC, are related to CbC, but they have new language constructs that enable a more flexible software construction approach. We provide for both approaches a programming guideline, which similar to CbC, leads to well-structured programs. CbC-Block extends CbC by adding a refinement rule to insert any block of statements. Therefore, we introduce CbC-Block as an extension of CbC. TraitCbC implements correctness-by-construction on the basis of traits with specified methods. We formally introduce TraitCbC and prove soundness of the construction strategy. All three development approaches are qualitatively compared regarding their programming constructs, tool support, and usability to assess which is best suited for certain tasks and developers.
翻訳日:2023-10-24 14:08:28 公開日:2023-06-06
# トリアージにおけるスクリーンショットアタッチメントの利用

Using Screenshot Attachments in Issue Reports for Triaging ( http://arxiv.org/abs/2306.03634v1 )

ライセンス: Link先を確認
Ethem Utku Aktas and Cemal Yilmaz(参考訳) 前回の研究では,1行の要約にあるテキストとイシューレポートの記述フィールドを用いて,報告した問題の解決に責任を持つステークホルダーに自動的に割り当てる「イシューTAG」をデプロイした。 2018年1月12日にトルコ最大のプライベートバンクのソフトウェア子会社であるSofttechに配備されて以来、イシューTAGは合計で301,752件を割り当てた(2021年11月現在)。 ひとつは、softtechに提出された発行報告の大部分がスクリーンショットの添付ファイルを持っており、そのような添付ファイルがある場合、レポートは1行の要約と記述フィールドで情報を伝えることが少なくなり、割り当ての正確さが低下する傾向があることです。 本研究では,この文脈ではこれまで研究されていない課題の精度を向上するために,追加の情報源としてスクリーンショットアタッチメントを用いる。 特に、複数のマルチソース(イシューレポートとスクリーンショットアタッチメントの両方を使用)と単一ソースアサインモデル(イシューレポートまたはスクリーンショットアタッチメントを使用)を開発し、実際のイシューレポートでそれらを実証的に評価する。 実験では,現在現場に展開されている単一ソースモデルと比較して,本研究で開発された最善のマルチソースモデルにおいて,スクリーンショットアタッチメントを許容可能なオーバーヘッドコストで0.843から0.858にすることで,問題レポートの割り当て精度を大幅に改善し,その結果,我々の基本的な仮説を強く支持した。

In previous work, we deployed IssueTAG, which uses the texts present in the one-line summary and the description fields of the issue reports to automatically assign them to the stakeholders, who are responsible for resolving the reported issues. Since its deployment on January 12, 2018 at Softtech, i.e., the software subsidiary of the largest private bank in Turkey, IssueTAG has made a total of 301,752 assignments (as of November 2021). One observation we make is that a large fraction of the issue reports submitted to Softtech has screenshot attachments and, in the presence of such attachments, the reports often convey less information in their one-line summary and the description fields, which tends to reduce the assignment accuracy. In this work, we use the screenshot attachments as an additional source of information to further improve the assignment accuracy, which (to the best of our knowledge) has not been studied before in this context. In particular, we develop a number of multi-source (using both the issue reports and the screenshot attachments) and single-source assignment models (using either the issue reports or the screenshot attachments) and empirically evaluate them on real issue reports. In the experiments, compared to the currently deployed single-source model in the field, the best multi-source model developed in this work, significantly (both in the practical and statistical sense) improved the assignment accuracy for the issue reports with screenshot attachments from 0.843 to 0.858 at acceptable overhead costs, a result strongly supporting our basic hypothesis.
翻訳日:2023-10-24 04:25:42 公開日:2023-06-06
# eegを用いたアダプティブユーザインタフェースのユーザエクスペリエンスの測定:レプリケーション研究

Measuring User Experience of Adaptive User Interfaces using EEG: A Replication Study ( http://arxiv.org/abs/2306.03525v1 )

ライセンス: Link先を確認
Daniel Gaspar-Figueiredo and Silvia Abrah\~ao and Emilio Insfr\'an and Jean Vanderdonckt(参考訳) アダプティブユーザインターフェースは、使用コンテキストの特性、すなわちユーザエクスペリエンス(ux)を改善するために、そのアスペクトや振る舞いを動的に変更することができるという利点がある。 UX is an important quality factor that has been primarily evaluated with classical measures but to a lesser extent with physiological measures, such as emotion recognition, skin response, or brain activity.In a previous exploratory experiment involving users with different profiles and a wide range of ages, we analysed user experience in terms of cognitive load, engagement, attraction and memorisation when employing twenty graphical adaptive menus through the use of an Electroencephalogram (EEG) device. その結果,これらの変数には統計的に有意な差が認められた。 しかし,より均質なユーザグループを用いてこれらの発見を確認または拒絶する必要があると考え,40名を対象に運用的内部複製実験を行った。 また,脳波信号と参加者の嗜好などのユーザ体験評価との相関性について検討し,参加者が異なる適応メニューと対話する場合に,脳波変数の間に統計的に有意な差があることを確認した。 さらに、参加者のUX評価と脳波信号の間には高い相関関係がみられ、分析結果から、脳波信号を用いてUXを評価することが示唆された。 検討したメニューについては,異なる構造とフォントタイプを持つグラフィカルメニューがユーザの脳反応により多くの違いをもたらすのに対し,色を用いたメニューはユーザの脳反応に類似性が大きいことが示唆された。 グラフィカル適応メニューのユーザエクスペリエンスを改善するためのいくつかの洞察を概説する。

Adaptive user interfaces have the advantage of being able to dynamically change their aspect and/or behaviour depending on the characteristics of the context of use, i.e. to improve user experience(UX). UX is an important quality factor that has been primarily evaluated with classical measures but to a lesser extent with physiological measures, such as emotion recognition, skin response, or brain activity.In a previous exploratory experiment involving users with different profiles and a wide range of ages, we analysed user experience in terms of cognitive load, engagement, attraction and memorisation when employing twenty graphical adaptive menus through the use of an Electroencephalogram (EEG) device. The results indicated that there were statistically significant differences for these four variables. However, we considered that it was necessary to confirm or reject these findings using a more homogeneous group of users.We conducted an operational internal replication study with 40 participants. We also investigated the potential correlation between EEG signals and the participants' user experience ratings, such as their preferences.The results of this experiment confirm that there are statistically significant differences between the EEG variables when the participants interact with the different adaptive menus. Moreover, there is a high correlation among the participants' UX ratings and the EEG signals, and a trend regarding performance has emerged from our analysis.These findings suggest that EEG signals could be used to evaluate UX. With regard to the menus studied, our results suggest that graphical menus with different structures and font types produce more differences in users' brain responses, while menus which use colours produce more similarities in users' brain responses. Several insights with which to improve users' experience of graphical adaptive menus are outlined.
翻訳日:2023-10-24 04:25:13 公開日:2023-06-06
# ユーザ満足に影響を及ぼすアジャイル開発プロセスの特徴を特定する

Identifying Characteristics of the Agile Development Process That Impact User Satisfaction ( http://arxiv.org/abs/2306.03483v1 )

ライセンス: Link先を確認
Minshun Yang, Seiji Sato, Hironori Washizaki, Yoshiaki Fukazawa, Juichi Takahashi(参考訳) 本研究の目的は,ユーザの満足度に影響を与えるアジャイル開発プロセスの特徴を明らかにすることである。 ossスマートフォンアプリのユーザレビューとバージョン管理システムからのさまざまなデータを用いて,ユーザ満足度とユーザ満足度に関連すると思われる開発指標の関係,特に時系列相関について検討した。 ユーザ満足度の向上,開発チームのモチベーション,適切な作業単位の設定能力,作業ルールの適切性,コードのメンテナンス性向上は,ユーザの満足度向上と相関するものとして,明確な指標は示されていない。 対照的に、リリース頻度とワークロードの変化は相関しない。

The purpose of this study is to identify the characteristics of Agile development processes that impact user satisfaction. We used user reviews of OSS smartphone apps and various data from version control systems to examine the relationships, especially time-series correlations, between user satisfaction and development metrics that are expected to be related to user satisfaction. Although no metrics conclusively indicate an improved user satisfaction, motivation of the development team, the ability to set appropriate work units, the appropriateness of work rules, and the improvement of code maintainability should be considered as they are correlated with improved user satisfaction. In contrast, changes in the release frequency and workload are not correlated.
翻訳日:2023-10-24 04:24:49 公開日:2023-06-06
# 1965-2023年におけるコンポーネントベースソフトウェアコスト推定の進展

A Review Of Progress for Component Based Software Cost Estimation From 1965 to 2023 ( http://arxiv.org/abs/2306.03971v1 )

ライセンス: Link先を確認
Muhammad Nadeem, Humaira Afzal, Muhammad. Idrees, Sajid Iqbal, M. Rafiq Asim(参考訳) コンポーネントベースのソフトウェアエンジニアリング(CBSE)は、最小限のコストと時間でCommercial Off the Shelf Components(COT)からソフトウェアを開発するために使用される。 コンポーネントベースソフトウェアコストの推定(CBSCE)は、コストと時間を節約するコンポーネントベースソフトウェア開発(CBSD)の計画とコスト見積を成功させるために、重要な事前開発活動である。 多くの研究者がCBSCEモデルの提案と開発に取り組んでいる。 1965年から2023年までCBSCEの研究と歴史をレビューする動機となっている。 この研究の範囲には、cbse、cbsce、コンポーネントベースのソフトウェアメトリクス、cots、cbse下のcbsdのすべての領域をカバーするコンポーネントベースのプロセスモデルといった分野で行われたすべての研究成果のレビューを補助することも含まれている。 インターネットベースの検索手法は、入手可能で公開された文献をレビューするために使われてきた。 また,この領域の利用可能な文献を,成分選択,研究者の年代的貢献による質,歴史図の提示といったサブ領域に分類することができる。 したがって,本研究論文は研究者にとって共通の情報源となる可能性がある。

Component Based Software Engineering (CBSE) is used to develop software from Commercial Off the Shelf Components (COTs) with minimum cost and time. Component Based Software Cost Estimation (CBSCE) is an important pre-development activity for the successful planning and cost estimation of Components-Based Software Development (CBSD) that saves cost and time. Many researchers are putting their efforts to propose and then develop a CBSCE model. This motivates to review research work and history of CBSCE from 1965 to 2023. The scope of this research also, to some extent, includes auxiliary the review of all the research work done in the areas such as CBSE, CBSCE, Component Based Software Metrics, COTs, component based process models to cover all the areas of CBSD under CBSE either to answer or to provide pointers for the answers to the questions of this area easily. Internet based search methodology has been used to review the available and published literature. This paper may also classify available literature of this area into its sub areas such as component selection, quality with chronological contribution of the researchers and pictorial presentation of its history. Thus this research paper may serve as a common source of information for the concerned researchers.
翻訳日:2023-10-24 04:14:32 公開日:2023-06-06
# $\omega$Test: AndroidアプリケーションのWebView指向テスト

$\omega$Test: WebView-Oriented Testing for Android Applications ( http://arxiv.org/abs/2306.03845v1 )

ライセンス: Link先を確認
Jiajun Hu, Lili Wei, Yepang Liu, Shing-Chi Cheung(参考訳) WebViewは、WebアプリケーションをAndroidアプリのネイティブコンテキストに統合するためのUIウィジェットである。 Androidアプリのネイティブエンド(Java)とWebエンド(JavaScript)間の双方向インタラクションのための強力なメカニズムを提供する。 しかし、これらの相互作用機構は複雑であり、様々な種類のバグを引き起こしている。 この問題を軽減するために、動的解析によってwebviewによって引き起こされるバグを検出する様々なテクニックが提案されている。 残念なことに、これらのテクニックは手作業を必要とするか、ランダムなテスト生成アプローチを採用する必要がある。 本稿では,Android アプリにおける WebView のテスト生成問題について検討する。 webviewsの効果的なテスト生成には、生成されたテストでカバーされる必須のプログラムプロパティを特定する必要がある。 そこで本研究では,WebView の振る舞いを特徴付ける WebView 固有のプロパティを提案し,それらの特性を識別するための言語間動的解析手法を提案する。 WebView固有のプロパティをカバーするイベントシーケンスを検索するテスト生成技術である$\omega$Testを開発した。 74の現実世界のオープンソースAndroidアプリの評価によると、$\omega$TestはさまざまなWebView動作をカバーし、WebViewによるバグを効果的に検出できる。 以前は知られていなかった36のバグが検出された。 アプリ開発者に報告した22のバグから、13のバグが確認され、そのうち9つは修正されました。

WebView is a UI widget that helps integrate web applications into the native context of Android apps. It provides powerful mechanisms for bi-directional interactions between the native-end (Java) and the web-end (JavaScript) of an Android app. However, these interaction mechanisms are complicated and have induced various types of bugs. To mitigate the problem, various techniques have been proposed to detect WebView-induced bugs via dynamic analysis, which heavily relies on executing tests to explore WebView behaviors. Unfortunately, these techniques either require manual effort or adopt random test generation approaches, which are not able to effectively explore diverse WebView behaviors. In this paper, we study the problem of test generation for WebViews in Android apps. Effective test generation for WebViews requires identifying the essential program properties to be covered by the generated tests. To this end, we propose WebView-specific properties to characterize WebView behaviors, and devise a cross-language dynamic analysis method to identify these properties. We develop $\omega$Test, a test generation technique that searches for event sequences covering the identified WebView-specific properties. An evaluation on 74 real-world open-/closed-source Android apps shows that $\omega$Test can cover diverse WebView behaviors and detect WebView-induced bugs effectively. $\omega$Test detected 36 previously-unknown bugs. From the 22 bugs that we have reported to the app developers, 13 bugs were confirmed, 9 of which were fixed.
翻訳日:2023-10-24 04:14:12 公開日:2023-06-06
# ソフトウェア製品ラインの可変性管理のための参照フレームワーク

A Reference Framework for Variability Management of Software Product Lines ( http://arxiv.org/abs/2306.03791v1 )

ライセンス: Link先を確認
Saiqa Aleem, Luiz Fernando Capretz, Faheem Ahmed(参考訳) ソフトウェア製品ラインエンジニアリング(SPLE)における変数管理(VM)は、資産の再利用とカスタマイズを可能にする抽象化として導入された。 vmは、特定の製品に対する可変性の識別、表現、インスタンス化、および可変性自体の進化を含む複雑なタスクである。 この研究は、定性メタ合成を用いた既存のvmアプローチの比較と対比を示し、既存のメソッドの基本的な視点、メタファ、概念を決定する。 この分析の結果、vmへの共通の参照フレームが提案された。 多様性が生じる次元の文脈でメタファーを定め、その重要な概念を識別することは、その管理をよりよく理解し、いくつかの分析と評価の機会を可能にします。 最後に,提案手法を質的研究手法を用いて評価した。 評価フェーズの結果は、実際には組織は1次元にのみ焦点をあてていることを示唆している。 提示された参照フレームは、組織がこのギャップを実際にカバーするのに役立ちます。

Variability management (VM) in software product line engineering (SPLE) is introduced as an abstraction that enables the reuse and customization of assets. VM is a complex task involving the identification, representation, and instantiation of variability for specific products, as well as the evolution of variability itself. This work presents a comparison and contrast between existing VM approaches using qualitative meta-synthesis to determine the underlying perspectives, metaphors, and concepts of existing methods. A common frame of reference for the VM was proposed as the result of this analysis. Putting metaphors in the context of the dimensions in which variability occurs and identifying its key concepts provides a better understanding of its management and enables several analyses and evaluation opportunities. Finally, the proposed framework was evaluated using a qualitative study approach. The results of the evaluation phase suggest that the organizations in practice only focus on one dimension. The presented frame of reference will help the organization to cover this gap in practice.
翻訳日:2023-10-24 04:13:47 公開日:2023-06-06
# 階層的埋め込みとセッション属性を用いた擬似セッションベースレコメンデーション

Pseudo session-based recommendation with hierarchical embedding and session attributes ( http://arxiv.org/abs/2306.10029v1 )

ライセンス: Link先を確認
Yuta Sumiya, Ryusei Numata, Satoshi Takahashi(参考訳) 近年,電子商取引(EC)のWebサイトは,プライバシの問題により,各取引データエントリに対して識別番号(ユーザID)を提供できなかった。 ほとんどのレコメンデーションメソッドは、すべてのデータがユーザIDに割り当てられていると仮定するため、ユーザIDなしではデータに適用できない。 近年,ユーザの短期行動情報であるセッション情報に基づくセッションベースレコメンデーション(SBR)が研究されている。 一般的なSBRは、関心のある項目に関する情報のみを使用してレコメンデーションを行う(ECサイトのアイテムIDなど)。 特にECサイトの場合、記録されているデータには、購入された商品の名前、アイテムの価格、カテゴリ階層、ユーザの性別と地域が含まれている。 本研究では,ユーザIDやセッションIDを使わずにECサイトの購入履歴データに対する擬似セッションを定義する。 最後に,コグニティブなヘテロジニアスハイパーグラフとグローバルグラフネットワークを備えたSBRを提案する。 その結果,我々のCoHHGN+は,他の方法よりも高い性能の商品を推薦できることがわかった。

Recently, electronic commerce (EC) websites have been unable to provide an identification number (user ID) for each transaction data entry because of privacy issues. Because most recommendation methods assume that all data are assigned a user ID, they cannot be applied to the data without user IDs. Recently, session-based recommendation (SBR) based on session information, which is short-term behavioral information of users, has been studied. A general SBR uses only information about the item of interest to make a recommendation (e.g., item ID for an EC site). Particularly in the case of EC sites, the data recorded include the name of the item being purchased, the price of the item, the category hierarchy, and the gender and region of the user. In this study, we define a pseudo--session for the purchase history data of an EC site without user IDs and session IDs. Finally, we propose an SBR with a co-guided heterogeneous hypergraph and globalgraph network plus, called CoHHGN+. The results show that our CoHHGN+ can recommend items with higher performance than other methods.
翻訳日:2023-06-26 01:49:21 公開日:2023-06-06
# Model-in-the-loop Event Coreference Resolution Annotationにおけるモデルはどの程度優れているか?

How Good is the Model in Model-in-the-loop Event Coreference Resolution Annotation? ( http://arxiv.org/abs/2306.05434v1 )

ライセンス: Link先を確認
Shafiuddin Rehan Ahmed, Abhijnan Nath, Michael Regan, Adam Pollins, Nikhil Krishnaswamy, James H. Martin(参考訳) ドキュメント間のイベントコリファレンスリンクのアノテーションは、アノテーションの品質と効率を損なう可能性のある、時間のかかる認知的に要求されるタスクである。 そこでは、機械学習モデルがイベントペアのみをコアにすることを示唆するイベントコア参照解決のためのモデル-in-the-loopアノテーションアプローチを提案する。 このアプローチの有効性をまずアノテーションプロセスをシミュレートして評価し,新しいアノテーション中心のリコール・アノテーション努力トレードオフメトリックを用いて,さまざまなモデルとデータセットの結果を比較した。 最後に,完全手動アノテーションプロセスに必要な作業負荷を大幅に削減しながら,97\%のリコールを得る方法を提案する。 コードとデータはhttps://github.com/ahmeshaf/model_in_corefで確認できる。

Annotating cross-document event coreference links is a time-consuming and cognitively demanding task that can compromise annotation quality and efficiency. To address this, we propose a model-in-the-loop annotation approach for event coreference resolution, where a machine learning model suggests likely corefering event pairs only. We evaluate the effectiveness of this approach by first simulating the annotation process and then, using a novel annotator-centric Recall-Annotation effort trade-off metric, we compare the results of various underlying models and datasets. We finally present a method for obtaining 97\% recall while substantially reducing the workload required by a fully manual annotation process. Code and data can be found at https://github.com/ahmeshaf/model_in_coref
翻訳日:2023-06-18 13:17:19 公開日:2023-06-06
# エンドツーエンド音声からテキストへの要約に向けて

Towards End-to-end Speech-to-text Summarization ( http://arxiv.org/abs/2306.05432v1 )

ライセンス: Link先を確認
Raul Monteiro and Diogo Pernes(参考訳) speech-to-text (s2t) 要約は、毎日オンラインでアップロードされる放送ニュースをフィルタリングし、追跡するための時間節約技術である。 テキスト生成機能を備えたディープラーニングによる大規模言語モデルの台頭は、文書コンテンツ(抽象要約としても知られる)のパラフレーズ化されたコンパクトバージョンを生成する要約システムに焦点をあてている。 s2t抽象要約(s2t abstractive summarization)のエンドツーエンド(e2e)モデリングは、非言語的および音響的情報を利用するリッチな潜在表現を生成する可能性を提供する有望なアプローチである。 しかし、このタスクのE2Eモデリングに関する数少ない文献は、様々なドメイン、すなわち放送ニュースの探索に失敗している。 我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。 我々の新しいE2Eモデルは、事前訓練されたT2T要約器から学習を伝達することで外部データを活用する。 実験により, カスケードおよびE2E抽象要約器は, 抽出基線よりも強いことがわかった。 しかし、E2Eモデルの性能は、そのギャップを埋めるための将来の方向を含む広範な分析の対象であるカスケードモデルの背後にある。

Speech-to-text (S2T) summarization is a time-saving technique for filtering and keeping up with the broadcast news uploaded online on a daily basis. The rise of large language models from deep learning with impressive text generation capabilities has placed the research focus on summarization systems that produce paraphrased compact versions of the document content, also known as abstractive summaries. End-to-end (E2E) modelling of S2T abstractive summarization is a promising approach that offers the possibility of generating rich latent representations that leverage non-verbal and acoustic information, as opposed to the use of only linguistic information from automatically generated transcripts in cascade systems. However, the few literature on E2E modelling of this task fails on exploring different domains, namely broadcast news, which is challenging domain where large and diversified volumes of data are presented to the user every day. We model S2T summarization both with a cascade and an E2E system for a corpus of broadcast news in French. Our novel E2E model leverages external data by resorting to transfer learning from a pre-trained T2T summarizer. Experiments show that both our cascade and E2E abstractive summarizers are stronger than an extractive baseline. However, the performance of the E2E model still lies behind the cascade one, which is object of an extensive analysis that includes future directions to close that gap.
翻訳日:2023-06-18 13:17:01 公開日:2023-06-06
# 教師なしクラスタリングによるエンドツーエンド音声認識における公平性と頑健性の改善

Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering ( http://arxiv.org/abs/2306.06083v1 )

ライセンス: Link先を確認
Irina-Elena Veliche, Pascale Fung(参考訳) 公平性の課題は、自動音声認識(asr)システムが人口のすべてのサブグループに対して等しく機能しない場合に生じる。 過去数年間、音声認識全体の品質は改善されてきたが、システムがうまく機能しないすべてのユーザーグループに対する平等性と平等性に特に焦点が当てられていない。 したがって、ASRの公平性もまた堅牢性の問題である。 一方、データプライバシはプロダクションシステムにおいても優先される。 本稿では,エンド・ツー・エンドのasrの公平性と堅牢性を改善するために,メタデータやzipコード,さらには話者や発話を直接トレーニングに組み込むことなく,プライバシ保護手法を提案する。 公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出し、教師なしの方法で音響クラスタを作成する。 話者発話の埋め込みの代わりにクラスタIDをモデルトレーニングの余分な機能として使用し、すべての人口集団、特に異なるアクセントに対する改善を示す。

The challenge of fairness arises when Automatic Speech Recognition (ASR) systems do not perform equally well for all sub-groups of the population. In the past few years there have been many improvements in overall speech recognition quality, but without any particular focus on advancing Equality and Equity for all user groups for whom systems do not perform well. ASR fairness is therefore also a robustness issue. Meanwhile, data privacy also takes priority in production systems. In this paper, we present a privacy preserving approach to improve fairness and robustness of end-to-end ASR without using metadata, zip codes, or even speaker or utterance embeddings directly in training. We extract utterance level embeddings using a speaker ID model trained on a public dataset, which we then use in an unsupervised fashion to create acoustic clusters. We use cluster IDs instead of speaker utterance embeddings as extra features during model training, which shows improvements for all demographic groups and in particular for different accents.
翻訳日:2023-06-18 12:50:07 公開日:2023-06-06
# 説明可能な人工知能における敵の攻撃と防御

Adversarial Attacks and Defenses in Explainable Artificial Intelligence: A Survey ( http://arxiv.org/abs/2306.06123v1 )

ライセンス: Link先を確認
Hubert Baniecki and Przemyslaw Biecek(参考訳) 説明可能な人工知能(XAI)手法は、統計的および深層学習モデルのデバッグと信頼、および予測の解釈の方法として描かれる。 しかし、最近の敵対的機械学習の進歩は、最先端の説明の限界と脆弱性を強調し、そのセキュリティと信頼性に疑問を投げかけている。 モデル推論の操作、不正、公正な証拠を操作する可能性は、高い意思決定と知識発見に適用した場合に有害な結果をもたらす。 この50以上の論文の簡潔な調査は、機械学習モデルの説明に対する敵意攻撃と公平さの指標に関する研究を要約している。 攻撃から防御する方法とロバストな解釈方法の設計について論じる。 我々は,XAIにおける既存の不正確性のリストに貢献し,敵のXAI(AdvXAI)における新たな研究方向性を概説する。

Explainable artificial intelligence (XAI) methods are portrayed as a remedy for debugging and trusting statistical and deep learning models, as well as interpreting their predictions. However, recent advances in adversarial machine learning highlight the limitations and vulnerabilities of state-of-the-art explanations, putting their security and trustworthiness into question. The possibility of manipulating, fooling or fairwashing evidence of the model's reasoning has detrimental consequences when applied in high-stakes decision-making and knowledge discovery. This concise survey of over 50 papers summarizes research concerning adversarial attacks on explanations of machine learning models, as well as fairness metrics. We discuss how to defend against attacks and design robust interpretation methods. We contribute a list of existing insecurities in XAI and outline the emerging research directions in adversarial XAI (AdvXAI).
翻訳日:2023-06-18 12:39:39 公開日:2023-06-06
# ATT3D:Amortized Text-to-3D Object Synthesis

ATT3D: Amortized Text-to-3D Object Synthesis ( http://arxiv.org/abs/2306.07349v1 )

ライセンス: Link先を確認
Jonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James Lucas(参考訳) テキストから3dへのモデリングは、生成的なテキストから画像へのモデルと、ニューラル・ラミアンス・フィールドのような画像から3dへの手法を組み合わせることで、エキサイティングな進歩を遂げている。 DreamFusionは最近、高品質な結果を得たが、3Dオブジェクトを作成するには、長いプロンプトごとの最適化が必要である。 これに対処するために,複数のプロンプトと統一モデルを同時にトレーニングすることで,テキストプロンプトに対する最適化を別途実施する。 これにより、プロンプトセット間で計算を共有し、プロンプト毎の最適化よりも少ない時間でトレーニングします。 我々のフレームワーク - amortized text-to-3d (att3d) - は、未発見の設定を一般化するためのプロンプト間の知識共有を可能にし、新しいアセットと単純なアニメーションのためのテキスト間のスムーズな補間を可能にします。

Text-to-3D modelling has seen exciting progress by combining generative text-to-image models with image-to-3D methods like Neural Radiance Fields. DreamFusion recently achieved high-quality results but requires a lengthy, per-prompt optimization to create 3D objects. To address this, we amortize optimization over text prompts by training on many prompts simultaneously with a unified model, instead of separately. With this, we share computation across a prompt set, training in less time than per-prompt optimization. Our framework - Amortized text-to-3D (ATT3D) - enables knowledge-sharing between prompts to generalize to unseen setups and smooth interpolations between text for novel assets and simple animations.
翻訳日:2023-06-18 12:31:03 公開日:2023-06-06
# スマートフォンにおけるAR応用の倫理的考察 : 消費者視点の体系的文献レビュー

Ethical Considerations of AR Applications in Smartphones; A Systematic Literature Review of Consumer Perspectives ( http://arxiv.org/abs/2306.07288v1 )

ライセンス: Link先を確認
Nicola J Wood(参考訳) 本研究は,スマートフォンアプリケーションにおける拡張現実(AR)を消費者が認識する倫理的考察に焦点をあてる。 この研究は、体系的なレビューを通じて、消費者がこの成長する技術に対する倫理的考慮事項を考慮し、開発者、製品マネージャ、デジタルマーケッター、および関連するビジネスプロフェッショナルがモバイルAR関連のアプリケーションやキャンペーンを効果的に実装し、展開するための理解と能力を提供することができる。 デジタルトランスフォーメーションと新しいテクノロジーの台頭がこの研究の議題となった。 その結果,「ベネフィット」と「倫理的考察」の2つの要因が明らかになった。 これらの2つの要因の中で、AR応用に関するいくつかの消費者認識テーマが特定され、それらの関連は正、負、中性のいずれかに分類された。 'benefits'はパーソナライズ、対話性、情報獲得という3つの一貫したテーマを明らかにした。 「倫理的考察」は、教育意識、プライバシー、透明性、セキュリティの一貫したパターンを明らかにした。 消費者の認識を特定することから、ビジネスの専門家はarアプリケーション開発や製品の採用戦略、マーケティングの目的において、固有の制限や関連に戦略的に対処し、あるいは挑戦することができる。

This study focuses on the ethical considerations that a consumer perceives with augmented reality (AR) in the context of smartphone applications. Through a systematic review, this research can provide an understanding and ability for developers, product managers, digital marketers and associated business professionals to effectively implement and deploy mobile AR related applications and campaigns, with consideration to the perceptions of the ethical considerations that consumers have of this growing technology. The rise in digital transformation and new technologies paved this research agenda. Trends in the data revealed two overarching factors of 'Benefits' and 'Ethical Considerations'. Within these two factors, several consumer perceived themes were identified with regards to AR applications and their association categorised either positive, negative or neutral. 'Benefits' revealed 3 consistent themes of personalisation, interactivity and information acquisition. 'Ethical Considerations' revealed consistent patterns of educational awareness, privacy, transparency and security. From identifying the consumer perceptions, business professionals can strategically address and or challenge the inherent limitations and their associations during AR application development, product adoption strategies or marketing purposes.
翻訳日:2023-06-18 12:30:23 公開日:2023-06-06
# 文脈確率ブロックモデルにおける最適推論

Optimal Inference in Contextual Stochastic Block Models ( http://arxiv.org/abs/2306.07948v1 )

ライセンス: Link先を確認
O. Duranthon and L. Zdeborov\'a(参考訳) グラフと高次元ノード情報の両方がノードラベルと相関する属性グラフ上での教師なしコミュニティ検出のために,文脈確率ブロックモデル(cSBM)を提案した。 グラフ上の機械学習の文脈において、cSBMは半教師付きノード分類のためのグラフニューラルネットワーク(GNN)の性能を評価するための合成データセットとして広く使われている。 我々は、確率論的ベイズ最適化による推論問題の定式化を検討し、半教師付きcSBMに対する信念プロパゲーションに基づくアルゴリズムを導出する。 本稿では,本アルゴリズムが到達した精度と,本論文で提案したGNNアーキテクチャの性能との間には,かなりのギャップが存在することを示す。 このことは、より高性能なGNNアーキテクチャの開発において、cSBMが最適アルゴリズムの性能との比較とともに、我々の実装を通して容易にアクセス可能であることを示唆している。

The contextual stochastic block model (cSBM) was proposed for unsupervised community detection on attributed graphs where both the graph and the high-dimensional node information correlate with node labels. In the context of machine learning on graphs, the cSBM has been widely used as a synthetic dataset for evaluating the performance of graph-neural networks (GNNs) for semi-supervised node classification. We consider a probabilistic Bayes-optimal formulation of the inference problem and we derive a belief-propagation-based algorithm for the semi-supervised cSBM; we conjecture it is optimal in the considered setting and we provide its implementation. We show that there can be a considerable gap between the accuracy reached by this algorithm and the performance of the GNN architectures proposed in the literature. This suggests that the cSBM, along with the comparison to the performance of the optimal algorithm, readily accessible via our implementation, can be instrumental in the development of more performant GNN architectures.
翻訳日:2023-06-18 12:18:40 公開日:2023-06-06
# BTS:時間変化CSIによる屋内二室状態検出のための半監督学習における教師の2倍の学習

BTS: Bifold Teacher-Student in Semi-Supervised Learning for Indoor Two-Room Presence Detection Under Time-Varying CSI ( http://arxiv.org/abs/2212.10802v3 )

ライセンス: Link先を確認
Li-Hsiang Shen, Kai-Jui Chen, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年,教師付き学習(SL)とチャネル状態情報(CSI)に基づく屋内人間の存在検知が注目されている。 しかし、csiの空間情報に依存する既存の研究は、予測精度を低下させる環境変化に影響を受けやすい。 さらに、SLベースの手法では、モデルの再トレーニングに時間を要する。 したがって、半教師付き学習方式(SSL)を用いて、継続的に監視されるモデルを設計することが不可欠である。 本稿では,隣接する2室のシナリオにおいて,屋内における人間の存在検知のための2次元教師学生学習手法を提案する。 提案するSSLベースの初等二元学習ネットワークは、ラベル付きCSIデータセットから空間的・時間的特徴をインテリジェントに学習する。 さらに、強化されたペナル化損失関数はエントロピーと距離の計測を利用して、漂流したデータ、すなわち時間変化の影響を受け、元の分布から変化した新しいデータセットの特徴を区別する。 実験結果から,BTSシステムはラベルのないデータでモデルを再訓練した後,漸近的精度を維持できることが示された。 さらに、BTSは既存のSSLベースのモデルよりも高い検出精度を示し、SLベースの手法の漸近性能を実現している。

In recent years, indoor human presence detection based on supervised learning (SL) and channel state information (CSI) has attracted much attention. However, existing studies that rely on spatial information of CSI are susceptible to environmental changes which degrade prediction accuracy. Moreover, SL-based methods require time-consuming data labeling for retraining models. Therefore, it is imperative to design a continuously monitored model using a semi-supervised learning (SSL) based scheme. In this paper, we conceive a bifold teacher-student (BTS) learning approach for indoor human presence detection in an adjoining two-room scenario. The proposed SSL-based primal-dual teacher-student network intelligently learns spatial and temporal features from labeled and unlabeled CSI datasets. Additionally, the enhanced penalized loss function leverages entropy and distance measures to distinguish drifted data, i.e., features of new datasets affected by time-varying effects and altered from the original distribution. Experimental results demonstrate that the proposed BTS system sustains asymptotic accuracy after retraining the model with unlabeled data. Furthermore, BTS outperforms existing SSL-based models in terms of the highest detection accuracy while achieving the asymptotic performance of SL-based methods.
翻訳日:2023-06-09 20:00:42 公開日:2023-06-06
# GaitMPL: メモリ拡張プログレッシブラーニングによる歩行認識

GaitMPL: Gait Recognition with Memory-Augmented Progressive Learning ( http://arxiv.org/abs/2306.04650v1 )

ライセンス: Link先を確認
Huanzhang Dou, Pengyi Zhang, Yuhan Zhao, Lin Dong, Zequn Qin, Xi Li(参考訳) 歩行認識は、歩行パターンによって歩行者を遠くに識別することを目的としている。 様々な共変量とシルエットの性質(無テクスチャーと無色)により本質的に困難であり、結果として2種類の硬いサンプルが生じる:同じ歩行者は異なるシルエット(クラス内多様性)を持ち、異なる歩行者は類似したシルエット(クラス間類似性)を持つ。 本稿では,dpl(dynamic reweighting progressive learning module)とgsam(global structure-aligned memory bank)を含む,メモリ提示型プログレッシブ学習ネットワーク(gaitmpl)を用いて,ハードサンプル問題を解くことを提案する。 具体的には、DRPLは、ハードサンプルの学習難度を、容易にハードプログレッシブな学習によって低減する。 さらにGSAMはDRPLを構造整列メモリ機構で拡張し、各IDの特徴分布を維持し、モデル化する。 CASIA-BとOU-MVLPという2つの一般的なデータセットの実験は、GaitMPLの有効性を実証している。 CASIA-Bでは、最も難易度の高い条件(クロッシング)では88.0%、平均条件では93.3%の最先端性能を達成し、それぞれ3.8%と1.4%で他の手法を上回った。

Gait recognition aims at identifying the pedestrians at a long distance by their biometric gait patterns. It is inherently challenging due to the various covariates and the properties of silhouettes (textureless and colorless), which result in two kinds of pair-wise hard samples: the same pedestrian could have distinct silhouettes (intra-class diversity) and different pedestrians could have similar silhouettes (inter-class similarity). In this work, we propose to solve the hard sample issue with a Memory-augmented Progressive Learning network (GaitMPL), including Dynamic Reweighting Progressive Learning module (DRPL) and Global Structure-Aligned Memory bank (GSAM). Specifically, DRPL reduces the learning difficulty of hard samples by easy-to-hard progressive learning. GSAM further augments DRPL with a structure-aligned memory mechanism, which maintains and models the feature distribution of each ID. Experiments on two commonly used datasets, CASIA-B and OU-MVLP, demonstrate the effectiveness of GaitMPL. On CASIA-B, we achieve the state-of-the-art performance, i.e., 88.0% on the most challenging condition (Clothing) and 93.3% on the average condition, which outperforms the other methods by at least 3.8% and 1.4%, respectively.
翻訳日:2023-06-09 18:33:41 公開日:2023-06-06
# 数学支援の指向進化とタンパク質工学

Mathematics-assisted directed evolution and protein engineering ( http://arxiv.org/abs/2306.04658v1 )

ライセンス: Link先を確認
Yuchi Qiu, Guo-Wei Wei(参考訳) 有向進化 (directed evolution) は、タンパク質工学を変換し、望ましい性質と機能を持つタンパク質を作製する分子生物学技術である。 しかし、Nがアミノ酸の数である20^N$までスケールする巨大な突然変異空間のため、タンパク質ライブラリー全体の深い突然変異スキャンを実行することは実験的に不可能である。 これにより、AI支援指向進化(AIDE)やAI支援タンパク質工学(AIPE)が、新たな研究分野として急速に成長した。 長期記憶、オートエンコーダ、トランスフォーマーなどの高度な自然言語処理(NLP)技術によって、シーケンスベースの埋め込みはAIDEやAIPEにおいて支配的なアプローチとなっている。 トポロジカルデータ解析(TDA)の新興技術であるPersistent Laplaciansは、構造ベースの埋め込みをAIDEとAIPEのスーパーブオプションにした。 我々は、永続的なラプラシアン、永続的なパスラプラシアン、永続的な層ラプラシアン、永続的なハイパーグラフラプラシアン、永続的なハイパーディグラフラプラシアン、進化的ド・ラム=ホッジ理論を含む永続的なトポロジカルラプラシアン(PTL)のクラスが、現在のTDAの限界を効果的に克服し、より強力なTDAアプローチの新たな世代を提供することができると主張している。 トポロジカルディープラーニングの一般的な枠組みでは、数学支援指向進化(MADE)は将来のタンパク質工学に大きな可能性を秘めている。

Directed evolution is a molecular biology technique that is transforming protein engineering by creating proteins with desirable properties and functions. However, it is experimentally impossible to perform the deep mutational scanning of the entire protein library due to the enormous mutational space, which scales as $20^N$ , where N is the number of amino acids. This has led to the rapid growth of AI-assisted directed evolution (AIDE) or AI-assisted protein engineering (AIPE) as an emerging research field. Aided with advanced natural language processing (NLP) techniques, including long short-term memory, autoencoder, and transformer, sequence-based embeddings have been dominant approaches in AIDE and AIPE. Persistent Laplacians, an emerging technique in topological data analysis (TDA), have made structure-based embeddings a superb option in AIDE and AIPE. We argue that a class of persistent topological Laplacians (PTLs), including persistent Laplacians, persistent path Laplacians, persistent sheaf Laplacians, persistent hypergraph Laplacians, persistent hyperdigraph Laplacians, and evolutionary de Rham-Hodge theory, can effectively overcome the limitations of the current TDA and offer a new generation of more powerful TDA approaches. In the general framework of topological deep learning, mathematics-assisted directed evolution (MADE) has a great potential for future protein engineering.
翻訳日:2023-06-09 18:23:04 公開日:2023-06-06
# 分解能変換スペクトログラムを用いたディープラーニングによる変調分類

Modulation Classification Through Deep Learning Using Resolution Transformed Spectrograms ( http://arxiv.org/abs/2306.04655v1 )

ライセンス: Link先を確認
Muhammad Waqas, Muhammad Ashraf, Muhammad Zakwan(参考訳) 変調分類は信号処理の重要なステップであり、通信の分野で定期的に適用されている。 時間に関する周波数の変動は、変調形式が異なる無線信号の間で重要な区別が残っており、1次元無線信号を周波数領域に変換することで特徴抽出に使用できる。 本稿では,11種類の変調タイプのスペクトル画像を生成することで,畳み込みニューラルネットワーク(CNN)の現代的なアーキテクチャを用いた自動変調分類(AMC)手法を提案する。 さらに,計算負荷の99.61%を削減し,受信したi/qデータから8倍高速に変換できるスペクトログラムの分解能変換を行う。 提案するAMCはCPUとGPU上に実装され,信号のアナログ信号変調方式とデジタル信号の認識を行う。 squeezenet, resnet-50, inceptionresnet-v2, inception-v3, vgg-16, densenet-201などの既存のcnnモデルで性能を評価する。 91.2%の最良の結果は、信号中のawgnや他のノイズ障害の存在下で達成され、変換されたスペクトログラムベースのamcは、スペクトル特徴が非常に識別性が高く、cnnベースのモデルではこれらの高次元特徴を抽出する能力があるため、分類精度が良い。 分光図は5dbから30dbの異なるSNRで作成され、ステップサイズは5dbであり、様々なSNRレベルで実験結果が観察された。 提案手法は,リアルタイムアプリケーションのための無線通信ネットワークに適用可能である。

Modulation classification is an essential step of signal processing and has been regularly applied in the field of tele-communication. Since variations of frequency with respect to time remains a vital distinction among radio signals having different modulation formats, these variations can be used for feature extraction by converting 1-D radio signals into frequency domain. In this paper, we propose a scheme for Automatic Modulation Classification (AMC) using modern architectures of Convolutional Neural Networks (CNN), through generating spectrum images of eleven different modulation types. Additionally, we perform resolution transformation of spectrograms that results up to 99.61% of computational load reduction and 8x faster conversion from the received I/Q data. This proposed AMC is implemented on CPU and GPU, to recognize digital as well as analogue signal modulation schemes on signals. The performance is evaluated on existing CNN models including SqueezeNet, Resnet-50, InceptionResnet-V2, Inception-V3, VGG-16 and Densenet-201. Best results of 91.2% are achieved in presence of AWGN and other noise impairments in the signals, stating that the transformed spectrogram-based AMC has good classification accuracy as the spectral features are highly discriminant, and CNN based models have capability to extract these high-dimensional features. The spectrograms were created under different SNRs ranging from 5 to 30db with a step size of 5db to observe the experimental results at various SNR levels. The proposed methodology is efficient to be applied in wireless communication networks for real-time applications.
翻訳日:2023-06-09 18:22:35 公開日:2023-06-06
# DenseDino: トークンベースのポイントレベル一貫性による高密度自己指導学習の促進

DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency ( http://arxiv.org/abs/2306.04654v1 )

ライセンス: Link先を確認
Yike Yuan, Xinghe Fu, Yunlong Yu, Xi Li(参考訳) 本稿では,DenseDINOと呼ばれる自己教師型学習のための簡易かつ効果的なトランスフォーマフレームワークを提案する。 従来の自己監督型トランスフォーマーでは,高密度な予測タスクは必要だが無視される空間情報を活用するために,新しいトークンベース方式で視点を横断するポイントレベルの監視を導入する。 具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。 参照トークンを用いて、モデルは空間的整合性を維持し、多目的複雑なシーン画像を扱うことができ、より密集した予測タスクをより一般化することができる。 バニラ・ディノと比較すると,imagenetの分類で評価した場合の競争性能が向上し,セグメンテーションのための線形プローブプロトコルの下でpascalvocの意味セグメンテーションにおいて,大きなマージン(+7.2%miou)が向上した。

In this paper, we propose a simple yet effective transformer framework for self-supervised learning called DenseDINO to learn dense visual representations. To exploit the spatial information that the dense prediction tasks require but neglected by the existing self-supervised transformers, we introduce point-level supervision across views in a novel token-based way. Specifically, DenseDINO introduces some extra input tokens called reference tokens to match the point-level features with the position prior. With the reference token, the model could maintain spatial consistency and deal with multi-object complex scene images, thus generalizing better on dense prediction tasks. Compared with the vanilla DINO, our approach obtains competitive performance when evaluated on classification in ImageNet and achieves a large margin (+7.2% mIoU) improvement in semantic segmentation on PascalVOC under the linear probing protocol for segmentation.
翻訳日:2023-06-09 18:22:07 公開日:2023-06-06
# データから行動へ - スマートシティのためのAIとIoT駆動ソリューションを探る

From Data to Action: Exploring AI and IoT-driven Solutions for Smarter Cities ( http://arxiv.org/abs/2306.04653v1 )

ライセンス: Link先を確認
Tiago Dias, Tiago Fonseca, Jo\~ao Vitorino, Andreia Martins, Sofia Malpique and Isabel Pra\c{c}a(参考訳) スマートシティの出現は、IoT(Internet of Things)やAI(Artificial Intelligence)といった先進技術を活用することを要求するとともに、都市がより持続可能で効率よく、最終的には住民にとって自由になる可能性の解放を約束する。 本研究は,3つのユースケースに対してデータ駆動型アプローチを提供する,インテリジェントな都市管理システムを導入する。 (i)交通情報を分析して交通衝突のリスクを低減し、運転者及び歩行者の安全を向上させる。 二 コストの節減を図るために、いつ、どこでエネルギー消費量を削減できるかを特定すること。 (iii)道路や歩道のポットホールなどの保守上の問題や、洪水や火災などの危険の発生を検知する。 Aveiro Cityでのケーススタディでは、AIとIoTによるスマートシティ開発の可能性を強調しながら、セキュリティ、エネルギー効率、持続可能性を高める実行可能な洞察を生成するシステムの有効性を実証している。

The emergence of smart cities demands harnessing advanced technologies like the Internet of Things (IoT) and Artificial Intelligence (AI) and promises to unlock cities' potential to become more sustainable, efficient, and ultimately livable for their inhabitants. This work introduces an intelligent city management system that provides a data-driven approach to three use cases: (i) analyze traffic information to reduce the risk of traffic collisions and improve driver and pedestrian safety, (ii) identify when and where energy consumption can be reduced to improve cost savings, and (iii) detect maintenance issues like potholes in the city's roads and sidewalks, as well as the beginning of hazards like floods and fires. A case study in Aveiro City demonstrates the system's effectiveness in generating actionable insights that enhance security, energy efficiency, and sustainability, while highlighting the potential of AI and IoT-driven solutions for smart city development.
翻訳日:2023-06-09 18:21:46 公開日:2023-06-06
# マルチタスク視覚接地のための言語適応重み生成

Language Adaptive Weight Generation for Multi-task Visual Grounding ( http://arxiv.org/abs/2306.04652v1 )

ライセンス: Link先を確認
Wei Su, Peihan Miao, Huanzhang Dou, Gaoang Wang, Liang Qiao, Zheyang Li, and Xi Li(参考訳) 視覚的接地における印象的なパフォーマンスにもかかわらず、一般的に一般的なアプローチは視覚的背骨を受動的に利用し、すなわち視覚的背骨は、表現に関連するヒントなしで、固定重量で特徴を抽出する。 受動的知覚は不一致(例えば冗長と欠落)を生じさせ、さらなるパフォーマンス改善を阻害する可能性がある。 理想的には、表現はすでに所望の視覚的特徴の青写真を提供しているため、ビジュアルバックボーンは積極的にビジュアル機能を抽出すべきである。 アクティブな知覚は、関係する視覚的特徴を抽出する先行表現を採り入れ、ミスマッチを効果的に緩和することができる。 そこで我々は,VG-LAWと呼ばれる言語適応重みに基づく視覚的接地フレームワークを提案する。 視覚的なバックボーンは、様々な表現のために生成される動的重みを通して表現特有の特徴抽出器として機能する。 言語対応のビジュアルバックボーンから抽出された特定の視覚機能と関連する視覚機能から、vg-lawは、クロスモーダルインタラクションのための追加モジュールを必要としない。 巧妙なマルチタスクヘッドとともに、VG-LAWは、表現理解とセグメンテーションを共同で参照する能力を持つ。 RefCOCO、RefCOCO+、RefCOCOg、ReferItGameの4つの代表的なデータセットに対する大規模な実験は、提案フレームワークの有効性を検証し、最先端のパフォーマンスを示す。

Although the impressive performance in visual grounding, the prevailing approaches usually exploit the visual backbone in a passive way, i.e., the visual backbone extracts features with fixed weights without expression-related hints. The passive perception may lead to mismatches (e.g., redundant and missing), limiting further performance improvement. Ideally, the visual backbone should actively extract visual features since the expressions already provide the blueprint of desired visual features. The active perception can take expressions as priors to extract relevant visual features, which can effectively alleviate the mismatches. Inspired by this, we propose an active perception Visual Grounding framework based on Language Adaptive Weights, called VG-LAW. The visual backbone serves as an expression-specific feature extractor through dynamic weights generated for various expressions. Benefiting from the specific and relevant visual features extracted from the language-aware visual backbone, VG-LAW does not require additional modules for cross-modal interaction. Along with a neat multi-task head, VG-LAW can be competent in referring expression comprehension and segmentation jointly. Extensive experiments on four representative datasets, i.e., RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame, validate the effectiveness of the proposed framework and demonstrate state-of-the-art performance.
翻訳日:2023-06-09 18:21:28 公開日:2023-06-06
# ロシア・ウクライナ戦争における人権侵害のソーシャルメディア調査

Detecting Human Rights Violations on Social Media during Russia-Ukraine War ( http://arxiv.org/abs/2306.05370v1 )

ライセンス: Link先を確認
Poli Nemkova, Solomon Ubani, Suleyman Olcay Polat, Nayeon Kim, Rodney D. Nielsen(参考訳) 現代のロシアとウクライナの軍事紛争は、ソーシャルメディアが最前線から直接情報を共有するための重要な役割を露呈している。 表現の自由が制限され情報戦争が広まる紛争地域では、ソーシャルメディアは不可欠のライフラインとして登場している。 匿名のソーシャルメディアプラットフォームは、戦争関連情報を広めるための公開資料として、人権侵害(HRV)を監視・記録するための効果的な手段として機能する可能性がある。 ポストソヴィエト地域で独立系ニュースを読むための主要なソーシャルメディアプラットフォームであるtelegramのデータ分析に焦点を当てた。 我々は、政治と戦争ニュースをカバーする95の公開Telegramチャンネルからサンプリングされた投稿のデータセットを収集し、HRVの潜在的な発生を識別するために利用した。 我々はmBERTベースのテキスト分類器を用いて,Telegramデータ中のHRVの言及を検出する解析を行った。 最終アプローチでは,多言語BERTベースモデルよりも0.38ドル,HRV検出では0.71ドルであった。 我々はTelegramの投稿を含む2つのデータセットをリリースした。(1)230万以上の投稿を持つ大きなコーパス、(2)HRVを示すために文レベルで注釈付けされたデータセット。 テレグラムの投稿は、ロシア・ウクライナ戦争の文脈にある。 我々は、NGO、政府、研究者に重大な影響があると仮定し、人権侵害の可能性を検知し、文書化する手段を提供する。

The present-day Russia-Ukraine military conflict has exposed the pivotal role of social media in enabling the transparent and unbridled sharing of information directly from the frontlines. In conflict zones where freedom of expression is constrained and information warfare is pervasive, social media has emerged as an indispensable lifeline. Anonymous social media platforms, as publicly available sources for disseminating war-related information, have the potential to serve as effective instruments for monitoring and documenting Human Rights Violations (HRV). Our research focuses on the analysis of data from Telegram, the leading social media platform for reading independent news in post-Soviet regions. We gathered a dataset of posts sampled from 95 public Telegram channels that cover politics and war news, which we have utilized to identify potential occurrences of HRV. Employing a mBERT-based text classifier, we have conducted an analysis to detect any mentions of HRV in the Telegram data. Our final approach yielded an $F_2$ score of 0.71 for HRV detection, representing an improvement of 0.38 over the multilingual BERT base model. We release two datasets that contains Telegram posts: (1) large corpus with over 2.3 millions posts and (2) annotated at the sentence-level dataset to indicate HRVs. The Telegram posts are in the context of the Russia-Ukraine war. We posit that our findings hold significant implications for NGOs, governments, and researchers by providing a means to detect and document possible human rights violations.
翻訳日:2023-06-09 13:06:09 公開日:2023-06-06
# 量子計測アドバイザリー

Quantum Measurement Adversary ( http://arxiv.org/abs/2106.02766v2 )

ライセンス: Link先を確認
Divesh Aggarwal, Naresh Goud Boddu, Rahul Jain, Maciej Obremski(参考訳) 多元抽出器(multi-source-extractor)は、複数の(弱)ランダム性源から一様ランダム性を抽出する関数である。 量子多元抽出器は、KasherとKempe(量子非依存的・量子有界的・保存的)、Chung、Li、Wu(一般接角的)、Arnon-Friedman、Portmann、Scholz(量子マルコフ的)によって検討された。 この研究の主な目的の1つは、既存の量子マルチソースの敵モデルを統一することである。 敵の2つの新しいモデルを提案します 1)エンタングルメントと後測定を用いた側情報を生成する量子計測アドバイザリー(qm-adv) 2) 量子通信アドバイザリー (qc-adv) は, 絡み合いと複数の情報源間の通信を用いて側情報を生成する。 私たちはそれを示します。 1. qm-advは既知の全ての敵の中で最も強力な敵であり、qm-advによって他の全ての敵の副情報を生成することができる。 2.(一般化された)内積関数(実際には二方向独立関数の一般クラス)は、chor と goldreich のパラメータが一致する qm-adv に対するよい抽出器として機能し続けている。 3) Li が提案した非可逆抽出器は、量子側情報に対して安全であり続けている。 この結果から,Aggarwal,Chung,Lin,Vidickの非多量抽出結果が均一な種子で得られたことが示唆された。 我々は、種が均一でない場合でも、Liの非可逆抽出器を量子側情報に対して安全にする全く異なる証明により、それらの結果を補強する。 4.DodisおよびWichsプロトコルのプライバシー強化のための修正(均一なソースの代わりに弱いソースで作業)は、アクティブな量子敵に対して安全である。 これは、一様ソースを使用するaggarwal、chung、lin、vidickによる最近の結果により強化される。

Multi-source-extractors are functions that extract uniform randomness from multiple (weak) sources of randomness. Quantum multi-source-extractors were considered by Kasher and Kempe (for the quantum-independent-adversary and the quantum-bounded-storage-adversary), Chung, Li and Wu (for the general-entangled-adversary) and Arnon-Friedman, Portmann and Scholz (for the quantum-Markov-adversary). One of the main objectives of this work is to unify all the existing quantum multi-source adversary models. We propose two new models of adversaries: 1) the quantum-measurement-adversary (qm-adv), which generates side-information using entanglement and on post-measurement and 2) the quantum-communication-adversary (qc-adv), which generates side-information using entanglement and communication between multiple sources. We show that, 1. qm-adv is the strongest adversary among all the known adversaries, in the sense that the side-information of all other adversaries can be generated by qm-adv. 2. The (generalized) inner-product function (in fact a general class of two-wise independent functions) continues to work as a good extractor against qm-adv with matching parameters as that of Chor and Goldreich. 3. A non-malleable-extractor proposed by Li (against classical-adversaries) continues to be secure against quantum side-information. This result implies a non-malleable-extractor result of Aggarwal, Chung, Lin and Vidick with uniform seed. We strengthen their result via a completely different proof to make the non-malleable-extractor of Li secure against quantum side-information even when the seed is not uniform. 4. A modification (working with weak sources instead of uniform sources) of the Dodis and Wichs protocol for privacy-amplification is secure against active quantum adversaries. This strengthens on a recent result due to Aggarwal, Chung, Lin and Vidick which uses uniform sources.
翻訳日:2023-06-08 20:53:29 公開日:2023-06-06
# 時系列数に対するワープ動的線形モデル

Warped Dynamic Linear Models for Time Series of Counts ( http://arxiv.org/abs/2110.14790v4 )

ライセンス: Link先を確認
Brian King and Daniel R. Kowal(参考訳) 動的線形モデル(dlms)は、その汎用構造、単純な再帰的更新、欠落データを扱う能力、確率的予測のために、時系列解析に一般的に用いられる。 ガウス的DLMは連続データを必要とするが、ポアソンベースの代替は十分なモデリングの柔軟性に欠けることが多い。 ガウスDLMをワープして時系列をカウントするための新しい半パラメトリック手法を提案する。 ワープ関数には、分散柔軟性を提供する(非パラメトリック)変換演算子と、離散データ生成プロセスの正しいサポートを保証する丸め演算子という2つのコンポーネントがある。 我々は、状態空間のフィルタリングと平滑化のための解析的および再帰的な更新を可能にする、歪んだDLMの共役推論を開発する。 オフライン解析のためのモンテカルロシミュレーションやオンライン推論のための最適粒子フィルタなど,これらの結果を利用して推論と予測を行う。 このフレームワークは様々な離散時系列モデルを統一し拡張し、自然数、丸い値、多変量観測に有効である。 シミュレーション研究は、歪んだDLMの優れた予測能力を示している。 提案手法は, 日々の過剰摂取回数の多変量時系列に適用し, モデル化と計算成功の両立を実証する。

Dynamic Linear Models (DLMs) are commonly employed for time series analysis due to their versatile structure, simple recursive updating, ability to handle missing data, and probabilistic forecasting. However, the options for count time series are limited: Gaussian DLMs require continuous data, while Poisson-based alternatives often lack sufficient modeling flexibility. We introduce a novel semiparametric methodology for count time series by warping a Gaussian DLM. The warping function has two components: a (nonparametric) transformation operator that provides distributional flexibility and a rounding operator that ensures the correct support for the discrete data-generating process. We develop conjugate inference for the warped DLM, which enables analytic and recursive updates for the state space filtering and smoothing distributions. We leverage these results to produce customized and efficient algorithms for inference and forecasting, including Monte Carlo simulation for offline analysis and an optimal particle filter for online inference. This framework unifies and extends a variety of discrete time series models and is valid for natural counts, rounded values, and multivariate observations. Simulation studies illustrate the excellent forecasting capabilities of the warped DLM. The proposed approach is applied to a multivariate time series of daily overdose counts and demonstrates both modeling and computational successes.
翻訳日:2023-06-08 20:41:56 公開日:2023-06-06
# fundusq-net: fundus images quality gradingのための回帰品質評価ディープラーニングアルゴリズム

FundusQ-Net: a Regression Quality Assessment Deep Learning Algorithm for Fundus Images Quality Grading ( http://arxiv.org/abs/2205.01676v3 )

ライセンス: Link先を確認
Or Abramovich, Hadas Pizem, Jan Van Eijgen, Ilan Oren, Joshua Melamed, Ingeborg Stalmans, Eytan Z. Blumenthal and Joachim A. Behar(参考訳) 目的:緑内障,糖尿病網膜症,加齢黄斑変性などの眼科疾患は盲目や視力障害の主な原因である。 これらの病態の診断を簡素化し、迅速化する新しい意思決定支援ツールが必要である。 このプロセスの鍵となるステップは、基礎画像の品質を自動的に推定し、それが人間のオペレータや機械学習モデルによって解釈可能であることを保証することである。 本稿では,この新たな尺度に対して,新たな基礎画像品質尺度と深層学習(DL)モデルを提案する。 方法】1-10範囲の眼科医2名による1,245枚の画像の画質は0.5。 画像品質評価のためのDL回帰モデルを訓練した。 アーキテクチャはInception-V3である。 このモデルは6つのデータベースから89,947枚の画像を用いて開発され、そのうち1,245枚の画像は専門家によってラベル付けされ、残りの88,702枚の画像は事前学習と半教師付き学習に使用された。 最終dlモデルは内部テストセット(n=209)と外部テストセット(n=194)で評価された。 結果: fundusq-net と名づけられた最終dlモデルは、内部テストセットで 0.61 (0.54-0.68) の平均絶対誤差を達成した。 外部テストセットとして公開DRIMDBデータベース上でバイナリ分類モデルとして評価すると,精度は99%であった。 意義:本アルゴリズムは,基礎画像の自動品質評価のための新しいロバストなツールを提供する。

Objective: Ophthalmological pathologies such as glaucoma, diabetic retinopathy and age-related macular degeneration are major causes of blindness and vision impairment. There is a need for novel decision support tools that can simplify and speed up the diagnosis of these pathologies. A key step in this process is to automatically estimate the quality of the fundus images to make sure these are interpretable by a human operator or a machine learning model. We present a novel fundus image quality scale and deep learning (DL) model that can estimate fundus image quality relative to this new scale. Methods: A total of 1,245 images were graded for quality by two ophthalmologists within the range 1-10, with a resolution of 0.5. A DL regression model was trained for fundus image quality assessment. The architecture used was Inception-V3. The model was developed using a total of 89,947 images from 6 databases, of which 1,245 were labeled by the specialists and the remaining 88,702 images were used for pre-training and semi-supervised learning. The final DL model was evaluated on an internal test set (n=209) as well as an external test set (n=194). Results: The final DL model, denoted FundusQ-Net, achieved a mean absolute error of 0.61 (0.54-0.68) on the internal test set. When evaluated as a binary classification model on the public DRIMDB database as an external test set the model obtained an accuracy of 99%. Significance: the proposed algorithm provides a new robust tool for automated quality grading of fundus images.
翻訳日:2023-06-08 20:32:35 公開日:2023-06-06
# 神経拡散過程

Neural Diffusion Processes ( http://arxiv.org/abs/2206.03992v2 )

ライセンス: Link先を確認
Vincent Dutordoir, Alan Saul, Zoubin Ghahramani, Fergus Simpson(参考訳) 関数上のメタ学習分布に対するニューラルネットワークアプローチは、柔軟性の向上や推論の複雑さの低減など、望ましい特性を持っている。 生成的モデリングのための分母拡散モデルの成功に基づいて、関数上の豊富な分布から有限辺数を通してサンプルを学習する新しいアプローチである神経拡散過程(neural diffusion process, ndps)を提案する。 カスタムアテンションブロックを導入することで、交換可能性などの確率的プロセスの特性を直接NDPのアーキテクチャに組み込むことができます。 実験により,ndpは真のベイズ後方の関数分布を捉えることができ,ガウス過程の挙動をエミュレートし,神経過程の性能を上回ることができることを示した。 ndpは、回帰、暗黙のハイパーパラメーター境界化、非ゲージの後方予測、グローバル最適化を含む様々な下流タスクを可能にする。

Neural network approaches for meta-learning distributions over functions have desirable properties such as increased flexibility and a reduced complexity of inference. Building on the successes of denoising diffusion models for generative modelling, we propose Neural Diffusion Processes (NDPs), a novel approach that learns to sample from a rich distribution over functions through its finite marginals. By introducing a custom attention block we are able to incorporate properties of stochastic processes, such as exchangeability, directly into the NDP's architecture. We empirically show that NDPs can capture functional distributions close to the true Bayesian posterior, demonstrating that they can successfully emulate the behaviour of Gaussian processes and surpass the performance of neural processes. NDPs enable a variety of downstream tasks, including regression, implicit hyperparameter marginalisation, non-Gaussian posterior prediction and global optimisation.
翻訳日:2023-06-08 20:21:55 公開日:2023-06-06
# 3次元における植物成分の時間的登録のための統計的形状表現

Statistical shape representations for temporal registration of plant components in 3D ( http://arxiv.org/abs/2209.11526v2 )

ライセンス: Link先を確認
Karoline Heiwolt, Cengiz \"Oztireli, Grzegorz Cielniak(参考訳) 植物は動的生物であり、植生の時間変化を理解することは野生のロボットにとって不可欠な問題である。 しかし、時間をかけて3Dスキャンを繰り返すことは難しい。 このプロセスにおける重要なステップは、同じ植物コンポーネントを時間とともに再識別し、追跡することです。 以前は、地球上の空間的・トポロジカルな位置を比較することで達成されていた。 本研究は, 形状特徴を用いた時間的臓器整合性の向上を実証する。 本研究では,葉の3次元形状特徴を抽出し,数パラメータで葉形状と曲率を効率的に特徴付け,特徴空間における個々の葉の関連付けを可能にするランドマークフリー形状圧縮アルゴリズムを提案する。 このアプローチは、主成分分析(PCA)を用いた3次元輪郭抽出とさらなる圧縮を組み合わせて、データから完全に学習され、エッジ輪郭や3次元曲率に関する情報を保持する形状空間符号化を生成する。 トマト葉の経時的走査配列について評価したところ, 形状の特徴を取り入れた場合, 側頭葉の整合性が向上することがわかった。 形状、位置、回転情報の組み合わせは、葉の経時的認識に最も有益であり、正の正の率は75%であり、芸術的な方法では15%改善されている。 これは、ライフサイクル全体のフェノタイピングを可能にするロボット作物監視に不可欠である。

Plants are dynamic organisms and understanding temporal variations in vegetation is an essential problem for robots in the wild. However, associating repeated 3D scans of plants across time is challenging. A key step in this process is re-identifying and tracking the same individual plant components over time. Previously, this has been achieved by comparing their global spatial or topological location. In this work, we demonstrate how using shape features improves temporal organ matching. We present a landmark-free shape compression algorithm, which allows for the extraction of 3D shape features of leaves, characterises leaf shape and curvature efficiently in few parameters, and makes the association of individual leaves in feature space possible. The approach combines 3D contour extraction and further compression using Principal Component Analysis (PCA) to produce a shape space encoding, which is entirely learned from data and retains information about edge contours and 3D curvature. Our evaluation on temporal scan sequences of tomato plants shows, that incorporating shape features improves temporal leaf-matching. A combination of shape, location, and rotation information proves most informative for recognition of leaves over time and yields a true positive rate of 75%, a 15% improvement on sate-of-the-art methods. This is essential for robotic crop monitoring, which enables whole-of-lifecycle phenotyping.
翻訳日:2023-06-08 20:13:10 公開日:2023-06-06
# ワイル超伝導体におけるエッジ超電流による競合凝縮体の盗聴

Eavesdropping on competing condensates by the edge supercurrent in a Weyl superconductor ( http://arxiv.org/abs/2208.00933v3 )

ライセンス: Link先を確認
Stephan Kim, Shiming Lei, Leslie M. Schoop, R. J. Cava, and N. P. Ong(参考訳) トポロジカル絶縁体では、金属表面状態が絶縁バルク状態と容易に区別される(fukane07)。 対照的に、トポロジカル超伝導体(FuKane08,Qi,FuBerg,Oppen)では、エッジ超電流とバルク対凝縮の関係についてはあまり知られていない。 ペアリングの対称性を非互換にすることはできますか? ワイル半金属MoTe$_2$の超伝導状態では、磁束量子化(Wang)によって誘導される電流電圧(\emph{I-V})曲線の振動としてエッジ超電流が観測される。 ニオブ接触から注入される超電流対の$s$-waveポテンシャルは,MoTe$_2$で縮合する固有対と相容れないことが判明した。 不整合性は、スイッチング電流の$I_c$ や `wrong' 符号の異常な反ヒステリックな振る舞いのような異常な性質に強い確率性をもたらす。 超電流注入下では、フラックス状誘起端振動はより高い磁場 \emph{h} に持続する。 興味深いことに、振動は非常にノイズが多いか、エッジペアリングを指示するペアポテンシャルに依存するノイズフリーである。 この位相雑音を,競合バルク状態から盗聴する感度プローブとして用いることで,内在的凝縮物がnb対ポテンシャルによる公理化を履歴に応じて前空的に阻止できるような遮断機構を明らかにする。

In a topological insulator the metallic surface states are easily distinguished from the insulating bulk states (FuKane07). By contrast, in a topological superconductor (FuKane08,Qi,FuBerg,Oppen), much less is known about the relationship between an edge supercurrent and the bulk pair condensate. Can we force their pairing symmetries to be incompatible? In the superconducting state of the Weyl semimetal MoTe$_2$, an edge supercurrent is observed as oscillations in the current-voltage (\emph{I-V}) curves induced by fluxoid quantization (Wang). We have found that the $s$-wave pairing potential of supercurrent injected from niobium contacts is incompatible with the intrinsic pair condensate in MoTe$_2$. The incompatibility leads to strong stochasticity in the switching current $I_c$ as well as other anomalous properties such as an unusual antihysteretic behavior of the ``wrong'' sign. Under supercurrent injection, the fluxoid-induced edge oscillations survive to much higher magnetic fields \emph{H}. Interestingly, the oscillations are either very noisy or noise-free depending on the pair potential that ends up dictating the edge pairing. Using the phase noise as a sensitive probe that eavesdrops on the competiting bulk states, we uncover an underlying blockade mechanism whereby the intrinsic condensate can pre-emptively block proximitization by the Nb pair potential depending on the history.
翻訳日:2023-06-08 20:11:47 公開日:2023-06-06
# 双曲表現学習の数値的安定性

The Numerical Stability of Hyperbolic Representation Learning ( http://arxiv.org/abs/2211.00181v2 )

ライセンス: Link先を確認
Gal Mishne, Zhengchao Wan, Yusu Wang, Sheng Yang(参考訳) 球の半径が指数関数的に増加すると、双曲空間は任意に小さな歪みで木を埋め込むことができ、したがって階層的なデータセットを表現するために広く注目を集めている。 しかし、この指数的成長特性は数値的な不安定さの代償となり、双曲型学習モデルの訓練は時に破滅的なnan問題を引き起こし、浮動小数点演算において表現不能な値に遭遇する。 本研究では,双曲空間に対する2つの人気モデルの極限,すなわちポアンカーの球とローレンツ模型を慎重に解析する。 まず,64ビットの算術システムにおいて,ポアンカルの球は点を正しく表現するためのローレンツモデルよりも比較的大きな容量を持つことを示す。 そして,最適化の観点から,ポアンカーの球に対するローレンツモデルの優位性を理論的に検証する。 両方のモデルの数値的な制限を考えると、これらの制限を緩和できる双曲空間のユークリッドパラメトリゼーションを1つ特定する。 さらに、このユークリッドパラメトリゼーションを双曲型超平面に拡張し、双曲型SVMの性能を向上させる能力を示す。

Given the exponential growth of the volume of the ball w.r.t. its radius, the hyperbolic space is capable of embedding trees with arbitrarily small distortion and hence has received wide attention for representing hierarchical datasets. However, this exponential growth property comes at a price of numerical instability such that training hyperbolic learning models will sometimes lead to catastrophic NaN problems, encountering unrepresentable values in floating point arithmetic. In this work, we carefully analyze the limitation of two popular models for the hyperbolic space, namely, the Poincar\'e ball and the Lorentz model. We first show that, under the 64 bit arithmetic system, the Poincar\'e ball has a relatively larger capacity than the Lorentz model for correctly representing points. Then, we theoretically validate the superiority of the Lorentz model over the Poincar\'e ball from the perspective of optimization. Given the numerical limitations of both models, we identify one Euclidean parametrization of the hyperbolic space which can alleviate these limitations. We further extend this Euclidean parametrization to hyperbolic hyperplanes and exhibits its ability in improving the performance of hyperbolic SVM.
翻訳日:2023-06-08 20:04:29 公開日:2023-06-06
# analogvnn:フォトニックニューラルネットワークのモデリングと最適化のための完全モジュール型フレームワーク

AnalogVNN: A fully modular framework for modeling and optimizing photonic neural networks ( http://arxiv.org/abs/2210.10048v2 )

ライセンス: Link先を確認
Vivswan Shah, Nathan Youngblood(参考訳) AnalogVNNはPyTorch上に構築されたシミュレーションフレームワークで、光電子ノイズ、限られた精度、フォトニックニューラルネットワークアクセラレータに存在する信号正規化の影響をシミュレートすることができる。 このフレームワークを用いて、最大9層、約170万パラメータの線形および畳み込みニューラルネットワークを訓練し、最適化するとともに、アナログフォトニックニューラルネットワークにおける正規化、活性化関数、精度の低下、ノイズの影響精度に関する洞察を得る。 PyTorchにある同じレイヤ構造設計に従うことで、AnalogVNNフレームワークは、ほとんどのデジタルニューラルネットワークモデルを、ほんの数行のコードでアナログモデルに変換することができ、PyTorchを通じて利用可能なオープンソースの最適化、ディープラーニング、GPUアクセラレーションライブラリを最大限に活用することができる。 コードはhttps://analogvnn.github.ioで入手できる。

AnalogVNN, a simulation framework built on PyTorch which can simulate the effects of optoelectronic noise, limited precision, and signal normalization present in photonic neural network accelerators. We use this framework to train and optimize linear and convolutional neural networks with up to 9 layers and ~1.7 million parameters, while gaining insights into how normalization, activation function, reduced precision, and noise influence accuracy in analog photonic neural networks. By following the same layer structure design present in PyTorch, the AnalogVNN framework allows users to convert most digital neural network models to their analog counterparts with just a few lines of code, taking full advantage of the open-source optimization, deep learning, and GPU acceleration libraries available through PyTorch. Code is available at https://analogvnn.github.io
翻訳日:2023-06-08 20:02:23 公開日:2023-06-06
# 1次法のスケッチ:低帯域チャネルと脆弱性の効率的なアルゴリズム

Sketching for First Order Method: Efficient Algorithm for Low-Bandwidth Channel and Vulnerability ( http://arxiv.org/abs/2210.08371v2 )

ライセンス: Link先を確認
Zhao Song, Yitan Wang, Zheng Yu, Lichen Zhang(参考訳) スケッチは、大規模機械学習における最も基本的なツールの1つである。 実行時とメモリの節約は、元の大きな問題を低次元にランダムに圧縮することで実現できる。 本稿では,分散エージェント間の通信コストを削減しつつ,アルゴリズムの収束が保証されるような,大規模分散学習環境における一階法のための新しいスケッチ手法を提案する。 高次元$d$ の勾配情報が与えられたとき、エージェントはスケッチ行列 $r\in \mathbb{r}^{s\times d}$ で処理された圧縮情報を $s\ll d$ で渡し、受信者は元の次元の情報をデスケッチ行列 $r^\top$ to ``recover'' でデ圧縮する。 このようなフレームワークを用いて,より少ない通信コストで連携学習を行うアルゴリズムを開発した。 しかし、このようなランダムなスケッチは、ローカルデータのプライバシーを直接保護しない。 本研究では, 特定の勾配攻撃手法を用いてスケッチ手法を適用した後に, 勾配漏れ問題が存在することを示す。 そこで我々は,このアルゴリズムが勾配情報にランダムノイズを加えることで,通信効率と差分プライベートな第1次学習課題に対するアプローチを両立させることにより,そのアルゴリズムが微分プライベートになることを厳密に証明する。 私たちのスケッチは、他の学習設定にさらに一般化することができ、独立した興味を持つかもしれません。

Sketching is one of the most fundamental tools in large-scale machine learning. It enables runtime and memory saving via randomly compressing the original large problem into lower dimensions. In this paper, we propose a novel sketching scheme for the first order method in large-scale distributed learning setting, such that the communication costs between distributed agents are saved while the convergence of the algorithms is still guaranteed. Given gradient information in a high dimension $d$, the agent passes the compressed information processed by a sketching matrix $R\in \mathbb{R}^{s\times d}$ with $s\ll d$, and the receiver de-compressed via the de-sketching matrix $R^\top$ to ``recover'' the information in original dimension. Using such a framework, we develop algorithms for federated learning with lower communication costs. However, such random sketching does not protect the privacy of local data directly. We show that the gradient leakage problem still exists after applying the sketching technique by presenting a specific gradient attack method. As a remedy, we prove rigorously that the algorithm will be differentially private by adding additional random noises in gradient information, which results in a both communication-efficient and differentially private first order approach for federated learning tasks. Our sketching scheme can be further generalized to other learning settings and might be of independent interest itself.
翻訳日:2023-06-08 20:01:50 公開日:2023-06-06
# sinddm:単一画像の雑音拡散モデル

SinDDM: A Single Image Denoising Diffusion Model ( http://arxiv.org/abs/2211.16582v3 )

ライセンス: Link先を確認
Vladimir Kulikov, Shahar Yadin, Matan Kleiner, Tomer Michaeli(参考訳) ノイズ拡散モデル(ddms)は画像生成、編集、復元において驚くべき性能向上をもたらした。 しかし、既存のDDMはトレーニングに非常に大きなデータセットを使用している。 本稿では,単一画像上でDDMをトレーニングするためのフレームワークを提案する。 SinDDMを作成した本手法では,マルチスケール拡散プロセスを用いてトレーニング画像の内部統計を学習する。 逆拡散過程を駆動するために, 全畳み込み型軽量デノイザーを用い, 騒音レベルとスケールの両方を条件とする。 このアーキテクチャは任意の次元のサンプルを粗い方法で生成することができる。 以下に示すように、SinDDMは様々な高品質なサンプルを生成し、スタイル転送や調和を含む幅広いタスクに適用できる。 さらに、外部監視によって容易にガイドすることができる。 特に,事前学習したCLIPモデルを用いて,単一画像からのテキスト誘導生成を示す。

Denoising diffusion models (DDMs) have led to staggering performance leaps in image generation, editing and restoration. However, existing DDMs use very large datasets for training. Here, we introduce a framework for training a DDM on a single image. Our method, which we coin SinDDM, learns the internal statistics of the training image by using a multi-scale diffusion process. To drive the reverse diffusion process, we use a fully-convolutional light-weight denoiser, which is conditioned on both the noise level and the scale. This architecture allows generating samples of arbitrary dimensions, in a coarse-to-fine manner. As we illustrate, SinDDM generates diverse high-quality samples, and is applicable in a wide array of tasks, including style transfer and harmonization. Furthermore, it can be easily guided by external supervision. Particularly, we demonstrate text-guided generation from a single image using a pre-trained CLIP model.
翻訳日:2023-06-08 19:54:03 公開日:2023-06-06
# ゆがみと疎さの相乗効果:マルチタスク学習における一般化と認識可能性

Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning ( http://arxiv.org/abs/2211.14666v2 )

ライセンス: Link先を確認
S\'ebastien Lachapelle, Tristan Deleu, Divyat Mahajan, Ioannis Mitliagkas, Yoshua Bengio, Simon Lacoste-Julien, Quentin Bertrand(参考訳) 不連続表現はしばしば下流タスクに有益とされるが、現在の経験的および理論的理解は限られている。 本研究では,不整合表現と疎基底予測器を組み合わせることで一般化が向上することを示す。 マルチタスク学習の文脈において,最大スパース基底予測器が不整合表現をもたらす条件を提供する新たな識別可能性結果が証明される。 この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。 最後に、このアルゴリズムのメタラーニング版をグループlasso multiclass svmベース予測器に基づいて検討し、扱いやすい双対定式化を導出する。 各タスクは学習した表現のほんの一部しか使用していないが、標準の少数ショット分類ベンチマークで競合結果を得る。

Although disentangled representations are often said to be beneficial for downstream tasks, current empirical and theoretical understanding is limited. In this work, we provide evidence that disentangled representations coupled with sparse base-predictors improve generalization. In the context of multi-task learning, we prove a new identifiability result that provides conditions under which maximally sparse base-predictors yield disentangled representations. Motivated by this theoretical result, we propose a practical approach to learn disentangled representations based on a sparsity-promoting bi-level optimization problem. Finally, we explore a meta-learning version of this algorithm based on group Lasso multiclass SVM base-predictors, for which we derive a tractable dual formulation. It obtains competitive results on standard few-shot classification benchmarks, while each task is using only a fraction of the learned representations.
翻訳日:2023-06-08 19:52:55 公開日:2023-06-06
# セマンティックパーサーのプライバシー保護ドメイン適応

Privacy-Preserving Domain Adaptation of Semantic Parsers ( http://arxiv.org/abs/2212.10520v2 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Richard Shin, Yu Su, Tatsunori Hashimoto, Jason Eisner(参考訳) タスク指向の対話システムは、ユーザー個人や機密事項を補助することが多い。 そのため、一般にそのようなシステムの開発者は実際の使用を観察することを禁じられている。 では、システム障害の所在をどうやって把握し、より多くのトレーニングデータや新機能が必要ですか? 本研究では,実際のユーザのプライバシーを損なうことなく,現実的なユーザ発話を合成的に生成し,システムの言語的・機能的カバレッジを向上させる方法について検討する。 そこで本研究では,まず潜在意味構文を生成し,その解析結果に基づいて発話を生成する2段階微分プライベート(DP)生成手法を提案する。 提案手法はmauveを2.5倍改善し,パースツリー関数の型重なりを1.3倍改善した。 さらに,ユーザデータからセマンティクスパーサに新たな機能を追加する現実的なドメイン適応タスクに対する我々のアプローチを検証し,新機能により8.5%の精度向上を示す。

Task-oriented dialogue systems often assist users with personal or confidential matters. For this reason, the developers of such a system are generally prohibited from observing actual usage. So how can they know where the system is failing and needs more training data or new functionality? In this work, we study ways in which realistic user utterances can be generated synthetically, to help increase the linguistic and functional coverage of the system, without compromising the privacy of actual users. To this end, we propose a two-stage Differentially Private (DP) generation method which first generates latent semantic parses, and then generates utterances based on the parses. Our proposed approach improves MAUVE by 2.5X and parse tree function type overlap by 1.3X relative to current approaches for private synthetic data generation, improving both on fluency and semantic coverage. We further validate our approach on a realistic domain adaptation task of adding new functionality from private user data to a semantic parser, and show overall gains of 8.5% points in accuracy with the new feature.
翻訳日:2023-06-08 19:44:19 公開日:2023-06-06
# 均一に拡散する配向雲による新規, 設計可能, 多様なタンパク質構造の生成

Generating Novel, Designable, and Diverse Protein Structures by Equivariantly Diffusing Oriented Residue Clouds ( http://arxiv.org/abs/2301.12485v3 )

ライセンス: Link先を確認
Yeqing Lin, Mohammed AlQuraishi(参考訳) タンパク質は生きた細胞の幅広い機能的プロセスを動かします。 設計された構造と機能を持つ新しいタンパク質を作る能力は、細胞行動のエンジニアリングとタンパク質ベースの治療および材料の開発を可能にする。 構造に基づくタンパク質の設計は、設計可能な構造(タンパク質配列によって実現できる)、新しい構造(天然タンパク質と異なる幾何学を持つ)、多様な構造(幅広い幾何学)を見つけることを目的としている。 タンパク質構造予測の進歩により、新規なタンパク質配列の構造を予測できるようになったが、配列と構造の組み合わせ的な大きな空間は探索に基づく方法の実用性を制限している。 生成モデルは、複雑なデータ分布の低次元構造を暗黙的に学習することで、魅力的な代替手段を提供する。 本稿では、拡散確率モデルと同変ニューラルネットワークの分極化の最近の進歩を活用し、3次元空間における配向参照フレームの雲を用いて離散時間拡散を行うタンパク質構造の生成モデルであるGenieを開発する。 サイリコの評価を通じて、ジェニーが既存のモデルよりも設計可能で、新規で多様なタンパク質のバックボーンを生成することを示した。 これは、genieがタンパク質構造空間の分布の重要な側面を捉えており、高い成功率でタンパク質の設計を促進することを示している。 新しいタンパク質を生成し、新しいバージョンのgenieをトレーニングするためのコードは、https://github.com/aqlaboratory/genie.comで入手できる。

Proteins power a vast array of functional processes in living cells. The capability to create new proteins with designed structures and functions would thus enable the engineering of cellular behavior and development of protein-based therapeutics and materials. Structure-based protein design aims to find structures that are designable (can be realized by a protein sequence), novel (have dissimilar geometry from natural proteins), and diverse (span a wide range of geometries). While advances in protein structure prediction have made it possible to predict structures of novel protein sequences, the combinatorially large space of sequences and structures limits the practicality of search-based methods. Generative models provide a compelling alternative, by implicitly learning the low-dimensional structure of complex data distributions. Here, we leverage recent advances in denoising diffusion probabilistic models and equivariant neural networks to develop Genie, a generative model of protein structures that performs discrete-time diffusion using a cloud of oriented reference frames in 3D space. Through in silico evaluations, we demonstrate that Genie generates protein backbones that are more designable, novel, and diverse than existing models. This indicates that Genie is capturing key aspects of the distribution of protein structure space and facilitates protein design with high success rates. Code for generating new proteins and training new versions of Genie is available at https://github.com/aqlaboratory/genie.
翻訳日:2023-06-08 19:34:59 公開日:2023-06-06
# 可視的透かしによる言語生成モデル保護

Protecting Language Generation Models via Invisible Watermarking ( http://arxiv.org/abs/2302.03162v2 )

ライセンス: Link先を確認
Xuandong Zhao, Yu-Xiang Wang, Lei Li(参考訳) 言語生成モデルは、多くのアプリケーションでますます強力になっている。 このようなモデルの多くは、無料または安価なapiアクセスを提供しており、蒸留によるモデル抽出攻撃に対して潜在的に脆弱である。 知的財産権(IP)を保護し,これらのモデルを公平に活用するために,語彙的透かしや同義語置換など様々な手法が提案されている。 しかし、これらの手法は「synonym randomization」のような明らかな対策によって無効化することができる。 そこで本研究では, 蒸留によりテキスト生成モデルが盗まれないようにする新しい手法であるGINSEWを提案する。 提案手法の重要な考え方は,各ターゲットトークンの復号ステップの確率ベクトルに秘密信号を注入することである。 次に、保護されたメッセージから蒸留されているかどうかを疑似モデルで調べることで、シークレットメッセージを検出できる。 GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。 本手法は,従来のウォーターマーク除去攻撃法と比較して,平均精度 (map) で19点から29点の絶対的改善を示す。

Language generation models have been an increasingly powerful enabler for many applications. Many such models offer free or affordable API access, which makes them potentially vulnerable to model extraction attacks through distillation. To protect intellectual property (IP) and ensure fair use of these models, various techniques such as lexical watermarking and synonym replacement have been proposed. However, these methods can be nullified by obvious countermeasures such as "synonym randomization". To address this issue, we propose GINSEW, a novel method to protect text generation models from being stolen through distillation. The key idea of our method is to inject secret signals into the probability vector of the decoding steps for each target token. We can then detect the secret message by probing a suspect model to tell if it is distilled from the protected one. Experimental results show that GINSEW can effectively identify instances of IP infringement with minimal impact on the generation quality of protected APIs. Our method demonstrates an absolute improvement of 19 to 29 points on mean average precision (mAP) in detecting suspects compared to previous methods against watermark removal attacks.
翻訳日:2023-06-08 19:24:48 公開日:2023-06-06
# 敵対的視点からロバストなコントラスト学習を再考する

Rethinking Robust Contrastive Learning from the Adversarial Perspective ( http://arxiv.org/abs/2302.02502v2 )

ライセンス: Link先を確認
Fatemeh Ghofrani, Mehdi Yaghouti, Pooyan Jamshidi(参考訳) 頑健な深層学習の理解を深めるために,自己指導と教師付きコントラスト学習に対する対人訓練の効果を,教師付き学習とともに検討した。 本分析により,各種学習アルゴリズムにおける標準学習ネットワークにおける敵とクリーン表現の相違が明らかとなった。 対照的に、敵対的な訓練はこれらの格差を緩和し、使用する学習体系に関係なく、普遍的な集合に対する表現の収束を促進する。 さらに、特にネットワークの終端付近において、敵とクリーンな表現の類似性を高めることで、ネットワークの堅牢性を高める。 これらの発見は、効果的で堅牢なディープラーニングネットワークの設計とトレーニングに有用な洞察を提供する。 コードは \textcolor{magenta}{\url{https://github.com/softsys4ai/cl-robustness}} でリリースされる。

To advance the understanding of robust deep learning, we delve into the effects of adversarial training on self-supervised and supervised contrastive learning alongside supervised learning. Our analysis uncovers significant disparities between adversarial and clean representations in standard-trained networks across various learning algorithms. Remarkably, adversarial training mitigates these disparities and fosters the convergence of representations toward a universal set, regardless of the learning scheme used. Additionally, increasing the similarity between adversarial and clean representations, particularly near the end of the network, enhances network robustness. These findings offer valuable insights for designing and training effective and robust deep learning networks. Our code is released at \textcolor{magenta}{\url{https://github.com/softsys4ai/CL-Robustness}}.
翻訳日:2023-06-08 19:24:09 公開日:2023-06-06
# 単射因果モデルの反事実識別可能性

Counterfactual Identifiability of Bijective Causal Models ( http://arxiv.org/abs/2302.02228v2 )

ライセンス: Link先を確認
Arash Nasr-Esfahany, Mohammad Alizadeh, Devavrat Shah(参考訳) 文献で広く使われている複数の因果関係モデルを一般化するクラスであるBGM(Bijective Generation Mechanism)を用いた因果関係モデルの因果関係同定可能性について検討した。 本研究では,観測不能な3つの共通因果構造に対して,BGMの学習を構造的生成モデルとして活用する実践的学習手法を提案する。 学習されたBGMは効果的な反ファクト推定を可能にし、様々な深い条件生成モデルを用いて得ることができる。 本手法を視覚的タスクで評価し,実世界のビデオストリーミングシミュレーションタスクにおけるその応用を実証する。

We study counterfactual identifiability in causal models with bijective generation mechanisms (BGM), a class that generalizes several widely-used causal models in the literature. We establish their counterfactual identifiability for three common causal structures with unobserved confounding, and propose a practical learning method that casts learning a BGM as structured generative modeling. Learned BGMs enable efficient counterfactual estimation and can be obtained using a variety of deep conditional generative models. We evaluate our techniques in a visual task and demonstrate its application in a real-world video streaming simulation task.
翻訳日:2023-06-08 19:23:55 公開日:2023-06-06
# 拡散モデルによる干渉・反事実推論

Interventional and Counterfactual Inference with Diffusion Models ( http://arxiv.org/abs/2302.00860v2 )

ライセンス: Link先を確認
Patrick Chao, Patrick Bl\"obaum, Shiva Prasad Kasiviswanathan(参考訳) 観察データと因果グラフのみが利用可能な因果的に十分な設定において,観察的,介入的,反事実的問合せに回答する問題を考える。 近年の拡散モデルの発展を生かして,拡散型因果モデル(DCM)を導入し,独自の潜伏符号化を生成する因果メカニズムを学習する。 これらのエンコーディングにより、介入下で直接サンプルを採取し、偽造品の誘拐を行うことができる。 拡散モデルは、各ノードを外生ノイズのプロキシとして機能する潜在表現にエンコードできるため、ここでは自然に適合する。 我々の実証評価は、因果クエリに応答する既存の最先端手法よりも大幅に改善されたことを示す。 さらに,提案手法以外の設定において有用である一般エンコーダ・デコーダモデルにおいて,反事実推定を解析するための方法論を提供する理論的結果を提供する。

We consider the problem of answering observational, interventional, and counterfactual queries in a causally sufficient setting where only observational data and the causal graph are available. Utilizing the recent developments in diffusion models, we introduce diffusion-based causal models (DCM) to learn causal mechanisms, that generate unique latent encodings. These encodings enable us to directly sample under interventions and perform abduction for counterfactuals. Diffusion models are a natural fit here, since they can encode each node to a latent representation that acts as a proxy for exogenous noise. Our empirical evaluations demonstrate significant improvements over existing state-of-the-art methods for answering causal queries. Furthermore, we provide theoretical results that offer a methodology for analyzing counterfactual estimation in general encoder-decoder models, which could be useful in settings beyond our proposed approach.
翻訳日:2023-06-08 19:23:12 公開日:2023-06-06
# q-flow:正規化流を伴う開量子力学の微分方程式生成モデル

Q-Flow: Generative Modeling for Differential Equations of Open Quantum Dynamics with Normalizing Flows ( http://arxiv.org/abs/2302.12235v2 )

ライセンス: Link先を確認
Owen Dugan, Peter Y. Lu, Rumen Dangovski, Di Luo, Marin Solja\v{c}i\'c(参考訳) オープン量子システムのダイナミクスの研究は、基礎物理学と量子工学と量子計算の応用の両方においてブレークスルーを可能にする。 このようなシステムのダイナミクスの基本的な記述である密度行列 $\rho$ は高次元であるため、カスタマイズされた深層生成ニューラルネットワークは$\rho$のモデリングに役立っている。 しかしながら、\rho$ の複素値の性質と正規化制約とその複雑なダイナミクスは、オープン量子システムと近年の深層生成モデリングにおけるシームレスな接続を禁止している。 ここでは、開量子系の力学を、対応する確率分布 $Q$, Husimi Q 関数に対する偏微分方程式 (PDE) に再構成することで、その制限を解除する。 そこで本研究では,Q関数を既成の深部生成モデルとシームレスにモデル化する。 さらに,オイラー法に基づく高次元pdesによって制御される流れの正規化を学習する新しい手法と時間依存変分原理の適用について述べる。 結果として得られたアプローチを$q$-$flow$と命名し、散逸調和振動子や散逸ボソニックモデルを含むオープン量子システムシミュレーションにおけるqフローのスケーラビリティと効率を実証する。 Q-Flowは、特に高次元システムにおいて、従来のPDEソルバや最先端の物理インフォームドニューラルネットワークソルバよりも優れている。

Studying the dynamics of open quantum systems can enable breakthroughs both in fundamental physics and applications to quantum engineering and quantum computation. Since the density matrix $\rho$, which is the fundamental description for the dynamics of such systems, is high-dimensional, customized deep generative neural networks have been instrumental in modeling $\rho$. However, the complex-valued nature and normalization constraints of $\rho$, as well as its complicated dynamics, prohibit a seamless connection between open quantum systems and the recent advances in deep generative modeling. Here we lift that limitation by utilizing a reformulation of open quantum system dynamics to a partial differential equation (PDE) for a corresponding probability distribution $Q$, the Husimi Q function. Thus, we model the Q function seamlessly with off-the-shelf deep generative models such as normalizing flows. Additionally, we develop novel methods for learning normalizing flow evolution governed by high-dimensional PDEs based on the Euler method and the application of the time-dependent variational principle. We name the resulting approach $Q$-$Flow$ and demonstrate the scalability and efficiency of Q-Flow on open quantum system simulations, including the dissipative harmonic oscillator and the dissipative bosonic model. Q-Flow is superior to conventional PDE solvers and state-of-the-art physics-informed neural network solvers, especially in high-dimensional systems.
翻訳日:2023-06-08 19:15:36 公開日:2023-06-06
# 境界量子ストレージモデルにおける強力なプリミティブ

Powerful Primitives in the Bounded Quantum Storage Model ( http://arxiv.org/abs/2302.05724v3 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 有界量子記憶モデルは、その量子記憶に関してのみ制限される計算上の非有界敵に対するセキュリティを達成することを目的としている。 本研究では,(1) CCA1-Secure symmetric key encryption, メッセージ認証符号, ワンタイムプログラムなどの強力なプリミティブに対して, 情報理論によるセキュアな構成を提供する。 これらのスキームは、正直なユーザのために量子メモリを必要としないが、送信長を十分に増やすことで、任意に大きなメモリを持つ敵に対してセキュアにすることができる。 2) CCA1-Secure 非対称鍵暗号、暗号化トークン、署名、署名トークン、プログラムブロードキャスト。 これらのスキームは、約$e^{\sqrt{m}}$量子メモリを持つ敵に対して安全である。 建設物はすべて、消失と不可避のセキュリティの概念を満足している。

The bounded quantum storage model aims to achieve security against computationally unbounded adversaries that are restricted only with respect to their quantum memories. In this work, we provide information-theoretic secure constructions in this model for the following powerful primitives: (1) CCA1-secure symmetric key encryption, message authentication codes, and one-time programs. These schemes require no quantum memory for the honest user, while they can be made secure against adversaries with arbitrarily large memories by increasing the transmission length sufficiently. (2) CCA1-secure asymmetric key encryption, encryption tokens, signatures, signature tokens, and program broadcast. These schemes are secure against adversaries with roughly $e^{\sqrt{m}}$ quantum memory where $m$ is the quantum memory required for the honest user. All of the constructions additionally satisfy notions of disappearing and unclonable security.
翻訳日:2023-06-08 19:12:53 公開日:2023-06-06
# ディープニューラルネットワークによるストリーミングアクティブラーニング

Streaming Active Learning with Deep Neural Networks ( http://arxiv.org/abs/2303.02535v2 )

ライセンス: Link先を確認
Akanksha Saran, Safoora Yousefi, Akshay Krishnamurthy, John Langford, Jordan T. Ash(参考訳) アクティブラーニングは、おそらくオンラインラーニング問題として最も自然に提起されている。 しかし、ディープニューラルネットワークによる事前アクティブな学習アプローチでは、事前にデータセット全体へのオフラインアクセスを前提としている。 本稿では、ストリーミング設定におけるディープニューラルネットワークを用いたバッチアクティブ学習のための新しいアルゴリズムであるVeSSALを提案する。 提案手法は,ハンドチューニングハイパーパラメータを必要とせず,所望のクエリレートに適合するために,クエリしたサンプルの不確実性と多様性をトレードオフする。 全体として、深層ニューラルネットワークの適用範囲を、hciや大規模な破壊的データセットに関連するアプリケーションなど、現実的なアクティブラーニングシナリオにまで拡大します。

Active learning is perhaps most naturally posed as an online learning problem. However, prior active learning approaches with deep neural networks assume offline access to the entire dataset ahead of time. This paper proposes VeSSAL, a new algorithm for batch active learning with deep neural networks in streaming settings, which samples groups of points to query for labels at the moment they are encountered. Our approach trades off between uncertainty and diversity of queried samples to match a desired query rate without requiring any hand-tuned hyperparameters. Altogether, we expand the applicability of deep neural networks to realistic active learning scenarios, such as applications relevant to HCI and large, fractured datasets.
翻訳日:2023-06-08 19:04:44 公開日:2023-06-06
# 中国におけるフロアスペース構築 - データセットと学習パイプライン

Building Floorspace in China: A Dataset and Learning Pipeline ( http://arxiv.org/abs/2303.02230v2 )

ライセンス: Link先を確認
Peter Egger, Susie Xi Rao, Sebastiano Papini(参考訳) 本論文は、中国40大都市における建物の床面積(建築面積と高さ)を計測する最初のマイルストーンを提供する。 都市の範囲を最大化し、最終的には縦データを提供することが目的だ。 そのためには、都市の大きな断面と長い時系列がそのようなフォーマットでしか利用できないため、中粒度の粒度のイメージを構築する必要がある。 マルチタスク・オブジェクト・セグメンタ・アプローチを用いて,同じ枠組みで建物の足跡と高さを並列に学習する。(1) 表面積が任意の建物で覆われていること,(2) 様々な角度から建物のマルチイメージ表現から床空間が決定され,建物の高さが決定される。 主なデータ源はsentinel-1とsentinel-2衛星画像です。 これらのデータの利点は、大きな横断的かつ縦方向のスコープと制限のないアクセシビリティである。 データ、アルゴリズム、評価の詳細な説明を提供する。 さらに, 基準データの品質と, 建物床面積を最小限の誤差で測定する役割を解析した。 マルチタスク学習者を用いたケーススタディとして深センを用いた定量的・定性的分析を行った。 最後に,我々の研究成果(ピクセルレベルと集約市街地レベルの両方)と夜光データとの相関研究を行い,都市開発研究におけるアプローチのメリットを評価した。 我々のデータとコードベースはhttps://gitlab.ethz.ch/raox/urban-satellite-public-v2で公開されています。

This paper provides a first milestone in measuring the floorspace of buildings (that is, building footprint and height) for 40 major Chinese cities. The intent is to maximize city coverage and, eventually provide longitudinal data. Doing so requires building on imagery that is of a medium-fine-grained granularity, as larger cross sections of cities and longer time series for them are only available in such format. We use a multi-task object segmenter approach to learn the building footprint and height in the same framework in parallel: (1) we determine the surface area is covered by any buildings (the square footage of occupied land); (2) we determine floorspace from multi-image representations of buildings from various angles to determine the height of buildings. We use Sentinel-1 and -2 satellite images as our main data source. The benefits of these data are their large cross-sectional and longitudinal scope plus their unrestricted accessibility. We provide a detailed description of our data, algorithms, and evaluations. In addition, we analyze the quality of reference data and their role for measuring the building floorspace with minimal error. We conduct extensive quantitative and qualitative analyses with Shenzhen as a case study using our multi-task learner. Finally, we conduct correlation studies between our results (on both pixel and aggregated urban area levels) and nightlight data to gauge the merits of our approach in studying urban development. Our data and codebase are publicly accessible under https://gitlab.ethz.ch/raox/urban-satellite-public-v2.
翻訳日:2023-06-08 19:04:33 公開日:2023-06-06
# 機械学習モデルはデータから推測される統計的ルールを学ぶか?

Do Machine Learning Models Learn Statistical Rules Inferred from Data? ( http://arxiv.org/abs/2303.01433v2 )

ライセンス: Link先を確認
Aaditya Naik, Yinjun Wu, Mayur Naik, Eric Wong(参考訳) 機械学習モデルは、大量のデータに簡単に隠される重要なエラーを作ることができる。 このような誤りは、しばしば人間の直観に基づく規則に逆らう。 しかし、人間の知識に基づくルールはスケールや形式化が難しい。 これにより,データから統計的規則を推論し,モデルが学習した範囲を定量化する。 本稿では,論理に基づく手法と統計的推論を統合し,モデルの学習データから規則を導出するフレームワークsqrlを提案する。 さらに、テスト時にモデルを適応してルール違反を減らし、より一貫性のある予測を生成する方法を示す。 SQRLは、視覚、表、言語設定からデータセットに対して最大300万ルールを生成する。 我々は、分類、オブジェクト検出、データインプテーションに関する最先端モデルによって、これらのルールの最大158k違反を明らかにする。 テスト時間適応は、これらの違反を最大68.7%削減し、相対的なパフォーマンス改善は32%である。 SQRLはhttps://github.com/DebugML/sqrl.comから入手できる。

Machine learning models can make critical errors that are easily hidden within vast amounts of data. Such errors often run counter to rules based on human intuition. However, rules based on human knowledge are challenging to scale or to even formalize. We thereby seek to infer statistical rules from the data and quantify the extent to which a model has learned them. We propose a framework SQRL that integrates logic-based methods with statistical inference to derive these rules from a model's training data without supervision. We further show how to adapt models at test time to reduce rule violations and produce more coherent predictions. SQRL generates up to 300K rules over datasets from vision, tabular, and language settings. We uncover up to 158K violations of those rules by state-of-the-art models for classification, object detection, and data imputation. Test-time adaptation reduces these violations by up to 68.7% with relative performance improvement up to 32%. SQRL is available at https://github.com/DebugML/sqrl.
翻訳日:2023-06-08 19:03:57 公開日:2023-06-06
# 機械学習とドメイン知識を用いたデジタル健康行動変化介入のパーソナライズ

Personalising Digital Health Behaviour Change Interventions using Machine Learning and Domain Knowledge ( http://arxiv.org/abs/2304.03392v4 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Mor Peleg(参考訳) 我々は,患者の行動変化介入(BCI)への適応を支援する仮想コーチングシステムを開発している。 提案システムは,患者が対象行動を行うかどうかを予測し,BCIのパーソナライゼーションを導くために,特徴制御と対実例を用いた。 患者データを様々なレベルの受容性を持つシミュレーションデータを用いて介入を行い,本システムの評価を可能にする研究設計に着く。

We are developing a virtual coaching system that helps patients adhere to behavior change interventions (BCI). Our proposed system predicts whether a patient will perform the targeted behaviour and uses counterfactual examples with feature control to guide personalisation of BCI. We use simulated patient data with varying levels of receptivity to intervention to arrive at the study design which would enable evaluation of our system.
翻訳日:2023-06-08 18:56:10 公開日:2023-06-06
# BOLT:コモディティCPUハードウェア上での大規模検索とレコメンデーションモデルのトレーニングとデプロイのためのディープラーニングフレームワーク

BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Search and Recommendation Models on Commodity CPU Hardware ( http://arxiv.org/abs/2303.17727v3 )

ライセンス: Link先を確認
Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava(参考訳) コモディティCPUハードウェア上での大規模なニューラルネットワークトレーニングと推論は、ディープラーニング(DL)機能を民主化する上で、極めて実践的な重要性を持つ。 現在、数十億から数十億のパラメータからなる大規模モデルをトレーニングするプロセスでは、GPUのような特別なハードウェアアクセラレータを広範囲に使用する必要がある。 さらに、これらのモデルのトレーニングとデプロイに関連するカーボンフットプリントが懸念されることが多い。 本稿では,標準的なCPUハードウェア上で大規模検索とレコメンデーションモデルをトレーニングする,疎いディープラーニングライブラリBOLTを導入することにより,これらの課題に対処する。 boltは、既存の人気のあるdlフレームワークのユーザになじみのあるモデルを構築するための、柔軟でハイレベルなapiを提供する。 特殊なハイパーパラメータを自動的にチューニングすることで、BOLTはスパースネットワークトレーニングのアルゴリズムの詳細を抽象化する。 製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。 提案システムは,コストとエネルギー消費のごく一部で最先端技術と競合する性能と,より高速な推定時間を実現する。 boltはまた、重要な問題に対処するために複数のビジネスによってうまくデプロイされ、eコマースの分野における1つの顧客展開ケーススタディを強調する。

Efficient large-scale neural network training and inference on commodity CPU hardware is of immense practical significance in democratizing deep learning (DL) capabilities. Presently, the process of training massive models consisting of hundreds of millions to billions of parameters requires the extensive use of specialized hardware accelerators, such as GPUs, which are only accessible to a limited number of institutions with considerable financial resources. Moreover, there is often an alarming carbon footprint associated with training and deploying these models. In this paper, we take a step towards addressing these challenges by introducing BOLT, a sparse deep learning library for training large-scale search and recommendation models on standard CPU hardware. BOLT provides a flexible, high-level API for constructing models that will be familiar to users of existing popular DL frameworks. By automatically tuning specialized hyperparameters, BOLT also abstracts away the algorithmic details of sparse network training. We evaluate BOLT on a number of information retrieval tasks including product recommendations, text classification, graph neural networks, and personalization. We find that our proposed system achieves competitive performance with state-of-the-art techniques at a fraction of the cost and energy consumption and an order-of-magnitude faster inference time. BOLT has also been successfully deployed by multiple businesses to address critical problems, and we highlight one customer deployment case study in the field of e-commerce.
翻訳日:2023-06-08 18:55:51 公開日:2023-06-06
# DisC-Diff:マルチコントラストMRI超解像のための遠方拡散モデル

DisC-Diff: Disentangled Conditional Diffusion Model for Multi-Contrast MRI Super-Resolution ( http://arxiv.org/abs/2303.13933v2 )

ライセンス: Link先を確認
Ye Mao, Lan Jiang, Xi Chen, and Chao Li(参考訳) マルチコントラストMRI(Multi-Contrast MRI)は、脳組織のコントラストに基づいて神経疾患を特徴づける最も一般的な管理ツールである。 しかし、高分解能MRIスキャンの取得には時間がかかり、特定の条件下では不可能である。 そこで, マルチコントラスト超解像法は, マルチコントラストMRIの相補的情報を活用することで, 低コントラストの品質を向上させるために開発された。 現在のディープラーニングに基づく超解法は、復元の不確実性の推定とモード崩壊の回避に限界がある。 拡散モデルは画像強調のための有望なアプローチとして現れてきたが、マルチコントラストMRIによる複数の条件間の複雑な相互作用を捉えることは、臨床応用の課題である。 本稿では,マルチコントラスト脳MRI超解像のための不整合拡散モデルDisC-Diffを提案する。 拡散モデルのサンプリングベース生成と単純な目的関数を利用して、修復における不確実性を効果的に推定し、安定した最適化プロセスを保証する。 さらに,DEC-Diffは,マルチコントラストMRIからの補完的情報をフル活用し,マルチコントラスト入力の複数の条件下でのモデル解釈を改善する。 578個の正常脳を含むIXIデータセットと316個の病理脳を含む臨床データセットの2つのデータセットに対するDisC-Diffの有効性を検証した。 実験の結果,DisC-Diffは,他の最先端手法よりも定量的にも視覚的にも優れていた。

Multi-contrast magnetic resonance imaging (MRI) is the most common management tool used to characterize neurological disorders based on brain tissue contrasts. However, acquiring high-resolution MRI scans is time-consuming and infeasible under specific conditions. Hence, multi-contrast super-resolution methods have been developed to improve the quality of low-resolution contrasts by leveraging complementary information from multi-contrast MRI. Current deep learning-based super-resolution methods have limitations in estimating restoration uncertainty and avoiding mode collapse. Although the diffusion model has emerged as a promising approach for image enhancement, capturing complex interactions between multiple conditions introduced by multi-contrast MRI super-resolution remains a challenge for clinical applications. In this paper, we propose a disentangled conditional diffusion model, DisC-Diff, for multi-contrast brain MRI super-resolution. It utilizes the sampling-based generation and simple objective function of diffusion models to estimate uncertainty in restorations effectively and ensure a stable optimization process. Moreover, DisC-Diff leverages a disentangled multi-stream network to fully exploit complementary information from multi-contrast MRI, improving model interpretation under multiple conditions of multi-contrast inputs. We validated the effectiveness of DisC-Diff on two datasets: the IXI dataset, which contains 578 normal brains, and a clinical dataset with 316 pathological brains. Our experimental results demonstrate that DisC-Diff outperforms other state-of-the-art methods both quantitatively and visually.
翻訳日:2023-06-08 18:53:41 公開日:2023-06-06
# 三重ウェルポテンシャルにおけるライドバーグの服を着たボソンの量子カオスのシグネチャ

Signatures of quantum chaos of Rydberg dressed bosons in a triple-well potential ( http://arxiv.org/abs/2304.09565v2 )

ライセンス: Link先を確認
Tianyi Yan, Matthew Collins, Rejish Nath, Weibin Li(参考訳) 我々は1次元の3重井戸ポテンシャルで保持されたライドベルク型ボソニック原子の力学における量子カオスのシグネチャを研究する。 レーザードレッシング原子によって強く相互作用するリドベルク状態に誘導される長距離近傍と次のアレスト近傍の相互作用は、極端に平均場と量子多体ダイナミクスに影響を及ぼす。 平均場動力学を解析することにより、正および大きなリャプノフ指数を持つ古典的カオス領域を、潜在的に傾いたり、服装した相互作用の関数として同定する。 量子系では、ライプノフ指数が大きい場合、固有エネルギーの準統計量はウィグナー・ダイソン分布となり、強い量子カオスのシグネチャが生じることが判明した。 時間平均エンタングルメントエントロピーと初期状態の生存確率の両方が、量子カオス状態において顕著に大きな値を持つことがわかった。 さらに, 量子カオスの出現を示す指標として, 集団分散が利用できることを示した。 これは、個々のポテンシャル井戸の人口動態を分析することによって、量子カオスダイナミクスを直接探究する方法となるかもしれない。

We study signatures of quantum chaos in dynamics of Rydberg dressed bosonic atoms held in a one dimensional triple-well potential. Long-range nearest-neighbor and next-nearest-neighbor interactions, induced by laser dressing atoms to strongly interacting Rydberg states, affect drastically mean field and quantum many-body dynamics. By analyzing the mean field dynamics, classical chaos regions with positive and large Lyapunov exponents are identified as a function of the potential well tilting and dressed interactions. In the quantum regime, it is found that level statistics of the eigen-energies gains a Wigner-Dyson distribution when the Lyapunov exponents are large, giving rise to signatures of strong quantum chaos. We find that both the time averaged entanglement entropy and survival probability of the initial state have distinctively large values in the quantum chaos regime. We further show that population variances could be used as an indicator of the emergence of quantum chaos. This might provide a way to directly probe quantum chaotic dynamics through analyzing population dynamics in individual potential wells.
翻訳日:2023-06-08 18:46:12 公開日:2023-06-06
# imagereward: テキストから画像への生成のための人間好みの学習と評価

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation ( http://arxiv.org/abs/2304.05977v3 )

ライセンス: Link先を確認
Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong(参考訳) 人間の嗜好フィードバックからテキスト・ツー・イメージモデルを学び改善するための総合的なソリューションを提案する。 まず、imagereward -- 人間の好みを効果的にエンコードするために、最初の汎用テキストから画像への優先報酬モデル -- を構築します。 そのトレーニングは、評価やランキングを含む体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較を収集しています。 人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れており、テキストと画像の合成を評価するための有望な自動測定基準となっている。 その上で,スコアに対する拡散モデルを最適化する直接チューニングアルゴリズムであるReward Feedback Learning (ReFL)を提案する。 自動評価と人的評価は、比較手法よりもReFLの利点をサポートする。 すべてのコードとデータセットは \url{https://github.com/thudm/imagereward} で提供される。

We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward -- the first general-purpose text-to-image human preference reward model -- to effectively encode human preferences. Its training is based on our systematic annotation pipeline including rating and ranking, which collects 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring models and metrics, making it a promising automatic metric for evaluating text-to-image synthesis. On top of it, we propose Reward Feedback Learning (ReFL), a direct tuning algorithm to optimize diffusion models against a scorer. Both automatic and human evaluation support ReFL's advantages over compared methods. All code and datasets are provided at \url{https://github.com/THUDM/ImageReward}.
翻訳日:2023-06-08 18:44:38 公開日:2023-06-06
# expressnet: 指紋提示攻撃検出のための説明可能なスリムネットワーク

EXPRESSNET: An Explainable Residual Slim Network for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2305.09397v2 )

ライセンス: Link先を確認
Anuj Rai, Somnath Dey(参考訳) プレゼンテーション攻撃は、自動指紋認識システムのセキュリティを維持する上で難しい問題である。 本稿では,入力指紋サンプルの視覚的特徴を表現し,プレゼンテーションアタックを検出する新しい説明可能な残差スリムネットワークを提案する。 このネットワークのエンコーダ・デコーダはチャネルアテンションブロックと共に入力サンプルをヒートマップ表現に変換し、修正された残差畳み込みニューラルネットワーク分類器はライブ指紋とスプーフ指紋を識別する。 ヒートマップジェネレータブロックと修正されたResNet分類器のアーキテクチャ全体がエンドツーエンドで連携する。 リブデット2011、2015、2015、2017、2019のベンチマーク・ライブネス検出コンペティション・データベースにおいて、提案モデルの性能が検証され、それぞれ96.86\%、99.84\%、96.45\%、96.07\%、96.27\%の分類精度が達成された。 提案手法の性能を最先端技術と比較し,提案手法はプレゼンテーションアタック検出のベンチマークプロトコルにおいて,分類精度の観点から最先端アタック検出手法を上回っている。

Presentation attack is a challenging issue that persists in the security of automatic fingerprint recognition systems. This paper proposes a novel explainable residual slim network that detects the presentation attack by representing the visual features in the input fingerprint sample. The encoder-decoder of this network along with the channel attention block converts the input sample into its heatmap representation while the modified residual convolutional neural network classifier discriminates between live and spoof fingerprints. The entire architecture of the heatmap generator block and modified ResNet classifier works together in an end-to-end manner. The performance of the proposed model is validated on benchmark liveness detection competition databases i.e. Livdet 2011, 2013, 2015, 2017, and 2019 and the classification accuracy of 96.86\%, 99.84\%, 96.45\%, 96.07\%, 96.27\% are achieved on them, respectively. The performance of the proposed model is compared with the state-of-the-art techniques, and the proposed method outperforms state-of-the-art methods in benchmark protocols of presentation attack detection in terms of classification accuracy.
翻訳日:2023-06-08 18:36:55 公開日:2023-06-06
# 分子ドッキングと機械学習回帰法を用いたCOVID-19 3CLプロテアーゼを標的とした薬物精製

Drug Repurposing Targeting COVID-19 3CL Protease using Molecular Docking and Machine Learning Regression Approach ( http://arxiv.org/abs/2305.18088v2 )

ライセンス: Link先を確認
Imra Aqeel, Abdul Majid(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界的な健康危機を引き起こし、治療薬の早期発見の必要性が高まっている。 この課題を満たすために、医薬品の再利用はコストと時間を節約する唯一の解決策である。 本研究では,SARS-CoV-2の主要プロテアーゼ3CLを標的とした新型コロナウイルス治療の可能性として,FDAが承認した5903薬を含む世界承認薬をスクリーニングするために,Zincデータベースを使用した。 薬物分子の有効性を確認するため,autodock-vinaを用いた分子ドッキングを行った。 薬物再資源化手法の効率を高めるために, 決定木, 余剰木, MLP, KNN, XGBoost, 勾配ブースティングなどのQSARモデリングのための機械学習回帰手法を用いて, 結合親和性をモデル化した。 その結果,決定木回帰(DTR)モデルにより,R2およびRMSEの統計的測定精度が向上した。 これらのシミュレーション結果は高い結合親和性と良好な結合エネルギーを有する薬物の同定に寄与した。 統計分析の結果,ZINC000003873365,ZINC000085432544,ZINC000203757351,ZINC000085536956,ZINC0008214470,ZINC000261494640 ) をそれぞれ-15.1 kcal/molから-13.6 kcal/molの範囲で選択した。 いずれも、既にcovid-19に対して同定された亜鉛203757351以外の新規化合物である。 さらに, これらの薬剤の生理化学的および薬物動態特性を, 特異的なプロテアーゼ3CLproとの結合性について解析した。 我々の研究は、COVID-19に対する薬物再精製の効果的な枠組みを提供してきた。 これは、分子ドッキングと機械学習回帰アプローチを組み合わせることで、潜在的な治療候補の同定を加速する可能性を強調している。

The COVID-19 pandemic has created a global health crisis, driving the need for the rapid identification of potential therapeutics. To meet this challenge, drug repurposing is the only solution with saving cost and time. In this study, we used the Zinc database to screen the world-approved including FDA-approved 5903 drugs for repurposing as potential COVID-19 treatments targeting the main protease 3CL of SARS-CoV-2. We performed molecular docking using Autodock-Vina to check the efficacy of drug molecules. To enhance the efficiency of drug repurposing approach, we modeled the binding affinities using several machine learning regression approaches for QSAR modeling such as decision tree, extra trees, MLP, KNN, XGBoost, and gradient boosting. The computational results demonstrated that Decision Tree Regression (DTR) model has improved statistical measures of R2 and RMSE. These simulated results helped to identify drugs with high binding affinity and favorable binding energies. From the statistical analysis, we shortlisted six promising drugs with their respective Zinc IDs (ZINC000003873365, ZINC000085432544, ZINC000203757351, ZINC000085536956, ZINC000008214470 and ZINC000261494640) within the range of -15.1 kcal/mol to -13.6 kcal/mol. All are novel compounds except ZINC000203757351 antiviral compound that was already identified against COVID-19 in other studies. Further, we analyzed the physiochemical and pharmacokinetic properties of these selected drugs with respect to their best binding interaction to specific target protease 3CLpro. Our study has provided an efficient framework for drug repurposing against COVID-19. This highlights the potential of combining molecular docking with machine learning regression approaches to accelerate the identification of potential therapeutic candidates.
翻訳日:2023-06-08 18:16:24 公開日:2023-06-06
# 歴史ヨーロッパの人々と場所--中世後期のテキストにおけるアノテーションパイプラインのブートストラップと名前付きエンティティの新しいコーパス

People and Places of Historical Europe: Bootstrapping Annotation Pipeline and a New Corpus of Named Entities in Late Medieval Texts ( http://arxiv.org/abs/2305.16718v2 )

ライセンス: Link先を確認
V\'it Novotn\'y, Krist\'yna Luger, Michal \v{S}tef\'anik, Tereza Vrabcov\'a, Ale\v{s} Hor\'ak(参考訳) 事前訓練された名前付きエンティティ認識(NER)モデルは現代のコーパスでは精度が高いが、言語OCRエラーの違いにより過去のテキストでは性能が劣る。 本研究では,チェコ語,ラテン語,ドイツ語を主とする中世後期の憲章から,3.6m文のnerコーパスを開発した。 まず,既知の歴史的人物と場所のリストと無注の歴史的テキストのコーパスから始めて,情報検索技術を用いてnerに注釈付きコーパスを自動的にブートストラップできることを示す。 このコーパスを用いて,手作業によるテストデータセット上で,エンティティレベルの精度72.81-93.98%,58.14-81.77%のリコールを実現するnerモデルをトレーニングする。 さらに,重み付き損失関数を用いることで,トークン分類タスクにおけるクラス不均衡に対処できることを示す。 他人の作業の再現と構築を容易にするために、私たちは、コーパス、モデル、実験的なコードを公開しています。

Although pre-trained named entity recognition (NER) models are highly accurate on modern corpora, they underperform on historical texts due to differences in language OCR errors. In this work, we develop a new NER corpus of 3.6M sentences from late medieval charters written mainly in Czech, Latin, and German. We show that we can start with a list of known historical figures and locations and an unannotated corpus of historical texts, and use information retrieval techniques to automatically bootstrap a NER-annotated corpus. Using our corpus, we train a NER model that achieves entity-level Precision of 72.81-93.98% with 58.14-81.77% Recall on a manually-annotated test dataset. Furthermore, we show that using a weighted loss function helps to combat class imbalance in token classification tasks. To make it easy for others to reproduce and build upon our work, we publicly release our corpus, models, and experimental code.
翻訳日:2023-06-08 18:14:27 公開日:2023-06-06
# feed pets: ユーフェミズム用語の曖昧さ回避に関するさらなる実験と拡張

FEED PETs: Further Experimentation and Expansion on the Disambiguation of Potentially Euphemistic Terms ( http://arxiv.org/abs/2306.00217v2 )

ライセンス: Link先を確認
Patrick Lee, Iyanuoluwa Shode, Alain Chirino Trujillo, Yuan Zhao, Olumide Ebenezer Ojo, Diana Cuevas Plancarte, Anna Feldman, Jing Peng(参考訳) トランスフォーマーは英語のエウヘミズムの曖昧さの課題に対してうまく機能し、ある特定の文脈において、潜在的エウヘミズム用語(PET)はエウヘミズムまたは非エウヘミズムに分類される。 本研究では,タスクを2つの方法で拡張する。 まず,ペットを曖昧性にアノテートし,その言語特性から,トランスフォーマーが一般に曖昧なペットの分類に優れていることを見出し,パフォーマンスに影響を与えるデータにおける言語的差異を示唆する。 第2に, ヨルバ語, スペイン語, マンダリン中国語の3つの異なる言語で, 小説 euphemism corpora を提示する。 我々は、多言語トランスフォーマーモデルmBERTとXLM-RoBERTaを用いて、各言語でエウヘミズムの曖昧化実験を行い、今後の作業を開始するための予備的な結果を確立した。

Transformers have been shown to work well for the task of English euphemism disambiguation, in which a potentially euphemistic term (PET) is classified as euphemistic or non-euphemistic in a particular context. In this study, we expand on the task in two ways. First, we annotate PETs for vagueness, a linguistic property associated with euphemisms, and find that transformers are generally better at classifying vague PETs, suggesting linguistic differences in the data that impact performance. Second, we present novel euphemism corpora in three different languages: Yoruba, Spanish, and Mandarin Chinese. We perform euphemism disambiguation experiments in each language using multilingual transformer models mBERT and XLM-RoBERTa, establishing preliminary results from which to launch future work.
翻訳日:2023-06-08 18:06:54 公開日:2023-06-06
# Provenance Graph構造特徴を用いたGNNによるIDS検出の解釈

Interpreting GNN-based IDS Detections Using Provenance Graph Structural Features ( http://arxiv.org/abs/2306.00934v2 )

ライセンス: Link先を確認
Kunal Mukherjee, Joshua Wiedemeier, Tianhao Wang, Muhyun Kim, Feng Chen, Murat Kantarcioglu and Kangkook Jee(参考訳) 複雑なニューラルネットワーク(NN)ベースのモデルにおけるブラックボックスの性質は、論理的説明の欠如と予測に対する実用的なフォローアップのために、セキュリティドメインへの普及を妨げている。 システム証明分析で使用されるグラフニューラルネットワーク(GNN)のセキュリティモデルの透明性と説明責任を高めるために,抽象的なGNN決定境界を解釈可能な特徴空間に投影するフレームワークであるPROVEXPLAINERを提案する。 まず,決定木(DT)などの簡易かつ説明可能なモデルを用いて,GNNベースのセキュリティモデルの意思決定プロセスを再現する。 本研究では,サロゲートモデルの精度と忠実性を最大化するために,古典グラフ理論に基づく新しいグラフ構造特徴を提案し,セキュリティ領域知識を用いた広範なデータ研究により拡張する。 グラフの構造的特徴は,システムプロヴァンス領域における問題空間的動作と密接に関連しており,記述的,人間言語で検出結果を説明することができる。 PROVEXPLAINERは、一般的なグラフ構造を持つプログラム分類タスクにおいて、単純なDTモデルで95%の忠実性を達成し、直接解釈に適したタスク固有の機能パッケージを備えたマルウェア検出タスクでは99%の忠実性を達成した。 マルウェア分類の説明は、3つのマルウェアファミリーにわたる5つの現実世界のマルウェアサンプルのケーススタディで実証された。

The black-box nature of complex Neural Network (NN)-based models has hindered their widespread adoption in security domains due to the lack of logical explanations and actionable follow-ups for their predictions. To enhance the transparency and accountability of Graph Neural Network (GNN) security models used in system provenance analysis, we propose PROVEXPLAINER, a framework for projecting abstract GNN decision boundaries onto interpretable feature spaces. We first replicate the decision-making process of GNNbased security models using simpler and explainable models such as Decision Trees (DTs). To maximize the accuracy and fidelity of the surrogate models, we propose novel graph structural features founded on classical graph theory and enhanced by extensive data study with security domain knowledge. Our graph structural features are closely tied to problem-space actions in the system provenance domain, which allows the detection results to be explained in descriptive, human language. PROVEXPLAINER allowed simple DT models to achieve 95% fidelity to the GNN on program classification tasks with general graph structural features, and 99% fidelity on malware detection tasks with a task-specific feature package tailored for direct interpretation. The explanations for malware classification are demonstrated with case studies of five real-world malware samples across three malware families.
翻訳日:2023-06-08 17:57:38 公開日:2023-06-06
# 高次元および置換不変異常検出

High-dimensional and Permutation Invariant Anomaly Detection ( http://arxiv.org/abs/2306.03933v1 )

ライセンス: Link先を確認
Vinicius Mikuni, Benjamin Nachman(参考訳) 新しい物理過程の異常検出法は、高次元確率密度の学習が困難であるため、しばしば低次元空間に限られる。 特に構成レベルでは,一般密度推定法では置換不変性や可変長入力などの望ましい特性を組み込むことが困難となる。 本研究では, 分散モデルに基づく粒子物理学データに対して, 可変長入力を扱うために特別に設計された置換不変密度推定器を提案する。 本手法の有効性は,学習密度を置換不変な異常検出スコアとして利用し,背景のみの仮説の下でジェットを効果的に同定することによって実証する。 密度推定法を検証するため, 教師付き分類アルゴリズムにより得られた密度の比について検討し, 比較を行った。

Methods for anomaly detection of new physics processes are often limited to low-dimensional spaces due to the difficulty of learning high-dimensional probability densities. Particularly at the constituent level, incorporating desirable properties such as permutation invariance and variable-length inputs becomes difficult within popular density estimation methods. In this work, we introduce a permutation-invariant density estimator for particle physics data based on diffusion models, specifically designed to handle variable-length inputs. We demonstrate the efficacy of our methodology by utilizing the learned density as a permutation-invariant anomaly detection score, effectively identifying jets with low likelihood under the background-only hypothesis. To validate our density estimation method, we investigate the ratio of learned densities and compare to those obtained by a supervised classification algorithm.
翻訳日:2023-06-08 17:49:11 公開日:2023-06-06
# Q: 大規模ビジョンランゲージモデルからデータスカースVQAタスクへ A: ラベルなし画像のセルフトレイン!

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images! ( http://arxiv.org/abs/2306.03932v1 )

ライセンス: Link先を確認
Zaid Khan, Vijay Kumar BG, Samuel Schulter, Xiang Yu, Yun Fu, Manmohan Chandraker(参考訳) 大規模事前訓練後のターゲットデータセット上の大規模視覚言語モデル(VLM)を微調整することは、視覚的質問応答(VQA)において支配的なパラダイムである。 非自然像領域における知識ベースVQAやVQAのような特殊タスクのデータセットは、汎用VQAよりも桁違いに小さい。 専門的なタスクやドメインのための追加ラベルの収集は難しい場合があるが、ラベルなしの画像はしばしば利用可能である。 SelTDA(Self-Taught Data Augmentation)は,小型VQAデータセット上で大規模VLMを微調整するための戦略である。 seltdaでは、vlmとターゲットデータセットを使用して、画像のみに条件付けされた質問応答擬似ラベルを生成可能な教師モデルを構築しています。 次にSelTDAは、新たに擬似ラベル付きイメージを付加した元のデータセットで初期VLMを微調整する。 本稿では, 自己学習によるデータ拡張が, 逆探索された質問, 反実例, 言い換えに対する堅牢性を高め, ドメインの一般化を向上し, 数値推論スキルの維持につながることを示す一連の実験について述べる。 提案された戦略は追加のアノテーションやアーキテクチャの変更を必要とせず、現代のエンコーダ・デコーダ・マルチモーダルトランスフォーマーと互換性がある。 コードはhttps://github.com/codezakh/seltda。

Finetuning a large vision language model (VLM) on a target dataset after large scale pretraining is a dominant paradigm in visual question answering (VQA). Datasets for specialized tasks such as knowledge-based VQA or VQA in non natural-image domains are orders of magnitude smaller than those for general-purpose VQA. While collecting additional labels for specialized tasks or domains can be challenging, unlabeled images are often available. We introduce SelTDA (Self-Taught Data Augmentation), a strategy for finetuning large VLMs on small-scale VQA datasets. SelTDA uses the VLM and target dataset to build a teacher model that can generate question-answer pseudolabels directly conditioned on an image alone, allowing us to pseudolabel unlabeled images. SelTDA then finetunes the initial VLM on the original dataset augmented with freshly pseudolabeled images. We describe a series of experiments showing that our self-taught data augmentation increases robustness to adversarially searched questions, counterfactual examples and rephrasings, improves domain generalization, and results in greater retention of numerical reasoning skills. The proposed strategy requires no additional annotations or architectural modifications, and is compatible with any modern encoder-decoder multimodal transformer. Code available at https://github.com/codezakh/SelTDA.
翻訳日:2023-06-08 17:48:58 公開日:2023-06-06
# 連続状態空間における反則最適作用列の探索

Finding Counterfactually Optimal Action Sequences in Continuous State Spaces ( http://arxiv.org/abs/2306.03929v1 )

ライセンス: Link先を確認
Stratis Tsirtsis, Manuel Gomez-Rodriguez(参考訳) 一連の複数の依存するアクションを時間とともに行うタスクを実行する人間は、特定のケースやポイントを時間内に反映することで経験から学ぶことが多い。 最近の機械学習手法では、意思決定プロセスは意思決定者を支援することを約束するが、それらは有限個の離散状態を持つ環境に焦点を当てている。 しかし、多くの応用において、環境の状態は本質的に連続的である。 本稿では,このギャップを埋めることを目的とする。 まず,有限ホライズンマルコフ決定過程と多岐にわたる単射構造因果モデルを用いて,離散作用と連続状態の列を形式的に特徴付ける。 この特徴付けに基づいて, 反事実的最適作用列を求める問題を定式化し, 一般に多項式時間で解くことはできないことを示す。 そこで,本研究では,環境力学のリプシッツ連続性の自然な形の下で最適解を返すことを保証した,$A^*$アルゴリズムに基づく探索手法を開発した。 実際の臨床データを用いた実験から,本手法は実際は非常に効率的であり,シーケンシャルな意思決定タスクに興味深い洞察を与える可能性が示唆された。

Humans performing tasks that involve taking a series of multiple dependent actions over time often learn from experience by reflecting on specific cases and points in time, where different actions could have led to significantly better outcomes. While recent machine learning methods to retrospectively analyze sequential decision making processes promise to aid decision makers in identifying such cases, they have focused on environments with finitely many discrete states. However, in many practical applications, the state of the environment is inherently continuous in nature. In this paper, we aim to fill this gap. We start by formally characterizing a sequence of discrete actions and continuous states using finite horizon Markov decision processes and a broad class of bijective structural causal models. Building upon this characterization, we formalize the problem of finding counterfactually optimal action sequences and show that, in general, we cannot expect to solve it in polynomial time. Then, we develop a search method based on the $A^*$ algorithm that, under a natural form of Lipschitz continuity of the environment's dynamics, is guaranteed to return the optimal solution to the problem. Experiments on real clinical data show that our method is very efficient in practice, and it has the potential to offer interesting insights for sequential decision making tasks.
翻訳日:2023-06-08 17:48:34 公開日:2023-06-06
# 対実予測セットを用いた意思決定支援システムの設計

Designing Decision Support Systems Using Counterfactual Prediction Sets ( http://arxiv.org/abs/2306.03928v1 )

ライセンス: Link先を確認
Eleni Straitouri and Manuel Gomez Rodriguez(参考訳) 分類タスクの意思決定支援システムは主に、基底真理ラベルの価値を予測するために設計されている。 しかし、予測が完璧ではないため、これらのシステムは、いつどのように予測を更新するかを人間の専門家に理解させる必要がある。 残念ながら、これは挑戦的だった。 この文脈では最近、代替的な意思決定支援システムがこの課題を回避できるかもしれないと論じられている。 これらのシステムは、単一のラベル予測を提供するのではなく、共形予測器、すなわち予測セットを用いて構築されたラベル予測値セットを提供し、予測セットから専門家にラベル値を予測するよう強制的に要求する。 しかしながら、これらのシステムの設計と評価は、これまでのところ、形式化された専門家モデルに依存しており、彼らの約束に疑問を呈している。 本稿では,オンライン学習の観点から,このタイプのシステムの設計を再考し,専門家モデルを必要としない,あるいは想定しない方法論を開発する。 提案手法は,任意の共形予測器によって提供される予測集合の入れ子構造と,予測集合に対する専門家の予測に対する自然な反事実的単調性仮定を活用し,バニラバンディットアルゴリズムと比較し,後悔の指数関数的改善を実現する。 我々は,偽モノトニック性の仮定を検証し,いくつかの競合ベースラインと比較するために,大規模ヒト被験者研究(n = 2{,}751$)を行う。 その結果、専門家のエージェントレベルを制限する意思決定支援システムは実用的であり、専門家が常にエージェントを行使できるよりも高いパフォーマンスを提供する可能性があることが示唆された。

Decision support systems for classification tasks are predominantly designed to predict the value of the ground truth labels. However, since their predictions are not perfect, these systems also need to make human experts understand when and how to use these predictions to update their own predictions. Unfortunately, this has been proven challenging. In this context, it has been recently argued that an alternative type of decision support systems may circumvent this challenge. Rather than providing a single label prediction, these systems provide a set of label prediction values constructed using a conformal predictor, namely a prediction set, and forcefully ask experts to predict a label value from the prediction set. However, the design and evaluation of these systems have so far relied on stylized expert models, questioning their promise. In this paper, we revisit the design of this type of systems from the perspective of online learning and develop a methodology that does not require, nor assumes, an expert model. Our methodology leverages the nested structure of the prediction sets provided by any conformal predictor and a natural counterfactual monotonicity assumption on the experts' predictions over the prediction sets to achieve an exponential improvement in regret in comparison with vanilla bandit algorithms. We conduct a large-scale human subject study ($n = 2{,}751$) to verify our counterfactual monotonicity assumption and compare our methodology to several competitive baselines. The results suggest that decision support systems that limit experts' level of agency may be practical and may offer greater performance than those allowing experts to always exercise their own agency.
翻訳日:2023-06-08 17:48:13 公開日:2023-06-06
# 交流場センサとしてのフロッケ時間結晶

Floquet time-crystals as sensors of AC fields ( http://arxiv.org/abs/2306.03927v1 )

ライセンス: Link先を確認
Fernando Iemini, Rosario Fazio, Anna Sanpera(参考訳) 量子センサとしての離散時間結晶(dtc)の性能について考察する。 DTCによって示される長距離空間および時間順序は、指数関数的に遅い加熱をもたらし、DTCを有利なセンサーに変える。 具体的には、acフィールドを推定する性能(量子フィッシャー情報によって決定される)は、長時間のセンシングプロトコルを許容しながら、ショットノイズ制限を克服することができる。 集団間相互作用はノイズに対して動的に安定化するため、これらのセンサはプロトコルの欠陥に対して堅牢になる。 このようなセンサの性能は、多体局所化相の存在の有無を調査するために二重の役割でも使用できる。

We discuss the performance of discrete time crystals (DTC) as quantum sensors. The long-range spatial and time ordering displayed by DTC, leads to an exponentially slow heating, turning DTC into advantageous sensors. Specifically, their performance (determined by the quantum Fisher information) to estimate AC fields, can overcome the shot-noise limit while allowing for long-time sensing protocols. Since the collective interactions stabilize their dynamics against noise, these sensors become robust to imperfections in the protocol. The performance of such a sensor can also be used in a dual role to probe the presence or absence of a many-body localized phase.
翻訳日:2023-06-08 17:47:46 公開日:2023-06-06
# 大型パッチ変換器を用いた変分モンテカルロ

Variational Monte Carlo with Large Patched Transformers ( http://arxiv.org/abs/2306.03921v1 )

ライセンス: Link先を確認
Kyle Sprague and Stefanie Czischek(参考訳) トランスフォーマーのような大規模な言語モデルは、最近、テキストと画像生成に大きな力を示している。 この成功は、配列内の要素間の長距離相関をキャプチャする能力によって引き起こされる。 同じ特徴により、トランスフォーマーは量子ビット系のシミュレーションにおける相関を記述するという課題に対処する強力な波動関数 ansatz となる。 2次元のRydberg原子配列を考察し、変分基底状態探索のための従来のリカレントニューラルネットワークよりもトランスフォーマーの精度が高いことを示す。 さらに,大きなアトムパッチのシーケンスを考慮した大規模パッチトランスモデルを導入し,このアーキテクチャがシミュレーションを著しく高速化することを示す。 提案されたアーキテクチャは、最先端の量子モンテカルロ法を超える精度で基底状態を再構築し、物質の異なる相と相転移における大きなライドバーグ系の研究を可能にする。 妥当な計算コストでの高精度基底状態表現は、一般的な大規模量子多体系に対する新たな洞察を約束する。

Large language models, like transformers, have recently demonstrated immense powers in text and image generation. This success is driven by the ability to capture long-range correlations between elements in a sequence. The same feature makes the transformer a powerful wavefunction ansatz that addresses the challenge of describing correlations in simulations of qubit systems. We consider two-dimensional Rydberg atom arrays to demonstrate that transformers reach higher accuracies than conventional recurrent neural networks for variational ground state searches. We further introduce large, patched transformer models, which consider a sequence of large atom patches, and show that this architecture significantly accelerates the simulations. The proposed architectures reconstruct ground states with accuracies beyond state-of-the-art quantum Monte Carlo methods, allowing for the study of large Rydberg systems in different phases of matter and at phase transitions. Our high-accuracy ground state representations at reasonable computational costs promise new insights into general large-scale quantum many-body systems.
翻訳日:2023-06-08 17:47:37 公開日:2023-06-06
# 大きな言語モデルを認知モデルに変える

Turning large language models into cognitive models ( http://arxiv.org/abs/2306.03917v1 )

ライセンス: Link先を確認
Marcel Binz, Eric Schulz(参考訳) 大規模言語モデルは、翻訳から数学的推論まで、多くのタスクに優れた強力なシステムである。 しかし同時に、これらのモデルはしばしば非人間的な特徴を示す。 本稿では,このギャップに対処し,大規模言語モデルが認知モデルに変換できるかどうかを問う。 これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れています。 また,それらの表現には,個々の被験者の行動のモデル化に必要な情報が含まれていることを示す。 最後に,複数のタスクの微調整によって,これまで見つからなかったタスクにおいて,大規模言語モデルが人間の行動を予測できることを実証する。 これらの結果から,事前学習された大規模モデルがジェネラリスト認知モデルに適応できる可能性が示唆され,認知心理学と行動科学全体を変革する新たな研究方向が開かれた。

Large language models are powerful systems that excel at many tasks, ranging from translation to mathematical reasoning. Yet, at the same time, these models often show unhuman-like characteristics. In the present paper, we address this gap and ask whether large language models can be turned into cognitive models. We find that -- after finetuning them on data from psychological experiments -- these models offer accurate representations of human behavior, even outperforming traditional cognitive models in two decision-making domains. In addition, we show that their representations contain the information necessary to model behavior on the level of individual subjects. Finally, we demonstrate that finetuning on multiple tasks enables large language models to predict human behavior in a previously unseen task. Taken together, these results suggest that large, pre-trained models can be adapted to become generalist cognitive models, thereby opening up new research directions that could transform cognitive psychology and the behavioral sciences as a whole.
翻訳日:2023-06-08 17:47:15 公開日:2023-06-06
# 球価ガウス雑音の最適化

Optimizing Sphere Valued Gaussian Noise Stability ( http://arxiv.org/abs/2306.03912v1 )

ライセンス: Link先を確認
Steven Heilman(参考訳) 我々は、2次元球面で値を取るユークリッド函数に対するガウス雑音安定性(すなわちベクトル値ボレル不等式)に対するベクトル値の不等式を、最大で1/10$の相関パラメータに対して証明する。 この不等式は、Hwang, Neeman, Parekh, Thompson and Wright によって予想された。 このような不等式は、Unique Games Conjectureを仮定して、製品状態の量子MAX-CUT問題のシャープな計算硬度を証明するために必要である。

We prove a vector-valued inequality for the Gaussian noise stability (i.e. we prove a vector-valued Borell inequality) for Euclidean functions taking values in the two-dimensional sphere, for all correlation parameters at most $1/10$ in absolute value. This inequality was conjectured (for all correlation parameters at most $1$ in absolute value) by Hwang, Neeman, Parekh, Thompson and Wright. Such an inequality is needed to prove sharp computational hardness of the product state Quantum MAX-CUT problem, assuming the Unique Games Conjecture.
翻訳日:2023-06-08 17:46:59 公開日:2023-06-06
# 大規模非指向性重み付きネットワークの高精度表現のための多制約対称非負遅延因子解析

Multi-constrained Symmetric Nonnegative Latent Factor Analysis for Accurately Representing Large-scale Undirected Weighted Networks ( http://arxiv.org/abs/2306.03911v1 )

ライセンス: Link先を確認
Yurong Zhong, Zhe Xie, Weiling Li, and Xin Luo(参考訳) Undirected Weighted Network (UWN) は、バイオインフォマティクスアプリケーションからのタンパク質相互作用ネットワークなど、多数のノード間の複雑な相互作用に関するビッグデータ関連アプリケーションで頻繁に発生する。 対称な高次元および不完全(shdi)行列は、ノード相互作用の振る舞いや局所錯体のような豊富な知識を含む、そのようなuwnをスムーズに表現することができる。 SHDI行列から所望の知識を抽出するために、解析モデルはUWNの固有対称性を記述するための対称性トポロジーを慎重に検討する必要がある。 UWNへの表現学習は、Symmetric Non negative Matrix Factorization (SNMF)モデルのような対称性を意識したモデルのピラミッドの成功を借用している。 しかし、これらは以下の欠点に悩まされる。 1)計算複雑性が高い、そして 2)彼らのモデリング戦略は表現機能を狭め、学習能力の低下に苦しむ。 以上の批判的問題に対処するために,本稿では,2つの概念を持つ多制約対称性非負の潜在因子分析(MSNL)モデルを提案する。 1)複数のLF行列からなる多重制約、すなわち不等式と等式をデータ密度指向の目的関数に導入し、特徴空間を拡大したSHDI行列の固有対称性を正確に表現する。 2) 乗算器(admm)組み込み学習スキームの交互方向法を実装することで, このマルチ制約モデルを正確に解くことができる。 実バイオインフォマティクスや産業応用の3つのSHDI行列に関する実証研究により、提案したMSNLモデルは、最先端のモデルよりもSHDI行列に対してより強力な表現学習能力が得られることを示した。

An Undirected Weighted Network (UWN) is frequently encountered in a big-data-related application concerning the complex interactions among numerous nodes, e.g., a protein interaction network from a bioinformatics application. A Symmetric High-Dimensional and Incomplete (SHDI) matrix can smoothly illustrate such an UWN, which contains rich knowledge like node interaction behaviors and local complexes. To extract desired knowledge from an SHDI matrix, an analysis model should carefully consider its symmetric-topology for describing an UWN's intrinsic symmetry. Representation learning to an UWN borrows the success of a pyramid of symmetry-aware models like a Symmetric Nonnegative Matrix Factorization (SNMF) model whose objective function utilizes a sole Latent Factor (LF) matrix for representing SHDI's symmetry rigorously. However, they suffer from the following drawbacks: 1) their computational complexity is high; and 2) their modeling strategy narrows their representation features, making them suffer from low learning ability. Aiming at addressing above critical issues, this paper proposes a Multi-constrained Symmetric Nonnegative Latent-factor-analysis (MSNL) model with two-fold ideas: 1) introducing multi-constraints composed of multiple LF matrices, i.e., inequality and equality ones into a data-density-oriented objective function for precisely representing the intrinsic symmetry of an SHDI matrix with broadened feature space; and 2) implementing an Alternating Direction Method of Multipliers (ADMM)-incorporated learning scheme for precisely solving such a multi-constrained model. Empirical studies on three SHDI matrices from a real bioinformatics or industrial application demonstrate that the proposed MSNL model achieves stronger representation learning ability to an SHDI matrix than state-of-the-art models do.
翻訳日:2023-06-08 17:46:47 公開日:2023-06-06
# 畳み込みニューラルネットワークを用いた手書き文字認識

Recognition of Handwritten Japanese Characters Using Ensemble of Convolutional Neural Networks ( http://arxiv.org/abs/2306.03954v1 )

ライセンス: Link先を確認
Angel I. Solis, Justin Zarkovacki, John Ly and Adham Atyabi(参考訳) 日本の文字体系は複雑で、平仮名・片仮名・漢字の3文字タイプがある。 漢字は数千の独特な文字で構成されており、さらに文字識別や文学理解の複雑さが増している。 手書きの文字をデジタルテキストに翻訳できることは、データ分析、翻訳、学習、文化保存に有用である。 本研究では,手書き文字(漢字)の分析と認識のための機械学習手法を提案する。 本研究は手書き漢字の認識に3つの畳み込みニューラルネットワーク(CNN)を用いており、MNIST, K-MNIST, Kuzushiji-49(K49)の4つのデータセットと、クズシジ漢字データセット(K-Kanji)の上位150のクラスを用いて評価を行った。 その結果,手書き文字の認識にCNNアンサンブルアーキテクチャを用いることで,MNIST,K-MNIS,K49,K-Kanjiの各データセットの分類精度を99.4%,96.4%,95.0%,96.4%とした。

The Japanese writing system is complex, with three character types of Hiragana, Katakana, and Kanji. Kanji consists of thousands of unique characters, further adding to the complexity of character identification and literature understanding. Being able to translate handwritten Japanese characters into digital text is useful for data analysis, translation, learning and cultural preservation. In this study, a machine learning approach to analyzing and recognizing handwritten Japanese characters (Kanji) is proposed. The study used an ensemble of three convolutional neural networks (CNNs) for recognizing handwritten Kanji characters and utilized four datasets of MNIST, K-MNIST, Kuzushiji-49 (K49) and the top 150 represented classes in the Kuzushiji-Kanji (K-Kanji) dataset for its performance evaluation. The results indicate feasibility of using proposed CNN-ensemble architecture for recognizing handwritten characters, achieving 99.4%, 96.4%, 95.0% and 96.4% classification accuracy on MNIST, K-MNIS, K49, and K-Kanji datasets respectively.
翻訳日:2023-06-08 17:39:50 公開日:2023-06-06
# CrazyFlie 2.Xの強化学習に基づく制御

Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor ( http://arxiv.org/abs/2306.03951v1 )

ライセンス: Link先を確認
Arshad Javeed, Valent\'in L\'opez Jim\'enez, Johan Gr\"onqvist(参考訳) プロジェクトの目的は、PIDのような古典的な制御アルゴリズムと現代の強化学習アルゴリズムの相乗効果を探求し、クレイジーフリー2.Xを制御するための実用的な制御機構を考案することである。 第一の目的は強化学習戦略を用いたPIDチューニングを行うことである。 第二の目的は、最初のタスクからの学習を活用し、灯台位置決めシステムと統合してナビゲーションの制御を実装することである。 ナビゲーションには2つのアプローチが考えられる。これは、有限の事前定義された動作プリミティブを持つ深部Q-Learningを用いた離散的なナビゲーション問題であり、連続的なナビゲーションアプローチのための深部強化学習である。 RLトレーニングのシミュレーションは、強化学習のためのオープンソースのジムベースの環境であるジム・パイブルレット・ドレーンで実施され、RL実装は安定ベースライン3で提供される。

The objective of the project is to explore synergies between classical control algorithms such as PID and contemporary reinforcement learning algorithms to come up with a pragmatic control mechanism to control the CrazyFlie 2.X quadrotor. The primary objective would be performing PID tuning using reinforcement learning strategies. The secondary objective is to leverage the learnings from the first task to implement control for navigation by integrating with the lighthouse positioning system. Two approaches are considered for navigation, a discrete navigation problem using Deep Q-Learning with finite predefined motion primitives, and deep reinforcement learning for a continuous navigation approach. Simulations for RL training will be performed on gym-pybullet-drones, an open-source gym-based environment for reinforcement learning, and the RL implementations are provided by stable-baselines3
翻訳日:2023-06-08 17:39:29 公開日:2023-06-06
# MISGENDERED:名詞理解における大規模言語モデルの限界

MISGENDERED: Limits of Large Language Models in Understanding Pronouns ( http://arxiv.org/abs/2306.03950v1 )

ライセンス: Link先を確認
Tamanna Hossain, Sunipa Dev, Sameer Singh(参考訳) コンテンツ警告: 本論文は悪質で潜在的に引き起こされる可能性のある誤生成と消去の例を含む。 言語技術におけるジェンダーバイアスは広く研究されてきたが、研究は主に二項性パラダイムに限られている。 また、非二項性同一性(non-binary gender identities)も考慮する必要がある。 本稿では、英語の性中立代名詞(単数代名詞など)とネオ代名詞(例えば、ze,xe,thon)を、二元代名詞で表現されていない個人によって正しく使用する能力について、一般的な言語モデルについて包括的に評価する。 MISGENDEREDは、大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。 (i)個人の代名詞を宣言する例、欠落代名詞のある文、及び (ii)統一手法を用いたマスク・自己回帰型言語モデルの評価のための実験的セットアップ アウト・オブ・ボックスでは、新名詞(精度7.6%)とジェンダーニュートラル代名詞(精度31.0%)の正確な予測が不十分である。 この一般化できないことは、訓練データや記憶された関連における非二項代名詞の表現の欠如による結果である。 プロンプトの明示的な例による短いショット適応は、パフォーマンスを改善するが、ネオ・プロノーヌスでは45.4%しか高原に留まらない。 完全なデータセット、コード、デモはhttps://tamannahossainkay.github.io/misgendered/で公開しています。

Content Warning: This paper contains examples of misgendering and erasure that could be offensive and potentially triggering. Gender bias in language technologies has been widely studied, but research has mostly been restricted to a binary paradigm of gender. It is essential also to consider non-binary gender identities, as excluding them can cause further harm to an already marginalized group. In this paper, we comprehensively evaluate popular language models for their ability to correctly use English gender-neutral pronouns (e.g., singular they, them) and neo-pronouns (e.g., ze, xe, thon) that are used by individuals whose gender identity is not represented by binary pronouns. We introduce MISGENDERED, a framework for evaluating large language models' ability to correctly use preferred pronouns, consisting of (i) instances declaring an individual's pronoun, followed by a sentence with a missing pronoun, and (ii) an experimental setup for evaluating masked and auto-regressive language models using a unified method. When prompted out-of-the-box, language models perform poorly at correctly predicting neo-pronouns (averaging 7.6% accuracy) and gender-neutral pronouns (averaging 31.0% accuracy). This inability to generalize results from a lack of representation of non-binary pronouns in training data and memorized associations. Few-shot adaptation with explicit examples in the prompt improves the performance but plateaus at only 45.4% for neo-pronouns. We release the full dataset, code, and demo at https://tamannahossainkay.github.io/misgendered/
翻訳日:2023-06-08 17:39:14 公開日:2023-06-06
# 構造予測における部分推論

Partial Inference in Structured Prediction ( http://arxiv.org/abs/2306.03949v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) 本稿では,構造化予測の文脈における部分推論の問題について検討する。 生成モデルアプローチを用いて,グラフ上のラベル空間における一意および一対のポテンシャルを持つスコア関数を最大化するタスクを考える。 ラベル回復のための2段階凸最適化アルゴリズムを用いて,ラベルの大半を回収できる条件を分析した。 本稿では,KKT条件と原始および双対構成の新たな視点を導入し,証明可能な保証付き部分回復のための統計的および位相的要件を提供する。

In this paper, we examine the problem of partial inference in the context of structured prediction. Using a generative model approach, we consider the task of maximizing a score function with unary and pairwise potentials in the space of labels on graphs. Employing a two-stage convex optimization algorithm for label recovery, we analyze the conditions under which a majority of the labels can be recovered. We introduce a novel perspective on the Karush-Kuhn-Tucker (KKT) conditions and primal and dual construction, and provide statistical and topological requirements for partial recovery with provable guarantees.
翻訳日:2023-06-08 17:37:58 公開日:2023-06-06
# 孤児向け記事:Wikipediaのダークマター

Orphan Articles: The Dark Matter of Wikipedia ( http://arxiv.org/abs/2306.03940v1 )

ライセンス: Link先を確認
Akhil Arora, Robert West, Martin Gerlach(参考訳) 300以上の言語バージョンに6000万記事があるウィキペディアは、オープンで自由にアクセスできる知識のための最大のプラットフォームだ。 利用可能なコンテンツは毎月約2万の新しい記事のペースで継続的に成長しているが、コンテンツのアクセシビリティにはほとんど注意が払われていない。 アクセシビリティの1つの重要な側面は、ウィキペディアをナビゲートする読者に記事が見えるように、ハイパーリンクをネットワークに統合することである。 この現象を理解するために、Wikipediaの319の異なる言語バージョンにまたがって、他のウィキペディアの記事から何のリンクも入らない記事である孤児記事の体系的研究を行った。 すべての記事の約15\% (8.8m) の驚くほどの量のコンテンツは、ウィキペディアをナビゲートする読者には事実上目に見えず、ウィキペディアのダークマターとして孤児の記事を正しく表現している。 また, 孤児に新たなリンク(脱孤児化)を追加することで, ページビュー数が統計的に顕著に増加するという, 準実験を通じて因果的証拠を提供する。 記事の非orphanizingに関するエディタが直面する課題をさらに強調するとともに,この問題に対するサポートの必要性を実証するとともに,言語横断的アプローチに基づいた自動ツール開発のための潜在的なソリューションを提供する。 全体として、われわれの研究はウィキペディアのリンク構造に重要な制限を課し、その影響を定量的に評価するだけでなく、ウィキペディアの大規模コンテンツ作成に伴う保守の課題に対する新たな視点を提供する。

With 60M articles in more than 300 language versions, Wikipedia is the largest platform for open and freely accessible knowledge. While the available content has been growing continuously at a rate of around 200K new articles each month, very little attention has been paid to the accessibility of the content. One crucial aspect of accessibility is the integration of hyperlinks into the network so the articles are visible to readers navigating Wikipedia. In order to understand this phenomenon, we conduct the first systematic study of orphan articles, which are articles without any incoming links from other Wikipedia articles, across 319 different language versions of Wikipedia. We find that a surprisingly large extent of content, roughly 15\% (8.8M) of all articles, is de facto invisible to readers navigating Wikipedia, and thus, rightfully term orphan articles as the dark matter of Wikipedia. We also provide causal evidence through a quasi-experiment that adding new incoming links to orphans (de-orphanization) leads to a statistically significant increase of their visibility in terms of the number of pageviews. We further highlight the challenges faced by editors for de-orphanizing articles, demonstrate the need to support them in addressing this issue, and provide potential solutions for developing automated tools based on cross-lingual approaches. Overall, our work not only unravels a key limitation in the link structure of Wikipedia and quantitatively assesses its impact, but also provides a new perspective on the challenges of maintenance associated with content creation at scale in Wikipedia.
翻訳日:2023-06-08 17:37:39 公開日:2023-06-06
# IBM Q上の非適応計測に基づく量子計算

Non-adaptive measurement-based quantum computation on IBM Q ( http://arxiv.org/abs/2306.03939v1 )

ライセンス: Link先を確認
Jelena Mackeprang, Daniel Bhatti, Stefanie Barz(参考訳) 我々はドイツのエルンゲンにあるIBMの量子コンピュータIBM Quantum System Oneの量子性をテストする。 我々は一般化したn-qubit GHZ状態を生成し、ベルの不等式を測定し、GHZ状態のn-party絡みを調べる。 実装されたベル不等式は、非線形関数の計算の成功と多成分ベル正味性に違反する量子計算の一種であるnmqc(non-adaptive measurement-based quantum computation)に由来する。 目標は、局所隠れ変数(LHV)と非局所相関を明確に区別する多変量ブール関数を計算することである。 LHVは線型関数しか計算できないことが示されているが、量子相関は可能なブール関数を全て出力できるため、多部絡みの指標として機能する。 ここでは,IBM の量子コンピュータ IBM Quantum System One 上で NMQC を用いた非線形関数を計算し,提案手法が量子デバイスの特徴付けに利用できることを示す。 最大7量子ビットに対する違反を発見し、その結果を光子を用いた既存のNMQCの実装と比較する。

We test the quantumness of IBM's quantum computer IBM Quantum System One in Ehningen, Germany. We generate generalised n-qubit GHZ states and measure Bell inequalities to investigate the n-party entanglement of the GHZ states. The implemented Bell inequalities are derived from non-adaptive measurement-based quantum computation (NMQC), a type of quantum computing that links the successful computation of a non-linear function to the violation of a multipartite Bell-inequality. The goal is to compute a multivariate Boolean function that clearly differentiates non-local correlations from local hidden variables (LHVs). Since it has been shown that LHVs can only compute linear functions, whereas quantum correlations are capable of outputting every possible Boolean function it thus serves as an indicator of multipartite entanglement. Here, we compute various non-linear functions with NMQC on IBM's quantum computer IBM Quantum System One and thereby demonstrate that the presented method can be used to characterize quantum devices. We find a violation for a maximum of seven qubits and compare our results to an existing implementation of NMQC using photons.
翻訳日:2023-06-08 17:36:55 公開日:2023-06-06
# 事前学習モデルによるフェデレーション学習の最終レイヤの案内

Guiding The Last Layer in Federated Learning with Pre-Trained Models ( http://arxiv.org/abs/2306.03937v1 )

ライセンス: Link先を確認
Gwen Legate, Nicolas Bernier, Lucas Caccia, Edouard Oyallon, Eugene Belilovsky(参考訳) フェデレートラーニング(FL)は、データを共有することなく、多数の参加者に対してモデルをトレーニングできる新興パラダイムである。 近年,既存のFLアルゴリズムの初期化点として事前学習モデルを用いることによる効果が検討され始めているが,これらの手法は集中学習環境からの効率的な移動学習文献を無視している。 ここでは,先行研究で考慮された事前学習モデルからflの問題を再検討し,それをコンピュータビジョン伝達学習問題に拡張する。 まず、線形分類ヘッドの取り付けは、多くの場合、効率的かつ効果的であることを示す。 次に、FL設定において、NCM(Nearest Class Means)を用いた分類器の適合は、既存の提案よりも正確に、桁違いに効率的に行うことができ、高い性能が得られることを示す。 最後に,二相法を用いて分類器を取得し,モデルを微調整することで,高速収束を生じさせ,フェデレーション設定における一般化を改善できることを実証する。 本手法は,モデル性能を向上しつつ,通信コストと計算コストを削減できる可能性を実証する。

Federated Learning (FL) is an emerging paradigm that allows a model to be trained across a number of participants without sharing data. Recent works have begun to consider the effects of using pre-trained models as an initialization point for existing FL algorithms; however, these approaches ignore the vast body of efficient transfer learning literature from the centralized learning setting. Here we revisit the problem of FL from a pre-trained model considered in prior work and expand it to a set of computer vision transfer learning problems. We first observe that simply fitting a linear classification head can be efficient and effective in many cases. We then show that in the FL setting, fitting a classifier using the Nearest Class Means (NCM) can be done exactly and orders of magnitude more efficiently than existing proposals, while obtaining strong performance. Finally, we demonstrate that using a two-phase approach of obtaining the classifier and then fine-tuning the model can yield rapid convergence and improved generalization in the federated setting. We demonstrate the potential our method has to reduce communication and compute costs while achieving better model performance.
翻訳日:2023-06-08 17:36:11 公開日:2023-06-06
# 機械学習による射影測定から局所量子可観測体の解釈可能な動的生成物の推定

Inferring interpretable dynamical generators of local quantum observables from projective measurements through machine learning ( http://arxiv.org/abs/2306.03935v1 )

ライセンス: Link先を確認
Giovanni Cemin, Francesco Carnazza, Sabine Andergassen, Georg Martius, Federico Carollo, Igor Lesanovsky(参考訳) 多体量子系の動的挙動を特徴づけるために、一般に完全な量子状態を特徴づけるよりも、いわゆる秩序パラメータの進化に関心がある。 多くの状況において、これらの量は磁化や粒子密度などの局所観測値の期待値と一致する。 しかし実験では、これらの期待値は射影雑音の影響により有限の精度でしか得られない。 本稿では,多体系における局所観測器の進化を支配する動的生成器を雑音データから推定する機械学習手法を提案する。 本手法をベンチマークするために,量子イジングモデルの変種を考察し,時間発展型ブロックデシメーションアルゴリズムを用いて,m$ サンプリング点におけるn$ 射影計測結果を含む合成実験データを生成する。 このように、幅広いパラメータにわたって局所可観測体の動的生成はマルコフ量子マスター方程式によって近似することができる。 本手法は,多体システムから効率的な動的ジェネレータを抽出するだけでなく,量子シミュレーションや計算プラットフォームのデコヒーレンス機構の推測にも有効である。

To characterize the dynamical behavior of many-body quantum systems, one is usually interested in the evolution of so-called order-parameters rather than in characterizing the full quantum state. In many situations, these quantities coincide with the expectation value of local observables, such as the magnetization or the particle density. In experiment, however, these expectation values can only be obtained with a finite degree of accuracy due to the effects of the projection noise. Here, we utilize a machine-learning approach to infer the dynamical generator governing the evolution of local observables in a many-body system from noisy data. To benchmark our method, we consider a variant of the quantum Ising model and generate synthetic experimental data, containing the results of $N$ projective measurements at $M$ sampling points in time, using the time-evolving block-decimation algorithm. As we show, across a wide range of parameters the dynamical generator of local observables can be approximated by a Markovian quantum master equation. Our method is not only useful for extracting effective dynamical generators from many-body systems, but may also be applied for inferring decoherence mechanisms of quantum simulation and computing platforms.
翻訳日:2023-06-08 17:35:51 公開日:2023-06-06
# 体積擬似ラベリングによるX線写真におけるヒト解剖の精密微粒化

Accurate Fine-Grained Segmentation of Human Anatomy in Radiographs via Volumetric Pseudo-Labeling ( http://arxiv.org/abs/2306.03934v1 )

ライセンス: Link先を確認
Constantin Seibold, Alexander Jaus, Matthias A. Fink, Moon Kim, Simon Rei{\ss}, Ken Herrmann, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 目的: 胸部X線写真(CXR)の解釈は, 肺, 心臓, 骨などの重なり合う構造の曖昧さのため, 依然として困難である。 そこで本研究では,CTスキャンの擬似ラベル法を用いて,CXRの微細な解剖構造を抽出する手法を提案する。 方法: 157ラベルの10,021個の胸部CTの大規模データセットを作成し,解剖学的擬似ラベル抽出に3次元解剖学的セグメンテーションモデルを用いた。 これらのラベルはCXRと同様の2次元平面に投影され、手動の注釈なしにCXRの詳細なセマンティックセグメンテーションモデルの訓練が可能となった。 結果: 得られたセグメンテーションモデルでは, mIoUスコアが0.93, 0.85, 左右解剖は0.95, 0.83 mIoUの2人の放射線技師間で平均的モデルアノテータ一致が認められた。 解剖学的分節は,心臓胸腔鏡などの説明可能な医療的特徴の正確な抽出を可能にした。 結語:CTプロジェクションを併用したボリューム擬似ラベル法は,ヒトアノテータとの高一致でCXRの詳細な解剖学的セグメンテーションに有望なアプローチを提供する。 このテクニックは、特に様々な胸郭病変の分析において重要な臨床的意味を持つ可能性がある。

Purpose: Interpreting chest radiographs (CXR) remains challenging due to the ambiguity of overlapping structures such as the lungs, heart, and bones. To address this issue, we propose a novel method for extracting fine-grained anatomical structures in CXR using pseudo-labeling of three-dimensional computed tomography (CT) scans. Methods: We created a large-scale dataset of 10,021 thoracic CTs with 157 labels and applied an ensemble of 3D anatomy segmentation models to extract anatomical pseudo-labels. These labels were projected onto a two-dimensional plane, similar to the CXR, allowing the training of detailed semantic segmentation models for CXR without any manual annotation effort. Results: Our resulting segmentation models demonstrated remarkable performance on CXR, with a high average model-annotator agreement between two radiologists with mIoU scores of 0.93 and 0.85 for frontal and lateral anatomy, while inter-annotator agreement remained at 0.95 and 0.83 mIoU. Our anatomical segmentations allowed for the accurate extraction of relevant explainable medical features such as the cardio-thoracic-ratio. Conclusion: Our method of volumetric pseudo-labeling paired with CT projection offers a promising approach for detailed anatomical segmentation of CXR with a high agreement with human annotators. This technique may have important clinical implications, particularly in the analysis of various thoracic pathologies.
翻訳日:2023-06-08 17:35:33 公開日:2023-06-06
# 表現型ブール式を用いた説明可能なAI

Explainable AI using expressive Boolean formulas ( http://arxiv.org/abs/2306.03976v1 )

ライセンス: Link先を確認
Gili Rosenberg, J. Kyle Brubaker, Martin J. A. Schuetz, Grant Salton, Zhihuai Zhu, Elton Yechao Zhu, Serdar Kad{\i}o\u{g}lu, Sima E. Borujeni, Helmut G. Katzgraber(参考訳) 本稿では,表現型ブール式に基づく説明可能なAI(XAI)の解釈可能な機械学習分類モデルを提案し,実装する。 潜在的な用途には、信用スコアと医療状態の診断が含まれる。 ブール公式は、入力データが分類されるように、調整可能な複雑性(または解釈可能性)の規則を定義する。 そのような公式は、1つ以上のブール変数に適用できる任意の演算子を含むことができ、より厳格なルールベースやツリーベースのアプローチよりも高い表現率を提供する。 分類器はネイティブ局所最適化技術を用いて訓練され、実現可能な公式の空間を効率的に探索する。 シャロールールは、高速な整数線形プログラミング(ILP)や、特別な目的のハードウェアや量子デバイスを動力とする擬似非制約バイナリ最適化(QUBO)ソルバによって決定できる。 ブール式全体の部分木を最適化する非局所移動を実行することにより、ネイティブローカルオプティマイザの表現性と効率をこれらのデバイスの高速な操作と組み合わせる。 我々は、よく知られた公開データセットをベースラインとした広範な数値ベンチマーク結果を提供する。 その結果、ネイティブなローカルルール分類器は一般的に他の分類器と競合していることがわかった。 非局所移動の追加は、より少ないイテレーションで同様の結果が得られるため、特殊または量子ハードウェアを使用することで、非局所移動の高速な提案によってスピードアップにつながる可能性がある。

We propose and implement an interpretable machine learning classification model for Explainable AI (XAI) based on expressive Boolean formulas. Potential applications include credit scoring and diagnosis of medical conditions. The Boolean formula defines a rule with tunable complexity (or interpretability), according to which input data are classified. Such a formula can include any operator that can be applied to one or more Boolean variables, thus providing higher expressivity compared to more rigid rule-based and tree-based approaches. The classifier is trained using native local optimization techniques, efficiently searching the space of feasible formulas. Shallow rules can be determined by fast Integer Linear Programming (ILP) or Quadratic Unconstrained Binary Optimization (QUBO) solvers, potentially powered by special purpose hardware or quantum devices. We combine the expressivity and efficiency of the native local optimizer with the fast operation of these devices by executing non-local moves that optimize over subtrees of the full Boolean formula. We provide extensive numerical benchmarking results featuring several baselines on well-known public datasets. Based on the results, we find that the native local rule classifier is generally competitive with the other classifiers. The addition of non-local moves achieves similar results with fewer iterations, and therefore using specialized or quantum hardware could lead to a speedup by fast proposal of non-local moves.
翻訳日:2023-06-08 17:29:24 公開日:2023-06-06
# 対話ディスタングルのための会話談話の再検討

Revisiting Conversation Discourse for Dialogue Disentanglement ( http://arxiv.org/abs/2306.03975v1 )

ライセンス: Link先を確認
Bobo Li, Hao Fei, Fei Li, Shengqiong Wu, Lizi Liao, Yinwei Wei, Tat-Seng Chua, Donghong Ji(参考訳) 対話の混乱は、時系列的に順序付けられた発話をいくつかの独立したセッションに分割することを目的としている。 会話発話は基本的に、下層の談話によって構成され、記述されるので、対話の解離は本質的な談話属性の完全な理解と活用を必要とする。 本稿では,対話談話の特徴を最大限に活用し,対話の絡み合いを高めることを提案する。 まず,不均質なグラフ表現を構築し,静的な話者-発話構造(話者-発話構造と話者-メンション構造)と動的文脈構造(発話-距離構造と部分復元構造)を含む,対話特有の発話構造をモデル化する。 次に、対話的意味コンテキストのモデリングを改善するために、リッチな構造機能を統合する構造認識フレームワークを開発した。 次に,対話発話を異なる談話レベルに分類し,ペアワイドとセッションワイドの訓練を階層的に行う階層的ランキング損失機構を用いて,モデル学習の段階を最適化する。 第3に,従来の逐次的復号順序の制約を破って,グローバルな文脈と容易にハードな方法で発話ペアリングを行う,簡易ファースト復号アルゴリズムを考案した。 2つのベンチマークデータセットに対して,本システムでは,すべての評価において,新たな最先端性能を実現する。 より詳細な分析により,提案手法が課題の進行にどう役立つかを明らかにした。 我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。

Dialogue disentanglement aims to detach the chronologically ordered utterances into several independent sessions. Conversation utterances are essentially organized and described by the underlying discourse, and thus dialogue disentanglement requires the full understanding and harnessing of the intrinsic discourse attribute. In this paper, we propose enhancing dialogue disentanglement by taking full advantage of the dialogue discourse characteristics. First of all, \textbf{in feature encoding stage}, we construct the heterogeneous graph representations to model the various dialogue-specific discourse structural features, including the static speaker-role structures (i.e., speaker-utterance and speaker-mentioning structure) and the dynamic contextual structures (i.e., the utterance-distance and partial-replying structure). We then develop a structure-aware framework to integrate the rich structural features for better modeling the conversational semantic context. Second, \textbf{in model learning stage}, we perform optimization with a hierarchical ranking loss mechanism, which groups dialogue utterances into different discourse levels and carries training covering pair-wise and session-wise levels hierarchically. Third, \textbf{in inference stage}, we devise an easy-first decoding algorithm, which performs utterance pairing under the easy-to-hard manner with a global context, breaking the constraint of traditional sequential decoding order. On two benchmark datasets, our overall system achieves new state-of-the-art performances on all evaluations. In-depth analyses further demonstrate the efficacy of each proposed idea and also reveal how our methods help advance the task. Our work has great potential to facilitate broader multi-party multi-thread dialogue applications.
翻訳日:2023-06-08 17:29:00 公開日:2023-06-06
# TKDP: 名前付きエンティティ認識のための3倍の知識強化深部プロンプトチューニング

TKDP: Threefold Knowledge-enriched Deep Prompt Tuning for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2306.03974v1 )

ライセンス: Link先を確認
Jiang Liu, Hao Fei, Fei Li, Jingye Li, Bobo Li, Liang Zhao, Chong Teng and Donghong Ji(参考訳) 名前付きエンティティ認識(NER)は限定アノテーション付きインスタンスを利用して名前付き参照を識別する。 これにより、内部または外部のリソースを効果的に転送することが、少数ショットNERの鍵となる。 既存のプロンプトチューニング手法は目覚ましい数ショットパフォーマンスを示しているが、知識のフル活用には至っていない。 本研究では,より強力なNERのためのチューニングを促すため,豊富な知識の統合について検討する。 内部を含む3つの知識(すなわちTKDP)を組み込んだディーププロンプトチューニングフレームワークを提案する。 1)文脈知識と外部 2)ラベル知識、3)セム知識。 TKDPはこれら3つの特徴源を符号化し、それらをソフトプロンプト埋め込みに組み込む。 5つのベンチマークデータセットにおいて、我々の知識豊か化モデルは、生のディーププロンプト法よりも少なくとも11.53%F1を向上し、5/10/20ショット設定で8つの強力なパフォーマンスベースラインシステムを大幅に上回り、数発のNERにおいて大きな可能性を秘めている。 われわれのTKDPは、他の数発のタスクに、手間をかけずに広く適応できる。

Few-shot named entity recognition (NER) exploits limited annotated instances to identify named mentions. Effectively transferring the internal or external resources thus becomes the key to few-shot NER. While the existing prompt tuning methods have shown remarkable few-shot performances, they still fail to make full use of knowledge. In this work, we investigate the integration of rich knowledge to prompt tuning for stronger few-shot NER. We propose incorporating the deep prompt tuning framework with threefold knowledge (namely TKDP), including the internal 1) context knowledge and the external 2) label knowledge & 3) sememe knowledge. TKDP encodes the three feature sources and incorporates them into the soft prompt embeddings, which are further injected into an existing pre-trained language model to facilitate predictions. On five benchmark datasets, our knowledge-enriched model boosts by at most 11.53% F1 over the raw deep prompt method, and significantly outperforms 8 strong-performing baseline systems in 5-/10-/20-shot settings, showing great potential in few-shot NER. Our TKDP can be broadly adapted to other few-shot tasks without effort.
翻訳日:2023-06-08 17:28:33 公開日:2023-06-06
# フィロジェニーインフォームドフィットネス推定

Phylogeny-informed fitness estimation ( http://arxiv.org/abs/2306.03970v1 )

ライセンス: Link先を確認
Alexander Lalejini, Matthew Andres Moreno, Jose Guadalupe Hernandez, Emily Dolson(参考訳) 系統樹は進化する個体群の進化の歴史を描いている。 進化論では、進化的アルゴリズムが探索空間を通して集団を操り、あらゆる解が進化するステップバイステップの過程を照らす方法を明らかにすることができる。 これまでのところ、系統解析は主に既存の進化アルゴリズムの理解を深めるために使われるポストホック解析として適用されてきた。 本稿では,進化的探索中に親選択手順を補強するために,実行時に系統解析が使用できるかどうかを検討する。 具体的には、住民のフィロジェニーを利用してフィットネス評価を推定するフィロジェニーインフォームドフィットネス推定法を提案する。 我々は,2つの診断分析と4つの遺伝的プログラミング(GP)問題に基づいて,ダウンサンプルレキシケースとコホートレキシケース選択アルゴリズムの文脈で,系統的インフォームドフィットネス推定を評価した。 以上の結果から, 植物性インフォームドフィットネス推定は, ダウンサンプルレキシケースの欠点を軽減し, 多様性の維持と探索空間の探索を改善できることが示唆された。 しかしながら、系統的不適合度推定がgpの問題解決成功を向上させる程度は、問題、サブサンプリング法、サブサンプリングレベルによって異なる。 この研究は、ランタイム系統解析を利用して進化アルゴリズムを改善するための最初のステップとなる。

Phylogenies (ancestry trees) depict the evolutionary history of an evolving population. In evolutionary computing, a phylogeny can reveal how an evolutionary algorithm steers a population through a search space, illuminating the step-by-step process by which any solutions evolve. Thus far, phylogenetic analyses have primarily been applied as post-hoc analyses used to deepen our understanding of existing evolutionary algorithms. Here, we investigate whether phylogenetic analyses can be used at runtime to augment parent selection procedures during an evolutionary search. Specifically, we propose phylogeny-informed fitness estimation, which exploits a population's phylogeny to estimate fitness evaluations. We evaluate phylogeny-informed fitness estimation in the context of the down-sampled lexicase and cohort lexicase selection algorithms on two diagnostic analyses and four genetic programming (GP) problems. Our results indicate that phylogeny-informed fitness estimation can mitigate the drawbacks of down-sampled lexicase, improving diversity maintenance and search space exploration. However, the extent to which phylogeny-informed fitness estimation improves problem-solving success for GP varies by problem, subsampling method, and subsampling level. This work serves as an initial step toward improving evolutionary algorithms by exploiting runtime phylogenetic analysis.
翻訳日:2023-06-08 17:28:13 公開日:2023-06-06
# ECQED: 対話における感情的四重項抽出

ECQED: Emotion-Cause Quadruple Extraction in Dialogs ( http://arxiv.org/abs/2306.03969v1 )

ライセンス: Link先を確認
Li Zheng, Donghong Ji, Fei Li, Hao Fei, Shengqiong Wu, Jingye Li, Bobo Li, Chong Teng(参考訳) 既存のemotion-induced pair extraction (ecpe)タスクは残念ながら、感情のタイプと原因のタイプを抽出することを無視するが、これらのきめ細かいメタ情報は実際のアプリケーション、例えばチャットロボットや共感的な対話生成で実際に有用である。 また、現在のECPEは、より現実的な値を持つはずのダイアログレベルでの研究を無視しながら、シングルテキストのシナリオに限られています。 本稿では,ECPEタスクをより広い定義とシナリオで拡張し,感情に起因した発話のペアと感情と原因のタイプを検出することを必要とする,新たなタスクであるECQED(Emotion-Cause Quadruple extract in Dialogs)を提案する。 本稿では,構造的および意味的不均一グラフに基づくecqedモデルと並列グリッドタグ付け方式を提案する。 実験により, 微粒な感情の導入と特徴の付与がダイアログ生成の促進に役立つことが明らかとなった。 また,提案したECQEDシステムでは,感情に起因した4重項タスクとペア抽出タスクの両方に対して,高い効率性を示す。

The existing emotion-cause pair extraction (ECPE) task, unfortunately, ignores extracting the emotion type and cause type, while these fine-grained meta-information can be practically useful in real-world applications, i.e., chat robots and empathic dialog generation. Also the current ECPE is limited to the scenario of single text piece, while neglecting the studies at dialog level that should have more realistic values. In this paper, we extend the ECPE task with a broader definition and scenario, presenting a new task, Emotion-Cause Quadruple Extraction in Dialogs (ECQED), which requires detecting emotion-cause utterance pairs and emotion and cause types. We present an ECQED model based on a structural and semantic heterogeneous graph as well as a parallel grid tagging scheme, which advances in effectively incorporating the dialog context structure, meanwhile solving the challenging overlapped quadruple issue. Via experiments we show that introducing the fine-grained emotion and cause features evidently helps better dialog generation. Also our proposed ECQED system shows exceptional superiority over baselines on both the emotion-cause quadruple or pair extraction tasks, meanwhile being highly efficient.
翻訳日:2023-06-08 17:27:50 公開日:2023-06-06
# ニューラルタンジェントカーネルを用いた確率的マージナル類似度勾配

Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels ( http://arxiv.org/abs/2306.03968v1 )

ライセンス: Link先を確認
Alexander Immer, Tycho F. A. van der Ouderaa, Mark van der Wilk, Gunnar R\"atsch, Bernhard Sch\"olkopf(参考訳) ディープラーニングにおけるハイパーパラメータの選択は、その効果に大きな影響を与えますが、手作業と専門知識が必要です。 近年の研究では、ラプラス近似を用いたベイズモデルの選択によって、勾配やトレーニングデータを用いた標準的なニューラルネットワークパラメータと同じように、そのようなハイパーパラメータを最適化できることが示されている。 しかし、単一のハイパーパラメータ勾配を推定するにはデータセット全体を通過する必要があり、そのようなアルゴリズムのスケーラビリティが制限される。 そこで本研究では, 限界確率の線形ラプラス近似に下限を導入することで, この問題を克服する。 従来の推定器とは対照的に、これらの境界は確率的勾配に基づく最適化に適しており、計算複雑性に対して推定精度をトレードオフすることができる。 それらを線形ラプラスの関数空間形式を用いて導出し、これは神経接核を用いて推定できる。 実験により,推定器は勾配に基づくハイパーパラメータ最適化を著しく高速化できることを示した。

Selecting hyperparameters in deep learning greatly impacts its effectiveness but requires manual effort and expertise. Recent works show that Bayesian model selection with Laplace approximations can allow to optimize such hyperparameters just like standard neural network parameters using gradients and on the training data. However, estimating a single hyperparameter gradient requires a pass through the entire dataset, limiting the scalability of such algorithms. In this work, we overcome this issue by introducing lower bounds to the linearized Laplace approximation of the marginal likelihood. In contrast to previous estimators, these bounds are amenable to stochastic-gradient-based optimization and allow to trade off estimation accuracy against computational complexity. We derive them using the function-space form of the linearized Laplace, which can be estimated using the neural tangent kernel. Experimentally, we show that the estimators can significantly accelerate gradient-based hyperparameter optimization.
翻訳日:2023-06-08 17:27:28 公開日:2023-06-06
# PILLAR: 半私的な学習をより効果的にする方法

PILLAR: How to make semi-private learning more effective ( http://arxiv.org/abs/2306.03962v1 )

ライセンス: Link先を確認
Francesco Pinto, Yaxi Hu, Fanny Yang, Amartya Sanyal(参考訳) 半教師付き半個人学習(semi-supervised semi-private learning)では、学習者は公開のラベルなしデータとプライベートラベル付きデータの両方にアクセスできる。 本研究では,データに対する穏やかな仮定の下で,プライベートラベル付きサンプル複雑性を著しく低減し,実世界のデータセット上で効率的に実行できる計算効率の高いアルゴリズムを提案する。 そこで本研究では,sp学習を行うネットワークと分布が大きく異なるパブリック(ラベル付き,未ラベル)データで事前学習したネットワークから抽出した特徴を活用した。 その実証的有効性を検証するために,厳密なプライバシー制約(\(\epsilon=0.1\))の下で,低データレジームに焦点をあてた多種多様な実験を提案する。 これらすべての設定において、我々のアルゴリズムは、同様の量の公開データを使用する利用可能なベースラインよりも大幅に改善された性能を示す。

In Semi-Supervised Semi-Private (SP) learning, the learner has access to both public unlabelled and private labelled data. We propose a computationally efficient algorithm that, under mild assumptions on the data, provably achieves significantly lower private labelled sample complexity and can be efficiently run on real-world datasets. For this purpose, we leverage the features extracted by networks pre-trained on public (labelled or unlabelled) data, whose distribution can significantly differ from the one on which SP learning is performed. To validate its empirical effectiveness, we propose a wide variety of experiments under tight privacy constraints (\(\epsilon=0.1\)) and with a focus on low-data regimes. In all of these settings, our algorithm exhibits significantly improved performance over available baselines that use similar amounts of public data.
翻訳日:2023-06-08 17:27:12 公開日:2023-06-06
# スーパールミナルオブザーバーは量子重ね合わせを説明しない

Superluminal observers do not explain quantum superpositions ( http://arxiv.org/abs/2306.03961v1 )

ライセンス: Link先を確認
Andrzej Grudka, J\c{e}drzej Stempin, Jan W\'ojcik, Antoni W\'ojcik(参考訳) 現実の量子的記述は古典的記述とは全く異なる。 この違いを基本レベルで理解することは、まだ興味深いトピックです。 近年、Dragan and Ekert [New J. Phys. 22 (2020) 033038] は、いわゆる超光度観測者を考えることは、この文脈で有用であると仮定している。 特に、一般化ローレンツ変換の完全な数学的構造は、複数の量子力学的軌道の出現を意味するかもしれないと主張する。 これとは対照的に、一般化されたローレンツ変換は、一貫した方法で使われると、定経路の古典的概念と量子力学の多重経路との間には対応しないことを示す。

The quantum description of reality is quite different from the classical one. Understanding this difference at a fundamental level is still an interesting topic. Recently, Dragan and Ekert [New J. Phys. 22 (2020) 033038] postulated that considering so-called superluminal observers can be useful in this context. In particular, they claim that the full mathematical structure of the generalized Lorentz transformation may imply the emergence of multiple quantum mechanical trajectories. On the contrary, here we show that the generalized Lorentz transformation, when used in a consistent way, does not provide any correspondence between the classical concept of a definite path and the multiple paths of quantum mechanics.
翻訳日:2023-06-08 17:26:57 公開日:2023-06-06
# データ効率な行動予測のための明示的な手続き命令の活用

Leveraging Explicit Procedural Instructions for Data-Efficient Action Prediction ( http://arxiv.org/abs/2306.03959v1 )

ライセンス: Link先を確認
Julia White and Arushi Raghuvanshi and Yada Pruksachatkun(参考訳) タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑なマルチステップ手順を実行する必要がある。 大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。 本稿では,企業方針や顧客サービスマニュアルなどのエージェントガイドラインに基づく明示的な指示を活用し,対話システム構築のためのデータ効率の高いソリューションを提案する。 提案する知識拡張対話システム(KADS)は,ユーザとエージェントのインタラクションを前提として,定義済みのポリシーセットから関連する手順を概説した文書を抽出する知識検索モジュールと,大きな言語モデルを組み合わせる。 本稿では,対話文書マッチングと部分パラメータ凍結を用いた行動指向マスク言語モデリングを利用したセミ教師付き事前学習手法を提案する。 動作状態追跡とワークフロー探索という2つの対話タスクに対して,タスク指向の対話データセット,アクションベース対話データセット,スキーマガイド対話に対するアプローチの有効性を評価する。 その結果, 手続き知識の強化により, 分散動作の予測精度が向上し, また, 少ないデータやスパースデータでも高い性能が保たれることがわかった。

Task-oriented dialogues often require agents to enact complex, multi-step procedures in order to meet user requests. While large language models have found success automating these dialogues in constrained environments, their widespread deployment is limited by the substantial quantities of task-specific data required for training. The following paper presents a data-efficient solution to constructing dialogue systems, leveraging explicit instructions derived from agent guidelines, such as company policies or customer service manuals. Our proposed Knowledge-Augmented Dialogue System (KADS) combines a large language model with a knowledge retrieval module that pulls documents outlining relevant procedures from a predefined set of policies, given a user-agent interaction. To train this system, we introduce a semi-supervised pre-training scheme that employs dialogue-document matching and action-oriented masked language modeling with partial parameter freezing. We evaluate the effectiveness of our approach on prominent task-oriented dialogue datasets, Action-Based Conversations Dataset and Schema-Guided Dialogue, for two dialogue tasks: action state tracking and workflow discovery. Our results demonstrate that procedural knowledge augmentation improves accuracy predicting in- and out-of-distribution actions while preserving high performance in settings with low or sparse data.
翻訳日:2023-06-08 17:26:43 公開日:2023-06-06
# ランダムにピボットされたcholeskyによるカーネル二次

Kernel Quadrature with Randomly Pivoted Cholesky ( http://arxiv.org/abs/2306.03955v1 )

ライセンス: Link先を確認
Ethan N. Epperly and Elvira Moreno(参考訳) 本稿では、ランダムにピボットされたcholeskyとして知られるサンプリングアルゴリズムによって描画されたノードを用いて、再生核ヒルベルト空間における関数の新たな二次規則を提案する。 結果として得られる計算手順は、低い精度を達成するか、計算に難解なサンプリング問題を解決する必要がある以前のカーネル二次法と好適に比較される。 理論的および数値的な結果から、ランダムにピボットされたコレスキーは高速であり、連続的な体積サンプリング、薄型化、再結合に基づく計算コストの高い二次スキームと同等の二次誤差率を達成している。 ランダムにピボットされたコレスキーは任意のカーネルを持つ複雑な幾何学に容易に適応し、カーネルの二次的な新しいポテンシャルを解き放つ。

This paper presents new quadrature rules for functions in a reproducing kernel Hilbert space using nodes drawn by a sampling algorithm known as randomly pivoted Cholesky. The resulting computational procedure compares favorably to previous kernel quadrature methods, which either achieve low accuracy or require solving a computationally challenging sampling problem. Theoretical and numerical results show that randomly pivoted Cholesky is fast and achieves comparable quadrature error rates to more computationally expensive quadrature schemes based on continuous volume sampling, thinning, and recombination. Randomly pivoted Cholesky is easily adapted to complicated geometries with arbitrary kernels, unlocking new potential for kernel quadrature.
翻訳日:2023-06-08 17:26:20 公開日:2023-06-06
# 顔認識のための良質なサンプル対サンプル比較

A Quality Aware Sample-to-Sample Comparison for Face Recognition ( http://arxiv.org/abs/2306.04000v1 )

ライセンス: Link先を確認
Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Ali Zafari, Moktari Mostofa, Nasser M. Nasrabadi(参考訳) 現在利用可能な顔データセットは主に多数の高品質のサンプルと少数の低品質のサンプルで構成されている。 その結果、顔認識(FR)ネットワークは、トレーニング中の頻度が低いため、低品質なサンプルの分布を学習することができない(表現できない)。 さらに、現在最先端のfrトレーニングパラダイムは、サンプル対センター比較(すなわちsoftmaxベースの分類器)に基づいており、トレーニングメトリクスとテストメトリクスの均一性が欠如している。 この研究は、品質を意識した学習プロセスをサンプルレベルで分類訓練パラダイム(QAFace)に統合する。 この場合、ソフトマックスセンターは、品質認識機能を用いて、低品質のサンプルにより多くの注意を払うよう適応的に誘導される。 そのため、QAFaceは、Softmaxベースの分類器の更新手順に品質ベースの調整を加え、低品質サンプルの性能を改善する。 本手法は,トレーニングデータセットの認識可能な低品質サンプルに適応的に注目する。 さらにQAFaceは、品質のプロキシとして機能の大きさを使って、認識できない低品質のサンプルを無視している。 その結果、QAFaceはクラスセンターが最適方向から邪魔されるのを防ぐ。 提案手法はCFP-FP, LFW, CPLFW, CALFW, AgeDB, IJB-B, IJB-Cデータセットに対する実験結果において, 最先端のアルゴリズムよりも優れている。

Currently available face datasets mainly consist of a large number of high-quality and a small number of low-quality samples. As a result, a Face Recognition (FR) network fails to learn the distribution of low-quality samples since they are less frequent during training (underrepresented). Moreover, current state-of-the-art FR training paradigms are based on the sample-to-center comparison (i.e., Softmax-based classifier), which results in a lack of uniformity between train and test metrics. This work integrates a quality-aware learning process at the sample level into the classification training paradigm (QAFace). In this regard, Softmax centers are adaptively guided to pay more attention to low-quality samples by using a quality-aware function. Accordingly, QAFace adds a quality-based adjustment to the updating procedure of the Softmax-based classifier to improve the performance on the underrepresented low-quality samples. Our method adaptively finds and assigns more attention to the recognizable low-quality samples in the training datasets. In addition, QAFace ignores the unrecognizable low-quality samples using the feature magnitude as a proxy for quality. As a result, QAFace prevents class centers from getting distracted from the optimal direction. The proposed method is superior to the state-of-the-art algorithms in extensive experimental results on the CFP-FP, LFW, CPLFW, CALFW, AgeDB, IJB-B, and IJB-C datasets.
翻訳日:2023-06-08 17:21:08 公開日:2023-06-06
# 金融における感情分析:トランスフォーマーから説明可能なレキシコン(xlex)へ

Sentiment Analysis in Finance: From Transformers Back to eXplainable Lexicons (XLex) ( http://arxiv.org/abs/2306.03997v1 )

ライセンス: Link先を確認
Maryan Rizinski, Hristijan Peshov, Kostadin Mishev, Milos Jovanovik, Dimitar Trajanov(参考訳) 金融におけるレキシコンに基づく感情分析(sa)は、金融テキストから感情を抽出するために、人間の専門家によって作成された専門的で手作業によるレキシコンを活用する。 辞書ベースのメソッドは簡単に実装でき、テキストデータで操作できるが、辞書の作成、保守、更新にはかなりの手作業による注記が必要である。 これらの手法は、様々なNLPタスクにおいて顕著な性能のために支配的になったトランスフォーマーモデルなど、深層学習に基づくアプローチよりも劣っていると考えられている。 しかし、トランスフォーマーはトレーニングとテストの両方に広範なデータと計算資源を必要とする。 さらに、予測時間が大きくなり、リアルタイム生産環境や限られた処理能力を持つシステムには適さない。 本稿では,レキシコン法とトランスフォーマーモデルの双方の利点を組み合わせた説明可能なレキシコン (xlex) という新しい手法を提案する。 本稿では、トランスとSHAP(SHapley Additive ExPlanations)を用いて、金融レキシコンの学習方法を説明する手法を提案する。 本研究の主な貢献は4つある。 まず, トランスフォーマタによる説明可能なレキシコンは, ベンチマークloughran-mcdonald (lm)レキシコンの語彙範囲を増大させ, 注釈, 維持, 更新における人間の関与を低減できることを実証する。 次に、結果のレキシコンが、金融データセットのsaの標準lmレキシコンを上回っていることを示す。 第3に、レキシコンに基づくアプローチは、トランスに比べてモデル速度とサイズにおいてはるかに効率的であることを示す。 最後に、xlexアプローチは本質的にトランスフォーマーモデルよりも解釈可能である。レキシコンモデルが事前定義されたルールに依存しているため、saの結果に対するより良い洞察と、xlexアプローチを財務意思決定に有効なツールにすることができるようになる。

Lexicon-based sentiment analysis (SA) in finance leverages specialized, manually annotated lexicons created by human experts to extract sentiment from financial texts. Although lexicon-based methods are simple to implement and fast to operate on textual data, they require considerable manual annotation efforts to create, maintain, and update the lexicons. These methods are also considered inferior to the deep learning-based approaches, such as transformer models, which have become dominant in various NLP tasks due to their remarkable performance. However, transformers require extensive data and computational resources for both training and testing. Additionally, they involve significant prediction times, making them unsuitable for real-time production environments or systems with limited processing capabilities. In this paper, we introduce a novel methodology named eXplainable Lexicons (XLex) that combines the advantages of both lexicon-based methods and transformer models. We propose an approach that utilizes transformers and SHapley Additive exPlanations (SHAP) for explainability to learn financial lexicons. Our study presents four main contributions. Firstly, we demonstrate that transformer-aided explainable lexicons can enhance the vocabulary coverage of the benchmark Loughran-McDonald (LM) lexicon, reducing the human involvement in annotating, maintaining, and updating the lexicons. Secondly, we show that the resulting lexicon outperforms the standard LM lexicon in SA of financial datasets. Thirdly, we illustrate that the lexicon-based approach is significantly more efficient in terms of model speed and size compared to transformers. Lastly, the XLex approach is inherently more interpretable than transformer models as lexicon models rely on predefined rules, allowing for better insights into the results of SA and making the XLex approach a viable tool for financial decision-making.
翻訳日:2023-06-08 17:20:43 公開日:2023-06-06
# 実世界の人物再識別のためのリアルタイムオンライン教師なしドメイン適応

Real-Time Online Unsupervised Domain Adaptation for Real-World Person Re-identification ( http://arxiv.org/abs/2306.03993v1 )

ライセンス: Link先を確認
Christopher Neff, Armin Danesh Pazho, Hamed Tabkhi(参考訳) 個人再識別におけるUnsupervised Domain Adaptation (UDA) の人気に続き,最近提案された Online Unsupervised Domain Adaptation (OUDA) は,ストリーミングデータを考慮した実践的アプリケーションへのギャップを埋めようとしている。 しかし、これはまだ現実のアプリケーションを表すものではない。 本稿では、人物再識別のためのリアルタイムオンライン教師なしドメイン適応(R$^2$OUDA)の設定を定義する。 R$^2$OUDA設定は、実際のリアルタイムOUDAのステージを設定し、現在の研究でしばしば無視される4つの実世界のアプリケーションで見られる4つの大きな制限、すなわち、システム生成人画像、サブセット分布の選択、時間ベースのデータストリームセグメンテーション、セグメントベースの時間制約をもたらす。 本稿では、この新たなR$^2$OUDA設定のすべての側面に対処するため、実世界の人物再識別のための新しいマルチカメラシステムであるReal-World Real-Time Online Streaming Mutual Mean-Teaching (R$^2$MMT)を提案する。 一般的な人物の再識別データセットを用いて、R$^2$MMTは100以上のデータサブセットを構築し、3000以上のモデルをトレーニングするために使用され、R$^2$OUDA設定の幅を広げて、現実世界のアプリケーションのトレーニング時間と精度のトレードオフと制限を理解した。 R$^2$MMTは提案されたR$^2$OUDA設定の厳密な制約を尊重できる実世界のシステムであり、実世界のアプリケーションに直接適用できない同等のOUDAメソッドの0.1%以内の精度を達成する。

Following the popularity of Unsupervised Domain Adaptation (UDA) in person re-identification, the recently proposed setting of Online Unsupervised Domain Adaptation (OUDA) attempts to bridge the gap towards practical applications by introducing a consideration of streaming data. However, this still falls short of truly representing real-world applications. This paper defines the setting of Real-world Real-time Online Unsupervised Domain Adaptation (R$^2$OUDA) for Person Re-identification. The R$^2$OUDA setting sets the stage for true real-world real-time OUDA, bringing to light four major limitations found in real-world applications that are often neglected in current research: system generated person images, subset distribution selection, time-based data stream segmentation, and a segment-based time constraint. To address all aspects of this new R$^2$OUDA setting, this paper further proposes Real-World Real-Time Online Streaming Mutual Mean-Teaching (R$^2$MMT), a novel multi-camera system for real-world person re-identification. Taking a popular person re-identification dataset, R$^2$MMT was used to construct over 100 data subsets and train more than 3000 models, exploring the breadth of the R$^2$OUDA setting to understand the training time and accuracy trade-offs and limitations for real-world applications. R$^2$MMT, a real-world system able to respect the strict constraints of the proposed R$^2$OUDA setting, achieves accuracies within 0.1% of comparable OUDA methods that cannot be applied directly to real-world applications.
翻訳日:2023-06-08 17:20:07 公開日:2023-06-06
# 力の学習:Pixel-Levelインタラクションによるマルチオブジェクトビデオ生成

Learn the Force We Can: Multi-Object Video Generation from Pixel-Level Interactions ( http://arxiv.org/abs/2306.03988v1 )

ライセンス: Link先を確認
Aram Davtyan and Paolo Favaro(参考訳) 本研究では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい教師なし手法を提案する。 学習したモデルでは, 物体と物体の相互作用を現実的に生成し, 複数の物体のダイナミックスと範囲を分離することができる。 本手法の重要な構成要素は,ランダム化条件付けスキーム,入力動作制御の符号化,ランダム化およびスパースサンプリングによる相関の破れである。 われわれのモデルはyodaと呼ばれ、物理的に触れることなく物体を動かすことができる。 ヨダがユーザコントロールを正確に追従すると同時に,複数のデータセットに先行するアートビデオ生成の状況と同等かそれ以上の画質の映像が得られることを,定性的かつ定量的に示す。 ビデオはプロジェクトのwebサイトhttps://araachie.github.io/yoda.comをご覧ください。

We propose a novel unsupervised method to autoregressively generate videos from a single frame and a sparse motion input. Our trained model can generate realistic object-to-object interactions and separate the dynamics and the extents of multiple objects despite only observing them under correlated motion activities. Key components in our method are the randomized conditioning scheme, the encoding of the input motion control, and the randomized and sparse sampling to break correlations. Our model, which we call YODA, has the ability to move objects without physically touching them. We show both qualitatively and quantitatively that YODA accurately follows the user control, while yielding a video quality that is on par with or better than state of the art video generation prior work on several datasets. For videos, visit our project website https://araachie.github.io/yoda.
翻訳日:2023-06-08 17:19:32 公開日:2023-06-06
# 善悪条件下での自律的株式取引を行うエージェント

Agent Performing Autonomous Stock Trading under Good and Bad Situations ( http://arxiv.org/abs/2306.03985v1 )

ライセンス: Link先を確認
Yunfei Luo and Zhangqi Duan(参考訳) 株式トレーディングは金融管理の一般的な方法の1つだ。 しかし、市場と経済環境は不安定であり、通常予測不可能である。 さらに、株式取引に参加するには、分析、戦略作成、意思決定に時間と労力が必要となる。 エージェントが過去のデータを分析してモデリングし、それから自律的なトレーディング戦略を生成するタスクを支援したり、あるいは実行したりすることは、便利で効果的です。 近年,時系列データに基づく意思決定戦略による目標達成に関わるさまざまなタスクにおいて,強化学習が堅牢であることが示されている。 本稿では,株取引環境をシミュレートするパイプラインを開発し,深層Q-ラーニング,深層SARSA,政策勾配法などの深層強化学習手法を用いて,株取引プロセスを自動化するエージェントを訓練した。 比較的良い状況(2021年以前)と悪い状況(2021年~2022年)でプラットフォームを評価する。 私たちが評価した株価は、Google、Apple、Tesla、Meta、Microsoft、IBMなどです。 これらの株は人気株の一つであり、トレンドの変化は良い状況と悪い状況の点で代表的である。 2021年以前、我々が試みた3つの強化手法は、年間利率70\%$から90\%$の有望な利益率を提供し、一方で2021年以降はプラス利益率を2%から7%の合計で維持することを示した。

Stock trading is one of the popular ways for financial management. However, the market and the environment of economy is unstable and usually not predictable. Furthermore, engaging in stock trading requires time and effort to analyze, create strategies, and make decisions. It would be convenient and effective if an agent could assist or even do the task of analyzing and modeling the past data and then generate a strategy for autonomous trading. Recently, reinforcement learning has been shown to be robust in various tasks that involve achieving a goal with a decision making strategy based on time-series data. In this project, we have developed a pipeline that simulates the stock trading environment and have trained an agent to automate the stock trading process with deep reinforcement learning methods, including deep Q-learning, deep SARSA, and the policy gradient method. We evaluate our platform during relatively good (before 2021) and bad (2021 - 2022) situations. The stocks we've evaluated on including Google, Apple, Tesla, Meta, Microsoft, and IBM. These stocks are among the popular ones, and the changes in trends are representative in terms of having good and bad situations. We showed that before 2021, the three reinforcement methods we have tried always provide promising profit returns with total annual rates around $70\%$ to $90\%$, while maintain a positive profit return after 2021 with total annual rates around 2% to 7%.
翻訳日:2023-06-08 17:19:16 公開日:2023-06-06
# タスク指向ダイアログのより正確で一般化した評価メトリクスを目指して

Toward More Accurate and Generalizable Evaluation Metrics for Task-Oriented Dialogs ( http://arxiv.org/abs/2306.03984v1 )

ライセンス: Link先を確認
Abishek Komma, Nagesh Panyam Chandrasekarasastry, Timothy Leffel Anuj Goyal, Angeliki Metallinou, Spyros Matsoukas, Aram Galstyan(参考訳) 対話システムの改善には,対話品質の測定が重要な課題である。 既存のダイアログ品質推定手法は、個々のターンの品質を評価することに集中するか、対話の直後にエンドユーザーからダイアログレベルの品質測定を収集する。 これらのアプローチとは対照的に、ダイアログ品質アノテーション(DQA)と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。 DQAエキスパートアノテータはダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。 この貢献で、私たちは次のように示します。 (i)ダイアログ品質を完全にダイアログレベル属性に分解することはできないが、目的ダイアログ属性とダイアログ品質判断との間には強い関係がある。 (ii)ダイアログレベルの品質推定のタスクでは、ダイアログレベルのアノテーションを訓練した教師付きモデルが、単にターンレベルの特徴を集約することに基づくメソッドを上回る。 (iii)提案評価モデルでは,ベースラインと比較してドメイン一般化能力が向上した。 これらの結果に基づいて,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質な人間記述データを持つことが重要であると論じる。

Measurement of interaction quality is a critical task for the improvement of spoken dialog systems. Existing approaches to dialog quality estimation either focus on evaluating the quality of individual turns, or collect dialog-level quality measurements from end users immediately following an interaction. In contrast to these approaches, we introduce a new dialog-level annotation workflow called Dialog Quality Annotation (DQA). DQA expert annotators evaluate the quality of dialogs as a whole, and also label dialogs for attributes such as goal completion and user sentiment. In this contribution, we show that: (i) while dialog quality cannot be completely decomposed into dialog-level attributes, there is a strong relationship between some objective dialog attributes and judgments of dialog quality; (ii) for the task of dialog-level quality estimation, a supervised model trained on dialog-level annotations outperforms methods based purely on aggregating turn-level features; and (iii) the proposed evaluation model shows better domain generalization ability compared to the baselines. On the basis of these results, we argue that having high-quality human-annotated data is an important component of evaluating interaction quality for large industrial-scale voice assistant platforms.
翻訳日:2023-06-08 17:18:51 公開日:2023-06-06
# 胸部X線画像における頂点コントラスト強調のための内部誘導層を用いた教師なし反復U-Net

Unsupervised Iterative U-Net with an Internal Guidance Layer for Vertebrae Contrast Enhancement in Chest X-Ray Images ( http://arxiv.org/abs/2306.03983v1 )

ライセンス: Link先を確認
Ella Eidlin, Assaf Hoogi, Nathan S. Netanyahu(参考訳) x線イメージングは様々な疾患をスクリーニングし診断するための基本的な臨床ツールである。 しかし、x線撮影の空間分解能はしばしば限られており、小さな画像詳細の診断が難しく、胸部x線撮影の初期段階で椎体異常の同定が困難になる。 この制限に対処するために,深層ニューラルネットワークを反復的に訓練することにより,x線画像の品質を大幅に向上させる新しいロバストな手法を提案する。 本フレームワークは, 胸部X線画像における脊椎の微細構造を, 完全に教師なしの訓練により強化する内部誘導層を備えており, 同じネットワークアーキテクチャを各エンハンスメントフェーズで活用する反復的手順を用いている。 さらに,オブジェクト境界を正確に識別し,脊椎の特徴を増強し,画像の品質をさらに向上させる最適化損失関数を設計した。 実験の結果,提案手法は既存のBRISQUEスコアの精度向上手法よりも優れており,LPC-SIと同等であることがわかった。 さらに, 本手法は, 定性的な結果から示されるように, 隠れた微細構造の復元において優れた性能を示す。 この革新的なアプローチは、診断精度と疾患の早期検出を大幅に向上させる可能性があり、X線イメージング技術の進歩に期待できる。

X-ray imaging is a fundamental clinical tool for screening and diagnosing various diseases. However, the spatial resolution of radiographs is often limited, making it challenging to diagnose small image details and leading to difficulties in identifying vertebrae anomalies at an early stage in chest radiographs. To address this limitation, we propose a novel and robust approach to significantly improve the quality of X-ray images by iteratively training a deep neural network. Our framework includes an embedded internal guidance layer that enhances the fine structures of spinal vertebrae in chest X-ray images through fully unsupervised training, utilizing an iterative procedure that employs the same network architecture in each enhancement phase. Additionally, we have designed an optimized loss function that accurately identifies object boundaries and enhances spinal features, thereby further enhancing the quality of the images. Experimental results demonstrate that our proposed method surpasses existing detail enhancement methods in terms of BRISQUE scores, and is comparable in terms of LPC-SI. Furthermore, our approach exhibits superior performance in restoring hidden fine structures, as evidenced by our qualitative results. This innovative approach has the potential to significantly enhance the diagnostic accuracy and early detection of diseases, making it a promising advancement in X-ray imaging technology.
翻訳日:2023-06-08 17:18:30 公開日:2023-06-06
# グローバル注入型および単射型ニューラル演算子

Globally injective and bijective neural operators ( http://arxiv.org/abs/2306.03982v1 )

ライセンス: Link先を確認
Takashi Furuya, Michael Puthawala, Matti Lassas, Maarten V. de Hoop(参考訳) 近年、ネットワークは本質的に無限次元の観点から関数空間間の演算子を学習する演算子学習に大きな関心が寄せられている。 本研究では,これらのネットワークで学習した演算子が単射かつ全射的である場合の結果を示す。 ウォームアップとして、リニアニューラル演算子を持つReLU層が注入されるシャープ条件を与えることにより、有限次元ReLUと演算子学習設定の両方における先行作業を組み合わせる。 次に,活性化関数が単射である場合について考察し,その層が単射となるのに十分な条件を求める。 この問題は有限ランクの場合では自明であるが、無限ランクの場合では微妙であり、フレドホルム理論の道具を用いて証明される。 次に、供給されたインジェクティブニューラルネットワークが普遍近似であり、有限ランクニューラルネットワークによる実装が依然としてインジェクティブであることを証明する。 これにより、インジェクティビティは解析演算子からネットワークによる有限ランク実装への転写において 'lost' でないことが保証される。 最後に, 抽象化の増大と, 多くの層が深く, インジェクティブであり, サージェクティブであり, 「線形化」からの正確な逆転を与える部分ネットワークの一般的な条件について考察する。 「この節では、非線型積分方程式に対するフレドホルム理論とレイ・シャウダー次数論の一般論法を用いて、函数空間におけるニューラル作用素の写像特性を解析する。 これらの結果は、自然条件下で、この研究で考慮された層から形成されるサブネットに適用される。 我々の研究はベイジアンuqに応用され、インジェクティビティは可能性推定を可能にし、逆問題では全射性とインジェクティビティがそれぞれ存在と一意性に対応すると信じている。

Recently there has been great interest in operator learning, where networks learn operators between function spaces from an essentially infinite-dimensional perspective. In this work we present results for when the operators learned by these networks are injective and surjective. As a warmup, we combine prior work in both the finite-dimensional ReLU and operator learning setting by giving sharp conditions under which ReLU layers with linear neural operators are injective. We then consider the case the case when the activation function is pointwise bijective and obtain sufficient conditions for the layer to be injective. We remark that this question, while trivial in the finite-rank case, is subtler in the infinite-rank case and is proved using tools from Fredholm theory. Next, we prove that our supplied injective neural operators are universal approximators and that their implementation, with finite-rank neural networks, are still injective. This ensures that injectivity is not `lost' in the transcription from analytical operators to their finite-rank implementation with networks. Finally, we conclude with an increase in abstraction and consider general conditions when subnetworks, which may be many layers deep, are injective and surjective and provide an exact inversion from a `linearization.' This section uses general arguments from Fredholm theory and Leray-Schauder degree theory for non-linear integral equations to analyze the mapping properties of neural operators in function spaces. These results apply to subnetworks formed from the layers considered in this work, under natural conditions. We believe that our work has applications in Bayesian UQ where injectivity enables likelihood estimation and in inverse problems where surjectivity and injectivity corresponds to existence and uniqueness, respectively.
翻訳日:2023-06-08 17:18:06 公開日:2023-06-06
# デジタル表現型を用いた統合失調症の臨床的意思決定促進のための反事実的説明と予測モデル

Counterfactual Explanations and Predictive Models to Enhance Clinical Decision-Making in Schizophrenia using Digital Phenotyping ( http://arxiv.org/abs/2306.03980v1 )

ライセンス: Link先を確認
Juan Sebastian Canas, Francisco Gomez, Omar Costilla-Reyes(参考訳) 精神医学における臨床実践は、医療サービスの需要の増加と利用可能な資源の不足によって負担される。 機械学習技術を活用した健康データの新しいパラダイムは、精神医学における臨床評価と治療のクリティカルな段階において、臨床ワークフローを改善する可能性を開く可能性がある。 本研究では,精神分裂病患者の症状の個人的変化を,行動デジタル表現型データを用いて予測・検出・説明できる機械学習システムを提案する。 誤差率が10%未満の患者の症状を予測した。 このシステムは、変更点アルゴリズムを用いて症状の減少を検知し、医療におけるシミュレーションされた継続的監視シナリオにおけるリコースとして反事実的説明を用いる。 本研究は、シミュレーションされた臨床ワークフローにおける対実的説明、予測モデル、変化点検出の性能と可能性に関する貴重な知見を提供する。 これらの発見は、ワークフローのさらなる側面を探究し、現実の医療環境におけるその有効性と適用性を高めるための基盤となる。 これらのコンポーネントを活用することで、リアルタイム臨床評価とセンサーベースのインプットを組み合わせた、実行可能、解釈可能、信頼性の高い統合的意思決定支援システムの開発が目標となる。

Clinical practice in psychiatry is burdened with the increased demand for healthcare services and the scarce resources available. New paradigms of health data powered with machine learning techniques could open the possibility to improve clinical workflow in critical stages of clinical assessment and treatment in psychiatry. In this work, we propose a machine learning system capable of predicting, detecting, and explaining individual changes in symptoms of patients with Schizophrenia by using behavioral digital phenotyping data. We forecast symptoms of patients with an error rate below 10%. The system detects decreases in symptoms using changepoint algorithms and uses counterfactual explanations as a recourse in a simulated continuous monitoring scenario in healthcare. Overall, this study offers valuable insights into the performance and potential of counterfactual explanations, predictive models, and change-point detection within a simulated clinical workflow. These findings lay the foundation for further research to explore additional facets of the workflow, aiming to enhance its effectiveness and applicability in real-world healthcare settings. By leveraging these components, the goal is to develop an actionable, interpretable, and trustworthy integrative decision support system that combines real-time clinical assessments with sensor-based inputs.
翻訳日:2023-06-08 17:17:33 公開日:2023-06-06
# B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile e\u{g}itilmesi ve ince ayarlanmas\i

B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile e\u{g}itilmesi ve ince ayarlanmas\i ( http://arxiv.org/abs/2306.03978v1 )

ライセンス: Link先を確認
A. Taha Arslan(参考訳) 大規模な言語モデルは非常に進歩し、大きな注目を集め、激しい研究の段階にある。 開発されたモデルとトレーニングデータセットの一部がオープンアクセス可能になった。 したがって、これらは特定のタスクのための特別なモデルを得るためにいくつかの技術でさらに微調整される可能性がある。 トルコ語に関しては、オープンアクセスモデルは十分なカバレッジを提供していない。 これは、公開データセットでも観察される。 本研究では,トルコの大規模なデータセットの作成,これらを用いたLLMのトレーニング,トルコ語入力による学習済みモデルの微調整など,この問題を軽減するためのアイデアを提案する。 本報告では,トルコの教育における問題点について報告する。 我々はこれらの実験の結果をまとめ、さらなる研究のためのアイデアを提案する。 -B\\uy\"uk dil modelleri inan{\i}lmaz \"ol\c{c}\"ude geli\c{s}mekte, b\"uy\"uk ilgi toplayarak ve \"uzerlerinde yo\u{g}un ara\c{s}tirmalarin yapildi\u{g}i bir d\"onemddirler。 geli\c{s}tirilen modeller ve e\u{g}itimde kullanilan verisetlerinden bazilari a\c{c}ik eri\c{s}imli olarak sunulmaktadir b\"oylece ince ayarlama teknikleri uygulayarak \"ozelle\c{s}mi\c{s} g\"orevler i\c{c}in \c{c}ali\c{s}abilir modeller elde edilmektedir T\"urk\c{c}e s\"oz konusu oldu\u{g}unda bu modellerinin kapsayicili\u{g}i yeterli d\"uzeyde de\u{g}ildir。 ブ・ドゥラム(bu durum, yayimlanan verisetlerinde de g\"ozlemlenebilir)。 Bunu a\c{s}manin yollari T\"urk\c{c}e i\c{c}erikli b\"uy\"uk verisetlerinin olu\c{s}turulmasi, b\"uy\"uk dil modellerinin bunlarla e\u{g}itilmesi ve \"onceden e\u{g}itilmi\c{s} modellerin T\"urk\c{c}e girdilerle ince ayarlanmalari olabilir. Bu \c{c}ali\c{s}mada a\c{c}ik eri\c{s}imli dil modelleri ve verisetleri \"uzerinde durulmakta ve T\"urk\c{c}e temelli bazi deneyler, kar\c{s}ila\c{s}ilan sorunlar ve sonu\c{c}lar irdelenmektedir。

Large language models have advanced enormously, gained vast attraction and are having a phase of intensed research. Some of the developed models and training datasets have been made open-accessible. Hence these may be further fine-tuned with some techniques to obtain specialized models for specific tasks. When it comes to Turkish language, open-access models do not provide satisfactory coverage. This is also observed over published datasets. In this work, we propose some ideas to mitigate this issue: creating large Turkish datasets, training LLMs with these and fine-tuning pre-trained models with Turkish inputs. We report our findings on Turkish-based trainings with the problems encountered along the way. We conclude with outcomes of these experiments and propose ideas for further works. -- B\"uy\"uk dil modelleri inan{\i}lmaz \"ol\c{c}\"ude geli\c{s}mekte, b\"uy\"uk ilgi toplayarak ve \"uzerlerinde yo\u{g}un ara\c{s}tirmalarin yapildi\u{g}i bir d\"onemdedirler. Geli\c{s}tirilen modeller ve e\u{g}itimde kullanilan verisetlerinden bazilari a\c{c}ik eri\c{s}imli olarak sunulmaktadir. B\"oylece ince ayarlama teknikleri uygulayarak \"ozelle\c{s}mi\c{s} g\"orevler i\c{c}in \c{c}ali\c{s}abilir modeller elde edilmektedir. T\"urk\c{c}e s\"oz konusu oldu\u{g}unda bu modellerinin kapsayicili\u{g}i yeterli d\"uzeyde de\u{g}ildir. Bu durum, yayimlanan verisetlerinde de g\"ozlemlenebilir. Bunu a\c{s}manin yollari T\"urk\c{c}e i\c{c}erikli b\"uy\"uk verisetlerinin olu\c{s}turulmasi, b\"uy\"uk dil modellerinin bunlarla e\u{g}itilmesi ve \"onceden e\u{g}itilmi\c{s} modellerin T\"urk\c{c}e girdilerle ince ayarlanmalari olabilir. Bu \c{c}ali\c{s}mada a\c{c}ik eri\c{s}imli dil modelleri ve verisetleri \"uzerinde durulmakta ve T\"urk\c{c}e temelli bazi deneyler, kar\c{s}ila\c{s}ilan sorunlar ve sonu\c{c}lar irdelenmektedir.
翻訳日:2023-06-08 17:17:15 公開日:2023-06-06
# 価値関数は制御障壁関数である:制御理論を用いた学習ポリシーの検証

Your Value Function is a Control Barrier Function: Verification of Learned Policies using Control Theory ( http://arxiv.org/abs/2306.04026v1 )

ライセンス: Link先を確認
Daniel C.H. Tan and Fernando Acero and Robert McCarthy and Dimitrios Kanoulas and Zhibin Alex Li(参考訳) RLは非常に汎用的でスケーラブルであるが、ポリシーの動作を検証することの難しさは、安全クリティカルなアプリケーションに課題をもたらす。 そこで本研究では,制御理論における検証手法を学習値関数に適用することを提案する。 安全維持のための簡単なタスク構造を解析することにより、値関数とバリア関数をリンクする元の定理を導出する。 そこで本研究では,安全制御タスクにおける価値関数の検証のための新しい指標と,学習を改善する実践的実装の詳細を提案する。 認証学習のための新しい手法を提案するだけでなく、rlポリシーの制御理論における豊富な検証方法を解き明かすとともに、制御システムの汎用的でスケーラブルで検証可能な設計のためのフレームワークへの第一歩を示している。

Although RL is highly general and scalable, the difficulty of verifying policy behaviours poses challenges for safety-critical applications. To remedy this, we propose to apply verification methods used in control theory to learned value functions. By analyzing a simple task structure for safety preservation, we derive original theorems linking value functions to control barrier functions. Inspired by this, we propose novel metrics for verification of value functions in safe control tasks, and practical implementation details that improve learning. Besides proposing a novel method for certificate learning, our work unlocks a wealth of verification methods in control theory for RL policies, and represents a first step towards a framework for general, scalable, and verifiable design of control systems.
翻訳日:2023-06-08 17:09:16 公開日:2023-06-06
# アクティブ推論による説明可能な人工知能の設計:透明なイントロスペクションと意思決定のためのフレームワーク

Designing explainable artificial intelligence with active inference: A framework for transparent introspection and decision-making ( http://arxiv.org/abs/2306.04025v1 )

ライセンス: Link先を確認
Mahault Albarracin, In\^es Hip\'olito, Safae Essafi Tremblay, Jason G. Fox, Gabriel Ren\'e, Karl Friston, Maxwell J. D. Ramstead(参考訳) 本稿では,アクティブ推論と自由エネルギー原理に基づく人間解釈可能な説明可能な人工知能(AI)システムの開発の可能性について検討する。 まず,行動推論の概要について概説し,特に,意思決定・内観・過剰行動の生成・隠蔽行動のモデル化への応用について概説する。 次に,「内省的」プロセスの中核的特徴をモデル化し,意思決定に関わるプロセスの有用な,人間解釈可能なモデルを生成することにより,アクティブ推論をどのように活用して説明可能なaiシステムを設計するかについて議論する。 能動推論を用いた説明可能なAIシステムのためのアーキテクチャを提案する。 このアーキテクチャは、aiシステムが自身の決定に寄与する要因を追跡し、説明し、その構造が人間が解釈し、監査可能なように設計された、明示的な階層的生成モデルの役割を予見する。 このアーキテクチャは,人間の意識やイントロスペクションの側面を模倣したり再現したりすることで,情報ソースを多様に統合し,聴覚的に情報決定を行う方法について概説する。 最後に、今後のai研究における我々の発見の意義と、内省的な能力を持つaiシステムの開発における潜在的な倫理的考察について論じる。

This paper investigates the prospect of developing human-interpretable, explainable artificial intelligence (AI) systems based on active inference and the free energy principle. We first provide a brief overview of active inference, and in particular, of how it applies to the modeling of decision-making, introspection, as well as the generation of overt and covert actions. We then discuss how active inference can be leveraged to design explainable AI systems, namely, by allowing us to model core features of ``introspective'' processes and by generating useful, human-interpretable models of the processes involved in decision-making. We propose an architecture for explainable AI systems using active inference. This architecture foregrounds the role of an explicit hierarchical generative model, the operation of which enables the AI system to track and explain the factors that contribute to its own decisions, and whose structure is designed to be interpretable and auditable by human users. We outline how this architecture can integrate diverse sources of information to make informed decisions in an auditable manner, mimicking or reproducing aspects of human-like consciousness and introspection. Finally, we discuss the implications of our findings for future research in AI, and the potential ethical considerations of developing AI systems with (the appearance of) introspective capabilities.
翻訳日:2023-06-08 17:09:04 公開日:2023-06-06
# 畳み込み変換器を用いたモーダルクロスローカライゼーションのためのエネルギーモデル

Energy-Based Models for Cross-Modal Localization using Convolutional Transformers ( http://arxiv.org/abs/2306.04021v1 )

ライセンス: Link先を確認
Alan Wu and Michael S. Ryoo(参考訳) 距離センサを搭載した地上車両をGPSのない衛星画像に対して位置決めするために,エネルギーベースモデル(EBM)を用いた新しい枠組みを提案する。 ライダーセンサーは、周囲の環境を説明するために自動運転車にユビキタス化されている。 マッププリエントは通常、ローカライゼーションの目的で同じセンサーモダリティを使って構築される。 しかし、レンジセンサーを用いた地図作成は高価で時間を要することが多い。 あるいは、広く利用可能で、簡単にアクセスでき、包括的なカバレッジを提供するマッププリミティブとして衛星画像を利用する。 本研究では,広帯域センサとリッチ・サテライト・サテライト・サテライト・サテライトの視認の相違により,高精度な計量レベルのローカライズを実現する畳み込みトランスフォーマーを用いた手法を提案する。 我々は、エンドツーエンドでモデルをトレーニングし、KITTI、Pandaset、カスタムデータセットの最先端技術よりも高い精度でアプローチを実証する。

We present a novel framework using Energy-Based Models (EBMs) for localizing a ground vehicle mounted with a range sensor against satellite imagery in the absence of GPS. Lidar sensors have become ubiquitous on autonomous vehicles for describing its surrounding environment. Map priors are typically built using the same sensor modality for localization purposes. However, these map building endeavors using range sensors are often expensive and time-consuming. Alternatively, we leverage the use of satellite images as map priors, which are widely available, easily accessible, and provide comprehensive coverage. We propose a method using convolutional transformers that performs accurate metric-level localization in a cross-modal manner, which is challenging due to the drastic difference in appearance between the sparse range sensor readings and the rich satellite imagery. We train our model end-to-end and demonstrate our approach achieving higher accuracy than the state-of-the-art on KITTI, Pandaset, and a custom dataset.
翻訳日:2023-06-08 17:08:35 公開日:2023-06-06
# ニューラルネットワークを用いた探索空間特定ヒューリスティックス学習

Learning Search-Space Specific Heuristics Using Neural Networks ( http://arxiv.org/abs/2306.04019v1 )

ライセンス: Link先を確認
Yu Liu and Ryo Kuroiwa and Alex Fukunaga(参考訳) 本稿では,ニューラルネットワークのヒューリスティック関数を学習し,古典的計画に満足するシステムを提案する。 本システムは,pddlトレーニングインスタンスを1つ与えて,スクラッチから距離推定器を学習する。 トレーニングデータは、与えられた目標または推測された目標状態からの後方回帰探索によって生成される。 すべてのインスタンスが同じ検索空間を共有する24パズルのようなドメインでは、そのようなヒューリスティックはドメイン内のすべてのインスタンスで再利用できる。 この比較的単純なシステムは驚くほどよく機能し、時にはよく知られたドメインに依存しないヒューリスティックと競合する。

We propose and evaluate a system which learns a neuralnetwork heuristic function for forward search-based, satisficing classical planning. Our system learns distance-to-goal estimators from scratch, given a single PDDL training instance. Training data is generated by backward regression search or by backward search from given or guessed goal states. In domains such as the 24-puzzle where all instances share the same search space, such heuristics can also be reused across all instances in the domain. We show that this relatively simple system can perform surprisingly well, sometimes competitive with well-known domain-independent heuristics.
翻訳日:2023-06-08 17:08:19 公開日:2023-06-06
# PyTrial: 医薬品開発のための総合的な人工知能プラットフォーム

PyTrial: A Comprehensive Platform for Artificial Intelligence for Drug Development ( http://arxiv.org/abs/2306.04018v1 )

ライセンス: Link先を確認
Zifeng Wang and Brandon Theodorou and Tianfan Fu and Cao Xiao and Jimeng Sun(参考訳) 薬物開発は、臨床試験による規制承認のために人体における候補薬物の有効性と安全性をテストするための複雑なプロセスである。 近年、機械学習は薬物開発に不可欠なツールとして登場し、プロセスの効率と成功率を改善する新しい機会を提供している。 医薬品開発のための人工知能(AI)の研究・開発を容易にするため,我々はPyTrialと呼ばれるPythonパッケージを開発し,AIアルゴリズムがサポートする様々な臨床試験タスクを実装した。 具体的に言うと、pytrialは患者結果予測、試用サイト選択、試用結果予測、患者と臨床試験のマッチング、試用類似性検索、合成データ生成を含む6つの必須薬物開発タスクを実行している。 PyTrialでは、すべてのタスクは、ロードデータ、モデル定義、モデルトレーニング、モデル評価の4つのステップで定義されます。 さらに、モジュラーapi設計により、実践者はフレームワークを新しいアルゴリズムやタスクに簡単に拡張できる。 pytrialは統合api、詳細なドキュメント、すべての実装アルゴリズムのベンチマークデータを前処理したインタラクティブな例で機能する。 このパッケージはPython Package Index (PyPI)経由でインストールでき、https://github.com/RyanWangZf/PyTrial.comで公開されている。

Drug development is a complex process that aims to test the efficacy and safety of candidate drugs in the human body for regulatory approval via clinical trials. Recently, machine learning has emerged as a vital tool for drug development, offering new opportunities to improve the efficiency and success rates of the process. To facilitate the research and development of artificial intelligence (AI) for drug development, we developed a Python package, namely PyTrial, that implements various clinical trial tasks supported by AI algorithms. To be specific, PyTrial implements 6 essential drug development tasks, including patient outcome prediction, trial site selection, trial outcome prediction, patient-trial matching, trial similarity search, and synthetic data generation. In PyTrial, all tasks are defined by four steps: load data, model definition, model training, and model evaluation, which can be done with a couple of lines of code. In addition, the modular API design allows practitioners to extend the framework to new algorithms and tasks easily. PyTrial is featured for a unified API, detailed documentation, and interactive examples with preprocessed benchmark data for all implemented algorithms. This package can be installed through Python Package Index (PyPI) and is publicly available at https://github.com/RyanWangZf/PyTrial.
翻訳日:2023-06-08 17:08:11 公開日:2023-06-06
# ニューロモルフィックアーキテクチャを用いた新しい誤り訂正符号の実装法

A Novel Implementation Methodology for Error Correction Codes on a Neuromorphic Architecture ( http://arxiv.org/abs/2306.04010v1 )

ライセンス: Link先を確認
Sahil Hassan, Parker Dattilo, Ali Akoglu(参考訳) モノのインターネット(Internet of Things)インフラストラクチャは、多数のエッジデバイスを接続し、インテリジェントなセンシングと推論能力の需要が高まっている。 このようなデータ感度関数は、エネルギー効率とエラー訂正符号(ECC)とデコーダのプログラム可能な実装を必要とする。 並列的な蓄積と比較型の操作を伴うECCのアルゴリズムによるフローは、本質的には、エネルギー効率のよい実行のためのニューロモルフィックアーキテクチャによって悪用される。 本稿では,ニューロモルフィックアーキテクチャ上にデコーダアルゴリズムのハード・決定クラスをマッピングする手法を初めて提案する。 本稿では,Xilinx Zynq ZCU102 MPSoC上でエミュレートされたTrueNorthにインスパイアされたアーキテクチャ上でのGalager B(GaB)復号アルゴリズムの実装について述べる。 そこで本研究では,ニューロンブロックレベルでのエネルギー消費量を31%削減し,リソース使用量の増加を無視し,同じ誤り訂正性能を達成するためのアーキテクチャ変更を提案する。

The Internet of Things infrastructure connects a massive number of edge devices with an increasing demand for intelligent sensing and inferencing capability. Such data-sensitive functions necessitate energy-efficient and programmable implementations of Error Correction Codes (ECC) and decoders. The algorithmic flow of ECCs with concurrent accumulation and comparison types of operations are innately exploitable by neuromorphic architectures for energy efficient execution -- an area that is relatively unexplored outside of machine learning applications. For the first time, we propose a methodology to map the hard-decision class of decoder algorithms on a neuromorphic architecture. We present the implementation of the Gallager B (GaB) decoding algorithm on a TrueNorth-inspired architecture that is emulated on the Xilinx Zynq ZCU102 MPSoC. Over this reference implementation, we propose architectural modifications at the neuron block level that result in a reduction of energy consumption by 31% with a negligible increase in resource usage while achieving the same error correction performance.
翻訳日:2023-06-08 17:07:47 公開日:2023-06-06
# ソフトプロンプトとランダムウォークを用いた言語モデルの質問応答のためのマルチホップ推論

Triggering Multi-Hop Reasoning for Question Answering in Language Models using Soft Prompts and Random Walks ( http://arxiv.org/abs/2306.04009v1 )

ライセンス: Link先を確認
Kanishka Misra and Cicero Nogueira dos Santos and Siamak Shakeri(参考訳) 実体に関する世界的知識を暗記しているにもかかわらず、事前訓練された言語モデル(LM)は、2つ以上の事実をまとめて質問応答タスクでマルチホップ推論を行うのに苦労している。 本研究では,構造化知識グラフ上のランダムウォークに依存することにより,この制限を改善する手法を提案する。 具体的には,マルチホップ質問をランダムなウォークパスにマップすることで,lmsにエンコードされた知識の連鎖を誘導するソフトプロンプトを用いる。 2 つの T5 LM にメソッドを適用することで、2 ホップ推論を必要とする質問に対する標準チューニングアプローチよりも大幅に改善されたことを示す。

Despite readily memorizing world knowledge about entities, pre-trained language models (LMs) struggle to compose together two or more facts to perform multi-hop reasoning in question-answering tasks. In this work, we propose techniques that improve upon this limitation by relying on random walks over structured knowledge graphs. Specifically, we use soft prompts to guide LMs to chain together their encoded knowledge by learning to map multi-hop questions to random walk paths that lead to the answer. Applying our methods on two T5 LMs shows substantial improvements over standard tuning approaches in answering questions that require 2-hop reasoning.
翻訳日:2023-06-08 17:07:34 公開日:2023-06-06
# Green Steganalyzer: 画像ステガナリシスのためのグリーンラーニングアプローチ

Green Steganalyzer: A Green Learning Approach to Image Steganalysis ( http://arxiv.org/abs/2306.04008v1 )

ライセンス: Link先を確認
Yao Zhu, Xinyu Wang, Hong-Shuo Chen, Ronald Salloum, C.-C. Jay Kuo(参考訳) グリーンステガナライザー(GS)と呼ばれるグリーンラーニングパラダイムに基づく画像ステガナリシスのための新しい学習ソリューションが本研究で提案されている。 gsは3つのモジュールからなる。 1)画素に基づく異常予測 2)埋め込み位置検出,及び 3)画像レベル検出のための決定融合 最初のモジュールでは、GSはイメージをパッチに分解し、特徴抽出のためにSaab変換を採用し、中央ピクセルの異常スコアを予測するために自己教師付き学習を行う。 第2のモジュールでは、gsは画素とその近傍の異常スコアを分析し、より高い埋め込み確率の画素を見つける。 第3のモジュールでは、GSは高い埋め込み確率のピクセルに焦点を当て、その異常スコアを融合して最終的な画像レベルの分類を行う。 最先端のディープラーニングモデルと比較すると、GSはS-UNIWARD、WOW、HILLのステガノグラフィースキームに対して、計算複雑性が著しく低く、モデルサイズも小さく、モバイル/エッジアプリケーションにとって魅力的な検出性能を実現している。 さらに、GSはモジュラー設計のため数学的に透明である。

A novel learning solution to image steganalysis based on the green learning paradigm, called Green Steganalyzer (GS), is proposed in this work. GS consists of three modules: 1) pixel-based anomaly prediction, 2) embedding location detection, and 3) decision fusion for image-level detection. In the first module, GS decomposes an image into patches, adopts Saab transforms for feature extraction, and conducts self-supervised learning to predict an anomaly score of their center pixel. In the second module, GS analyzes the anomaly scores of a pixel and its neighborhood to find pixels of higher embedding probabilities. In the third module, GS focuses on pixels of higher embedding probabilities and fuses their anomaly scores to make final image-level classification. Compared with state-of-the-art deep-learning models, GS achieves comparable detection performance against S-UNIWARD, WOW and HILL steganography schemes with significantly lower computational complexity and a smaller model size, making it attractive for mobile/edge applications. Furthermore, GS is mathematically transparent because of its modular design.
翻訳日:2023-06-08 17:07:21 公開日:2023-06-06
# グラフコントラスト学習のためのランダムシュア補足的視点

Randomized Schur Complement Views for Graph Contrastive Learning ( http://arxiv.org/abs/2306.04004v1 )

ライセンス: Link先を確認
Vignesh Kothapalli(参考訳) グラフコントラスト学習(GCL)のためのSchur補数に基づくランダム化トポロジカル拡張器を提案する。 グラフラプラシアン行列が与えられると、この技術はシュール補数の偏りのない近似を生成し、対応するグラフを拡張ビューとして扱う。 提案手法の利点を考察し,理論的な正当性を提供し,グラフ拡散との関連性を示す。 従来とは違って,符号化やコントラストなど,その後のGCLフェーズの設計選択を変動させることにより,拡張器の実証的有効性を制御的に検討した。 ノード分類とグラフ分類のベンチマークによる大規模な実験により、我々の手法は、未定義および適応的な拡張アプローチを一貫して上回り、最先端の結果が得られることを示した。

We introduce a randomized topological augmentor based on Schur complements for Graph Contrastive Learning (GCL). Given a graph laplacian matrix, the technique generates unbiased approximations of its Schur complements and treats the corresponding graphs as augmented views. We discuss the benefits of our approach, provide theoretical justifications and present connections with graph diffusion. Unlike previous efforts, we study the empirical effectiveness of the augmentor in a controlled fashion by varying the design choices for subsequent GCL phases, such as encoding and contrasting. Extensive experiments on node and graph classification benchmarks demonstrate that our technique consistently outperforms pre-defined and adaptive augmentation approaches to achieve state-of-the-art results.
翻訳日:2023-06-08 17:06:59 公開日:2023-06-06
# 電磁石からのSパラメータの曲線フィッティングに先立つ1次元深部画像

One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from Electromagnetic Solvers ( http://arxiv.org/abs/2306.04001v1 )

ライセンス: Link先を確認
Sriram Ravula, Varun Gorti, Bo Deng, Swagato Chakraborty, James Pingenot, Bhyrav Mutnury, Doug Wallace, Doug Winterberg, Adam Klivans, Alexandros G. Dimakis(参考訳) icパッケージ内のパッシブフィルタとインターコネクトの信号整合性をモデル化する場合の鍵となる問題は、適切な解像度を得るために所望の周波数帯域内で複数のsパラメータの測定が必要であることである。 これらのサンプルはしばしば電磁場解法(EM)を用いて得られる計算コストが高い。 したがって、必要なサンプルの小さなサブセットを選択し、適切な適合機構を使用して高密度にサンプリングされた広帯域表現を再現するという、一般的なアプローチである。 本稿では,1次元Deep Image Prior (DIP) を用いて,EMソルバからSパラメータを適合させる手法を提案する。 DIPは、ランダムに初期化された畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定結果からの信号に適合させる技術である。 我々はカスタムアーキテクチャを設計し,不連続なジャンプをペナライズするスプラインの平滑化に触発された新しい正規化を提案する。 我々はsパラメータに適合する業界標準ツールであるvector fitting (vf) の公開およびプロプライエタリな実装と比較した。 VFの公開実装とは対照的に,本手法は周波数サンプルの5~15%しか使用せず,ほぼ全ての試験例において優れた性能を示す。 我々の手法はプロプライエタリなVFツールと競合し、しばしば挑戦的な入力インスタンスよりも優れている。

A key problem when modeling signal integrity for passive filters and interconnects in IC packages is the need for multiple S-parameter measurements within a desired frequency band to obtain adequate resolution. These samples are often computationally expensive to obtain using electromagnetic (EM) field solvers. Therefore, a common approach is to select a small subset of the necessary samples and use an appropriate fitting mechanism to recreate a densely-sampled broadband representation. We present the first deep generative model-based approach to fit S-parameters from EM solvers using one-dimensional Deep Image Prior (DIP). DIP is a technique that optimizes the weights of a randomly-initialized convolutional neural network to fit a signal from noisy or under-determined measurements. We design a custom architecture and propose a novel regularization inspired by smoothing splines that penalizes discontinuous jumps. We experimentally compare DIP to publicly available and proprietary industrial implementations of Vector Fitting (VF), the industry-standard tool for fitting S-parameters. Relative to publicly available implementations of VF, our method shows superior performance on nearly all test examples using only 5-15% of the frequency samples. Our method is also competitive to proprietary VF tools and often outperforms them for challenging input instances.
翻訳日:2023-06-08 17:06:48 公開日:2023-06-06
# 1列に2つの観測から片面行列を完成させる

One-sided Matrix Completion from Two Observations Per Row ( http://arxiv.org/abs/2306.04049v1 )

ライセンス: Link先を確認
Steven Cao, Percy Liang, Gregory Valiant(参考訳) 低ランクマトリックス$x$からの観察されたエントリ数を仮定すると、マトリックス補完は、欠落したエントリを暗示する問題であり、欠落データの推定を含む、幅広い実世界の設定を定式化する。 しかし、行列を完遂するには観測されるエントリが少なすぎる場合、基盤となる行列の他の側面は確実に復元できるだろうか? 左特異ベクトルの回復が不可能な状態においても、列よりも行数が多く、観測がほとんどない状態においても、右特異ベクトルを$X$で回収することが目的である「片側」行列完備化のそのような問題について研究する。 我々は,行列の欠落値である$X^TX$を計算し,少なくとも$\Omega(r^2 d \log d)$行を持つ限り,$X^TX$は1行あたり2つの観測しか持たないが,$r$はランクであり,$d$は列数であることを示す自然アルゴリズムを提案する。 合成データの片面復元と低被覆ゲノムシークエンシングに関するアルゴリズムを評価した。 これらの設定において、本アルゴリズムは、標準行列補完および様々な直接分解法を実質的に上回っている。

Given only a few observed entries from a low-rank matrix $X$, matrix completion is the problem of imputing the missing entries, and it formalizes a wide range of real-world settings that involve estimating missing data. However, when there are too few observed entries to complete the matrix, what other aspects of the underlying matrix can be reliably recovered? We study one such problem setting, that of "one-sided" matrix completion, where our goal is to recover the right singular vectors of $X$, even in the regime where recovering the left singular vectors is impossible, which arises when there are more rows than columns and very few observations. We propose a natural algorithm that involves imputing the missing values of the matrix $X^TX$ and show that even with only two observations per row in $X$, we can provably recover $X^TX$ as long as we have at least $\Omega(r^2 d \log d)$ rows, where $r$ is the rank and $d$ is the number of columns. We evaluate our algorithm on one-sided recovery of synthetic data and low-coverage genome sequencing. In these settings, our algorithm substantially outperforms standard matrix completion and a variety of direct factorization methods.
翻訳日:2023-06-08 16:59:00 公開日:2023-06-06
# 聴覚・身体的ナビゲーション改善のためのアクティブスパース会話

Active Sparse Conversations for Improved Audio-Visual Embodied Navigation ( http://arxiv.org/abs/2306.04047v1 )

ライセンス: Link先を確認
Xiulong Liu, Sudipta Paul, Moitreya Chatterjee, Anoop Cherian(参考訳) オーディオゴールへの効率的なナビゲーションは、音声視覚的手がかりを効果的に活用する能力を持つだけでなく、ノイズや散発的なオーディオゴールの場所が不確実である場合など、自律性を犠牲にすることなく、積極的に(時折)人やオラクルの援助を求める能力を備えることを必要とする。 この目的のために、我々は、人間/オラクルにナビゲーションの質問をポーズし、oracle応答を処理できる会話型音声ビジュアルエンボディドナビゲーションエージェントであるcavenを紹介します。 CAVENの中核にあるマルチモーダル階層型強化学習(RL)は、3つの低レベルポリシーのうちの1つ(各ステップ)から選択するように訓練された高レベルポリシーを備えている。 (i)音声・視覚的手がかりを用いたナビゲーション、または (ii) 質問をオラクルに送付し、短い、または詳細な回答を受け取ること。 (iii)総称的な質問(何を尋ねるべきかわからない場合)をして、指示を受けること。 エージェントの質問を生成する鍵となるのは、目標への最も可能性が高い次のステップを予測するTrajectoryNetと、これらのステップを使用して質問を生成するQQNetです。 すべてのポリシーはRLセットアップを通じてエンドツーエンドで学習され、神託からのナビゲーション命令の受け取りにおいて、ペナルティが課せられる。 CAVENの性能を評価するため,意味的音声視覚ナビゲーションのためのSoundSpacesフレームワークについて広範な実験を行った。 その結果,新しい音源の局所化においては,聴覚障害の存在下でも,競合する手法に比べて最大12%の性能向上が達成できることがわかった。

Efficient navigation towards an audio-goal necessitates an embodied agent to not only possess the ability to use audio-visual cues effectively, but also be equipped to actively (but occasionally) seek human/oracle assistance without sacrificing autonomy, e.g., when it is uncertain of where to navigate towards locating a noisy or sporadic audio goal. To this end, we present CAVEN -- a conversational audio-visual embodied navigation agent that is capable of posing navigation questions to a human/oracle and processing the oracle responses; both in free-form natural language. At the core of CAVEN is a multimodal hierarchical reinforcement learning (RL) setup that is equipped with a high-level policy that is trained to choose from one of three low-level policies (at every step), namely: (i) to navigate using audio-visual cues, or (ii) to frame a question to the oracle and receive a short or detailed response, or (iii) ask generic questions (when unsure of what to ask) and receive instructions. Key to generating the agent's questions is our novel TrajectoryNet that forecasts the most likely next steps to the goal and a QuestionNet that uses these steps to produce a question. All the policies are learned end-to-end via the RL setup, with penalties to enforce sparsity in receiving navigation instructions from the oracle. To evaluate the performance of CAVEN, we present extensive experiments on the SoundSpaces framework for the task of semantic audio-visual navigation. Our results show that CAVEN achieves upto 12% gain in performance over competing methods, especially in localizing new sound sources, even in the presence of auditory distractions.
翻訳日:2023-06-08 16:58:37 公開日:2023-06-06
# 擬エルミート物理学における局所性と例外点

Locality and Exceptional Points in Pseudo-Hermitian Physics ( http://arxiv.org/abs/2306.04044v1 )

ライセンス: Link先を確認
Jacob L. Barnett(参考訳) 擬エルミート作用素はエルミート性の概念を一般化する。 この作用素のクラスは、実数値の測定結果とユニタリ時間発展を保ちながら量子論を再構成する準エルミート作用素を含む。 この論文は、準エルミート理論における局所性の研究、非エルミート作用素に関連する対称性と保存量、および擬エルミート行列の摂動的特徴に捧げられている。 提示された最初の研究に加えて、学者は非エルミート物理学の長い導入を評価できる。 局所準エルミート可観測代数について検討する。 局所エルミート観測値の期待値は局所エルミート観測値と等しい。 したがって、準エルミート理論はエルミート理論によって設定された非局所ゲームの値を増加させない。 さらに、準エルミート理論におけるベルの不等式違反は、エルミート量子論のツィレルソン境界を超えない。 例外点はスペクトルの分岐点であり、非エルミート作用素に特有の摂動的特徴である。 代数曲線のカスプ特異点は高次の例外点と関連している。 非ハーミティティーの新規性を実証するために、非エルミティアン欠陥ポテンシャルの対が平衡損失と利得を持つ1次元格子モデル、$\Delta \pm i \gamma$を探索した。 欠陥が近傍にあるとき、$\gamma$が2階の例外点を過ぎるとスペクトル全体が複雑になる。 欠陥が鎖の端にあり、ホッピング振幅が2周期的であるとき、su-schrieffer-heeger鎖と同様に、$\mathcal{pt}$-phase遷移は位相相によって決定される。 キラル対称性と表現論は、閉形式交叉作用素を持つ擬エルミート作用素の大きなクラスを導出するために用いられる。

Pseudo-Hermitian operators generalize the concept of Hermiticity. This class of operators includes the quasi-Hermitian operators, which reformulate quantum theory while retaining real-valued measurement outcomes and unitary time evolution. This thesis is devoted to the study of locality in quasi-Hermitian theory, the symmetries and conserved quantities associated with non-Hermitian operators, and the perturbative features of pseudo-Hermitian matrices. In addition to the presented original research, scholars will appreciate the lengthy introduction to non-Hermitian physics. Local quasi-Hermitian observable algebras are examined. Expectation values of local quasi-Hermitian observables equal expectation values of local Hermitian observables. Thus, quasi-Hermitian theories do not increase the values of nonlocal games set by Hermitian theories. Furthermore, Bell's inequality violations in quasi-Hermitian theories never exceed the Tsirelson bound of Hermitian quantum theory. Exceptional points, which are branch points in the spectrum, are a perturbative feature unique to non-Hermitian operators. Cusp singularities of algebraic curves are related to higher-order exceptional points. To exemplify novelties of non-Hermiticity, one-dimensional lattice models with a pair of non-Hermitian defect potentials with balanced loss and gain, $\Delta \pm i \gamma$, are explored. When the defects are nearest neighbour, the entire spectrum becomes complex when $\gamma$ is tuned past a second-order exceptional point. When the defects are at the edges of the chain and the hopping amplitudes are 2-periodic, as in the Su-Schrieffer-Heeger chain, the $\mathcal{PT}$-phase transition is dictated by the topological phase. Chiral symmetry and representation theory are used to derive large classes of pseudo-Hermitian operators with closed-form intertwining operators.
翻訳日:2023-06-08 16:58:08 公開日:2023-06-06
# 視線追跡と言語特徴を用いた文学小説における読者参加の分析

An Analysis of Reader Engagement in Literary Fiction through Eye Tracking and Linguistic Features ( http://arxiv.org/abs/2306.04043v1 )

ライセンス: Link先を確認
Rose Neis and Karin de Langis and Zae Myung Kim and Dongyeop Kang(参考訳) 読者のフィクションへの関与を捉えることは、物語理解において難しいが重要な側面である。 本研究では, 視線追跡, 文章レベルのアノテーション, エンゲージメント尺度による2つの短いストーリーに対する23人の読者の反応を収集した。 本研究は,読み手がいかに興味を抱くかを予測する上で,テキストの様々な性質の重要性を分析した。 フィクションの楽しみは極めて文脈的であるため、我々のデータにおける個人差についても検討した。 フィクションで読者を魅了するものを理解することで、創造的な物語生成や共同執筆ツールで使われるモデルをより良く知らせることができるでしょう。

Capturing readers' engagement in fiction is a challenging but important aspect of narrative understanding. In this study, we collected 23 readers' reactions to 2 short stories through eye tracking, sentence-level annotations, and an overall engagement scale survey. We analyzed the significance of various qualities of the text in predicting how engaging a reader is likely to find it. As enjoyment of fiction is highly contextual, we also investigated individual differences in our data. Furthering our understanding of what captivates readers in fiction will help better inform models used in creative narrative generation and collaborative writing tools.
翻訳日:2023-06-08 16:57:36 公開日:2023-06-06
# FedVal:フェデレーション学習における善か悪の相違

FedVal: Different good or different bad in federated learning ( http://arxiv.org/abs/2306.04040v1 )

ライセンス: Link先を確認
Viktor Valadi, Xinchi Qiu, Pedro Porto Buarque de Gusm\~ao, Nicholas D. Lane, Mina Alibeigi(参考訳) フェデレーション学習(fl)システムは、様々な中毒攻撃を通じてトレーニングモデルを腐敗させようとする悪意のある俳優からの攻撃を受けやすい。 FLはまた、異なる人口集団の公正なパフォーマンスを保証するなど、グループバイアスに対処する上で、新たな課題を提起している。 このようなバイアスに対処する伝統的な方法は、flシステムが持っていないデータへの集中的なアクセスを必要とする。 本稿では、プライバシー上の懸念を提起し、FLシステムの整合性を損なう可能性のあるクライアントからの追加情報を必要としない、堅牢性と公正性の両方のための新しいアプローチであるFedValを提案する。 そこで本研究では,クライアント更新を評価し,局所学習モデル間の最適アグリゲーションバランスを決定するサーバサイド検証手法に基づく革新的なスコア関数を提案する。 我々の研究は、このアプローチが毒殺攻撃に対する強固な防御を提供するだけでなく、集団バイアスを減らし、システムの差分プライバシー能力を維持しながら公正性を促進できることを示している。 CIFAR-10, FEMNIST, PUMS ACSIncomeデータセットの様々な構成による大規模な実験により, 提案手法の有効性が実証され, 最先端の性能が得られた。 参加する顧客の80%が悪意のある状況では、堅牢性が証明されています。 さらに,低表示ラベルの精度が32%から53%に有意に向上し,低表示ラベルのリコール率が19%から50%に向上した。

Federated learning (FL) systems are susceptible to attacks from malicious actors who might attempt to corrupt the training model through various poisoning attacks. FL also poses new challenges in addressing group bias, such as ensuring fair performance for different demographic groups. Traditional methods used to address such biases require centralized access to the data, which FL systems do not have. In this paper, we present a novel approach FedVal for both robustness and fairness that does not require any additional information from clients that could raise privacy concerns and consequently compromise the integrity of the FL system. To this end, we propose an innovative score function based on a server-side validation method that assesses client updates and determines the optimal aggregation balance between locally-trained models. Our research shows that this approach not only provides solid protection against poisoning attacks but can also be used to reduce group bias and subsequently promote fairness while maintaining the system's capability for differential privacy. Extensive experiments on the CIFAR-10, FEMNIST, and PUMS ACSIncome datasets in different configurations demonstrate the effectiveness of our method, resulting in state-of-the-art performances. We have proven robustness in situations where 80% of participating clients are malicious. Additionally, we have shown a significant increase in accuracy for underrepresented labels from 32% to 53%, and increase in recall rate for underrepresented features from 19% to 50%.
翻訳日:2023-06-08 16:57:26 公開日:2023-06-06
# 加速器におけるニューラル検索の再検討

Revisiting Neural Retrieval on Accelerators ( http://arxiv.org/abs/2306.04039v1 )

ライセンス: Link先を確認
Jiaqi Zhai, Zhaojie Gong, Yueming Wang, Xiao Sun, Zheng Yan, Fu Li, Xing Liu(参考訳) Retrievalは、情報検索とレコメンデーションアプリケーションのための大規模なコーパスから、少数の関連する候補を見つける。 検索の鍵となる要素は、2つの学習された埋め込みの点積として一般的に表される(ユーザ、アイテム)類似性をモデル化することである。 この定式化は、最大内積探索(MIPS)として知られる効率的な推論を可能にする。 人気にもかかわらず、dot製品は多面的かつおそらく高いランクを持つ複雑なユーザー-テーマインタラクションをキャプチャできない。 そこで本研究では,アクセラレーションにおける非dot-product検索設定を考察し,基本類似度関数の適応的構成としての類似性をモデルとした,logitsの複合化 (mol) を提案する。 この新たな定式化は表現力があり、高階(ユーザ、アイテム)の相互作用をモデル化し、さらに長い尾に一般化することができる。 階層的な検索戦略である‘textit{h-indexer}’と組み合わせることで,MIPSベースラインに匹敵するレイテンシで,単一のGPU上でMoLを100Mコーパスにスケールアップすることが可能になります。 公開データセットでは、我々のアプローチは、ヒット率(hr)が77.3\%まで上昇する。 metaにおける大きな推奨面に関する実験は、強力なメトリック向上と人気バイアスの減少を示し、提案手法のパフォーマンスを検証し、一般化を改善した。

Retrieval finds a small number of relevant candidates from a large corpus for information retrieval and recommendation applications. A key component of retrieval is to model (user, item) similarity, which is commonly represented as the dot product of two learned embeddings. This formulation permits efficient inference, commonly known as Maximum Inner Product Search (MIPS). Despite its popularity, dot products cannot capture complex user-item interactions, which are multifaceted and likely high rank. We hence examine non-dot-product retrieval settings on accelerators, and propose \textit{mixture of logits} (MoL), which models (user, item) similarity as an adaptive composition of elementary similarity functions. This new formulation is expressive, capable of modeling high rank (user, item) interactions, and further generalizes to the long tail. When combined with a hierarchical retrieval strategy, \textit{h-indexer}, we are able to scale up MoL to 100M corpus on a single GPU with latency comparable to MIPS baselines. On public datasets, our approach leads to uplifts of up to 77.3\% in hit rate (HR). Experiments on a large recommendation surface at Meta showed strong metric gains and reduced popularity bias, validating the proposed approach's performance and improved generalization.
翻訳日:2023-06-08 16:57:00 公開日:2023-06-06
# リモートセンシング画像分類のための一次属性記述可能な人工知能手法の定量的解析

Quantitative Analysis of Primary Attribution Explainable Artificial Intelligence Methods for Remote Sensing Image Classification ( http://arxiv.org/abs/2306.04037v1 )

ライセンス: Link先を確認
Akshatha Mohan and Joshua Peeples(参考訳) 本稿では,遠隔センシング画像分類のための説明可能な人工知能(xai)手法を定量的に評価する包括的解析を行う。 本手法は最先端機械学習手法を活用し,複数のモードにわたるリモートセンシング画像分類を行う。 モデルの結果をxai法を用いて定性的に検討する。 また,XAI法を所望特性の様々なカテゴリで定量的に比較する。 分析を通じて、モデルの意思決定プロセスをより深く理解するために、最も適切なXAI手法を選択するための洞察と勧告を提供する。 この作業のコードは公開されている。

We present a comprehensive analysis of quantitatively evaluating explainable artificial intelligence (XAI) techniques for remote sensing image classification. Our approach leverages state-of-the-art machine learning approaches to perform remote sensing image classification across multiple modalities. We investigate the results of the models qualitatively through XAI methods. Additionally, we compare the XAI methods quantitatively through various categories of desired properties. Through our analysis, we offer insights and recommendations for selecting the most appropriate XAI method(s) to gain a deeper understanding of the models' decision-making processes. The code for this work is publicly available.
翻訳日:2023-06-08 16:56:36 公開日:2023-06-06
# BokehOrNot:画像変換器とレンズメタデータ埋め込みによるボケ効果の変換

BokehOrNot: Transforming Bokeh Effect with Image Transformer and Lens Metadata Embedding ( http://arxiv.org/abs/2306.04032v1 )

ライセンス: Link先を確認
Zhihao Yang, Wenyi Lian, Siyuan Lai(参考訳) ボケ効果(bokeh effect)は、広角レンズを備えたハイエンドカメラによって通常生成される、快適な視覚体験を提供する光学現象である。 ボケ効果変換の課題は、1組のレンズと開口部で別の組み合わせに基づいて望ましい効果を生み出すことである。 現在のモデルは、特定のボケ効果のセットをレンダリングする能力に制限があり、主にシャープからボケへ変換する。 本稿では,レンズメタデータをモデルに埋め込み,新たにリリースされたbokeh効果変換データセット(betd)からアルファマスクを用いた損失計算法を提案する。 以上の手法に基づいて、ボケオルノットモデルを提案する。ボケオルノットモデルは、ブラープとシャープのボケ効果の両方を様々なレンズと開口サイズの組み合わせで生成できる。 提案モデルでは、現在のボケレンダリングと画像復元モデルより優れ、視覚的に自然なボケ効果をレンダリングする。 私たちのコードは、https://github.com/indicator0/bokehornot.comで利用可能です。

Bokeh effect is an optical phenomenon that offers a pleasant visual experience, typically generated by high-end cameras with wide aperture lenses. The task of bokeh effect transformation aims to produce a desired effect in one set of lenses and apertures based on another combination. Current models are limited in their ability to render a specific set of bokeh effects, primarily transformations from sharp to blur. In this paper, we propose a novel universal method for embedding lens metadata into the model and introducing a loss calculation method using alpha masks from the newly released Bokeh Effect Transformation Dataset(BETD) [3]. Based on the above techniques, we propose the BokehOrNot model, which is capable of producing both blur-to-sharp and sharp-to-blur bokeh effect with various combinations of lenses and aperture sizes. Our proposed model outperforms current leading bokeh rendering and image restoration models and renders visually natural bokeh effects. Our code is available at: https://github.com/indicator0/bokehornot.
翻訳日:2023-06-08 16:56:27 公開日:2023-06-06
# 言語モデルを用いた認定推論

Certified Reasoning with Language Models ( http://arxiv.org/abs/2306.04031v1 )

ライセンス: Link先を確認
Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman(参考訳) 言語モデルは複雑なタスクでステップバイステップの推論を行う場合、高い精度を達成することが多い。 しかし、それらの推論は不正確、矛盾、あるいは望ましくない前提に依存している可能性がある。 これらの問題に対処するために,我々は,生成を導くために状態制約とインクリメンタル制約を使用する言語モデルのためのツールのクラスを紹介する。 ガイドはモデルによって呼び出され、ツールから与えられた有効なステートメントのセットに自身の生成を制約することができる。 モデルの選択は、ガイドの状態を変えることができる。 論理的推論のための一般的なシステムが、LogicGuideと呼ばれるガイドとして利用できることを示す。 自然言語における推論問題を考えると、モデルは論理導関数の仮定を定式化し、推論ステップが正しいことを保証できる。 PrOntoQAとProofWriterの推論データセットを用いた実験では、LogicGuideはGPT-3、GPT-3.5 Turbo、LLaMAのパフォーマンスを大幅に改善した(精度は最大35%向上)。 logicguideはまた、コンテンツの影響を劇的に低減する:人間と言語モデルの両方が苦しむことが示されている以前の仮定と現在の仮定の干渉。 最後に、llama 13bを自己推論からブートストラップし、logicguideが重要であることを確認する: 認定された自己生成推論のみをトレーニングすることで、llamaは自己改善が可能で、自身の幻覚から学習を回避できる。

Language models often achieve higher accuracy when reasoning step-by-step in complex tasks. However, their reasoning can be unsound, inconsistent, or rely on undesirable prior assumptions. To tackle these issues, we introduce a class of tools for language models called guides that use state and incremental constraints to guide generation. A guide can be invoked by the model to constrain its own generation to a set of valid statements given by the tool. In turn, the model's choices can change the guide's state. We show how a general system for logical reasoning can be used as a guide, which we call LogicGuide. Given a reasoning problem in natural language, a model can formalize its assumptions for LogicGuide and then guarantee that its reasoning steps are sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets, LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content effects: the interference of prior and current assumptions that both humans and language models have been shown to suffer from. Finally, we explore bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is critical: by training only on certified self-generated reasoning, LLaMA can self-improve, avoiding learning from its own hallucinations.
翻訳日:2023-06-08 16:56:07 公開日:2023-06-06
# 介入一般化:因子グラフモデルからの考察

Intervention Generalization: A View from Factor Graph Models ( http://arxiv.org/abs/2306.04027v1 )

ライセンス: Link先を確認
Gecia Bravo-Hermsdorff, David S. Watson, Jialin Yu, Jakob Zeitler, and Ricardo Silva(参考訳) 因果推論の目標の1つは、過去の実験と観測データから新しい状態への一般化である。 新たな実験条件から関心の結果へのマッピングを最終的に学習することは原則として可能であるが、トレーニングデータで十分な種類の実験が利用可能であれば、大きな組合せ空間に対応することは困難である。 典型的なスパース実験設計では、この写像は重正規化や事前分布に頼らずに不適切である。 そのような仮定は信頼性があり、防御やテストが難しいかもしれない。 本稿では, 因子グラフモデルのよく理解された言語で伝達される操作系分布の因子化に関する最小限の仮定に基づいて, 過去の実験から新しい条件への飛躍をいかに保証するかを詳細に検討する。 仮定された$\textit{interventional factor model}$ (IFM) は必ずしも情報であるとは限らないが、明らかな未測定のコンバウンディングとフィードバックメカニズムの必要性を便利に抽象化し、直接的に検証可能なクレームをもたらす。 実験条件の収集から得られたデータを用いてifmsによる因果効果の同定に必要十分条件を導出し,データに観測されない新しい条件に期待結果を一般化するための実用的なアルゴリズムを実装した。

One of the goals of causal inference is to generalize from past experiments and observational data to novel conditions. While it is in principle possible to eventually learn a mapping from a novel experimental condition to an outcome of interest, provided a sufficient variety of experiments is available in the training data, coping with a large combinatorial space of possible interventions is hard. Under a typical sparse experimental design, this mapping is ill-posed without relying on heavy regularization or prior distributions. Such assumptions may or may not be reliable, and can be hard to defend or test. In this paper, we take a close look at how to warrant a leap from past experiments to novel conditions based on minimal assumptions about the factorization of the distribution of the manipulated system, communicated in the well-understood language of factor graph models. A postulated $\textit{interventional factor model}$ (IFM) may not always be informative, but it conveniently abstracts away a need for explicit unmeasured confounding and feedback mechanisms, leading to directly testable claims. We derive necessary and sufficient conditions for causal effect identifiability with IFMs using data from a collection of experimental settings, and implement practical algorithms for generalizing expected outcomes to novel conditions never observed in the data.
翻訳日:2023-06-08 16:55:48 公開日:2023-06-06
# 事前学習した言語モデルに対するパラメータ効率向上手法の実証的解析

An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models ( http://arxiv.org/abs/2306.04067v1 )

ライセンス: Link先を確認
Zhongbin Xie, Thomas Lukasiewicz(参考訳) 現代の事前学習された言語モデルの大規模化は、トレーニングコーパスから人間のようなバイアスを継承するだけでなく、そのようなバイアスを緩和する計算コストも高めている。 本稿では,近年のパラメータ効率向上手法と,バイアス軽減のための対実データ拡張(CDA)を併用して検討する。 我々は,プレフィックスチューニング,アクシデントチューニング,各種言語モデルおよびバイアスモデルに対するアダプタチューニングによる広範囲な実験を行い,それらのバイアス性能と,事前学習モデルの内部知識を維持する能力を評価する。 パラメーター効率の良い方法は i) ジェンダーバイアスの緩和に有効であり, アダプタチューニングが一貫して有効であり, 即時チューニングがBERTよりもGPT-2に適している。 (ii)人種的・宗教的偏見に関しては、CDAの限界に起因する可能性があるが、効果が低い。 (iii) は、時間とメモリ効率を改善した完全な微調整と同様に、時として優れた性能を発揮することができ、また、事実検索と下流微調整によって評価されるbertとgpt-2の内部知識を維持することができる。

The increasingly large size of modern pretrained language models not only makes them inherit more human-like biases from the training corpora, but also makes it computationally expensive to mitigate such biases. In this paper, we investigate recent parameter-efficient methods in combination with counterfactual data augmentation (CDA) for bias mitigation. We conduct extensive experiments with prefix tuning, prompt tuning, and adapter tuning on different language models and bias types to evaluate their debiasing performance and abilities to preserve the internal knowledge of a pre-trained model. We find that the parameter-efficient methods (i) are effective in mitigating gender bias, where adapter tuning is consistently the most effective one and prompt tuning is more suitable for GPT-2 than BERT, (ii) are less effective when it comes to racial and religious bias, which may be attributed to the limitations of CDA, and (iii) can perform similarly to or sometimes better than full fine-tuning with improved time and memory efficiency, as well as maintain the internal knowledge in BERT and GPT-2, evaluated via fact retrieval and downstream fine-tuning.
翻訳日:2023-06-08 16:50:05 公開日:2023-06-06
# 代理モデリング,ハイパーパラメータ最適化,データ解析のためのインテリジェントサンプリング

Intelligent sampling for surrogate modeling, hyperparameter optimization, and data analysis ( http://arxiv.org/abs/2306.04066v1 )

ライセンス: Link先を確認
Chandrika Kamath(参考訳) サンプリング技術は、実験の設計、画像処理、グラフィックスなど、多くの分野で使われている。 各分野のテクニックは、各次元の範囲の均一なカバレッジや、少なくとも互いに離れた一定の距離にあるランダムサンプルといった、その分野に特有の制約を満たすように設計されている。 例えば、非矩形ドメインのサンプルや既存のセットに新しいサンプルを追加することで、アプリケーションが新しい制約を課す場合、一般的な解決策は、現在使われているアルゴリズムを修正することである。 そこで我々は,新しいアルゴリズムを創り出すか,あるいは他の分野から適切なアルゴリズムを変更することによって,サンプリングニーズを満たすように特別に調整したアルゴリズムを考案する。 意外なことに、定性的および定量的な比較は、いくつかの比較的単純なアルゴリズムが、サロゲートモデリング、ハイパーパラメータ最適化、データ解析の多くのサンプリング要求を満たすように容易に修正可能であることを示している。

Sampling techniques are used in many fields, including design of experiments, image processing, and graphics. The techniques in each field are designed to meet the constraints specific to that field such as uniform coverage of the range of each dimension or random samples that are at least a certain distance apart from each other. When an application imposes new constraints, for example, by requiring samples in a non-rectangular domain or the addition of new samples to an existing set, a common solution is to modify the algorithm currently in use, often with less than satisfactory results. As an alternative, we propose the concept of intelligent sampling, where we devise algorithms specifically tailored to meet our sampling needs, either by creating new algorithms or by modifying suitable algorithms from other fields. Surprisingly, both qualitative and quantitative comparisons indicate that some relatively simple algorithms can be easily modified to meet the many sampling requirements of surrogate modeling, hyperparameter optimization, and data analysis; these algorithms outperform their more sophisticated counterparts currently in use, resulting in better use of time and computer resources.
翻訳日:2023-06-08 16:49:43 公開日:2023-06-06
# 普遍ロバスト埋め込みによるカテゴリーデータの転送可能逆ロバスト性

Transferable Adversarial Robustness for Categorical Data via Universal Robust Embeddings ( http://arxiv.org/abs/2306.04064v1 )

ライセンス: Link先を確認
Klim Kireev, Maksym Andriushchenko, Carmela Troncoso, Nicolas Flammarion(参考訳) 敵対的堅牢性の研究は、主に画像とテキストデータに焦点を当てている。 しかし、堅牢性の欠如が詐欺検出、診断、レコメンダシステムといった深刻なリスクをもたらすシナリオの多くは、画像やテキストに頼らず、表形式のデータに頼っていることが多い。 表データの逆の堅牢性は2つの深刻な課題を生じさせる。 まず、表型データセットにはカテゴリ的な特徴がしばしば含まれているため、既存の最適化手順に直接取り組めない。 第二に、表領域では、ディープネットワークをベースとしないアルゴリズムが広く使われ、優れた性能を提供するが、堅牢性を高めるアルゴリズムはニューラルネットワークに適合する(例えば、敵の訓練)。 本稿では,両課題に対処する。 本稿では,表データに対して,逆ロバストな深層ネットワークを訓練し,そのロバスト性をカテゴリデータに合わせたユニバーサルロバスト埋め込みを介して他の分類器に転送する手法を提案する。 これらの埋め込みは、二段階の交互化フレームワークを用いて作成され、木やランダムな森林に移動でき、表層データに高い精度を保ちながら、敵の訓練を必要とせずに堅牢になる。 本手法は,表データに適した実用的脅威モデルにおいて,既存の手法よりも優れていることを示す。

Research on adversarial robustness is primarily focused on image and text data. Yet, many scenarios in which lack of robustness can result in serious risks, such as fraud detection, medical diagnosis, or recommender systems often do not rely on images or text but instead on tabular data. Adversarial robustness in tabular data poses two serious challenges. First, tabular datasets often contain categorical features, and therefore cannot be tackled directly with existing optimization procedures. Second, in the tabular domain, algorithms that are not based on deep networks are widely used and offer great performance, but algorithms to enhance robustness are tailored to neural networks (e.g. adversarial training). In this paper, we tackle both challenges. We present a method that allows us to train adversarially robust deep networks for tabular data and to transfer this robustness to other classifiers via universal robust embeddings tailored to categorical data. These embeddings, created using a bilevel alternating minimization framework, can be transferred to boosted trees or random forests making them robust without the need for adversarial training while preserving their high accuracy on tabular data. We show that our methods outperform existing techniques within a practical threat model suitable for tabular data.
翻訳日:2023-06-08 16:49:26 公開日:2023-06-06
# ロバスト・アクティブ・プライス・エミッション・アルゴリズムの展開:COVID-19患者優先のための設計・インターフェース・評価

Deploying a Robust Active Preference Elicitation Algorithm: Experiment Design, Interface, and Evaluation for COVID-19 Patient Prioritization ( http://arxiv.org/abs/2306.04061v1 )

ライセンス: Link先を確認
Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos(参考訳) 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。 arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。 しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。 そこで本研究では,新型コロナウイルス感染症患者を病院の資源不足に優先する政策を選択することの課題に焦点をあてて,ロバストな方法の展開性能を検証することを提案する。 この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。 我々はamazon mechanical turk workers (n$ = 193) を募集し、その好みを報告し、ロバストなメソッドがarxiv:2003.01899のシミュレート結果において、よりユーティリティの高いポリシーを推奨する上で、ランダムなクエリの要求を21%上回ることを示した。

Preference elicitation leverages AI or optimization to learn stakeholder preferences in settings ranging from marketing to public policy. The online robust preference elicitation procedure of arXiv:2003.01899 has been shown in simulation to outperform various other elicitation procedures in terms of effectively learning individuals' true utilities. However, as with any simulation, the method makes a series of assumptions that cannot easily be verified to hold true beyond simulation. Thus, we propose to validate the robust method's performance in deployment, focused on the particular challenge of selecting policies for prioritizing COVID-19 patients for scarce hospital resources during the pandemic. To this end, we develop an online platform for preference elicitation where users report their preferences between alternatives over a moderate number of pairwise comparisons chosen by a particular elicitation procedure. We recruit Amazon Mechanical Turk workers ($n$ = 193) to report their preferences and demonstrate that the robust method outperforms asking random queries by 21%, the next best performing method in the simulated results of arXiv:2003.01899, in terms of recommending policies with a higher utility.
翻訳日:2023-06-08 16:49:00 公開日:2023-06-06
# Reddit投稿を拡大してメンタルヘルスに影響を及ぼす健康度を決定

Augmenting Reddit Posts to Determine Wellness Dimensions impacting Mental Health ( http://arxiv.org/abs/2306.04059v1 )

ライセンス: Link先を確認
Chandreen Liyanage, Muskan Garg, Vijay Mago, Sunghwan Sohn(参考訳) 健康危機が続く中、自己診断テキストに現れるウェルネス次元(WD)の兆候を識別する必要性が高まっている。 ソーシャルメディアデータ上でのWDの分布は本質的に不均衡であるので,データ拡張のための生成NLPモデルを実験し,WD分類の事前スクリーニングタスクをさらに改善する。 そこで本研究では,プロンプトベース生成NLPモデルによる簡易かつ効果的なデータ拡張手法を提案し,既存の解釈と拡張データ間のROUGEスコアと構文・意味的類似性を評価する。 当社のChatGPTモデルによるアプローチは,他のすべての手法を超越し,Easy-Data AugmentationやBacktranslationといったベースラインの改善を実現しています。 より多くのトレーニングサンプルとバランスの取れたデータセットを生成するためにデータ拡張を導入し、改善されたFスコアとマシュー相関係数をそれぞれ13.11%と15.95%に向上させた。

Amid ongoing health crisis, there is a growing necessity to discern possible signs of Wellness Dimensions (WD) manifested in self-narrated text. As the distribution of WD on social media data is intrinsically imbalanced, we experiment the generative NLP models for data augmentation to enable further improvement in the pre-screening task of classifying WD. To this end, we propose a simple yet effective data augmentation approach through prompt-based Generative NLP models, and evaluate the ROUGE scores and syntactic/semantic similarity among existing interpretations and augmented data. Our approach with ChatGPT model surpasses all the other methods and achieves improvement over baselines such as Easy-Data Augmentation and Backtranslation. Introducing data augmentation to generate more training samples and balanced dataset, results in the improved F-score and the Matthew's Correlation Coefficient for upto 13.11% and 15.95%, respectively.
翻訳日:2023-06-08 16:48:19 公開日:2023-06-06
# rescuespeech: search and rescue domainにおけるドイツ語音声認識コーパス

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain ( http://arxiv.org/abs/2306.04054v1 )

ライセンス: Link先を確認
Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith(参考訳) 近年の音声認識の進歩にもかかわらず、騒音・残響環境下での会話音声や感情音声の正確な書き起こしはいまだに困難である。 これは、救助チームメンバー間の会話を翻訳することが、リアルタイムの意思決定をサポートするために不可欠である、検索と救助(SAR)ドメインにおいて、特に課題となる。 SARシナリオにおける音声データの不足と背景雑音により,ロバスト音声認識システムの展開が困難になる。 この問題に対処するため、RescueSpeechというドイツの音声データセットを作成し公開しました。 本データセットは、模擬救助演習からの実際の音声記録を含む。 さらに、競争力のあるトレーニングレシピと事前トレーニングモデルをリリースしました。 本研究は,最先端の手法によって達成された現在の性能レベルが,まだ許容できるレベルには程遠いことを示している。

Despite recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the search and rescue (SAR) domain, where transcribing conversations among rescue team members is crucial to support real-time decision-making. The scarcity of speech data and associated background noise in SAR scenarios make it difficult to deploy robust speech recognition systems. To address this issue, we have created and made publicly available a German speech dataset called RescueSpeech. This dataset includes real speech recordings from simulated rescue exercises. Additionally, we have released competitive training recipes and pre-trained models. Our study indicates that the current level of performance achieved by state-of-the-art methods is still far from being acceptable.
翻訳日:2023-06-08 16:47:35 公開日:2023-06-06
# 核スピンを減らした等方的に濃縮された$^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Ge量子井戸

Nuclear Spin-Depleted, Isotopically Enriched $^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Ge Quantum Wells ( http://arxiv.org/abs/2306.04052v1 )

ライセンス: Link先を確認
O. Moutanabbir, S. Assali, A. Attiaoui, G. Daligou, P. Daoust, P. Del Vecchio, S. Koelling, L. Luo, and N. Rotaru(参考訳) ホール波動関数のp対称性は電子に比べて弱い超微細構造相互作用と関連しており、ホールスピン量子ビットは長いコヒーレンス量子プロセッサを実装する候補となる。 しかし、最近の研究では、平面ゲルマニウム(Ge)ヘテロ構造は核スピン浴に非常に敏感であることが示されている。 これらの観察は、この脱コヒーレンスチャネルを抑制し、その影響を評価するために核スピンフリーなGe量子ビットを開発する必要性を強調している。 この観点から、この研究は、$^\text{73}$Ge-depleted isotopally enriched $^\text{70}$Ge/SiGe 量子井戸のエピタキシャル成長を示す。 この成長は, 等方的に精製したモノガーマン$^\text{70}$GeH$_\text{4}$およびモノシラン$^\text{28}$SiH$_\text{4}$を用いて, 99.9$\%および99.99$\%$以上の同位体純度を有する圧力化学的蒸着によって達成された。 量子井戸は、Ge仮想基板とグレードしたSiGeバッファ層を用いてSiウェハ上に成長した$^\text{70}$Ge/SiGeヘテロ構造からなる。 質量スペクトルにおける同位体ピークの重なりに起因する同位体量の不一致を解析し,原子プローブトモグラフィを用いて同位体純度を調べた。 量子井戸の核スピン背景は成長条件に敏感であることが判明した。 ヘテロ構造における核スピンフル同位体の最低濃度$^\text{73}$Geと$^\text{29}$Siは、Ge量子井戸とSiGe障壁において0.01$\%で確立された。 核スピン間の平均距離は$^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Geで3-4nmに達する。

The p-symmetry of the hole wavefunction is associated with a weaker hyperfine interaction as compared to electrons, thus making hole spin qubits attractive candidates to implement long coherence quantum processors. However, recent studies demonstrated that hole qubits in planar germanium (Ge) heterostructures are still very sensitive to nuclear spin bath. These observations highlight the need to develop nuclear spin-free Ge qubits to suppress this decoherence channel and evaluate its impact. With this perspective, this work demonstrates the epitaxial growth of $^\text{73}$Ge-depleted isotopically enriched $^\text{70}$Ge/SiGe quantum wells. The growth was achieved by reduced pressure chemical vapor deposition using isotopically purified monogermane $^\text{70}$GeH$_\text{4}$ and monosilane $^\text{28}$SiH$_\text{4}$ with an isotopic purity higher than 99.9 $\%$ and 99.99 $\%$, respectively. The quantum wells consist of a series of $^\text{70}$Ge/SiGe heterostructures grown on Si wafers using a Ge virtual substrate and a graded SiGe buffer layer. The isotopic purity is investigated using atom probe tomography following an analytical procedure addressing the discrepancies in the isotopic content caused by the overlap of isotope peaks in mass spectra. The nuclear spin background in the quantum wells was found to be sensitive to the growth conditions. The lowest concentration of nuclear spin-full isotopes $^\text{73}$Ge and $^\text{29}$Si in the heterostructure was established at 0.01 $\%$ in the Ge quantum well and SiGe barriers. The measured average distance between nuclear spins reaches 3-4 nm in $^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Ge, which is an order of magnitude larger than in natural Ge/SiGe heterostructures.
翻訳日:2023-06-08 16:47:15 公開日:2023-06-06
# LLMZip:大規模言語モデルを用いたロスレステキスト圧縮

LLMZip: Lossless Text Compression using Large Language Models ( http://arxiv.org/abs/2306.04050v1 )

ライセンス: Link先を確認
Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai(参考訳) 過去のトークンの窓を与えられた次のトークンの予測子として,大言語モデルllama-7bを用いて,英語のエントロピーに関する漸近的上限を新たに推定する。 この推定は、現在利用可能な cite{cover 1978convergent}, \cite{lutati2023focus} の見積もりよりもかなり小さい。 自然副産物は、大きな言語モデルからの予測と損失のない圧縮スキームを組み合わせた英語テキストのロスレス圧縮のためのアルゴリズムである。 BSCやZPAQ,paq8hといった最先端のテキスト圧縮方式よりも優れた結果が得られた。

We provide new estimates of an asymptotic upper bound on the entropy of English using the large language model LLaMA-7B as a predictor for the next token given a window of past tokens. This estimate is significantly smaller than currently available estimates in \cite{cover1978convergent}, \cite{lutati2023focus}. A natural byproduct is an algorithm for lossless compression of English text which combines the prediction from the large language model with a lossless compression scheme. Preliminary results from limited experiments suggest that our scheme outperforms state-of-the-art text compression schemes such as BSC, ZPAQ, and paq8h.
翻訳日:2023-06-08 16:46:36 公開日:2023-06-06
# 言語適応推論を用いた参照表現理解

Referring Expression Comprehension Using Language Adaptive Inference ( http://arxiv.org/abs/2306.04451v1 )

ライセンス: Link先を確認
Wei Su, Peihan Miao, Huanzhang Dou, Yongjian Fu, and Xi Li(参考訳) 普遍的なオブジェクト検出とは異なり、参照表現理解(rec)は自然言語表現で参照される特定のオブジェクトを見つけることを目的としている。 この表現は、関連する視覚的パターンと文脈的パターンの高レベルな概念を提供する。 様々な参照式に固定された構造を持つネットワーク全体が必要なのでしょうか? 理想的には、式が与えられた場合、RECモデルの式関連コンポーネントのみが必要である。 これらのコンポーネントは、視覚的および文脈的なヒントをほとんど含まないため、数的に小さくなければならない。 本稿では,動的推論のための表現モデルとRECモデルの適応について検討する。 具体的には,参照表現に基づくrecモデルから言語適応サブネットを抽出する言語適応動的サブネット(lads)という,巧妙かつ効率的なフレームワークを提案する。 コンパクトサブネットを使用することで、推論をより経済的かつ効率的にすることができる。 RefCOCO、RefCOCO+、RefCOCOg、Referitの大規模な実験により、提案手法はより高速な推論速度と最先端のアプローチに対する高い精度を実現することが示された。

Different from universal object detection, referring expression comprehension (REC) aims to locate specific objects referred to by natural language expressions. The expression provides high-level concepts of relevant visual and contextual patterns, which vary significantly with different expressions and account for only a few of those encoded in the REC model. This leads us to a question: do we really need the entire network with a fixed structure for various referring expressions? Ideally, given an expression, only expression-relevant components of the REC model are required. These components should be small in number as each expression only contains very few visual and contextual clues. This paper explores the adaptation between expressions and REC models for dynamic inference. Concretely, we propose a neat yet efficient framework named Language Adaptive Dynamic Subnets (LADS), which can extract language-adaptive subnets from the REC model conditioned on the referring expressions. By using the compact subnet, the inference can be more economical and efficient. Extensive experiments on RefCOCO, RefCOCO+, RefCOCOg, and Referit show that the proposed method achieves faster inference speed and higher accuracy against state-of-the-art approaches.
翻訳日:2023-06-08 14:13:10 公開日:2023-06-06
# 量子絡み合いは部分的に脱線する

Quantum entanglement partly demystified ( http://arxiv.org/abs/2306.04575v1 )

ライセンス: Link先を確認
Diederik Aerts, Massimiliano Sassoli de Bianchi(参考訳) 量子絡み合い現象を部分的に解き明かすための単純な弦モデルを考える。 このモデルは弦理論とは無関係であり、アリスとボブが犯すことのできるマクロな弦を、異なる方法でベル・チェーシュの不等式と符号なし条件(「境界法則( marginal law)」とも呼ばれる)に違反する、あるいは違反しない方法で使用する。 我々は,様々な異論に対処すべく,モデルのいくつかの変種を提示する。 これにより、量子フォーマリズムが既に示唆しているもの、絡み合った状態に関連付けられた相関の性質について、関節測定の実行毎に文脈的に生成されるように見えるものを、完全に可視化することができる。 また, 弦モデルが示唆するメカニズムと合理性のある隠れた測定解釈を簡潔に提示し, 量子エンタングルメント現象が状態だけでなく測定にも影響を及ぼす可能性, 物理的現実が本質的に非空間的である可能性について最終的考察を行った。

We consider a simple string model to explain and partly demystify the phenomenon of quantum entanglement. The model in question has nothing to do with string theory: it uses macroscopic strings that can be acted upon by Alice and Bob in ways that violate, or fail to violate, in different ways Bell-CHSH inequalities and the no-signaling conditions, also called marginal laws. We present several variants of the model, to address different objections that may arise. This allows us to make fully visible what the quantum formalism already suggests, about the nature of the correlations associated with entangled states, which appear to be created in a contextual manner at each execution of a joint measurement. We also briefly present the hidden measurement interpretation, whose rationale is compatible with the mechanism suggested by our string model, then offer some final thoughts about the possibility that the quantum entanglement phenomenon might affect not only states, but also measurements, and that our physical reality would be predominantly non-spatial in nature.
翻訳日:2023-06-08 13:22:47 公開日:2023-06-06
# アドバンテージ誘導型ポリシーアライメントを用いた微調整言語モデル

Fine-Tuning Language Models with Advantage-Induced Policy Alignment ( http://arxiv.org/abs/2306.02231v2 )

ライセンス: Link先を確認
Banghua Zhu, Hiteshi Sharma, Felipe Vieira Frujeri, Shi Dong, Chenguang Zhu, Michael I. Jordan, Jiantao Jiao(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるための信頼性の高いアプローチとして現れている。 多くのrlhf技術の中で、近位政策最適化(proximal policy optimization, ppo)は最も広く使われている手法である。 しかし、その人気にもかかわらず、PPOはモード崩壊、不安定、サンプル効率の低下に悩まされる。 提案手法は,提案手法の利点を活かした2乗誤差損失関数を応用した,Advantage-induced Policy Alignment (APA) と呼ばれる新しいアルゴリズムによって緩和可能であることを示す。 我々は,APAが言語タスクにおいて,個別の報酬モデルを用いて評価を行う場合,PPOをはるかに上回っていることを示す。 さらに、PPOと比較して、APAはモデルの初期ポリシーからの逸脱をより安定した制御形態を提供し、決定論的出力に崩壊することなく、モデルの性能を向上させる。 実験結果に加えて,損失関数の設計を支援する理論的正当性も提供する。

Reinforcement learning from human feedback (RLHF) has emerged as a reliable approach to aligning large language models (LLMs) to human preferences. Among the plethora of RLHF techniques, proximal policy optimization (PPO) is of the most widely used methods. Despite its popularity, however, PPO may suffer from mode collapse, instability, and poor sample efficiency. We show that these issues can be alleviated by a novel algorithm that we refer to as Advantage-Induced Policy Alignment (APA), which leverages a squared error loss function based on the estimated advantages. We demonstrate empirically that APA consistently outperforms PPO in language tasks by a large margin, when a separate reward model is employed as the evaluator. In addition, compared with PPO, APA offers a more stable form of control over the deviation from the model's initial policy, ensuring that the model improves its performance without collapsing to deterministic output. In addition to empirical results, we also provide a theoretical justification supporting the design of our loss function.
翻訳日:2023-06-08 11:08:36 公開日:2023-06-06
# 歯科におけるコーンビームctのためのai技術:その動向と実践

AI Techniques for Cone Beam Computed Tomography in Dentistry: Trends and Practices ( http://arxiv.org/abs/2306.03025v2 )

ライセンス: Link先を確認
Saba Sarwar, Suraiya Jabin(参考訳) コーンビームCT (CBCT) は, 歯, 顎骨, 周辺構造物の詳細な3次元画像を作成する能力を備えた, 各種口腔疾患の診断と治療計画のための歯科治療において, 一般的な画像モダリティである。 cbctイメージングは歯科医療における必須診断ツールである。 CBCTイメージングは、最新の人工知能(AI)技術の発展とともに、診断値、精度と効率の面で大幅に改善されている。 本稿では歯科用CBCT画像における最近のAIの動向と実践について述べる。 cbct画像を用いた病変の検出、咬合分類、頬骨厚の測定、歯、歯槽骨、下顎骨、ランドマーク、輪郭、咽頭気道の分類と分割にaiが用いられてきた。 主に機械学習アルゴリズム、ディープラーニングアルゴリズム、および超解像技術がこれらのタスクに使用される。 本稿では,歯科におけるCBCT画像の変換におけるAI技術の可能性に注目し,診断と治療計画の改善を図る。 最後に,歯科およびCBCT画像における人工知能の課題と限界について論じる。

Cone-beam computed tomography (CBCT) is a popular imaging modality in dentistry for diagnosing and planning treatment for a variety of oral diseases with the ability to produce detailed, three-dimensional images of the teeth, jawbones, and surrounding structures. CBCT imaging has emerged as an essential diagnostic tool in dentistry. CBCT imaging has seen significant improvements in terms of its diagnostic value, as well as its accuracy and efficiency, with the most recent development of artificial intelligence (AI) techniques. This paper reviews recent AI trends and practices in dental CBCT imaging. AI has been used for lesion detection, malocclusion classification, measurement of buccal bone thickness, and classification and segmentation of teeth, alveolar bones, mandibles, landmarks, contours, and pharyngeal airways using CBCT images. Mainly machine learning algorithms, deep learning algorithms, and super-resolution techniques are used for these tasks. This review focuses on the potential of AI techniques to transform CBCT imaging in dentistry, which would improve both diagnosis and treatment planning. Finally, we discuss the challenges and limitations of artificial intelligence in dentistry and CBCT imaging.
翻訳日:2023-06-08 10:59:07 公開日:2023-06-06
# Denise:正の半定値行列に対する深いロバスト成分分析

Denise: Deep Robust Principal Component Analysis for Positive Semidefinite Matrices ( http://arxiv.org/abs/2004.13612v4 )

ライセンス: Link先を確認
Calypso Herrera, Florian Krach, Anastasis Kratsios, Pierre Ruyssen, Josef Teichmann(参考訳) 共分散行列のロバストPCAは、重要な説明的特徴を分離する際に重要な役割を果たす。 そのような低ランク+スパース分解を実行するための現在利用可能な方法はマトリックス固有であり、つまり、これらのアルゴリズムは新しいマトリックスごとに再実行する必要がある。 これらのアルゴリズムは計算コストが高いため、評価時にほぼ瞬時にこの分解を行う関数を学習して保存することが好ましい。 そこで我々は,共分散行列の頑健なPCA(あるいはより一般的には対称正の半定値行列)の深層学習に基づくアルゴリズムであるDeniseを紹介し,その関数を正確に学習する。 デニスの理論的保証が提供される。 これらは、我々の幾何学的深層学習問題に適応した新しい普遍近似定理と学習問題の最適解への収束を含む。 私たちの実験では、deniseは分解品質の点で最先端のパフォーマンスにマッチすると同時に、最先端のprincipal component pursuit(pcp)よりも約2000\times$、現在の速度最適化手法であるfast pcpよりも200 \times$高速であることが示された。

The robust PCA of covariance matrices plays an essential role when isolating key explanatory features. The currently available methods for performing such a low-rank plus sparse decomposition are matrix specific, meaning, those algorithms must re-run for every new matrix. Since these algorithms are computationally expensive, it is preferable to learn and store a function that nearly instantaneously performs this decomposition when evaluated. Therefore, we introduce Denise, a deep learning-based algorithm for robust PCA of covariance matrices, or more generally, of symmetric positive semidefinite matrices, which learns precisely such a function. Theoretical guarantees for Denise are provided. These include a novel universal approximation theorem adapted to our geometric deep learning problem and convergence to an optimal solution to the learning problem. Our experiments show that Denise matches state-of-the-art performance in terms of decomposition quality, while being approximately $2000\times$ faster than the state-of-the-art, principal component pursuit (PCP), and $200 \times$ faster than the current speed-optimized method, fast PCP.
翻訳日:2023-06-08 00:27:39 公開日:2023-06-06
# 論理指導による認証強化学習

Certified Reinforcement Learning with Logic Guidance ( http://arxiv.org/abs/1902.00778v4 )

ライセンス: Link先を確認
Hosein Hasanbeig, Daniel Kroening, Alessandro Abate(参考訳) 強化学習(rl)は、さまざまな制御問題に適用された、広く使用されている機械学習アーキテクチャである。 しかしながら、安全クリティカルなドメインのアプリケーションは、要求をタスクや目標として指定するための体系的で形式的なアプローチを必要とする。 線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。 与えられたLTL特性は、リミット決定論的一般化Buchi Automaton (LDGBA) に変換され、その後、オンザフライで同期報酬関数を形成する。 特定の仮定の下では、アルゴリズムは最大確率でltl仕様を満たすトレースを持つ制御ポリシーを合成することが保証される。

Reinforcement Learning (RL) is a widely employed machine learning architecture that has been applied to a variety of control problems. However, applications in safety-critical domains require a systematic and formal approach to specifying requirements as tasks or goals. We propose a model-free RL algorithm that enables the use of Linear Temporal Logic (LTL) to formulate a goal for unknown continuous-state/action Markov Decision Processes (MDPs). The given LTL property is translated into a Limit-Deterministic Generalised Buchi Automaton (LDGBA), which is then used to shape a synchronous reward function on-the-fly. Under certain assumptions, the algorithm is guaranteed to synthesise a control policy whose traces satisfy the LTL specification with maximal probability.
翻訳日:2023-06-08 00:27:05 公開日:2023-06-06
# 直交統計的学習

Orthogonal Statistical Learning ( http://arxiv.org/abs/1901.09036v4 )

ライセンス: Link先を確認
Dylan J. Foster and Vasilis Syrgkanis(参考訳) 対象パラメータを評価する人口リスクが、データから推定しなければならない未知の迷惑パラメータに依存する場合において、統計的学習のための非漸近的過剰リスク保証を提供する。 目的パラメータとニュアンスパラメータの任意の推定アルゴリズムを入力とするメタアルゴリズムを2段階に分けて解析する。 人口リスクがネイマン直交性(Neyman orthogonality)と呼ばれる条件を満たす場合,メタアルゴリズムによって達成される過剰リスクに対するニュアンス推定誤差の影響は2次であることを示す。 我々の定理は、ターゲットとニュアンスに使用される特定のアルゴリズムに非依存であり、個々の性能についてのみ仮定する。 これにより、マシンラーニングによる既存の結果を大量に使用することで、迷惑コンポーネントによる学習に対する新たな保証が可能になる。 さらに,パラメータ推定よりも過剰なリスクに注目することで,従来よりも弱い仮定下での確率を提示し,対象パラメータが複雑な非パラメトリッククラスに属する設定を適応させることができる。 私たちは、迷惑パラメータが達成されたと知っていれば、oracleレートが同じ順序になるように、迷惑パラメータとターゲットクラスのメトリックエントロピーに関する条件を提供します。

We provide non-asymptotic excess risk guarantees for statistical learning in a setting where the population risk with respect to which we evaluate the target parameter depends on an unknown nuisance parameter that must be estimated from data. We analyze a two-stage sample splitting meta-algorithm that takes as input arbitrary estimation algorithms for the target parameter and nuisance parameter. We show that if the population risk satisfies a condition called Neyman orthogonality, the impact of the nuisance estimation error on the excess risk bound achieved by the meta-algorithm is of second order. Our theorem is agnostic to the particular algorithms used for the target and nuisance and only makes an assumption on their individual performance. This enables the use of a plethora of existing results from machine learning to give new guarantees for learning with a nuisance component. Moreover, by focusing on excess risk rather than parameter estimation, we can provide rates under weaker assumptions than in previous works and accommodate settings in which the target parameter belongs to a complex nonparametric class. We provide conditions on the metric entropy of the nuisance and target classes such that oracle rates of the same order as if we knew the nuisance parameter are achieved.
翻訳日:2023-06-08 00:26:51 公開日:2023-06-06
# ガウス誤差線形ユニット(GELU)

Gaussian Error Linear Units (GELUs) ( http://arxiv.org/abs/1606.08415v5 )

ライセンス: Link先を確認
Dan Hendrycks and Kevin Gimpel(参考訳) 本稿では,高性能ニューラルネットワーク活性化機能であるGaussian Error Linear Unit (GELU)を提案する。 GELU の活性化関数は $x\Phi(x)$ であり、$\Phi(x)$ は標準ガウス累積分布関数である。 GELUの非線形性は、ReLUs(x\mathbf{1}_{x>0}$)のようにゲートの入力よりも、その値によって入力される。 GELUの非線形性をReLUとELUのアクティベーションに対して実証的に評価し,コンピュータビジョン,自然言語処理,音声タスクにまたがる性能改善について検討した。

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $x\Phi(x)$, where $\Phi(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.
翻訳日:2023-06-08 00:26:30 公開日:2023-06-06
# 巨視的非古典性とカシミールの絡み合いをテストするための超空間量子ビット

Massive Spatial Qubits for Testing Macroscopic Nonclassicality and Casimir Induced Entanglement ( http://arxiv.org/abs/2106.11906v3 )

ライセンス: Link先を確認
Bin Yi, Urbasi Sinha, Dipankar Home, Anupam Mazumdar, Sougato Bose(参考訳) 物理学におけるオープンな課題は、マクロな物体の質量状態の中心の非古典性によって量子力学の妥当性のフロンティアを広げることである。 しかし、同様に重要な課題は、マクロな物体間で作用する相互作用の本質的な非古典性を証明することである。 ここでは、これらの課題を満たすための新しいツールを紹介する。 特に、質量の2つの異なる局所化状態が、量子ビットの$|0\rangle$と$|1\rangle$の状態として使われる場合、この符号化された空間量子ビットを $\sigma_x, \sigma_y$ と $\sigma_z$ の高忠実度で測定することができる。 本研究では, ナノ結晶の質量中心とスピンとの絡み合いから生じるベル不等式違反により, 既約非古典性を明らかにする方法を示す。 第二に、我々の手法はカシミール相互作用と共役して、2つの中性ナノオブジェクト間の非ガウス的絡み合いを創造し、証明する強力な方法を提供する。 基本的に、そのような絡み合いの発生は、カシミール相互作用の固有量子性を示すための経験的手段を与える。

An open challenge in physics is to expand the frontiers of the validity of quantum mechanics by evidencing nonclassicality of the centre of mass state of a macroscopic object. Yet another equally important task is to evidence the essential nonclassicality of the interactions which act between macroscopic objects. Here we introduce a new tool to meet these challenges: massive spatial qubits. In particular, we show that if two distinct localized states of a mass are used as the $|0\rangle$ and $|1\rangle$ states of a qubit, then we can measure this encoded spatial qubit with a high fidelity in the $\sigma_x, \sigma_y$ and $\sigma_z$ bases simply by measuring its position after different durations of free evolution. We show how this technique can be used to reveal an irreducible nonclassicality through a Bell-inequality violation arising from the entanglement of the centre of mass of a nano-crystal with its spin in a Stern-Gerlach setup. Secondly, we show how our methodology, in conjuction with the Casimir interaction, offers a powerful method to create and certify non-Gaussian entanglement between two neutral nano-objects. Fundamentally, the generation of such an entanglement provides an empirical means for demonstrating an inherent quantumness of the Casimir interaction.
翻訳日:2023-06-08 00:23:29 公開日:2023-06-06
# 魚眼カメラを用いた低速車両自動化のための近接場認識

Near-field Perception for Low-Speed Vehicle Automation using Surround-view Fisheye Cameras ( http://arxiv.org/abs/2103.17001v4 )

ライセンス: Link先を確認
Ciaran Eising, Jonathan Horgan and Senthil Yogamani(参考訳) カメラは自動走行システムの主要なセンサーである。 高い情報密度を提供し、人間の視覚のために配置された道路インフラの手がかりを検出するのに最適である。 サラウンドビューカメラシステムは通常、4つの魚眼カメラと190の視野を持つカメラで構成されており、車体周辺の360{\deg}全体をカバーする。 これらは、自動駐車、交通渋滞支援、低速緊急ブレーキといった、低速度、高精度、および近距離感知アプリケーションの主要なセンサーである。 本研究では,このようなビジョンシステムの詳細な調査を行い,認識,再構築,再局在化,再編成という4つのモジュールコンポーネントに分解可能なアーキテクチャの文脈で調査を行う。 これを4Rアーキテクチャと呼んでいます。 我々は,各コンポーネントが特定の側面を達成する方法について論じ,低速自動化のための完全な認識システムを構築するために相乗化できるという位置論を提供する。 我々は,先行研究の結果を提示し,そのシステムに対するアーキテクチャの提案を提示することにより,この議論を支持する。 質的な結果は https://youtu.be/ae8bcof77uy.com で発表されている。

Cameras are the primary sensor in automated driving systems. They provide high information density and are optimal for detecting road infrastructure cues laid out for human vision. Surround-view camera systems typically comprise of four fisheye cameras with 190{\deg}+ field of view covering the entire 360{\deg} around the vehicle focused on near-field sensing. They are the principal sensors for low-speed, high accuracy, and close-range sensing applications, such as automated parking, traffic jam assistance, and low-speed emergency braking. In this work, we provide a detailed survey of such vision systems, setting up the survey in the context of an architecture that can be decomposed into four modular components namely Recognition, Reconstruction, Relocalization, and Reorganization. We jointly call this the 4R Architecture. We discuss how each component accomplishes a specific aspect and provide a positional argument that they can be synergized to form a complete perception system for low-speed automation. We support this argument by presenting results from previous works and by presenting architecture proposals for such a system. Qualitative results are presented in the video at https://youtu.be/ae8bCOF77uY.
翻訳日:2023-06-08 00:23:02 公開日:2023-06-06
# オンラインプラットフォームで有害コンテンツを検出する: 研究が進むべきプラットフォーム

Detecting Harmful Content On Online Platforms: What Platforms Need Vs. Where Research Efforts Go ( http://arxiv.org/abs/2103.00153v2 )

ライセンス: Link先を確認
Arnav Arora, Preslav Nakov, Momchil Hardalov, Sheikh Muhammad Sarwar, Vibha Nayak, Yoan Dinkov, Dimitrina Zlatkova, Kyle Dent, Ameya Bhatawdekar, Guillaume Bouchard, Isabelle Augenstein(参考訳) オンラインプラットフォーム上で有害なコンテンツの拡散は、ヘイトスピーチ、攻撃的言語、いじめとハラスメント、誤情報、スパム、暴力、グラフィックコンテンツ、性的虐待、自己害など、さまざまな形で発生する大きな社会問題である。 オンラインプラットフォームは、そのようなコンテンツを、社会的危害の制限、法律の遵守、ユーザーのためのより包括的な環境の創出に向け、緩和しようとしている。 研究者は、有害なコンテンツを自動的に検出する様々な方法を開発し、しばしば特定のサブプロブレムや狭いコミュニティに焦点を当てている。 現在、オンラインプラットフォームが抑制しようとしている有害コンテンツの種類と、そのようなコンテンツを自動的に検出するための研究努力との間には、二分法がある、と我々は主張する。 そこで本研究では,オンラインプラットフォームによる既存手法とコンテンツモデレーションポリシーを調査し,今後の課題への方向性を提案する。

The proliferation of harmful content on online platforms is a major societal problem, which comes in many different forms including hate speech, offensive language, bullying and harassment, misinformation, spam, violence, graphic content, sexual abuse, self harm, and many other. Online platforms seek to moderate such content to limit societal harm, to comply with legislation, and to create a more inclusive environment for their users. Researchers have developed different methods for automatically detecting harmful content, often focusing on specific sub-problems or on narrow communities, as what is considered harmful often depends on the platform and on the context. We argue that there is currently a dichotomy between what types of harmful content online platforms seek to curb, and what research efforts there are to automatically detect such content. We thus survey existing methods as well as content moderation policies by online platforms in this light and we suggest directions for future work.
翻訳日:2023-06-08 00:22:45 公開日:2023-06-06
# omnidet: サラウンドビューカメラを用いた自律運転のためのマルチタスク視覚知覚ネットワーク

OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving ( http://arxiv.org/abs/2102.07448v3 )

ライセンス: Link先を確認
Varun Ravi Kumar, Senthil Yogamani, Hazem Rashed, Ganesh Sistu, Christian Witt, Isabelle Leang, Stefan Milz and Patrick M\"ader(参考訳) 周囲の魚眼カメラは360\deg{}の近接場検知のための自動走行に一般的に配備される。 本研究は、未修正魚眼画像のマルチタスク視覚知覚ネットワークを提供し、車両が周囲の環境を感知できるようにする。 自律走行システムに必要な6つの主要なタスクで構成されており、深度推定、視覚計測、セマンティックセグメンテーション、モーションセグメンテーション、物体検出、レンズ土壌検出である。 共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。 我々のマルチタスクモデルは共有エンコーダを備えており、タスクが互いにサポートする相乗化デコーダを備えている。 そこで本研究では,魚眼の歪みモデルをトレーニングと推論の両方でエンコードする,新しいカメラ形状に基づく適応機構を提案する。 これは3台の異なる車に搭載された12台の異なるカメラによって収集された世界のさまざまな場所のデータからなるウッドスケープデータセットのトレーニングを可能にするために重要だった。 拘束箱が歪んだ魚眼画像の表現に適さないことを考えると、物体検出も一様でないサンプルの頂点を持つポリゴンを使用するように拡張する。 我々はまた、KITTIやCityscapesといった標準の自動車データセットでモデルを評価する。 我々は,KITTIを用いて,深度推定タスクとポーズ推定タスクと,他のタスクの競合性能を比較検討した。 我々は様々なアーキテクチャの選択とタスク重み付け手法に関する広範囲なアブレーション研究を行う。 https://youtu.be/xbSjZ5OfPesの短いビデオは質的な結果を提供している。

Surround View fisheye cameras are commonly deployed in automated driving for 360\deg{} near-field sensing around the vehicle. This work presents a multi-task visual perception network on unrectified fisheye images to enable the vehicle to sense its surrounding environment. It consists of six primary tasks necessary for an autonomous driving system: depth estimation, visual odometry, semantic segmentation, motion segmentation, object detection, and lens soiling detection. We demonstrate that the jointly trained model performs better than the respective single task versions. Our multi-task model has a shared encoder providing a significant computational advantage and has synergized decoders where tasks support each other. We propose a novel camera geometry based adaptation mechanism to encode the fisheye distortion model both at training and inference. This was crucial to enable training on the WoodScape dataset, comprised of data from different parts of the world collected by 12 different cameras mounted on three different cars with different intrinsics and viewpoints. Given that bounding boxes is not a good representation for distorted fisheye images, we also extend object detection to use a polygon with non-uniformly sampled vertices. We additionally evaluate our model on standard automotive datasets, namely KITTI and Cityscapes. We obtain the state-of-the-art results on KITTI for depth estimation and pose estimation tasks and competitive performance on the other tasks. We perform extensive ablation studies on various architecture choices and task weighting methodologies. A short video at https://youtu.be/xbSjZ5OfPes provides qualitative results.
翻訳日:2023-06-08 00:22:19 公開日:2023-06-06
# teyed: 瞳孔, まぶた, iris 2dおよび3dセグメンテーション, 2dおよび3dランドマーク, 3d眼球, 視線ベクトル, 眼球運動タイプによる2000万以上の実世界の眼球画像

TEyeD: Over 20 million real-world eye images with Pupil, Eyelid, and Iris 2D and 3D Segmentations, 2D and 3D Landmarks, 3D Eyeball, Gaze Vector, and Eye Movement Types ( http://arxiv.org/abs/2102.02115v3 )

ライセンス: Link先を確認
Wolfgang Fuhl and Gjergji Kasneci and Enkelejda Kasneci(参考訳) TEyeDは、ヘッドマウントデバイスで撮影された、世界最大のアイ画像集合である。 TEyeDは7つの異なるヘッドマウントアイトラッカーで買収された。 そのうち2つのアイトラッカーは、仮想現実(VR)または拡張現実(AR)デバイスに統合された。 TEyeDの画像は、カーライディング、シミュレーターライディング、屋外スポーツ活動、日々の屋内活動など様々なタスクから得られた。 データセットには、2Dおよび3Dランドマーク、セマンティックセグメンテーション、3Dアイボールアノテーション、全画像の視線ベクトルと眼球運動タイプが含まれる。 目印と意味的なセグメンテーションは、瞳孔、虹彩、まぶたに提供される。 ビデオの長さは数分から数時間である。 TEyeDは2000万以上の注意深い注釈付き画像とともに、ユニークなコヒーレントなリソースを提供し、現代のVRおよびARアプリケーションにおけるコンピュータビジョン、視線追跡、および視線推定の分野で研究を進めるための貴重な基盤を提供する。 ダウンロード: FTP を TEyeDUser として、パスワードなしで Nephrit.cs.uni-tuebingen.de (ftp://nephrit.cs.uni-tuebingen.de) に接続する。

We present TEyeD, the world's largest unified public data set of eye images taken with head-mounted devices. TEyeD was acquired with seven different head-mounted eye trackers. Among them, two eye trackers were integrated into virtual reality (VR) or augmented reality (AR) devices. The images in TEyeD were obtained from various tasks, including car rides, simulator rides, outdoor sports activities, and daily indoor activities. The data set includes 2D and 3D landmarks, semantic segmentation, 3D eyeball annotation and the gaze vector and eye movement types for all images. Landmarks and semantic segmentation are provided for the pupil, iris and eyelids. Video lengths vary from a few minutes to several hours. With more than 20 million carefully annotated images, TEyeD provides a unique, coherent resource and a valuable foundation for advancing research in the field of computer vision, eye tracking and gaze estimation in modern VR and AR applications. Download: Just connect via FTP as user TEyeDUser and without password to nephrit.cs.uni-tuebingen.de (ftp://nephrit.cs.uni-tuebingen.de).
翻訳日:2023-06-08 00:21:57 公開日:2023-06-06
# オンラインミラー降下によるノンリグレットキャッシング

No-Regret Caching via Online Mirror Descent ( http://arxiv.org/abs/2101.12588v5 )

ライセンス: Link先を確認
T. Si Salem, G. Neglia and S. Ioannidis(参考訳) 本研究では,リモートサーバからの検索コストを回避するために,ローカルキャッシュで要求を処理できるオンラインキャッシング問題について検討する。 キャッシュは、リクエストのバッチ後に状態を更新し、各ファイルの任意に小さな部分を保存することができる。 オンラインミラー・ディクシブ(OMD)戦略に基づくノンレグレットアルゴリズムについて検討する。 本稿では,r がバッチのサイズであり,h が与えられたバッチにおける要求の最大重複度であるダイバーシティ比 r/h によって与えられる要求プロセスの多様性に,後悔の限度が決定的に依存することを示す。 我々は多様性の異なる体制下でのOMDキャッシュポリシーの最適性を特徴付ける。 また,キャッシュがファイル全体を保存する必要がある場合,更新コストを無視できない場合でも,不注意な保証を保持するランダムなラウンドリングスキームに,OMD戦略が組み合わさることも証明した。 最適輸送理論による丸め問題の形式的特徴付けを行い,さらに計算効率の高いランダム化丸めスキームを提案する。

We study an online caching problem in which requests can be served by a local cache to avoid retrieval costs from a remote server. The cache can update its state after a batch of requests and store an arbitrarily small fraction of each file. We study no-regret algorithms based on Online Mirror Descent (OMD) strategies. We show that bounds for the regret crucially depend on the diversity of the request process, provided by the diversity ratio R/h, where R is the size of the batch, and h is the maximum multiplicity of a request in a given batch. We characterize the optimality of OMD caching policies w.r.t. regret under different diversity regimes. We also prove that, when the cache must store the entire file, rather than a fraction, OMD strategies can be coupled with a randomized rounding scheme that preserves regret guarantees, even when update costs cannot be neglected. We provide a formal characterization of the rounding problem through optimal transport theory, and moreover we propose a computationally efficient randomized rounding scheme.
翻訳日:2023-06-08 00:21:33 公開日:2023-06-06
# ディープシリアルナンバー:DNN知的財産保護のための計算透かし

Deep Serial Number: Computational Watermarking for DNN Intellectual Property Protection ( http://arxiv.org/abs/2011.08960v2 )

ライセンス: Link先を確認
Ruixiang Tang, Mengnan Du, Xia Hu(参考訳) 本稿では,ディープニューラルネットワーク(DNN)に特化した簡易かつ効果的な透かしアルゴリズムであるDSN(Deep Serial Number)を提案する。 DNNに識別信号を組み込む従来の手法とは異なり、我々はDNNの知的財産権(IP)保護機構を探索し、敵の盗難ネットワークの使用を効果的に阻止する。 従来のソフトウェアIPの保護におけるシリアル番号の成功に触発されて,DNNに埋め込まれたシリアル番号の最初の実装を提案する。 これを実現するために、DSNは知識蒸留フレームワークに統合され、個人教師DNNが最初に訓練される。 その後、その知識は蒸留され、一連のカスタマイズされた学生DNNに付与される。 各顧客DNNは、有効なシリアル番号の入力時にのみ正しく機能する。 各種アプリケーションにまたがる実験結果から、元のDNN性能を損なうことなく、DSNが不正使用を防止する効果が示された。 さらに実験により、DSNは異なるカテゴリーのウォーターマーク攻撃に耐性があることが示されている。

In this paper, we present DSN (Deep Serial Number), a simple yet effective watermarking algorithm designed specifically for deep neural networks (DNNs). Unlike traditional methods that incorporate identification signals into DNNs, our approach explores a novel Intellectual Property (IP) protection mechanism for DNNs, effectively thwarting adversaries from using stolen networks. Inspired by the success of serial numbers in safeguarding conventional software IP, we propose the first implementation of serial number embedding within DNNs. To achieve this, DSN is integrated into a knowledge distillation framework, in which a private teacher DNN is initially trained. Subsequently, its knowledge is distilled and imparted to a series of customized student DNNs. Each customer DNN functions correctly only upon input of a valid serial number. Experimental results across various applications demonstrate DSN's efficacy in preventing unauthorized usage without compromising the original DNN performance. The experiments further show that DSN is resistant to different categories of watermark attacks.
翻訳日:2023-06-08 00:20:54 公開日:2023-06-06
# 構造化連続スパルシフィケーションによる高効率深層ネットワークの構築

Growing Efficient Deep Networks by Structured Continuous Sparsification ( http://arxiv.org/abs/2007.15353v2 )

ライセンス: Link先を確認
Xin Yuan, Pedro Savarese, Michael Maire(参考訳) 我々は、トレーニングの過程で深層ネットワークアーキテクチャを成長させるアプローチを開発し、精度と疎性目的の原則的な組み合わせによって駆動する。 フルサイズのモデルやスーパーネットアーキテクチャで動作する既存のプルーニングやアーキテクチャ検索技術とは異なり、我々の手法は小さくシンプルなシードアーキテクチャから始まり、動的に成長し、層とフィルタの両方を熟成することができる。 離散的ネットワーク構造最適化の連続緩和とスパースサブネットワークサンプリングのスキームを組み合わせることで、コンパクトな刈り込みネットワークを構築し、同時に、トレーニングの計算コストを大幅に削減する。 例えば、イメージネットのベースラインであるresnet-50と比較して、49.7\%$の推論フロップと47.4\%のトレーニングフラップの節約を達成し、75.2\%$ top-1の精度を維持しています。 CIFAR, ImageNet, PASCAL VOC, Penn Treebank, 画像分類とセマンティックセグメンテーションのための畳み込みネットワーク, および言語モデリングのための繰り返しネットワークを用いた実験により, 競合するアーキテクチャ・プルーニングや検索手法よりも高速かつ効率的なネットワークを創出できることが実証された。

We develop an approach to growing deep network architectures over the course of training, driven by a principled combination of accuracy and sparsity objectives. Unlike existing pruning or architecture search techniques that operate on full-sized models or supernet architectures, our method can start from a small, simple seed architecture and dynamically grow and prune both layers and filters. By combining a continuous relaxation of discrete network structure optimization with a scheme for sampling sparse subnetworks, we produce compact, pruned networks, while also drastically reducing the computational expense of training. For example, we achieve $49.7\%$ inference FLOPs and $47.4\%$ training FLOPs savings compared to a baseline ResNet-50 on ImageNet, while maintaining $75.2\%$ top-1 accuracy -- all without any dedicated fine-tuning stage. Experiments across CIFAR, ImageNet, PASCAL VOC, and Penn Treebank, with convolutional networks for image classification and semantic segmentation, and recurrent networks for language modeling, demonstrate that we both train faster and produce more efficient networks than competing architecture pruning or search methods.
翻訳日:2023-06-08 00:20:38 公開日:2023-06-06
# UnRectDepthNet:共通カメラ歪みモデル処理のためのジェネリックフレームワークを用いた自己監督単眼深度推定

UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models ( http://arxiv.org/abs/2007.06676v4 )

ライセンス: Link先を確認
Varun Ravi Kumar, Senthil Yogamani, Markus Bach, Christian Witt, Stefan Milz and Patrick Mader(参考訳) 古典的コンピュータビジョンでは、整流は多視点深度推定の不可欠な部分である。 典型的には、エピポーラ補正とレンズ歪み補正を含む。 このプロセスは深さ推定を大幅に単純化し、cnnのアプローチで採用されている。 しかし、修正には、視野の縮小(FOV)、再サンプリング歪み、校正誤差に対する感度など、いくつかの副作用がある。 この効果は特に大きな歪み(広角魚眼カメラなど)の場合には顕著に発音される。 本稿では,非再現単眼映像から深さ,ユークリッド距離,視覚オドメトリを推定する汎用的なスケールアウェア自己教師付きパイプラインを提案する。 補正されたKITTIデータセットと同等のバレル歪みを有する未修正KITTIデータセットに対して、同様の精度を示す。 補正ステップがCNNモデルに暗黙的に吸収されるという直感は、複雑さを増すことなく歪みモデルを学習する。 提案手法は視野の縮小に悩まされず,推論時の修正に要する計算コストを回避する。 提案フレームワークの汎用性をさらに説明するために,190$^\circ$水平視野を持つ広角魚眼カメラに適用する。 トレーニングフレームワークUnRectDepthNetは、カメラ歪みモデルを引数として取り込んで、プロジェクションとアンプロジェクション機能を適用する。 提案アルゴリズムはkitti正規化データセット上でさらに評価され,これまでのfisheye distancenetの成果を改良した最新結果が得られる。 歪んだテストシーンのビデオシーケンスの質的な結果は、優れたパフォーマンス https://youtu.be/K6pbx3bU4Ssを示している。

In classical computer vision, rectification is an integral part of multi-view depth estimation. It typically includes epipolar rectification and lens distortion correction. This process simplifies the depth estimation significantly, and thus it has been adopted in CNN approaches. However, rectification has several side effects, including a reduced field of view (FOV), resampling distortion, and sensitivity to calibration errors. The effects are particularly pronounced in case of significant distortion (e.g., wide-angle fisheye cameras). In this paper, we propose a generic scale-aware self-supervised pipeline for estimating depth, euclidean distance, and visual odometry from unrectified monocular videos. We demonstrate a similar level of precision on the unrectified KITTI dataset with barrel distortion comparable to the rectified KITTI dataset. The intuition being that the rectification step can be implicitly absorbed within the CNN model, which learns the distortion model without increasing complexity. Our approach does not suffer from a reduced field of view and avoids computational costs for rectification at inference time. To further illustrate the general applicability of the proposed framework, we apply it to wide-angle fisheye cameras with 190$^\circ$ horizontal field of view. The training framework UnRectDepthNet takes in the camera distortion model as an argument and adapts projection and unprojection functions accordingly. The proposed algorithm is evaluated further on the KITTI rectified dataset, and we achieve state-of-the-art results that improve upon our previous work FisheyeDistanceNet. Qualitative results on a distorted test scene video sequence indicate excellent performance https://youtu.be/K6pbx3bU4Ss.
翻訳日:2023-06-08 00:20:14 公開日:2023-06-06
# ハイブリッド量子古典探索アルゴリズム

Hybrid Quantum-Classical Search Algorithms ( http://arxiv.org/abs/2202.11443v2 )

ライセンス: Link先を確認
Ansis Rosmanis(参考訳) 探索は量子アルゴリズム設計において最もよく使われるプリミティブの1つである。 グロバーのアルゴリズムによる二次的なスピードアップは最適であり、探索のための高速な量子アルゴリズムは存在しないことが知られている。 少なくともいくつかの量子計算がこれらのスピードアップを達成するために必要であることが知られているが、既存の境界は計算の大半が古典的である等速なハイブリッド量子古典アルゴリズムの可能性を排除していない。 本研究では,このようなハイブリッドアルゴリズムについて検討し,古典計算が検索問題を解けない限り,量子計算を補助できないことを示す。 さらに,この結果を,確率的な成功確率を持つアルゴリズムに一般化する。

Search is one of the most commonly used primitives in quantum algorithm design. It is known that quadratic speedups provided by Grover's algorithm are optimal, and no faster quantum algorithms for Search exist. While it is known that at least some quantum computation is required to achieve these speedups, the existing bounds do not rule out the possibility of an equally fast hybrid quantum-classical algorithm where most of the computation is classical. In this work, we study such hybrid algorithms and we show that classical computation, unless it by itself can solve the Search problem, cannot assist quantum computation. In addition, we generalize this result to algorithms with subconstant success probabilities.
翻訳日:2023-06-08 00:12:03 公開日:2023-06-06
# 量子エミッタと光場間のエネルギー伝達に関する実験的研究

Experimental analysis of energy transfers between a quantum emitter and light fields ( http://arxiv.org/abs/2202.01109v3 )

ライセンス: Link先を確認
I. Maillette de Buy Wenniger, S. E. Thomas, M. Maffei, S. C. Wein, M. Pont, N. Belabas, S. Prasad, A. Harouri, A. Lema\^itre, I. Sagnes, N. Somaschi, A. Auff\`eves, P. Senellart(参考訳) 量子系間のエネルギー伝達は、効果的なユニタリ相互作用または絡み合いの生成によって達成できる。 この観測は、ユニタリエネルギーと相関エネルギーの2種類のエネルギー交換を定義する。 本稿では、量子エミッタと光場の相互作用においてこれらのエネルギー移動にアクセスするための実験プロトコルを提案し、実装する。 自発的な放出を行うと、エミッタから光界へのユニタリエネルギー移動を測定し、全エネルギーの半分を超えず、デコヒーレンスを導入すると減少することを示す。 次に、ビームスプリッタにおける放射体とレーザー場の干渉を研究し、エネルギー移動が放射体の量子純度に定量的に依存していることを示す。

Energy transfer between quantum systems can either be achieved through an effective unitary interaction or through the generation of entanglement. This observation defines two types of energy exchange: unitary and correlation energy. Here we propose and implement experimental protocols to access these energy transfers in interactions between a quantum emitter and light fields. Upon spontaneous emission, we measure the unitary energy transfer from the emitter to the optical field and show that it never exceeds half of the total energy and is reduced when introducing decoherence. We then study the interference of the emitted field and a laser field at a beam splitter and show that the energy transfers quantitatively depend on the quantum purity of the emitted field.
翻訳日:2023-06-08 00:11:32 公開日:2023-06-06
# 変分深部画像を用いたブラインド画像デコンボリューション

Blind Image Deconvolution Using Variational Deep Image Prior ( http://arxiv.org/abs/2202.00179v3 )

ライセンス: Link先を確認
Dong Huo, Abbas Masoumzadeh, Rafsanjany Kushol, Yee-Hong Yang(参考訳) 従来のデコンボリューション法は、最適化を制約するために手作りのイメージプリエントを用いる。 ディープラーニングベースの手法では、エンドツーエンドトレーニングによる最適化が簡略化されているが、トレーニングデータセットで目に見えないぼやけにうまく一般化できていない。 したがって、画像固有モデルの訓練は、より高い一般化のために重要である。 Deep Image prior (DIP) は、1つの劣化した画像でランダムに初期化されたネットワークの重みを最大化して最適化する手法を提供する。 統計的に得られた従来の手作り画像と異なり、画像と対応するネットワークアーキテクチャの関係が不明確であるため、適切なネットワークアーキテクチャを見つけることは困難である。 その結果、ネットワークアーキテクチャは潜在シャープイメージに対して十分な制約を与えることができない。 本稿では,潜在シャープ画像に対する手作り画像の付加的プリエントを活用し,サブ最適解を避けるために各画素の分布を近似するブラインド画像デコンボリューションのための新しい変分深画像プリレント(vdip)を提案する。 数理解析の結果,提案手法は最適化をよりよく制約できることがわかった。 実験の結果, 生成した画像は, ベンチマークデータセットの元々のディップよりも品質が良いことがわかった。 VDIPのソースコードはhttps://github.com/Dong-Huo/VDIP-Deconvolutionで公開されています。

Conventional deconvolution methods utilize hand-crafted image priors to constrain the optimization. While deep-learning-based methods have simplified the optimization by end-to-end training, they fail to generalize well to blurs unseen in the training dataset. Thus, training image-specific models is important for higher generalization. Deep image prior (DIP) provides an approach to optimize the weights of a randomly initialized network with a single degraded image by maximum a posteriori (MAP), which shows that the architecture of a network can serve as the hand-crafted image prior. Different from the conventional hand-crafted image priors that are statistically obtained, it is hard to find a proper network architecture because the relationship between images and their corresponding network architectures is unclear. As a result, the network architecture cannot provide enough constraint for the latent sharp image. This paper proposes a new variational deep image prior (VDIP) for blind image deconvolution, which exploits additive hand-crafted image priors on latent sharp images and approximates a distribution for each pixel to avoid suboptimal solutions. Our mathematical analysis shows that the proposed method can better constrain the optimization. The experimental results further demonstrate that the generated images have better quality than that of the original DIP on benchmark datasets. The source code of our VDIP is available at https://github.com/Dong-Huo/VDIP-Deconvolution.
翻訳日:2023-06-08 00:11:19 公開日:2023-06-06
# 適応サンプリングによるL-SVRGとL-Katyusha

L-SVRG and L-Katyusha with Adaptive Sampling ( http://arxiv.org/abs/2201.13387v3 )

ライセンス: Link先を確認
Boxin Zhao, Boxiang Lyu, Mladen Kolar(参考訳) L-SVRGやその加速変種であるL-Katyusha(Kovalev et al., 2020)のような確率勾配に基づく最適化手法は機械学習モデルの訓練に広く用いられており、L-SVRGとL-Katyushaの理論的および実証的な性能は、非一様分布(Qian et al., 2021)からの観測により改善することができる。 しかし、所望のサンプリング分布を設計するには、モデルパラメータの次元が高い場合、計算上は難解な滑らかさ定数の事前知識が必要である。 この問題に対処するために,L-SVRGとL-Katyushaの適応型サンプリング戦略を提案する。 サンプリング分布が反復的に変化するとき,L-SVRGとL-Katyushaの収束保証を凸目的に対して証明する。 その結果,事前情報がなくても適応的サンプリング戦略が一致し,場合によってはqian et al. (2021) のサンプリング方式の性能を超越する結果が得られた。 広範シミュレーションは実データに基づくサンプリング手法の本理論と実用性を支持する。

Stochastic gradient-based optimization methods, such as L-SVRG and its accelerated variant L-Katyusha (Kovalev et al., 2020), are widely used to train machine learning models.The theoretical and empirical performance of L-SVRG and L-Katyusha can be improved by sampling observations from a non-uniform distribution (Qian et al., 2021). However,designing a desired sampling distribution requires prior knowledge of smoothness constants, which can be computationally intractable to obtain in practice when the dimension of the model parameter is high. To address this issue, we propose an adaptive sampling strategy for L-SVRG and L-Katyusha that can learn the sampling distribution with little computational overhead, while allowing it to change with iterates, and at the same time does not require any prior knowledge of the problem parameters. We prove convergence guarantees for L-SVRG and L-Katyusha for convex objectives when the sampling distribution changes with iterates. Our results show that even without prior information, the proposed adaptive sampling strategy matches, and in some cases even surpasses, the performance of the sampling scheme in Qian et al. (2021). Extensive simulations support our theory and the practical utility of the proposed sampling scheme on real data.
翻訳日:2023-06-08 00:10:55 公開日:2023-06-06
# 行動特徴を用いた直感的政策の学習

Learning Intuitive Policies Using Action Features ( http://arxiv.org/abs/2201.12658v2 )

ライセンス: Link先を確認
Mingwei Ma, Jizhou Liu, Samuel Sokota, Max Kleiman-Weiner, Jakob Foerster(参考訳) マルチエージェント協調における未対応の課題は、aiエージェントがアクションの特徴と観察の特徴の間のセマンティックな関係を活用できるようにすることである。 人間はこれらの関係を極めて直感的な方法で活用する。 例えば、共有言語がない場合、欲しいオブジェクトを指さしたり、どれだけのオブジェクトが欲しいかを示すために指を持ち上げたりします。 この課題に対処するために,これらの意味的関係を利用する学習アルゴリズムの妥当性に及ぼすネットワークアーキテクチャの影響を検討する。 手続き的に生成された協調作業全体において、観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスを持つ。 詳細な評価とシナリオ分析を通じて,結果の方針が人間に解釈可能であることを示す。 また、このようなエージェントは、人間のデータをトレーニングすることなく、人々と協調する。

An unaddressed challenge in multi-agent coordination is to enable AI agents to exploit the semantic relationships between the features of actions and the features of observations. Humans take advantage of these relationships in highly intuitive ways. For instance, in the absence of a shared language, we might point to the object we desire or hold up our fingers to indicate how many objects we want. To address this challenge, we investigate the effect of network architecture on the propensity of learning algorithms to exploit these semantic relationships. Across a procedurally generated coordination task, we find that attention-based architectures that jointly process a featurized representation of observations and actions have a better inductive bias for learning intuitive policies. Through fine-grained evaluation and scenario analysis, we show that the resulting policies are human-interpretable. Moreover, such agents coordinate with people without training on any human data.
翻訳日:2023-06-08 00:10:30 公開日:2023-06-06
# 多クラス分類のためのラベル分布ロバスト損失:一貫性,ロバスト性,適応性

Label Distributionally Robust Losses for Multi-class Classification: Consistency, Robustness and Adaptivity ( http://arxiv.org/abs/2112.14869v3 )

ライセンス: Link先を確認
Dixian Zhu, Yiming Ying and Tianbao Yang(参考訳) 本研究では,分布的ロバスト最適化(dro)の観点から定式化した多クラス分類のためのラベル分散ロバスト(ldr)損失と呼ばれる損失関数の族について検討する。 この観点の利点はいくつかあります。 i) 古典的クロスエントロピー(CE)損失とSVM損失とその変種を説明する統一的なフレームワークを提供する。 (ii)広く採用されているが、よく理解されていない温度スケールのce損失に対応する特殊ファミリーを含む。 (iii)インスタンスレベルでラベル情報の不確実性度に適応することができる。 Our contributions include: (1) we study both consistency and robustness by establishing top-$k$ ($\forall k\geq 1$) consistency of LDR losses for multi-class classification, and a negative result that a top-$1$ consistent and symmetric robust loss cannot achieve top-$k$ consistency simultaneously for all $k\geq 2$; (2) we propose a new adaptive LDR loss that automatically adapts the individualized temperature parameter to the noise degree of class label of each instance; (3) we demonstrate stable and competitive performance for the proposed adaptive LDR loss on 7 benchmark datasets under 6 noisy label and 1 clean settings against 13 loss functions, and on one real-world noisy dataset. コードは \url{https://github.com/Optimization-AI/ICML2023_LDR} でオープンソース化されている。

We study a family of loss functions named label-distributionally robust (LDR) losses for multi-class classification that are formulated from distributionally robust optimization (DRO) perspective, where the uncertainty in the given label information are modeled and captured by taking the worse case of distributional weights. The benefits of this perspective are several fold: (i) it provides a unified framework to explain the classical cross-entropy (CE) loss and SVM loss and their variants, (ii) it includes a special family corresponding to the temperature-scaled CE loss, which is widely adopted but poorly understood; (iii) it allows us to achieve adaptivity to the uncertainty degree of label information at an instance level. Our contributions include: (1) we study both consistency and robustness by establishing top-$k$ ($\forall k\geq 1$) consistency of LDR losses for multi-class classification, and a negative result that a top-$1$ consistent and symmetric robust loss cannot achieve top-$k$ consistency simultaneously for all $k\geq 2$; (2) we propose a new adaptive LDR loss that automatically adapts the individualized temperature parameter to the noise degree of class label of each instance; (3) we demonstrate stable and competitive performance for the proposed adaptive LDR loss on 7 benchmark datasets under 6 noisy label and 1 clean settings against 13 loss functions, and on one real-world noisy dataset. The code is open-sourced at \url{https://github.com/Optimization-AI/ICML2023_LDR}.
翻訳日:2023-06-08 00:10:07 公開日:2023-06-06
# キャビティ-トランモン量子系におけるコヒーレント量子ビット計測

Coherent Qubit Measurement in Cavity-Transmon Quantum Systems ( http://arxiv.org/abs/2112.09272v3 )

ライセンス: Link先を確認
Massimo Porrati and Seth Putterman(参考訳) 量子ジャンプの間の時間の測定は、次のジャンプを測定する能力を意味する。 ジャンプの間、量子系は閉あるいはユニタリな方法では進化していない。 波動関数は位相コヒーレンスを維持するが、非エルミート有効ハミルトニアンに従って進化する。 したがって、ヌル測定の下では、次の量子ジャンプのタイミングは、ユニタリ変換によって得られる占有確率と寿命を乗じて得られる速度と比較して、非常に多くの順序で変化する。 1987年に原子蛍光のために開発された理論は、トランスモン量子ビットの遷移に拡張されている。 これらの系は、量子ビットの状態によって共鳴が決定される調和キャビティで読み出されるという点で原子とは異なる。 量子系としてキャビティを扱うことにより、原子蛍光の解析をこの無限レベル系にまで拡張する。 次の光子統計は非指数的であり、実装されると空洞の崩壊時間よりも短い時間スケールのようなより高速な読み出しが可能となる。 一般的なヘテロダイン測定は、空洞寿命よりも長い時間スケールに適用される。 確率シュレーディンガー方程式に従って記述される次の光子理論とヘテロダイン測定の理論の重なりは解明されている。 大きな分散の限界において、次のジャンプ検出の内在誤差は、短時間でゼロになる。 短時間のダイン検出では、誤差は分散のすべての値に対して有限である。

A measurement of the time between quantum jumps implies the capability to measure the next jump. During the time between jumps the quantum system is not evolving in a closed or unitary manner. While the wave function maintains phase coherence it evolves according to a non-Hermitian effective Hamiltonian. So under null measurement the timing of the next quantum jump can change by very many orders of magnitude when compared to rates obtained by multiplying lifetimes with occupation probabilities obtained via unitary transformation. The theory developed in 1987 for atomic fluorescence is here extended to transitions in transmon qubits. These systems differ from atoms in that they are read out with a harmonic cavity whose resonance is determined by the state of the qubit. We extend our analysis of atomic fluorescence to this infinite level system by treating the cavity as a quantum system. We find that next photon statistics is highly non exponential and when implemented will enable faster readout, such as on time scales shorter than the decay time of the cavity. Commonly used heterodyne measurements are applied on time scales longer than the cavity lifetime. The overlap between the next photon theory and the theory of heterodyne measurement which are described according to the Stochastic Schroedinger Equation is elucidated. In the limit of large dispersion the intrinsic error for next jump detection -- at short time -- tends to zero. Whereas for short time dyne detection the error remains finite for all values of dispersion.
翻訳日:2023-06-08 00:09:37 公開日:2023-06-06
# 適応可変量子固有解器の対称性障害回避と測定オーバーヘッド最小化

Avoiding symmetry roadblocks and minimizing the measurement overhead of adaptive variational quantum eigensolvers ( http://arxiv.org/abs/2109.05340v2 )

ライセンス: Link先を確認
V. O. Shkolnikov, Nicholas J. Mayhall, Sophia E. Economou, Edwin Barnes(参考訳) 強い相関系の量子シミュレーションは、短期量子コンピュータの最も有効な応用である可能性がある。 この目標を達成するには、量子計算資源の最小化が不可欠である。 この目的のための有望なアルゴリズムのクラスは変分量子固有解法(VQE)である。 Among these, problem-tailored versions such as ADAPT-VQE that build variational ans\"atze step by step from a predefined operator pool perform particularly well in terms of circuit depths and variational parameter counts. However, this improved performance comes at the expense of an additional measurement overhead compared to standard VQEs. Here, we show that this overhead can be reduced to an amount that grows only linearly with the number $n$ of qubits, instead of quartically as in the original ADAPT-VQE. We do this by proving that operator pools of size $2n-2$ can represent any state in Hilbert space if chosen appropriately. We prove that this is the minimal size of such "complete" pools, discuss their algebraic properties, and present necessary and sufficient conditions for their completeness that allow us to find such pools efficiently. さらに、シミュレートされた問題が対称性を持つなら、完備プールはある種の対称性規則に従うためにプールが選択されない限り収束結果を得ることができないことを示す。 そこで本研究では, ADAPT-VQEの古典的シミュレーションにおいて, 対称適応完全プールの性能を示す。 我々の発見は、pauli文字列に基づくansatzを使用するvqeに関係している。

Quantum simulation of strongly correlated systems is potentially the most feasible useful application of near-term quantum computers. Minimizing quantum computational resources is crucial to achieving this goal. A promising class of algorithms for this purpose consists of variational quantum eigensolvers (VQEs). Among these, problem-tailored versions such as ADAPT-VQE that build variational ans\"atze step by step from a predefined operator pool perform particularly well in terms of circuit depths and variational parameter counts. However, this improved performance comes at the expense of an additional measurement overhead compared to standard VQEs. Here, we show that this overhead can be reduced to an amount that grows only linearly with the number $n$ of qubits, instead of quartically as in the original ADAPT-VQE. We do this by proving that operator pools of size $2n-2$ can represent any state in Hilbert space if chosen appropriately. We prove that this is the minimal size of such "complete" pools, discuss their algebraic properties, and present necessary and sufficient conditions for their completeness that allow us to find such pools efficiently. We further show that, if the simulated problem possesses symmetries, then complete pools can fail to yield convergent results, unless the pool is chosen to obey certain symmetry rules. We demonstrate the performance of such symmetry-adapted complete pools by using them in classical simulations of ADAPT-VQE for several strongly correlated molecules. Our findings are relevant for any VQE that uses an ansatz based on Pauli strings.
翻訳日:2023-06-08 00:09:18 公開日:2023-06-06
# フェデレーションミニマックス学習のための線形収束型通信効率アルゴリズム

A Communication-efficient Algorithm with Linear Convergence for Federated Minimax Learning ( http://arxiv.org/abs/2206.01132v2 )

ライセンス: Link先を確認
Zhenyu Sun, Ermin Wei(参考訳) 本稿では,GAN(Generative Adversarial Networks)を含む,統計学習やゲーム理論における多くの興味深い応用をモデル化した大規模マルチエージェントミニマックス最適化問題について検討する。 全体的な目的は、エージェントのプライベートなローカルな目的関数の総和である。 まず, 統計的サンプルを用いて, 全体目標が真の個体群ミニマックスリスクに近似する, 経験的ミニマックス問題 (experience minimax problem) を考察した。 我々はラデマッハ複雑性解析を通じて,この目的を学習するための一般化境界を提供する。 次に、エージェントがローカル計算を実行し、中央サーバと通信できるフェデレーション設定に焦点を当てる。 既存のフェデレートされたミニマックスアルゴリズムは、局所確率勾配上昇(SGDA)を除いて、イテレーション毎の通信を必要とするか、性能保証が欠如している。 局所sgdaを勾配雑音のない理想条件で解析することにより, 一般に, 定常ステップによる完全収束を保証できず, 収束速度が遅いことを示す。 この問題に対処するため,グラディエントトラッキング(GT)に基づく改良型Federated (Fed) Gradient Descent Ascent (GDA)法であるFedGDA-GTを提案する。 局所的な目的がリプシッツの滑らかかつ強凸-強対流であるとき、FedGDA-GTは、集中型GDA法の時間的複雑さに一致する$\mathcal{O}(\log (1/\epsilon))$ラウンドで、大域的な$\epsilon$-approximationソリューションへと線形に収束することが証明される。 最後に,FedGDA-GTがローカルSGDAより優れていることを示す。

In this paper, we study a large-scale multi-agent minimax optimization problem, which models many interesting applications in statistical learning and game theory, including Generative Adversarial Networks (GANs). The overall objective is a sum of agents' private local objective functions. We first analyze an important special case, empirical minimax problem, where the overall objective approximates a true population minimax risk by statistical samples. We provide generalization bounds for learning with this objective through Rademacher complexity analysis. Then, we focus on the federated setting, where agents can perform local computation and communicate with a central server. Most existing federated minimax algorithms either require communication per iteration or lack performance guarantees with the exception of Local Stochastic Gradient Descent Ascent (SGDA), a multiple-local-update descent ascent algorithm which guarantees convergence under a diminishing stepsize. By analyzing Local SGDA under the ideal condition of no gradient noise, we show that generally it cannot guarantee exact convergence with constant stepsizes and thus suffers from slow rates of convergence. To tackle this issue, we propose FedGDA-GT, an improved Federated (Fed) Gradient Descent Ascent (GDA) method based on Gradient Tracking (GT). When local objectives are Lipschitz smooth and strongly-convex-strongly-concave, we prove that FedGDA-GT converges linearly with a constant stepsize to global $\epsilon$-approximation solution with $\mathcal{O}(\log (1/\epsilon))$ rounds of communication, which matches the time complexity of centralized GDA method. Finally, we numerically show that FedGDA-GT outperforms Local SGDA.
翻訳日:2023-06-08 00:04:15 公開日:2023-06-06
# 生データを用いた解答セットプログラムのニューロシンボリック学習

Neuro-Symbolic Learning of Answer Set Programs from Raw Data ( http://arxiv.org/abs/2205.12735v7 )

ライセンス: Link先を確認
Daniel Cunnington, Mark Law, Jorge Lobo, Alessandra Russo(参考訳) 人工知能の究極の目標のひとつは、複雑な意思決定を支援することだ。 この目標を達成するための有望な方向はNeuro-Symbolic AIであり、これは象徴的なテクニックの解釈可能性と、生データから学ぶ深層学習の能力を組み合わせることを目的としている。 しかし、現在のアプローチでは、手作業によるシンボリック知識が必要であり、エンドツーエンドのトレーニングが考慮される場合、そのようなアプローチは定型プログラムの学習に制限されるか、バイナリニューラルネットワークのトレーニングに制限される。 本稿では,ニューラルネットワークを用いて生データから潜伏概念を抽出する手法であるNuro-Symbolic Inductive Learner (NSIL)を導入するとともに,潜伏概念を目標ラベルにマッピングする記号知識を学習する。 本手法の新規性は,ニューラル成分とシンボリック成分の両方のトレーニング性能に基づいて,シンボリック知識の学習をバイアスする手法である。 NP完全問題を含む3つの問題領域におけるNSILの評価を行った。 その結果,nsilは表現力のある知識を学習し,計算量的に複雑な問題を解き,精度とデータ効率の面で最先端の性能を達成できた。 コードと技術付録: https://github.com/dancunnington/nsil

One of the ultimate goals of Artificial Intelligence is to assist humans in complex decision making. A promising direction for achieving this goal is Neuro-Symbolic AI, which aims to combine the interpretability of symbolic techniques with the ability of deep learning to learn from raw data. However, most current approaches require manually engineered symbolic knowledge, and where end-to-end training is considered, such approaches are either restricted to learning definite programs, or are restricted to training binary neural networks. In this paper, we introduce Neuro-Symbolic Inductive Learner (NSIL), an approach that trains a general neural network to extract latent concepts from raw data, whilst learning symbolic knowledge that maps latent concepts to target labels. The novelty of our approach is a method for biasing the learning of symbolic knowledge, based on the in-training performance of both neural and symbolic components. We evaluate NSIL on three problem domains of different complexity, including an NP-complete problem. Our results demonstrate that NSIL learns expressive knowledge, solves computationally complex problems, and achieves state-of-the-art performance in terms of accuracy and data efficiency. Code and technical appendix: https://github.com/DanCunnington/NSIL
翻訳日:2023-06-08 00:03:38 公開日:2023-06-06
# 共分散行列適応マップアニーリング

Covariance Matrix Adaptation MAP-Annealing ( http://arxiv.org/abs/2205.10752v4 )

ライセンス: Link先を確認
Matthew C. Fontaine, Stefanos Nikolaidis(参考訳) 単目的最適化アルゴリズムは、目的に対して単一の高品質な解を求める。 Covariance Matrix Adaptation MAP-Elites (CMA-ME) のような品質多様性(QD)最適化アルゴリズムは、目標に対して高品質で、特定の測度関数に関して多様なソリューションの集合を探索する。 しかし、CMA-MEは、QDコミュニティが強調した3つの大きな制限に悩まされている。 本稿では,CMA-MAE(Covariance Matrix Adaptation MAP-Annealing)という,3つの制約に対処するアルゴリズムを提案する。 各制限について,新しいアルゴリズムの理論的正当性を提供する。 この理論は,CMA-MAEが最先端の性能と堅牢性を達成することを示すものである。

Single-objective optimization algorithms search for the single highest-quality solution with respect to an objective. Quality diversity (QD) optimization algorithms, such as Covariance Matrix Adaptation MAP-Elites (CMA-ME), search for a collection of solutions that are both high-quality with respect to an objective and diverse with respect to specified measure functions. However, CMA-ME suffers from three major limitations highlighted by the QD community: prematurely abandoning the objective in favor of exploration, struggling to explore flat objectives, and having poor performance for low-resolution archives. We propose a new quality diversity algorithm, Covariance Matrix Adaptation MAP-Annealing (CMA-MAE), that addresses all three limitations. We provide theoretical justifications for the new algorithm with respect to each limitation. Our theory informs our experiments, which support the theory and show that CMA-MAE achieves state-of-the-art performance and robustness.
翻訳日:2023-06-08 00:03:16 公開日:2023-06-06
# 2+1)$Dの動的物質を持つ$\mathbb{Z}_2$格子ゲージ理論の量子シミュレーションのための現実的スキーム

Realistic scheme for quantum simulation of $\mathbb{Z}_2$ lattice gauge theories with dynamical matter in $(2+1)$D ( http://arxiv.org/abs/2205.08541v2 )

ライセンス: Link先を確認
Lukas Homeier, Annabelle Bohrdt, Simon Linsel, Eugene Demler, Jad C. Halimeh and Fabian Grusdt(参考訳) 動的物質に結合したゲージ場は、粒子から凝縮物質物理学まで、多くの物理学分野において普遍的であるが、大規模量子シミュレータにおけるそれらの実装は依然として困難である。 本稿では、局所的な2体相互作用と2つの空間次元における1体項のみから、動的電荷を持つ$\mathbb{Z}_2$ゲージ構造が実験的に関係する時間尺度に現れる、Rydberg原子配列実験の現実的なスキームを提案する。 このスキームは、ハニカム格子上の様々なタイプの動的物質と量子二量体モデルに結合した、$(2+1)$D $\mathbb{Z}_2$格子ゲージ理論を含む様々なモデルの実験的研究を可能にする。 我々は、様々な閉じ込められた量子スピン液体相を特徴とする動的物質を持つ実験的に最も有効な$\mathbb{Z}_2$格子ゲージ理論の基底状態相図について議論する。 さらに,無秩序な局在のシグネチャや2つの荷電の熱的凍結遷移など,直接的に実験的に関連のあるプローブを提示する。

Gauge fields coupled to dynamical matter are ubiquitous in many disciplines of physics, ranging from particle to condensed matter physics, but their implementation in large-scale quantum simulators remains challenging. Here we propose a realistic scheme for Rydberg atom array experiments in which a $\mathbb{Z}_2$ gauge structure with dynamical charges emerges on experimentally relevant timescales from only local two-body interactions and one-body terms in two spatial dimensions. The scheme enables the experimental study of a variety of models, including $(2+1)$D $\mathbb{Z}_2$ lattice gauge theories coupled to different types of dynamical matter and quantum dimer models on the honeycomb lattice, for which we derive effective Hamiltonians. We discuss ground-state phase diagrams of the experimentally most relevant effective $\mathbb{Z}_2$ lattice gauge theories with dynamical matter featuring various confined and deconfined, quantum spin liquid phases. Further, we present selected probes with immediate experimental relevance, including signatures of disorder-free localization and a thermal deconfinement transition of two charges.
翻訳日:2023-06-08 00:02:59 公開日:2023-06-06
# ブロブ損失: セマンティックセグメンテーションのためのインスタンス不均衡認識損失関数

blob loss: instance imbalance aware loss functions for semantic segmentation ( http://arxiv.org/abs/2205.08209v3 )

ライセンス: Link先を確認
Florian Kofler, Suprosanna Shit, Ivan Ezhov, Lucas Fidon, Izabela Horvath, Rami Al-Maskari, Hongwei Li, Harsharan Bhatia, Timo Loehr, Marie Piraud, Ali Erturk, Jan Kirschke, Jan C. Peeken, Tom Vercauteren, Claus Zimmer, Benedikt Wiestler, Bjoern Menze(参考訳) 深層畳み込みニューラルネットワーク(CNN)はセマンティックセグメンテーションタスクにおいて極めて有効であることが証明されている。 一般的な損失関数は、Dice coefficient (DSC)のような改善されたボリュームスコアをターゲットとして導入された。 設計上、DSCはクラス不均衡に取り組むことができるが、クラス内のインスタンス不均衡を認識しない。 その結果、大きなフォアグラウンドインスタンスが小さなインスタンスを支配し、それでも満足のいくDSCを生成する。 それでも、病気のモニタリングなど、多くのアプリケーションにおいて、小さなインスタンスの検出は不可欠である。 例えば、多発性硬化症患者の経過観察において、小規模病変の発見と監視が不可欠である。 本稿では,F1スコアや感度などのインスタンスレベルの検出値の最大化を主な目的とする,損失関数の新たなファミリーであるemph{blob loss}を提案する。 emph{Blob loss}は、複数のインスタンスを検出するセグメンテーション問題のために設計されている。 テクスチャと形態の両面でのインスタンスの不均一性を特徴とする5つの複雑な3次元セマンティックセマンティックセグメンテーションタスクにおいて,DSCに基づくemph{blob loss}を広範囲に評価した。 軟Dice損失と比較して,MS病変の5%改善,肝腫瘍の3%改善,F1スコアを考慮した顕微鏡分割作業の2%改善を実現した。

Deep convolutional neural networks (CNN) have proven to be remarkably effective in semantic segmentation tasks. Most popular loss functions were introduced targeting improved volumetric scores, such as the Dice coefficient (DSC). By design, DSC can tackle class imbalance, however, it does not recognize instance imbalance within a class. As a result, a large foreground instance can dominate minor instances and still produce a satisfactory DSC. Nevertheless, detecting tiny instances is crucial for many applications, such as disease monitoring. For example, it is imperative to locate and surveil small-scale lesions in the follow-up of multiple sclerosis patients. We propose a novel family of loss functions, \emph{blob loss}, primarily aimed at maximizing instance-level detection metrics, such as F1 score and sensitivity. \emph{Blob loss} is designed for semantic segmentation problems where detecting multiple instances matters. We extensively evaluate a DSC-based \emph{blob loss} in five complex 3D semantic segmentation tasks featuring pronounced instance heterogeneity in terms of texture and morphology. Compared to soft Dice loss, we achieve 5% improvement for MS lesions, 3% improvement for liver tumor, and an average 2% improvement for microscopy segmentation tasks considering F1 score.
翻訳日:2023-06-08 00:02:35 公開日:2023-06-06
# RKHSに基づく非パラメトリック回帰における共変量シフトの最適対応

Optimally tackling covariate shift in RKHS-based nonparametric regression ( http://arxiv.org/abs/2205.02986v2 )

ライセンス: Link先を確認
Cong Ma, Reese Pathak, Martin J. Wainwright(参考訳) 我々は、再生核ヒルベルト空間(rkhs)上の非パラメトリック回帰の文脈における共変量シフト問題を研究する。 原点分布と対象分布の確率比を用いて定義される共変量シフト問題の2つの自然族に注目した。 確率比が一様有界であれば、慎重に選択された正則化パラメータを持つカーネルリッジ回帰(krr)推定器は、正則カーネル固有値を持つ大きなrkhss族に対して最小のレートオプティマイザ(対数係数まで)であることが証明される。 興味深いことに、krr は、それらの上界から外れる確率比の完全な知識を必要としない。 共変量シフトのない標準統計設定とは対照的に、関数クラスに対する経験的リスクを最小限に抑えるナイーブ推定器は、KRRと比較して共変量シフトの下で厳密に準最適であることを示す。 次に、可能性比が非有界でありながら有限第二モーメントを持つようなより大きな共変量シフト問題に対処する。 本稿では,試料の重み付けを行う再重み付けkrr推定器を提案する。 繰り返しますが、この推定器が最小のレート最適化であり、対数因子であることを示すことができます。

We study the covariate shift problem in the context of nonparametric regression over a reproducing kernel Hilbert space (RKHS). We focus on two natural families of covariate shift problems defined using the likelihood ratios between the source and target distributions. When the likelihood ratios are uniformly bounded, we prove that the kernel ridge regression (KRR) estimator with a carefully chosen regularization parameter is minimax rate-optimal (up to a log factor) for a large family of RKHSs with regular kernel eigenvalues. Interestingly, KRR does not require full knowledge of likelihood ratios apart from an upper bound on them. In striking contrast to the standard statistical setting without covariate shift, we also demonstrate that a naive estimator, which minimizes the empirical risk over the function class, is strictly sub-optimal under covariate shift as compared to KRR. We then address the larger class of covariate shift problems where the likelihood ratio is possibly unbounded yet has a finite second moment. Here, we propose a reweighted KRR estimator that weights samples based on a careful truncation of the likelihood ratios. Again, we are able to show that this estimator is minimax rate-optimal, up to logarithmic factors.
翻訳日:2023-06-08 00:02:07 公開日:2023-06-06
# clifford回路は、$\textsf{rp}=\textsf{np}$の場合のみ、適切なpac学習が可能である。

Clifford Circuits can be Properly PAC Learned if and only if $\textsf{RP}=\textsf{NP}$ ( http://arxiv.org/abs/2204.06638v4 )

ライセンス: Link先を確認
Daniel Liang(参考訳) 入力状態、測定、確率のデータセットを考えると、量子回路に関連する測定確率を効率的に予測することは可能か? Caro and Datta (2020) の最近の研究は、情報理論的な意味でPAC学習量子回路の問題を研究し、計算効率に関するオープンな疑問を残した。 特に、効率的な学習が可能な回路の候補クラスはクリフォード回路であり、そのような回路によって生成される対応する状態の集合は安定化状態と呼ばれ、効率的にpac学習可能であることが知られている(rocchetto 2018)。 ここでは、CNOT回路の適切な学習が、$\textsf{RP} = \textsf{NP}$でない限り、古典的な学習者にとって難しいことを示す。 古典的なクリフォード回路のアナログと部分集合として、これはクリフォード回路の硬度結果にも自然に導かれる。 さらに、$\textsf{RP} = \textsf{NP}$ であれば、CNOT と Clifford 回路に対して効率的な適切な学習アルゴリズムが存在することを示す。 同様の議論により、そのような回路に対する効率的な固有量子学習器が存在するのは、$\textsf{NP} \subseteq \textsf{RQP}$である。

Given a dataset of input states, measurements, and probabilities, is it possible to efficiently predict the measurement probabilities associated with a quantum circuit? Recent work of Caro and Datta (2020) studied the problem of PAC learning quantum circuits in an information theoretic sense, leaving open questions of computational efficiency. In particular, one candidate class of circuits for which an efficient learner might have been possible was that of Clifford circuits, since the corresponding set of states generated by such circuits, called stabilizer states, are known to be efficiently PAC learnable (Rocchetto 2018). Here we provide a negative result, showing that proper learning of CNOT circuits is hard for classical learners unless $\textsf{RP} = \textsf{NP}$. As the classical analogue and subset of Clifford circuits, this naturally leads to a hardness result for Clifford circuits as well. Additionally, we show that if $\textsf{RP} = \textsf{NP}$ then there would exist efficient proper learning algorithms for CNOT and Clifford circuits. By similar arguments, we also find that an efficient proper quantum learner for such circuits exists if and only if $\textsf{NP} \subseteq \textsf{RQP}$.
翻訳日:2023-06-08 00:01:29 公開日:2023-06-06
# GigaST:1万時間 Pseudo 音声翻訳コーパス

GigaST: A 10,000-hour Pseudo Speech Translation Corpus ( http://arxiv.org/abs/2204.03939v2 )

ライセンス: Link先を確認
Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao(参考訳) 本稿では,大規模擬似音声翻訳(ST)コーパスであるGigaSTを紹介する。 我々は、英語のASRコーパスであるGigaSpeechのテキストをドイツ語と中国語に翻訳することでコーパスを作成する。 トレーニングセットは強力な機械翻訳システムによって翻訳され、テストセットは人間によって翻訳される。 コーパスの追加でトレーニングしたSTモデルは、MuST-Cの英語-ドイツ語ベンチマークテストセット上で、新しい最先端の結果を得る。 翻訳プロセスの詳細を説明し,その品質を検証する。 翻訳されたテキストデータを公開し、音声翻訳の研究を促進することを期待する。 さらに、システムを複製しやすいように、neurstのトレーニングスクリプトもリリースしています。 GigaSTデータセットはhttps://st-benchmark.github.io/resources/GigaSTで公開されている。

This paper introduces GigaST, a large-scale pseudo speech translation (ST) corpus. We create the corpus by translating the text in GigaSpeech, an English ASR corpus, into German and Chinese. The training set is translated by a strong machine translation system and the test set is translated by human. ST models trained with an addition of our corpus obtain new state-of-the-art results on the MuST-C English-German benchmark test set. We provide a detailed description of the translation process and verify its quality. We make the translated text data public and hope to facilitate research in speech translation. Additionally, we also release the training scripts on NeurST to make it easy to replicate our systems. GigaST dataset is available at https://st-benchmark.github.io/resources/GigaST.
翻訳日:2023-06-08 00:01:03 公開日:2023-06-06
# AIと自律システムのための原理に基づく倫理保証パターン

A Principles-based Ethics Assurance Argument Pattern for AI and Autonomous Systems ( http://arxiv.org/abs/2203.15370v4 )

ライセンス: Link先を確認
Zoe Porter, Ibrahim Habli, John McDermid, Marten Kaas(参考訳) 保証ケースは、典型的には安全エンジニアによって作成される構造化された議論であり、航空機のような重要または複雑なシステムは、意図した状況において許容可能な安全であるという自信を伝達する。 保証ケースは、しばしば第三者のシステム承認を知らせる。 信頼できるAIと自律システム(AI/AS)研究コミュニティでは、特定のAI/ASが適切に定義されたコンテキストで運用される場合に倫理的に許容されるという信頼性を高めるために、保証ケースを使用することが提案されている。 本論文は提案を実質的に発展させ,具体化する。 これは、原則に基づく倫理保証の議論パターンを構成するための、一連の倫理原則と保証ケース方法論を組み合わせる。 原則は正義、受益性、非正当性、人間の自律に対する敬意であり、透明性の原則は支持的な役割を果たす。 略語PRAISEに短縮された引数パターンについて述べる。 提案されたPRAISEの議論パターンの目的は、技術者、開発者、オペレーター、または規制官が特定の社会技術的文脈における特定のAI/ASの使用の全体的な倫理的受容性についての主張を正当化、伝達、または異議を唱えることのできる、個々の倫理的保証ケースのための再利用可能なテンプレートを提供することである。 このパターンを,都市中心部における自律型ロボタクシーサービスの仮想利用事例に適用する。

An assurance case is a structured argument, typically produced by safety engineers, to communicate confidence that a critical or complex system, such as an aircraft, will be acceptably safe within its intended context. Assurance cases often inform third party approval of a system. One emerging proposition within the trustworthy AI and autonomous systems (AI/AS) research community is to use assurance cases to instil justified confidence that specific AI/AS will be ethically acceptable when operational in well-defined contexts. This paper substantially develops the proposition and makes it concrete. It brings together the assurance case methodology with a set of ethical principles to structure a principles-based ethics assurance argument pattern. The principles are justice, beneficence, non-maleficence, and respect for human autonomy, with the principle of transparency playing a supporting role. The argument pattern, shortened to the acronym PRAISE, is described. The objective of the proposed PRAISE argument pattern is to provide a reusable template for individual ethics assurance cases, by which engineers, developers, operators, or regulators could justify, communicate, or challenge a claim about the overall ethical acceptability of the use of a specific AI/AS in a given socio-technical context. We apply the pattern to the hypothetical use case of an autonomous robo-taxi service in a city centre.
翻訳日:2023-06-08 00:00:51 公開日:2023-06-06
# 分布検出器の概念に基づく説明

Concept-based Explanations for Out-Of-Distribution Detectors ( http://arxiv.org/abs/2203.02586v3 )

ライセンス: Link先を確認
Jihye Choi, Jayaram Raghuram, Ryan Feng, Jiefeng Chen, Somesh Jha, Atul Prakash(参考訳) Out-of-Distribution(OOD)検出は、ディープニューラルネットワーク(DNN)分類器の安全なデプロイを保証する上で重要な役割を果たす。 OOD検出器の性能向上に多くの手法が注がれているが、決定を解釈する上で重要なギャップが残っている。 我々は、学習された高レベル概念に基づいたOOD検出器の説明を提供することで、このギャップを埋める手助けをする。 まず,ood検出器を説明するための概念セットの有効性を評価するための2つの新しい指標を提案する。 1)OOD検出者の判断を説明するための概念の充実度を定量化する検出完全性、及び 2) 概念分離性は, 概念空間における分配データとOODデータの分散分離を捉える。 これらの指標に基づいて,高い検出完全性と概念分離性の望ましい特性を満たす概念の集合を学習するための教師なしフレームワークを提案する。 また,検出結果に寄与する重要な概念を識別する方法を示し,その決定に関するさらなる推論を提供する。

Out-of-distribution (OOD) detection plays a crucial role in ensuring the safe deployment of deep neural network (DNN) classifiers. While a myriad of methods have focused on improving the performance of OOD detectors, a critical gap remains in interpreting their decisions. We help bridge this gap by providing explanations for OOD detectors based on learned high-level concepts. We first propose two new metrics for assessing the effectiveness of a particular set of concepts for explaining OOD detectors: 1) detection completeness, which quantifies the sufficiency of concepts for explaining an OOD-detector's decisions, and 2) concept separability, which captures the distributional separation between in-distribution and OOD data in the concept space. Based on these metrics, we propose an unsupervised framework for learning a set of concepts that satisfy the desired properties of high detection completeness and concept separability, and demonstrate its effectiveness in providing concept-based explanations for diverse off-the-shelf OOD detectors. We also show how to identify prominent concepts contributing to the detection results, and provide further reasoning about their decisions.
翻訳日:2023-06-08 00:00:26 公開日:2023-06-06
# 一般化可能な人物再識別のためのスタイルインターリーブ学習

Style Interleaved Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2207.03132v2 )

ライセンス: Link先を確認
Wentao Tan and Changxing Ding and Pengfei Wang and Mingming Gong and Kui Jia(参考訳) 個人再識別(ReID)のためのドメイン一般化(DG)は、トレーニングプロセス中にターゲットドメインデータへのアクセスが許可されないため、難しい問題である。 既存のDG ReIDメソッドのほとんどは、同じ機能に基づいて特徴抽出子と分類子パラメータを更新する。 この一般的なプラクティスは、モデルをソースドメインの既存の機能スタイルに過度に適合させ、それによってターゲットドメインに対する準最適一般化能力をもたらす。 そこで,本稿では,新しい形式のインターリーブ学習(il)フレームワークを提案する。 従来の学習戦略とは異なり、ilは各イテレーションに2つの前方伝播と1つの後方伝播を組み込んでいる。 我々は、異なるフォワード伝搬を使用して特徴抽出子と分類器を更新するためにインターリーブされたスタイルの特徴を利用し、モデルが特定のドメインスタイルに過度に適合することを防ぐ。 インターリーブされた特徴スタイルを生成するために,新たな特徴スタイリング手法を提案する。 ilの方法論に対応するソースドメインのオリジナルスタイルと異なる、あるいは独立した、幅広い意味のあるスタイルを生み出します。 我々のモデルはDG ReIDの大規模ベンチマークにおいて常に最先端の手法よりも優れているだけでなく、計算効率にも明らかな利点があることを示す。 コードはhttps://github.com/wentaotan/interleaved-learningで入手できる。

Domain generalization (DG) for person re-identification (ReID) is a challenging problem, as access to target domain data is not permitted during the training process. Most existing DG ReID methods update the feature extractor and classifier parameters based on the same features. This common practice causes the model to overfit to existing feature styles in the source domain, resulting in sub-optimal generalization ability on target domains. To solve this problem, we propose a novel style interleaved learning (IL) framework. Unlike conventional learning strategies, IL incorporates two forward propagations and one backward propagation for each iteration. We employ the features of interleaved styles to update the feature extractor and classifiers using different forward propagations, which helps to prevent the model from overfitting to certain domain styles. To generate interleaved feature styles, we further propose a new feature stylization approach. It produces a wide range of meaningful styles that are both different and independent from the original styles in the source domain, which caters to the IL methodology. Extensive experimental results show that our model not only consistently outperforms state-of-the-art methods on large-scale benchmarks for DG ReID, but also has clear advantages in computational efficiency. The code is available at https://github.com/WentaoTan/Interleaved-Learning.
翻訳日:2023-06-07 23:53:25 公開日:2023-06-06
# ポストホック概念記述はいつ可能か?

When are Post-hoc Conceptual Explanations Identifiable? ( http://arxiv.org/abs/2206.13872v5 )

ライセンス: Link先を確認
Tobias Leemann, Michael Kirchhof, Yao Rong, Enkelejda Kasneci, Gjergji Kasneci(参考訳) 概念的説明による学習された埋め込み空間の理解と分解への関心は着実に伸びている。 人間のコンセプトラベルが利用できない場合、概念発見手法は、オブジェクトの形や色などの解釈可能な概念のための訓練された埋め込み空間を探索し、決定のためのポストホックな説明を提供する。 従来の研究とは異なり、概念発見は特定可能であるべきであり、多くの既知の概念を証明して説明の信頼性を保証することができる。 出発点として,非ガウス分布下で独立概念を回復できることを示すことにより,概念発見と主成分分析や独立成分分析のような古典的手法との関係を明確にする。 本稿では,画像生成過程の関数的構成性を利用した2つの新しい手法を提案する。 私たちの実証可能な概念発見手法は、何百もの訓練されたモデルや依存する概念を含む実験のバッテリーでライバルより大幅に優れています。 本研究は,人間のラベルのない信頼できる概念発見が保証され,そのドメインの正式な基盤となる厳格な条件を浮き彫りにする。 私たちのコードはオンラインで入手できる。

Interest in understanding and factorizing learned embedding spaces through conceptual explanations is steadily growing. When no human concept labels are available, concept discovery methods search trained embedding spaces for interpretable concepts like object shape or color that can provide post-hoc explanations for decisions. Unlike previous work, we argue that concept discovery should be identifiable, meaning that a number of known concepts can be provably recovered to guarantee reliability of the explanations. As a starting point, we explicitly make the connection between concept discovery and classical methods like Principal Component Analysis and Independent Component Analysis by showing that they can recover independent concepts under non-Gaussian distributions. For dependent concepts, we propose two novel approaches that exploit functional compositionality properties of image-generating processes. Our provably identifiable concept discovery methods substantially outperform competitors on a battery of experiments including hundreds of trained models and dependent concepts, where they exhibit up to 29 % better alignment with the ground truth. Our results highlight the strict conditions under which reliable concept discovery without human labels can be guaranteed and provide a formal foundation for the domain. Our code is available online.
翻訳日:2023-06-07 23:53:00 公開日:2023-06-06
# ロバストな普遍的対向摂動

Robust Universal Adversarial Perturbations ( http://arxiv.org/abs/2206.10858v2 )

ライセンス: Link先を確認
Changming Xu, Gagandeep Singh(参考訳) UAP(Universal Adversarial Perturbations)は、深層ニューラルネットワーク(DNN)に高い確率で入力を誤分類させるイメージに依存しないベクトルである。 実際の攻撃シナリオでは、逆摂動はdnn入力に追加される前にピクセル強度の変化やスケーリングなどの変換を受ける可能性がある。 既存の手法は、これらの現実世界の変換に対して堅牢なUAPを生成しないため、実際の攻撃シナリオにおける適用性が制限される。 本研究では,実世界変換に対するロバストな uap の導入と定式化を行う。 確率的ロバスト性境界を用いた反復アルゴリズムを構築し,任意の部分微分変換関数を合成して生成される変換に頑健な uap を構成する。 我々は、人気のあるcifar-10とilsvrc 2012データセットの広範な評価を行い、回転やコントラスト変化など、広い範囲にわたる現実世界の変換の下で uapsの堅牢性を測定する。 さらに,本手法はプリミティブ変換の集合を用いることで,霧やJPEG圧縮などの未知の変換を一般化できることも示している。 以上の結果から,本手法は最先端のベースラインよりも最大23%強靭なUAPを生成することができることがわかった。

Universal Adversarial Perturbations (UAPs) are imperceptible, image-agnostic vectors that cause deep neural networks (DNNs) to misclassify inputs with high probability. In practical attack scenarios, adversarial perturbations may undergo transformations such as changes in pixel intensity, scaling, etc. before being added to DNN inputs. Existing methods do not create UAPs robust to these real-world transformations, thereby limiting their applicability in practical attack scenarios. In this work, we introduce and formulate UAPs robust against real-world transformations. We build an iterative algorithm using probabilistic robustness bounds and construct such UAPs robust to transformations generated by composing arbitrary sub-differentiable transformation functions. We perform an extensive evaluation on the popular CIFAR-10 and ILSVRC 2012 datasets measuring our UAPs' robustness under a wide range common, real-world transformations such as rotation, contrast changes, etc. We further show that by using a set of primitive transformations our method can generalize well to unseen transformations such as fog, JPEG compression, etc. Our results show that our method can generate UAPs up to 23% more robust than state-of-the-art baselines.
翻訳日:2023-06-07 23:52:21 公開日:2023-06-06
# 微分プライベート最適化における一様リプシッツ条件を超える

Beyond Uniform Lipschitz Condition in Differentially Private Optimization ( http://arxiv.org/abs/2206.10713v2 )

ライセンス: Link先を確認
Rudrajit Das, Satyen Kale, Zheng Xu, Tong Zhang, Sujay Sanghavi(参考訳) 微分プライベート確率勾配降下 (dp-sgd) のほとんどの先行結果は、一様リプシッツネスの単純仮定、すなわち、サンプルごとの勾配は一様有界である。 我々は、サンプル毎の勾配がサンプル依存の上界、すなわちサンプル毎リプシッツ定数を持つと仮定して、一様リプシッツネスを一般化する。 DP-SGDにおけるクリップノルムの選択に関する原則的ガイダンスは、サンプルごとのリプシッツ定数が有界である場合の一般バージョンのリプシッツネスを満たす凸過パラメータ設定であり、具体的には、サンプルごとのリプシッツ定数の値が最小となるまでのみクリップノルムを調整することを推奨する。 これにより、公開データ上で事前トレーニングされたディープネットワーク上のソフトマックス層のプライベートトレーニングに応用できる。 8つのデータセットで実験を行い,提案手法の有効性を検証する。 さらに、リプシッツ定数が非有界であるが有界なモーメントを持つとき、凸関数と非凸関数に対するDP-SGDに対する新たな収束結果を与える。

Most prior results on differentially private stochastic gradient descent (DP-SGD) are derived under the simplistic assumption of uniform Lipschitzness, i.e., the per-sample gradients are uniformly bounded. We generalize uniform Lipschitzness by assuming that the per-sample gradients have sample-dependent upper bounds, i.e., per-sample Lipschitz constants, which themselves may be unbounded. We provide principled guidance on choosing the clip norm in DP-SGD for convex over-parameterized settings satisfying our general version of Lipschitzness when the per-sample Lipschitz constants are bounded; specifically, we recommend tuning the clip norm only till values up to the minimum per-sample Lipschitz constant. This finds application in the private training of a softmax layer on top of a deep network pre-trained on public data. We verify the efficacy of our recommendation via experiments on 8 datasets. Furthermore, we provide new convergence results for DP-SGD on convex and nonconvex functions when the Lipschitz constants are unbounded but have bounded moments, i.e., they are heavy-tailed.
翻訳日:2023-06-07 23:52:06 公開日:2023-06-06
# グローバルコンテキストビジョン変換器

Global Context Vision Transformers ( http://arxiv.org/abs/2206.09959v5 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hongxu Yin, Greg Heinrich, Jan Kautz, and Pavlo Molchanov(参考訳) 我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。 提案手法は,グローバルなコンテキスト自己注意モジュールを標準的局所自己注意モジュールと組み合わせて有効かつ効率的に空間的相互作用をモデル化し,注意マスクの計算やローカルウィンドウの移動といった高価な操作を不要とする。 さらに,ViTの帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。 提案するgc vitは画像分類,オブジェクト検出,セマンティクスセグメンテーションタスクにおいて最先端の結果を得る。 ImageNet-1Kの分類用データセットでは、GC ViTの51M、90M、201Mパラメータの変種は、それぞれ84.3%、85.0%、85.7%のTop-1精度を224の解像度で達成し、事前トレーニングを行わない。 オブジェクト検出、インスタンスのセグメンテーション、MS COCOとADE20Kデータセットを使用したセマンティックセグメンテーションといった下流タスクにおける事前トレーニングされたGC ViTバックボーンは、前処理を一貫して上回る。 具体的には、4スケールのDINO検出ヘッドを持つGC ViTは、MS COCOデータセット上で58.3のボックスAPを達成する。

We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization for computer vision. Our method leverages global context self-attention modules, joint with standard local self-attention, to effectively and efficiently model both long and short-range spatial interactions, without the need for expensive operations such as computing attention masks or shifting local windows. In addition, we address the lack of the inductive bias in ViTs, and propose to leverage a modified fused inverted residual blocks in our architecture. Our proposed GC ViT achieves state-of-the-art results across image classification, object detection and semantic segmentation tasks. On ImageNet-1K dataset for classification, the variants of GC ViT with 51M, 90M and 201M parameters achieve 84.3%, 85.0% and 85.7% Top-1 accuracy, respectively, at 224 image resolution and without any pre-training, hence surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based MaxViT and Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream tasks of object detection, instance segmentation, and semantic segmentation using MS COCO and ADE20K datasets outperform prior work consistently. Specifically, GC ViT with a 4-scale DINO detection head achieves a box AP of 58.3 on MS COCO dataset.
翻訳日:2023-06-07 23:51:40 公開日:2023-06-06
# 去年の夏に学んだこと: 機械学習モデルと防御のステアリングに関する調査

I Know What You Trained Last Summer: A Survey on Stealing Machine Learning Models and Defences ( http://arxiv.org/abs/2206.08451v2 )

ライセンス: Link先を確認
Daryna Oliynyk, Rudolf Mayer, Andreas Rauber(参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は広く普及し、例えばペイ・パー・クエリの原則を通じて、クライアントが利用できる最も複雑な機械学習モデルさえも実現している。 これにより、データ収集、ハイパーパラメータチューニング、モデルのトレーニングといった時間のかかるプロセスを避けることができる。 しかしながら、顧客に対して(予測)モデルへのアクセスを与えることで、mlaasプロバイダは、センシティブなトレーニングデータ、最適化されたハイパーパラメータ、学習したモデルパラメータなどの知的財産を危険にさらす。 敵は予測ラベルのみを使用して(ほぼ)同一の振る舞いを持つモデルのコピーを作成することができる。 この攻撃の多くの変種が説明されているが、孤立した脅威に対処する散在する防衛戦略のみが提案されている。 これにより、モデル盗みの分野の徹底した体系化の必要性が高まり、これらの攻撃がなぜ成功したのか、どのように集団的に防御されるのかを包括的に理解する必要がある。 我々は,モデル盗み攻撃を分類・比較し,その性能を評価し,異なる環境で対応する防御手法を検討することで対処する。 攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛戦略を選択するためのガイドラインを提供する。 最後に、現在の攻撃戦略による防御効果の低下について分析する。

Machine Learning-as-a-Service (MLaaS) has become a widespread paradigm, making even the most complex machine learning models available for clients via e.g. a pay-per-query principle. This allows users to avoid time-consuming processes of data collection, hyperparameter tuning, and model training. However, by giving their customers access to the (predictions of their) models, MLaaS providers endanger their intellectual property, such as sensitive training data, optimised hyperparameters, or learned model parameters. Adversaries can create a copy of the model with (almost) identical behavior using the the prediction labels only. While many variants of this attack have been described, only scattered defence strategies have been proposed, addressing isolated threats. This raises the necessity for a thorough systematisation of the field of model stealing, to arrive at a comprehensive understanding why these attacks are successful, and how they could be holistically defended against. We address this by categorising and comparing model stealing attacks, assessing their performance, and exploring corresponding defence techniques in different settings. We propose a taxonomy for attack and defence approaches, and provide guidelines on how to select the right attack or defence strategy based on the goal and available resources. Finally, we analyse which defences are rendered less effective by current attack strategies.
翻訳日:2023-06-07 23:51:09 公開日:2023-06-06
# 因果・空間制約型マルチタスクネットワークを用いた人体移動予測

Human Mobility Prediction with Causal and Spatial-constrained Multi-task Network ( http://arxiv.org/abs/2206.05731v4 )

ライセンス: Link先を確認
Zongyuan Huang, Shengyuan Xu, Menghan Wang, Hansi Wu, Yanyan Xu, Yaohui Jin(参考訳) ヒトのモビリティのモデリングは、人々がどのようにリソースにアクセスし、都市で物理的に接触しているかを理解するのに役立ち、都市計画、疫病対策、位置ベースの広告など様々な応用に寄与する。 次の位置予測は、個人の移動モデルにおいて決定的なタスクであり、通常、マルコフやRNNベースの方法で解決されたシーケンスモデリングと見なされる。 しかし、既存のモデルは個々の旅行決定の論理と集団行動の再現性にはほとんど注意を払わなかった。 そこで本研究では,CSLSL(Causal and Space-Constrained Long and Short-term Learner)を提案する。 CSLSLはマルチタスク学習に基づく因果構造を用いて、"\textit{when$\rightarrow$what$\rightarrow$where}", a.k.a."\textit{time$\rightarrow$ Activity$\rightarrow$location}"決定論理を明示的にモデル化する。 次に,目的地の予測と実際の空間分布の整合性を確保するため,補助タスクとして空間制約付き損失関数を提案する。 さらに、CSLSLはLong and Short-term Capturer (LSC)という名前のモジュールを採用し、異なる時間間隔で遷移規則性を学ぶ。 3つの実世界のデータセットに対する大規模な実験により、ベースラインよりもCSLSLの性能が向上し、因果性と一貫性の制約を導入する効果が確認された。 実装はhttps://github.com/urbanmobility/CSLSLで公開されている。

Modeling human mobility helps to understand how people are accessing resources and physically contacting with each other in cities, and thus contributes to various applications such as urban planning, epidemic control, and location-based advertisement. Next location prediction is one decisive task in individual human mobility modeling and is usually viewed as sequence modeling, solved with Markov or RNN-based methods. However, the existing models paid little attention to the logic of individual travel decisions and the reproducibility of the collective behavior of population. To this end, we propose a Causal and Spatial-constrained Long and Short-term Learner (CSLSL) for next location prediction. CSLSL utilizes a causal structure based on multi-task learning to explicitly model the "\textit{when$\rightarrow$what$\rightarrow$where}", a.k.a. "\textit{time$\rightarrow$activity$\rightarrow$location}" decision logic. We next propose a spatial-constrained loss function as an auxiliary task, to ensure the consistency between the predicted and actual spatial distribution of travelers' destinations. Moreover, CSLSL adopts modules named Long and Short-term Capturer (LSC) to learn the transition regularities across different time spans. Extensive experiments on three real-world datasets show promising performance improvements of CSLSL over baselines and confirm the effectiveness of introducing the causality and consistency constraints. The implementation is available at https://github.com/urbanmobility/CSLSL.
翻訳日:2023-06-07 23:50:44 公開日:2023-06-06
# ユークリッドおよび双曲グラフニューラルネットワークのための統一フレームワーク

A Unification Framework for Euclidean and Hyperbolic Graph Neural Networks ( http://arxiv.org/abs/2206.04285v3 )

ライセンス: Link先を確認
Mehrdad Khatir, Nurendra Choudhary, Sutanay Choudhury, Khushbu Agarwal, Chandan K. Reddy(参考訳) 双曲型ニューラルネットワークはグラフデータセット固有の階層を効果的に捉え、結果としてGNNの強力な選択となる。 しかし、それらは層内の複数の不連続(ジャイロ-)ベクトル空間を絡み合わせるため、一般化と拡張性の観点から制限される。 本研究では,ポインケアディスクモデルを探索空間として提案し,ディスク上のすべての近似(原点から派生した接空間であるかのように)を適用し,空間間の変換をすべて排除する。 このようなアプローチにより、双曲正規化層を提案し、双曲正規化層でカスケードされたユークリッドモデルへの双曲モデル全体をさらに単純化することができる。 提案した非線形双曲正規化を,現在最先端の同質および多値グラフネットワークに適用した。 我々のモデルは、解釈可能性や様々なモデルコンポーネントの効率的な実行といったユークリッドネットワークのパワーを利用するだけでなく、様々なベンチマークにおいてユークリッドと双曲の双方よりも優れていることを示す。 私たちのコードはhttps://github.com/oom-debugger/ijcai23で公開されています。

Hyperbolic neural networks can effectively capture the inherent hierarchy of graph datasets, and consequently a powerful choice of GNNs. However, they entangle multiple incongruent (gyro-)vector spaces within a layer, which makes them limited in terms of generalization and scalability. In this work, we propose the Poincare disk model as our search space, and apply all approximations on the disk (as if the disk is a tangent space derived from the origin), thus getting rid of all inter-space transformations. Such an approach enables us to propose a hyperbolic normalization layer and to further simplify the entire hyperbolic model to a Euclidean model cascaded with our hyperbolic normalization layer. We applied our proposed nonlinear hyperbolic normalization to the current state-of-the-art homogeneous and multi-relational graph networks. We demonstrate that our model not only leverages the power of Euclidean networks such as interpretability and efficient execution of various model components, but also outperforms both Euclidean and hyperbolic counterparts on various benchmarks. Our code is made publicly available at https://github.com/oom-debugger/ijcai23.
翻訳日:2023-06-07 23:49:56 公開日:2023-06-06
# qubit-oscillator concatenated codes: decoding formalism and code comparison

Qubit-oscillator concatenated codes: decoding formalism & code comparison ( http://arxiv.org/abs/2209.04573v4 )

ライセンス: Link先を確認
Yijia Xu, Yixu Wang, En-Jui Kuo, and Victor V. Albert(参考訳) ボソニック誤り訂正符号と量子ビット符号を結合することで、元の量子ビット符号の誤り訂正能力を大幅に向上させることができる。 最近発見されたGKP安定化器符号(Phys. Rev. 125, 080503 (2020)})を含むいくつかのボソニック符号と連結スキームがあるので、最適に結合する方法は明らかではない。 本稿では, 量子ビット安定化符号, アナログ・ガウス安定化符号, gkp符号, gkp安定化符号, gkp安定化符号の3つの異なる結合符号の性能を, 効率良く解析する。 我々は、加算ガウス白色雑音に対するデコーダ性能をベンチマークし、解析計算により数値を照合する。 我々は、GKP安定化器符号を含む結合性は、GKP符号との従来の結合性よりも優れていることを観察した。 また, 2変数共役変数のゆらぎを抑制するGKP安定化器符号を提案し,GKP安定化器符号のquditバージョンを定式化する。

Concatenating bosonic error-correcting codes with qubit codes can substantially boost the error-correcting power of the original qubit codes. It is not clear how to concatenate optimally, given there are several bosonic codes and concatenation schemes to choose from, including the recently discovered GKP-stabilizer codes [Phys. Rev. Lett. 125, 080503 (2020)}] that allow protection of a logical bosonic mode from fluctuations of the mode's conjugate variables. We develop efficient maximum-likelihood decoders for and analyze the performance of three different concatenations of codes taken from the following set: qubit stabilizer codes, analog/Gaussian stabilizer codes, GKP codes, and GKP-stabilizer codes. We benchmark decoder performance against additive Gaussian white noise, corroborating our numerics with analytical calculations. We observe that the concatenation involving GKP-stabilizer codes outperforms the more conventional concatenation of a qubit stabilizer code with a GKP code in some cases. We also propose a GKP-stabilizer code that suppresses fluctuations in both conjugate variables without extra quadrature squeezing, and formulate qudit versions of GKP-stabilizer codes.
翻訳日:2023-06-07 22:06:27 公開日:2023-06-06
# 改良を保証した量子近似最適化アルゴリズムの再帰的グリーディ初期化

Recursive greedy initialization of the quantum approximate optimization algorithm with guaranteed improvement ( http://arxiv.org/abs/2209.01159v2 )

ライセンス: Link先を確認
Stefan H. Sack, Raimel A. Medina, Richard Kueng and Maksym Serbyn(参考訳) 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、量子コンピュータが交代ユニタリ作用素の$p$層からなる変分アンサッツを実装し、古典的コンピュータを用いて変分パラメータを最適化する変分量子アルゴリズムである。 ランダム初期化の場合、最適化は通常、性能の悪い局所最小化につながり、QAOA変動パラメータの初期化戦略の探索を動機付ける。 多くのヒューリスティックな初期化が存在するが、大きな$p$に対する解析的理解と性能保証は避けられないままである。 層数の増加による性能向上を保証するQAOAの初期化について述べる。 我々の主な成果は、QAOAが$p+1$層を持つ局所最小のQAOAと$p$層を持つQAOAに対して、2p+1$遷移状態(ユニークな負曲率方向を持つサドル点)の解析的構成である。 遷移状態は新しい局所的ミニマと接続し、これは$p$層で見つかる最小のエネルギーよりも低いエネルギーを保証される。 我々はGREEDY法を用いて,解析構造の再帰的適用による局所最小値$p$の指数関数的増加をナビゲートする。 グリーディプロシージャのパフォーマンスは利用可能な初期化戦略に合致すると同時に、最小エネルギーが$p$の増加とともに減少する保証を提供する。

The quantum approximate optimization algorithm (QAOA) is a variational quantum algorithm, where a quantum computer implements a variational ansatz consisting of $p$ layers of alternating unitary operators and a classical computer is used to optimize the variational parameters. For a random initialization, the optimization typically leads to local minima with poor performance, motivating the search for initialization strategies of QAOA variational parameters. Although numerous heuristic initializations exist, an analytical understanding and performance guarantees for large $p$ remain evasive. We introduce a greedy initialization of QAOA which guarantees improving performance with an increasing number of layers. Our main result is an analytic construction of $2p+1$ transition states - saddle points with a unique negative curvature direction - for QAOA with $p+1$ layers that use the local minimum of QAOA with $p$ layers. Transition states connect to new local minima, which are guaranteed to lower the energy compared to the minimum found for $p$ layers. We use the GREEDY procedure to navigate the exponentially increasing with $p$ number of local minima resulting from the recursive application of our analytic construction. The performance of the GREEDY procedure matches available initialization strategies while providing a guarantee for the minimal energy to decrease with an increasing number of layers $p$.
翻訳日:2023-06-07 22:05:51 公開日:2023-06-06
# 量子状態におけるランダムアクセスコードの2例

Two instances of random access code in the quantum regime ( http://arxiv.org/abs/2208.14422v2 )

ライセンス: Link先を確認
Nitica Sakharwade, Micha{\l} Studzi\'nski, Micha{\l} Eckstein, and Pawe{\l} Horodecki(参考訳) 我々は、ランダムアクセスコード(rac)の量子一般化の2つのクラスを検討し、そのようなタスクの成功確率の下限を研究する。 制約のあるリソースを用いた情報処理タスクの研究に有用なフレームワークを提供する。 最初のクラスはランダムなアクセスコードに基づいており、量子入力と出力は非署名量子RAC (NS-QRAC) [A. Grudka et al. Phys. Rev. A 92, 052312 (2015)] と呼ばれる。 ns-qracシナリオの2つの修正について検討する。まず、アンバウンドなエンタングルメントと制約付き量子通信が許可され、次に、有界なエンタングルメントと制約のない古典的通信が許可されている場合、送信のフィデリティに対する一夫一夫一婦関係が、通常の通信方式とは対照的に、複数の送信者と1人の受信者が関与する。 これらのシナリオに対して,より低いバウンダリを提供します。 第2のクラスは、量子チャネルと共有絡み合い[A. Tavakoli et al. PRX Quantum 2 (4) 040357 (2021)]を持つランダムアクセスコードに基づいている。 2桁の$d$-baseからなる2つの入力をquditと最大絡み合った状態に符号化し、制約付き量子通信による量子密符号化として見ることができ、$d=2,3,4$の量子下界を提供する。 エンコーディングはグレーコードを利用する。

We consider two classes of quantum generalisations of Random Access Code (RAC) and study lower bounds for probabilities of success for such tasks. It provides a useful framework for the study of certain information processing tasks with constrained resources. The first class is based on a random access code with quantum inputs and output known as No-Signalling Quantum RAC (NS-QRAC) [A. Grudka et al. Phys. Rev. A 92, 052312 (2015)], where unbounded entanglement and constrained classical communication are allowed, which can be seen as quantum teleportation with constrained classical communication, for which we provide a quantum lower bound. We consider two modifications to the NS-QRAC scenario, first where unbounded entanglement and constrained quantum communication is allowed and, second where bounded entanglement and unconstrained classical communication are allowed, where we find a monogamy relation for the transmission fidelities, which -- in contrast to the usual communication schemes -- involves multiple senders and a single receiver. We provide lower bounds for these scenarios. The second class is based on a random access code with a quantum channel and shared entanglement [A. Tavakoli et al. PRX Quantum 2 (4) 040357 (2021)]. We study the set of tasks where two inputs made of two digits of $d$-base are encoded over a qudit and a maximally entangled state, which can be seen as quantum dense coding with constrained quantum communication, for which we provide quantum lower bounds for $d=2,3,4$. The encoding employed utilises Gray codes.
翻訳日:2023-06-07 22:05:25 公開日:2023-06-06
# 両部マッチングにおけるグループフェアネスの誤記による個人フェアネス-Them Alを近似するための一枠組み

Individual fairness under Varied Notions of Group Fairness in Bipartite Matching -- One Framework to Approximate Them Al ( http://arxiv.org/abs/2208.09951v3 )

ライセンス: Link先を確認
Atasi Panda, Anand Louis, Prajakta Nimbhorkar(参考訳) 我々は, 個別の公平性制約を満たしながら, プラットフォームにアイテムを割り当てる問題を考える。 それぞれの項目は特定のグループに関連付けられ、プラットフォーム上の優先順序を持つ。 各プラットフォームは、各グループからマッチできるアイテムの数の上限と下限を指定することで、グループフェア性を強制する。 群フェアネス制約を満たす複数の最適解が存在するかもしれないが、我々は「群フェア」マッチングの分布を計算して「確率的個人フェアネス」を達成することを目指している。 各項目が複数の群に属することができるとき、最大サイズのグループフェアマッチングを求める問題は、すべての群の下限が 0 であってもNPハードであり、個々の公正性制約はない。 合計$n$アイテムが与えられたとき、あるアイテムが少なくとも$\Delta$グループに属し、すべての群下限が 0 であるときに、$O(\Delta \log n)$近似アルゴリズムを達成する。 また,プラットフォーム近傍にアイテムを持つグループの総数に関して,近似アルゴリズムを2つ提供している。 各項目が1つのグループに属する場合、確率的に公平な分布を群フェアマッチング上で計算する多項式時間アルゴリズムを提供する。 私たちはさらにモデルとアルゴリズムを拡張して、フェアネスの次の概念に対処します。「最大群フェアネス」は最悪のグループの表現を最大化し、最も支配的なグループの表現を最小化する「ミニドム群フェアネス」です。

We consider the problem of assigning items to platforms while satisfying group and individual fairness constraints. Each item is associated with certain groups and has a preference ordering over platforms. Each platform enforces group fairness by specifying an upper and a lower bound on the number of items that can be matched to it from each group. Although there may be multiple optimal solutions that satisfy the group fairness constraints, we aim to achieve `probabilistic individual fairness' by computing a distribution over `group fair' matchings such that each item has a reasonable probability of being matched to one of its top choices. When each item can belong to multiple groups, the problem of finding a maximum size group-fair matching is NP-hard even when all the group lower bounds are 0, and there are no individual fairness constraints. Given a total of $n$ items, we achieve a $O(\Delta \log n)$ approximation algorithm when an item can belong to at most $\Delta$ groups, and all the group lower bounds are 0. We also provide two approximation algorithms in terms of the total number of groups that have items in the neighborhood of a platform. When each item belongs to a single group, we provide a polynomial-time algorithm that computes a probabilistic individually fair distribution over group fair matching. We further extend our model and algorithms to address the following notions of fairness: `maxmin group fairness', which maximizes the representation of the worst-off groups, and `mindom group fairness', which minimizes the representation of the most dominant groups.
翻訳日:2023-06-07 22:04:36 公開日:2023-06-06
# DL-DRL:マルチUAVの大規模タスクスケジューリングのための二重レベル深層強化学習手法

DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV ( http://arxiv.org/abs/2208.02447v3 )

ライセンス: Link先を確認
Xiao Mao, Zhiguang Cao, Mingfeng Fan, Guohua Wu, and Witold Pedrycz(参考訳) 無人航空機(UAV)によるタスク実行は近年人気が高まっている。 タスクスケジューリングの課題を解決するため、DRLに基づく手法は、手作業によるルールに依存しない従来のヒューリスティックスに対して顕著な優位性を示す。 しかし、その決定空間は、問題が大きくなるにつれて著しく巨大になり、計算効率が低下する。 この問題を軽減するために,多UAVのタスクスケジューリングをタスク割り当てと経路計画に分解する分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。 特に,上層階のDRLモデルにおいて,タスクを異なるUAVに割り当てるためのエンコーダ・デコーダ構成ポリシネットワークを設計し,下層階のDRLモデルでは,各UAVの経路を構築するために,UAVの最大飛行距離を最大化するために,別の注意に基づくポリシーネットワークを利用する。 2つのモデルを効果的に訓練するために,事前トレーニング,集中トレーニング,代替トレーニングを含む対話型トレーニング戦略(ITS)を設計する。 実験結果から,我々のDL-DRLは,OR-Toolsを含む学習ベースラインや従来のベースラインに対して,ソリューションの品質と計算効率の観点から好意的に作用することが示された。 また,最大1000タスクの大規模化に適用することにより,本手法の一般化性能を検証する。 さらに,我々のITSは,パフォーマンスとトレーニング効率のバランスをとる上で有効であることを示す。

Exploiting unmanned aerial vehicles (UAVs) to execute tasks is gaining growing popularity recently. To solve the underlying task scheduling problem, the deep reinforcement learning (DRL) based methods demonstrate notable advantage over the conventional heuristics as they rely less on hand-engineered rules. However, their decision space will become prohibitively huge as the problem scales up, thus deteriorating the computation efficiency. To alleviate this issue, we propose a double-level deep reinforcement learning (DL-DRL) approach based on a divide and conquer framework (DCF), where we decompose the task scheduling of multi-UAV into task allocation and route planning. Particularly, we design an encoder-decoder structured policy network in our upper-level DRL model to allocate the tasks to different UAVs, and we exploit another attention based policy network in our lower-level DRL model to construct the route for each UAV, with the objective to maximize the number of executed tasks given the maximum flight distance of the UAV. To effectively train the two models, we design an interactive training strategy (ITS), which includes pre-training, intensive training and alternate training. Experimental results show that our DL-DRL performs favorably against the learning-based and conventional baselines including the OR-Tools, in terms of solution quality and computation efficiency. We also verify the generalization performance of our approach by applying it to larger sizes of up to 1000 tasks. Moreover, we also show via an ablation study that our ITS can help achieve a balance between the performance and training efficiency.
翻訳日:2023-06-07 22:03:39 公開日:2023-06-06
# 猫の運動状態への非線形サイドバンド冷却

Nonlinear Sideband Cooling to a Cat State of Motion ( http://arxiv.org/abs/2208.02371v2 )

ライセンス: Link先を確認
Bradley D Hauer, Joshua Combes, John D. Teufel(参考訳) マクロメカニカル共振器を量子重ね合わせ状態に形成する能力は、キャビティ光学の優れた目標である。 本稿では,分散光学相互作用の固有非線形性を用いて,運動状態を生成する手法を提案する。 バイクロマティックドライブを光機械的キャビティに適用することにより,本プロトコルはシステム固有の2次プロセスを強化し,必要な2フォノン散逸を誘導する。 この非線形サイドバンド冷却技術は、機械的共振器を猫状態に散逸的に設計できることを示し、フルハミルトニアンモデルとアダイアバティカル低減モデルを用いて検証した。 単一光子・強結合系では猫状態の忠実性は最大化されるが,弱いカップリングにおいてもウィグナーネガティビティは持続する。 最後に, 猫の状態生成プロトコルは機械モードの著しい熱的非一貫性に頑健であることを示し, 短期実験システムではそのような手法が実現可能であることを示す。

The ability to prepare a macroscopic mechanical resonator into a quantum superposition state is an outstanding goal of cavity optomechanics. Here, we propose a technique to generate cat states of motion using the intrinsic nonlinearity of a dispersive optomechanical interaction. By applying a bichromatic drive to an optomechanical cavity, our protocol enhances the inherent second-order processes of the system, inducing the requisite two-phonon dissipation. We show that this nonlinear sideband cooling technique can dissipatively engineer a mechanical resonator into a cat state, which we verify using the full Hamiltonian and an adiabatically reduced model. While the fidelity of the cat state is maximized in the single-photon, strong-coupling regime, we demonstrate that Wigner negativity persists even for weak coupling. Finally, we show that our cat state generation protocol is robust to significant thermal decoherence of the mechanical mode, indicating that such a procedure may be feasible for near-term experimental systems.
翻訳日:2023-06-07 22:03:08 公開日:2023-06-06
# 小データの学習に関するサーベイ:一般化,最適化,課題

A Survey of Learning on Small Data: Generalization, Optimization, and Challenge ( http://arxiv.org/abs/2207.14443v2 )

ライセンス: Link先を確認
Xiaofeng Cao, Weixin Bu, Shengjun Huang, Minling Zhang, Ivor W. Tsang, Yew Soon Ong, and James T. Kwok(参考訳) ビッグデータの学習は人工知能(AI)の成功をもたらすが、アノテーションとトレーニングコストは高い。 将来的には、ビッグデータの一般化能力を近似した小さなデータを学ぶことが、AIの究極の目的の1つであり、マシンは小さなデータに依存する目的やシナリオを人間として認識する必要がある。 アクティブな学習や数発の学習など、一連の学習トピックがこのように進んでいる。 しかし、その一般化性能に関する理論的な保証はほとんどない。 さらに、ほとんどの設定は受動的であり、ラベル分布は既知の分布から有限のトレーニングリソースによって明示的に制御される。 本研究は, モデルに依存しない, 教師なしの手法を用いて, 小データの学習における一般化誤差とラベルの複雑さを解析するために, PAC(おそらく略正)フレームワーク下での能動サンプリング理論に従う。 複数の学習コミュニティが小さなデータ表現を生成でき、関連するトピックが十分に調査されていることを考慮し、小さなデータのための新しい幾何学的表現視点であるユークリッドと非ユークリッド(双曲的)平均(ユークリッド勾配、非ユークリッド勾配、スタイン勾配を含む最適化解を提示・議論した。 その後、小さなデータによる学習によって改善される可能性のある複数の学習コミュニティを要約し、転送学習、コントラスト学習、グラフ表現学習などのデータ効率のよい表現を生成する。 一方,メタラーニングは,小データの学習に有効なパラメータ更新ポリシーを提供する可能性がある。 次に、弱い監督やマルチラベルなど、小さなデータに対する複数の困難なシナリオを探求する。 最後に、効率的なデータ表現の恩恵を受ける複数のデータアプリケーションが調査される。

Learning on big data brings success for artificial intelligence (AI), but the annotation and training costs are expensive. In future, learning on small data that approximates the generalization ability of big data is one of the ultimate purposes of AI, which requires machines to recognize objectives and scenarios relying on small data as humans. A series of learning topics is going on this way such as active learning and few-shot learning. However, there are few theoretical guarantees for their generalization performance. Moreover, most of their settings are passive, that is, the label distribution is explicitly controlled by finite training resources from known distributions. This survey follows the agnostic active sampling theory under a PAC (Probably Approximately Correct) framework to analyze the generalization error and label complexity of learning on small data in model-agnostic supervised and unsupervised fashion. Considering multiple learning communities could produce small data representation and related topics have been well surveyed, we thus subjoin novel geometric representation perspectives for small data: the Euclidean and non-Euclidean (hyperbolic) mean, where the optimization solutions including the Euclidean gradients, non-Euclidean gradients, and Stein gradient are presented and discussed. Later, multiple learning communities that may be improved by learning on small data are summarized, which yield data-efficient representations, such as transfer learning, contrastive learning, graph representation learning. Meanwhile, we find that the meta-learning may provide effective parameter update policies for learning on small data. Then, we explore multiple challenging scenarios for small data, such as the weak supervision and multi-label. Finally, multiple data applications that may benefit from efficient small data representation are surveyed.
翻訳日:2023-06-07 22:02:50 公開日:2023-06-06
# 準同型オートエンコーダ --観察された遷移からの学習群構造化表現

Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions ( http://arxiv.org/abs/2207.12067v2 )

ライセンス: Link先を確認
Hamza Keurti, Hsiao-Ru Pan, Michel Besserve, Benjamin F. Grewe, Bernhard Sch\"olkopf(参考訳) エージェントが現実世界との相互作用を検証的に表現する内部モデルをどのように学習するかは、ほとんどオープンな問題である。 機械学習は観察的だけでなく介入的知識も含む表現に向かって進んでいるため、表現学習やグループ理論のツールを用いてこの問題を研究する。 本稿では,世界に対して行動するエージェントが,それを修正する行動と整合する感覚情報の内部表現を学習できるようにする手法を提案する。 我々は、その潜在空間に作用する群表現を備えたオートエンコーダを用い、同分散損失を用いて訓練し、群表現に適切な準同型性を強制する。 既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。 この手法を理論的にモチベーション付けし,行動の集団表現を学習できることを実証的に示し,環境に適用される変換の集合の構造を捉える。 さらに,これによってエージェントは,将来的な行動のシーケンスの効果を精度良く予測できることを示す。

How can agents learn internal models that veridically represent interactions with the real world is a largely open question. As machine learning is moving towards representations containing not just observational but also interventional knowledge, we study this problem using tools from representation learning and group theory. We propose methods enabling an agent acting upon the world to learn internal representations of sensory information that are consistent with actions that modify it. We use an autoencoder equipped with a group representation acting on its latent space, trained using an equivariance-derived loss in order to enforce a suitable homomorphism property on the group representation. In contrast to existing work, our approach does not require prior knowledge of the group and does not restrict the set of actions the agent can perform. We motivate our method theoretically, and show empirically that it can learn a group representation of the actions, thereby capturing the structure of the set of transformations applied to the environment. We further show that this allows agents to predict the effect of sequences of future actions with improved accuracy.
翻訳日:2023-06-07 22:02:19 公開日:2023-06-06
# エントロピー駆動型教師なしキーポイント表現学習

Entropy-driven Unsupervised Keypoint Representation Learning in Videos ( http://arxiv.org/abs/2209.15404v2 )

ライセンス: Link先を確認
Ali Younes, Simone Schaub-Meyer, Georgia Chalvatzaki(参考訳) 様々な下流タスクを効果的に学習するためには,映像から情報表現を抽出することが重要である。 本稿では,映像中のピクセル単位の情報を定量化する画像空間エントロピー(ise)の概念を活用して,映像から有意義な表現を教師なし学習する新しい手法を提案する。 ピクセル近傍の \textit{local entropy} とその時間的発展は、顕著な特徴を学ぶ上で貴重な内在的監督信号を生み出す。 このアイデアに基づき、視覚的な特徴を動的情報送信機として機能するキーポイントの簡潔な表現に抽象化し、ビデオフレームから純粋に教師なし、空間的、時間的に一貫性のある表現を学習するディープラーニングモデルを設計する。 局所エントロピーから計算した2つの情報理論的な損失は,キーポイントがカバーする空間情報を最大化する損失と,キーポイントの情報転送を時間とともに最適化する損失である。 キーポイント表現を、ダウンストリームタスクの強力なベースライン、例えばオブジェクトダイナミクスの学習と比較します。 静的および動的オブジェクトやシーンの突然の入退場といった課題を解決する、情報駆動のキーポイントに対して優れたパフォーマンスを示しました。

Extracting informative representations from videos is fundamental for effectively learning various downstream tasks. We present a novel approach for unsupervised learning of meaningful representations from videos, leveraging the concept of image spatial entropy (ISE) that quantifies the per-pixel information in an image. We argue that \textit{local entropy} of pixel neighborhoods and their temporal evolution create valuable intrinsic supervisory signals for learning prominent features. Building on this idea, we abstract visual features into a concise representation of keypoints that act as dynamic information transmitters, and design a deep learning model that learns, purely unsupervised, spatially and temporally consistent representations \textit{directly} from video frames. Two original information-theoretic losses, computed from local entropy, guide our model to discover consistent keypoint representations; a loss that maximizes the spatial information covered by the keypoints and a loss that optimizes the keypoints' information transportation over time. We compare our keypoint representation to strong baselines for various downstream tasks, \eg, learning object dynamics. Our empirical results show superior performance for our information-driven keypoints that resolve challenges like attendance to static and dynamic objects or objects abruptly entering and leaving the scene.
翻訳日:2023-06-07 21:55:30 公開日:2023-06-06
# fed-cbs:クラス不均衡低減によるフェデレーション学習のためのヘテロゲニティアウェアクライアントサンプリング機構

Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction ( http://arxiv.org/abs/2209.15245v2 )

ライセンス: Link先を確認
Jianyi Zhang, Ang Li, Minxue Tang, Jingwei Sun, Xiang Chen, Fan Zhang, Changyou Chen, Yiran Chen, Hai Li(参考訳) エッジデバイスの通信能力が限られているため、既存のフェデレーション学習(FL)手法は、各通信ラウンドのトレーニングに参加する装置のサブセットのみをランダムに選択する。 利用可能なすべてのクライアントと比べ、ランダム選択機構は、非IID(独立かつ同一の分散)データに対して大幅なパフォーマンス劣化を引き起こす可能性がある。 本稿では,このような性能劣化をもたらす重要な理由は,ランダムに選択されたクライアントからのグループデータのクラス不均衡であることを示す。 提案手法では,目的とするクライアントからグループデータセットのクラス不均衡を効果的に低減できる,効率のよいヘテロゲニティ・アウェアクライアントサンプリング機構,すなわちフェデレートクラスバランスサンプリング(fed-cbs)を設計した。 特に,クラス不均衡の尺度を提案し,この尺度をプライバシ保存方式で導出するために準同型暗号を用いる。 この尺度に基づいて,アクティブに選択されたクライアントが,理論的に保証されたよりクラスバランスのよいグループ化データセットを生成するような,計算効率の高いクライアントサンプリング戦略も設計する。 大規模な実験の結果、Fed-CBSは現状のクオアプローチよりも優れていた。 さらに、すべての利用可能なクライアントがFLトレーニングに参加する理想的な設定よりも、同等またはそれ以上のパフォーマンスを達成する。

Due to limited communication capacities of edge devices, most existing federated learning (FL) methods randomly select only a subset of devices to participate in training for each communication round. Compared with engaging all the available clients, the random-selection mechanism can lead to significant performance degradation on non-IID (independent and identically distributed) data. In this paper, we show our key observation that the essential reason resulting in such performance degradation is the class-imbalance of the grouped data from randomly selected clients. Based on our key observation, we design an efficient heterogeneity-aware client sampling mechanism, i.e., Federated Class-balanced Sampling (Fed-CBS), which can effectively reduce class-imbalance of the group dataset from the intentionally selected clients. In particular, we propose a measure of class-imbalance and then employ homomorphic encryption to derive this measure in a privacy-preserving way. Based on this measure, we also design a computation-efficient client sampling strategy, such that the actively selected clients will generate a more class-balanced grouped dataset with theoretical guarantees. Extensive experimental results demonstrate Fed-CBS outperforms the status quo approaches. Furthermore, it achieves comparable or even better performance than the ideal setting where all the available clients participate in the FL training.
翻訳日:2023-06-07 21:55:07 公開日:2023-06-06
# MLink: 協調推論のために複数のドメインからブラックボックスモデルをリンクする

MLink: Linking Black-Box Models from Multiple Domains for Collaborative Inference ( http://arxiv.org/abs/2209.13883v2 )

ライセンス: Link先を確認
Mu Yuan, Lan Zhang, Zimu Zheng, Yi-Nan Zhang, Xiang-Yang Li(参考訳) モデル推論のコスト効率は、現実の機械学習(ML)アプリケーション、特に遅延に敏感なタスクやリソース制限されたデバイスに不可欠である。 典型的なジレンマは、複雑なインテリジェントなサービス(スマートシティなど)を提供するには、複数のMLモデルの推論結果が必要ですが、コスト予算(GPUメモリなど)はそれらすべてを実行するには不十分です。 本研究では,ブラックボックスmlモデル間の基礎的関係を調査し,その出力空間間のマッピング(ダビングモデルリンク)を学習することで,ブラックボックスモデルの知識を橋渡しすることを目的とした,新しい学習タスクであるモデルリンクを提案する。 異種ブラックボックスMLモデルのリンクを支援するモデルリンクの設計を提案する。 また,分布の不一致問題に対処するため,モデルリンクの適応と集約手法を提案する。 提案するモデルリンクに基づいて,MLinkというスケジューリングアルゴリズムを開発した。 モデルリンクによる協調的マルチモデル推論により,MLinkはコスト予算の下で得られた推論結果の精度を向上させることができる。 MLinkを7つの異なるMLモデルと2つの実世界のビデオ分析システムと6つのMLモデルと3,264時間のビデオを含むマルチモーダルデータセットで評価した。 実験の結果,提案するモデルリンクは,様々なブラックボックスモデル間で効果的に構築できることがわかった。 GPUメモリの予算の下では、MLinkは66.7%の推論計算を節約し、94%の推論精度を保ち、マルチタスク学習、ディープ強化学習ベースのスケジューラ、フレームフィルタリングベースラインを上回っている。

The cost efficiency of model inference is critical to real-world machine learning (ML) applications, especially for delay-sensitive tasks and resource-limited devices. A typical dilemma is: in order to provide complex intelligent services (e.g. smart city), we need inference results of multiple ML models, but the cost budget (e.g. GPU memory) is not enough to run all of them. In this work, we study underlying relationships among black-box ML models and propose a novel learning task: model linking, which aims to bridge the knowledge of different black-box models by learning mappings (dubbed model links) between their output spaces. We propose the design of model links which supports linking heterogeneous black-box ML models. Also, in order to address the distribution discrepancy challenge, we present adaptation and aggregation methods of model links. Based on our proposed model links, we developed a scheduling algorithm, named MLink. Through collaborative multi-model inference enabled by model links, MLink can improve the accuracy of obtained inference results under the cost budget. We evaluated MLink on a multi-modal dataset with seven different ML models and two real-world video analytics systems with six ML models and 3,264 hours of video. Experimental results show that our proposed model links can be effectively built among various black-box models. Under the budget of GPU memory, MLink can save 66.7% inference computations while preserving 94% inference accuracy, which outperforms multi-task learning, deep reinforcement learning-based scheduler and frame filtering baselines.
翻訳日:2023-06-07 21:54:34 公開日:2023-06-06
# InFi: モバイル中心推論におけるリソース効率のための入力をフィルタするエンドツーエンド学習

InFi: End-to-End Learning to Filter Input for Resource-Efficiency in Mobile-Centric Inference ( http://arxiv.org/abs/2209.13873v2 )

ライセンス: Link先を確認
Mu Yuan, Lan Zhang, Fengxiang He, Xueting Tong, Miao-Hui Song, Zhengyuan Xu, Xiang-Yang Li(参考訳) モバイル中心のAIアプリケーションは、モデル推論のリソース効率の要求が高い。 入力フィルタリングは冗長性を排除し、推論コストを削減するための有望なアプローチである。 従来,多くのアプリケーションに対して効果的な解法を調整してきたが,(1)入力フィルタリング技術の応用を導くための推論作業の理論的フィルタリング可能性,(2)入力フィルタリングが多様な推論タスクや入力コンテンツに広く有効であるように,機能埋め込みの堅牢な識別性,という2つの重要な疑問を残した。 そこで我々はまず,入力フィルタリング問題を定式化し,推論モデルと入力フィルタの仮説複雑性を理論的に比較し,最適化の可能性を理解する。 次に,最先端の手法をほとんどカバーし,堅牢な識別性を備えた特徴埋め込みでそれらを上回る,エンドツーエンドの学習可能な入力フィルタリングフレームワークを提案する。 6つの入力モダリティと複数のモバイル中心のデプロイメントをサポートするInFiの設計と実装を行う。 総合評価の結果から,InFiは適用性,精度,効率において高いベースラインを達成できた。 InFiは8.5倍のスループットを実現し、95%の帯域幅を節約し、90%以上の精度を維持している。

Mobile-centric AI applications have high requirements for resource-efficiency of model inference. Input filtering is a promising approach to eliminate the redundancy so as to reduce the cost of inference. Previous efforts have tailored effective solutions for many applications, but left two essential questions unanswered: (1) theoretical filterability of an inference workload to guide the application of input filtering techniques, thereby avoiding the trial-and-error cost for resource-constrained mobile applications; (2) robust discriminability of feature embedding to allow input filtering to be widely effective for diverse inference tasks and input content. To answer them, we first formalize the input filtering problem and theoretically compare the hypothesis complexity of inference models and input filters to understand the optimization potential. Then we propose the first end-to-end learnable input filtering framework that covers most state-of-the-art methods and surpasses them in feature embedding with robust discriminability. We design and implement InFi that supports six input modalities and multiple mobile-centric deployments. Comprehensive evaluations confirm our theoretical results and show that InFi outperforms strong baselines in applicability, accuracy, and efficiency. InFi achieve 8.5x throughput and save 95% bandwidth, while keeping over 90% accuracy, for a video analytics application on mobile platforms.
翻訳日:2023-06-07 21:54:08 公開日:2023-06-06
# 質量分布が不明な剛体像からの3次元回転ダイナミクス予測のための学習

Learning to predict 3D rotational dynamics from images of a rigid body with unknown mass distribution ( http://arxiv.org/abs/2209.11355v2 )

ライセンス: Link先を確認
Justice Mason and Christine Allen-Blanchette and Nicholas Zolman and Elizabeth Davison and Naomi Leonard(参考訳) 多くの実世界の環境では、低次元の測定がなければ、自由に回転する3次元剛体の画像観察が可能である。 しかし、画像データの高次元性は、力学を学ぶために古典的推定技術を使うことを妨げる。 標準的な深層学習法の有用性は、剛体のイメージが体内の質量の分布について何も明らかにしないため、最初の角速度とともに、身体がどのように回転するかを決定するため、制限される。 画像列から3次元回転力学を推定・予測する物理インフォームドニューラルネットワークモデルを提案する。 これを多段階予測パイプラインを用いて実現し、個々の画像を$\mathbf{so}(3)$ に準同型な潜在表現にマッピングし、潜在対からの角速度を計算し、ハミルトニアン運動方程式を用いて将来の潜在状態を予測する。 本研究では, 立方体, プリズム, 衛星を含む回転物体の合成画像列を, 均一な質量分布と不均一な質量分布を持つ新しい回転剛体データセットに適用した。

In many real-world settings, image observations of freely rotating 3D rigid bodies, may be available when low-dimensional measurements are not. However, the high-dimensionality of image data precludes the use of classical estimation techniques to learn the dynamics. The usefulness of standard deep learning methods is also limited because an image of a rigid body reveals nothing about the distribution of mass inside the body, which, together with initial angular velocity, is what determines how the body will rotate. We present a physics-informed neural network model to estimate and predict 3D rotational dynamics from image sequences. We achieve this using a multi-stage prediction pipeline that maps individual images to a latent representation homeomorphic to $\mathbf{SO}(3)$, computes angular velocities from latent pairs, and predicts future latent states using the Hamiltonian equations of motion. We demonstrate the efficacy of our approach on new rotating rigid-body datasets of sequences of synthetic images of rotating objects, including cubes, prisms and satellites, with unknown uniform and non-uniform mass distributions.
翻訳日:2023-06-07 21:53:43 公開日:2023-06-06
# SELTO: サンプル効率の良い学習トポロジ最適化

SELTO: Sample-Efficient Learned Topology Optimization ( http://arxiv.org/abs/2209.05098v2 )

ライセンス: Link先を確認
S\"oren Dittmer, David Erzmann, Henrik Harms, Peter Maass(参考訳) 近年のディープラーニング(DL)の発展は、トポロジ最適化(TO)の可能性を示唆している。 しかし、いくつかの有望な試みはあるものの、サブフィールドには基本的な方法やデータセットに関する確固たる基礎が欠けている。 私たちは両方の点に対処しようとしている。 まず物理に基づく前処理と同変ネットワークを探索し,TO DLパイプラインのためのサンプル効率の高いコンポーネントを作成する。 エンド・ツー・エンド指導による大規模アブレーション研究で評価を行った。 その結果, 試料効率と予測値の物理的正確性が大きく向上した。 第2に,両立可能性と今後の進展を改善するため,まず,問題を含むデータセットとそれに対応する基底的真理ソリューションを2つ公開する。

Recent developments in Deep Learning (DL) suggest a vast potential for Topology Optimization (TO). However, while there are some promising attempts, the subfield still lacks a firm footing regarding basic methods and datasets. We aim to address both points. First, we explore physics-based preprocessing and equivariant networks to create sample-efficient components for TO DL pipelines. We evaluate them in a large-scale ablation study using end-to-end supervised training. The results demonstrate a drastic improvement in sample efficiency and the predictions' physical correctness. Second, to improve comparability and future progress, we publish the two first TO datasets containing problems and corresponding ground truth solutions.
翻訳日:2023-06-07 21:52:42 公開日:2023-06-06
# 抽象目標のモデル化による次の行動予測

Predicting the Next Action by Modeling the Abstract Goal ( http://arxiv.org/abs/2209.05044v3 )

ライセンス: Link先を確認
Debaditya Roy and Basura Fernando(参考訳) 人間の行動を予測する問題は本質的に不確実である。 しかし、俳優が達成しようとしている目標を把握できれば、この不確実性を低減することができる。 本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。 我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。 そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。 この抽象目標を,変動リカレントネットワークを用いてパラメータを推定する分布として設計する。 我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。 提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。 ek55のs1法と比較して,top-1動詞の+13.69,+11.24,+5.19,top-1名詞,top-1行動予測精度の絶対的改善が得られた。 同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。 EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。 本論文の提出により,本手法は現在,ek55およびegtea gaze+ https://competitions.codalab.org/competitions/20071#resultsコードが,https://github.com/debadityaroy/abstract_goalで利用可能である。

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal
翻訳日:2023-06-07 21:52:33 公開日:2023-06-06
# 回転測定による格子型量子アドバンテージ

Lattice-Based Quantum Advantage from Rotated Measurements ( http://arxiv.org/abs/2210.10143v2 )

ライセンス: Link先を確認
Yusuf Alnawakhtha and Atul Mantri and Carl A. Miller and Daochen Wang(参考訳) Trapdoor Claw-free Function (TCF) は、古典的なクライアントと量子サーバーの間の暗号化相互作用において非常に有用である。 通常、プロトコルは、量子サーバが爪の2ビット文字列の重ね合わせを準備し、pauli-$x$または$z$を用いて測定する。 本稿では,XY$-planeの量子ビット測定範囲全体を用いた新しい手法について紹介する。 このアプローチの利点を2つのアプリケーションで示します。 まず、(Brakerski et al. 2018, Kalai et al. 2022)に基づいて、LWE問題(エラーを伴う学習)の難しさの観点から、セキュリティを直接表現できる量子性の最適化された2ラウンドの証明を示す。 第2に、任意の状態の視覚的遠隔準備のためのワンラウンドプロトコルを、Pauli-Z$修正まで$XY$平面上に構築する。

Trapdoor claw-free functions (TCFs) are immensely valuable in cryptographic interactions between a classical client and a quantum server. Typically, a protocol has the quantum server prepare a superposition of two-bit strings of a claw and then measure it using Pauli-$X$ or $Z$ measurements. In this paper, we demonstrate a new technique that uses the entire range of qubit measurements from the $XY$-plane. We show the advantage of this approach in two applications. First, building on (Brakerski et al. 2018, Kalai et al. 2022), we show an optimized two-round proof of quantumness whose security can be expressed directly in terms of the hardness of the LWE (learning with errors) problem. Second, we construct a one-round protocol for blind remote preparation of an arbitrary state on the $XY$-plane up to a Pauli-$Z$ correction.
翻訳日:2023-06-07 21:45:55 公開日:2023-06-06
# 非構造化知識の検索による自己適応型名前付きエンティティ認識

Self-Adaptive Named Entity Recognition by Retrieving Unstructured Knowledge ( http://arxiv.org/abs/2210.07523v3 )

ライセンス: Link先を確認
Kosuke Nishida, Naoki Yoshinaga, Kyosuke Nishida(参考訳) 名前付きエンティティ認識(NER)は、テキスト(例えば、音楽領域のアーティスト)からドメイン固有のエンティティを抽出するのに役立ちますが、ターゲット領域で正確なNERを実行するために、大量のトレーニングデータや構造化知識ベースを作成するのにコストがかかります。 本稿では,未構造化テキストから外部知識を抽出し,未学習のエンティティの使用法を学ぶ自己適応型nerを提案する。 NERの有用な知識を検索するために、不確実なエンティティをクエリとして利用し、非構造化知識を検索する効果的な2段階モデルを設計する。 我々のモデルは入力内のエンティティを予測し、その予測が信頼できないエンティティを見つける。 そして、これらの不確実なエンティティをクエリとして使用して知識を検索し、検索したテキストを元の入力に結合して予測を改訂する。 クロスナーデータセットの実験により、このモデルはf1メトリックの強いベースラインを2.35ポイント上回った。

Although named entity recognition (NER) helps us to extract domain-specific entities from text (e.g., artists in the music domain), it is costly to create a large amount of training data or a structured knowledge base to perform accurate NER in the target domain. Here, we propose self-adaptive NER, which retrieves external knowledge from unstructured text to learn the usages of entities that have not been learned well. To retrieve useful knowledge for NER, we design an effective two-stage model that retrieves unstructured knowledge using uncertain entities as queries. Our model predicts the entities in the input and then finds those of which the prediction is not confident. Then, it retrieves knowledge by using these uncertain entities as queries and concatenates the retrieved text to the original input to revise the prediction. Experiments on CrossNER datasets demonstrated that our model outperforms strong baselines by 2.35 points in F1 metric.
翻訳日:2023-06-07 21:45:35 公開日:2023-06-06
# インシシデント予測のためのゼロショットプロンプトとコモンセンス推論による勧告

Zero-Shot Prompting for Implicit Intent Prediction and Recommendation with Commonsense Reasoning ( http://arxiv.org/abs/2210.05901v2 )

ライセンス: Link先を確認
Hui-Chi Kuo, Yun-Nung Chen(参考訳) インテリジェントな仮想アシスタントは、現在ユーザーが明示的に述べたタスクやサービスを実行するように設計されているため、複数の関連するドメインやタスクは、多くの明示的な意図と長い会話を通じてひとつずつ実行する必要がある。 その代わり、人間のアシスタントは、常識的知識を通じてユーザー発話に基づいて暗黙の意図を推論し、複雑な相互作用を減らし、実用性を向上させることができる。 そこで本稿では,ユーザ発話に基づいて暗黙の意図を自動的に推論し,学習済みの大規模言語モデルを用いてゼロショットプロンプトを行い,適切なタスク指向のボットを起動する多ドメイン対話システムを提案する。 提案フレームワークは暗黙の意図の実現に有効であり,0ショット方式でボットを推奨する。

Intelligent virtual assistants are currently designed to perform tasks or services explicitly mentioned by users, so multiple related domains or tasks need to be performed one by one through a long conversation with many explicit intents. Instead, human assistants are capable of reasoning (multiple) implicit intents based on user utterances via commonsense knowledge, reducing complex interactions and improving practicality. Therefore, this paper proposes a framework of multi-domain dialogue systems, which can automatically infer implicit intents based on user utterances and then perform zero-shot prompting using a large pre-trained language model to trigger suitable single task-oriented bots. The proposed framework is demonstrated effective to realize implicit intents and recommend associated bots in a zero-shot manner.
翻訳日:2023-06-07 21:45:16 公開日:2023-06-06
# カーネルによる言語モデルの微調整

A Kernel-Based View of Language Model Fine-Tuning ( http://arxiv.org/abs/2210.05643v4 )

ライセンス: Link先を確認
Sadhika Malladi, Alexander Wettig, Dingli Yu, Danqi Chen, Sanjeev Arora(参考訳) 訓練済み言語モデル(LM)を微調整することで、特に低データ設定でNLPタスクを解決するのが標準になっている。 例えば、数十のトレーニングポイントで10^8$以上のパラメータを持つモデルの微調整が過度に適合しない理由など、経験的成功に関する最小限の理論的な理解がある。 ランダム初期化に適する無限広帯域ネットワークの勾配勾配ダイナミクスの研究モデルであるニューラル・タンジェント・カーネル(NTK)が,事前学習したLMの微調整について検討する。 この研究はコンピュータビジョンタスク(wei et al., 2022)におけるntkの性能に触発されたものである。 我々は、NTKフォーマリズムをAdamに拡張し、テンソルプログラム(Yang, 2020)を使用して、NTKレンズが事前訓練された言語モデルの微調整を記述できる条件を特徴付ける。 14のNLPタスクに対する大規模な実験により、ダウンストリームタスクをマスク付き単語予測問題として定式化することで、微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。 最後に、このカーネルビューを用いてパラメータ効率の高いサブスペースベース微調整法の成功を説明する。

It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) - which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization - describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam and use Tensor Programs (Yang, 2020) to characterize conditions under which the NTK lens may describe fine-tuning updates to pre-trained language models. Extensive experiments on 14 NLP tasks validate our theory and show that formulating the downstream task as a masked word prediction problem through prompting often induces kernel-based dynamics during fine-tuning. Finally, we use this kernel view to propose an explanation for the success of parameter-efficient subspace-based fine-tuning methods.
翻訳日:2023-06-07 21:45:01 公開日:2023-06-06
# 文脈内学習による制御可能な対話シミュレーション

Controllable Dialogue Simulation with In-Context Learning ( http://arxiv.org/abs/2210.04185v4 )

ライセンス: Link先を確認
Zekun Li, Wenhu Chen, Shiyang Li, Hong Wang, Jing Qian, Xifeng Yan(参考訳) 対話システムを構築するには、注釈付き対話の大きなコーパスが必要である。 このようなデータセットは通常、クラウドソーシングを通じて作成される。 本稿では,大規模言語モデルに基づく対話シミュレーション手法である \textsc{Dialogic} を提案する。 いくつかの注釈付きダイアログを使って、 \textsc{Dialogic} はデモ用のインコンテキストの例を自動的に選択し、GPT-3 に新しいダイアログとアノテーションを制御可能な方法で生成するよう促す。 提案手法は, 最小またはゼロの対話データと, \textit{parameter update} を迅速に拡張できるため, クラウドソーシングよりもコスト効率が高く, 時間の節約が容易である。 また,MultiWOZデータセットを用いた実験結果から,シミュレーションダイアログ上でのモデルのトレーニングは,低リソース環境下で同じ量の人間生成ダイアログを使用するよりも,シードとして85のダイアログを使用すれば,さらに優れたパフォーマンスが得られることが示された。 十分なデータが得られれば,本手法は有効なデータ拡張手法として機能する。 また,人間評価の結果から,対話の再現性が人間に近いこと,注記精度があることが判明した。 コードとデータは \textbf{\url{https://github.com/leezekun/dialogic}} で入手できる。

Building dialogue systems requires a large corpus of annotated dialogues. Such datasets are usually created via crowdsourcing, which is expensive and time-consuming. In this paper, we propose \textsc{Dialogic}, a novel dialogue simulation method based on large language model in-context learning to automate dataset creation. Seeded with a few annotated dialogues, \textsc{Dialogic} automatically selects in-context examples for demonstration and prompts GPT-3 to generate new dialogues and annotations in a controllable way. Our method can rapidly expand a small set of dialogue data with minimum or zero \textit{human involvement} and \textit{parameter update} and is thus much more cost-efficient and time-saving than crowdsourcing. Experimental results on the MultiWOZ dataset demonstrate that training a model on the simulated dialogues leads to even better performance than using the same amount of human-generated dialogues under the challenging low-resource settings, with as few as 85 dialogues as a seed. When enough data is available, our method can still serve as an effective data augmentation method. Human evaluation results also show that our simulated dialogues have near-human fluency and annotation accuracy. The code and data are available at \textbf{\url{https://github.com/Leezekun/dialogic}}.
翻訳日:2023-06-07 21:44:41 公開日:2023-06-06
# Guess the Instruction! Flipped Learningは、ゼロショット学習者より言語モデルを強くする

Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners ( http://arxiv.org/abs/2210.02969v4 )

ライセンス: Link先を確認
Seonghyeon Ye, Doyoung Kim, Joel Jang, Joongbo Shin, Minjoon Seo(参考訳) タスク命令と入力インスタンスが与えられたターゲットラベルの確率を最大化することにより、様々な下流タスクの言語モデル(LM)を微調整するメタトレーニングにより、ゼロショットタスクの一般化性能が向上した。 しかし、メタトレーニング中の新規ラベルを含む課題タスクへの一般化に苦慮している。 本稿では,入力インスタンスとラベルを与えられたタスク命令を生成するためにlmを訓練するメタトレーニングの代替手法であるflipped learningを提案する。 推論中、Flipped Learningと呼ばれるFlipped Learningで訓練されたLMは、タスク命令を生成する可能性が最も高いラベルオプションを選択する。 BIGベンチマークの14のタスクでは、11BサイズのFlippedはゼロショットのT0-11Bと16倍のGPT-3 (175B)をそれぞれ平均8.4%、9.7%で上回っている。 Flippedは、目に見えないラベルを持つタスクにおいて特に大きな改善をもたらし、T0-11Bを最大で20%のスコアで上回っている。 これは、Flippedの強いタスク一般化は、新しいラベルへの一般化の改善に由来することを示している。 私たちはコードをhttps://github.com/seonghyeonye/flipped-learningでリリースします。

Meta-training, which fine-tunes the language model (LM) on various downstream tasks by maximizing the likelihood of the target label given the task instruction and input instance, has improved the zero-shot task generalization performance. However, meta-trained LMs still struggle to generalize to challenging tasks containing novel labels unseen during meta-training. In this paper, we propose Flipped Learning, an alternative method of meta-training which trains the LM to generate the task instruction given the input instance and label. During inference, the LM trained with Flipped Learning, referred to as Flipped, selects the label option that is most likely to generate the task instruction. On 14 tasks of the BIG-bench benchmark, the 11B-sized Flipped outperforms zero-shot T0-11B and even a 16 times larger 3-shot GPT-3 (175B) on average by 8.4% and 9.7% points, respectively. Flipped gives particularly large improvements on tasks with unseen labels, outperforming T0-11B by up to +20% average F1 score. This indicates that the strong task generalization of Flipped comes from improved generalization to novel labels. We release our code at https://github.com/seonghyeonye/Flipped-Learning.
翻訳日:2023-06-07 21:44:16 公開日:2023-06-06
# 位相安定定在波における原子四極子遷移の制御

Control of an atomic quadrupole transition in a phase-stable standing wave ( http://arxiv.org/abs/2210.02597v2 )

ライセンス: Link先を確認
Alfredo Ricci Vasquez, Carmelo Mordini, Chlo\'e V\'erni\`ere, Martin Stadler, Maciej Malinowski, Chi Zhang, Daniel Kienzler, Karan K. Mehta, Jonathan P. Home(参考訳) 表面電極トラップに閉じ込められた1つのカルシウムイオンを用いて、電気四極子遷移と、トラップ内に集積されたフォトニクスによって誘導される受動位相安定光定常波の相互作用を研究する。 我々は、キャリアおよび動きのサイドバンド遷移と交流スタークシフトのラビ周波数の空間マッピングにより、光学場を特徴付ける。 また, 量子状態制御やメトロロジーにおいて, サイドバンド周波数とキャリアrabi周波数の組み合わせ, および特定のタスクに対する交流スタークシフトを好適に設計できることを示した。

Using a single calcium ion confined in a surface-electrode trap, we study the interaction of electric quadrupole transitions with a passively phase-stable optical standing wave field sourced by photonics integrated within the trap. We characterize the optical fields through spatial mapping of the Rabi frequencies of both carrier and motional sideband transitions as well as AC Stark shifts. Our measurements demonstrate the ability to engineer favorable combinations of sideband and carrier Rabi frequency as well as AC Stark shifts for specific tasks in quantum state control and metrology.
翻訳日:2023-06-07 21:43:53 公開日:2023-06-06
# 最小化移動スキームによる残留ネットワークのブロック的学習

Block-wise Training of Residual Networks via the Minimizing Movement Scheme ( http://arxiv.org/abs/2210.00949v2 )

ライセンス: Link先を確認
Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari(参考訳) エンドツーエンドのバックプロパゲーションにはいくつかの欠点がある。トレーニング中にモデル全体をロードする必要があるが、制約された設定では不可能であり、3つのロック問題(前方ロック、更新ロック、後方ロック)に苦しむため、並行してレイヤのトレーニングが禁止される。 階層最適化問題の解決はこれらの問題に対処し、ニューラルネットワークのデバイス上でのトレーニングに使用されている。 本研究では,分散空間における勾配流の最小化運動スキームに着想を得て,ResNetsに適応した階層的学習手法を開発した。 この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。 これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。 本手法では,ブロックを逐次トレーニングするか並列トレーニングするかに関わらず,ブロック単位でトレーニングした再ネットのテスト精度が向上することを示す。

End-to-end backpropagation has a few shortcomings: it requires loading the entire model during training, which can be impossible in constrained settings, and suffers from three locking problems (forward locking, update locking and backward locking), which prohibit training the layers in parallel. Solving layer-wise optimization problems can address these problems and has been used in on-device training of neural networks. We develop a layer-wise training method, particularly welladapted to ResNets, inspired by the minimizing movement scheme for gradient flows in distribution space. The method amounts to a kinetic energy regularization of each block that makes the blocks optimal transport maps and endows them with regularity. It works by alleviating the stagnation problem observed in layer-wise training, whereby greedily-trained early layers overfit and deeper layers stop increasing test accuracy after a certain depth. We show on classification tasks that the test accuracy of block-wise trained ResNets is improved when using our method, whether the blocks are trained sequentially or in parallel.
翻訳日:2023-06-07 21:43:26 公開日:2023-06-06
# 量子不和性の異なる概念をコミュニケーションの資源理論の厳密な階層に統一する

Unifying different notions of quantum incompatibility into a strict hierarchy of resource theories of communication ( http://arxiv.org/abs/2211.09226v2 )

ライセンス: Link先を確認
Francesco Buscemi, Kodai Kobayashi, Shintaro Minagawa, Paolo Perinotti, Alessandro Tosini(参考訳) 非互換なPOVMの定義には一般的なコンセンサスがあるが、楽器のレベルまで進むと、数学的に異なる論理的に独立な非互換の定義により、より明確な状況は見つからない。 ここでは、POVM、チャネル、楽器の異なる概念を分離された当事者間の通信のリソース理論の1つの階層に統一するq-compatibilityの概念を導入することで、このギャップを埋める。 私たちが得られる資源理論は、自由操作の完全族と、変換の存在に必要な十分な条件を提供する単調なモノトーンを含むという意味で完備である。 さらに,我々のフレームワークは,因果的に制約された古典的コミュニケーションによって支援される局所的な操作において,自由変換が明確に特徴づけられるという意味で,完全に動作している。 したがって、情報理論的な資源という観点から、それぞれの非互換性の概念が何であるかを正確に特定することができる。

While there is general consensus on the definition of incompatible POVMs, moving up to the level of instruments one finds a much less clear situation, with mathematically different and logically independent definitions of incompatibility. Here we close this gap by introducing the notion of q-compatibility, which unifies different notions of POVMs, channels, and instruments incompatibility into one hierarchy of resource theories of communication between separated parties. The resource theories that we obtain are complete, in the sense that they contain complete families of free operations and monotones providing necessary and sufficient conditions for the existence of a transformation. Furthermore, our framework is fully operational, in the sense that free transformations are characterized explicitly, in terms of local operations aided by causally-constrained directed classical communication, and all monotones possess a game-theoretic interpretation making them experimentally measurable in principle. We are thus able to pinpoint exactly what each notion of incompatibility consists of, in terms of information-theoretic resources.
翻訳日:2023-06-07 21:36:30 公開日:2023-06-06
# ゼロショット一般化のための普遍判別器

A Universal Discriminator for Zero-Shot Generalization ( http://arxiv.org/abs/2211.08099v2 )

ライセンス: Link先を確認
Haike Xu, Zongyu Lin, Jing Zhou, Yanan Zheng, Zhilin Yang(参考訳) 生成モデリングは、大規模事前学習とゼロショット一般化の主要なアプローチである。 本稿では,多数のnlpタスクにおいて,判別的アプローチが生成的アプローチよりもかなり優れていることを示すことにより,この慣例に挑戦する。 技術的には、テキストサンプルが真のデータ分布から来ているかどうかを予測するために、単一の識別器を訓練する。 多くのNLPタスクは、いくつかのオプションから選択できるので、この判別器を用いて入力の連結を予測し、どのオプションが真のデータ分布から来る確率が最も高いかを予測する。 この単純な定式化は、T0ベンチマークで最先端のゼロショット結果を達成し、それぞれ異なるスケールでT0を16.0\%、7.8\%、11.5\%で上回る。 また,本手法では,従来手法では1/4のパラメータしか持たなかった幅広いNLPタスクに対して,最新の結果が得られる。 一方、当社のアプローチでは、ロバスト性を大幅に改善し、現実世界のアプリケーションに不可欠な、最小限のプロンプト努力が必要です。 さらに, 汎用UDと生成タスクを併用して, 識別タスクの優位性を維持し, 生成タスクを同時に行うように訓練する。

Generative modeling has been the dominant approach for large-scale pretraining and zero-shot generalization. In this work, we challenge this convention by showing that discriminative approaches perform substantially better than generative ones on a large number of NLP tasks. Technically, we train a single discriminator to predict whether a text sample comes from the true data distribution, similar to GANs. Since many NLP tasks can be formulated as selecting from a few options, we use this discriminator to predict the concatenation of input and which option has the highest probability of coming from the true data distribution. This simple formulation achieves state-of-the-art zero-shot results on the T0 benchmark, outperforming T0 by 16.0\%, 7.8\%, and 11.5\% respectively on different scales. In the finetuning setting, our approach also achieves new state-of-the-art results on a wide range of NLP tasks, with only 1/4 parameters of previous methods. Meanwhile, our approach requires minimal prompting efforts, which largely improves robustness and is essential for real-world applications. Furthermore, we also jointly train a generalized UD in combination with generative tasks, which maintains its advantage on discriminative tasks and simultaneously works on generative tasks.
翻訳日:2023-06-07 21:35:43 公開日:2023-06-06
# オフポリティ強化学習はいつ実現可能か?

When is Realizability Sufficient for Off-Policy Reinforcement Learning? ( http://arxiv.org/abs/2211.05311v2 )

ライセンス: Link先を確認
Andrea Zanette(参考訳) 強化学習のためのモデルフリーアルゴリズムは通常、追加の条件が満たされない限り、関数近似でオフポリシーをうまく操作するためにベルマン完全性と呼ばれる条件を必要とする。 しかし、ベルマン完全性は実現可能性よりもはるかに強い要件であり、実際に保持するには強すぎると考えられている。 本研究では, この構造的仮定を緩和し, 所定の関数クラスにのみ実現可能である場合に, 外部強化学習の統計的複雑さを解析する。 我々は,本質的ベルマン誤差として知られる近似誤差項を含まない,3つの因子の相互作用に依存するオフ・ポリティカル強化学習のための有限サンプル保証を確立する。 最初の2つはよく知られており、それらは函数クラスの計量エントロピーであり、非政治学習のコストを表す集中係数である。 第3の要素は新しいもので、ベルマン完全性、すなわち選択された関数クラスとベルマン演算子によるイメージの誤調整を計測する。 本質的に、これらの誤差境界は、ベルマン完全性がなくても、オフ・ポリティカル強化学習は統計的に有益であり、好ましくないベルマン完全設定と指数的に下限が強制される最悪のシナリオの間の中間的な状況を特徴付ける。 我々の分析は、時間差アルゴリズムが収束する際の解に直接適用される。

Model-free algorithms for reinforcement learning typically require a condition called Bellman completeness in order to successfully operate off-policy with function approximation, unless additional conditions are met. However, Bellman completeness is a requirement that is much stronger than realizability and that is deemed to be too strong to hold in practice. In this work, we relax this structural assumption and analyze the statistical complexity of off-policy reinforcement learning when only realizability holds for the prescribed function class. We establish finite-sample guarantees for off-policy reinforcement learning that are free of the approximation error term known as inherent Bellman error, and that depend on the interplay of three factors. The first two are well known: they are the metric entropy of the function class and the concentrability coefficient that represents the cost of learning off-policy. The third factor is new, and it measures the violation of Bellman completeness, namely the mis-alignment between the chosen function class and its image through the Bellman operator. In essence, these error bounds establish that off-policy reinforcement learning remains statistically viable even in absence of Bellman completeness, and characterize the intermediate situation between the favorable Bellman complete setting and the worst-case scenario where exponential lower bounds are in force. Our analysis directly applies to the solution found by temporal difference algorithms when they converge.
翻訳日:2023-06-07 21:35:22 公開日:2023-06-06
# 好ましくは言わない:任意の個人データを用いたモデルにおけるユーザコンテントの保護

I Prefer not to Say: Protecting User Consent in Models with Optional Personal Data ( http://arxiv.org/abs/2210.13954v4 )

ライセンス: Link先を確認
Tobias Leemann, Martin Pawelczyk, Christian Thomas Eberle, Gjergji Kasneci(参考訳) 現代の保険価格モデルに見られるように、個人が任意の個人情報を意思決定システムと共有できるような設定で機械学習モデルを検討する。 使用中のデータに同意するユーザもいれば,データの公開を控えるユーザもいる。 本研究は,データの共有をしない決定を,ユーザのプライバシーを尊重するために保護すべき情報と見なすことができることを示す。 この観察は、個人情報を保護しているユーザーが不利益を被らないようにする方法の見過ごされがちな問題を引き起こす。 この問題に対処するため,我々は,アクティブユーザの同意を得た情報のみを使用するモデルに対する保護要件を定式化する。 これは、データを共有するか否かの決定に含まれる暗黙の情報を除外する。 保護要件下での損失最適性を証明した保護ユーザコンセント(PUC)の概念を提案することにより,この問題に対する最初の解決策を提供する。 PUCに準拠したモデルを学習するために,有限サンプル収束保証付きモデルに依存しないデータ拡張戦略を提案する。 最後に、様々な挑戦的な実世界のデータセット、タスク、モデルに対するpucの影響を分析する。

We examine machine learning models in a setup where individuals have the choice to share optional personal information with a decision-making system, as seen in modern insurance pricing models. Some users consent to their data being used whereas others object and keep their data undisclosed. In this work, we show that the decision not to share data can be considered as information in itself that should be protected to respect users' privacy. This observation raises the overlooked problem of how to ensure that users who protect their personal data do not suffer any disadvantages as a result. To address this problem, we formalize protection requirements for models which only use the information for which active user consent was obtained. This excludes implicit information contained in the decision to share data or not. We offer the first solution to this problem by proposing the notion of Protected User Consent (PUC), which we prove to be loss-optimal under our protection requirement. To learn PUC-compliant models, we devise a model-agnostic data augmentation strategy with finite sample convergence guarantees. Finally, we analyze the implications of PUC on a variety of challenging real-world datasets, tasks, and models.
翻訳日:2023-06-07 21:34:27 公開日:2023-06-06
# 量子力学の摂動解析とシミュレーションのためのアルゴリズム

Algorithms for perturbative analysis and simulation of quantum dynamics ( http://arxiv.org/abs/2210.11595v2 )

ライセンス: Link先を確認
Daniel Puzzuoli, Sophia Fuhui Lin, Moein Malekakhlagh, Emily Pritchett, Benjamin Rosand, Christopher J. Wood(参考訳) ダイソン級数とマグヌス級数の両方を計算・利用するための汎用アルゴリズムを開発し,量子力学の数値摂動研究を容易にすることを目的としている。 複数のパラメータを持つモデルへの広範な適用を可能にするため、我々は、解か時間平均の時間間隔上の進化のジェネレータについて、多変数感度解析の観点からアルゴリズムを表現した。 これらのツールは、任意の順序までの項の集まりを同時に計算し、モデルが任意の時間依存の方法でパラメータに依存することができるという意味で一般的である。 私たちは、jax arrayライブラリを使用して、ジャストインタイムコンパイル、自動微分、すべての計算のgpu実行を可能にする、オープンソースのソフトウェアパッケージ \qiskitdynamics{} でアルゴリズムを実装しています。 単一トランスモンのモデルを用いて、モデルパラメータ空間の領域における忠実度を近似し、摂動的頑健な制御目標を構築する方法を示す。 我々はまた、線形行列微分方程式をシミュレートするためのダイゾルデアルゴリズム(Shillito et al., Physical Review Research, 3(3):033266]のダイソンとマグナスに基づくバリエーションを導出し、実装した。 本稿では,前計算ステップを,元法よりも少ない項で多変数拡張計算問題として表現できることを示す。 gpu上で2-transmon entanglingゲートをシミュレートすると、dysonとmagnusベースのソルバは、ソリューションの精度に応じて、約2$\times$から$$$$4\times$、$10\times$から$60\times$という従来のodeソルバよりもスピードアップする。

We develop general purpose algorithms for computing and utilizing both the Dyson series and Magnus expansion, with the goal of facilitating numerical perturbative studies of quantum dynamics. To enable broad applications to models with multiple parameters, we phrase our algorithms in terms of multivariable sensitivity analysis, for either the solution or the time-averaged generator of the evolution over a fixed time-interval. These tools simultaneously compute a collection of terms up to arbitrary order, and are general in the sense that the model can depend on the parameters in an arbitrary time-dependent way. We implement the algorithms in the open source software package \qiskitdynamics{}, utilizing the JAX array library to enable just-in-time compilation, automatic differentiation, and GPU execution of all computations. Using a model of a single transmon, we demonstrate how to use these tools to approximate fidelity in a region of model parameter space, as well as construct perturbative robust control objectives. We also derive and implement Dyson and Magnus-based variations of the recently introduced Dysolve algorithm [Shillito et al., Physical Review Research, 3(3):033266] for simulating linear matrix differential equations. We show how the pre-computation step can be phrased as a multivariable expansion computation problem with fewer terms than in the original method. When simulating a two-transmon entangling gate on a GPU, we find the Dyson and Magnus-based solvers provide a speedup over traditional ODE solvers, ranging from roughly $2\times$ to $4\times$ for a solution and $10\times$ to $60\times$ for a gradient, depending on solution accuracy.
翻訳日:2023-06-07 21:33:43 公開日:2023-06-06
# 手術用ファインチューニングによる配電シフト適応の改善

Surgical Fine-Tuning Improves Adaptation to Distribution Shifts ( http://arxiv.org/abs/2210.11466v3 )

ライセンス: Link先を確認
Yoonho Lee, Annie S. Chen, Fahim Tajwar, Ananya Kumar, Huaxiu Yao, Percy Liang, Chelsea Finn(参考訳) 分散シフト下での伝達学習の一般的なアプローチは、トレーニング済みモデルの最後の数層を微調整し、学習した特徴を保存し、新しいタスクにも適応させることである。 そこで本研究では, 手術用微調整と呼ばれる) レイヤのサブセットを選択的に微調整する手法が, 一般的に用いられる微調整アプローチと一致するか, 比較可能であることを示す。 さらに、分散シフトのタイプは、どのサブセットをより効果的にチューニングするかに影響します。 3種類の分散シフトにまたがる7つの実世界のデータタスクにおいて,この知見を体系的に検証した。 理論的には、理想化された2層ニューラルネットワークでは、1層チューニングが全ての層を上回ることを証明する。 直感的には、小さなターゲットデータセットでより多くのパラメータを微調整することで、事前トレーニング中に学習した情報が忘れられ、関連する情報はシフトの種類に依存する。

A common approach to transfer learning under distribution shift is to fine-tune the last few layers of a pre-trained model, preserving learned features while also adapting to the new task. This paper shows that in such settings, selectively fine-tuning a subset of layers (which we term surgical fine-tuning) matches or outperforms commonly used fine-tuning approaches. Moreover, the type of distribution shift influences which subset is more effective to tune: for example, for image corruptions, fine-tuning only the first few layers works best. We validate our findings systematically across seven real-world data tasks spanning three types of distribution shifts. Theoretically, we prove that for two-layer neural networks in an idealized setting, first-layer tuning can outperform fine-tuning all layers. Intuitively, fine-tuning more parameters on a small target dataset can cause information learned during pre-training to be forgotten, and the relevant information depends on the type of shift.
翻訳日:2023-06-07 21:33:10 公開日:2023-06-06
# 「なぜモデルが失敗したのか?」:分散シフトによるモデル性能変化の要因

"Why did the Model Fail?": Attributing Model Performance Changes to Distribution Shifts ( http://arxiv.org/abs/2210.10769v3 )

ライセンス: Link先を確認
Haoran Zhang, Harvineet Singh, Marzyeh Ghassemi, Shalmali Joshi(参考訳) 機械学習モデルは、分散シフト下でパフォーマンス低下をしばしば経験する。 このようなシフトの根本原因は、データ品質の変化、特定の共変量分布の違い、ラベルと特徴の関係の変化など、複数の同時的要因である可能性がある。 モデルがデプロイ中にフェールした場合、これらの要因にパフォーマンス変化をもたらすことは、モデル開発者が根本原因を特定し、アクションを緩和することが重要である。 本研究では,環境間の性能差を基礎となるデータ生成機構の分散シフトに寄与する問題を紹介する。 プレイヤーが分散している協調ゲームとして問題を定式化する。 我々は,この分布群が環境間でのみ変化したときのモデル性能の変化として,分布群の価値を定義し,任意の分布群の価値を計算するための重要重み付け法を導出する。 そして、各分布の総性能変化への寄与をShapley値として定量化する。 提案手法の正しさと有効性は, 合成, 半合成, 実世界のケーススタディにおいて実証され, 幅広い分布シフトに性能変化をもたらす効果を示す。

Machine learning models frequently experience performance drops under distribution shifts. The underlying cause of such shifts may be multiple simultaneous factors such as changes in data quality, differences in specific covariate distributions, or changes in the relationship between label and features. When a model does fail during deployment, attributing performance change to these factors is critical for the model developer to identify the root cause and take mitigating actions. In this work, we introduce the problem of attributing performance differences between environments to distribution shifts in the underlying data generating mechanisms. We formulate the problem as a cooperative game where the players are distributions. We define the value of a set of distributions to be the change in model performance when only this set of distributions has changed between environments, and derive an importance weighting method for computing the value of an arbitrary set of distributions. The contribution of each distribution to the total performance change is then quantified as its Shapley value. We demonstrate the correctness and utility of our method on synthetic, semi-synthetic, and real-world case studies, showing its effectiveness in attributing performance changes to a wide range of distribution shifts.
翻訳日:2023-06-07 21:32:53 公開日:2023-06-06
# 次の位置予測のためのコンテキストアウェアマルチヘッド自己アテンショナルニューラルネットワークモデル

Context-aware multi-head self-attentional neural network model for next location prediction ( http://arxiv.org/abs/2212.01953v2 )

ライセンス: Link先を確認
Ye Hong, Yatao Zhang, Konrad Schindler, Martin Raubal(参考訳) 正確な活動位置予測は多くのモビリティアプリケーションにおいて重要な要素であり、特にパーソナライズされた持続可能な輸送システムを開発するために必要である。 ディープラーニングモデルの普及にもかかわらず、次の位置予測モデルは、モビリティに関連する時空間コンテキストの包括的な議論と統合を欠いている。 本稿では,マルチヘッド・セルフ・アテンション(mhsa)ニューラルネットワークを用いて,過去の場所訪問,訪問時間,活動時間,周辺の土地利用機能から位置遷移パターンを学習し,個人の次の位置を推定する。 具体的には,複数の空間的スケールで場所の土地利用コンテキストを表現し,時空間的特徴の埋め込みベクトルを生成し,mhsaネットワークを用いて次の位置を予測することを学ぶ。 2つの大規模GNSS追跡データセットの実験を通して、提案モデルが他の最先端予測モデルより優れており、様々な時空間がモデルの性能に与える影響を明らかにする。 さらに,集団行動パターンからの学習により,個体群データに基づくモデルが個人レベルでのモデルよりも少ないパラメータで高い予測性能を達成することがわかった。 また,過去および1週間前に実施したモビリティが現在の予測に最も大きな影響を与え,過去のモビリティのサブセットからの学習が正確な位置予測結果を得るために十分であることを示す。 我々は,提案モデルがコンテキスト認識モビリティ予測に不可欠であると考えている。 得られた洞察は、位置予測モデルを理解し、モビリティアプリケーションの実装を促進するのに役立つだろう。

Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
翻訳日:2023-06-07 21:27:20 公開日:2023-06-06
# インコンテキスト学習者はデモから推論概念を学習できるか?

Can In-context Learners Learn a Reasoning Concept from Demonstrations? ( http://arxiv.org/abs/2212.01692v3 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik(参考訳) 大きな言語モデルは、少数の入出力デモから新しいタスクを学ぶための創発的な能力を示しています。 しかし、最近の研究は、インコンテキスト学習者は、入力に新しい関連を見出すのではなく、ラベルの感情のような事前学習された知識に大きく依存していることを示している。 しかし、無作為なインコンテキストのデモンストレーションをランダムに選択した場合、ランダムに選択されたデモの多くは、新しいタスク分布を露呈する以上の予測に有用な関係を示さないため、モデルがデモから新しいスキルを学ぶ能力を分かち合うことができない。 モデルの記憶に依存せず、モデルの文脈内学習能力を分断するために、予測したサンプルと潜在的にインフォーマティブな概念を共有するデモを選択する概念的少数ショット学習法を提案する。 このような概念のセットを注釈付き説明から抽出し、モデルがこれらの概念を提示してどの程度のメリットがあるかを測定する。 より小さなモデルの方が概念に敏感であることが分かりました。 評価された概念のコンセプト提示のデモンストレーションから恩恵を受けるモデルもいくつかあるが、評価されたインコンテキスト学習者はいずれも、常に提示されたすべての推論概念から利益を得ることはできないことが分かり、インコンテキスト概念学習はオープンチャレンジとなる。

Large language models show an emergent ability to learn a new task from a small number of input-output demonstrations. However, recent work shows that in-context learners largely rely on their pre-trained knowledge, such as the sentiment of the labels, instead of finding new associations in the input. However, the commonly-used few-shot evaluation settings using a random selection of in-context demonstrations can not disentangle models' ability to learn a new skill from demonstrations, as most of the randomly-selected demonstrations do not present relations informative for prediction beyond exposing the new task distribution. To disentangle models' in-context learning ability independent of models' memory, we introduce a Conceptual few-shot learning method selecting the demonstrations sharing a possibly-informative concept with the predicted sample. We extract a set of such concepts from annotated explanations and measure how much can models benefit from presenting these concepts in few-shot demonstrations. We find that smaller models are more sensitive to the presented concepts. While some of the models are able to benefit from concept-presenting demonstrations for each assessed concept, we find that none of the assessed in-context learners can benefit from all presented reasoning concepts consistently, leaving the in-context concept learning an open challenge.
翻訳日:2023-06-07 21:26:53 公開日:2023-06-06
# 音声処理のためのトポロジカルデータ解析

Topological Data Analysis for Speech Processing ( http://arxiv.org/abs/2211.17223v3 )

ライセンス: Link先を確認
Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko, Evgeny Burnaev(参考訳) 音声分類問題と事前訓練された音声モデル HuBERT のイントロスペクションにトポロジカルデータ解析(TDA)を適用した。 この目的のために,トランスフォーマーアテンションマップと埋め込みから派生した位相的および代数的特徴をいくつか紹介する。 このような特徴の上に構築された単純な線形分類器が,微調整された分類ヘッドよりも優れていることを示す。 特に、私たちは4つの一般的なデータセットで約9\%$精度と$5\%$ errの改善を達成しました。 また,音声トランスフォーマーヘッドの機能的役割をトポロジカルな特徴から明らかにできることを示す。例えば,下流の微調整をすることなく,サンプルソース(自然/合成)と音声のペアを区別できるヘッドを見出した。 以上の結果から,TDAは音声解析,特に構造予測を必要とするタスクにおいて,有望な新しいアプローチであることが示された。 追加、tdaの紹介、その他の追加資料はここで入手できる。 https://topohubert.github.io/speech-topology-webpages/

We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction. Appendices, an introduction to TDA, and other additional materials are available here - https://topohubert.github.io/speech-topology-webpages/
翻訳日:2023-06-07 21:26:23 公開日:2023-06-06
# エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ

Interaction Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v4 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2023-06-07 21:26:05 公開日:2023-06-06
# 量子ステアリングとウィグナーネガティビティについて

On Quantum Steering and Wigner Negativity ( http://arxiv.org/abs/2211.14102v3 )

ライセンス: Link先を確認
Mattia Walschaers(参考訳) 量子相関とウィグナー負性は連続変数量子系における非古典性の2つの重要な符号である。 本研究では,Wigner Negativityの条件生成の文脈において,両者がどのように絡み合うかを検討する。 以前にも、アリスとボブがガウス状態を共有すると、ボブは、アリスからボブにガウス状態のステアリングがある場合と場合に限り、彼のシステムで幾らかの計測を行い、アリス側でウィグナー・ネガティビティを生成できることが示されている。 本研究では,alice と bob が非ガウス状態を共有する,より広い範囲のシナリオにこれらの知見を一般化しようとする。 Alice が最初に Wigner 陽性測定で Bob のシステムを操れるなら、Bob は Alice のサブシステムで Wigner Negativity を遠隔で作成できる。 これは量子ステアリングが十分であることを示しているが、量子相関は一般にウィグナーの負の条件生成には必要ないことを示している。

Quantum correlations and Wigner negativity are two important signatures of nonclassicality in continuous-variable quantum systems. In this work, we investigate how both are intertwined in the context of the conditional generation of Wigner negativity. It was previously shown that when Alice and Bob share a Gaussian state, Bob can perform some measurement on his system to create Wigner negativity on Alice's side if and only if there is Gaussian steering from Alice to Bob. In this work, we attempt to generalise these findings to a much broader class of scenarios on which Alice and Bob share a non-Gaussian state. We show that if Alice can initially steer Bob's system with Wigner-positive measurements, Bob can remotely create Wigner negativity in Alice's subsystem. Even though this shows that quantum steering is sufficient, we also show that quantum correlations are in general not necessary for the conditional generation of Wigner negativity.
翻訳日:2023-06-07 21:25:45 公開日:2023-06-06
# ArrayFlex: 構成可能な透明パイプライニングを備えたシストリックアレーアーキテクチャ

ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining ( http://arxiv.org/abs/2211.12600v2 )

ライセンス: Link先を確認
C. Peltekis, D. Filippas, G. Dimitrakopoulos, C. Nicopoulos, D. Pnevmatikatos(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。 最大スケーラビリティのために、それらの計算は高性能とエネルギー効率を組み合わせるべきである。 実際には、各cnn層の畳み込みは、各層の全ての入力特徴とカーネルを含む行列乗算にマッピングされ、systolic配列を用いて計算される。 本研究では,cnn層ごとに最適なパイプライン構成を選択することを目的として,構成可能なパイプラインを用いたシストリクスアレイの設計に着目する。 提案したsystolic arrayはArrayFlexと呼ばれ、通常または浅いパイプラインモードで動作可能で、サイクルの実行時間と動作クロック周波数のバランスをとることができる。 適切なパイプライン構成をCNN層毎に選択することで、従来の固定パイプシストリック配列と比較して、ArrayFlexは最先端CNNの推論遅延を平均11%削減する。 最も重要なことは、同じ用途で13%-23%の電力を消費しながらこの結果を達成し、1.4倍から1.8倍のエネルギー分解効率を提供する。

Convolutional Neural Networks (CNNs) are the state-of-the-art solution for many deep learning applications. For maximum scalability, their computation should combine high performance and energy efficiency. In practice, the convolutions of each CNN layer are mapped to a matrix multiplication that includes all input features and kernels of each layer and is computed using a systolic array. In this work, we focus on the design of a systolic array with configurable pipeline with the goal to select an optimal pipeline configuration for each CNN layer. The proposed systolic array, called ArrayFlex, can operate in normal, or in shallow pipeline mode, thus balancing the execution time in cycles and the operating clock frequency. By selecting the appropriate pipeline configuration per CNN layer, ArrayFlex reduces the inference latency of state-of-the-art CNNs by 11%, on average, as compared to a traditional fixed-pipeline systolic array. Most importantly, this result is achieved while using 13%-23% less power, for the same applications, thus offering a combined energy-delay-product efficiency between 1.4x and 1.8x.
翻訳日:2023-06-07 21:25:25 公開日:2023-06-06
# 検索型マルチモーダル言語モデリング

Retrieval-Augmented Multimodal Language Modeling ( http://arxiv.org/abs/2211.12561v2 )

ライセンス: Link先を確認
Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih(参考訳) dall-eやcm3といった最近のマルチモーダルモデルは、テキスト対画像および画像対テキスト生成において著しい進歩を遂げている。 しかし、これらのモデルはモデルパラメータにすべての学習知識(例えばエッフェル塔の出現)を格納し、より多くの知識を捉えるためにますます大きなモデルと訓練データを必要としている。 よりスケーラブルでモジュール化された方法で知識を統合するために、ベースマルチモーダルモデル(生成子)が外部メモリ(例えば、web上の文書)から取得した関連するテキストや画像を参照することができる検索型マルチモーダルモデルを提案する。 具体的には、レトリバーには事前訓練されたCLIPを使用し、ジェネレータにはLAIONデータセット上でCM3トランスフォーマーをトレーニングする。 我々の生成したモデルであるRetrieval-Augmented CM3 (RA-CM3) は、テキストと画像の両方を検索・生成できる最初のマルチモーダルモデルである。 RA-CM3はイメージ生成タスクとキャプション生成タスク(MS-COCOでは12 FIDと17 CIDErの改善)において,DALL-EやCM3などのベースラインマルチモーダルモデルよりも大幅に優れており,DALL-Eの30%)よりもはるかに少ない計算処理を必要とする。 さらに、ra-cm3は忠実な画像生成やマルチモーダルなインコンテキスト学習(例:デモからの画像生成)といった新しい能力を示す。

Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant text and images fetched by a retriever from external memory (e.g., documents on the web). Specifically, for the retriever, we use a pretrained CLIP, and for the generator, we train a CM3 Transformer on the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate both text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities, such as faithful image generation and multimodal in-context learning (e.g., image generation from demonstrations).
翻訳日:2023-06-07 21:25:05 公開日:2023-06-06
# 多体浴中輸送におけるパラメトリック過敏性:量子ラビモデル

Parametric hypersensitivity in many-body bath-mediated transport: The quantum Rabi model ( http://arxiv.org/abs/2211.11285v3 )

ライセンス: Link先を確認
Chern Chuang, Arie Kapulkin, Arjendu K. Pattanayak, Paul Brumer(参考訳) 散逸型Rabiモデルの非平衡定常状態は,狭いパラメータ範囲を越える輸送速度の急激なスパイクを示すことを示した。 同様の結果はホルシュタインモデルやディックモデルにも見られる。 これは、対応する閉系におけるエネルギー準位交差の回避によるものであり、鍵固有状態の絡み合いエントロピーのスパイクと相関し、系の自由度間の強い混合と共鳴の兆候である。 さらに、RabiモデルとJaynes-Cummingsモデルとは対照的に、この挙動は量子可積分性と関連していることを示している。

We demonstrate that non-equilibrium steady states of the dissipative Rabi model show dramatic spikes in transport rates over narrow parameter ranges. Similar results are found for the Holstein and Dicke models. This is found to be due to avoided energy level crossings in the corresponding closed systems, and correlates with spikes in the entanglement entropy of key eigenstates, a signature of strong mixing and resonance among system degrees of freedom. Further, contrasting the Rabi model with the Jaynes-Cummings model reveals this behavior as being related to quantum integrability.
翻訳日:2023-06-07 21:24:35 公開日:2023-06-06
# 機械学習によるカラビヤウ計量と曲率

Machine Learned Calabi-Yau Metrics and Curvature ( http://arxiv.org/abs/2211.09801v3 )

ライセンス: Link先を確認
Per Berglund, Giorgi Butbaia, Tristan H\"ubsch, Vishnu Jejjala, Dami\'an Mayorga Pe\~na, Challenger Mishra, Justin Tan(参考訳) ricci-flat (calabi-yau)メトリクスを見つけることは、弦理論や現象論に深い意味を持つ幾何学における長い問題である。 この問題に対する新たな攻撃は、ニューラルネットワークを使用して、所定のK\"ahlerクラス内のCalabi-Yauメトリックへの近似を設計する。 本稿では, 滑らかかつ特異なK3面およびカラビ・ヤウ3次元上のリッチ平坦な数値測度について検討する。 これらのリッチ平坦な計量近似を用いて、四面体のCefal\'u族と四面体のDwork族を解析し、これらの幾何学上の特徴形式を研究する。 数値計算された位相特性の数値安定性はニューラルネットワークモデルの選択に大きく影響しており、特に、カルビヤウの位相特性を正確に近似するスペクトルネットワークモデルについて簡単に議論する。 永続ホモロジーを用いて、多様体の高曲率領域が特異点付近のクラスターを形成することを示す。 我々のニューラルネットワーク近似では、ボゴモロフ-ヤウ型不等式3c_2 \geq c_1^2$を観察し、我々のジオメトリが$A_1$型特異点を孤立させたときにアイデンティティを観察する。 我々は、$\chi(x~\smallsetminus~\mathrm{sing}\,{x}) + 2~|\mathrm{sing}\,{x}| = 24$ という証明をスケッチする。

Finding Ricci-flat (Calabi-Yau) metrics is a long standing problem in geometry with deep implications for string theory and phenomenology. A new attack on this problem uses neural networks to engineer approximations to the Calabi-Yau metric within a given K\"ahler class. In this paper we investigate numerical Ricci-flat metrics over smooth and singular K3 surfaces and Calabi-Yau threefolds. Using these Ricci-flat metric approximations for the Cefal\'u family of quartic twofolds and the Dwork family of quintic threefolds, we study characteristic forms on these geometries. We observe that the numerical stability of the numerically computed topological characteristic is heavily influenced by the choice of the neural network model, in particular, we briefly discuss a different neural network model, namely Spectral networks, which correctly approximate the topological characteristic of a Calabi-Yau. Using persistent homology, we show that high curvature regions of the manifolds form clusters near the singular points. For our neural network approximations, we observe a Bogomolov--Yau type inequality $3c_2 \geq c_1^2$ and observe an identity when our geometries have isolated $A_1$ type singularities. We sketch a proof that $\chi(X~\smallsetminus~\mathrm{Sing}\,{X}) + 2~|\mathrm{Sing}\,{X}| = 24$ also holds for our numerical approximations.
翻訳日:2023-06-07 21:24:03 公開日:2023-06-06
# 非識別型クライアントクラス集合のナビゲーティングアライメント:ラベル名アンコール型フェデレーションラーニングフレームワーク

Navigating Alignment for Non-identical Client Class Sets: A Label Name-Anchored Federated Learning Framework ( http://arxiv.org/abs/2301.00489v2 )

ライセンス: Link先を確認
Jiayun Zhang, Xiyuan Zhang, Xinyang Zhang, Dezhi Hong, Rajesh K. Gupta, Jingbo Shang(参考訳) 従来の統合分類法は、非IIDクライアント向けに設計されたものでさえ、各クライアントが同じユニバーサルクラスセットに対してそのローカルデータをアノテートしていると仮定する。 本稿では、クライアントが独自の(異なる、あるいは重複しない)クラスセットにフォーカスし、これらのクラスの統一のために機能するグローバルモデルを求める、より汎用的で実用的な非同一のクライアントクラスセットに焦点を当てる。 データ/ラベルエンコーダが生成する表現間の最善の一致を分類と見なすと、クライアントクラスセットにおけるこのような不均一性は、新たな大きな課題をもたらす - 異なるクライアントのローカルエンコーダは、異なる独立した潜在空間で動作し、サーバで集約することが困難になる。 ラベルとデータの両方の観点からクライアント間の潜在空間を整合させる新しいフレームワークであるfederignを提案する。 ラベルの観点からは、表現型自然言語クラス名を、ラベルエンコーダがクラス表現をアンカーし、クライアント間で学習するデータエンコーダをガイドするための共通基盤として活用する。 データの観点から、ローカルトレーニングの間、グローバルクラス表現をアンカーとみなし、ローカルに知らないクラスのアンカーに十分近い、あるいは遠くにあるデータポイントを利用して、クライアント間でデータエンコーダを調整します。 一般化性能に関する理論的解析と,4つの実世界の課題に対する広範な実験により,FedAlignが様々な最先端(非IID)フェデレーション分類法より優れていることが確認された。

Traditional federated classification methods, even those designed for non-IID clients, assume that each client annotates its local data with respect to the same universal class set. In this paper, we focus on a more general yet practical setting, non-identical client class sets, where clients focus on their own (different or even non-overlapping) class sets and seek a global model that works for the union of these classes. If one views classification as finding the best match between representations produced by data/label encoder, such heterogeneity in client class sets poses a new significant challenge -- local encoders at different clients may operate in different and even independent latent spaces, making it hard to aggregate at the server. We propose a novel framework, FedAlign, to align the latent spaces across clients from both label and data perspectives. From a label perspective, we leverage the expressive natural language class names as a common ground for label encoders to anchor class representations and guide the data encoder learning across clients. From a data perspective, during local training, we regard the global class representations as anchors and leverage the data points that are close/far enough to the anchors of locally-unaware classes to align the data encoders across clients. Our theoretical analysis of the generalization performance and extensive experiments on four real-world datasets of different tasks confirm that FedAlign outperforms various state-of-the-art (non-IID) federated classification methods.
翻訳日:2023-06-07 21:17:09 公開日:2023-06-06
# 手術ロボット学習のための対話型シミュレーション環境を用いたヒューマン・イン・ザ・ループ・エンボディド・インテリジェンス

Human-in-the-loop Embodied Intelligence with Interactive Simulation Environment for Surgical Robot Learning ( http://arxiv.org/abs/2301.00452v2 )

ライセンス: Link先を確認
Yonghao Long, Wang Wei, Tao Huang, Yuehao Wang, Qi Dou(参考訳) 手術ロボットの自動化は、過去10年間で研究の関心が高まり、外科医、看護師、患者に利益をもたらす可能性が期待されている。 近年、インボディードインテリジェンスの学習パラダイムは、インボディードAIシミュレータが関連する研究を促進する上で重要な役割を果たす様々な複雑なタスクに対して、優れた制御ポリシーを学習する有望な能力を示している。 しかし、既存の手術ロボット用のオープンソースシミュレータは、物理的な入力デバイスを介して人間のインタラクションを十分にサポートしていないため、人間のデモンストレーションが政策学習にどう影響するかについての効果的な調査は制限されている。 本研究では,手術ロボット学習のための対話型シミュレーションプラットフォームを用いて,人間の身体内知性について検討する。 具体的には、前回リリースしたsurrolシミュレータに基づいて、入力デバイスによる高品質なヒューマンインタラクションを可能にするために、いくつかの新機能を共同開発したプラットフォームを構築します。 本稿では,新しい特徴をデザインしたシミュレーション環境の改善を例示し,人間実験と強化学習を代表例として,具体的知性におけるヒューマンファクターの導入の有効性を検証する。 有望な結果は学習効率の観点から得られる。 最後に,5つの新しい手術ロボット訓練タスクを開発しリリースし,今後,外科的具体化インテリジェンスの研究の道を開いたいと願っている。 私たちの学習プラットフォームは公開されており、Webサイトで継続的に更新されます。

Surgical robot automation has attracted increasing research interest over the past decade, expecting its potential to benefit surgeons, nurses and patients. Recently, the learning paradigm of embodied intelligence has demonstrated promising ability to learn good control policies for various complex tasks, where embodied AI simulators play an essential role to facilitate relevant research. However, existing open-sourced simulators for surgical robot are still not sufficiently supporting human interactions through physical input devices, which further limits effective investigations on how the human demonstrations would affect policy learning. In this work, we study human-in-the-loop embodied intelligence with a new interactive simulation platform for surgical robot learning. Specifically, we establish our platform based on our previously released SurRoL simulator with several new features co-developed to allow high-quality human interaction via an input device. We showcase the improvement of our simulation environment with the designed new features, and validate effectiveness of incorporating human factors in embodied intelligence through the use of human demonstrations and reinforcement learning as a representative example. Promising results are obtained in terms of learning efficiency. Lastly, five new surgical robot training tasks are developed and released, with which we hope to pave the way for future research on surgical embodied intelligence. Our learning platform is publicly released and will be continuously updated in the website: https://med-air.github.io/SurRoL.
翻訳日:2023-06-07 21:16:42 公開日:2023-06-06
# HiTSKT:セッション認識知識追跡のための階層型トランスフォーマーモデル

HiTSKT: A Hierarchical Transformer Model for Session-Aware Knowledge Tracing ( http://arxiv.org/abs/2212.12139v3 )

ライセンス: Link先を確認
Fucai Ke, Weiqing Wang, Weicong Tan, Lan Du, Yuan Jin, Yujin Huang and Hongzhi Yin(参考訳) 知識追跡(KT)は、学生の学習履歴を活用して、事前に定義された一連のスキルに基づいて熟達レベルを推定することを目的としており、それに対応する将来のパフォーマンスを正確に予測できる。 オンライン教育にパーソナライズされた体験を提供する重要な方法として、KTは近年注目を集めている。 実際には、学生の学習履歴は、単に独立した回答の列であるのではなく、セッションとして知られる一連の集団的な質問に対する回答を含んでいる。 理論的には、これらのセッションの中で、学生の学習力学は非常に異なる。 したがって、KT問題に対処するためには、セッション内外の学生の知識状態のダイナミクスを効果的にモデル化する方法が不可欠である。 既存のKTモデルは、学生の知識状態のセッションシフトを捉えずに、学生の学習記録を単一の継続シーケンスとして扱う。 上記の課題に対処するため,HiTSKTと呼ばれる新しい階層型トランスフォーマーモデルを提案する。セッション内で取得した知識をキャプチャするインタラクション(レベル)エンコーダと,過去のセッション間で取得した知識を要約するセッション(レベル)エンコーダを備える。 現在のセッションにおけるインタラクションを予測するために、知識検索者は、要約された過去の知識と過去のインタラクションの情報とを適切な知識表現に統合する。 これらの表現は、生徒の現在の知識状態を計算するために使われる。 さらに、学生の長期的忘れ行動をセッション全体にわたってモデル化するために、セッションエンコーダにパワーロー・デカイ・アテンションメカニズムを設計し、デプロイすることで、最近のセッションをより強調することができる。 3つの公開データセットに対する大規模な実験は、HiTSKTが6つの最先端KTモデルと比較して、すべてのデータセットで新しい最先端のパフォーマンスを達成することを示した。

Knowledge tracing (KT) aims to leverage students' learning histories to estimate their mastery levels on a set of pre-defined skills, based on which the corresponding future performance can be accurately predicted. As an important way of providing personalized experience for online education, KT has gained increased attention in recent years. In practice, a student's learning history comprises answers to sets of massed questions, each known as a session, rather than merely being a sequence of independent answers. Theoretically, within and across these sessions, students' learning dynamics can be very different. Therefore, how to effectively model the dynamics of students' knowledge states within and across the sessions is crucial for handling the KT problem. Most existing KT models treat student's learning records as a single continuing sequence, without capturing the sessional shift of students' knowledge state. To address the above issue, we propose a novel hierarchical transformer model, named HiTSKT, comprises an interaction(-level) encoder to capture the knowledge a student acquires within a session, and a session(-level) encoder to summarise acquired knowledge across the past sessions. To predict an interaction in the current session, a knowledge retriever integrates the summarised past-session knowledge with the previous interactions' information into proper knowledge representations. These representations are then used to compute the student's current knowledge state. Additionally, to model the student's long-term forgetting behaviour across the sessions, a power-law-decay attention mechanism is designed and deployed in the session encoder, allowing it to emphasize more on the recent sessions. Extensive experiments on three public datasets demonstrate that HiTSKT achieves new state-of-the-art performance on all the datasets compared with six state-of-the-art KT models.
翻訳日:2023-06-07 21:16:16 公開日:2023-06-06
# テキスト対画像生成における空間関係のベンチマーク

Benchmarking Spatial Relationships in Text-to-Image Generation ( http://arxiv.org/abs/2212.10015v2 )

ライセンス: Link先を確認
Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, Yezhou Yang(参考訳) 空間的理解はコンピュータビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠なものであり、基底言語理解にとって重要な要素である。 最近のtext-to-image synthesis (t2i)モデルでは、フォトリアリズムが前例のない改善を遂げているが、それらが信頼できる空間理解能力を持っているかどうかは不明である。 本稿では,オブジェクト間の空間関係を正確に生成するT2Iモデルと,画像中のテキストに記述された空間関係がどの程度正確に生成されるかを評価する評価指標であるVISORについて述べる。 既存のモデルをベンチマークするために,2つのオブジェクトを記述する文とそれらの間の空間的関係を含むデータセットSR2Dを導入する。 オブジェクトとその空間的関係を認識するための自動評価パイプラインを構築し,T2Iモデルの大規模評価に利用する。 我々の実験は、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成する能力や、それらの間の特定の空間関係が著しく制限されていることを明らかにする。 本研究は,t2iモデルのバイアスやアーチファクトとして,複数のオブジェクトの生成の難しさ,最初のオブジェクトを生成するためのバイアス,等価な関係に対する空間的不整合アウトプット,オブジェクト共起性と空間理解能力の相関などを示す。 空間的理解に関する人間の判断とVISORの整合性を示す人間の研究を行う。 SR2DデータセットとVISORメトリクスをコミュニティに提供し、T2I推論研究を支援する。

Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a dataset, SR2D, that contains sentences describing two objects and the spatial relationship between them. We construct an automated evaluation pipeline to recognize objects and their spatial relationships, and employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations between them. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgement about spatial understanding. We offer the SR2D dataset and the VISOR metric to the community in support of T2I reasoning research.
翻訳日:2023-06-07 21:15:07 公開日:2023-06-06
# DuNST: 半スーパービジョン制御可能なテキスト生成のためのデュアルノイズセルフトレーニング

DuNST: Dual Noisy Self Training for Semi-Supervised Controllable Text Generation ( http://arxiv.org/abs/2212.08724v3 )

ライセンス: Link先を確認
Yuxi Feng, Xiaoyuan Yi, Xiting Wang, Laks V.S. Lakshmanan, Xing Xie(参考訳) ラベル付きデータが不十分な場合、事前学習された言語モデルの微調整を増強することにより、言語理解において再び成長した。 しかし、STを属性制御可能な言語生成に組み込むことは依然として困難である。 自己生成した擬似テキストのみによって拡張され、生成モデルは制限された一般化境界に苦しむ前に学習された空間の活用を過大に強調する。 我々はSTを再検討し、この問題を緩和する新しい方法DuNSTを提案する。 dunstは共用変分オートエンコーダでテキスト生成と分類をモデル化し、生成された擬似テキストを2種類のフレキシブルノイズで分解して空間を乱す。 このようにして、我々のモデルは、与えられたラベルから擬似テキストと利用可能な無ラベルテキストから擬似ラベルの両方を構築し、利用することができる。 理論的には、DuNSTは潜在的な実テキスト空間への探索の強化であり、性能向上の保証となる。 3つの制御可能な生成タスクの実験は、ダンストがいくつかの強力なベースラインに対して同等の世代流束と多様性を維持しながら、制御精度を著しく向上できることを示した。

Self-training (ST) has prospered again in language understanding by augmenting the fine-tuning of pre-trained language models when labeled data is insufficient. However, it remains challenging to incorporate ST into attribute-controllable language generation. Augmented by only self-generated pseudo text, generation models over-emphasize exploitation of the previously learned space, suffering from a constrained generalization boundary. We revisit ST and propose a novel method, DuNST to alleviate this problem. DuNST jointly models text generation and classification with a shared Variational AutoEncoder and corrupts the generated pseudo text by two kinds of flexible noise to disturb the space. In this way, our model could construct and utilize both pseudo text from given labels and pseudo labels from available unlabeled text, which are gradually refined during the ST process. We theoretically demonstrate that DuNST can be regarded as enhancing exploration towards the potential real text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks show that DuNST could significantly boost control accuracy while maintaining comparable generation fluency and diversity against several strong baselines.
翻訳日:2023-06-07 21:14:40 公開日:2023-06-06
# 金標準の再検討:ロバストな人的評価による接地要約評価

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation ( http://arxiv.org/abs/2212.07981v2 )

ライセンス: Link先を確認
Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan, Ruilin Han, Simeng Han, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev(参考訳) 人間の評価は、要約システムと自動メトリクスの両方の評価が残る基盤である。 しかし、既存の要約のための人間評価研究では、注釈間合意が低かったり、スケールが不十分であったり、人間評価の詳細な分析が不足している。 そこで我々は,(1)細粒度セマンティック・ユニットをベースとしたアノテータ間合意を高い精度で実現可能な改良された要約サリエンスプロトコルであるAtomic Content Units (ACUs)を提案する。 2) ロバスト要約評価(RoSE)ベンチマークは,3つのデータセット上で28の上位パフォーマンスシステム上で22,000の要約レベルのアノテーションからなる大規模な人間評価データセットである。 (3)4つの評価プロトコルの比較研究を行い、評価設定における潜在的な共起要因を裏付ける。 (4) 評価プロトコル間で収集された人的アノテーションを用いて50の自動メトリクスとその変種を評価し, ベンチマークがより統計的に安定かつ有意な結果をもたらすことを示す。 私たちがベンチマークしたメトリクスには、大規模言語モデル(LLM)に基づく最近の手法、GPTScore、G-Evalが含まれる。 さらに,LLMの評価には重要な意味があり,人間のフィードバック(例えばGPT-3.5)によって調整されたLCMは,アノテータの事前の入力非依存的嗜好に影響され,より頑健で目標とする評価手法が求められている。

Human evaluation is the foundation upon which the evaluation of both summarization systems and automatic metrics rests. However, existing human evaluation studies for summarization either exhibit a low inter-annotator agreement or have insufficient scale, and an in-depth analysis of human evaluation is lacking. Therefore, we address the shortcomings of existing summarization evaluation along the following axes: (1) We propose a modified summarization salience protocol, Atomic Content Units (ACUs), which is based on fine-grained semantic units and allows for a high inter-annotator agreement. (2) We curate the Robust Summarization Evaluation (RoSE) benchmark, a large human evaluation dataset consisting of 22,000 summary-level annotations over 28 top-performing systems on three datasets. (3) We conduct a comparative study of four human evaluation protocols, underscoring potential confounding factors in evaluation setups. (4) We evaluate 50 automatic metrics and their variants using the collected human annotations across evaluation protocols and demonstrate how our benchmark leads to more statistically stable and significant results. The metrics we benchmarked include recent methods based on large language models (LLMs), GPTScore and G-Eval. Furthermore, our findings have important implications for evaluating LLMs, as we show that LLMs adjusted by human feedback (e.g., GPT-3.5) may overfit unconstrained human evaluation, which is affected by the annotators' prior, input-agnostic preferences, calling for more robust, targeted evaluation methods.
翻訳日:2023-06-07 21:14:19 公開日:2023-06-06
# 表面符号の復号化のための一般化された信念伝播アルゴリズム

Generalized Belief Propagation Algorithms for Decoding of Surface Codes ( http://arxiv.org/abs/2212.03214v2 )

ライセンス: Link先を確認
Josias Old and Manuel Rispler(参考訳) BP(Belief propagation)は、量子誤り訂正符号の重要なクラス、例えばランダム拡張符号の量子低密度パリティチェック(LDPC)符号クラスに対して高い性能を持つ低複雑性復号アルゴリズムとしてよく知られている。 しかし、表面コードのようなトポロジカルなコードに直面するとbpの性能が低下し、naive bpは完全に弱体化しない、すなわちエラー訂正が有用になるような状態に達することが知られている。 以前の研究では、BPのフレームワーク外のデコーダを後処理することで、これを修復できることが示されている。 そこで本研究では,外部再初期化ループを用いた一般化された信念伝播法を提案する。表面符号の復号化,すなわちnaive bpとは対照的に,表面符号に合わせたデコーダや統計機械マッピングから既知のサブスレッショルドレジームを回復する。 独立ビット・位相フリップデータノイズ(20.6%の理想的なしきい値と比較)の閾値と14%の偏極データノイズ(18.9%の理想しきい値と比較)の閾値を非BP後処理法で達成されたしきい値と同等に報告する。

Belief propagation (BP) is well-known as a low complexity decoding algorithm with a strong performance for important classes of quantum error correcting codes, e.g. notably for the quantum low-density parity check (LDPC) code class of random expander codes. However, it is also well-known that the performance of BP breaks down when facing topological codes such as the surface code, where naive BP fails entirely to reach a below-threshold regime, i.e. the regime where error correction becomes useful. Previous works have shown, that this can be remedied by resorting to post-processing decoders outside the framework of BP. In this work, we present a generalized belief propagation method with an outer re-initialization loop that successfully decodes surface codes, i.e. opposed to naive BP it recovers the sub-threshold regime known from decoders tailored to the surface code and from statistical-mechanical mappings. We report a threshold of 17% under independent bit-and phase-flip data noise (to be compared to the ideal threshold of 20.6%) and a threshold value of 14%$under depolarizing data noise (compared to the ideal threshold of 18.9%), which are on par with thresholds achieved by non-BP post-processing methods.
翻訳日:2023-06-07 21:13:38 公開日:2023-06-06
# 分子結晶構造サンプリングのための剛体流

Rigid body flows for sampling molecular crystal structures ( http://arxiv.org/abs/2301.11355v3 )

ライセンス: Link先を確認
Jonas K\"ohler, Michele Invernizzi, Pim de Haan, Frank No\'e(参考訳) 正規化フロー(NF)は、高い柔軟性と表現力を持つ複雑な分布をモデル化する能力によって近年人気を集めている強力な生成モデルである。 本研究では,結晶中の分子などの3次元空間における複数の物体の位置と向きをモデル化するために調整された新しい正規化フローを導入する。 第一に、単位四元数の群上の滑らかで表現的な流れを定義し、剛体の連続的な回転運動を捉えること、第二に、単位四元数の二重被覆性を用いて回転群の適切な密度を定義することである。 これにより,本モデルは,熱力学的対象密度に対する標準確率法や変分推論を用いてトレーニングすることができる。 TIP4P水モデルでは,外部磁場における四面体系の多モード密度と氷XI相の2つの分子例に対してボルツマン発電機を訓練して評価を行った。 我々の流れは分子の内部自由度に作用する流れと組み合わせることができ、多くの相互作用する分子の分布のモデリングへの重要なステップとなる。

Normalizing flows (NF) are a class of powerful generative models that have gained popularity in recent years due to their ability to model complex distributions with high flexibility and expressiveness. In this work, we introduce a new type of normalizing flow that is tailored for modeling positions and orientations of multiple objects in three-dimensional space, such as molecules in a crystal. Our approach is based on two key ideas: first, we define smooth and expressive flows on the group of unit quaternions, which allows us to capture the continuous rotational motion of rigid bodies; second, we use the double cover property of unit quaternions to define a proper density on the rotation group. This ensures that our model can be trained using standard likelihood-based methods or variational inference with respect to a thermodynamic target density. We evaluate the method by training Boltzmann generators for two molecular examples, namely the multi-modal density of a tetrahedral system in an external field and the ice XI phase in the TIP4P water model. Our flows can be combined with flows operating on the internal degrees of freedom of molecules, and constitute an important step towards the modeling of distributions of many interacting molecules.
翻訳日:2023-06-07 21:07:49 公開日:2023-06-06
# 大規模言語モデルのための透かし

A Watermark for Large Language Models ( http://arxiv.org/abs/2301.10226v3 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein(参考訳) 大規模な言語モデルの潜在的な害は、モデルの出力、例えば、人間の目に見えないが短いトークンからアルゴリズムで検出可能な生成されたテキストに信号を埋め込むことによって軽減できる。 プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できない影響を与え、言語モデルapiやパラメータにアクセスせずに、効率的なオープンソースアルゴリズムを使って検出することができる。 ウォーターマークは、単語が生成される前にランダム化された「グリーン」トークンのセットを選択し、それからサンプリング中にグリーントークンの使用をソフトに促進することで機能する。 我々は,解釈可能なp値で透かしを検出する統計的テストを提案し,透かしの感度を解析するための情報理論の枠組みを導出する。 我々は,Open Pretrained Transformer (OPT) ファミリーのマルチビリオンパラメータモデルを用いて透かしを検証し,堅牢性とセキュリティについて議論する。

Potential harms of large language models can be mitigated by watermarking model output, i.e., embedding signals into generated text that are invisible to humans but algorithmically detectable from a short span of tokens. We propose a watermarking framework for proprietary language models. The watermark can be embedded with negligible impact on text quality, and can be detected using an efficient open-source algorithm without access to the language model API or parameters. The watermark works by selecting a randomized set of "green" tokens before a word is generated, and then softly promoting use of green tokens during sampling. We propose a statistical test for detecting the watermark with interpretable p-values, and derive an information-theoretic framework for analyzing the sensitivity of the watermark. We test the watermark using a multi-billion parameter model from the Open Pretrained Transformer (OPT) family, and discuss robustness and security.
翻訳日:2023-06-07 21:07:31 公開日:2023-06-06
# ツープレイヤーゼロサムゲームにおける不完全情報の抽象化

Abstracting Imperfect Information Away from Two-Player Zero-Sum Games ( http://arxiv.org/abs/2301.09159v2 )

ライセンス: Link先を確認
Samuel Sokota, Ryan D'Orazio, Chun Kai Ling, David J. Wu, J. Zico Kolter, Noam Brown(参考訳) Nayyar et al. (2013)では、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。 この洞察は、コモンペイオフゲームのためのサウンドソルバと意思決定時間計画アルゴリズムの基礎となる。 残念なことに、2人のプレイヤーのゼロサムゲームに対する同じ洞察のナッシュな応用は、ナッシュ均衡と公開ポリシーの発表が元のゲームのナッシュ均衡に合致しない可能性があるため失敗する。 その結果、既存の音響決定時間計画アルゴリズムは、未適用特性を持つ複雑な追加メカニズムを必要とする。 この研究の主な貢献は、ある正規化された平衡が上記の非対応問題を持たないことを示しており、計算は完全情報問題として扱うことができる。 これらの正規化平衡はnash平衡に任意に近付くことができるため、結果は2人のプレイヤーのゼロサムゲームを解決する新しい視点への扉を開き、2人のプレイヤーのゼロサムゲームにおける意思決定時間計画のための簡易なフレームワークを得る。

In their seminal work, Nayyar et al. (2013) showed that imperfect information can be abstracted away from common-payoff games by having players publicly announce their policies as they play. This insight underpins sound solvers and decision-time planning algorithms for common-payoff games. Unfortunately, a naive application of the same insight to two-player zero-sum games fails because Nash equilibria of the game with public policy announcements may not correspond to Nash equilibria of the original game. As a consequence, existing sound decision-time planning algorithms require complicated additional mechanisms that have unappealing properties. The main contribution of this work is showing that certain regularized equilibria do not possess the aforementioned non-correspondence problem -- thus, computing them can be treated as perfect-information problems. Because these regularized equilibria can be made arbitrarily close to Nash equilibria, our result opens the door to a new perspective to solving two-player zero-sum games and yields a simplified framework for decision-time planning in two-player zero-sum games, void of the unappealing properties that plague existing decision-time planning approaches.
翻訳日:2023-06-07 21:07:15 公開日:2023-06-06
# ティアバランシング - 因果要因に対するダイナミックフェアネスを目指して

Tier Balancing: Towards Dynamic Fairness over Underlying Causal Factors ( http://arxiv.org/abs/2301.08987v3 )

ライセンス: Link先を確認
Zeyu Tang, Yatong Chen, Yang Liu, Kun Zhang(参考訳) 長期的な公平性の追求は、意思決定と基礎となるデータ生成プロセスの間の相互作用を伴う。 本稿では,方向付非巡回グラフを用いた因果モデリングを通じて,動的視点から長期的公正性を実現する可能性を検討する。 長期的な動的公平性分析の文脈で達成すべき技術的により困難だが自然な概念である階層バランスを提案する。 従来のフェアネス概念と異なり、我々の概念はさらに一歩進めて、現在の決定から将来のデータ分布へ直接影響を及ぼす、観察できない潜在因果要因の背景状態の変化を捉えます。 特定のダイナミクスの下では、一般に1段階の介入だけでは長期的なフェアネス目標を達成できないことが証明される。 さらに, 長期的な公正化への取り組みにおいて, 長期的な公正化目標を「近づいた」という使命とそれに伴う可能性と不合理性について考察する。

The pursuit of long-term fairness involves the interplay between decision-making and the underlying data generating process. In this paper, through causal modeling with a directed acyclic graph (DAG) on the decision-distribution interplay, we investigate the possibility of achieving long-term fairness from a dynamic perspective. We propose Tier Balancing, a technically more challenging but more natural notion to achieve in the context of long-term, dynamic fairness analysis. Different from previous fairness notions that are defined purely on observed variables, our notion goes one step further, capturing behind-the-scenes situation changes on the unobserved latent causal factors that directly carry out the influence from the current decision to the future data distribution. Under the specified dynamics, we prove that in general one cannot achieve the long-term fairness goal only through one-step interventions. Furthermore, in the effort of approaching long-term fairness, we consider the mission of "getting closer to" the long-term fairness goal and present possibility and impossibility results accordingly.
翻訳日:2023-06-07 21:06:52 公開日:2023-06-06
# CNN予測評価のための信頼性スコア

A Trustworthiness Score to Evaluate CNNs Predictions ( http://arxiv.org/abs/2301.08839v4 )

ライセンス: Link先を確認
Abanoub Ghobrial, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 畳み込みニューラルネットワーク(CNN)のブラックボックスの性質のため、操作中のCNNの継続的な検証は、人間のモニターがないため困難である。 その結果、開発者や規制当局がcnnを使用した自律システムの導入に自信を持つことが難しくなる。 CNNの予測が信頼できるか疑わしいかを知るためには、運用中の安全性が重要である。 人間のモニターがないため、基本的なアプローチはモデルの出力信頼度スコアを使用して予測が信頼できるか疑わしいかを評価することである。 しかしながら、モデルの信頼性スコアはブラックボックスからの計算の結果であり、それゆえ透明性が欠如しており、予測に対する信頼性の自動評価が困難である。 信頼度スコア(TS: Trustworthiness score)は、モデルの信頼度スコアと比較してCNNの予測に対してより透明で効果的な信頼性を提供するための指標である。 CNNの予測における特定の特徴の存在をチェックすることにより、予測における信頼性を定量化する。 また,ts指標の基本的な考え方を用いて,全体の入力フレームに不審性スコア(ss)を提供し,偽陰性が存在する不審なフレームの検出を支援する。 人検出にYOLOv5を用いたケーススタディを行い,TSとSSの手法と使用法を実証した。 本手法を用いたケーススタディでは, モデル信頼度スコアのみに依存する場合と比較して, 予測精度が一貫して向上することを示す。 1)信頼に値する予測(~20%改善)の承認及び 2)不審なフレームの検出(約5%改善)。

Due to the black box nature of Convolutional Neural Networks (CNNs), the continuous validation of CNNs during operation is challenging with the absence of a human monitor. As a result this makes it difficult for developers and regulators to gain confidence in the deployment of autonomous systems employing CNNs. It is critical for safety during operation to know when CNN's predictions are trustworthy or suspicious. With the absence of a human monitor, the basic approach is to use the model's output confidence score to assess if predictions are trustworthy or suspicious. However, the model's confidence score is a result of computations coming from a black box, therefore lacks transparency and makes it challenging to automatedly credit trustworthiness to predictions. We introduce the trustworthiness score (TS), a simple metric that provides a more transparent and effective way of providing confidence in CNNs predictions compared to model's confidence score. The metric quantifies the trustworthiness in a prediction by checking for the existence of certain features in the predictions made by the CNN. We also use the underlying idea of the TS metric, to provide a suspiciousness score (SS) in the overall input frame to help in the detection of suspicious frames where false negatives exist. We conduct a case study using YOLOv5 on persons detection to demonstrate our method and usage of TS and SS. The case study shows that using our method consistently improves the precision of predictions compared to relying on model confidence score alone, for both 1) approving of trustworthy predictions (~20% improvement) and 2) detecting suspicious frames (~5% improvement).
翻訳日:2023-06-07 21:06:24 公開日:2023-06-06
# 非滑らかな非凸確率最適化のための高速勾配自由アルゴリズム

Faster Gradient-Free Algorithms for Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2301.06428v2 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu and Luo Luo(参考訳) 我々は、$\min_{x \in \mathbb{R}^d} f(x) \triangleq \mathbb{E}_{\xi} [F(x; \xi)]$という形の最適化問題を考える。 最近提案された勾配なし法では、最大$\mathcal{o}(l^4 d^{3/2} \epsilon^{-4} + \delta l^3 d^{3/2} \delta^{-1} \epsilon^{-4})$ 確率的ゼロ次オラクル複雑性から、$(\delta,\epsilon)$-goldstein stationary point of objective function(ここで$\delta = f(x_0) - \inf_{x \in \mathbb{r}^d} f(x)$と$x_0$がアルゴリズムの初期点となる。 本稿では, 確率的再帰勾配推定器を用いたより効率的なアルゴリズムを提案し, 複雑性を$\mathcal{O}(L^3 d^{3/2} \epsilon^{-3}+ \Delta L^2 d^{3/2} \delta^{-1} \epsilon^{-3})$に改善する。

We consider the optimization problem of the form $\min_{x \in \mathbb{R}^d} f(x) \triangleq \mathbb{E}_{\xi} [F(x; \xi)]$, where the component $F(x;\xi)$ is $L$-mean-squared Lipschitz but possibly nonconvex and nonsmooth. The recently proposed gradient-free method requires at most $\mathcal{O}( L^4 d^{3/2} \epsilon^{-4} + \Delta L^3 d^{3/2} \delta^{-1} \epsilon^{-4})$ stochastic zeroth-order oracle complexity to find a $(\delta,\epsilon)$-Goldstein stationary point of objective function, where $\Delta = f(x_0) - \inf_{x \in \mathbb{R}^d} f(x)$ and $x_0$ is the initial point of the algorithm. This paper proposes a more efficient algorithm using stochastic recursive gradient estimators, which improves the complexity to $\mathcal{O}(L^3 d^{3/2} \epsilon^{-3}+ \Delta L^2 d^{3/2} \delta^{-1} \epsilon^{-3})$.
翻訳日:2023-06-07 21:05:40 公開日:2023-06-06
# FireFly: 効率的なDSPとメモリ最適化を備えたニューラルネットワークスパイクのための高速ハードウェアアクセラレータ

FireFly: A High-Throughput Hardware Accelerator for Spiking Neural Networks with Efficient DSP and Memory Optimization ( http://arxiv.org/abs/2301.01905v5 )

ライセンス: Link先を確認
Jindong Li and Guobin Shen and Dongcheng Zhao and Qian Zhang and Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)はその強い生物学的解釈性と高いエネルギー効率のために広く利用されている。 バックプロパゲーションアルゴリズムとサロゲート勾配の導入により、スパイクニューラルネットワークの構造はより複雑になり、人工ニューラルネットワークのパフォーマンスギャップは徐々に減少していった。 しかし、フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができず、SNNの開発を著しく制限している。 彼らはバイナリスパイクとシナプス重みの間の算術演算を掘り下げたり、小さなタスクで非常に高価なデバイスを使用することで、チップ上のRAMリソースを無制限に仮定したりしない。 計算効率を向上させるために,スパイキングニューロンの神経動力学を解析し,sn演算を多重蓄積演算に一般化し,xilinx超大規模fpgaにおけるdsp48e2ハードブロックを用いた高性能な演算実装を提案する。 メモリ効率を向上させるため,メモリの省力化を図り,メモリの省力化と膜電圧のメモリアクセスを実現する。 上記の2つの改良を組み合わさって、発火ニューロン(FireFly)が生み出すスパイクを処理できるFPGAアクセラレータを提案する。 FireFlyは、DSP最適化技術をSNNシナプス操作に組み込んだ最初のSNNアクセラレータである。 FireFlyは限られたリソースを持つFPGAエッジデバイスで実装されているが、300MHzでの5.53TOP/sのピーク性能は保証されている。 軽量アクセラレータとしてFireFlyは,大規模FPGAデバイスを用いた既存研究と比較して計算密度効率が最も高い。

Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is the first SNN accelerator that incorporates DSP optimization techniques into SNN synaptic operations. FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.
翻訳日:2023-06-07 21:04:46 公開日:2023-06-06
# 過パラメータ低ランクマトリクスセンシングにおけるプリコンディショニングのパワー

The Power of Preconditioning in Overparameterized Low-Rank Matrix Sensing ( http://arxiv.org/abs/2302.01186v2 )

ライセンス: Link先を確認
Xingyu Xu, Yandi Shen, Yuejie Chi, Cong Ma(参考訳) 真のランクが不明な場合や、行列が不条件である場合の低ランク行列センシング問題に対処するための事前条件付き勾配降下法である、$\textsf{scaledgd($\lambda$)}$を提案する。 オーバーパラメータ化係数表現を使用すると、$\textsf{ScaledGD($\lambda$)}$は小さなランダム初期化から始まり、減衰プレコンディショニングの特定の形式で勾配降下して、オーバーパラメータ化や悪曲率に対処する。 プリコンディショナーによって引き起こされる光計算オーバーヘッドを犠牲にして、$\textsf{ScaledGD($\lambda$)}$は、過小評価でさえもバニラ勾配降下($\textsf{GD}$)と比較して非常に堅牢である。 具体的には、ガウス設計の下で、$\textsf{ScaledGD($\lambda$)}$は条件数と問題次元に関して対数的にしかスケールしない少数の反復の後に、真の低ランク行列に一定の線形速度で収束することを示す。 これにより、条件数に対する多項式依存に苦しむvanilla $\textsf{GD}$の収束率を大幅に改善する。 我々の研究は、過パラメータ学習における一般化を損なうことなく収束を加速する前処理の力を示す。

We propose $\textsf{ScaledGD($\lambda$)}$, a preconditioned gradient descent method to tackle the low-rank matrix sensing problem when the true rank is unknown, and when the matrix is possibly ill-conditioned. Using overparametrized factor representations, $\textsf{ScaledGD($\lambda$)}$ starts from a small random initialization, and proceeds by gradient descent with a specific form of damped preconditioning to combat bad curvatures induced by overparameterization and ill-conditioning. At the expense of light computational overhead incurred by preconditioners, $\textsf{ScaledGD($\lambda$)}$ is remarkably robust to ill-conditioning compared to vanilla gradient descent ($\textsf{GD}$) even with overprameterization. Specifically, we show that, under the Gaussian design, $\textsf{ScaledGD($\lambda$)}$ converges to the true low-rank matrix at a constant linear rate after a small number of iterations that scales only logarithmically with respect to the condition number and the problem dimension. This significantly improves over the convergence rate of vanilla $\textsf{GD}$ which suffers from a polynomial dependency on the condition number. Our work provides evidence on the power of preconditioning in accelerating the convergence without hurting generalization in overparameterized learning.
翻訳日:2023-06-07 20:56:49 公開日:2023-06-06
# オフラインモデル選択のためのbellmanエラーの再検討

Revisiting Bellman Errors for Offline Model Selection ( http://arxiv.org/abs/2302.00141v2 )

ライセンス: Link先を確認
Joshua P. Zitovsky, Daniel de Marchi, Rishabh Agarwal, Michael R. Kosorok(参考訳) オフラインモデル選択(OMS)は、ログデータのみを付与する多くのポリシーセットからベストポリシーを選択することで、実世界の環境でオフラインRLを適用する上で重要である。 広く研究されてきた考え方は、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。 しかし、ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。 この目的のために,ベルマン誤差による悲観的な結果が得られた理由を解明し,ベルマン誤差に基づくOMSアルゴリズムが良好に動作する条件を特定する。 さらに,従来の手法よりも高精度なMSBEの新しい推定器を開発した。 我々の推定値は、atariゲームを含む様々な離散制御タスクで印象的なoms性能を得る。

Offline model selection (OMS), that is, choosing the best policy from a set of many policies given only logged data, is crucial for applying offline RL in real-world settings. One idea that has been extensively explored is to select policies based on the mean squared Bellman error (MSBE) of the associated Q-functions. However, previous work has struggled to obtain adequate OMS performance with Bellman errors, leading many researchers to abandon the idea. To this end, we elucidate why previous work has seen pessimistic results with Bellman errors and identify conditions under which OMS algorithms based on Bellman errors will perform well. Moreover, we develop a new estimator of the MSBE that is more accurate than prior methods. Our estimator obtains impressive OMS performance on diverse discrete control tasks, including Atari games.
翻訳日:2023-06-07 20:56:21 公開日:2023-06-06
# 大規模言語モデルは関係のない文脈で容易に抽出できる

Large Language Models Can Be Easily Distracted by Irrelevant Context ( http://arxiv.org/abs/2302.00093v3 )

ライセンス: Link先を確認
Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed Chi, Nathanael Sch\"arli, Denny Zhou(参考訳) 大規模言語モデルは様々な自然言語処理タスクで印象的なパフォーマンスを達成している。 しかしながら、これまでは主に、入力コンテキスト内のすべての情報がタスクの解決に関係しているベンチマークで評価されてきた。 本研究では,大規模言語モデルの分散性,すなわち,関係のない文脈でモデル解の精度がどのように影響するかを検討する。 特に,問題記述に無関係な情報を含む算術推論データセットである無関係文脈(gsm-ic)を用いた小学校数学を紹介する。 我々はこのベンチマークを用いて,大規模言語モデルにおける最先端プロンプト手法の分散性を測定し,無関係情報を含む場合,モデル性能が劇的に低下することを確認した。 また,この不足を緩和するためのいくつかのアプローチを明らかにする。例えば,自己矛盾による復号化や,無関係な情報を無視するように言語モデルに指示するプロンプトの追加などである。

Large language models have achieved impressive performance on various natural language processing tasks. However, so far they have been evaluated primarily on benchmarks where all information in the input context is relevant for solving the task. In this work, we investigate the distractibility of large language models, i.e., how the model problem-solving accuracy can be influenced by irrelevant context. In particular, we introduce Grade-School Math with Irrelevant Context (GSM-IC), an arithmetic reasoning dataset with irrelevant information in the problem description. We use this benchmark to measure the distractibility of cutting-edge prompting techniques for large language models, and find that the model performance is dramatically decreased when irrelevant information is included. We also identify several approaches for mitigating this deficiency, such as decoding with self-consistency and adding to the prompt an instruction that tells the language model to ignore the irrelevant information.
翻訳日:2023-06-07 20:56:06 公開日:2023-06-06
# 効率の良い勾配値推定に向けて

Toward Efficient Gradient-Based Value Estimation ( http://arxiv.org/abs/2301.13757v2 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Richard Sutton(参考訳) 強化学習における値推定法は安定性がよいが,時間差(TD)学習法よりもかなり遅いのが一般的である。 この遅さの根本原因を考察し,平均正方形ベルマン誤差 (msbe) が条件数が大きいという意味では不条件損失関数であることを示した。 グラデーションベース法におけるmsbeの低条件化の悪影響を解決するため,ガウス・ニュートン方向にほぼ従い,パラメータ化に漸近的にロバストな低複雑性バッチフリー近位法を提案する。 RANSと呼ばれる本アルゴリズムは, 計算複雑性がほぼ同じでありながら, 残留勾配法よりもかなり高速であるという意味で効率的であり, テストした古典的問題に対してTDと競合する。

Gradient-based methods for value estimation in reinforcement learning have favorable stability properties, but they are typically much slower than Temporal Difference (TD) learning methods. We study the root causes of this slowness and show that Mean Square Bellman Error (MSBE) is an ill-conditioned loss function in the sense that its Hessian has large condition-number. To resolve the adverse effect of poor conditioning of MSBE on gradient based methods, we propose a low complexity batch-free proximal method that approximately follows the Gauss-Newton direction and is asymptotically robust to parameterization. Our main algorithm, called RANS, is efficient in the sense that it is significantly faster than the residual gradient methods while having almost the same computational complexity, and is competitive with TD on the classic problems that we tested.
翻訳日:2023-06-07 20:55:50 公開日:2023-06-06
# 機械表現可能なパラメータを持つニューラルネットワークの自動微分の正確性について

On the Correctness of Automatic Differentiation for Neural Networks with Machine-Representable Parameters ( http://arxiv.org/abs/2301.13370v2 )

ライセンス: Link先を確認
Wonyeol Lee, Sejun Park, Alex Aiken(参考訳) 近年の研究では、実数に対する前方および逆モードの自動微分(AD)が、数学的に正確な意味でほぼ常に正しいことが示されている。 しかし、実際のプログラムは実数ではなく機械表現可能な数(例えば浮動小数点数)で動作する。 本稿では,ニューラルネットワークのパラメータ空間が機械表現可能な数のみからなる場合のADの正当性について検討する。 特に,adが不正確である2つのパラメータ:ネットワークが微分可能だがadが導出を計算しない不正確な集合と,ネットワークが非微分可能である非微分集合である。 バイアスパラメータを持つニューラルネットワークでは、正しくない集合は常に空であることを示す。 次に、活性化関数の非微分可能性の数において線形である非微分可能集合のサイズに厳密な境界があることを証明し、この集合にパラメータが存在するための簡単な必要十分条件を与える。 さらに、AD は非微分可能集合上でも常にクラーク偏微分を計算することを証明している。 また、バイアスパラメータなしでニューラルネットワークにこれらの結果を拡張します。

Recent work has shown that forward- and reverse- mode automatic differentiation (AD) over the reals is almost always correct in a mathematically precise sense. However, actual programs work with machine-representable numbers (e.g., floating-point numbers), not reals. In this paper, we study the correctness of AD when the parameter space of a neural network consists solely of machine-representable numbers. In particular, we analyze two sets of parameters on which AD can be incorrect: the incorrect set on which the network is differentiable but AD does not compute its derivative, and the non-differentiable set on which the network is non-differentiable. For a neural network with bias parameters, we first prove that the incorrect set is always empty. We then prove a tight bound on the size of the non-differentiable set, which is linear in the number of non-differentiabilities in activation functions, and give a simple necessary and sufficient condition for a parameter to be in this set. We further prove that AD always computes a Clarke subderivative even on the non-differentiable set. We also extend these results to neural networks possibly without bias parameters.
翻訳日:2023-06-07 20:55:35 公開日:2023-06-06
# 機能シーブを用いた深層ネットワークにおける単純化バイアスの克服

Overcoming Simplicity Bias in Deep Networks using a Feature Sieve ( http://arxiv.org/abs/2301.13293v3 )

ライセンス: Link先を確認
Rishabh Tiwari, Pradeep Shenoy(参考訳) 単純さバイアス(Simplicity bias)とは、より強くより複雑な特徴を排除し、単純で弱い予測的特徴に深く依存するディープネットワークの傾向である。 これは、限られたトレーニングデータとスプリアスな機能ラベル相関によって現実世界のアプリケーションで悪化し、偏りや誤った予測に繋がる。 本稿では,DNNにおける単純さバイアスに対処するための直接的,介入的手法を提案する。 我々は,ネットワークの下位層で容易に計算可能なスプリアス機能を自動的に識別し,抑制することを目指しており,より高いネットワークレベルがよりリッチで意味のある表現を抽出し,活用できるようにする。 我々は、制御されたデータセットと実世界の画像の両方に関連した特徴のこの差分抑制と強化の具体的な証拠を提供し、多くの実世界のデバイアスベンチマーク(Imagenet-Aでは11.4%、BARでは3.2%)でかなりの利得を報告している。 致命的な特性や特徴に関する事前の知識には依存せず、実際にそのような情報を明示的に組み込んだ多くのベースラインを上回ります。 深層ネットワークにおける特徴抽出と表現学習の自動化において,我々の機能シーブ作業がエキサイティングな新たな研究方向を開くと信じています。

Simplicity bias is the concerning tendency of deep networks to over-depend on simple, weakly predictive features, to the exclusion of stronger, more complex features. This is exacerbated in real-world applications by limited training data and spurious feature-label correlations, leading to biased, incorrect predictions. We propose a direct, interventional method for addressing simplicity bias in DNNs, which we call the feature sieve. We aim to automatically identify and suppress easily-computable spurious features in lower layers of the network, thereby allowing the higher network levels to extract and utilize richer, more meaningful representations. We provide concrete evidence of this differential suppression & enhancement of relevant features on both controlled datasets and real-world images, and report substantial gains on many real-world debiasing benchmarks (11.4% relative gain on Imagenet-A; 3.2% on BAR, etc). Crucially, we do not depend on prior knowledge of spurious attributes or features, and in fact outperform many baselines that explicitly incorporate such information. We believe that our feature sieve work opens up exciting new research directions in automated adversarial feature extraction and representation learning for deep networks.
翻訳日:2023-06-07 20:55:20 公開日:2023-06-06
# AutoPEFT:パラメータ効率の良いファインチューニングのための自動構成検索

AutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2301.12132v2 )

ライセンス: Link先を確認
Han Zhou, Xingchen Wan, Ivan Vuli\'c, Anna Korhonen(参考訳) 大規模な事前学習言語モデルは、タスク固有の微調整によって下流のNLPタスクで広く使われているが、そのような手順はコストがかかる。 近年,パラメータ効率の良いファインチューニング (PEFT) 手法は,フルモデルファインチューニング (FFT) に比べてはるかに少ないパラメータを更新しながら,高いタスク性能を実現している。 しかし、PEFTのアーキテクチャや変更可能なパラメータの数、さらにはPEFTモジュールが挿入される層など、PEFTの構成に関する情報的な設計選択を行うのは簡単ではない。 したがって、現在の手動で設計された構成は、パフォーマンス効率のトレードオフという点で、最適ではない可能性が高い。 まず,複数の代表的PEFTモジュールをビルディングブロックとして配置した表現的構成探索空間を設計する。 低コストな設定で多目的ベイズ最適化を用いて、異なるタスクにまたがる高い転送可能なパラメータの数をまたいだ強力なパフォーマンスコストトレードオフを持つパレート最適構成を見つける。 GLUE と SuperGLUE のタスクでは,AutoPEFT が検出した構成が既存のPEFT よりも大幅に優れており,FFT よりも同等かそれ以上であることを示す。

Large pretrained language models are widely used in downstream NLP tasks via task-specific fine-tuning, but such procedures can be costly. Recently, Parameter-Efficient Fine-Tuning (PEFT) methods have achieved strong task performance while updating a much smaller number of parameters compared to full model fine-tuning (FFT). However, it is non-trivial to make informed design choices on the PEFT configurations, such as their architecture, the number of tunable parameters, and even the layers in which the PEFT modules are inserted. Consequently, it is highly likely that the current, manually designed configurations are suboptimal in terms of their performance-efficiency trade-off. Inspired by advances in neural architecture search, we propose AutoPEFT for automatic PEFT configuration selection: we first design an expressive configuration search space with multiple representative PEFT modules as building blocks. Using multi-objective Bayesian optimisation in a low-cost setup, we then discover a Pareto-optimal set of configurations with strong performance-cost trade-offs across different numbers of parameters that are also highly transferable across different tasks. Empirically, on GLUE and SuperGLUE tasks, we show that AutoPEFT-discovered configurations significantly outperform existing PEFT methods and are on par or better than FFT, without incurring substantial training efficiency costs.
翻訳日:2023-06-07 20:54:55 公開日:2023-06-06
# リプシッツ境界深部ネットワークの直接パラメータ化

Direct Parameterization of Lipschitz-Bounded Deep Networks ( http://arxiv.org/abs/2301.11526v3 )

ライセンス: Link先を確認
Ruigang Wang, Ian R. Manchester(参考訳) 本稿では,$\ell^2$リプシッツ境界を保証し,入力摂動に対する感度を制限した深層ニューラルネットワーク(完全連結と畳み込みの両方)のパラメータ化を提案する。 リプシッツ保証は半確定プログラム(SDP)による認証に基づく最も厳密な既知の境界と等価である。 我々は ``direct'' パラメータ化、すなわち、$\mathbb r^n$ から sdp ベースの境界を満たす重みの集合への滑らかなマッピングを提供する。 さらに、パラメータ化が完了し、すなわち、ニューラルネットワークがSDP境界を満たすことは、それがパラメータ化によって表現できる場合に限る。 これにより、SDP制約に対する内部近似や計算集約的なタスク(例えば、投影や障壁項)を使わずに、標準勾配法を用いて訓練することができる。 新しいパラメータ化は、新しい層タイプ( \textit{sandwich layer} )や、近隣層間のパラメータ共有を伴う標準フィードフォワードネットワークの新しいパラメータ化のいずれかと考えることができる。 画像分類に関する総合的な実験により、サンドイッチ層は経験的および証明された堅牢な精度において、以前のアプローチよりも優れていることが示された。 コードは \url{https://github.com/acfr/LBDN} で入手できる。

This paper introduces a new parameterization of deep neural networks (both fully-connected and convolutional) with guaranteed $\ell^2$ Lipschitz bounds, i.e. limited sensitivity to input perturbations. The Lipschitz guarantees are equivalent to the tightest-known bounds based on certification via a semidefinite program (SDP). We provide a ``direct'' parameterization, i.e., a smooth mapping from $\mathbb R^N$ onto the set of weights satisfying the SDP-based bound. Moreover, our parameterization is complete, i.e. a neural network satisfies the SDP bound if and only if it can be represented via our parameterization. This enables training using standard gradient methods, without any inner approximation or computationally intensive tasks (e.g. projections or barrier terms) for the SDP constraint. The new parameterization can equivalently be thought of as either a new layer type (the \textit{sandwich layer}), or a novel parameterization of standard feedforward networks with parameter sharing between neighbouring layers. A comprehensive set of experiments on image classification shows that sandwich layers outperform previous approaches on both empirical and certified robust accuracy. Code is available at \url{https://github.com/acfr/LBDN}.
翻訳日:2023-06-07 20:54:30 公開日:2023-06-06
# 刺激はどれくらい貧弱ですか。 児童指向音声を用いたニューラルネットワークにおける階層的一般化の評価

How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech ( http://arxiv.org/abs/2301.11462v2 )

ライセンス: Link先を確認
Aditya Yedetore, Tal Linzen, Robert Frank, R. Thomas McCoy(参考訳) 構文を取得する際、子どもたちは一貫して、競合する非階層的可能性よりも階層的ルールを選択する。 これは、階層構造に対する学習バイアスや、子どもの言語入力における階層的手がかりと相互作用するより一般的なバイアスによるものであるか? LSTMとトランスフォーマー(階層的バイアスのない2種類のニューラルネットワーク)を、子どもの言語入力に類似した量と内容(ChiLDESコーパスからのテキスト)でトレーニングすることで、これらの可能性を探る。 次に、これらのモデルが英語のyes/no質問について学んだこと、階層構造が重要な現象について評価する。 子ども向け音声(パープレキシティによって測定される)の表面統計をうまく捉えることができるが、両方のモデルタイプは正しい階層規則よりも不正確な線形規則と一貫性のある方法で一般化する。 これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。

When acquiring syntax, children consistently choose hierarchical rules over competing non-hierarchical possibilities. Is this preference due to a learning bias for hierarchical structure, or due to more general biases that interact with hierarchical cues in children's linguistic input? We explore these possibilities by training LSTMs and Transformers - two types of neural networks without a hierarchical bias - on data similar in quantity and content to children's linguistic input: text from the CHILDES corpus. We then evaluate what these models have learned about English yes/no questions, a phenomenon for which hierarchical structure is crucial. We find that, though they perform well at capturing the surface statistics of child-directed speech (as measured by perplexity), both model types generalize in a way more consistent with an incorrect linear rule than the correct hierarchical rule. These results suggest that human-like generalization from text alone requires stronger biases than the general sequence-processing biases of standard neural network architectures.
翻訳日:2023-06-07 20:54:08 公開日:2023-06-06
# f分割最小化による言語モデルの調整

Aligning Language Models with Preferences through f-divergence Minimization ( http://arxiv.org/abs/2302.08215v2 )

ライセンス: Link先を確認
Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Nahyeon Ryu, Marc Dymetman(参考訳) 好みを持つ言語モデルをアライメントすることは、望ましい振る舞いを表すターゲット分布の近似として表すことができる。 既存のアプローチは、ターゲット分布の関数形式と、それを近似するアルゴリズムの両方が異なる。 例えば、人間フィードバックからの強化学習(RLHF)は、目的のKLペナルティから生じる暗黙の目標分布から逆KLを最小化する。 一方、生成分布制御 (gdc) は明示的な目標分布を持ち、分布政策勾配 (distributional policy gradient, dpg) アルゴリズムを用いてそれからの前方klを最小化する。 本稿では, f-divergence を用いて評価可能な任意の対象分布を近似する新しい手法 f-DPG を提案する。 f-DPGは、フレームワーク(RLHF, GDC)と近似方法(DPG, RL with KL penalties)を統一する。 分散目的の様々な選択の実用的メリットを示し、普遍的に最適な目的はなく、異なる分岐が異なるアライメントと多様性のトレードオフを示すことを示す。 ジェンセン=シャノンの発散はこれらの目標のバランスを良好に保ち、しばしば前方のkl発散を大きく上回っており、先行研究よりも大幅に改善している。 これらの違いはモデルのサイズが大きくなるにつれて持続し、適切な分散目的を選択することの重要性を強調している。

Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing approaches differ both in the functional form of the target distribution and the algorithm used to approximate it. For instance, Reinforcement Learning from Human Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target distribution arising from a KL penalty in the objective. On the other hand, Generative Distributional Control (GDC) has an explicit target distribution and minimizes a forward KL from it using the Distributional Policy Gradient (DPG) algorithm. In this paper, we propose a new approach, f-DPG, which allows the use of any f-divergence to approximate any target distribution that can be evaluated. f-DPG unifies both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL penalties). We show the practical benefits of various choices of divergence objectives and demonstrate that there is no universally optimal objective but that different divergences present different alignment and diversity trade-offs. We show that Jensen-Shannon divergence strikes a good balance between these objectives, and frequently outperforms forward KL divergence by a wide margin, leading to significant improvements over prior work. These distinguishing characteristics between divergences persist as the model size increases, highlighting the importance of selecting appropriate divergence objectives.
翻訳日:2023-06-07 20:48:22 公開日:2023-06-06
# DP-BARTによる局所微分プライバシー下でのプライバタイズテキストの書き直し

DP-BART for Privatized Text Rewriting under Local Differential Privacy ( http://arxiv.org/abs/2302.07636v2 )

ライセンス: Link先を確認
Timour Igamberdiev and Ivan Habernal(参考訳) プライバタイズされたテキストの書き直しとローカル差分プライバシー(LDP)は、個人に対するプライバシー保護を正式に保証しながら機密文書の共有を可能にする最近のアプローチである。 しかし、既存のシステムは、形式的な数学的欠陥、非現実的なプライバシー保証、個々の単語のみの民営化、透明性と再現性の欠如など、いくつかの問題に直面している。 本稿では,既存の LDP システムに大きく勝る「DP-BART」を提案する。 提案手法では,新しいクリッピング法,反復プルーニング法,さらに,dp保証に必要なノイズ量を大幅に削減する内部表現の訓練を行う。 異なるサイズの5つのテキストデータセット上で実験を行い、異なるプライバシー保証で書き直し、下流のテキスト分類タスクで書き直したテキストを評価する。 最後に, 民営化テキスト書き換え手法とその限界について, 高ノイズ要求につながるldpパラダイムにおける厳格なテキスト隣接制約の問題など, 徹底的に議論する。

Privatized text rewriting with local differential privacy (LDP) is a recent approach that enables sharing of sensitive textual documents while formally guaranteeing privacy protection to individuals. However, existing systems face several issues, such as formal mathematical flaws, unrealistic privacy guarantees, privatization of only individual words, as well as a lack of transparency and reproducibility. In this paper, we propose a new system 'DP-BART' that largely outperforms existing LDP systems. Our approach uses a novel clipping method, iterative pruning, and further training of internal representations which drastically reduces the amount of noise required for DP guarantees. We run experiments on five textual datasets of varying sizes, rewriting them at different privacy guarantees and evaluating the rewritten texts on downstream text classification tasks. Finally, we thoroughly discuss the privatized text rewriting approach and its limitations, including the problem of the strict text adjacency constraint in the LDP paradigm that leads to the high noise requirement.
翻訳日:2023-06-07 20:47:56 公開日:2023-06-06
# 効果的な抵抗レンズによるgnnの過剰探索の理解

Understanding Oversquashing in GNNs through the Lens of Effective Resistance ( http://arxiv.org/abs/2302.06835v2 )

ライセンス: Link先を確認
Mitchell Black and Zhengchao Wan and Amir Nayyeri and Yusu Wang(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は、グラフ構造化データのための一般的な学習アーキテクチャである。 しかし、GNNが遠いノード間で情報を送るのが難しいという問題もある。 オーバースクワッシングの理解と緩和は、最近研究コミュニティから大きな注目を集めている。 本稿では,入力グラフ内のノード間の有効抵抗のレンズによるオーバーカッシングを解析することにより,この作業線を継続する。 有効抵抗は、グラフ内の経路によって2つのノード間の接続の ``strength'' を直感的に捉え、グラフ理論の多くの領域にまたがる豊富な文献を持つ。 本稿では,グラフにおけるオーバーカッシングの総量の境界として全有効抵抗を用い,その使用を理論的に正当化することを提案する。 さらに,入力グラフに付加されるエッジを識別し,全有効抵抗を最小限に抑えるアルゴリズムを開発し,オーバーカッシングを緩和する。 我々は,GNNの性能向上のための全有効抵抗に基づくスイッチング戦略の有効性を示す実証的証拠を提供する。

Message passing graph neural networks (GNNs) are a popular learning architectures for graph-structured data. However, one problem GNNs experience is oversquashing, where a GNN has difficulty sending information between distant nodes. Understanding and mitigating oversquashing has recently received significant attention from the research community. In this paper, we continue this line of work by analyzing oversquashing through the lens of the effective resistance between nodes in the input graph. Effective resistance intuitively captures the ``strength'' of connection between two nodes by paths in the graph, and has a rich literature spanning many areas of graph theory. We propose to use total effective resistance as a bound of the total amount of oversquashing in a graph and provide theoretical justification for its use. We further develop an algorithm to identify edges to be added to an input graph to minimize the total effective resistance, thereby alleviating oversquashing. We provide empirical evidence of the effectiveness of our total effective resistance based rewiring strategies for improving the performance of GNNs.
翻訳日:2023-06-07 20:47:38 公開日:2023-06-06
# ConCerNet: 自動保存法発見と信頼できる動的システム予測のためのコントラスト学習ベースのフレームワーク

ConCerNet: A Contrastive Learning Based Framework for Automated Conservation Law Discovery and Trustworthy Dynamical System Prediction ( http://arxiv.org/abs/2302.05783v3 )

ライセンス: Link先を確認
Wang Zhang, Tsui-Wei Weng, Subhro Das, Alexandre Megretski, Luca Daniel, Lam M. Nguyen(参考訳) ディープ・ニューラル・ネットワーク(dnn)は力学系をモデル化する能力が非常に高いが、保存則などの物理学上の制約に従わない。 本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。 ConCerNetは2つのステップから構成される。 一 軌跡観察に沿ったシステム不変量(すなわち保存特性)を自動的に把握するための対照的な学習方法 (ii)学習力学モデルが学習不変量を保存することを保証するための神経投射層。 理論的には、学習した潜在表現と未知系の不変関数との関数関係を証明している。 実験の結果,提案手法は座標誤差と保存量の両方において,ベースラインニューラルネットワークよりも高い性能を示すことがわかった。 ニューラルネットワークに基づくパラメータ化と事前知識に依存しないので、オートエンコーダを利用することで、我々の手法は複雑で大規模に動的に拡張できる。

Deep neural networks (DNN) have shown great capacity of modeling a dynamical system; nevertheless, they usually do not obey physics constraints such as conservation laws. This paper proposes a new learning framework named ConCerNet to improve the trustworthiness of the DNN based dynamics modeling to endow the invariant properties. ConCerNet consists of two steps: (i) a contrastive learning method to automatically capture the system invariants (i.e. conservation properties) along the trajectory observations; (ii) a neural projection layer to guarantee that the learned dynamics models preserve the learned invariants. We theoretically prove the functional relationship between the learned latent representation and the unknown system invariant function. Experiments show that our method consistently outperforms the baseline neural networks in both coordinate error and conservation metrics by a large margin. With neural network based parameterization and no dependence on prior knowledge, our method can be extended to complex and large-scale dynamics by leveraging an autoencoder.
翻訳日:2023-06-07 20:47:22 公開日:2023-06-06
# Adap-$\tau$: 推奨のための埋め込みマグニチュードを適応的に調整する

Adap-$\tau$: Adaptively Modulating Embedding Magnitude for Recommendation ( http://arxiv.org/abs/2302.04775v3 )

ライセンス: Link先を確認
Jiawei Chen, Junkang Wu, Jiancan Wu, Sheng Zhou, Xuezhi Cao, Xiangnan He(参考訳) 近年,レコメンダシステムにおける組込み型手法が大きな成功を収めている。 適切なパフォーマンスにもかかわらず、これらのメソッドの潜在的な制限 - 埋め込みの規模は明示的に調整されていないため、人気バイアスとトレーニングの不安定性が増し、モデルが良い推奨をすることを妨げる可能性がある、と私たちは主張する。 埋め込み正規化を推奨に活用する動機になります。 ユーザ/イテムの埋め込みを特定の値に正規化することにより、実世界の4つのデータセット上で、印象的なパフォーマンス向上(平均9\%)を経験的に観察する。 また、推奨に正規化を適用する際の深刻な制限も明らかにしています -- 正規化埋め込みのスケールを制御する温度$\tau$の選択に対して、パフォーマンスは極めて敏感です。 正規化のメリットを十分に高めるために、本研究では適切な$\tau$ を適応的に設定する方法を研究した。 この目的に向けて、まず、推奨におけるその役割を完全に理解するために$\tau$の包括的な分析を行います。 そこで我々は,適応性,パーソナライズド,効率性,モデル非依存の4つの望ましい特性を満たす温度適応細粒度戦略adap-$\tau$を開発した。 提案の有効性を検証するために大規模な実験が行われた。 コードは \url{https://github.com/junkangwu/adap_tau} で入手できる。

Recent years have witnessed the great successes of embedding-based methods in recommender systems. Despite their decent performance, we argue one potential limitation of these methods -- the embedding magnitude has not been explicitly modulated, which may aggravate popularity bias and training instability, hindering the model from making a good recommendation. It motivates us to leverage the embedding normalization in recommendation. By normalizing user/item embeddings to a specific value, we empirically observe impressive performance gains (9\% on average) on four real-world datasets. Although encouraging, we also reveal a serious limitation when applying normalization in recommendation -- the performance is highly sensitive to the choice of the temperature $\tau$ which controls the scale of the normalized embeddings. To fully foster the merits of the normalization while circumvent its limitation, this work studied on how to adaptively set the proper $\tau$. Towards this end, we first make a comprehensive analyses of $\tau$ to fully understand its role on recommendation. We then accordingly develop an adaptive fine-grained strategy Adap-$\tau$ for the temperature with satisfying four desirable properties including adaptivity, personalized, efficiency and model-agnostic. Extensive experiments have been conducted to validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/Adap_tau}.
翻訳日:2023-06-07 20:47:06 公開日:2023-06-06
# 逆例が良い: 逆例による拡散モデルからの絵画模倣の防止

Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples ( http://arxiv.org/abs/2302.04578v2 )

ライセンス: Link先を確認
Chumeng Liang, Xiaoyu Wu, Yang Hua, Jiaru Zhang, Yiming Xue, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan(参考訳) 近年、拡散モデル (DM) はAI for Art の波を加速させるが、著作権侵害者は無許可の絵画を使ってDMを訓練し、同様のスタイルで新しい絵画を制作することで、新たな著作権上の懸念を提起している。 こうした著作権侵害に対処するため,本論文では,人造美術品の保護にDMの逆例を活用することを提案する。 具体的には、まず、DMの逆例を定義し評価するための理論的枠組みを構築する。 そこで我々は,この枠組みに基づいて,DMの逆過程からサンプリングされた様々な潜伏変数を最適化することにより,モンテカルロによるDMの逆例推定を利用したAdvDMという新しいアルゴリズムを設計する。 大規模な実験により, 生成した逆方向の例は, DMの抽出を効果的に妨げうることが示された。 したがって,本手法は,DMベースのAI-for-Artアプリケーションを備えた侵害者に対して,著作権を保護するための強力なツールとなる。 このメソッドのコードはgithubで入手できます。 https://github.com/mist-project/mist.git.com/です。

Recently, Diffusion Models (DMs) boost a wave in AI for Art yet raise new copyright concerns, where infringers benefit from using unauthorized paintings to train DMs to generate novel paintings in a similar style. To address these emerging copyright violations, in this paper, we are the first to explore and propose to utilize adversarial examples for DMs to protect human-created artworks. Specifically, we first build a theoretical framework to define and evaluate the adversarial examples for DMs. Then, based on this framework, we design a novel algorithm, named AdvDM, which exploits a Monte-Carlo estimation of adversarial examples for DMs by optimizing upon different latent variables sampled from the reverse process of DMs. Extensive experiments show that the generated adversarial examples can effectively hinder DMs from extracting their features. Therefore, our method can be a powerful tool for human artists to protect their copyright against infringers equipped with DM-based AI-for-Art applications. The code of our method is available on GitHub: https://github.com/mist-project/mist.git.
翻訳日:2023-06-07 20:46:41 公開日:2023-06-06
# マジックブルではなくインサイトを探索する:不均一処理効果推定におけるモデル選択ジレンマのデミスティフィケーションを目指して

In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2302.02923v2 )

ライセンス: Link先を確認
Alicia Curth, Mihaela van der Schaar(参考訳) そのため、そのような効果を実際に見積もるモデルをデプロイする前に、このタスクのために成長を続ける機械学習ツールボックスから最高の候補が選択されたことを確認する必要があります。 残念なことに、実際には偽情報がないため、通常、それを行うための標準的なバリデーションメトリクスに頼ることはできず、治療効果推定文献でよく知られたモデル選択ジレンマに繋がる。 最近、いくつかの解決策が研究されているが、異なるモデル選択基準の強みと弱みの体系的な理解はまだ不足している。 そこで本稿では,グローバル"勝者"を宣言する代わりに,異なる選択基準による成功モードと失敗モードを実証的に検討する。 我々は、選択戦略と候補推定子とそれらの比較に用いるデータの間には複雑な相互作用があることを強調し、この文脈におけるさらなる照明的実証研究の設計のためのデシデラタとともに、異なる基準の相対的(dis)アドバンタに関する興味深い洞察を提供する。

Personalized treatment effect estimates are often of interest in high-stakes applications -- thus, before deploying a model estimating such effects in practice, one needs to be sure that the best candidate from the ever-growing machine learning toolbox for this task was chosen. Unfortunately, due to the absence of counterfactual information in practice, it is usually not possible to rely on standard validation metrics for doing so, leading to a well-known model selection dilemma in the treatment effect estimation literature. While some solutions have recently been investigated, systematic understanding of the strengths and weaknesses of different model selection criteria is still lacking. In this paper, instead of attempting to declare a global `winner', we therefore empirically investigate success- and failure modes of different selection criteria. We highlight that there is a complex interplay between selection strategies, candidate estimators and the data used for comparing them, and provide interesting insights into the relative (dis)advantages of different criteria alongside desiderata for the design of further illuminating empirical studies in this context.
翻訳日:2023-06-07 20:46:21 公開日:2023-06-06
# 2層ニューラルネットワークにおける確率的勾配降下誘起表現のドリフト

Stochastic Gradient Descent-Induced Drift of Representation in a Two-Layer Neural Network ( http://arxiv.org/abs/2302.02563v2 )

ライセンス: Link先を確認
Farhad Pashakhanloo, Alexei Koulakov(参考訳) 表現的ドリフト(representational drift)とは、安定したタスクパフォーマンスを伴う神経活動の過度な変化を指す。 脳や人工ネットワークで観察されているにもかかわらず、ドリフトのメカニズムとその意味は完全には理解されていない。 近年の梨状皮質における刺激依存性ドリフトの実験結果に動機づけられ,理論とシミュレーションを用いて2層リニアフィードフォワードネットワークでこの現象を研究する。 具体的には、連続的なオンライン学習シナリオにおいて、SGD(Stochastic Gradient Descent)に固有のノイズによって引き起こされるドリフトについて検討する。 学習力学を最小損失多様体の正規空間と接空間に分解することにより、前者は有限変動変動変動に対応し、後者は多様体上の効果的な拡散過程と見なすことができる。 ネットワークパラメータと入力分布の関数として,隠れ層における刺激表現のゆらぎと拡散係数を解析的に計算する。 さらに,実験と整合して,より頻繁に提示される刺激に対してドリフト速度が遅いことを示す。 全体として、我々の分析は、生物学的および人工ニューラルネットワークにおけるドリフト現象をよりよく理解するための理論的枠組みをもたらす。

Representational drift refers to over-time changes in neural activation accompanied by a stable task performance. Despite being observed in the brain and in artificial networks, the mechanisms of drift and its implications are not fully understood. Motivated by recent experimental findings of stimulus-dependent drift in the piriform cortex, we use theory and simulations to study this phenomenon in a two-layer linear feedforward network. Specifically, in a continual online learning scenario, we study the drift induced by the noise inherent in the Stochastic Gradient Descent (SGD). By decomposing the learning dynamics into the normal and tangent spaces of the minimum-loss manifold, we show the former corresponds to a finite variance fluctuation, while the latter could be considered as an effective diffusion process on the manifold. We analytically compute the fluctuation and the diffusion coefficients for the stimuli representations in the hidden layer as functions of network parameters and input distribution. Further, consistent with experiments, we show that the drift rate is slower for a more frequently presented stimulus. Overall, our analysis yields a theoretical framework for better understanding of the drift phenomenon in biological and artificial neural networks.
翻訳日:2023-06-07 20:46:00 公開日:2023-06-06
# 潜時宇宙ベイズ最適化における探索の強化

Enhancing Exploration in Latent Space Bayesian Optimization ( http://arxiv.org/abs/2302.02399v2 )

ライセンス: Link先を確認
Onur Boyar and Ichiro Takeuchi(参考訳) ラテント・スペース・ベイズ最適化(LSBO)は、典型的な変分オートエンコーダ(VAE)とベイズ最適化(BO)を組み合わせた生成モデルである。 しかし、LSBOは、BOとVAEの目的とのミスマッチにより、外挿能力の低下により課題に直面している。 本稿では,LSBO効率の向上と課題克服のための新しいコントリビューションを提案する。 まず、LSBOにおける遅延一貫性/一貫性の概念を、BO-VAEミスマッチから生じる重要な問題として紹介する。 そこで我々はLSBOにおける一貫した領域を利用するLCA-AF(Latent Consistent Aware-Acquisition Function)を提案する。 さらに,一貫した点を持つ潜在空間を生成し,BOの補間能力を向上する新しいVAE法であるLCA-VAEを提案する。 LCA-VAEとLCA-AFを組み合わせたLCA-LSBOを開発した。 LCA-LSBOの画像生成およびデノボ化学設計におけるLCA-LSBOの性能向上を実験的に評価し,LSBOの補間性能の向上を実証した。 本手法は,LSBOにおける潜時整合性に対処し,LCA-VAEを活用することの重要性を強調し,高い試料効率と有効探索を実現する。

Latent Space Bayesian Optimization (LSBO) combines generative models, typically Variational Autoencoders (VAE), with Bayesian Optimization (BO) to generate de novo objects of interest. However, LSBO faces challenges due to the mismatch between the objectives of BO and VAE, resulting in poor extrapolation capabilities. In this paper, we propose novel contributions to enhance LSBO efficiency and overcome this challenge. We first introduce the concept of latent consistency/inconsistency as a crucial problem in LSBO, arising from the BO-VAE mismatch. To address this, we propose the Latent Consistent Aware-Acquisition Function (LCA-AF) that leverages consistent regions in LSBO. Additionally, we present LCA-VAE, a novel VAE method that generates a latent space with increased consistent points, improving BO's extrapolation capabilities. Combining LCA-VAE and LCA-AF, we develop LCA-LSBO. Experimental evaluations validate the improved performance of LCA-LSBO in image generation and de-novo chemical design tasks, showcasing its enhanced extrapolation capabilities in LSBO. Our approach achieves high sample-efficiency and effective exploration, emphasizing the significance of addressing latent consistency and leveraging LCA-VAE in LSBO.
翻訳日:2023-06-07 20:45:42 公開日:2023-06-06
# 関係型Weisfeiler-Lemanによるリンク予測の一理論

A Theory of Link Prediction via Relational Weisfeiler-Leman ( http://arxiv.org/abs/2302.02209v2 )

ライセンス: Link先を確認
Xingyue Huang, Miguel Romero Orth, \.Ismail \.Ilkan Ceylan, Pablo Barcel\'o(参考訳) グラフニューラルネットワークは、グラフ構造化データ上での表現学習のための顕著なモデルである。 これらのモデルの能力と限界は単純なグラフではよく理解されているが、知識グラフの文脈では理解が不十分である。 我々の目標は、リンク予測の顕著なタスクに関連する知識グラフのためのグラフニューラルネットワークの展望を体系的に理解することである。 我々の分析は、一見無関係なモデルに対する統一的な視点を必要とし、他のモデルもアンロックする。 様々なモデルの表現力は対応する関係性ワイスフィラー・ルマンアルゴリズムによって特徴づけられる。 この分析は、グラフニューラルネットワークのクラスによってキャプチャされる関数のクラスを正確に論理的に特徴づけるために拡張される。 本論文で提示された理論的知見は, 実証的に検証された実用的設計選択の利点を説明するものである。

Graph neural networks are prominent models for representation learning over graph-structured data. While the capabilities and limitations of these models are well-understood for simple graphs, our understanding remains incomplete in the context of knowledge graphs. Our goal is to provide a systematic understanding of the landscape of graph neural networks for knowledge graphs pertaining to the prominent task of link prediction. Our analysis entails a unifying perspective on seemingly unrelated models and unlocks a series of other models. The expressive power of various models is characterized via a corresponding relational Weisfeiler-Leman algorithm. This analysis is extended to provide a precise logical characterization of the class of functions captured by a class of graph neural networks. The theoretical findings presented in this paper explain the benefits of some widely employed practical design choices, which are validated empirically.
翻訳日:2023-06-07 20:45:16 公開日:2023-06-06
# 平均場最適制御問題としてのODE-Netの変分定式化とその存在結果

Variational formulations of ODE-Net as a mean-field optimal control problem and existence results ( http://arxiv.org/abs/2303.05924v3 )

ライセンス: Link先を確認
Noboru Isobe, Mizuho Okumura(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の連続体モデルであるODE-Netの数学的解析を行う。 近年、機械学習の研究者たちは、DNNの深い構造をODEに置き換えるアイデアを連続的な制限として導入している。 これらの研究は、ODE-Netの「学習」をパラメトリックODEによって制約された「ロス」の最小化とみなしている。 この最小化問題に対する最小化器の存在を仮定する必要があるが、その存在を詳細に分析する研究はごくわずかである。 本稿では,量論的平均場最適制御問題としてODE-Netの定式化に基づいて,最小化器の存在について論じる。 ODE-Netのベクトル場を記述するニューラルネットワークが学習可能なパラメータに対して線形である場合、その存在が証明される。 この証明は測度理論の定式化と変分計算の直接的な方法を組み合わせたものである。 次に、上述の線形性仮定を取り除くために、理想化最小化問題を提案する。 このような問題は、ベナモ-ブレーニエの公式とニューラルネットワークの普遍近似定理に付随する運動正則化にインスパイアされている。 これらの存在の証明は変分法、微分方程式、平均場最適制御理論を用いる。 彼らは、ディープニューラルネットワークの学習過程を研究するための、新しい分析方法を模索する。

This paper presents a mathematical analysis of ODE-Net, a continuum model of deep neural networks (DNNs). In recent years, Machine Learning researchers have introduced ideas of replacing the deep structure of DNNs with ODEs as a continuum limit. These studies regard the "learning" of ODE-Net as the minimization of a "loss" constrained by a parametric ODE. Although the existence of a minimizer for this minimization problem needs to be assumed, only a few studies have investigated its existence analytically in detail. In the present paper, the existence of a minimizer is discussed based on a formulation of ODE-Net as a measure-theoretic mean-field optimal control problem. The existence result is proved when a neural network, which describes a vector field of ODE-Net, is linear with respect to learnable parameters. The proof employs the measure-theoretic formulation combined with the direct method of Calculus of Variations. Secondly, an idealized minimization problem is proposed to remove the above linearity assumption. Such a problem is inspired by a kinetic regularization associated with the Benamou--Brenier formula and universal approximation theorems for neural networks. The proofs of these existence results use variational methods, differential equations, and mean-field optimal control theory. They will stand for a new analytic way to investigate the learning process of deep neural networks.
翻訳日:2023-06-07 20:37:59 公開日:2023-06-06
# 医用画像分割のためのベイズ周波数再パラメータ化による3次元カーネルのスケールアップ

Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for Medical Image Segmentation ( http://arxiv.org/abs/2303.05785v2 )

ライセンス: Link先を確認
Ho Hin Lee, Quan Liu, Shunxing Bao, Qi Yang, Xin Yu, Leon Y. Cai, Thomas Li, Yuankai Huo, Xenofon Koutsoukos, Bennett A. Landman(参考訳) 視覚変換器のインスピレーションにより、奥行きの畳み込みの概念は、医療画像のセグメンテーションにLK(Large Kernel)サイズを使用する大きな有効受容場(ERF)を提供するために再考される。 しかし、セグメンテーション性能は、カーネルサイズが拡大するにつれて飽和し、さらに劣化する可能性がある(例えば、CNN(Convolutional Neural Network)において、21\times 21\times 21$)。 我々はLKサイズとの畳み込みが局所学習の最適収束を維持するために限られていると仮定する。 構造的再パラメータ化(SR)は小さなカーネルを並列に局所収束させるが、最適な小さなカーネル分岐はトレーニングの計算効率を損なう可能性がある。 本研究では,単純なカーネルブロック設計の純粋なcnnアーキテクチャであるrepux-netを提案する。これは6つの公的なデータセットを用いて,現在のネットワーク状態のsota(3d ux-net, swinunetr)と競合する。 カーネル再パラメータ化とカーネル収束の分岐ワイド変動の同値性を導出する。 ヒトの視覚系における空間周波数に触発されて、カーネル収束を要素的に設定し、トレーニング中に畳み込み重みを再パラメータ化する前にベイジアンとして空間周波数をモデル化するように拡張する。 具体的には、相互関数を利用して周波数重み付け値を推定し、対応するカーネル要素を確率勾配降下のために再スケールする。 実験結果から、RepUX-Netは内部検証(FLARE:0.929 to 0.944)、外部検証(MSD:0.901 to 0.932, KiTS:0.815 to 0.847, LiTS:0.933 to 0.949, TCIA: 0.736 to 0.779)、転送学習(AMOS: 0.880 to 0.911)の3D SOTAベンチマークを一貫して上回っている。

With the inspiration of vision transformers, the concept of depth-wise convolution revisits to provide a large Effective Receptive Field (ERF) using Large Kernel (LK) sizes for medical image segmentation. However, the segmentation performance might be saturated and even degraded as the kernel sizes scaled up (e.g., $21\times 21\times 21$) in a Convolutional Neural Network (CNN). We hypothesize that convolution with LK sizes is limited to maintain an optimal convergence for locality learning. While Structural Re-parameterization (SR) enhances the local convergence with small kernels in parallel, optimal small kernel branches may hinder the computational efficiency for training. In this work, we propose RepUX-Net, a pure CNN architecture with a simple large kernel block design, which competes favorably with current network state-of-the-art (SOTA) (e.g., 3D UX-Net, SwinUNETR) using 6 challenging public datasets. We derive an equivalency between kernel re-parameterization and the branch-wise variation in kernel convergence. Inspired by the spatial frequency in the human visual system, we extend to vary the kernel convergence into element-wise setting and model the spatial frequency as a Bayesian prior to re-parameterize convolutional weights during training. Specifically, a reciprocal function is leveraged to estimate a frequency-weighted value, which rescales the corresponding kernel element for stochastic gradient descent. From the experimental results, RepUX-Net consistently outperforms 3D SOTA benchmarks with internal validation (FLARE: 0.929 to 0.944), external validation (MSD: 0.901 to 0.932, KiTS: 0.815 to 0.847, LiTS: 0.933 to 0.949, TCIA: 0.736 to 0.779) and transfer learning (AMOS: 0.880 to 0.911) scenarios in Dice Score.
翻訳日:2023-06-07 20:37:42 公開日:2023-06-06
# 分子グラフのためのEwald-based Long-Range Message Passing

Ewald-based Long-Range Message Passing for Molecular Graphs ( http://arxiv.org/abs/2303.04791v2 )

ライセンス: Link先を確認
Arthur Kosmala, Johannes Gasteiger, Nicholas Gao, Stephan G\"unnemann(参考訳) 分子データから潜在的なエネルギー表面を学ぶニューラルアーキテクチャは近年急速に改善されている。 この成功の鍵となる要因は、メッセージパッシングニューラルネットワーク(mpnn)パラダイムである。 システムサイズでの好ましいスケーリングは、部分的にメッセージの空間距離制限に依存する。 この局所性への焦点は誘導バイアスとして有用であるが、静電気やファンデルワールス力のような長距離相互作用の学習を妨げる。 この欠点に対処するために、距離ではなく周波数のカットオフによる相互作用を制限する非局所フーリエ空間スキームであるEwaldメッセージパッシングを提案する。 計算コストが低く、アーキテクチャの詳細を知らないため、既存のMPNNアーキテクチャ上の拡張として機能する。 4つのベースラインモデルと、多様な周期構造(OC20)と周期構造(OE62)を含む2つのデータセットを用いてアプローチを検証した。 すべてのモデルとデータセットにおいて、エネルギーの堅牢な改善は絶対的なエラーであり、oc20では10%、oe62では16%である。 解析の結果,これらの改良が地中真理エネルギーに対する長期的寄与が大きい構造に与える影響が明らかとなった。

Neural architectures that learn potential energy surfaces from molecular data have undergone fast improvement in recent years. A key driver of this success is the Message Passing Neural Network (MPNN) paradigm. Its favorable scaling with system size partly relies upon a spatial distance limit on messages. While this focus on locality is a useful inductive bias, it also impedes the learning of long-range interactions such as electrostatics and van der Waals forces. To address this drawback, we propose Ewald message passing: a nonlocal Fourier space scheme which limits interactions via a cutoff on frequency instead of distance, and is theoretically well-founded in the Ewald summation method. It can serve as an augmentation on top of existing MPNN architectures as it is computationally inexpensive and agnostic to architectural details. We test the approach with four baseline models and two datasets containing diverse periodic (OC20) and aperiodic structures (OE62). We observe robust improvements in energy mean absolute errors across all models and datasets, averaging 10% on OC20 and 16% on OE62. Our analysis shows an outsize impact of these improvements on structures with high long-range contributions to the ground truth energy.
翻訳日:2023-06-07 20:37:03 公開日:2023-06-06
# モデル標的非差別的データ中毒攻撃の限界を探る

Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning Attacks ( http://arxiv.org/abs/2303.03592v3 )

ライセンス: Link先を確認
Yiwei Lu, Gautam Kamath, Yaoliang Yu(参考訳) 無差別なデータ中毒攻撃は、少量の破損したトレーニングデータを注入することで、モデルのテスト精度を低下させることを目的としている。 大きな関心にもかかわらず、既存の攻撃は現代の機械学習(ML)アーキテクチャに対して比較的効果が低い。 本稿では,ターゲットパラメータ(すなわちモデル標的攻撃)に対するデータ中毒攻撃の本質的限界を検討するための技術ツールとして,モデル中毒到達可能性の概念を紹介する。 我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能な閾値を導出する。 既存のパラメータ破壊攻撃と勾配キャンセル攻撃の精錬に基づいて,我々の理論的知見の検証,遷移しきい値の予測可能性の検証,および既存の無差別なデータ中毒ベースラインをさまざまなデータセットやモデルに対して大幅に改善するための広範な実験を行った。 我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。

Indiscriminate data poisoning attacks aim to decrease a model's test accuracy by injecting a small amount of corrupted training data. Despite significant interest, existing attacks remain relatively ineffective against modern machine learning (ML) architectures. In this work, we introduce the notion of model poisoning reachability as a technical tool to explore the intrinsic limits of data poisoning attacks towards target parameters (i.e., model-targeted attacks). We derive an easily computable threshold to establish and quantify a surprising phase transition phenomenon among popular ML models: data poisoning attacks can achieve certain target parameters only when the poisoning ratio exceeds our threshold. Building on existing parameter corruption attacks and refining the Gradient Canceling attack, we perform extensive experiments to confirm our theoretical findings, test the predictability of our transition threshold, and significantly improve existing indiscriminate data poisoning baselines over a range of datasets and models. Our work highlights the critical role played by the poisoning ratio, and sheds new insights on existing empirical results, attacks and mitigation strategies in data poisoning.
翻訳日:2023-06-07 20:36:41 公開日:2023-06-06
# 健康とそれ以上の安全AI -- 医療サービスを変革するためのモニタリング

Safe AI for health and beyond -- Monitoring to transform a health service ( http://arxiv.org/abs/2303.01513v3 )

ライセンス: Link先を確認
Mahed Abroshan, Michael Burkhart, Oscar Giles, Sam Greenbury, Zoe Kourtzi, Jack Roberts, Mihaela van der Schaar, Jannetta S Steyn, Alan Wilson, May Yong(参考訳) 機械学習技術は、大きなデータセットのパターンを特定するため、予測モデルを構築するのに効果的である。 複雑な実生活問題のモデルの開発は、しばしば出版、概念実証、あるいはある配置方法を通じてアクセス可能になったときに停止する。 しかし、患者人口、システム、臨床実践の変化に伴い、医療領域のモデルが時代遅れになる。 公開後の予測モデルパフォーマンスの維持と監視は、安全かつ効果的な長期使用を可能にするために不可欠である。 我々は、機械学習アルゴリズムの出力を監視するために必要なインフラストラクチャを評価し、モデルの監視と更新の例、第一に、公衆の縦断データに基づいてトレーニングされた乳癌の予後モデル、第二に、現在臨床で開発およびテストされている神経変性成層化アルゴリズムの2つのシナリオを示す。

Machine learning techniques are effective for building predictive models because they identify patterns in large datasets. Development of a model for complex real-life problems often stop at the point of publication, proof of concept or when made accessible through some mode of deployment. However, a model in the medical domain risks becoming obsolete as patient demographics, systems and clinical practices change. The maintenance and monitoring of predictive model performance post-publication is crucial to enable their safe and effective long-term use. We will assess the infrastructure required to monitor the outputs of a machine learning algorithm, and present two scenarios with examples of monitoring and updates of models, firstly on a breast cancer prognosis model trained on public longitudinal data, and secondly on a neurodegenerative stratification algorithm that is currently being developed and tested in clinic.
翻訳日:2023-06-07 20:35:49 公開日:2023-06-06
# 異種治療効果に対するCausal isotonic calibration

Causal isotonic calibration for heterogeneous treatment effects ( http://arxiv.org/abs/2302.14011v2 )

ライセンス: Link先を確認
Lars van der Laan, Ernesto Ulloa-P\'erez, Marco Carone, and Alex Luedtke(参考訳) 異種治療効果の予測因子を校正する新しい非パラメトリック手法である因果等方性校正を提案する。 さらに、データ効率の良いキャリブレーションの変種であるクロスキャリブレーションを導入し、ホールドアウトキャリブレーションセットの必要性を排除する。 クロスキャリブレーションはクロスフィット予測器を活用し、利用可能なすべてのデータを使用して単一のキャリブレーション予測器を生成する。 単調性を仮定しない弱い条件下では, 因果等調校正とクロス校正の双方が, 適切な意味で, 傾向スコアまたは結果回帰を精度良く見積もる限り, 高速2倍ロバスト校正率を達成できることを確認した。 提案する因果等張校正器は任意のブラックボックス学習アルゴリズムを包み込むことができ、予測性能を維持しつつロバストで分布のない校正保証を提供する。

We propose causal isotonic calibration, a novel nonparametric method for calibrating predictors of heterogeneous treatment effects. Furthermore, we introduce cross-calibration, a data-efficient variant of calibration that eliminates the need for hold-out calibration sets. Cross-calibration leverages cross-fitted predictors and generates a single calibrated predictor using all available data. Under weak conditions that do not assume monotonicity, we establish that both causal isotonic calibration and cross-calibration achieve fast doubly-robust calibration rates, as long as either the propensity score or outcome regression is estimated accurately in a suitable sense. The proposed causal isotonic calibrator can be wrapped around any black-box learning algorithm, providing robust and distribution-free calibration guarantees while preserving predictive performance.
翻訳日:2023-06-07 20:35:35 公開日:2023-06-06
# pits:end-to-end pitch-controllable ttsにおける基本周波数のない変分ピッチ推定

PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS ( http://arxiv.org/abs/2302.12391v3 )

ライセンス: Link先を確認
Junhyeok Lee, Wonbin Jung, Hyunjae Cho, Jaeyeon Kim, Jaehwan Kim(参考訳) 従来のピッチ制御可能なテキスト音声合成(TTS)モデルは、基本周波数を直接モデル化することに依存しており、合成音声のばらつきは低い。 この問題に対処するために,変分推論を用いてピッチをモデル化するエンドツーエンドのピッチ制御可能なTSモデルPITSを提案する。 VITSに基づいて、PITSはYingramエンコーダ、Yingramデコーダ、ピッチシフト合成の対角訓練を組み込んでピッチ制御性を実現する。 実験の結果,pitsは品質劣化を伴わずに高いピッチ制御性を有するため,精度の高い音声を生成することがわかった。 コード、オーディオサンプル、デモはhttps://github.com/匿名-pits/pitsで入手できる。

Previous pitch-controllable text-to-speech (TTS) models rely on directly modeling fundamental frequency, leading to low variance in synthesized speech. To address this issue, we propose PITS, an end-to-end pitch-controllable TTS model that utilizes variational inference to model pitch. Based on VITS, PITS incorporates the Yingram encoder, the Yingram decoder, and adversarial training of pitch-shifted synthesis to achieve pitch-controllability. Experiments demonstrate that PITS generates high-quality speech that is indistinguishable from ground truth speech and has high pitch-controllability without quality degradation. Code, audio samples, and demo are available at https://github.com/anonymous-pits/pits.
翻訳日:2023-06-07 20:35:17 公開日:2023-06-06
# 保存法を尊重する物理モデルを学ぶ

Learning Physical Models that Can Respect Conservation Laws ( http://arxiv.org/abs/2302.11002v3 )

ライセンス: Link先を確認
Derek Hansen, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Michael W. Mahoney(参考訳) 科学機械学習(SciML)における最近の研究は、偏微分方程式(PDE)情報を学習プロセスに組み込むことに重点を置いている。 この研究の多くは、比較的 `easy' の PDE 作用素 (楕円型や放物型など) に焦点を当てており、比較的 ``hard'' の PDE 作用素 (例えば、双曲型) に重点を置いていない。 数値PDEでは、後者の問題クラスはボリューム要素のタイプや保存制約の制御を必要とするが、これは困難であることが知られている。 SciMLの約束を果たすには、両方のタイプの問題を学習プロセスにシームレスに組み込む必要がある。 そこで本稿では,保存制約を汎用的なscimlアーキテクチャに組み込むためのフレームワークprobconservを提案する。 そのためにProbConservは、保存法とベイズ更新の一体的な形式を組み合わせる。 本稿では,広く適用可能なPDEのパラメータ化ファミリであるGPME(Generalized Porous Medium Equation)を用いたProbConserv on Learningの詳細な解析を行い,PDEの質的特性について述べる。 ProbConservは、手軽なGPME変種に対して有効であり、最先端の競合とよく機能し、より難しいGPME変種に対しては、容積保存を保証しない他のアプローチよりも優れている。 probconservは、物理的保存の制約をシームレスに強制し、確率的不確実性定量化(uq)を維持し、衝撃や異論をうまく扱う。 いずれの場合も、下流タスクにおいて優れた予測性能を達成する。

Recent work in scientific machine learning (SciML) has focused on incorporating partial differential equation (PDE) information into the learning process. Much of this work has focused on relatively ``easy'' PDE operators (e.g., elliptic and parabolic), with less emphasis on relatively ``hard'' PDE operators (e.g., hyperbolic). Within numerical PDEs, the latter problem class requires control of a type of volume element or conservation constraint, which is known to be challenging. Delivering on the promise of SciML requires seamlessly incorporating both types of problems into the learning process. To address this issue, we propose ProbConserv, a framework for incorporating conservation constraints into a generic SciML architecture. To do so, ProbConserv combines the integral form of a conservation law with a Bayesian update. We provide a detailed analysis of ProbConserv on learning with the Generalized Porous Medium Equation (GPME), a widely-applicable parameterized family of PDEs that illustrates the qualitative properties of both easier and harder PDEs. ProbConserv is effective for easy GPME variants, performing well with state-of-the-art competitors; and for harder GPME variants it outperforms other approaches that do not guarantee volume conservation. ProbConserv seamlessly enforces physical conservation constraints, maintains probabilistic uncertainty quantification (UQ), and deals well with shocks and heteroscedasticities. In each case, it achieves superior predictive performance on downstream tasks.
翻訳日:2023-06-07 20:35:02 公開日:2023-06-06
# 拡散モデルと半監督学習者の相互適合性

Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels ( http://arxiv.org/abs/2302.10586v2 )

ライセンス: Link先を確認
Zebin You, Yong Zhong, Fan Bao, Jiacheng Sun, Chongxuan Li, Jun Zhu(参考訳) 半教師付き生成と分類のタスクをさらに進めるために,強い半教師付き学習者と拡散モデルに基づくdpt(dual pseudo training)と呼ばれる,単純かつ効果的なトレーニング戦略を提案する。 dptは、部分的にラベル付けされたデータで分類器を訓練し、擬似ラベルを予測し、これらの擬似ラベルを用いて条件付き生成モデルを訓練し、擬似画像を生成する。 経験的に、DPTは、様々な設定で半教師付き生成と分類のSOTA性能を一貫して達成する。 特に、クラスごとに1つまたは2つのラベルを持つDPTは、ImageNet 256x256でFr\echet Inception Distance(FID)スコアが3.08または2.52に達し、IDDPM、CDM、ADM、LDMなどのフルラベルを持つ強力な拡散モデルを上回る。 さらに、DPTは画像ネット分類タスクにおいて、59.0 (+2.8) と69.5 (+3.0) と74.4 (+2.0) をそれぞれ1つ、2つ、または5つのラベルで達成し、競合する半教師付きベースラインを大幅に上回っている。 特に, 拡散は少数のラベル(例えば<0.1%)しか生成せず, 半教師付き分類では生成的増補が有効であることを示す。

In an effort to further advance semi-supervised generative and classification tasks, we propose a simple yet effective training strategy called dual pseudo training (DPT), built upon strong semi-supervised learners and diffusion models. DPT operates in three stages: training a classifier on partially labeled data to predict pseudo-labels; training a conditional generative model using these pseudo-labels to generate pseudo images; and retraining the classifier with a mix of real and pseudo images. Empirically, DPT consistently achieves SOTA performance of semi-supervised generation and classification across various settings. In particular, with one or two labels per class, DPT achieves a Fr\'echet Inception Distance (FID) score of 3.08 or 2.52 on ImageNet 256x256, surpassing strong diffusion models with full labels, such as IDDPM, CDM, ADM, and LDM. Besides, DPT outperforms competitive semi-supervised baselines substantially on ImageNet classification tasks, achieving top-1 accuracies of 59.0 (+2.8), 69.5 (+3.0), and 74.4 (+2.0) with one, two, or five labels per class, respectively. Notably, our results demonstrate that diffusion can generate realistic images with only a few labels (e.g., <0.1%) and generative augmentation remains viable for semi-supervised classification.
翻訳日:2023-06-07 20:34:31 公開日:2023-06-06
# 教師なしドメイン適応のためのパッチミクス変換器:ゲーム視点

Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective ( http://arxiv.org/abs/2303.13434v2 )

ライセンス: Link先を確認
Jinjing Zhu, Haotian Bai, Lin Wang(参考訳) ビジョントランスフォーマー(ViT)を活用して、非教師なしドメイン適応(UDA)課題に挑戦する試みが最近行われた。 それらは通常、直接ドメインアライメントのためにViTのクロスアテンションを採用する。 しかし, クロスアテンションの性能は, 対象サンプルの擬似ラベルの品質に大きく依存しているため, ドメインギャップが大きくなると効果が低下する。 本稿では,PMTransと呼ばれる中間領域にソースとターゲットドメインをブリッジするモデルを用いて,ゲーム理論の観点からこの問題を解決する。 具体的には、ゲーム理論モデルに基づいて両方のドメインからパッチをサンプリングすることで、中間領域、すなわち確率分布を効果的に構築する、PatchMixと呼ばれる新しいViTベースのモジュールを提案する。 このようにして、ソースとターゲットドメインからのパッチを混合してクロスエントロピー(CE)を最大化し、機能とラベル空間の2つの半教師付きミックスアップ損失を利用して最小化する。 そこで我々は,UDAの処理を特徴抽出器,分類器,およびPatchMixを含む3人のプレイヤーでmin-max CEゲームとして解釈し,ナッシュ平衡を求める。 さらに,vitのアテンションマップを利用して,各パッチのラベルを重要度で再強調することで,よりドメイン識別的な特徴表現を得ることができる。 我々は4つのベンチマークデータセットについて広範な実験を行い、その結果、pmtrans は vit ベースの sota メソッドと cnn ベースの sota メソッドを、office-home では +3.6%、office-31 では +1.4%、domainnet では +17.7% を大きく上回った。

Endeavors have been recently made to leverage the vision transformer (ViT) for the challenging unsupervised domain adaptation (UDA) task. They typically adopt the cross-attention in ViT for direct domain alignment. However, as the performance of cross-attention highly relies on the quality of pseudo labels for targeted samples, it becomes less effective when the domain gap becomes large. We solve this problem from a game theory's perspective with the proposed model dubbed as PMTrans, which bridges source and target domains with an intermediate domain. Specifically, we propose a novel ViT-based module called PatchMix that effectively builds up the intermediate domain, i.e., probability distribution, by learning to sample patches from both domains based on the game-theoretical models. This way, it learns to mix the patches from the source and target domains to maximize the cross entropy (CE), while exploiting two semi-supervised mixup losses in the feature and label spaces to minimize it. As such, we interpret the process of UDA as a min-max CE game with three players, including the feature extractor, classifier, and PatchMix, to find the Nash Equilibria. Moreover, we leverage attention maps from ViT to re-weight the label of each patch by its importance, making it possible to obtain more domain-discriminative feature representations. We conduct extensive experiments on four benchmark datasets, and the results show that PMTrans significantly surpasses the ViT-based and CNN-based SoTA methods by +3.6% on Office-Home, +1.4% on Office-31, and +17.7% on DomainNet, respectively.
翻訳日:2023-06-07 20:28:30 公開日:2023-06-06
# マーチングプリミティブ:符号付き距離関数からの形状の抽象化

Marching-Primitives: Shape Abstraction from Signed Distance Function ( http://arxiv.org/abs/2303.13190v2 )

ライセンス: Link先を確認
Weixiao Liu, Yuwei Wu, Sipu Ruan, Gregory S. Chirikjian(参考訳) 基本的な幾何学的プリミティブを持つ複雑なオブジェクトを表現することは、長い間コンピュータビジョンのトピックであった。 プリミティブベースの表現は、物理シミュレーション、衝突チェック、ロボット操作などの高レベルなタスクにおいてコンパクトさと計算効率の利点を持つ。 符号付き距離関数(SDF)から多角形メッシュを抽出する従来の手法とは異なり,本論文ではマーチング・プリミティブと呼ばれる新しい手法を提案する。 本手法は, 符号距離の異なるレベルを走行しながら, ボクセルの接続性を分析することによって, 幾何的プリミティブを反復的に成長させる。 有効に連結された各利害関係は,確率的に抽出可能なボクセルの範囲内を行進し,基礎となる局所幾何学を捉えるための原始的パラメータを同時に解く。 本手法は合成データと実世界データの両方での性能を評価する。 その結果,提案手法は精度の面では最先端を上回っており,カテゴリやスケールで直接一般化できることがわかった。 コードはhttps://github.com/ChirikjianLab/ Marching-Primitives.gitで公開されている。

Representing complex objects with basic geometric primitives has long been a topic in computer vision. Primitive-based representations have the merits of compactness and computational efficiency in higher-level tasks such as physics simulation, collision checking, and robotic manipulation. Unlike previous works which extract polygonal meshes from a signed distance function (SDF), in this paper, we present a novel method, named Marching-Primitives, to obtain a primitive-based abstraction directly from an SDF. Our method grows geometric primitives (such as superquadrics) iteratively by analyzing the connectivity of voxels while marching at different levels of signed distance. For each valid connected volume of interest, we march on the scope of voxels from which a primitive is able to be extracted in a probabilistic sense and simultaneously solve for the parameters of the primitive to capture the underlying local geometry. We evaluate the performance of our method on both synthetic and real-world datasets. The results show that the proposed method outperforms the state-of-the-art in terms of accuracy, and is directly generalizable among different categories and scales. The code is open-sourced at https://github.com/ChirikjianLab/Marching-Primitives.git.
翻訳日:2023-06-07 20:28:00 公開日:2023-06-06
# bipotent architecturesにおける量子アルゴリズムの最適化

Optimizing Quantum Algorithms on Bipotent Architectures ( http://arxiv.org/abs/2303.13109v3 )

ライセンス: Link先を確認
Yanjun Ji, Kathrin F. Koenig, and Ilia Polian(参考訳) 量子ゲートの活発な最適化は、最適化されたゲートがいくつかの量子ビットで利用できるが、他の量子ビットでは利用できない二元的量子アーキテクチャをもたらす。 しかし、このようなゲートレベルの改善は、量子近似最適化アルゴリズム(QAOA)のアンサッツ回路のような高い正則性を持つ量子回路に有効なユーザ側パルスレベル最適化の適用を制限する。 本稿では,二元量子アーキテクチャにおけるハードウェアレベルとアルゴリズムレベルの改善のトレードオフについて検討する。 IBMが提供している2つの量子コンピュータ上の様々なQAOAインスタンスの結果、パルスレベルの最適化の利点は、鮮やかに最適化されたモノリシックゲートによる改善よりも優れていることが示された。 さらに,本研究では,回路プリミティブの忠実性がアルゴリズム全体の性能を示す最善の指標であるとは限らないことを示す。 この効果はqaoaがポートフォリオの密集した最適化問題に対して特に顕著であり、それらのトランスパイル化には多くのスワップゲートが必要であり、効率的なパルスレベルの最適化が存在する。 本研究は,2次量子アーキテクチャにおける最適量子ビット選択に関する実践的ガイダンスを提供し,それらのアーキテクチャの改善の必要性を示唆し,最終的にすべてのゲートタイプに対してパルスレベルの最適化を実現する。

Vigorous optimization of quantum gates has led to bipotent quantum architectures, where the optimized gates are available for some qubits but not for others. However, such gate-level improvements limit the application of user-side pulse-level optimizations, which have proven effective for quantum circuits with a high level of regularity, such as the ansatz circuit of the Quantum Approximate Optimization Algorithm (QAOA). In this paper, we investigate the trade-off between hardware-level and algorithm-level improvements on bipotent quantum architectures. Our results for various QAOA instances on two quantum computers offered by IBM indicate that the benefits of pulse-level optimizations currently outweigh the improvements due to vigorously optimized monolithic gates. Furthermore, our data indicate that the fidelity of circuit primitives is not always the best indicator for the overall algorithm performance; also their gate type and schedule duration should be taken into account. This effect is particularly pronounced for QAOA on dense portfolio optimization problems, since their transpilation requires many SWAP gates, for which efficient pulse-level optimization exists. Our findings provide practical guidance on optimal qubit selection on bipotent quantum architectures and suggest the need for improvements of those architectures, ultimately making pulse-level optimization available for all gate types.
翻訳日:2023-06-07 20:27:40 公開日:2023-06-06
# 局所接続型ニューラルネットワークにおけるデータ適合性について 量子絡み合いに基づく必要十分条件

What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement ( http://arxiv.org/abs/2303.11249v2 )

ライセンス: Link先を確認
Yotam Alexander, Nimrod De La Vega, Noam Razin, Nadav Cohen(参考訳) 深層学習に適したデータ分布をなぜ作るのかという問題は、根本的なオープンな問題である。 局所結合型ニューラルネットワーク(畳み込み型および再帰型ニューラルネットワークを含む、一般的なアーキテクチャ群)に焦点を当て、量子物理学の理論的ツールを採用することでこの問題に対処します。 我々の主理論的結果は、ある局所的に連結されたニューラルネットワークが、データ分布が特定の特徴の正準分割の下で低い量子エンタングルメントを許容している場合に限り、データ分布を正確に予測できることを示している。 この結果の実用的応用として,局所結合型ニューラルネットワークへのデータ分布の適合性を高める前処理法を導出する。 様々なデータセットにまたがる広範囲なモデルによる実験は、我々の発見を実証している。 量子の絡み合いを用いることで、深層学習と現実世界のデータの関係を正式に推論するために、物理学からのツールのさらなる採用が促進されることを願っています。

The question of what makes a data distribution suitable for deep learning is a fundamental open problem. Focusing on locally connected neural networks (a prevalent family of architectures that includes convolutional and recurrent neural networks as well as local self-attention models), we address this problem by adopting theoretical tools from quantum physics. Our main theoretical result states that a certain locally connected neural network is capable of accurate prediction over a data distribution if and only if the data distribution admits low quantum entanglement under certain canonical partitions of features. As a practical application of this result, we derive a preprocessing method for enhancing the suitability of a data distribution to locally connected neural networks. Experiments with widespread models over various datasets demonstrate our findings. We hope that our use of quantum entanglement will encourage further adoption of tools from physics for formally reasoning about the relation between deep learning and real-world data.
翻訳日:2023-06-07 20:26:58 公開日:2023-06-06
# 交通予測のためのグラフニューラル粗微分方程式

Graph Neural Rough Differential Equations for Traffic Forecasting ( http://arxiv.org/abs/2303.10909v2 )

ライセンス: Link先を確認
Jeongwhan Choi, Noseong Park(参考訳) トラフィック予測は、機械学習の分野で最も一般的な時空間的タスクの1つである。 この分野で一般的なアプローチは、時空間処理のためにグラフ畳み込みネットワークと繰り返しニューラルネットワークを組み合わせることである。 激しい競争があり、多くの新しい方法が提案されている。 本稿では,時空間グラフニューラル粗微分方程式(stg-nrde)の方法を提案する。 ニューラル粗微分方程式(NRDE)は時系列データを処理するための画期的な概念である。 その主な概念は、ログ署名変換を使用して時系列サンプルを比較的短い特徴ベクトルに変換することである。 本研究では,時間処理用と空間処理用という2つのNRDEの概念を拡張し,設計する。 その後、それらをひとつのフレームワークにまとめます。 6つのベンチマークデータセットと27のベースラインで実験を行います。 STG-NRDEはすべてのケースで最高の精度を示し、27のベースラインを非自明なマージンで上回っている。

Traffic forecasting is one of the most popular spatio-temporal tasks in the field of machine learning. A prevalent approach in the field is to combine graph convolutional networks and recurrent neural networks for the spatio-temporal processing. There has been fierce competition and many novel methods have been proposed. In this paper, we present the method of spatio-temporal graph neural rough differential equation (STG-NRDE). Neural rough differential equations (NRDEs) are a breakthrough concept for processing time-series data. Their main concept is to use the log-signature transform to convert a time-series sample into a relatively shorter series of feature vectors. We extend the concept and design two NRDEs: one for the temporal processing and the other for the spatial processing. After that, we combine them into a single framework. We conduct experiments with 6 benchmark datasets and 27 baselines. STG-NRDE shows the best accuracy in all cases, outperforming all those 27 baselines by non-trivial margins.
翻訳日:2023-06-07 20:26:42 公開日:2023-06-06
# リカレントニューラルネットワークとモデル自由強化学習を用いた未知環境におけるアクティブ仮説テスト

Active hypothesis testing in unknown environments using recurrent neural networks and model free reinforcement learning ( http://arxiv.org/abs/2303.10623v2 )

ライセンス: Link先を確認
George Stamatelis, Nicholas Kalouptsidis(参考訳) 完全未知環境における能動逐次仮説検証問題に対して,深層強化学習と教師付き学習の組み合わせを提案する。 我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。 本手法は,連続的な観測や動作をともなう環境でも,有限地平線問題と無限地平線問題の両方において,チャーンオフテストよりも競争的かつ時として優れた性能を発揮する。

A combination of deep reinforcement learning and supervised learning is proposed for the problem of active sequential hypothesis testing in completely unknown environments. We make no assumptions about the prior probability, the action and observation sets, and the observation generating process. Our method can be used in any environment even if it has continuous observations or actions, and performs competitively and sometimes better than the Chernoff test, in both finite and infinite horizon problems, despite not having access to the environment dynamics.
翻訳日:2023-06-07 20:26:28 公開日:2023-06-06
# 最大エントロピー探査のための高速速度

Fast Rates for Maximum Entropy Exploration ( http://arxiv.org/abs/2303.08059v2 )

ライセンス: Link先を確認
Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos, Alexey Naumov, Pierre Perrault, Yunhao Tang, Michal Valko, Pierre Menard(参考訳) エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。 本研究では,2種類のエントロピー探索問題について検討する。 最初のタイプは以前Hazanらによって検討された訪問エントロピー最大化である。 (2019年)割引設定。 このタイプの探索のために、$\widetilde{\mathcal{O}}(H^3S^2A/\varepsilon^2)$サンプル複雑性を持つゲーム理論アルゴリズムを提案し、既存の結果に対する$\varepsilon$-dependenceを改善する。 我々が研究している2つ目のエントロピーは軌道エントロピーである。 この目的関数はエントロピー規則化された MDP と密接に関連しており、次数$\widetilde{\mathcal{O}}(\mathrm{poly}(S,A,H)/\varepsilon)$ のサンプル複雑性を持つ単純なアルゴリズムを提案する。 興味深いことに、これは正規化mdpの探索に対する潜在的な統計的利点を確立するrl文学における最初の理論的な結果である。 最後に,訪問エントロピー最大化のサンプル複雑性を$\widetilde{\mathcal{O}}(H^2SA/\varepsilon^2)$に減らし,最大エントロピー探索と無報酬探索を統計的に分離する手法を開発した。

We address the challenge of exploration in reinforcement learning (RL) when the agent operates in an unknown environment with sparse or no rewards. In this work, we study the maximum entropy exploration problem of two different types. The first type is visitation entropy maximization previously considered by Hazan et al.(2019) in the discounted setting. For this type of exploration, we propose a game-theoretic algorithm that has $\widetilde{\mathcal{O}}(H^3S^2A/\varepsilon^2)$ sample complexity thus improving the $\varepsilon$-dependence upon existing results, where $S$ is a number of states, $A$ is a number of actions, $H$ is an episode length, and $\varepsilon$ is a desired accuracy. The second type of entropy we study is the trajectory entropy. This objective function is closely related to the entropy-regularized MDPs, and we propose a simple algorithm that has a sample complexity of order $\widetilde{\mathcal{O}}(\mathrm{poly}(S,A,H)/\varepsilon)$. Interestingly, it is the first theoretical result in RL literature that establishes the potential statistical advantage of regularized MDPs for exploration. Finally, we apply developed regularization techniques to reduce sample complexity of visitation entropy maximization to $\widetilde{\mathcal{O}}(H^2SA/\varepsilon^2)$, yielding a statistical separation between maximum entropy exploration and reward-free exploration.
翻訳日:2023-06-07 20:25:43 公開日:2023-06-06
# 自己教師付き深層学習による全スリッド画像の高速かつスケーラブルな検索」に関するコメント

Comments on 'Fast and scalable search of whole-slide images via self-supervised deep learning' ( http://arxiv.org/abs/2304.08297v3 )

ライセンス: Link先を確認
Milad Sikaroudi, Mehdi Afshari, Abubakr Shafique, Shivam Kalra, H.R. Tizhoosh(参考訳) チェンなど。 [chen2022]は最近、nature biomedical engineeringで、"fast and scalable search of whole-slide images via self-supervised deep learning"という記事を発表した。 著者らはこれらの手法を「組織学のための自己監督画像検索」、略称SISHと呼んでいる。 SISH は Yottixel の漸進的な修正であり,MinMax のバイナライゼーションは用いてきたが,原著を引用せず,誤用した「自己監督画像検索」に基づいている,という懸念を表明する。 また、Chenらによる実験と比較に関する他の懸念についても指摘する。

Chen et al. [Chen2022] recently published the article 'Fast and scalable search of whole-slide images via self-supervised deep learning' in Nature Biomedical Engineering. The authors call their method 'self-supervised image search for histology', short SISH. We express our concerns that SISH is an incremental modification of Yottixel, has used MinMax binarization but does not cite the original works, and is based on a misnomer 'self-supervised image search'. As well, we point to several other concerns regarding experiments and comparisons performed by Chen et al.
翻訳日:2023-06-07 20:18:08 公開日:2023-06-06
# graph2topic: 文埋め込みとコミュニティ検出に基づくオープンソースのトピックモデリングフレームワーク

Graph2topic: an opensource topic modeling framework based on sentence embedding and community detection ( http://arxiv.org/abs/2304.06653v3 )

ライセンス: Link先を確認
Leihang Zhang, Jiapeng Liu, Qiang Yan(参考訳) 適切な単語選択法で高品質な文埋め込みをクラスタリングするクラスタリングに基づくトピックモデルは、生成確率的トピックモデルよりも優れたトピックを生成することが報告されている。 しかし,これらの手法は,テキストによる話題と話題の量的関係を無視する適切なパラメータや不完全なモデルを選択することができない。 これらの問題を解決するために,トピックモデリングのためのシンプルかつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。 フレームワークは4つのモジュールで構成される。 まず、事前訓練された言語モデルを用いて文書表現を取得する。 次に、文書表現間の類似性に応じて意味グラフを構築する。 第3に,文書意味グラフのコミュニティを特定し,トピックと文書の関係を定量化する。 第4に、単語-話題分布は、TFIDFの変種に基づいて計算される。 自動評価の結果,G2Tは異なる長さの英語と中国語の文書で最先端のパフォーマンスを達成したことが示唆された。

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word--topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths.
翻訳日:2023-06-07 20:17:57 公開日:2023-06-06
# PDFVQA:PDFドキュメント上の実世界のVQAのための新しいデータセット

PDFVQA: A New Dataset for Real-World VQA on PDF Documents ( http://arxiv.org/abs/2304.06447v5 )

ライセンス: Link先を確認
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han(参考訳) 文書ベースの視覚的質問応答は、自然言語質問の条件下で文書画像の文書理解を調べる。 文書要素認識,文書レイアウト構造理解,コンテキスト理解,キー情報抽出など,さまざまな側面から文書理解を包括的に検討するための文書ベースVQAデータセットであるPDF-VQAを提案する。 我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。 また、異なる文書要素間の空間的・階層的構造関係を明示的に統合し、文書構造理解を促進するグラフベースの新しいVQAモデルを提案する。 パフォーマンスは、異なる質問タイプ上のいくつかのベースラインと比較され、tasks\footnote{the full datasetは、紙の受け入れ後にリリースされる。

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.
翻訳日:2023-06-07 20:17:42 公開日:2023-06-06
# 逆気象条件下におけるLiDARの知覚に関する調査

Survey on LiDAR Perception in Adverse Weather Conditions ( http://arxiv.org/abs/2304.06312v2 )

ライセンス: Link先を確認
Mariella Dreissig, Dominik Scheuble, Florian Piewak and Joschka Boedecker(参考訳) 自動運転車は周囲の情報を収集するために様々なセンサーに依存している。 車両の挙動は環境認識に基づいて計画されており、安全上の理由から信頼性が不可欠である。 アクティブなLiDARセンサーは、シーンの正確な3D表現を作成することができ、自動運転車の環境認識に価値ある追加となる。 光散乱と閉塞により、LiDARの性能は霧、雪、雨などの悪天候条件下で変化する。 この制限は近年、知覚能力の低下を緩和するためのアプローチに関する多くの研究を育んだ。 本調査では,LiDARによる環境認識における悪天候対策のさまざまな側面を収集,分析,検討した。 適切なデータの利用、生点のクラウド処理、ノイズ除去、ロバストな知覚アルゴリズム、センサー融合などのトピックを取り上げ、悪天候による欠点を緩和する。 さらに,現在の文献における最も差し迫ったギャップを特定し,有望な研究の方向性を明らかにする。

Autonomous vehicles rely on a variety of sensors to gather information about their surrounding. The vehicle's behavior is planned based on the environment perception, making its reliability crucial for safety reasons. The active LiDAR sensor is able to create an accurate 3D representation of a scene, making it a valuable addition for environment perception for autonomous vehicles. Due to light scattering and occlusion, the LiDAR's performance change under adverse weather conditions like fog, snow or rain. This limitation recently fostered a large body of research on approaches to alleviate the decrease in perception performance. In this survey, we gathered, analyzed, and discussed different aspects on dealing with adverse weather conditions in LiDAR-based environment perception. We address topics such as the availability of appropriate data, raw point cloud processing and denoising, robust perception algorithms and sensor fusion to mitigate adverse weather induced shortcomings. We furthermore identify the most pressing gaps in the current literature and pinpoint promising research directions.
翻訳日:2023-06-07 20:17:27 公開日:2023-06-06
# 多孔質媒体における拡散の深層学習

Deep learning for diffusion in porous media ( http://arxiv.org/abs/2304.02104v2 )

ライセンス: Link先を確認
Krzysztof M. Graczyk, Dawid Strzelczyk, Maciej Matyka(参考訳) 我々は,多孔質媒体の基本特性を予測するために畳み込みニューラルネットワーク(cnn)を採用する。 2つの異なるメディアタイプが考慮されている: 1つは砂の包装を模倣し、もう1つは生体組織の細胞外空間に由来するシステムを模倣する。 格子ボルツマン法は教師あり学習に必要なラベル付きデータを得るために用いられる。 私たちは2つのタスクを区別する。 第一に,システムの幾何解析に基づくネットワークは,ポロシティと有効拡散係数を予測する。 第二に、ネットワークが集中マップを再構築する。 最初のタスクでは、C-NetとU-Netのエンコーダ部という2種類のCNNモデルを提案する。 どちらのネットワークも、自己正規化モジュール[Graczyk \textit{et al]を追加することで変更される。 以下、sci rep 12, 10583 (2022)]。 モデルは合理的な正確さで予測されるが、トレーニング対象のデータタイプ内のみである。 例えば、砂の梱包のようなサンプルのオーバーシュートや生物学的なサンプルのアンダーシュートで訓練されたモデルだ。 第2のタスクでは、u-netアーキテクチャの利用を提案する。 濃度場を正確に再構築する。 最初のタスクとは対照的に、あるデータタイプでトレーニングされたネットワークは他のタスクでうまく機能する。 例えば、サンドパッキングのようなサンプルでトレーニングされたモデルは、生物のようなサンプルで完全に動作する。 最終的に、両方の種類のデータについて、アーチーの法則の指数に適合し、効果的拡散のポロシティへの依存性を記述するために用いられるトルトゥオシティを見つける。

We adopt convolutional neural networks (CNN) to predict the basic properties of the porous media. Two different media types are considered: one mimics the sand packings, and the other mimics the systems derived from the extracellular space of biological tissues. The Lattice Boltzmann Method is used to obtain the labeled data necessary for performing supervised learning. We distinguish two tasks. In the first, networks based on the analysis of the system's geometry predict porosity and effective diffusion coefficient. In the second, networks reconstruct the concentration map. In the first task, we propose two types of CNN models: the C-Net and the encoder part of the U-Net. Both networks are modified by adding a self-normalization module [Graczyk \textit{et al.}, Sci Rep 12, 10583 (2022)]. The models predict with reasonable accuracy but only within the data type, they are trained on. For instance, the model trained on sand packings-like samples overshoots or undershoots for biological-like samples. In the second task, we propose the usage of the U-Net architecture. It accurately reconstructs the concentration fields. In contrast to the first task, the network trained on one data type works well for the other. For instance, the model trained on sand packings-like samples works perfectly on biological-like samples. Eventually, for both types of the data, we fit exponents in the Archie's law to find tortuosity that is used to describe the dependence of the effective diffusion on porosity.
翻訳日:2023-06-07 20:16:13 公開日:2023-06-06
# oBERTa: 初期化, 蒸留, プルーニング体制の改善によるスパーストランスファー学習の改善

oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes ( http://arxiv.org/abs/2303.17612v3 )

ライセンス: Link先を確認
Daniel Campos, Alexandre Marques, Mark Kurtz, and ChengXiang Zhai(参考訳) 本稿では,自然言語処理(NLP)の実践者が,モデル圧縮の専門知識のない3.8倍から24.3倍の高速なモデルを得ることができる,使い易い言語モデルであるoBERTa言語モデルについて紹介する。 具体的には、oBERTaはプルーニング、知識蒸留、量子化に関する既存の作業を拡張し、凍結埋め込みを活用して蒸留とモデル初期化を改善し、幅広い転送タスクにおいて高い精度を提供する。 oBERTaの生成において、高度に最適化されたRoBERTaと、事前学習や微調整を行う場合のPruningにおけるBERTの違いについて検討する。 微調整時に圧縮しにくくなる。 7つの代表的NLPタスクに対するoBERTaの使用について検討し、改良された圧縮手法により、それぞれ8倍と2倍の精度で、BERTbaseの性能に適合し、SQUAD V1.1質問回答データセット上でのPrune OFA Largeの性能を超えることが判明した。 使用と実験を促進するために、幅広い使用のためのコード、トレーニング体制、および関連するモデルをリリースします。

In this paper, we introduce the range of oBERTa language models, an easy-to-use set of language models which allows Natural Language Processing (NLP) practitioners to obtain between 3.8 and 24.3 times faster models without expertise in model compression. Specifically, oBERTa extends existing work on pruning, knowledge distillation, and quantization and leverages frozen embeddings improves distillation and model initialization to deliver higher accuracy on a broad range of transfer tasks. In generating oBERTa, we explore how the highly optimized RoBERTa differs from the BERT for pruning during pre-training and finetuning. We find it less amenable to compression during fine-tuning. We explore the use of oBERTa on seven representative NLP tasks and find that the improved compression techniques allow a pruned oBERTa model to match the performance of BERTbase and exceed the performance of Prune OFA Large on the SQUAD V1.1 Question Answering dataset, despite being 8x and 2x, respectively faster in inference. We release our code, training regimes, and associated model for broad usage to encourage usage and experimentation
翻訳日:2023-06-07 20:15:51 公開日:2023-06-06
# プロトタイプ-サンプル関係蒸留:リプレイフリー連続学習に向けて

Prototype-Sample Relation Distillation: Towards Replay-Free Continual Learning ( http://arxiv.org/abs/2303.14771v2 )

ライセンス: Link先を確認
Nader Asadi, MohammadReza Davari, Sudhir Mudur, Rahaf Aljundi and Eugene Belilovsky(参考訳) 連続学習(CL)では、破滅的な忘れ込みと闘いながら効果的な適応のバランスをとることが中心的な課題である。 最近のベストパフォーマンス手法の多くは、例えばリプレイバッファのような様々なタスクデータを用いて、破滅的な忘れの問題に取り組む。 以前のタスクデータへのアクセスは、例えばタスクデータが機密性やプロプライエタリな場合など、多くの現実世界のシナリオで制限される。 従来のタスクのデータを活用する必要性を克服するため,本研究では,忘れがちな表現学習手法から始める。 従来のクラスプロトタイプの関連性と組込み類似性を維持しつつ,表現とクラスプロトタイプを共同学習するための包括的アプローチを提案する。 具体的には、サンプルを埋め込み空間にマッピングし、教師付きコントラスト損失を用いて表現を学習する。 クラスプロトタイプは同じ潜在空間で継続的に進化し、任意の時点で学習と予測を可能にする。 先行課題データを保持しないプロトタイプを継続的に適応させるために,新しい課題データと比較して相対的な類似性を維持するために,クラスプロトタイプを制約する新しい蒸留損失を提案する。 本手法は,タスクインクリメンタル・セッティングにおける最先端性能,大量のデータに依存する方法,および格納データポイントを使わずにクラスインクリメンタル・セッティングにおいて強力なパフォーマンスを提供する。

In Continual learning (CL) balancing effective adaptation while combating catastrophic forgetting is a central challenge. Many of the recent best-performing methods utilize various forms of prior task data, e.g. a replay buffer, to tackle the catastrophic forgetting problem. Having access to previous task data can be restrictive in many real-world scenarios, for example when task data is sensitive or proprietary. To overcome the necessity of using previous tasks' data, in this work, we start with strong representation learning methods that have been shown to be less prone to forgetting. We propose a holistic approach to jointly learn the representation and class prototypes while maintaining the relevance of old class prototypes and their embedded similarities. Specifically, samples are mapped to an embedding space where the representations are learned using a supervised contrastive loss. Class prototypes are evolved continually in the same latent space, enabling learning and prediction at any point. To continually adapt the prototypes without keeping any prior task data, we propose a novel distillation loss that constrains class prototypes to maintain relative similarities as compared to new task data. This method yields state-of-the-art performance in the task-incremental setting, outperforming methods relying on large amounts of data, and provides strong performance in the class-incremental setting without using any stored data points.
翻訳日:2023-06-07 20:15:28 公開日:2023-06-06
# 強化学習を伴わない逆強化学習

Inverse Reinforcement Learning without Reinforcement Learning ( http://arxiv.org/abs/2303.14623v2 )

ライセンス: Link先を確認
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) 逆強化学習(Inverse Reinforcement Learning、IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的とした、模倣学習のための強力なテクニックセットである。 残念なことに、従来のIRL法は計算の弱点に悩まされており、サブルーチンとしてハード強化学習(RL)問題を繰り返し解決する必要がある。 これは還元の観点から直観に反する:我々は、模倣学習の簡単な問題をrlのより難しい問題を反復的に解くまで削減した。 別の研究のスレッドは、強いポリシーが時間を費やす状態の分布のサイド情報へのアクセスは、RL問題を解く際のサンプルと計算の複雑さを劇的に減らすことを証明している。 本研究では,RLサブルーチンのグローバル探索成分を緩和し,理論上の指数的高速化を実現するために,専門家の状態分布を利用する,より情報に富んだ模倣学習の削減を初めて示す。 実際、継続的制御タスクの先行技術を大幅にスピードアップすることができることが分かりました。

Inverse Reinforcement Learning (IRL) is a powerful set of techniques for imitation learning that aims to learn a reward function that rationalizes expert demonstrations. Unfortunately, traditional IRL methods suffer from a computational weakness: they require repeatedly solving a hard reinforcement learning (RL) problem as a subroutine. This is counter-intuitive from the viewpoint of reductions: we have reduced the easier problem of imitation learning to repeatedly solving the harder problem of RL. Another thread of work has proved that access to the side-information of the distribution of states where a strong policy spends time can dramatically reduce the sample and computational complexities of solving an RL problem. In this work, we demonstrate for the first time a more informed imitation learning reduction where we utilize the state distribution of the expert to alleviate the global exploration component of the RL subroutine, providing an exponential speedup in theory. In practice, we find that we are able to significantly speed up the prior art on continuous control tasks.
翻訳日:2023-06-07 20:15:04 公開日:2023-06-06
# 文法学習のための論理語埋め込み

A logical word embedding for learning grammar ( http://arxiv.org/abs/2304.14590v2 )

ライセンス: Link先を確認
Sean Deyo, Veit Elser(参考訳) テキストのコーパスから語彙カテゴリーと構文規則の教師なし推論を可能にするために,前グループ文法と分類文法にインスパイアされた論理文法エンデビング(LGE)モデルを導入する。 LGEはその推論を要約した理解可能な出力を生成し、新しい文を生成するための完全に透明なプロセスを持ち、数百の文から学習することができる。

We introduce the logical grammar emdebbing (LGE), a model inspired by pregroup grammars and categorial grammars to enable unsupervised inference of lexical categories and syntactic rules from a corpus of text. LGE produces comprehensible output summarizing its inferences, has a completely transparent process for producing novel sentences, and can learn from as few as a hundred sentences.
翻訳日:2023-06-07 20:08:44 公開日:2023-06-06
# データ表現への透明なアプローチ

A transparent approach to data representation ( http://arxiv.org/abs/2304.14209v2 )

ライセンス: Link先を確認
Sean Deyo, Veit Elser(参考訳) バイナリ属性表現(BAR)モデルを使用して、Netflix視聴者による映画のレーティングのデータセットを記述する。 我々は連続パラメータではなく離散ビットで視聴者を分類し、表現をコンパクトで透明にする。 属性は解釈が容易で、同じレベルのエラーを達成するためには、類似のメソッドよりもずっと少ない属性が必要です。 また,他の作品のパフォーマンスを損なうことなく,少数の映画を訓練するためのデータセットにおいて,映画間での視聴率の非一様分布を生かした。

We use a binary attribute representation (BAR) model to describe a data set of Netflix viewers' ratings of movies. We classify the viewers with discrete bits rather than continuous parameters, which makes the representation compact and transparent. The attributes are easy to interpret, and we need far fewer attributes than similar methods do to achieve the same level of error. We also take advantage of the nonuniform distribution of ratings among the movies in the data set to train on a small selection of movies without compromising performance on the rest of the movies.
翻訳日:2023-06-07 20:08:37 公開日:2023-06-06
# DiffuseExpand:拡散モデルを用いた2次元医用画像分割のための拡張データセット

DiffuseExpand: Expanding dataset for 2D medical image segmentation using diffusion models ( http://arxiv.org/abs/2304.13416v2 )

ライセンス: Link先を確認
Shitong Shao, Xiaohan Yuan, Zhen Huang, Ziming Qiu, Shuai Wang and Kevin Zhou(参考訳) データセットの拡張は、プライバシの懸念とラベル付けの困難により、医療画像のセグメンテーションにおけるデータ不足の問題を効果的に軽減することができる。 しかし、既存の拡張アルゴリズムは、ペア分割マスクによる合成画像の多様性を保証することができないため、大きな課題に直面している。 近年、拡散確率モデル(dpms)は、生成的逆ネットワークよりも優れた画像合成性能を示している。 この知見に基づいて,dpmを用いた2次元医用画像セグメンテーションのためのデータセットを拡張するためのdvidationexpandという手法を提案する。 その後、DiffuseExpandは高品質なサンプルを選択し、データ拡張の有効性をさらに高める。 COVID-19とCGMH Pelvisデータセットの比較およびアブレーション実験により,DiffuseExpandの有効性が示された。 私たちのコードはhttps://github.com/shaoshitong/diffuseexpandでリリースされています。

Dataset expansion can effectively alleviate the problem of data scarcity for medical image segmentation, due to privacy concerns and labeling difficulties. However, existing expansion algorithms still face great challenges due to their inability of guaranteeing the diversity of synthesized images with paired segmentation masks. In recent years, Diffusion Probabilistic Models (DPMs) have shown powerful image synthesis performance, even better than Generative Adversarial Networks. Based on this insight, we propose an approach called DiffuseExpand for expanding datasets for 2D medical image segmentation using DPM, which first samples a variety of masks from Gaussian noise to ensure the diversity, and then synthesizes images to ensure the alignment of images and masks. After that, DiffuseExpand chooses high-quality samples to further enhance the effectiveness of data expansion. Our comparison and ablation experiments on COVID-19 and CGMH Pelvis datasets demonstrate the effectiveness of DiffuseExpand. Our code is released at https://github.com/shaoshitong/DiffuseExpand.
翻訳日:2023-06-07 20:08:27 公開日:2023-06-06
# 付加ガウス雑音下における通信制約帯域

Communication-Constrained Bandits under Additive Gaussian Noise ( http://arxiv.org/abs/2304.12680v2 )

ライセンス: Link先を確認
Prathamesh Mayekar, Jonathan Scarlett, and Vincent Y.F. Tan(参考訳) そこで本研究では,クライアントが学習者に,対応するアームプルに対する報奨に基づいてコミュニケーション制約付きフィードバックを提供する分散確率的多腕バンディットについて検討する。 私たちの設定では、クライアントは、エンコードされた報酬の第二のモーメントが$p$以下であるように、報酬をエンコードする必要があります。 この設定のために、情報理論的な下限 $\omega\left(\sqrt{\frac{kt}{\mathtt{snr} \wedge1}} \right)$ が任意のスキームのミニマックス後悔に基づいて導出され、ここで $ \mathtt{snr} := \frac{p}{\sigma^2}$, $k$ と $t$ はそれぞれ腕数と時間軸数である。 さらに、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$\mathtt{UE\text{-}UCB++}$を提案する。 $\mathtt{UE\text{-}UCB++}$は初期フェーズで一様探索を行い、最終フェーズで {\em upper confidence bound }(UCB)banditアルゴリズムを利用する。 $\mathtt{UE\text{-}UCB++}$の興味深い特徴は、一様探索フェーズで生成された平均報酬の粗い推定が、次のフェーズで符号化プロトコルを洗練させ、その後のフェーズにおける報酬のより正確な平均見積もりをもたらすことである。 この正の補強サイクルは、均一な探査ラウンドの数を減らし、我々の下界と密接に一致する。

We study a distributed stochastic multi-armed bandit where a client supplies the learner with communication-constrained feedback based on the rewards for the corresponding arm pulls. In our setup, the client must encode the rewards such that the second moment of the encoded rewards is no more than $P$, and this encoded reward is further corrupted by additive Gaussian noise of variance $\sigma^2$; the learner only has access to this corrupted reward. For this setting, we derive an information-theoretic lower bound of $\Omega\left(\sqrt{\frac{KT}{\mathtt{SNR} \wedge1}} \right)$ on the minimax regret of any scheme, where $ \mathtt{SNR} := \frac{P}{\sigma^2}$, and $K$ and $T$ are the number of arms and time horizon, respectively. Furthermore, we propose a multi-phase bandit algorithm, $\mathtt{UE\text{-}UCB++}$, which matches this lower bound to a minor additive factor. $\mathtt{UE\text{-}UCB++}$ performs uniform exploration in its initial phases and then utilizes the {\em upper confidence bound }(UCB) bandit algorithm in its final phase. An interesting feature of $\mathtt{UE\text{-}UCB++}$ is that the coarser estimates of the mean rewards formed during a uniform exploration phase help to refine the encoding protocol in the next phase, leading to more accurate mean estimates of the rewards in the subsequent phase. This positive reinforcement cycle is critical to reducing the number of uniform exploration rounds and closely matching our lower bound.
翻訳日:2023-06-07 20:08:11 公開日:2023-06-06
# NAIST-SIC対応英語・日本語同時翻訳コーパス

NAIST-SIC-Aligned: Automatically-Aligned English-Japanese Simultaneous Interpretation Corpus ( http://arxiv.org/abs/2304.11766v3 )

ライセンス: Link先を確認
Jinming Zhao, Yuka Ko, Kosuke Doi, Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時解釈(si)データが同時機械翻訳(simt)にどのように影響するかは疑問である。 大規模なトレーニングコーパスがないため、研究は限られている。 本稿では,自動アライメントされた英日siデータセットであるnaist-sic-alignedを導入することで,このギャップを埋めることを目的とする。 非整合コーパスNAIST-SIC から,コーパスを並列化してモデルトレーニングに適した2段階アライメント手法を提案する。 第1段階は、ソース文とターゲット文の多対多マッピングを行う粗いアライメントであり、第2段階は、アライメントペアの品質を向上させるために、イントラ・インター・センテンスフィルタリングを行う細粒度のアライメントである。 コーパスの品質を確保するため、各ステップは定量的または質的に検証されている。 これは文献における最初のオープンソースの大規模並列SIデータセットである。 評価目的の小さなテストセットも手作業でキュレートしました。 SIコーパスの構築とSiMTの研究が進むことを願っている。 データは \url{https://github.com/mingzi151/ahc-si} にある。

It remains a question that how simultaneous interpretation (SI) data affects simultaneous machine translation (SiMT). Research has been limited due to the lack of a large-scale training corpus. In this work, we aim to fill in the gap by introducing NAIST-SIC-Aligned, which is an automatically-aligned parallel English-Japanese SI dataset. Starting with a non-aligned corpus NAIST-SIC, we propose a two-stage alignment approach to make the corpus parallel and thus suitable for model training. The first stage is coarse alignment where we perform a many-to-many mapping between source and target sentences, and the second stage is fine-grained alignment where we perform intra- and inter-sentence filtering to improve the quality of aligned pairs. To ensure the quality of the corpus, each step has been validated either quantitatively or qualitatively. This is the first open-sourced large-scale parallel SI dataset in the literature. We also manually curated a small test set for evaluation purposes. We hope our work advances research on SI corpora construction and SiMT. Please find our data at \url{https://github.com/mingzi151/AHC-SI}.
翻訳日:2023-06-07 20:07:08 公開日:2023-06-06
# コントラスト学習によるマンモグラフィ画像解析のための領域一般化

Domain Generalization for Mammographic Image Analysis via Contrastive Learning ( http://arxiv.org/abs/2304.10226v3 )

ライセンス: Link先を確認
Zheren Li, Zhiming Cui, Lichi Zhang, Sheng Wang, Chenjin Lei, Xi Ouyang, Dongdong Chen, Xiangyu Zhao, Yajia Gu, Zaiyi Liu, Chunling Liu, Dinggang Shen, Jie-Zhi Cheng(参考訳) 深層学習技術はマンモグラフィーのコンピュータ支援診断手法における画像解析に有効であることが示されている。 効率的なディープラーニングモデルのトレーニングには、画像スタイルと品質の面で十分な多様性を持つ大量のデータが必要である。 特に、イメージスタイルの多様性は、主にベンダーファクタに起因する可能性がある。 しかし、多種多様なベンダーのマンモグラムの収集は非常に高価であり、時には実用的ではない。 モチベーションの高い深層学習モデルにより良い一般化能力を持たせるための新しいコントラスト学習法を開発した。 具体的には、事前学習モデルとして、様々なベンダースタイルに対して堅牢な特徴埋め込みを求めるために、マルチスタイルおよびマルチビュー非教師なしセルフラーニングスキームを実施する。 その後、事前訓練されたネットワークは、例えば、質量検出、マッチング、BI-RADS評価、乳房密度分類などの下流タスクにさらに微調整される。 提案手法は,様々なベンダースタイルドメインと複数のパブリックデータセットのマンモグラムを用いて,広範囲かつ厳密に評価されている。 実験結果から,提案手法は,観察領域または見えない領域のデータに対する4つのマンモグラフィー画像タスクの性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

The deep learning technique has been shown to be effective in addressing several image analysis tasks within the computer-aided diagnosis scheme for mammography. The training of an efficacious deep learning model requires large amounts of data with sufficient diversity in terms of image style and quality. In particular, the diversity of image styles may be primarily attributed to the vendor factor. However, the collection of mammograms from large and diverse vendors is very expensive and sometimes impractical. Motivatedly, a novel contrastive learning method is developed to equip the deep learning models with better generalization capability. Specifically, the multi-style and multi-view unsupervised self-learning scheme is carried out to seek robust feature embedding against various vendor styles as a pre-trained model. Afterward, the pre-trained network is further fine-tuned to the downstream tasks, e.g., mass detection, matching, BI-RADS rating, and breast density classification. The proposed method has been extensively and rigorously evaluated with mammograms from various vendor-style domains and several public datasets. The experimental results suggest that the proposed domain generalization method can effectively improve the performance of four mammographic image tasks on data from either seen or unseen domains and outperform many state-of-the-art (SOTA) generalization methods.
翻訳日:2023-06-07 20:06:32 公開日:2023-06-06
# 多変量確率予測の評価における信頼性領域

Regions of Reliability in the Evaluation of Multivariate Probabilistic Forecasts ( http://arxiv.org/abs/2304.09836v2 )

ライセンス: Link先を確認
\'Etienne Marcotte, Valentina Zantedeschi, Alexandre Drouin, Nicolas Chapados(参考訳) 多変量確率時系列予測は、適切なスコアリング規則、すなわち地上分布への期待を最小にする関数によって一般的に評価される。 しかし、この性質は非漸近的体制における良質な差別を保証するには不十分である。 本稿では,時系列予測評価のための適切なスコアリングルールの体系的有限サンプル実験を行う。 パワー分析により、スコアリングルールの「信頼性の領域」、すなわち予測誤差の特定に頼り得る実用的な条件の集合を同定する。 我々は,地上分布と予測分布のいくつかの重要な差異を具体的にテストするために設計された総合的ベンチマークの分析を行い,電気生産問題に適用した実世界課題に対する実験結果の一般化可能性を評価する。 本研究は,多変量確率予測の評価における批判的欠点を明らかにしている。

Multivariate probabilistic time series forecasts are commonly evaluated via proper scoring rules, i.e., functions that are minimal in expectation for the ground-truth distribution. However, this property is not sufficient to guarantee good discrimination in the non-asymptotic regime. In this paper, we provide the first systematic finite-sample study of proper scoring rules for time-series forecasting evaluation. Through a power analysis, we identify the "region of reliability" of a scoring rule, i.e., the set of practical conditions where it can be relied on to identify forecasting errors. We carry out our analysis on a comprehensive synthetic benchmark, specifically designed to test several key discrepancies between ground-truth and forecast distributions, and we gauge the generalizability of our findings to real-world tasks with an application to an electricity production problem. Our results reveal critical shortcomings in the evaluation of multivariate probabilistic forecasts as commonly performed in the literature.
翻訳日:2023-06-07 20:06:12 公開日:2023-06-06
# 双曲的画像テキスト表現

Hyperbolic Image-Text Representations ( http://arxiv.org/abs/2304.09172v2 )

ライセンス: Link先を確認
Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson, Ramakrishna Vedantam(参考訳) 視覚的・言語的概念は自然に階層構造に組織化され、そこでは「ドッグ」というテキストの概念が犬を含むすべてのイメージを包含する。 直感的であるにもかかわらず、CLIPのような現在の大規模ビジョンや言語モデルは、そのような階層を明示的に捉えていない。 本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。 双曲空間は木のようなデータを埋め込むのに適した幾何学的性質を持つので、meruは画像テキストデータセットの下位階層をよりよく捉えることができる。 画像分類や画像テキスト検索といった標準的なマルチモーダルタスクにおいて,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習することを示す。

Visual and linguistic concepts naturally organize themselves in a hierarchy, where a textual concept "dog" entails all images that contain dogs. Despite being intuitive, current large-scale vision and language models such as CLIP do not explicitly capture such hierarchy. We propose MERU, a contrastive model that yields hyperbolic representations of images and text. Hyperbolic spaces have suitable geometric properties to embed tree-like data, so MERU can better capture the underlying hierarchy in image-text datasets. Our results show that MERU learns a highly interpretable and structured representation space while being competitive with CLIP's performance on standard multi-modal tasks like image classification and image-text retrieval.
翻訳日:2023-06-07 20:05:57 公開日:2023-06-06
# 確率的プーリングを用いた証明可能なマルチインスタンス深層auc最大化

Provable Multi-instance Deep AUC Maximization with Stochastic Pooling ( http://arxiv.org/abs/2305.08040v4 )

ライセンス: Link先を確認
Dixian Zhu, Bokun Wang, Zhi Chen, Yaxing Wang, Milan Sonka, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,1つのクラスラベルをインスタンスの袋に割り当てるマルチインスタンス学習 (mil) に対する深層auc最大化 (dam) の新たな応用について検討する。 milの標準的なプーリングメソッドが要求する、バックプロパゲーションのための {gpu} メモリにバッグサイズがロードするには大きすぎる、という文脈で、無視されているが無視できない計算上の課題に対処します。 この課題に対処するために,多レベル構成関数としてプールド予測上の損失関数を定式化することにより,確率最適化の精神における分散還元確率プール法を提案する。 確率的合成最適化と非凸 min-max 最適化の手法を合成することにより,確率的スムーズドマックスプーリングや確率的アテンションベースプールを用いた統一的かつ証明可能なMIDAM (MIDAM) アルゴリズムを提案し,各バッグのいくつかのインスタンスをサンプリングし,確率的勾配推定器を計算し,モデルパラメータを更新する。 我々は,提案したMIDAMアルゴリズムと最先端DAMアルゴリズムとの類似の収束率を確立する。 従来のMILデータセットと医療データセットに関する広範な実験は、MIDAMアルゴリズムの優位性を実証している。

This paper considers a novel application of deep AUC maximization (DAM) for multi-instance learning (MIL), in which a single class label is assigned to a bag of instances (e.g., multiple 2D slices of a CT scan for a patient). We address a neglected yet non-negligible computational challenge of MIL in the context of DAM, i.e., bag size is too large to be loaded into {GPU} memory for backpropagation, which is required by the standard pooling methods of MIL. To tackle this challenge, we propose variance-reduced stochastic pooling methods in the spirit of stochastic optimization by formulating the loss function over the pooled prediction as a multi-level compositional function. By synthesizing techniques from stochastic compositional optimization and non-convex min-max optimization, we propose a unified and provable muli-instance DAM (MIDAM) algorithm with stochastic smoothed-max pooling or stochastic attention-based pooling, which only samples a few instances for each bag to compute a stochastic gradient estimator and to update the model parameter. We establish a similar convergence rate of the proposed MIDAM algorithm as the state-of-the-art DAM algorithms. Our extensive experiments on conventional MIL datasets and medical datasets demonstrate the superiority of our MIDAM algorithm.
翻訳日:2023-06-07 19:59:30 公開日:2023-06-06
# RHINO: ハンガリーマッチングによる動的デノーミングによる回転DETRによるオブジェクト指向物体検出

RHINO: Rotated DETR with Dynamic Denoising via Hungarian Matching for Oriented Object Detection ( http://arxiv.org/abs/2305.07598v3 )

ライセンス: Link先を確認
Hakjin Lee, Minki Song, Jamyoung Koo, Junghoon Seo(参考訳) Detection Transformer (DETR) の変種である DINO の公開により,検出トランスフォーマーは,エンドツーエンドの設計とスケーラビリティのメリットによって,オブジェクト検出ベンチマークにおける記録を破っている。 しかし、detrのオブジェクト指向オブジェクト検出への拡張は十分に研究されていないが、nmsの除去やアンカー関連コストといったエンドツーエンドアーキテクチャの利点が期待されている。 本稿では,指向オブジェクト検出のための最初の強 dino ベースラインを提案する。 指向オブジェクト検出のためのdetrの直接的採用は非重複予測を保証せず、これを緩和するための簡単なコストを提案している。 さらに、$\textit{dynamic denoising}$戦略を導入し、ハンガリーマッチングを使用して冗長なノイズクエリをフィルタリングし、$\textit{query alignment}$を使用してトランスフォーマデコーダ層間の一貫性を保つ。 提案手法は, DOTA-v1.0/v1.5/v2.0 および DIOR-R ベンチマークにおいて, 先行する DETR などの性能より優れていた。

With the publication of DINO, a variant of the Detection Transformer (DETR), Detection Transformers are breaking the record in the object detection benchmark with the merits of their end-to-end design and scalability. However, the extension of DETR to oriented object detection has not been thoroughly studied although more benefits from its end-to-end architecture are expected such as removing NMS and anchor-related costs. In this paper, we propose a first strong DINO-based baseline for oriented object detection. We found that straightforward employment of DETRs for oriented object detection does not guarantee non-duplicate prediction, and propose a simple cost to mitigate this. Furthermore, we introduce a $\textit{dynamic denoising}$ strategy that uses Hungarian matching to filter redundant noised queries and $\textit{query alignment}$ to preserve matching consistency between Transformer decoder layers. Our proposed model outperforms previous rotated DETRs and other counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0, and DIOR-R benchmarks.
翻訳日:2023-06-07 19:59:03 公開日:2023-06-06
# ノードとグラフ学習のためのフィッシャー情報埋め込み

Fisher Information Embedding for Node and Graph Learning ( http://arxiv.org/abs/2305.07580v2 )

ライセンス: Link先を確認
Dexiong Chen, Paolo Pellizzoni, Karsten Borgwardt(参考訳) グラフアテンションネットワーク(GAT)のような注意に基づくグラフニューラルネットワーク(GNN)は、グラフ構造化データや学習ノードの埋め込みを処理するニューラルネットワークとして人気がある。 実験的な成功にもかかわらず、これらのモデルはラベル付きデータに依存しており、これらのモデルの理論的性質はまだ完全には理解されていない。 本稿では,グラフに対する注意に基づく新しいノード埋め込みフレームワークを提案する。 我々のフレームワークはノード周辺の部分グラフの多重集合(例えば近傍)のための階層的カーネル上に構築され、各カーネルは滑らかな統計多様体の幾何学を利用して多重集合のペアを比較する。 ノード埋め込みをガウス混合多様体で明示的に計算することにより,近傍集合に対する新しい注意の機構が導かれる。 我々は、埋め込みの一般化性と表現性に関する理論的洞察を提供し、注意に基づくGNNのより深い理解に寄与する。 組込み学習のための効率的な教師なし手法と教師なし手法の両方を提案する。 いくつかのノード分類ベンチマークの実験を通して,提案手法がGATなどの既存の注目グラフモデルより優れていることを示す。 私たちのコードはhttps://github.com/borgwardtlab/fisher_information_embeddingで利用可能です。

Attention-based graph neural networks (GNNs), such as graph attention networks (GATs), have become popular neural architectures for processing graph-structured data and learning node embeddings. Despite their empirical success, these models rely on labeled data and the theoretical properties of these models have yet to be fully understood. In this work, we propose a novel attention-based node embedding framework for graphs. Our framework builds upon a hierarchical kernel for multisets of subgraphs around nodes (e.g. neighborhoods) and each kernel leverages the geometry of a smooth statistical manifold to compare pairs of multisets, by "projecting" the multisets onto the manifold. By explicitly computing node embeddings with a manifold of Gaussian mixtures, our method leads to a new attention mechanism for neighborhood aggregation. We provide theoretical insights into generalizability and expressivity of our embeddings, contributing to a deeper understanding of attention-based GNNs. We propose both efficient unsupervised and supervised methods for learning the embeddings. Through experiments on several node classification benchmarks, we demonstrate that our proposed method outperforms existing attention-based graph models like GATs. Our code is available at https://github.com/BorgwardtLab/fisher_information_embedding.
翻訳日:2023-06-07 19:58:42 公開日:2023-06-06
# 公正ランキングにおける関連性の役割

The Role of Relevance in Fair Ranking ( http://arxiv.org/abs/2305.05608v2 )

ライセンス: Link先を確認
Aparna Balagopalan, Abigail Z. Jacobs, Asia Biega(参考訳) オンラインプラットフォームは機会へのアクセスを仲介する: 関連性に基づくランキングは、雇用プラットフォームやマーケットプレイスの売り手において求人や求職者への露出を割り当てることで、オプションを作成し、制限する。 社会的に責任を負うために、これらの社会的な連帯システムは様々な公正対策や介入を採用しており、その多くは価値に基づく露出の配分を目指している。 これらの構成は通常直接観測できないため、プラットフォームは関連性などのプロキシスコアを使用し、検索者クリックのような行動信号から推論する必要がある。 しかし、高評価の公正なランキングにおいて、関連性がそのような価値あるスコアとしての役割を果たすかどうかには疑問が残る。 本稿では,機械学習における社会科学,情報検索,公平性といった視点とツールを組み合わせて,適合度スコアが満たすべき条件のセットを導出し,公平性介入を有意義に導く。 そして、バイアスのあるユーザークリックデータから推測される関連性のケーススタディにおいて、これらの基準がすべて満たされていないことを実証的に示す。 これらの違反がシステムフェアネスの推定に与える影響を評価し、既存のフェアネス介入が特定問題を緩和するかどうかを分析する。 分析と結果から,公平なランキングでの使用に適した関連性収集と生成への新たなアプローチの必要性が浮き彫りになった。

Online platforms mediate access to opportunity: relevance-based rankings create and constrain options by allocating exposure to job openings and job candidates in hiring platforms, or sellers in a marketplace. In order to do so responsibly, these socially consequential systems employ various fairness measures and interventions, many of which seek to allocate exposure based on worthiness. Because these constructs are typically not directly observable, platforms must instead resort to using proxy scores such as relevance and infer them from behavioral signals such as searcher clicks. Yet, it remains an open question whether relevance fulfills its role as such a worthiness score in high-stakes fair rankings. In this paper, we combine perspectives and tools from the social sciences, information retrieval, and fairness in machine learning to derive a set of desired criteria that relevance scores should satisfy in order to meaningfully guide fairness interventions. We then empirically show that not all of these criteria are met in a case study of relevance inferred from biased user click data. We assess the impact of these violations on the estimated system fairness and analyze whether existing fairness interventions may mitigate the identified issues. Our analyses and results surface the pressing need for new approaches to relevance collection and generation that are suitable for use in fair ranking.
翻訳日:2023-06-07 19:58:24 公開日:2023-06-06
# FishRecGAN: 魚眼矯正・校正のためのGANベースのネットワークの終了

FishRecGAN: An End to End GAN Based Network for Fisheye Rectification and Calibration ( http://arxiv.org/abs/2305.05222v2 )

ライセンス: Link先を確認
Xin Shen, Kyungdon Joo, Jean Oh(参考訳) 魚眼画像の修正とカメラ内在・歪みパラメータの校正を同時に行うエンドツーエンドのディープラーニング手法を提案する。 提案手法は,Pix2Pix GAN と Wasserstein GAN (W-Pix2PixGAN) で開発されたQuick Image Rectification Module と,CNNアーキテクチャによるキャリブレーションモジュールからなる。 高速整流ネットワークは、良好な解像度でロバスト整流を行い、カメラベースの監視機器の定常キャリブレーションに適している。 高品質キャリブレーションを実現するために,高速整流モジュールからのストレート出力をキャリブレーションモジュールの誘導的意味特徴マップとして使用し,ストレート化特徴と歪み特徴との幾何学的関係を学習する。 我々は、視点画像データセットによくシミュレーションされたパラメータをラベル付けした大規模な合成データセットを用いて、我々の手法を訓練し、検証する。 提案手法はPSNR値が22.343の高分解能で頑健な性能を実現している。

We propose an end-to-end deep learning approach to rectify fisheye images and simultaneously calibrate camera intrinsic and distortion parameters. Our method consists of two parts: a Quick Image Rectification Module developed with a Pix2Pix GAN and Wasserstein GAN (W-Pix2PixGAN), and a Calibration Module with a CNN architecture. Our Quick Rectification Network performs robust rectification with good resolution, making it suitable for constant calibration in camera-based surveillance equipment. To achieve high-quality calibration, we use the straightened output from the Quick Rectification Module as a guidance-like semantic feature map for the Calibration Module to learn the geometric relationship between the straightened feature and the distorted feature. We train and validate our method with a large synthesized dataset labeled with well-simulated parameters applied to a perspective image dataset. Our solution has achieved robust performance in high-resolution with a significant PSNR value of 22.343.
翻訳日:2023-06-07 19:57:41 公開日:2023-06-06
# 説明に基づく微調整でモデルがより堅牢になる

Explanation-based Finetuning Makes Models More Robust to Spurious Cues ( http://arxiv.org/abs/2305.04990v3 )

ライセンス: Link先を確認
Josh Magnus Ludan, Yixuan Meng, Tai Nguyen, Saurabh Shah, Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) 大規模言語モデル(llm)は非常に強力であり、時としてそのタスクとは無関係なラベルと特徴の間の相関を学習し、分散データの一般化が不十分になる。 llmsのスプリアス相関への依存を緩和するための一般的なアプローチとして,説明に基づく微調整を提案する。 モデルが入力に対してのみ応答を予測する標準的な微調整とは異なり、我々はモデルにその応答をサポートする自由文説明を付加するように微調整する。 提案手法を評価するため, 異なる種類の刺激的手がかりを含む人工的に構築したトレーニングセット上でモデルを微調整し, テストセット上でテストする。 標準的な微調整と比較して,本手法は, ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), SBIC (+6.5) の4つの分類課題において, GPT-3 (davinci) の精度低下を著しく抑制する。 有効性は、複数のモデルファミリーとスケールにまたがって一般化し、より大きなモデルに対してより大きな利益をもたらす。 最後に,本手法はモデルが生成する説明にもうまく対応し,人間が記述した説明を使わずにより多くのデータセットに適用できることを示す。

Large Language Models (LLMs) are so powerful that they sometimes learn correlations between labels and features that are irrelevant to the task, leading to poor generalization on out-of-distribution data. We propose explanation-based finetuning as a general approach to mitigate LLMs' reliance on spurious correlations. Unlike standard finetuning where the model only predicts the answer given the input, we finetune the model to additionally generate a free-text explanation supporting its answer. To evaluate our method, we finetune the model on artificially constructed training sets containing different types of spurious cues, and test it on a test set without these cues. Compared to standard finetuning, our method makes GPT-3 (davinci) remarkably more robust against spurious cues in terms of accuracy drop across four classification tasks: ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), and SBIC (+6.5). The efficacy generalizes across multiple model families and scales, with greater gains for larger models. Finally, our method also works well with explanations generated by the model, implying its applicability to more datasets without human-written explanations.
翻訳日:2023-06-07 19:57:21 公開日:2023-06-06
# 言語選択の政治--ロシア・ウクライナ戦争がウクライナ語のtwitter利用にどう影響するか

The Politics of Language Choice: How the Russian-Ukrainian War Influences Ukrainians' Language Use on Twitter ( http://arxiv.org/abs/2305.02770v3 )

ライセンス: Link先を確認
Daniel Racek, Brittany I. Davidson, Paul W. Thurner, Xiao Xiang Zhu and G\"oran Kauermann(参考訳) 言語の使用は本質的に政治的であり、しばしば文化的アイデンティティの手段であり、国家建設の基礎である。 ここでは,2020年1月から2022年10月までのロシア・ウクライナ戦争前後の62,000人以上から400万以上の地理的タグ付きツイートに基づいて,ウクライナ市民の言語選択とツイート活動について検討した。 統計的モデルを用いて,twitter上でのユーザの流入と流出から生じるサンプル効果を,ユーザの行動変化から生じる行動的影響から分離する。 我々は、戦争前に既にロシア語からウクライナ語への安定した変化を観察しており、その発生によって劇的に加速している。 これらの変化の大部分は、ユーザの行動の変化によるものです。 注目すべきは、ロシアのツイートユーザーの半数以上が、戦争の結果ウクライナに移行したことだ。

The use of language is innately political and often a vehicle of cultural identity as well as the basis for nation building. Here, we examine language choice and tweeting activity of Ukrainian citizens based on more than 4 million geo-tagged tweets from over 62,000 users before and during the Russian-Ukrainian War, from January 2020 to October 2022. Using statistical models, we disentangle sample effects, arising from the in- and outflux of users on Twitter, from behavioural effects, arising from behavioural changes of the users. We observe a steady shift from the Russian language towards the Ukrainian language already before the war, which drastically speeds up with its outbreak. We attribute these shifts in large part to users' behavioural changes. Notably, we find that more than half of the Russian-tweeting users shift towards Ukrainian as a result of the war.
翻訳日:2023-06-07 19:56:54 公開日:2023-06-06
# 広範学習システムに基づく実時間マルチモード障害診断手法の提案

An Evidential Real-Time Multi-Mode Fault Diagnosis Approach Based on Broad Learning System ( http://arxiv.org/abs/2305.00169v2 )

ライセンス: Link先を確認
Chen Li and Zeyi Liu and Limin Wang and Minyue Li and Xiao He(参考訳) 断層診断は産業における重要な研究分野である。 産業プロセスは多様な運用条件を示し、データはしばしば非ゲージ、マルチモード、センタードリフト特性を持つ。 データ駆動型アプローチは現在この分野に重点を置いているが、継続的障害分類と障害分類器のパラメータ更新は、複数の操作モードとリアルタイム設定に課題をもたらす。 したがって, 産業システムにおけるリアルタイムマルチモード故障診断の実現が課題である。 本稿では,この重要な研究課題に対処する産業アプリケーションに対して,リアルタイムマルチモード断層診断を実現するための新しい手法を提案する。 本手法では,拡張型エビデンス推論(er)アルゴリズムを用いて,異なるベース分類器からの情報を融合し,出力をマージする。 広範学習システム(bls)に基づくベース分類器を訓練し、最大故障診断精度を確保する。 さらに、擬似ラベル学習を用いてモデルパラメータをリアルタイムで更新する。 提案手法の有効性は、マルチモードのテネシー・イーストマンプロセスデータセット上で実証される。

Fault diagnosis is a crucial area of research in industry. Industrial processes exhibit diverse operating conditions, where data often have non-Gaussian, multi-mode, and center-drift characteristics. Data-driven approaches are currently the main focus in the field, but continuous fault classification and parameter updates of fault classifiers pose challenges for multiple operating modes and real-time settings. Thus, a pressing issue is to achieve real-time multi-mode fault diagnosis in industrial systems. In this paper, a novel approach to achieve real-time multi-mode fault diagnosis is proposed for industrial applications, which addresses this critical research problem. Our approach uses an extended evidence reasoning (ER) algorithm to fuse information and merge outputs from different base classifiers. These base classifiers based on broad learning system (BLS) are trained to ensure maximum fault diagnosis accuracy. Furthermore, pseudo-label learning is used to update model parameters in real-time. The effectiveness of the proposed approach is demonstrated on the multi-mode Tennessee Eastman process dataset.
翻訳日:2023-06-07 19:56:26 公開日:2023-06-06
# ccpdf: web crawlデータからの視覚的にリッチな文書のための高品質コーパスの構築

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data ( http://arxiv.org/abs/2304.14953v2 )

ライセンス: Link先を確認
Micha{\l} Turski, Tomasz Stanis{\l}awek, Karol Kaczmarek, Pawe{\l} Dyda, and Filip Grali\'nski(参考訳) 近年,文書理解の分野が盛んに進んでいる。 この進歩の大きな部分は、大量のドキュメントに事前学習された言語モデルを使用することによって可能になった。 しかし、文書理解の領域で使われる事前学習コーパスは、単一ドメイン、単言語、あるいは非パブリックである。 本研究の目的は,pdfファイルが文書理解において最も標準的な文書タイプであるため,共通クローラを用いて,インターネット全体からpdfファイルの大規模多言語コーパスを作成するための効率的なパイプラインを提案することである。 私たちはパイプラインのすべてのステップを分析し、データ品質と処理時間の間のトレードオフとなるソリューションを提案しました。 また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。 本稿では、より優れた多言語言語モデルを開発する機会を研究者に提供する。

In recent years, the field of document understanding has progressed a lot. A significant part of this progress has been possible thanks to the use of language models pretrained on large amounts of documents. However, pretraining corpora used in the domain of document understanding are single domain, monolingual, or nonpublic. Our goal in this paper is to propose an efficient pipeline for creating a big-scale, diverse, multilingual corpus of PDF files from all over the Internet using Common Crawl, as PDF files are the most canonical types of documents as considered in document understanding. We analysed extensively all of the steps of the pipeline and proposed a solution which is a trade-off between data quality and processing time. We also share a CCpdf corpus in a form or an index of PDF files along with a script for downloading them, which produces a collection useful for language model pretraining. The dataset and tools published with this paper offer researchers the opportunity to develop even better multilingual language models.
翻訳日:2023-06-07 19:56:00 公開日:2023-06-06
# 任意欠落パターンによる分布フリー行列予測

Distribution-Free Matrix Prediction Under Arbitrary Missing Pattern ( http://arxiv.org/abs/2305.11640v2 )

ライセンス: Link先を確認
Meijia Shao and Yuan Zhang(参考訳) 本稿では,行/列交換行列における共形入力予測の開放問題について検討する。 行列設定は新規でユニークな課題を提示するが、この興味深いトピックについてはほとんど研究されていない。 問題を慎重に定義し、密接に関連する問題と区別し、達成可能な目標と不可能な目標の境界を厳格に定義する。 次に2つの実用的なアルゴリズムを提案する。 第1の手法は完全共形予測の高速エミュレーションを提供し,第2の手法は加速度のアルゴリズム安定性を利用する。 どちらの手法も計算効率が良く、任意の欠落パターンが存在する場合のカバレッジの有効性を効果的に保護することができる。 さらに、欠落が予測精度に与える影響を定量化し、基礎的限界結果を確立する。 合成および実世界のデータセットによる実証的証拠は,提案手法の優れた性能を裏付けるものである。

This paper studies the open problem of conformalized entry prediction in a row/column-exchangeable matrix. The matrix setting presents novel and unique challenges, but there exists little work on this interesting topic. We meticulously define the problem, differentiate it from closely related problems, and rigorously delineate the boundary between achievable and impossible goals. We then propose two practical algorithms. The first method provides a fast emulation of the full conformal prediction, while the second method leverages the technique of algorithmic stability for acceleration. Both methods are computationally efficient and can effectively safeguard coverage validity in presence of arbitrary missing pattern. Further, we quantify the impact of missingness on prediction accuracy and establish fundamental limit results. Empirical evidence from synthetic and real-world data sets corroborates the superior performance of our proposed methods.
翻訳日:2023-06-07 19:50:50 公開日:2023-06-06
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v3 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づいて、ボレル測度を持つ2倍の計量空間におけるリプシッツバンドイットに対するblin-mosと呼ばれるアルゴリズムを導入し、blin-mos が問題インスタンスのズーム次元である$d_z_d_z + 1} } \right(t^{ \frac{d_z}{d_z + 1} } \right) $, ここで、blin-mos が整列の後悔率を達成することを示す。 その結果、ある条件下では、Lipschitz banditsの既知の情報理論の下界$\Omega \left(T^{\frac{d_z+1}{d_z+2}} \right)$が改善できることが示されている。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a Borel measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance. Our results show that under certain conditions, the known information-theoretical lower bounds for Lipschitz bandits $\Omega \left( T^{\frac{d_z+1}{d_z+2}} \right)$ can be improved.
翻訳日:2023-06-07 19:50:38 公開日:2023-06-06
# ベクトルモデル波動関数:量子力学角モータの空間記述とウェーブパレット形成

The Vector-Model Wavefunction: spatial description and wavepacket formation of quantum-mechanical angular momenta ( http://arxiv.org/abs/2305.11456v2 )

ライセンス: Link先を確認
T. Peter Rakitzis, Michail E. Koutrakis, George E. Katsoprinakis(参考訳) 量子力学において、空間波動関数は粒子の位置や運動量の分布を記述するが、角運動量$j$ではない。 これとは対照的に、空間波動関数 $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$ は3次元の実体として$|jm>$状態を扱うもので、角運動作用素の漸近固有函数である。 j_m (\phi,\theta,\chi)$は、粒子と軌道角波束の計算学的に単純な記述($j$と$m$のガウス分布から構成される)を与え、$\Delta m \Delta \phi $, $\Delta j \Delta \chi$, $\Delta\phi\Delta\theta$の効果的な波束角不確実性関係と軌道面上の粒子-波束角運動の位置を予測する。 粒子波の回転は、連続的および非破壊的な$j$回転測定によって実験的に観測することができる。 また、Clebsch-Gordan係数、ウィグナーd関数、素粒子のジャイロ磁性比$g=2$、m状態相関行列要素$<j_3m_3|j_{1X} j_{2X}|j_3m_3>$のよく知られた漸近式を決定するために$j_m(\phi,\theta,\chi)$を用いる。 興味深いことに、低い j に対して、$j=1/2$ であるとしても、これらの式は正確(最後の2つ)または優れた近似(最初の2つ)であり、$j_m (\phi,\theta,\chi)$ は量子力学的角運動量の有用な空間的記述を与え、古典的角運動量との滑らかな接続を提供する。

In quantum mechanics, spatial wavefunctions describe distributions of a particle's position or momentum, but not of angular momentum $j$. In contrast, here we show that a spatial wavefunction, $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$, which treats $j$ in the $|jm>$ state as a three-dimensional entity, is an asymptotic eigenfunction of angular-momentum operators; $\phi$, $\theta$, $\chi$ are the Euler angles, and $cos \theta_m=(m/|j|)$ is the Vector-Model polar angle. The $j_m (\phi,\theta,\chi)$ gives a computationally simple description of particle and orbital-angular-momentum wavepackets (constructed from Gaussian distributions in $j$ and $m$) which predicts the effective wavepacket angular uncertainty relations for $\Delta m \Delta \phi $, $\Delta j \Delta \chi$, and $\Delta\phi\Delta\theta$, and the position of the particle-wavepacket angular motion on the orbital plane. The particle-wavepacket rotation can be experimentally probed through continuous and non-destructive $j$-rotation measurements. We also use the $j_m (\phi,\theta,\chi)$ to determine well-known asymptotic expressions for Clebsch-Gordan coefficients, Wigner d-functions, the gyromagnetic ratio of elementary particles, $g=2$, and the m-state-correlation matrix elements, $<j_3 m_3|j_{1X} j_{2X}|j_3 m_3>$. Interestingly, for low j, even down to $j=1/2$, these expressions are either exact (the last two) or excellent approximations (the first two), showing that $j_m (\phi,\theta,\chi)$ gives a useful spatial description of quantum-mechanical angular momentum, and provides a smooth connection with classical angular momentum.
翻訳日:2023-06-07 19:49:53 公開日:2023-06-06
# 情報最大化による機能的十分な次元削減と分類への応用

Functional sufficient dimension reduction through information maximization with application to classification ( http://arxiv.org/abs/2305.10880v2 )

ライセンス: Link先を確認
Xinyu Li and Jianjun Xu and Wenquan Cui and Haoyang Cheng(参考訳) 応答変数がカテゴリー変数であり、予測器がランダム関数である場合を考えると、相互情報と正方損失相互情報に基づいて2つの新しい機能的十分次元還元法(FSDR)が提案される。 関数スライスされた逆回帰法や関数スライスされた平均分散推定法などの古典的FSDR法と比較して,比較的少数のカテゴリ,特にバイナリ応答において,複数の有効次元縮小方向を推定できるため,提案手法は魅力的である。 さらに,提案手法では,制約付き線形条件付き平均仮定と定数共分散仮定は不要である。 彼らは共分散作用素の逆問題を避け、しばしば機能的十分次元の還元で遭遇する。 トランケーションを用いた機能主成分分析は正規化機構として用いられる。 穏やかな条件下では,提案手法の統計的一貫性が確立される。 この2つの手法は,シミュレーションと実データ解析による既存のFSDR法と競合することを示した。

Considering the case where the response variable is a categorical variable and the predictor is a random function, two novel functional sufficient dimensional reduction (FSDR) methods are proposed based on mutual information and square loss mutual information. Compared to the classical FSDR methods, such as functional sliced inverse regression and functional sliced average variance estimation, the proposed methods are appealing because they are capable of estimating multiple effective dimension reduction directions in the case of a relatively small number of categories, especially for the binary response. Moreover, the proposed methods do not require the restrictive linear conditional mean assumption and the constant covariance assumption. They avoid the inverse problem of the covariance operator which is often encountered in the functional sufficient dimension reduction. The functional principal component analysis with truncation be used as a regularization mechanism. Under some mild conditions, the statistical consistency of the proposed methods is established. It is demonstrated that the two methods are competitive compared with some existing FSDR methods by simulations and real data analyses.
翻訳日:2023-06-07 19:49:02 公開日:2023-06-06
# ガウス過程を理解するための物理学的アプローチ

Physics Inspired Approaches To Understanding Gaussian Processes ( http://arxiv.org/abs/2305.10748v2 )

ライセンス: Link先を確認
Maximilian P. Niroomand and Luke Dicks and Edward O. Pyzer-Knapp and David J. Wales(参考訳) 誘導バイアスを形成する潜在関数に関する以前の信念は、カーネルを介してガウス過程(GP)に組み込むことができる。 しかし、カーネル選択以外にもgpモデルの意思決定過程はよく分かっていない。 本研究では,GPモデルにおける損失状況の解析に物理手法を用いて貢献する。 我々は,母子核に対する$\nu$-continuityを実証し,損失景観の臨界点におけるカタストロフィー理論の概要を示す。 Maternカーネルのハイパーパラメータ最適化に$\nu$を直接組み込むことで、$\nu$の典型的な値は性能面では最適ではないが、計算速度の増大により文献で広く用いられている。 また、GPアンサンブルの効果を評価するための事前手法を提案し、損失景観の物理的特性に基づく様々な投票手法について議論する。 これらのアプローチの有用性は、様々な合成および実データに対して実証される。 本研究は,GPの背後にある意思決定プロセスの理解を深め,様々なアプリケーションの性能向上と解釈可能性向上のための実践的なガイダンスを提供する。

Prior beliefs about the latent function to shape inductive biases can be incorporated into a Gaussian Process (GP) via the kernel. However, beyond kernel choices, the decision-making process of GP models remains poorly understood. In this work, we contribute an analysis of the loss landscape for GP models using methods from physics. We demonstrate $\nu$-continuity for Matern kernels and outline aspects of catastrophe theory at critical points in the loss landscape. By directly including $\nu$ in the hyperparameter optimisation for Matern kernels, we find that typical values of $\nu$ are far from optimal in terms of performance, yet prevail in the literature due to the increased computational speed. We also provide an a priori method for evaluating the effect of GP ensembles and discuss various voting approaches based on physical properties of the loss landscape. The utility of these approaches is demonstrated for various synthetic and real datasets. Our findings provide an enhanced understanding of the decision-making process behind GPs and offer practical guidance for improving their performance and interpretability in a range of applications.
翻訳日:2023-06-07 19:48:43 公開日:2023-06-06
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v3 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は、Brick World、NLVRベースのManipulations、Natural Language Navigationという一連の新しいタスクからなるNatural Language Planning and Action(Natala)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World.
翻訳日:2023-06-07 19:48:28 公開日:2023-06-06
# ギャップの橋渡し:ポストプロセッシング技術による合成データの有用性の向上

Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques ( http://arxiv.org/abs/2305.10118v2 )

ライセンス: Link先を確認
Andrea Lampis, Eugenio Lomurno, Matteo Matteucci(参考訳) ディープラーニングモデルのトレーニングに適したデータセットの取得とアノテートが難しい。 これはしばしば、研究の進歩を妨げる退屈で時間のかかる努力をもたらす。 しかし、生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして現れてきた。 それにもかかわらず、合成データの有効性は、実世界のデータの複雑さと多様性を完全に捉えることができないために制限されている。 この問題に対処するために,実世界画像上で評価された分類器を訓練するための合成データセットを生成するために,生成型逆ネットワークの利用を検討する。 合成データセットの品質と多様性を改善するために,動的サンプルフィルタリング,動的データセットリサイクル,拡張トリックという3つの新しい後処理手法を提案する。 さらに,Gap Filler (GaFi) と呼ばれるパイプラインを導入し,実世界のデータの分類精度を最大化するために,これらの手法を最適かつ協調的に適用する。 実精度スコアとのギャップをFashion-MNIST, CIFAR-10, CIFAR-100データセットで2.03%, 1.78%, 3.99%とした。 これらの結果は, 分類精度スコアの新たな水準を示し, 合成データセットの品質向上における後処理技術の有効性を強調するものである。

Acquiring and annotating suitable datasets for training deep learning models is challenging. This often results in tedious and time-consuming efforts that can hinder research progress. However, generative models have emerged as a promising solution for generating synthetic datasets that can replace or augment real-world data. Despite this, the effectiveness of synthetic data is limited by their inability to fully capture the complexity and diversity of real-world data. To address this issue, we explore the use of Generative Adversarial Networks to generate synthetic datasets for training classifiers that are subsequently evaluated on real-world images. To improve the quality and diversity of the synthetic dataset, we propose three novel post-processing techniques: Dynamic Sample Filtering, Dynamic Dataset Recycle, and Expansion Trick. In addition, we introduce a pipeline called Gap Filler (GaFi), which applies these techniques in an optimal and coordinated manner to maximise classification accuracy on real-world data. Our experiments show that GaFi effectively reduces the gap with real-accuracy scores to an error of 2.03%, 1.78%, and 3.99% on the Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets, respectively. These results represent a new state of the art in Classification Accuracy Score and highlight the effectiveness of post-processing techniques in improving the quality of synthetic datasets.
翻訳日:2023-06-07 19:48:03 公開日:2023-06-06
# Cold PAWS: 教師なしクラス発見と半教師付き学習におけるコールドスタート問題への対処

Cold PAWS: Unsupervised class discovery and addressing the cold-start problem for semi-supervised learning ( http://arxiv.org/abs/2305.10071v2 )

ライセンス: Link先を確認
Evelyn J. Mannix, Howard D. Bondell(参考訳) 多くの機械学習アプリケーションでは、データセットのラベル付けは困難で時間がかかる。 半教師付き学習技術はコンピュータビジョンの分野では非常に少ないラベルで高い精度を達成できることが研究で示されているが、データセット内の画像がラベル付けのためにどのように選択されるべきかはあまり注目されていない。 本稿では,この課題を解決するために,自己教師あり学習,クラスタリング,多様体学習に基づく新しい手法を提案する。 我々は、CIFAR10、Imagenette、DeepWeeds、EuroSATなどの公開データセットを用いてアプローチを検証し、ランダムサンプリングと比較してラベル選択戦略を使用する場合、教師付き学習戦略と半教師付き学習戦略の両方で改善されたパフォーマンスを観察する。 また,文献の他の手法に比べてはるかに単純なアプローチで検討したデータセットの性能も向上した。

In many machine learning applications, labeling datasets can be an arduous and time-consuming task. Although research has shown that semi-supervised learning techniques can achieve high accuracy with very few labels within the field of computer vision, little attention has been given to how images within a dataset should be selected for labeling. In this paper, we propose a novel approach based on well-established self-supervised learning, clustering, and manifold learning techniques that address this challenge of selecting an informative image subset to label in the first instance, which is known as the cold-start or unsupervised selective labelling problem. We test our approach using several publicly available datasets, namely CIFAR10, Imagenette, DeepWeeds, and EuroSAT, and observe improved performance with both supervised and semi-supervised learning strategies when our label selection strategy is used, in comparison to random sampling. We also obtain superior performance for the datasets considered with a much simpler approach compared to other methods in the literature.
翻訳日:2023-06-07 19:47:39 公開日:2023-06-06
# 動的振幅推定とPiecewise Approximate Quantum Compilingによるエネルギーリスク解析

Energy risk analysis with Dynamic Amplitude Estimation and Piecewise Approximate Quantum Compiling ( http://arxiv.org/abs/2305.09501v2 )

ライセンス: Link先を確認
Kumar J. B. Ghosh, Kavitha Yogaraj, Gabriele Agliardi, Piergiacomo Sabino, Marina Fern\'andez-Campoamor, Juan Bernab\'e-Moreno, Giorgio Cortiana, Omar Shehab, Corey O'Meara(参考訳) 我々は、近似量子コンパイルアルゴリズムを、広いターゲット量子回路の処理に適する新しいcnot分解法に一般化する。 この手法と, 誤差軽減と回路コンパイルの最先端技術を組み合わせることで, 量子コンピュータ上での反復振幅推定の10量子ビット実験例を示す。 対象とするアプリケーションは、エネルギー産業における契約ポートフォリオの期待価値の導出である。 並行して,量子デバイスの動的回路能力に基づく動的振幅推定と呼ぶ量子振幅推定アルゴリズムの新たな変種を導入する。 このアルゴリズムは、量子振幅推定の典型的な実装と比較して、二進精度の順番で回路幅を減少させ、同時に、反復振幅推定と比較して量子古典的な反復数(二進精度の順)を減少させる。 量子ハードウェア上での契約ポートフォリオの期待値、VaR、CVaRの計算は、新しいアルゴリズムの原理の証明となる。

We generalize the Approximate Quantum Compiling algorithm into a new method for CNOT-depth reduction, which is apt to process wide target quantum circuits. Combining this method with state-of-the-art techniques for error mitigation and circuit compiling, we present a 10-qubit experimental demonstration of Iterative Amplitude Estimation on a quantum computer. The target application is the derivation of the Expected Value of contract portfolios in the energy industry. In parallel, we also introduce a new variant of the Quantum Amplitude Estimation algorithm which we call Dynamic Amplitude Estimation, as it is based on the dynamic circuit capability of quantum devices. The algorithm achieves a reduction in the circuit width in the order of the binary precision compared to the typical implementation of Quantum Amplitude Estimation, while simultaneously decreasing the number of quantum-classical iterations (again in the order of the binary precision) compared to the Iterative Amplitude Estimation. The calculation of the Expected Value, VaR and CVaR of contract portfolios on quantum hardware provides a proof of principle of the new algorithm.
翻訳日:2023-06-07 19:47:19 公開日:2023-06-06
# 脳にインスパイアされた機械的解釈性のためのモジュラートレーニング

Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability ( http://arxiv.org/abs/2305.08746v3 )

ライセンス: Link先を確認
Ziming Liu, Eric Gan, Max Tegmark(参考訳) ニューラルネットワークをよりモジュール化し、解釈可能にする手法であるbimt(brain-inspired modular training)を紹介する。 脳に触発されて、bimtはニューロンを幾何学的な空間に埋め込み、各ニューロン接続の長さに比例するコストで損失関数を増強する。 BIMTは,多くの単純なタスクに有用なモジュール型ニューラルネットワークを発見し,シンボル式における構成構造,解釈可能な決定境界,分類のための特徴,アルゴリズムデータセットにおける数学的構造を明らかにする。 裸眼でモジュールを直接見る能力は、プローブや介入、あらゆる重みを見つめるといった現在の機械的解釈可能性戦略を補完することができる。

We introduce Brain-Inspired Modular Training (BIMT), a method for making neural networks more modular and interpretable. Inspired by brains, BIMT embeds neurons in a geometric space and augments the loss function with a cost proportional to the length of each neuron connection. We demonstrate that BIMT discovers useful modular neural networks for many simple tasks, revealing compositional structures in symbolic formulas, interpretable decision boundaries and features for classification, and mathematical structure in algorithmic datasets. The ability to directly see modules with the naked eye can complement current mechanistic interpretability strategies such as probes, interventions or staring at all weights.
翻訳日:2023-06-07 19:47:03 公開日:2023-06-06
# fisheye8k:fisheye cameraオブジェクト検出のためのベンチマークとデータセット

FishEye8K: A Benchmark and Dataset for Fisheye Camera Object Detection ( http://arxiv.org/abs/2305.17449v2 )

ライセンス: Link先を確認
Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Erkhembayar Ganbold, Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Byambaa Dorj, Hamad Al Jassmi, Ganzorig Batnasan, Fady Alnajjar, Mohammed Abduljabbar, Fang-Pang Lin(参考訳) AIの進歩により、道路物体検出はコンピュータビジョンにおいて顕著なトピックとなり、主に視点カメラを用いている。 魚眼レンズは、道路の交差点を監視するためにカメラを少なくするための全方位広角カバーを提供するが、視野の歪みがある。 我々の知る限り、魚眼カメラの交通監視のための既存のオープンデータセットは存在しない。 本稿では,5つのクラス (歩行者, 自転車, 自動車, バス, トラック) にまたがる157Kのバウンディングボックスを含む,道路物体検出タスクのためのオープンなFishEye8Kベンチマークデータセットを提案する。 さらに, YOLOv5, YOLOR, YOLO7, YOLOv8 のバリエーションを含む State-of-The-Art (SoTA) モデルのベンチマーク結果を示す。 このデータセットは、台湾のhsinchuにある18台のfisheyeカメラを使って22台のビデオに記録された8000枚の画像から成り、解像度は1080$\times$1080と1280$\times$1280である。 データアノテーションと検証プロセスは、非常に広いパノラマと半球の魚眼カメラの画像と、大きな歪みと多くのロード参加者、特にスクーターに乗っている人によって、大変で時間がかかりました。 偏りを避けるために、特定のカメラからのフレームをトレーニングセットまたはテストセットに割り当て、各クラス内の画像数とバウンディングボックスの両方に対して約70:30の比率を維持した。 実験の結果, YOLOv8 と YOLOR は入力サイズ 640$\times$640 と 1280$\times$1280 でそれぞれ優れていた。 データセットはGitHubでPASCAL VOC、MS COCO、YOLOアノテーション形式で提供される。 FishEye8Kベンチマークは、魚眼ビデオ分析とスマートシティアプリケーションに重要な貢献をする。

With the advance of AI, road object detection has been a prominent topic in computer vision, mostly using perspective cameras. Fisheye lens provides omnidirectional wide coverage for using fewer cameras to monitor road intersections, however with view distortions. To our knowledge, there is no existing open dataset prepared for traffic surveillance on fisheye cameras. This paper introduces an open FishEye8K benchmark dataset for road object detection tasks, which comprises 157K bounding boxes across five classes (Pedestrian, Bike, Car, Bus, and Truck). In addition, we present benchmark results of State-of-The-Art (SoTA) models, including variations of YOLOv5, YOLOR, YOLO7, and YOLOv8. The dataset comprises 8,000 images recorded in 22 videos using 18 fisheye cameras for traffic monitoring in Hsinchu, Taiwan, at resolutions of 1080$\times$1080 and 1280$\times$1280. The data annotation and validation process were arduous and time-consuming, due to the ultra-wide panoramic and hemispherical fisheye camera images with large distortion and numerous road participants, particularly people riding scooters. To avoid bias, frames from a particular camera were assigned to either the training or test sets, maintaining a ratio of about 70:30 for both the number of images and bounding boxes in each class. Experimental results show that YOLOv8 and YOLOR outperform on input sizes 640$\times$640 and 1280$\times$1280, respectively. The dataset will be available on GitHub with PASCAL VOC, MS COCO, and YOLO annotation formats. The FishEye8K benchmark will provide significant contributions to the fisheye video analytics and smart city applications.
翻訳日:2023-06-07 19:39:51 公開日:2023-06-06
# PlaNeRF: SVD非教師型3次元平面規則化による大規模シーン再構成

PlaNeRF: SVD Unsupervised 3D Plane Regularization for NeRF Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2305.16914v3 )

ライセンス: Link先を確認
Fusang Wang, Arnaud Louys, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou(参考訳) neural radiance fields (nerf) は2次元画像からの3次元シーン再構成を可能にする。 NeRFはフォトリアリスティックな結果を生み出すことができるが、しばしばトレーニングビューに過度に適合し、特に低テクスチュア領域において幾何再構成が不十分になる。 この制限は、外挿されたnvs、hdマッピング、シーン編集など、正確な幾何を必要とする多くの重要なアプリケーションを制限する。 そこで本研究では,RGB画像とセマンティックマップのみを用いて,NeRFの3次元構造を改善する手法を提案する。 本手法では,幾何的事前に依存しない特異値分解(SVD)に基づく新しい平面正規化を導入する。 さらに、損失設計における構造類似度指標(SSIM)を利用して、NeRFの体積表現を適切に初期化する。 KITTI-360 NVSベンチマークにおいて,大規模屋外シーンの正確な形状再構成において,本手法が一般的な正規化手法より優れ,SoTAレンダリング品質が向上していることを示す。

Neural Radiance Fields (NeRF) enable 3D scene reconstruction from 2D images and camera poses for Novel View Synthesis (NVS). Although NeRF can produce photorealistic results, it often suffers from overfitting to training views, leading to poor geometry reconstruction, especially in low-texture areas. This limitation restricts many important applications which require accurate geometry, such as extrapolated NVS, HD mapping and scene editing. To address this limitation, we propose a new method to improve NeRF's 3D structure using only RGB images and semantic maps. Our approach introduces a novel plane regularization based on Singular Value Decomposition (SVD), that does not rely on any geometric prior. In addition, we leverage the Structural Similarity Index Measure (SSIM) in our loss design to properly initialize the volumetric representation of NeRF. Quantitative and qualitative results show that our method outperforms popular regularization approaches in accurate geometry reconstruction for large-scale outdoor scenes and achieves SoTA rendering quality on the KITTI-360 NVS benchmark.
翻訳日:2023-06-07 19:39:19 公開日:2023-06-06
# GPTはリテラル翻訳が少ないか?

Do GPTs Produce Less Literal Translations? ( http://arxiv.org/abs/2305.16806v4 )

ライセンス: Link先を確認
Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadalla(参考訳) GPT-3のような大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。 機械翻訳のタスク(mt)では、複数の作品がllmからの翻訳を改善するために、数発のプロンプト機構を調査した。 しかし, 標準的なニューラル機械翻訳(NMT)モデルによる翻訳と, それらの翻訳が質的にどう異なるかは, 比較的研究されていない。 本研究では,この2つのシステムによる翻訳のリテラル性の観点から,これらの差異について検討する。 単語アライメントと単調性を含むリテラルネス尺度を用いて、GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、MTの品質指標に類似あるいはより良いスコアが現れる。 我々は、この発見が人間の評価にも反映されていることを実証する。 その結果,慣用的な表現を含む文を翻訳する場合,これらの差異は特に顕著であることがわかった。

Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of Machine Translation (MT), multiple works have investigated few-shot prompting mechanisms to elicit better translations from LLMs. However, there has been relatively little investigation on how such translations differ qualitatively from the translations generated by standard Neural Machine Translation (NMT) models. In this work, we investigate these differences in terms of the literalness of translations produced by the two systems. Using literalness measures involving word alignment and monotonicity, we find that translations out of English (E-X) from GPTs tend to be less literal, while exhibiting similar or better scores on MT quality metrics. We demonstrate that this finding is borne out in human evaluations as well. We then show that these differences are especially pronounced when translating sentences that contain idiomatic expressions.
翻訳日:2023-06-07 19:38:59 公開日:2023-06-06
# 線形ニューラルネットワーク層による単一・複数インデックスモデルの学習促進

Linear Neural Network Layers Promote Learning Single- and Multiple-Index Models ( http://arxiv.org/abs/2305.15598v2 )

ライセンス: Link先を確認
Suzanna Parkinson, Greg Ongie, and Rebecca Willett(参考訳) 本稿では,2層以上の深さの過パラメータニューラルネットワークの暗黙バイアスについて検討する。 我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワーク群を考察する。 ニューラルネットワークアーキテクチャによって引き起こされる関数の表現コストは、ネットワークが関数を表現するのに必要な2乗重みの最小和である。 この結果から,ReLUネットワークに線形層を追加することで,2層ネットワークを用いた低表現コストの関数からなる低ランク線形演算子により近似可能な関数を求める表現コストが得られることがわかった。 具体的には、ニューラルネットワークを用いて最小表現コストでトレーニングデータを適合させると、低次元部分空間に直交する方向がほぼ一定に近い補間関数が得られる。 つまり、学習したネットワークは、ほぼ1つまたは複数のインデックスモデルとなる。 実験により、この活性部分空間構造がデータに存在する場合、線形層の追加により一般化が改善され、真の活性部分空間とよく一致するネットワークが得られることを示した。

This paper explores the implicit bias of overparameterized neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different implicitly defined representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding linear layers to a ReLU network yields a representation cost that favors functions that can be approximated by a low-rank linear operator composed with a function with low representation cost using a two-layer network. Specifically, using a neural network to fit training data with minimum representation cost yields an interpolating function that is nearly constant in directions orthogonal to a low-dimensional subspace. This means that the learned network will approximately be a single- or multiple-index model. Our experiments show that when this active subspace structure exists in the data, adding linear layers can improve generalization and result in a network that is well-aligned with the true active subspace.
翻訳日:2023-06-07 19:38:44 公開日:2023-06-06
# DuDGAN:デュアル拡散によるクラス依存型GANの改善

DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion ( http://arxiv.org/abs/2305.14849v2 )

ライセンス: Link先を確認
Taesun Yeom, Minhyeok Lee(参考訳) generative adversarial network (gans) を用いたクラス条件画像生成は様々な手法で研究されてきたが、クラス内変動の高いデータセットの場合、モード崩壊、トレーニング不安定性、低品質出力などの課題に直面している。 さらに、ほとんどのganは、しばしばより大きなイテレーションに収束し、トレーニング手順でのイテレーション有効性が低下する。 diffusion-ganは現実的なサンプルを生成する可能性を示したが、クラス条件標本の生成には限界がある。 このような制約を克服するために,DuDGANと呼ばれる2つの拡散型ノイズ注入プロセスを含むGANを用いたクラス条件画像生成手法を提案する。 本手法は,識別器,生成器,分類器の3つのユニークなネットワークからなる。 訓練中、gaussian-mixtureノイズは2つのノイズ認識ネットワーク(判別器と分類器)に異なる方法で注入される。 このノイズの多いデータは、より困難なタスクを徐々に導入することで、過剰フィッティングを防ぐのに役立つ。 その結果,提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れていることがわかった。 AFHQ, Food-101, CIFAR-10データセットを用いて本手法の評価を行い, FID, KID, Precision, Recallのスコアを比較モデルと比較し,提案手法の有効性を強調した。

Class-conditional image generation using generative adversarial networks (GANs) has been investigated through various techniques; however, it continues to face challenges such as mode collapse, training instability, and low-quality output in cases of datasets with high intra-class variation. Furthermore, most GANs often converge in larger iterations, resulting in poor iteration efficacy in training procedures. While Diffusion-GAN has shown potential in generating realistic samples, it has a critical limitation in generating class-conditional samples. To overcome these limitations, we propose a novel approach for class-conditional image generation using GANs called DuDGAN, which incorporates a dual diffusion-based noise injection process. Our method consists of three unique networks: a discriminator, a generator, and a classifier. During the training process, Gaussian-mixture noises are injected into the two noise-aware networks, the discriminator and the classifier, in distinct ways. This noisy data helps to prevent overfitting by gradually introducing more challenging tasks, leading to improved model performance. As a result, our method outperforms state-of-the-art conditional GAN models for image generation in terms of performance. We evaluated our method using the AFHQ, Food-101, and CIFAR-10 datasets and observed superior results across metrics such as FID, KID, Precision, and Recall score compared with comparison models, highlighting the effectiveness of our approach.
翻訳日:2023-06-07 19:38:25 公開日:2023-06-06
# クロス空間学習によるマルチスケールアテンションモジュールの効率化

Efficient Multi-Scale Attention Module with Cross-Spatial Learning ( http://arxiv.org/abs/2305.13563v2 )

ライセンス: Link先を確認
Daliang Ouyang, Su He, Guozhong Zhang, Mingzhu Luo, Huaiyong Guo, Jian Zhan, Zhijie Huang(参考訳) より識別可能な特徴表現を生成するためのチャネルや空間的注意機構の顕著な効果は、様々なコンピュータビジョンタスクで示される。 しかし、チャネル次元の減少を伴うチャネル間関係のモデル化は、深い視覚的表現の抽出に副作用をもたらす可能性がある。 本稿では,新しい効率的なマルチスケール・アテンション(ema)モジュールを提案する。 チャネルごとの情報保持と計算オーバーヘッドの低減に着目し,部分的なチャネルをバッチ次元に再形成し,チャネル次元を複数のサブ機能にグループ化し,各機能グループ内で空間意味的特徴を適切に分散させる。 具体的には、グローバル情報を符号化して各並列ブランチのチャネルワイドを補正することとは別に、2つの並列ブランチの出力特徴を画素レベルのペアワイド関係をキャプチャするためのクロス次元相互作用によってさらに集約する。 一般的なベンチマーク(CIFAR-100, ImageNet-1k, MS COCO, VisDrone2019)を用いて画像分類と物体検出タスクに関する広範囲にわたるアブレーション研究と実験を行った。

Remarkable effectiveness of the channel or spatial attention mechanisms for producing more discernible feature representation are illustrated in various computer vision tasks. However, modeling the cross-channel relationships with channel dimensionality reduction may bring side effect in extracting deep visual representations. In this paper, a novel efficient multi-scale attention (EMA) module is proposed. Focusing on retaining the information on per channel and decreasing the computational overhead, we reshape the partly channels into the batch dimensions and group the channel dimensions into multiple sub-features which make the spatial semantic features well-distributed inside each feature group. Specifically, apart from encoding the global information to re-calibrate the channel-wise weight in each parallel branch, the output features of the two parallel branches are further aggregated by a cross-dimension interaction for capturing pixel-level pairwise relationship. We conduct extensive ablation studies and experiments on image classification and object detection tasks with popular benchmarks (e.g., CIFAR-100, ImageNet-1k, MS COCO and VisDrone2019) for evaluating its performance.
翻訳日:2023-06-07 19:37:38 公開日:2023-06-06
# リウビリアン例外点による緩和の促進

Accelerating relaxation through Liouvillian exceptional point ( http://arxiv.org/abs/2305.12745v3 )

ライセンス: Link先を確認
Yan-Li Zhou, Xiao-Die Yu, Chun-Wang Wu, Xie-Qian Li, Jie Zhang, Weibin Li, Ping-Xing Chen(参考訳) 我々は、より高速な崩壊モードで最も遅い崩壊モードが縮退するLouvillianException point (LEP)によるマルコフ開量子系の緩和の高速化について検討する。 退化はリウビリアン作用素のギャップを大きく増加させ、そのような系の定常性への収束における時間スケールを決定するため、緩和過程を加速する。 固有行列と固有スペクトルが完全に解析的に得られる3段階の原子系を実験的に検討する。 これにより、LEPの洞察を得て、各ダイナミクスを詳細に調べることができます。 このギャップをフロッケ工学によってさらに拡大し,緩和過程をさらに加速できることを示す。 最後に、このアプローチを拡張して、閉じ込められたイオンのレーザー冷却を分析し、振動(フォノン)が電子状態と結合する。 最適冷却条件は解析的に得られ、既存の実験と数値シミュレーションの両方と一致する。 本研究は、LEPの理解と、原子とイオンの散逸ダイナミクスの制御と最適化に関する分析的な知見を提供する。

We investigate speeding up of relaxation of Markovian open quantum systems with the Liouvillian exceptional point (LEP), where the slowest decay mode degenerate with a faster decay mode. The degeneracy significantly increases the gap of the Liouvillian operator, which determines the timescale of such systems in converging to stationarity, and hence accelerates the relaxation process. We explore an experimentally relevant three level atomic system, whose eigenmatrices and eigenspectra are obtained completely analytically. This allows us to gain insights in the LEP and examine respective dynamics with details. We illustrate that the gap can be further widened through Floquet engineering, which further accelerates the relaxation process. Finally, we extend this approach to analyze laser cooling of trapped ions, where vibrations (phonons) couple to the electronic states. An optimal cooling condition is obtained analytically, which agrees with both existing experiments and numerical simulations. Our study provides analytical insights in understanding LEP, as well as in controlling and optimizing dissipative dynamics of atoms and trapped ions.
翻訳日:2023-06-07 19:37:19 公開日:2023-06-06
# カモフラージュ物体検出のためのバイオインスパイア3段階モデル

A bioinspired three-stage model for camouflaged object detection ( http://arxiv.org/abs/2305.12635v2 )

ライセンス: Link先を確認
Tianyou Chen, Jin Xiao, Xiaoguang Hu, Guofeng Zhang, Shaojie Wang(参考訳) カモフラージュされたオブジェクトは通常、背景に同化され、ファジィ境界を示す。 複雑な環境条件と、カモフラージュされたターゲットとその周囲の高固有の類似性は、これらの物体全体を正確に配置し、セグメント化する上で重要な課題となる。 既存の手法は様々な現実のシナリオで顕著な性能を示しているが、小さなターゲット、薄い構造、不明瞭な境界といった難しいケースに直面すると、まだ限界に直面している。 カモフラージュされた物体を含む画像の観察において、人間の視覚知覚からインスピレーションを得た3段階モデルを提案する。 具体的には,3つのデコーダを用いて,サブサンプリングされた特徴,収穫された特徴,高解像度のオリジナル特徴を逐次処理する。 提案手法は,計算オーバーヘッドを削減するだけでなく,背景雑音による干渉を軽減する。 さらに,マルチスケール情報の重要性を考慮し,詳細な構造的手がかりを保ちながら受容領域を拡大するマルチスケール機能拡張モジュールを設計した。 また,境界情報の活用による性能向上のため,バウンダリ強化モジュールが開発された。 続いて,粗い予測地図と高分解能特徴地図を統合することで,細粒度な結果を生成するためのマスク誘導型融合モジュールを提案する。 我々のネットワークは、不要な複雑さなしに最先端のcnnベースのネットワークを上回る。 論文が受理されると、ソースコードはhttps://github.com/clelouch/BTSNet.comで公開される。

Camouflaged objects are typically assimilated into their backgrounds and exhibit fuzzy boundaries. The complex environmental conditions and the high intrinsic similarity between camouflaged targets and their surroundings pose significant challenges in accurately locating and segmenting these objects in their entirety. While existing methods have demonstrated remarkable performance in various real-world scenarios, they still face limitations when confronted with difficult cases, such as small targets, thin structures, and indistinct boundaries. Drawing inspiration from human visual perception when observing images containing camouflaged objects, we propose a three-stage model that enables coarse-to-fine segmentation in a single iteration. Specifically, our model employs three decoders to sequentially process subsampled features, cropped features, and high-resolution original features. This proposed approach not only reduces computational overhead but also mitigates interference caused by background noise. Furthermore, considering the significance of multi-scale information, we have designed a multi-scale feature enhancement module that enlarges the receptive field while preserving detailed structural cues. Additionally, a boundary enhancement module has been developed to enhance performance by leveraging boundary information. Subsequently, a mask-guided fusion module is proposed to generate fine-grained results by integrating coarse prediction maps with high-resolution feature maps. Our network surpasses state-of-the-art CNN-based counterparts without unnecessary complexities. Upon acceptance of the paper, the source code will be made publicly available at https://github.com/clelouch/BTSNet.
翻訳日:2023-06-07 19:37:03 公開日:2023-06-06
# 直交部分空間における話者および音声情報を符号化する自己教師付き予測符号化モデル

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces ( http://arxiv.org/abs/2305.12464v2 )

ライセンス: Link先を確認
Oli Liu, Hao Tang, Sharon Goldwater(参考訳) 自己教師付き音声表現は、話者情報と音声情報の両方を符号化することが知られているが、それらが高次元空間でどのように分配されるかはほとんど解明されていない。 我々はそれらが直交部分空間にエンコードされているという仮説を立てる。 主成分分析を2つの予測符号化モデルの表現に適用し、話者と音声の分散を捉える2つの部分空間を特定し、それらがほぼ直交的であることを確認した。 そこで本研究では,文字起こしを必要とせず,話者情報を符号化する部分空間を崩壊させる話者正規化手法を提案する。 提案手法は, 話者情報を効果的に排除し, 過去の音声識別課題のベースラインを上回っていることを示す。 さらに、このアプローチは一般化され、目に見えない話者の情報を削除するために使用できる。

Self-supervised speech representations are known to encode both speaker and phonetic information, but how they are distributed in the high-dimensional space remains largely unexplored. We hypothesize that they are encoded in orthogonal subspaces, a property that lends itself to simple disentanglement. Applying principal component analysis to representations of two predictive coding models, we identify two subspaces that capture speaker and phonetic variances, and confirm that they are nearly orthogonal. Based on this property, we propose a new speaker normalization method which collapses the subspace that encodes speaker information, without requiring transcriptions. Probing experiments show that our method effectively eliminates speaker information and outperforms a previous baseline in phone discrimination tasks. Moreover, the approach generalizes and can be used to remove information of unseen speakers.
翻訳日:2023-06-07 19:36:40 公開日:2023-06-06
# CapText:イメージコンテキストと記述による大規模言語モデルベースのキャプション生成

CapText: Large Language Model-based Caption Generation From Image Context and Description ( http://arxiv.org/abs/2306.00301v2 )

ライセンス: Link先を確認
Shinjini Ghosh, Sagnik Anupam(参考訳) ディープラーニングモデルは画像からテキストへのデータセットでうまく機能することが示されているが、実際に画像のキャプションに使用するのは難しい。 これは、伝統的にキャプションは文脈に依存し、画像に関する補完的な情報を提供する傾向があるのに対し、モデルは画像の視覚的特徴を記述する記述を生成する傾向があるためである。 キャプション生成における以前の研究は、それぞれの記述や文脈と共に画像が提供されたときにキャプションを生成するモデルの使用を探求した。 我々は,既存の大規模言語モデルを利用して,画像を直接処理することなく,テキスト記述や文脈のみからキャプションを生成するアプローチを提案し,評価する。 我々は、細調整後、OSCAR-VinVLのような現在の最先端画像テキストアライメントモデルよりもCIDErメトリック上で高い性能を示す。

While deep-learning models have been shown to perform well on image-to-text datasets, it is difficult to use them in practice for captioning images. This is because captions traditionally tend to be context-dependent and offer complementary information about an image, while models tend to produce descriptions that describe the visual features of the image. Prior research in caption generation has explored the use of models that generate captions when provided with the images alongside their respective descriptions or contexts. We propose and evaluate a new approach, which leverages existing large language models to generate captions from textual descriptions and context alone, without ever processing the image directly. We demonstrate that after fine-tuning, our approach outperforms current state-of-the-art image-text alignment models like OSCAR-VinVL on this task on the CIDEr metric.
翻訳日:2023-06-07 19:30:13 公開日:2023-06-06
# 最適決定境界探索のための混合の確率的便益

Provable Benefit of Mixup for Finding Optimal Decision Boundaries ( http://arxiv.org/abs/2306.00267v2 )

ライセンス: Link先を確認
Junsoo Oh, Chulhee Yun(参考訳) 線形分類問題において,Mixupのようなペアワイドデータ拡張手法が最適決定境界の探索の複雑さに与える影響を検討する。 分離性定数 $\kappa$ を持つデータ分布の族に対して、トレーニング損失の観点で最適分類器がテスト精度(すなわちベイズ最適分類器)において最適分類器とどの程度よく一致するかを分析する。 拡張のないバニラトレーニングでは,分離性の呪いという興味深い現象が発見される。 データ分散をより分離可能にするために$\kappa$を増加させると、バニラトレーニングのサンプル複雑性は$\kappa$で指数関数的に増加する。 Mixupのトレーニングでは、Mixupはサンプルの複雑さを大幅に減らしてこの問題を軽減する。 そこで本研究では, 重なり合うペア間の依存関係を慎重に処理することにより, 独立データから構築した$n^2$のペアワイド拡張データポイントに適用可能な新しい集中度を求める。 最後に,マスクをベースとしたMixupスタイルの他の手法について検討し,トレーニング損失を歪曲し,その最小化をテスト精度で最適下分類器に収束させることを示す。

We investigate how pair-wise data augmentation techniques like Mixup affect the sample complexity of finding optimal decision boundaries in a binary linear classification problem. For a family of data distributions with a separability constant $\kappa$, we analyze how well the optimal classifier in terms of training loss aligns with the optimal one in test accuracy (i.e., Bayes optimal classifier). For vanilla training without augmentation, we uncover an interesting phenomenon named the curse of separability. As we increase $\kappa$ to make the data distribution more separable, the sample complexity of vanilla training increases exponentially in $\kappa$; perhaps surprisingly, the task of finding optimal decision boundaries becomes harder for more separable distributions. For Mixup training, we show that Mixup mitigates this problem by significantly reducing the sample complexity. To this end, we develop new concentration results applicable to $n^2$ pair-wise augmented data points constructed from $n$ independent data, by carefully dealing with dependencies between overlapping pairs. Lastly, we study other masking-based Mixup-style techniques and show that they can distort the training loss and make its minimizer converge to a suboptimal classifier in terms of test accuracy.
翻訳日:2023-06-07 19:29:59 公開日:2023-06-06
# ダイヤモンド中における異方性工学的グループIV色中心の超微細分光

Hyperfine Spectroscopy of Isotopically Engineered Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2306.00164v2 )

ライセンス: Link先を確認
Isaac B. W. Harris, Cathryn P. Michaels, Kevin C. Chen, Ryan A. Parker, Michael Titze, Jesus Arjona Martinez, Madison Sutula, Ian R. Christen, Alexander M. Stramma, William Roth, Carola M. Purser, Martin Hayhurst Appel, Chao Li, Matthew E. Trusheim, Nicola L. Palmer, Matthew L. Markham, Edward S. Bielejec, Mete Atature, Dirk Englund(参考訳) スピン光子インタフェースに結合された量子レジスタは、量子通信と情報処理において重要なコンポーネントである。 ダイヤモンド(SiV、GeV、SnV)におけるグループIV色中心は、量子レジスタとして核スピンに結合された光遷移を持つ電子スピンを含むこの応用の候補である。 しかし、これらの色中心のための量子レジスタの作成は、決定論的であり、スピン-光子界面と強い結合を持つ。 本稿では,グループiv色中心の超微細構造パラメータの第一原理予測を行い,単一のgevおよびsnvエミッタにおけるスピン活性核とスピン中性内因性ドーパント核のスペクトルを包括的に比較して検証する。 理論的な予測に従って、大きな試料サイズの詳細な分光は、超微細結合がSnVの光学遷移を光学線幅よりも桁違いに分割し、磁場非感応的な遷移をもたらすことを明らかにしている。 この強いカップリングは、ダイヤモンド色中心における量子レジスタの新しいレジームへのアクセスを提供し、これらのよく研究されたエミッタに対する新しいスピン光子エンタングルメントと量子センシングスキームへの道を開く。

A quantum register coupled to a spin-photon interface is a key component in quantum communication and information processing. Group-IV color centers in diamond (SiV, GeV, and SnV) are promising candidates for this application, comprising an electronic spin with optical transitions coupled to a nuclear spin as the quantum register. However, the creation of a quantum register for these color centers with deterministic and strong coupling to the spin-photon interface remains challenging. Here, we make first-principles predictions of the hyperfine parameters of the group-IV color centers, which we verify experimentally with a comprehensive comparison between the spectra of spin active and spin neutral intrinsic dopant nuclei in single GeV and SnV emitters. In line with the theoretical predictions, detailed spectroscopy on large sample sizes reveals that hyperfine coupling causes a splitting of the optical transition of SnV an order of magnitude larger than the optical linewidth and provides a magnetic-field insensitive transition. This strong coupling provides access to a new regime for quantum registers in diamond color centers, opening avenues for novel spin-photon entanglement and quantum sensing schemes for these well-studied emitters.
翻訳日:2023-06-07 19:29:34 公開日:2023-06-06
# MERT:大規模自己指導型音響音楽理解モデル

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training ( http://arxiv.org/abs/2306.00107v2 )

ライセンス: Link先を確認
Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Yike Guo, Jie Fu(参考訳) 自己教師付き学習(SSL)は、視覚、テキスト、音声の分野における大規模データに対する一般的なモデルをトレーニングするための有望なパラダイムとして最近登場した。 SSLは音声と音声で有効であることが証明されているが、音楽オーディオへの応用はまだ十分に検討されていない。 これは主に音楽の知識をモデル化すること、特に音楽の調律的特徴とピッチングされた特徴が原因である。 本研究のギャップに対処するために,教師モデルを取り入れた大規模自己教師訓練(mert)を用いた音響音楽理解モデルを提案する。 本研究では,従来の音声と音声のアプローチを性能面で上回る教師モデルの優れた組み合わせを見出した。 この組み合わせには、Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE)に基づく音響教師と、Constant-Q Transform (CQT)に基づく音楽教師が含まれる。 これらの教師は、私たちの学生モデルであるBERTスタイルのトランスフォーマーエンコーダを効果的にガイドし、より良い音楽オーディオをモデル化します。 さらに,表現の堅牢性を高めるために,バッチ内雑音混在拡張を導入する。 さらに,アコースティック言語モデルの事前学習における不安定性を克服し,設計パラダイムを95万から330万のパラメータに拡張可能にするため,幅広い設定を検討する。 実験結果から,本モデルでは14の楽曲理解タスクを一般化し,高いパフォーマンスを達成できることが示唆された。 コードとモデルはオンラインである。 https://github.com/yizhilll/MERT。

Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is primarily due to the distinctive challenges associated with modelling musical knowledge, particularly its tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified a superior combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). These teachers effectively guide our student model, a BERT-style transformer encoder, to better model music audio. In addition, we introduce an in-batch noise mixture augmentation to enhance the representation robustness. Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attains state-of-the-art (SOTA) overall scores. The code and models are online: https://github.com/yizhilll/MERT.
翻訳日:2023-06-07 19:29:12 公開日:2023-06-06
# 平面$^{28}$Si/SiGeにおける2次元量子ドットアレイ

A 2D quantum dot array in planar $^{28}$Si/SiGe ( http://arxiv.org/abs/2305.19681v2 )

ライセンス: Link先を確認
Florian K. Unseld, Marcel Meyer, Mateusz T. M\k{a}dzik, Francesco Borsoi, Sander L. de Snoo, Sergey V. Amitonov, Amir Sammak, Giordano Scappucci, Menno Veldhorst, and Lieven M.K. Vandersypen(参考訳) 半導体スピン量子ビットはフォールトトレラント量子コンピュータをホストするプラットフォームとして注目を集めている。 スピン量子ビットアレイの最初のデモンストレーションは、様々な半導体材料で示されている。 スピン量子ビット論理の最高性能はシリコンで実現されているが、2次元のシリコン量子ドットアレイのスケーリングは困難であることが証明されている。 高品質なヘテロ構造と慎重に設計されたゲートパターンを利用して、2$\times$2量子ドットアレイを$^{28}$Si/SiGeヘテロ構造で結合したトンネルを形成することができる。 4つの量子ドットすべてで1つの電子をロードでき、1,1,1,1)の電荷状態に達する。 さらに,広いバリアゲート電圧の偏極線を測定することにより,全対のドット間のトンネル結合を特徴づけ制御する。 トンネル結合は約$30~\rm \mu eV$から約$400~\rm \mu eV$まで調整できる。 これらの実験は、2次元の$^{28}$Si/SiGe量子ドットにおけるスピン量子ビットの演算に向けた第一歩となる。

Semiconductor spin qubits have gained increasing attention as a possible platform to host a fault-tolerant quantum computer. First demonstrations of spin qubit arrays have been shown in a wide variety of semiconductor materials. The highest performance for spin qubit logic has been realized in silicon, but scaling silicon quantum dot arrays in two dimensions has proven to be challenging. By taking advantage of high-quality heterostructures and carefully designed gate patterns, we are able to form a tunnel coupled 2 $\times$ 2 quantum dot array in a $^{28}$Si/SiGe heterostructure. We are able to load a single electron in all four quantum dots, thus reaching the (1,1,1,1) charge state. Furthermore we characterise and control the tunnel coupling between all pairs of dots by measuring polarisation lines over a wide range of barrier gate voltages. Tunnel couplings can be tuned from about $30~\rm \mu eV$ up to approximately $400~\rm \mu eV$. These experiments provide a first step toward the operation of spin qubits in $^{28}$Si/SiGe quantum dots in two dimensions.
翻訳日:2023-06-07 19:28:33 公開日:2023-06-06
# スパース不変量としての新しい解釈可能な保存法

Discovering New Interpretable Conservation Laws as Sparse Invariants ( http://arxiv.org/abs/2305.19525v2 )

ライセンス: Link先を確認
Ziming Liu, Patrick Obin Sturm, Saketh Bharadwaj, Sam Silva, Max Tegmark(参考訳) 与えられた力学系の保存法則を明らかにすることは重要であるが困難である。 理論的な設定(微分方程式と基底関数の両方が知られている)では、微分方程式から保存則を自動的に発見するアルゴリズムであるスパース不変検出器(SID)を提案する。 そのアルゴリズムの単純さは、発見された保存量の堅牢性と解釈可能性を可能にする。 SIDは, 様々なシステムにおける新しい保全法則を再発見し, 発見することができることを示す。 流体力学と大気化学の2つの例において、SIDはそれぞれ14と3の保存量を発見し、それまでドメインの専門家に知られていたのは12と2のみである。

Discovering conservation laws for a given dynamical system is important but challenging. In a theorist setup (differential equations and basis functions are both known), we propose the Sparse Invariant Detector (SID), an algorithm that auto-discovers conservation laws from differential equations. Its algorithmic simplicity allows robustness and interpretability of the discovered conserved quantities. We show that SID is able to rediscover known and even discover new conservation laws in a variety of systems. For two examples in fluid mechanics and atmospheric chemistry, SID discovers 14 and 3 conserved quantities, respectively, where only 12 and 2 were previously known to domain experts.
翻訳日:2023-06-07 19:28:16 公開日:2023-06-06
# InPナノワイヤ太陽電池における放射トンネルとプラズモン-フォノン相互作用

Radiative tunneling and plasmon-phonon interaction in InP nanowire solar cell ( http://arxiv.org/abs/2305.19227v2 )

ライセンス: Link先を確認
Ilya Kolpakov and Thijs Smulders(参考訳) inpナノワイヤ太陽電池では、低温で放射トンネル再結合機構が観察される。 観測された放射トンネルと電界支配的な電気輸送との関係は、特徴的なトンネルエネルギーによって確立される。 プラズモン-フォノン相互作用は太陽電池の性能に重要な役割を果たす

Radiative tunneling recombination mechanism is observed in an InP nanowire solar cell at low temperatures. A link between observed radiative tunneling and field-emission dominated electrical transport is established through the characteristic tunneling energy. Plasmon-phonon interaction is found to play an important role in solar cell performance
翻訳日:2023-06-07 19:28:05 公開日:2023-06-06
# アフリカの医療における人工知能は

What We Know So Far: Artificial Intelligence in African Healthcare ( http://arxiv.org/abs/2305.18302v2 )

ライセンス: Link先を確認
Naome Etori, Ebasa Temesgen, and Maria Gini(参考訳) アフリカの医療は貧困、インフラの欠如、資金不足など多くの要因に影響される複雑な問題である。 しかし、ai(artificial intelligence)は、診断の正確性と効率を改善し、病気の早期発見を可能にし、パーソナライズされた医療の提供をサポートすることで、アフリカの医療を変革する可能性を秘めている。 本稿では,診断,治療,疾患モニタリングにおけるaiアルゴリズムの利用の現状と,低リソース環境としてアフリカにおける医療へのアクセスを改善するためのaiの利用方法についてレビューするとともに,その採用に向けた重要な課題と機会について論じる。 そのため、アフリカ医療システムのユニークなニーズを満たす持続可能なaiソリューションを作成するために、政府、民間部門、医療提供者、国際組織による、十分に調整された努力が必要である。

Healthcare in Africa is a complex issue influenced by many factors including poverty, lack of infrastructure, and inadequate funding. However, Artificial intelligence (AI) applied to healthcare, has the potential to transform healthcare in Africa by improving the accuracy and efficiency of diagnosis, enabling earlier detection of diseases, and supporting the delivery of personalized medicine. This paper reviews the current state of how AI Algorithms can be used to improve diagnostics, treatment, and disease monitoring, as well as how AI can be used to improve access to healthcare in Africa as a low-resource setting and discusses some of the critical challenges and opportunities for its adoption. As such, there is a need for a well-coordinated effort by the governments, private sector, healthcare providers, and international organizations to create sustainable AI solutions that meet the unique needs of the African healthcare system.
翻訳日:2023-06-07 19:28:01 公開日:2023-06-06
# 機械学習パイプラインの責任ある設計パターン

Responsible Design Patterns for Machine Learning Pipelines ( http://arxiv.org/abs/2306.01788v2 )

ライセンス: Link先を確認
Saud Hakem Al Harbi, Lionel Nganyewou Tidjon and Foutse Khomh(参考訳) 人工知能(AI)のためのAI開発プロセスに倫理的プラクティスを統合することは、安全で公平で責任ある操作を保証するために不可欠である。 AI倫理には、AIシステムのライフサイクル全体に倫理的原則を適用することが含まれる。 これは、アルゴリズムバイアスのようなAIに関連する潜在的なリスクと害を軽減するために不可欠である。 この目標を達成するために、責任あるデザインパターン(RDP)は、倫理的かつ公正な結果を保証するために機械学習(ML)パイプラインにとって不可欠である。 本稿では,リスクを軽減し,AIシステムの倫理的発展を保証するため,RTPをMLパイプラインに組み込んだ包括的なフレームワークを提案する。 我々のフレームワークは、AI倫理とデータ管理の専門家の調査を通じて特定されたMLパイプラインのための新しい責任あるAI設計パターンで構成され、専門家のフィードバックで現実のシナリオを通して検証される。 このフレームワークは、AI開発者、データサイエンティスト、政策立案者に対して、AI開発に倫理的プラクティスを実践し、責任あるAIシステムを本番環境にデプロイするように誘導する。

Integrating ethical practices into the AI development process for artificial intelligence (AI) is essential to ensure safe, fair, and responsible operation. AI ethics involves applying ethical principles to the entire life cycle of AI systems. This is essential to mitigate potential risks and harms associated with AI, such as algorithm biases. To achieve this goal, responsible design patterns (RDPs) are critical for Machine Learning (ML) pipelines to guarantee ethical and fair outcomes. In this paper, we propose a comprehensive framework incorporating RDPs into ML pipelines to mitigate risks and ensure the ethical development of AI systems. Our framework comprises new responsible AI design patterns for ML pipelines identified through a survey of AI ethics and data management experts and validated through real-world scenarios with expert feedback. The framework guides AI developers, data scientists, and policy-makers to implement ethical practices in AI development and deploy responsible AI systems in production.
翻訳日:2023-06-07 19:19:29 公開日:2023-06-06
# バランスのとれた円ビン充填問題に対する仮想力に基づくスウォームアルゴリズム

A Virtual-Force Based Swarm Algorithm for Balanced Circular Bin Packing Problems ( http://arxiv.org/abs/2306.01021v2 )

ライセンス: Link先を確認
Juliette Gamot, Mathieu Balesdent, Romain Wuilbercq, Arnault Tremolet, Nouredine Melab, El-Ghazali Talbi(参考訳) バランスの取れた円形ビンパッキング問題は、平衡制約を満たすとともに、円形容器の半径を最小化するために、所定の数の重み付き円を配置することである。 これらの問題はNPハードで、非常に制約があり、次元である。 本稿では,バランスの取れた円ビン充填問題を解くために,仮想力システムに基づくスウォームアルゴリズムを提案する。 提案手法では,各コンポーネントに力の系を適用し,制約を考慮し,動力学の基本原理を用いて目的関数を最小化する。 提案アルゴリズムは,最大300円のバランスの取れた円箱包装問題のベンチマークを用いて実験・検証を行った。 報告された結果から,提案手法の有効性を文献による既存の結果と比較して評価することができる。

Balanced circular bin packing problems consist in positioning a given number of weighted circles in order to minimize the radius of a circular container while satisfying equilibrium constraints. These problems are NP-hard, highly constrained and dimensional. This paper describes a swarm algorithm based on a virtual-force system in order to solve balanced circular bin packing problems. In the proposed approach, a system of forces is applied to each component allowing to take into account the constraints and minimizing the objective function using the fundamental principle of dynamics. The proposed algorithm is experimented and validated on benchmarks of various balanced circular bin packing problems with up to 300 circles. The reported results allow to assess the effectiveness of the proposed approach compared to existing results from the literature.
翻訳日:2023-06-07 19:19:12 公開日:2023-06-06
# 拡散モデルの隠れ言語

The Hidden Language of Diffusion Models ( http://arxiv.org/abs/2306.00966v2 )

ライセンス: Link先を確認
Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf(参考訳) テキストから画像への拡散モデルは、テキストの概念(例えば「医者」や「愛」)から高品質で多様な画像を生成できる非並列的な能力を示している。 しかし、テキストをリッチな視覚表現にマッピングする内部プロセスは謎のままである。 本研究では、入力テキストプロンプトを小さな解釈可能な要素の集合に分解することで、テキストから画像モデルへの概念表現の理解に挑戦する。 これは、与えられた概念のために生成されたイメージを再構築する目的で、モデルの語彙からトークンを疎みに重み付けした擬似トークンを学ぶことで達成される。 最先端の安定拡散モデルに適用されるこの分解は、概念の表現における非自明で驚くべき構造を明らかにする。 例えば、「大統領」や「作曲家」といった概念は特定の例(例えば「オバマ」、「バイデン」など)とそれらの補間によって支配されている。 その他の概念、例えば「幸せ」は、具体的(家族)、笑い(笑い)、抽象的(友情(友情)、感情(感情)といった関連用語を組み合わせる。 安定拡散法の内部動作をピアリングすることに加えて,トークンへの単一像分解,バイアス検出と緩和,セマンティックイメージ操作などの応用も可能とした。 コードはhttps://hila-chefer.github.io/conceptor/。

Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/
翻訳日:2023-06-07 19:19:00 公開日:2023-06-06
# 変圧器を用いた術後腎・肺合併症の予測

Prediction of Post-Operative Renal and Pulmonary Complications Using Transformers ( http://arxiv.org/abs/2306.00698v2 )

ライセンス: Link先を確認
Reza Shirkavand, Fei Zhang, Heng Huang(参考訳) 術後合併症は、医療産業において重大な課題となり、医療費の上昇と長期入院、そしてまれに患者の死亡率の上昇をもたらす。 患者の成果を改善し、医療コストを削減するため、医療提供者は様々な周術期リスクスコアを頼りに臨床判断を指導し、ケアを優先する。 近年、機械学習技術は術後合併症や死亡率の予測に有望であり、深層学習モデルは医療アプリケーションで顕著な成功を収めている。 しかし,術中麻酔管理データへのディープラーニングモデルの適用に関する研究は限られている。 本稿では,術後急性腎不全,術後肺合併症,術後院内死亡を予測するためのトランスフォーマーモデルの性能評価を行った。 本手法は, 臨床データを用いて, グラデーションブースティングツリーや逐次注意モデルなど, 最先端の表データ予測モデルと比較した。 その結果,トランスフォーマーモデルが術後合併症を予測し,従来の機械学習モデルよりも優れた性能が得られることがわかった。 この研究は、ディープラーニング技術、特にトランスフォーマーベースのモデルが、術後医療に対する医療産業のアプローチに革命をもたらす可能性を強調している。

Postoperative complications pose a significant challenge in the healthcare industry, resulting in elevated healthcare expenses and prolonged hospital stays, and in rare instances, patient mortality. To improve patient outcomes and reduce healthcare costs, healthcare providers rely on various perioperative risk scores to guide clinical decisions and prioritize care. In recent years, machine learning techniques have shown promise in predicting postoperative complications and fatality, with deep learning models achieving remarkable success in healthcare applications. However, research on the application of deep learning models to intra-operative anesthesia management data is limited. In this paper, we evaluate the performance of transformer-based models in predicting postoperative acute renal failure, postoperative pulmonary complications, and postoperative in-hospital mortality. We compare our method's performance with state-of-the-art tabular data prediction models, including gradient boosting trees and sequential attention models, on a clinical dataset. Our results demonstrate that transformer-based models can achieve superior performance in predicting postoperative complications and outperform traditional machine learning models. This work highlights the potential of deep learning techniques, specifically transformer-based models, in revolutionizing the healthcare industry's approach to postoperative care.
翻訳日:2023-06-07 19:18:38 公開日:2023-06-06
# ソースコードにおけるChatGPTの解析

Analysis of ChatGPT on Source Code ( http://arxiv.org/abs/2306.00597v2 )

ライセンス: Link先を確認
Ahmed R. Sadik, Antonello Ceravola, Frank Joublin, Jibesh Patra(参考訳) 本稿では,大規模言語モデル(LLM),特にプログラミング,ソースコード解析,コード生成におけるChatGPTの利用について検討する。 LLMとChatGPTは機械学習と人工知能の技術を使って構築されており、開発者とプログラマにいくつかの利点を提供している。 これらのモデルは、時間を節約し、非常に正確な結果を与えることができるが、人間のプログラマを完全に置き換えるほど進歩していない。 本稿では,コード生成やコードドキュメンテーション,バグ検出,リファクタリングなど,さまざまな分野におけるLLMとChatGPTの適用可能性について検討する。 また,LLM と ChatGPT の利用は,プログラミングコミュニティに非並列的なメリットを提供するため,今後増加することが示唆されている。

This paper explores the use of Large Language Models (LLMs) and in particular ChatGPT in programming, source code analysis, and code generation. LLMs and ChatGPT are built using machine learning and artificial intelligence techniques, and they offer several benefits to developers and programmers. While these models can save time and provide highly accurate results, they are not yet advanced enough to replace human programmers entirely. The paper investigates the potential applications of LLMs and ChatGPT in various areas, such as code creation, code documentation, bug detection, refactoring, and more. The paper also suggests that the usage of LLMs and ChatGPT is expected to increase in the future as they offer unparalleled benefits to the programming community.
翻訳日:2023-06-07 19:18:18 公開日:2023-06-06
# ChatGPTによるeTextbookのプログラミングの強化

Enhancing Programming eTextbooks with ChatGPT Generated Counterfactual-Thinking-Inspired Questions ( http://arxiv.org/abs/2306.00551v2 )

ライセンス: Link先を確認
Arun Balajiee Lekshmi Narayanan, Rully Agus Hendrawan, Venktesh V(参考訳) デジタル教科書は日常学習タスクの不可欠な部分となっている。 本稿では,プログラミング授業におけるデジタル教科書の利用について考察する。 一般的に、学生はプログラミングの教科書を最大限活用することに苦慮しており、これらの教科書に概念の例示として提供されるプログラムは、学生に十分な対話性を提供していないため、プログラミングの例を探求したり理解したりするのに十分なモチベーションが得られていないためと考えられる。 本研究では,'counterfactual'の質問を用いて,知的教科書のナビゲータビリティを向上し,学生にこれらのプログラムを批判的に考えるようにし,プログラム理解の促進を図る。 反事実的思考を学生に教える以前の研究から着想を得て,GPTを用いた質問によるデジタル教科書の強化の可能性を示す。

Digital textbooks have become an integral part of everyday learning tasks. In this work, we consider the use of digital textbooks for programming classes. Generally, students struggle with utilizing textbooks on programming to the maximum, with a possible reason being that the example programs provided as illustration of concepts in these textbooks don't offer sufficient interactivity for students, and thereby not sufficiently motivating to explore or understand these programming examples better. In our work, we explore the idea of enhancing the navigability of intelligent textbooks with the use of ``counterfactual'' questions, to make students think critically about these programs and enhance possible program comprehension. Inspired from previous works on nudging students on counter factual thinking, we present the possibility to enhance digital textbooks with questions generated using GPT.
翻訳日:2023-06-07 19:18:05 公開日:2023-06-06
# 事前学習されたモデルを可逆化する:パラメータからメモリ効率の良い微調整へ

Make Your Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning ( http://arxiv.org/abs/2306.00477v2 )

ライセンス: Link先を確認
Baohao Liao, Shaomu Tan, Christof Monz(参考訳) プレトレーニング言語モデル(PLM)のパラメータ効率細調整(PEFT)は、性能を犠牲にすることなく少数のパラメータのみをトレーニングし、PLMのサイズを増大させるデファクト学習パラダイムとなるという、非常に成功したアプローチとして登場した。 しかし、既存のpeftメソッドは、グラデーション計算のための中間アクティベーションの大部分をキャッシュする必要があるため、メモリ効率は高くない。 アクティベーションメモリを減らす効果的な方法の一つは可逆モデルを適用することであるので、中間のアクティベーションはキャッシュする必要がなく、再計算できる。 しかしながら、PEFT で PLM を可逆的に修正することは、現在の PLM と異なるアーキテクチャを持つため、簡単ではない。 本稿では,既存のPEFT法の成功の鍵となる要因を最初に検討し,PEFT法の初期化においてPLMの開始点を保存することが重要であることを認識した。 そこで本研究では, PLM にアダプタを挿入し, PLM の開始点を保存し, 追加の事前学習なしに可逆化するメモリ効率向上ファインタニング (MEFT) を提案する。 GLUEベンチマークのMEFTとBERT,RoBERTa,BART,OPTの5つのバックボーンを用いた質問応答タスクの評価を行った。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。 さらに, MEFT は GLUE のスコアと質問応答タスクのスコアをフル微調整と同等に達成している。

Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant with PEFT is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it's essential to preserve the PLM's starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM's starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning.
翻訳日:2023-06-07 19:17:49 公開日:2023-06-06
# テンソル時系列予測のためのガウス混合表現の学習

Learning Gaussian Mixture Representations for Tensor Time Series Forecasting ( http://arxiv.org/abs/2306.00390v2 )

ライセンス: Link先を確認
Jiewen Deng, Jinliang Deng, Renhe Jiang, Xuan Song(参考訳) 高次元空間における一次元時系列の一般化であるテンソル時系列データ(TTS)は、実世界のシナリオ、特にマルチソース時空間データ(輸送要求や大気汚染物質など)を含む監視システムにおいて、ユビキタスである。 近年注目され、飛躍的な進歩を遂げたモデリング時系列や多変量時系列と比較して、テンソル時系列はより少ない労力で支払われている。 テンソル時系列の適切な対応は、高次元で複雑な内部構造のため、はるかに難しい作業である。 本稿では,時間,位置,ソース変数に含意する各不均一成分を個別にモデル化することを目的とした,新しいtts予測フレームワークを開発した。 このフレームワークをgmrlと呼び、gaussian mixed representation learningの略である。 2つの実世界のTSデータセットの実験結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。 コードとデータはhttps://github.com/beginner-sketch/GMRLで公開されている。

Tensor time series (TTS) data, a generalization of one-dimensional time series on a high-dimensional space, is ubiquitous in real-world scenarios, especially in monitoring systems involving multi-source spatio-temporal data (e.g., transportation demands and air pollutants). Compared to modeling time series or multivariate time series, which has received much attention and achieved tremendous progress in recent years, tensor time series has been paid less effort. Properly coping with the tensor time series is a much more challenging task, due to its high-dimensional and complex inner structure. In this paper, we develop a novel TTS forecasting framework, which seeks to individually model each heterogeneity component implied in the time, the location, and the source variables. We name this framework as GMRL, short for Gaussian Mixture Representation Learning. Experiment results on two real-world TTS datasets verify the superiority of our approach compared with the state-of-the-art baselines. Code and data are published on https://github.com/beginner-sketch/GMRL.
翻訳日:2023-06-07 19:17:20 公開日:2023-06-06
# コントラスト学習における投影ヘッドの解き放たれ--拡大と縮小からの洞察

Unraveling Projection Heads in Contrastive Learning: Insights from Expansion and Shrinkage ( http://arxiv.org/abs/2306.03335v1 )

ライセンス: Link先を確認
Yu Gui, Cong Ma, Yiqiao Zhong(参考訳) コントラスト学習に使用されるエンコーダ-プロジェクタフレームワーク(例えばsimclr)におけるプロジェクションヘッド(プロジェクタとしても知られる)の役割について検討する。 本稿では, プロジェクタ自体が線形である場合でも, 下流線形分類精度を用いて測定し, プロジェクタが学習した結果よりも, プロジェクタ前で学習した表現が, 学習後の表現よりも優れる, 観察された現象を解き明かすことを目的とする。 本質的には、コントラスト損失は、エンコーダが学習した表現の信号方向を、強化強度やコントラスト損失に使用される温度などによって拡大または縮小する。 第二に、膨張・収縮現象からインスピレーションを得た線形変換系を提案し、プロジェクターの挙動を正確にモデル化する。 これにより,高次元漸近極限における下流線形分類精度を正確に特徴付けることができる。 以上の結果から,縮小(あるいは拡大)状態のリニアプロジェクタは下流分類精度を阻害(または改善)することが明らかとなった。 これは、(線形)プロジェクタが学習された表現の下流のパフォーマンスになぜ影響するかに関する最初の理論的説明を提供する。 我々の理論的知見は合成データと実画像データの両方について広範な実験によってさらに裏付けられている。

We investigate the role of projection heads, also known as projectors, within the encoder-projector framework (e.g., SimCLR) used in contrastive learning. We aim to demystify the observed phenomenon where representations learned before projectors outperform those learned after -- measured using the downstream linear classification accuracy, even when the projectors themselves are linear. In this paper, we make two significant contributions towards this aim. Firstly, through empirical and theoretical analysis, we identify two crucial effects -- expansion and shrinkage -- induced by the contrastive loss on the projectors. In essence, contrastive loss either expands or shrinks the signal direction in the representations learned by an encoder, depending on factors such as the augmentation strength, the temperature used in contrastive loss, etc. Secondly, drawing inspiration from the expansion and shrinkage phenomenon, we propose a family of linear transformations to accurately model the projector's behavior. This enables us to precisely characterize the downstream linear classification accuracy in the high-dimensional asymptotic limit. Our findings reveal that linear projectors operating in the shrinkage (or expansion) regime hinder (or improve) the downstream classification accuracy. This provides the first theoretical explanation as to why (linear) projectors impact the downstream performance of learned representations. Our theoretical findings are further corroborated by extensive experiments on both synthetic data and real image data.
翻訳日:2023-06-07 17:54:39 公開日:2023-06-06
# 新規検出のためのロバストな確率モデル

A Robust Likelihood Model for Novelty Detection ( http://arxiv.org/abs/2306.03331v1 )

ライセンス: Link先を確認
Ranya Almohsen, Shivang Patel, Donald A. Adjeroh, Gianfranco Doretto(参考訳) 新規性や異常検出に対する現在のアプローチは、ディープニューラルネットワークに基づいている。 その効果にもかかわらず、ニューラルネットワークは入力データの不可避な変形にも弱い。 これは重要なアプリケーションや、逆襲によってデータ変更が生成される場合において深刻な問題である。 近年,教師あり学習において研究されている既知の問題であるが,新規性検出の場合は非常に注目されている。 実際、この後者の設定では、トレーニング中に外れ値データが利用できないため、学習は通常教師なしであり、このケースに対する新しいアプローチを調査する必要がある。 我々は、攻撃に対する防御として、新規性テストの堅牢な可能性を学ぶことを目的とした新しい事前提案を行う。 また、最先端のノベルティ検出アプローチと、同じ前も統合しています。 このアプローチの幾何学的性質のため、結果として生じる堅牢なトレーニングは計算的に非常に効率的である。 この手法の初期評価は、攻撃の有無および存在下での標準モデルに対する性能向上に有効であることを示している。

Current approaches to novelty or anomaly detection are based on deep neural networks. Despite their effectiveness, neural networks are also vulnerable to imperceptible deformations of the input data. This is a serious issue in critical applications, or when data alterations are generated by an adversarial attack. While this is a known problem that has been studied in recent years for the case of supervised learning, the case of novelty detection has received very limited attention. Indeed, in this latter setting the learning is typically unsupervised because outlier data is not available during training, and new approaches for this case need to be investigated. We propose a new prior that aims at learning a robust likelihood for the novelty test, as a defense against attacks. We also integrate the same prior with a state-of-the-art novelty detection approach. Because of the geometric properties of that approach, the resulting robust training is computationally very efficient. An initial evaluation of the method indicates that it is effective at improving performance with respect to the standard models in the absence and presence of attacks.
翻訳日:2023-06-07 17:54:10 公開日:2023-06-06
# AVIDa-hIL6:抗原と抗体の相互作用を予測する免疫性アルパカ由来の大規模VHHデータセット

AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca for Predicting Antigen-Antibody Interactions ( http://arxiv.org/abs/2306.03329v1 )

ライセンス: Link先を確認
Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Jennifer N. Wei, Zelda Mariet, Poomarin Phloyphisut, Hidetoshi Shimokawa, Joseph R. Ledsam, Lucy Colwell, Akihiro Imura(参考訳) 抗体はヒト疾患の治療薬として重要な分類となっている。 治療的抗体発見を促進するために、特に機械学習の計算手法は、抗体候補とウイルスやバクテリアなどの標的抗原との特定の相互作用を予測することにかなりの関心を集めている。 しかし、既存の研究で公開されているデータセットには、小さなサイズや非結合性サンプルの欠如、正確なアミノ酸配列など、顕著な制限がある。 これらの制限を克服するため,ヒトインターロイキン6 (IL-6) タンパク質を免疫したアルパカ由来の重鎖型重鎖抗体 (VHHs) の変異ドメインにおける抗原と抗体の相互作用を予測する大規模なデータセットであるAVIDa-hIL6を開発した。 DNAシークエンシング技術による全長アミノ酸配列の同定を容易にするVHHsの単純な構造を活用することにより、AVIDa-hIL6はアミノ酸配列と573,891の抗原-VHHペアを含む。 すべての抗原-vhh対は、新規な標識法によって生成されるように、結合または非結合の信頼できるラベルを有する。 さらに、人工突然変異の導入により、AVIDa-hIL6は野生型IL-6タンパク質に加えて30の異なる変異体を含む。 この特徴は、抗原変異による抗体結合の変化を予測する機械学習モデルを開発する機会を提供する。 ニューラルネットワークベースラインモデルを用いて, AVIDa-hIL6のベンチマーク実験を行った。 その結果、既存のモデルには潜在性があることが示唆されるが、未知の変異体に対する効果的な抗体を予測するためには、さらなる研究が必要である。 データセットはhttps://avida-hil6.cognanous.comで入手できる。

Antibodies have become an important class of therapeutic agents to treat human diseases. To accelerate therapeutic antibody discovery, computational methods, especially machine learning, have attracted considerable interest for predicting specific interactions between antibody candidates and target antigens such as viruses and bacteria. However, the publicly available datasets in existing works have notable limitations, such as small sizes and the lack of non-binding samples and exact amino acid sequences. To overcome these limitations, we have developed AVIDa-hIL6, a large-scale dataset for predicting antigen-antibody interactions in the variable domain of heavy chain of heavy chain antibodies (VHHs), produced from an alpaca immunized with the human interleukin-6 (IL-6) protein, as antigens. By leveraging the simple structure of VHHs, which facilitates identification of full-length amino acid sequences by DNA sequencing technology, AVIDa-hIL6 contains 573,891 antigen-VHH pairs with amino acid sequences. All the antigen-VHH pairs have reliable labels for binding or non-binding, as generated by a novel labeling method. Furthermore, via introduction of artificial mutations, AVIDa-hIL6 contains 30 different mutants in addition to wild-type IL-6 protein. This characteristic provides opportunities to develop machine learning models for predicting changes in antibody binding by antigen mutations. We report experimental benchmark results on AVIDa-hIL6 by using neural network-based baseline models. The results indicate that the existing models have potential, but further research is needed to generalize them to predict effective antibodies against unknown mutants. The dataset is available at https://avida-hil6.cognanous.com.
翻訳日:2023-06-07 17:53:56 公開日:2023-06-06
# レベル非依存収束率をもつネットワーク上の確率的マルチレベル合成最適化アルゴリズム

Stochastic Multi-Level Compositional Optimization Algorithms over Networks with Level-Independent Convergence Rate ( http://arxiv.org/abs/2306.03322v1 )

ライセンス: Link先を確認
Hongchang Gao(参考訳) 確率的多段階合成最適化問題は、大規模アプリケーションに効率的な最適化アルゴリズムを必要とするマルチステップモデルに依存しないメタラーニングなど、多くの新しい機械学習パラダイムをカバーする。 本稿では,分散確率的マルチレベル最適化アルゴリズムについて検討する。マルチレベル構造と分散化通信方式は,レベル数を収束率の順序に影響を及ぼす可能性があるため,課題である。 この目的のために,マルチレベル関数とその勾配を扱う2つの分散最適化アルゴリズムを開発した。 理論的には, 従来の単機械アルゴリズムと比較して, 非凸問題に対するレベル非依存収束率を実現することができる。 私たちの知る限りでは、これは分散設定下でレベル独立な収束率を達成する最初の仕事です。 さらに,提案手法の有効性を検証する実験を行った。

Stochastic multi-level compositional optimization problems cover many new machine learning paradigms, e.g., multi-step model-agnostic meta-learning, which require efficient optimization algorithms for large-scale applications. This paper studies the decentralized stochastic multi-level optimization algorithm, which is challenging because the multi-level structure and decentralized communication scheme may make the number of levels affect the order of the convergence rate. To this end, we develop two novel decentralized optimization algorithms to deal with the multi-level function and its gradient. Our theoretical results show that both algorithms can achieve the level-independent convergence rate for nonconvex problems under much milder conditions compared with existing single-machine algorithms. To the best of our knowledge, this is the first work that achieves the level-independent convergence rate under the decentralized setting. Moreover, extensive experiments confirm the efficacy of our proposed algorithms.
翻訳日:2023-06-07 17:53:27 公開日:2023-06-06
# 量子ブロックチェーンによる大規模省エネルギー

Quantum Blockchain Miners Provide Massive Energy Savings ( http://arxiv.org/abs/2306.03321v1 )

ライセンス: Link先を確認
Joseph Kearney and Carlos A Perez-Delgado(参考訳) ブロックチェーンベースの暗号通貨は、非常に重要で高利用のテクノロジーになっている。 しかし、暗号通貨に対する大きな批判は、そのエネルギー消費である。 2022年5月、Bitcoinだけで年間150テラワットの電力を消費していると報告された。 したがって、このプロセスにおける有意義な効率の向上は、非常にポジティブな影響を与える。 一方、量子情報技術の実用的応用、特に短期量子コンピュータ(nisq)は依然として重要な研究課題である。 本稿では,現在のASICベースのマイニングから量子,特にNISQ,マイニングへの仮想通貨マイニングの効率性について検討する。 量子技術の時間効率の利点は極めてよく研究されているが、ここでは省エネルギーに焦点を当てる。 量子ベースの鉱業への移行は、比較的保守的な推定で約126.7TWHの省エネや、2020年のスウェーデンのエネルギー消費の総量と異なるものとなる可能性がある。

Blockchain-based cryptocurrencies have become an extremely important, highly-used, technology. A major criticism of cryptocurrencies, however, is their energy consumption. In May 2022 Bitcoin alone was reported to be consuming 150 terawatt-hours of electricity annually; more than many entire countries. Hence, any meaningful efficiency increase in this process would have a tremendous positive impact. Meanwhile, practical applications of quantum information technologies, and in particular of near-term quantum computers (NISQ) continue to be an important research question. Here, we study the efficiency benefits of moving cryptocurrency mining from current ASIC-based miners to quantum, and in particular NISQ, miners. While the time-efficiency benefits of quantum technologies is extremely well-studied, here we focus on energy savings. We show that the transition to quantum-based mining could incur an energy saving, by relatively conservative estimates, of about roughly 126.7TWH, or put differently the total energy consumption of Sweden in 2020.
翻訳日:2023-06-07 17:53:15 公開日:2023-06-06
# 2次元正方格子網における絡み合い分布

Entanglement distribution in two-dimensional square grid network ( http://arxiv.org/abs/2306.03319v1 )

ライセンス: Link先を確認
Eneet Kaur and Saikat Guha(参考訳) 量子ネットワークにおいて、リピータノードが$n$qubit Greenberger-Horne-Zeilinger(GHZ)スワップ、すなわち射影測定を行い、$n$不完全なフィデリティの絡み合った状態フラグメントを融合することのできるエンタングルメント生成を研究する。 リンクレベルでの完全絡み合い状態と仮定して,このプロトコルで以前に見いだされた距離非依存の絡み合い分布率は存続しないことを示す。 これは2つの修正されたプロトコルにも当てはまります。1つは$l \to 1$のリンクレベル蒸留ともう1つは、スワップに関連するリピータノードを空間的に制約するものです。 我々は、複数のヴェルナー状態のGHZスワップに対する解析式を得る。 距離非依存の絡み合い速度が、ghzスワップとマルチサイトブロック蒸留符号の時空間最適化スケジューリングと再融合するかどうかはまだ不明である。

We study entanglement generation in a quantum network where repeater nodes can perform $n$-qubit Greenberger-Horne-Zeilinger(GHZ) swaps, i.e., projective measurements, to fuse $n$ imperfect-Fidelity entangled-state fragments. We show that the distance-independent entanglement distribution rate found previously for this protocol, assuming perfectly-entangled states at the link level, does not survive. This is true also in two modified protocols we study: one that incorporates $l \to 1$ link-level distillation and another that spatially constrains the repeater nodes involved in the swaps. We obtain analytical formulas for a GHZ swap of multiple Werner states, which might be of independent interest. Whether the distance-independent entanglement rate might re-emerge with a spatio-temporally-optimized scheduling of GHZ swaps and multi-site block-distillation codes remains open.
翻訳日:2023-06-07 17:52:58 公開日:2023-06-06
# 改良型YOLOv7に基づく学生の授業行動検出

Student Classroom Behavior Detection based on Improved YOLOv7 ( http://arxiv.org/abs/2306.03318v1 )

ライセンス: Link先を確認
Fan Yang(参考訳) 教室ビデオにおける生徒の行動を正確に検出することは,授業パフォーマンスの分析と指導効果の向上に寄与する。 しかし、動作検出における現在の精度は低い。 そこで本研究では,改良されたyolov7に基づく授業行動検出手法を提案する。 まず,18.4kラベルと4.2k画像を含む学生教室行動データセット(scb-dataset)を作成し,手上げ,読書,筆記という3つの行動を取り入れた。 混み合ったシーンにおける検出精度を向上させるため,biformer attentionモジュールと wise-iou を yolov7 ネットワークに統合した。 最後に、scb-データセットで実験を行い、79%のmap@0.5を達成し、以前の結果よりも1.8%改善した。 SCB-Datasetとコードは、https://github.com/Whiffe/SCB-datasetでダウンロードできる。

Accurately detecting student behavior in classroom videos can aid in analyzing their classroom performance and improving teaching effectiveness. However, the current accuracy rate in behavior detection is low. To address this challenge, we propose the Student Classroom Behavior Detection method, based on improved YOLOv7. First, we created the Student Classroom Behavior dataset (SCB-Dataset), which includes 18.4k labels and 4.2k images, covering three behaviors: hand raising, reading, and writing. To improve detection accuracy in crowded scenes, we integrated the biformer attention module and Wise-IoU into the YOLOv7 network. Finally, experiments were conducted on the SCB-Dataset, and the model achieved an mAP@0.5 of 79%, resulting in a 1.8% improvement over previous results. The SCB-Dataset and code are available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2023-06-07 17:52:37 公開日:2023-06-06
# 13レベル捕捉イオンquditの制御と読み出し

Control and Readout of a 13-level Trapped Ion Qudit ( http://arxiv.org/abs/2306.03340v1 )

ライセンス: Link先を確認
Pei Jiang Low, Brendan White, Crystal Senko(参考訳) 量子アドバンテージを示す有用な量子アルゴリズムを実装するためには、現在実証されている量子コンピュータを大幅にスケールアップする必要がある。 閉じ込められたイオンのような主要なプラットフォームは、より多くの情報キャリアを含む物理的な課題に直面します。 計算空間をスケールアップするには、閉じ込められたイオンの豊富なエネルギー準位構造を利用して、2レベル量子ビットではなく、マルチレベル量子ビットをエンコードする方がより難解な方法である。 ここでは、最大13の計算状態を持つクォーディットの制御とシングルショット読み出しを示し、選択した情報ホストの最大25レベルのクォーディットを操作するために直接拡張可能なプロトコルである$^{137}\text{Ba}^{+}$を使用する。 これは、閉じ込められたイオンの以前の仕事と比較して、クディット当たりの計算状態の2倍以上である。 私たちが示す準備と読み出しのプロトコルに加えて、ユニバーサル量子計算には、ゲートの絡み合いのような他の量子論理プリミティブが必要である。 これらのプリミティブはより低いクディット次元に対して証明され、私たちが採用する高次元に直接一般化することができる。 そこで,本研究では,大規模量子計算に高次元quditを用いた方法を提案する。 我々は, 閉じ込められたイオン量子コンピュータの計算空間のスケールアップにおける課題に取り組む上で, 有効なエネルギー状態を効率的に利用し, かつ相補的な役割を果たすことを期待する。 quditアーキテクチャはまた、量子誤差補正のための緩和されたフォールトトレランスしきい値、より高いスピン系の効率的な量子シミュレーションのための道筋、より効率的な量子ビットゲートなど、他の実用的な利点も提供する。

To implement useful quantum algorithms which demonstrate quantum advantage, we must scale currently demonstrated quantum computers up significantly. Leading platforms such as trapped ions face physical challenges in including more information carriers. A less explored avenue for scaling up the computational space involves utilizing the rich energy level structure of a trapped ion to encode multi-level qudits rather than two-level qubits. Here we show control and single-shot readout of qudits with up to 13 computational states, using protocols which can be extended directly to manipulate qudits of up to 25 levels in our chosen information host, $^{137}\text{Ba}^{+}$. This represents more than twice as many computational states per qudit compared with prior work in trapped ions. In addition to the preparation and readout protocols we demonstrate, universal quantum computation requires other quantum logic primitives such as entangling gates. These primitives have been demonstrated for lower qudit dimensions and can be directly generalized to the higher dimensions we employ. Hence, our advance opens an avenue towards using high-dimensional qudits for large-scale quantum computation. We anticipate efficiently utilizing available energy states in a trapped ion to play a significant and complementary role in tackling the challenge in scaling up the computational space of a trapped ion quantum computer. A qudit architecture also offers other practical benefits, which include affording relaxed fault tolerance thresholds for quantum error correction, providing an avenue for efficient quantum simulation of higher spin systems, and more efficient qubit gates.
翻訳日:2023-06-07 17:50:38 公開日:2023-06-06
# $\textit{what}$,$\textit{when}$,$\textit{how}$ to ground: 対話をするためのユーザパーソナライズされた会話エージェントの設計

$\textit{WHAT}$, $\textit{WHEN}$, and $\textit{HOW}$ to Ground: Designing User Persona-Aware Conversational Agents for Engaging Dialogue ( http://arxiv.org/abs/2306.03361v1 )

ライセンス: Link先を確認
Deuksin Kwon, Sunwoo Lee, Ki Hyun Kim, Seojin Lee, Taeyoon Kim, Eric Davis(参考訳) 本稿では,パーソナライズされた対話応答がカジュアルな応答ターンと密接な関係を持つ,商業環境での自然応答生成における$\textit{WHAT}$, $\textit{WHEN}$, $\textit{HOW}$)問題に対処する,パーソナライズされたオープンドメイン対話システムを構築する方法を提案する。 提案手法は、重み付きデータセットブレンディング、負のペルソナ情報拡張手法、パーソナライズされた会話データセットの設計を含み、パーソナライズされたオープンドメイン対話システムにおける$\textit{wwh}$の課題に対処する。 本研究は,対話の流速と接地傾向のバランスを効果的に保ちつつ,接地応答の制御性と説明性を向上させるための応答型ラベルを導入する。 これらの手法の組み合わせは、主観的人間評価や客観的評価によって示されるように、より流動的な会話につながる。

This paper presents a method for building a personalized open-domain dialogue system to address the $\textit{WWH}$ ($\textit{WHAT}$, $\textit{WHEN}$, and $\textit{HOW}$) problem for natural response generation in a commercial setting, where personalized dialogue responses are heavily interleaved with casual response turns. The proposed approach involves weighted dataset blending, negative persona information augmentation methods, and the design of personalized conversation datasets to address the challenges of $\textit{WWH}$ in personalized, open-domain dialogue systems. Our work effectively balances dialogue fluency and tendency to ground, while also introducing a response-type label to improve the controllability and explainability of the grounded responses. The combination of these methods leads to more fluent conversations, as evidenced by subjective human evaluations as well as objective evaluations.
翻訳日:2023-06-07 17:43:05 公開日:2023-06-06
# Vid2Act: Visual RL用のオフラインビデオのアクティベート

Vid2Act: Activate Offline Videos for Visual RL ( http://arxiv.org/abs/2306.03360v1 )

ライセンス: Link先を確認
Pan Minting, Zheng Yitao, Wang Yunbo, Yang Xiaokang(参考訳) オフラインのビデオデータセットでrlモデルを事前トレーニングすることは、オンラインタスクのトレーニング効率を改善する有望な方法だが、ドメイン間のタスク、ダイナミクス、行動に固有のミスマッチのため、難しい。 最近のモデルであるapvは、関連するアクションレコードをオフラインデータセットでサイドステップし、代わりにソースドメイン内でタスクに依存しないアクションフリーの世界モデルを事前トレーニングすることにフォーカスします。 本稿では,アクションコンディショニング・ダイナミクスと潜在的に有用なアクションデモをオフラインからオンラインに転送することを学ぶモデルベースのrl手法であるvid2actを提案する。 主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、動的表現伝達とポリシー伝達の両方のドメイン関連性を測定するツールとして使うことである。 具体的には、ドメイン選択的知識蒸留損失を用いて、時間変化タスクの類似性を生成するために、世界モデルを訓練する。 これらの類似性は2つの目的を果たす。 (i)動的学習を促進するために最も有用な情報源知識を適応的に伝達し、 (ii)ターゲットポリシーを導くために最も関連するソースアクションを再生する学習。 本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。

Pretraining RL models on offline video datasets is a promising way to improve their training efficiency in online tasks, but challenging due to the inherent mismatch in tasks, dynamics, and behaviors across domains. A recent model, APV, sidesteps the accompanied action records in offline datasets and instead focuses on pretraining a task-irrelevant, action-free world model within the source domains. We present Vid2Act, a model-based RL method that learns to transfer valuable action-conditioned dynamics and potentially useful action demonstrations from offline to online settings. The main idea is to use the world models not only as simulators for behavior learning but also as tools to measure the domain relevance for both dynamics representation transfer and policy transfer. Specifically, we train the world models to generate a set of time-varying task similarities using a domain-selective knowledge distillation loss. These similarities serve two purposes: (i) adaptively transferring the most useful source knowledge to facilitate dynamics learning, and (ii) learning to replay the most relevant source actions to guide the target policy. We demonstrate the advantages of Vid2Act over the action-free visual RL pretraining method in both Meta-World and DeepMind Control Suite.
翻訳日:2023-06-07 17:42:40 公開日:2023-06-06
# AIは学業ミスのルールを変えるのか? 学生の「AI-giarism」に対する認識についての一考察

Is AI Changing the Rules of Academic Misconduct? An In-depth Look at Students' Perceptions of 'AI-giarism' ( http://arxiv.org/abs/2306.03358v1 )

ライセンス: Link先を確認
Cecilia Ka Yuk Chan(参考訳) この先駆的な研究は、高等教育の文脈において、aiと盗作を含む学術的不正の創発的な形態であるai-giarismに対する学生の認識を探求する。 様々な分野の大学生,大学院生393名を対象に,AI-ギアリズムの多様なシナリオに対する認識を調査した。 この発見は、AIコンテンツの直接生成に対して明確な不承認をもって、複雑な理解の風景を描いている。 この研究は、AIギアリズムの初期の概念化として新しい道具を紹介し、教育者や政策立案者に重要なツールを提供する。 このスケールは、AI統合の時代における教育設計と評価を支援するAI関連の学術的不正行為に関する理解と議論を促進する。 さらに、AI技術の進化に対応するために適応する必要性を強調し、学術的不正行為の伝統的な定義に挑戦する。 AIの急速な変化や便利なサンプリングの使用といった制限にもかかわらず、この研究は学術、政策決定、そして教育におけるAI技術のより広範な統合に対する重要な洞察を提供する。

This pioneering study explores students' perceptions of AI-giarism, an emergent form of academic dishonesty involving AI and plagiarism, within the higher education context. A survey, undertaken by 393 undergraduate and postgraduate students from a variety of disciplines, investigated their perceptions of diverse AI-giarism scenarios. The findings portray a complex landscape of understanding, with clear disapproval for direct AI content generation, yet more ambivalent attitudes towards subtler uses of AI. The study introduces a novel instrument, as an initial conceptualization of AI-giarism, offering a significant tool for educators and policy-makers. This scale facilitates understanding and discussions around AI-related academic misconduct, aiding in pedagogical design and assessment in an era of AI integration. Moreover, it challenges traditional definitions of academic misconduct, emphasizing the need to adapt in response to evolving AI technology. Despite limitations, such as the rapidly changing nature of AI and the use of convenience sampling, the study provides pivotal insights for academia, policy-making, and the broader integration of AI technology in education.
翻訳日:2023-06-07 17:42:19 公開日:2023-06-06
# 直交基底を持つ関数族に対する能動学習のクエリ複雑性

Query Complexity of Active Learning for Function Family With Nearly Orthogonal Basis ( http://arxiv.org/abs/2306.03356v1 )

ライセンス: Link先を確認
Xiang Chen, Zhao Song, Baocheng Sun, Junze Yin, Danyang Zhuo(参考訳) 多くの機械学習アルゴリズムは、最先端の結果を提供するために大量のラベル付きデータを必要とする。 医療診断や不正検出のようなアプリケーションでは、ラベルのないデータが豊富にあるが、専門家や実験、シミュレーションによってデータをラベル付けするのは費用がかかる。 アクティブな学習アルゴリズムは、性能を保ちながら、必要なラベル付きデータポイントの数を減らすことを目的としている。 線形回帰や$p$-norm回帰のような凸最適化問題には、特定の精度を達成するために必要なラベルの数に理論的境界がある。 これをアクティブラーニングのクエリ複雑性と呼んでいる。 しかし、今日のアクティブ学習アルゴリズムでは、基礎となる学習関数が直交基底を持つ必要がある。 例えば、線形回帰にアクティブラーニングを適用する場合、対象関数は直交線形関数の集合の線形合成であり、アクティブラーニングはこれらの線形関数の係数を見つけることができる。 我々は,能動学習が直交ベースを必要としないだけでなく,ほぼ直交ベースを必要とすることを示す理論的結果を示す。 ほぼ直交基底の関数族に対する対応する理論的証明とそのアルゴリズム的効率的な能動学習フレームワークへの応用について述べる。

Many machine learning algorithms require large numbers of labeled data to deliver state-of-the-art results. In applications such as medical diagnosis and fraud detection, though there is an abundance of unlabeled data, it is costly to label the data by experts, experiments, or simulations. Active learning algorithms aim to reduce the number of required labeled data points while preserving performance. For many convex optimization problems such as linear regression and $p$-norm regression, there are theoretical bounds on the number of required labels to achieve a certain accuracy. We call this the query complexity of active learning. However, today's active learning algorithms require the underlying learned function to have an orthogonal basis. For example, when applying active learning to linear regression, the requirement is the target function is a linear composition of a set of orthogonal linear functions, and active learning can find the coefficients of these linear functions. We present a theoretical result to show that active learning does not need an orthogonal basis but rather only requires a nearly orthogonal basis. We provide the corresponding theoretical proofs for the function family of nearly orthogonal basis, and its applications associated with the algorithmically efficient active learning framework.
翻訳日:2023-06-07 17:41:59 公開日:2023-06-06
# BatchSampler: 視覚、言語、グラフにおけるコントラスト学習のためのミニバッチのサンプリング

BatchSampler: Sampling Mini-Batches for Contrastive Learning in Vision, Language, and Graphs ( http://arxiv.org/abs/2306.03355v1 )

ライセンス: Link先を確認
Zhen Yang, Tinglin Huang, Ming Ding, Yuxiao Dong, Rex Ying, Yukuo Cen, Yangliao Geng, and Jie Tang(参考訳) In-Batchコントラスト学習(In-Batch contrastive learning)は、ミニバッチ内で異種インスタンスを分割しながら、意味的に類似したインスタンスを近接させる最先端の自己教師方式である。 成功の鍵は、すべてのインスタンスがミニバッチ内の他のインスタンスに対して負の役割を果たす負の共有戦略である。 近年の研究では、その品質がミニバッチ自体に拘束されているハードネガティブをサンプリングすることで、パフォーマンスを向上させることを目指している。 本研究では,入力データからミニバッチをサンプリングすることで,コントラスト学習を改善することを提案する。 BatchSampler\footnote{The code are available at \url{https://github.com/THUDM/BatchSampler}} to sample mini-batches of hard-to-distinguish (すなわち、互いに強みと真陰性)。 各ミニバッチが偽陰性が少ないように、ランダムに選択されたインスタンスの近接グラフを設計する。 ミニバッチを形成するために、近接グラフのリスタートでランダムウォークを利用して、区別が難しいインスタンスをサンプリングする。 BatchSamplerは、視覚、言語、グラフの既存のコントラスト学習モデルに直接プラグインできる、シンプルで一般的なテクニックである。 3つのモードのデータセットに対する大規模な実験は、ImageNet-100でのSimCLR、STS(言語)でのSimCSE、グラフデータセットでのGraphCLとMVGRLの大幅な改善によって示されているように、BatchSamplerが強力なコントラストモデルのパフォーマンスを一貫して改善できることを示している。

In-Batch contrastive learning is a state-of-the-art self-supervised method that brings semantically-similar instances close while pushing dissimilar instances apart within a mini-batch. Its key to success is the negative sharing strategy, in which every instance serves as a negative for the others within the mini-batch. Recent studies aim to improve performance by sampling hard negatives \textit{within the current mini-batch}, whose quality is bounded by the mini-batch itself. In this work, we propose to improve contrastive learning by sampling mini-batches from the input data. We present BatchSampler\footnote{The code is available at \url{https://github.com/THUDM/BatchSampler}} to sample mini-batches of hard-to-distinguish (i.e., hard and true negatives to each other) instances. To make each mini-batch have fewer false negatives, we design the proximity graph of randomly-selected instances. To form the mini-batch, we leverage random walk with restart on the proximity graph to help sample hard-to-distinguish instances. BatchSampler is a simple and general technique that can be directly plugged into existing contrastive learning models in vision, language, and graphs. Extensive experiments on datasets of three modalities show that BatchSampler can consistently improve the performance of powerful contrastive models, as shown by significant improvements of SimCLR on ImageNet-100, SimCSE on STS (language), and GraphCL and MVGRL on graph datasets.
翻訳日:2023-06-07 17:41:39 公開日:2023-06-06
# シミュレーションに基づく実世界運転行動の因果発見

Simulation-Based Counterfactual Causal Discovery on Real World Driver Behaviour ( http://arxiv.org/abs/2306.03354v1 )

ライセンス: Link先を確認
Rhys Howard, Lars Kunze(参考訳) 人の行動が他人の行動にどう影響するかを判断できることは、インテリジェントな運転エージェントに必要なコアスキルである。 それにもかかわらず、芸術の状態は、自分自身と他者の間の因果関係を発見するエージェントの必要性を満たすために苦労している。 観察的アプローチは、動的環境における因果関係の非定常性や因果相互作用のスパースが原因で、オンライン形式での動作を要求される。 一方、車両は公道での動作を実験できないため、介入アプローチは現実的ではない。 非定常性の問題に対処するため、前述した介入制限を反事実シミュレーションを用いて克服する一方で、抽出された事象の観点から問題を再構成する。 提案手法は, 実世界の運転データセットから抽出した3396件の因果的シーンを対象とし, 提案手法の3つの変種について検討を行った。 提案手法は,提案課題における工法の現状を定量的に上回り,観察的アプローチや介入的アプローチでは不可能な方法で,異なる一連の意思決定結果を比較することで,さらなる洞察を与えることができる。

Being able to reason about how one's behaviour can affect the behaviour of others is a core skill required of intelligent driving agents. Despite this, the state of the art struggles to meet the need of agents to discover causal links between themselves and others. Observational approaches struggle because of the non-stationarity of causal links in dynamic environments, and the sparsity of causal interactions while requiring the approaches to work in an online fashion. Meanwhile interventional approaches are impractical as a vehicle cannot experiment with its actions on a public road. To counter the issue of non-stationarity we reformulate the problem in terms of extracted events, while the previously mentioned restriction upon interventions can be overcome with the use of counterfactual simulation. We present three variants of the proposed counterfactual causal discovery method and evaluate these against state of the art observational temporal causal discovery methods across 3396 causal scenes extracted from a real world driving dataset. We find that the proposed method significantly outperforms the state of the art on the proposed task quantitatively and can offer additional insights by comparing the outcome of an alternate series of decisions in a way that observational and interventional approaches cannot.
翻訳日:2023-06-07 17:41:02 公開日:2023-06-06
# Web 3.0の現在の機会と課題

The current opportunities and challenges of Web 3.0 ( http://arxiv.org/abs/2306.03351v1 )

ライセンス: Link先を確認
Yuqing Fan, Tianyi Huang, Yiran Meng, Shenghui Cheng(参考訳) aiと5g技術の最近の進歩と、ブロックチェーンとメタバースの新たな概念によって、web 3.0として知られるインターネットの新しい革命が生まれている。 Web 3.0はインターネットのランドスケープや様々な専門分野に大きな影響を与える可能性があることから、学術界と産業界の両方からかなりの注目を集めている。 本稿では、Web 3.0に関連する機会と課題を探索的に分析する。 まず、この研究はWeb 1.0、Web 2.0、Web 3.0の技術的な違いを評価し、同時にWeb 3.0のユニークな技術アーキテクチャについても検討している。 次に、現在の文献をレビューすることで、経済と技術の両方の観点からweb 3.0を取り巻く開発の現状を強調する。 第3に、現在Web 3.0イニシアチブに直面する多くの研究および規制上の障害を特定する。 最後に、このアーティクルは、Web 3.0技術の将来的な成長と進歩について、先見的な視点を提供することで締めくくります。

With recent advancements in AI and 5G technologies,as well as the nascent concepts of blockchain and metaverse,a new revolution of the Internet,known as Web 3.0,is emerging. Given its significant potential impact on the internet landscape and various professional sectors,Web 3.0 has captured considerable attention from both academic and industry circles. This article presents an exploratory analysis of the opportunities and challenges associated with Web 3.0. Firstly, the study evaluates the technical differences between Web 1.0, Web 2.0, and Web 3.0, while also delving into the unique technical architecture of Web 3.0. Secondly, by reviewing current literature, the article highlights the current state of development surrounding Web 3.0 from both economic and technological perspective. Thirdly, the study identifies numerous research and regulatory obstacles that presently confront Web 3.0 initiatives. Finally, the article concludes by providing a forward-looking perspective on the potential future growth and progress of Web 3.0 technology.
翻訳日:2023-06-07 17:40:40 公開日:2023-06-06
# Click: 逐次的コントラスト学習による制御可能なテキスト生成

Click: Controllable Text Generation with Sequence Likelihood Contrastive Learning ( http://arxiv.org/abs/2306.03350v1 )

ライセンス: Link先を確認
Chujie Zheng, Pei Ke, Zheng Zhang, Minlie Huang(参考訳) 有害な言語や不自然な反復など、望ましくない属性を持つテキストの生成を避けるために、言語モデルを制御することは、常に重要かつ困難な問題である。 モデルアーキテクチャの変更を必要とせず、トレーニング済みのモデルの利用を容易にする、制御可能なテキスト生成のためのクリックを導入する。 シークエンス確率には対照的な損失があり、負のサンプル(すなわち望ましくない属性を持つ世代)の生成確率を根本的に減少させる。 また、モデル世代から対照的なサンプルを構築するための、新しいランキングベースの戦略も採用している。 言語無害化,感情の操り,繰り返し削減のタスクにおいて,クリックは制御可能なテキスト生成の強いベースラインよりも優れており,クリックのサンプル構築戦略が優れていることを示す。

It has always been an important yet challenging problem to control language models to avoid generating texts with undesirable attributes, such as toxic language and unnatural repetition. We introduce Click for controllable text generation, which needs no modification to the model architecture and facilitates out-of-the-box use of trained models. It employs a contrastive loss on sequence likelihood, which fundamentally decreases the generation probability of negative samples (i.e., generations with undesirable attributes). It also adopts a novel likelihood ranking-based strategy to construct contrastive samples from model generations. On the tasks of language detoxification, sentiment steering, and repetition reduction, we show that Click outperforms strong baselines of controllable text generation and demonstrate the superiority of Click's sample construction strategy.
翻訳日:2023-06-07 17:40:27 公開日:2023-06-06
# コントラストrlの安定化: オフラインゴール到達のための技術

Stabilizing Contrastive RL: Techniques for Offline Goal Reaching ( http://arxiv.org/abs/2306.03346v1 )

ライセンス: Link先を確認
Chongyi Zheng, Benjamin Eysenbach, Homer Walke, Patrick Yin, Kuan Fang, Ruslan Salakhutdinov, Sergey Levine(参考訳) コンピュータビジョン (cv) と自然言語処理 (nlp) のコミュニティが自己教師ありの手法を開発したのと同じように、強化学習 (rl) は自己教師ありの問題として、人間に特定された報酬やラベルを必要とせずに、任意の目標に到達することを学ぶことができる。 しかし、実際にRLのための自己組織化基盤を構築することは、いくつかの重要な課題に直面している。 このRL問題に対する事前のコントラスト的アプローチに基づいて、慎重にアブレーション実験を行い、重み付け初期化とデータ拡張と組み合わせることで、シミュレーションベンチマークに挑戦する上で、これらの対照的なRLアプローチの性能を大幅に向上させることができることを発見した。 さらに,これらの設計決定により,実世界のロボット操作タスクをコントラスト的アプローチで解決し,トレーニング後に提供される1つの目標イメージによってタスクが特定できることを実証する。

In the same way that the computer vision (CV) and natural language processing (NLP) communities have developed self-supervised methods, reinforcement learning (RL) can be cast as a self-supervised problem: learning to reach any goal, without requiring human-specified rewards or labels. However, actually building a self-supervised foundation for RL faces some important challenges. Building on prior contrastive approaches to this RL problem, we conduct careful ablation experiments and discover that a shallow and wide architecture, combined with careful weight initialization and data augmentation, can significantly boost the performance of these contrastive RL approaches on challenging simulated benchmarks. Additionally, we demonstrate that, with these design decisions, contrastive approaches can solve real-world robotic manipulation tasks, with tasks being specified by a single goal image provided after training.
翻訳日:2023-06-07 17:40:11 公開日:2023-06-06
# 推測時間干渉:言語モデルからの真理回答の除去

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v1 )

ライセンス: Link先を確認
Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の真正性を高めるために設計された手法である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。 この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。 アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。 真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。 さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。 以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

We introduce Inference-Time Intervention (ITI), a technique designed to enhance the truthfulness of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
翻訳日:2023-06-07 17:39:53 公開日:2023-06-06
# vr.net: 仮想現実の動き病研究のための現実世界のデータセット

VR.net: A Real-world Dataset for Virtual Reality Motion Sickness Research ( http://arxiv.org/abs/2306.03381v1 )

ライセンス: Link先を確認
Elliott Wen, Chitralekha Gupta, Prasanth Sasikumar, Mark Billinghurst, James Wilmott, Emily Skow, Arindam Dey, Suranga Nanayakkara(参考訳) 研究者たちは、vr体験における運動病の特定に機械学習のアプローチを使ってきた。 これらのアプローチは、高精度で一般化可能な、正確にラベル付けされた現実世界と多様なデータセットを必要とする。 このニーズに対処するための出発点として、我々は10の異なるジャンルの10の現実世界のゲームから約12時間のゲームプレイビデオを提供するデータセット「VR.net」を紹介した。 各ビデオフレームに対して、カメラ/オブジェクト移動、深度場、モーションフローなどの、運動病関連ラベルの豊富なセットを精度よく割り当てる。 このようなデータセットの構築は、手作業によるラベル付けが不可能な時間を要するため、難しい。 代わりに、vrゲームのソースコードにアクセスせずに、3dエンジンのレンダリングパイプラインからグランド真実データを自動的かつ正確に抽出するツールを利用する。 リスクファクタ検出や病気レベルの予測など,いくつかのアプリケーションを通じてVR.netの有用性を説明する。 vr.netを継続的に拡張し、次のバージョンでは現在のフォームよりも10倍のデータを提供する予定です。 vr.netのスケール、正確性、多様性は、vrモーション・シックネスの研究に別途の機会をもたらすと信じている。

Researchers have used machine learning approaches to identify motion sickness in VR experience. These approaches demand an accurately-labeled, real-world, and diverse dataset for high accuracy and generalizability. As a starting point to address this need, we introduce `VR.net', a dataset offering approximately 12-hour gameplay videos from ten real-world games in 10 diverse genres. For each video frame, a rich set of motion sickness-related labels, such as camera/object movement, depth field, and motion flow, are accurately assigned. Building such a dataset is challenging since manual labeling would require an infeasible amount of time. Instead, we utilize a tool to automatically and precisely extract ground truth data from 3D engines' rendering pipelines without accessing VR games' source code. We illustrate the utility of VR.net through several applications, such as risk factor detection and sickness level prediction. We continuously expand VR.net and envision its next version offering 10X more data than the current form. We believe that the scale, accuracy, and diversity of VR.net can offer unparalleled opportunities for VR motion sickness research and beyond.
翻訳日:2023-06-07 17:34:19 公開日:2023-06-06
# 低解像度の超解像のための統一的枠組み

A Unified Framework to Super-Resolve Face Images of Varied Low Resolutions ( http://arxiv.org/abs/2306.03380v1 )

ライセンス: Link先を確認
Qiuyu Peng, Zifei Jiang, Yan Huang and Jingliang Peng(参考訳) 既存の顔画像超解像アルゴリズム(FSR)は通常、最適な結果を得るために特定の低入力解像度の特定のモデルを訓練する。 これとは対照的に,我々はこの作業において,一度トレーニングした上で,さまざまな低解像度の入力面イメージをスーパーレゾリューションするために使用される統一フレームワークを探求する。 そこで本研究では,3つのアンカーオートエンコーダと1つの特徴重回帰器,最終画像デコーダからなるニューラルネットワークアーキテクチャを提案する。 3つのアンカーオートエンコーダは、3つの事前定義された低入力解像度または名前付きアンカー解像度に対して最適なFSRを意図している。 任意の低解像度の入力顔画像は、まず2キュービック補間により目標解像度にアップスケールされ、3つのオートエンコーダに並列に供給される。 3つのエンコードされたアンカー特徴は、特徴量レグレッサーによって決定される重みで融合される。 最終的に、融合された機能は最終画像デコーダに送信され、スーパーレゾリューション結果が導出される。 実験により示すように,提案アルゴリズムは1つのフレームワークを用いて,幅広い低入力解像度に対して頑健かつ最先端な性能を実現する。 コードとモデルは、この作品の公開後に利用可能になる。

The existing face image super-resolution (FSR) algorithms usually train a specific model for a specific low input resolution for optimal results. By contrast, we explore in this work a unified framework that is trained once and then used to super-resolve input face images of varied low resolutions. For that purpose, we propose a novel neural network architecture that is composed of three anchor auto-encoders, one feature weight regressor and a final image decoder. The three anchor auto-encoders are meant for optimal FSR for three pre-defined low input resolutions, or named anchor resolutions, respectively. An input face image of an arbitrary low resolution is firstly up-scaled to the target resolution by bi-cubic interpolation and then fed to the three auto-encoders in parallel. The three encoded anchor features are then fused with weights determined by the feature weight regressor. At last, the fused feature is sent to the final image decoder to derive the super-resolution result. As shown by experiments, the proposed algorithm achieves robust and state-of-the-art performance over a wide range of low input resolutions by a single framework. Code and models will be made available after the publication of this work.
翻訳日:2023-06-07 17:34:02 公開日:2023-06-06
# TextFormer: 混合スーパービジョンを備えたクエリベースのエンドツーエンドテキストスポッター

TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision ( http://arxiv.org/abs/2306.03377v1 )

ライセンス: Link先を確認
Yukun Zhai, Xiaoqiang Zhang, Xiameng Qin, Sanyuan Zhao, Xingping Dong, Jianbing Shen(参考訳) エンド・ツー・エンドのテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的とした、重要なコンピュータビジョンタスクである。 典型的な手法は、ローカルな特徴や複雑な後処理ステップを抽出して最終的な予測を生成するために、Rerea-of-Interest(RoI)操作に大きく依存する。 この制限に対処するため,Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 具体的には、テキストインスタンスごとのクエリ埋め込みを使用して、textformerはイメージエンコーダとテキストデコーダ上に構築され、マルチタスクモデリングのための統合意味理解を学ぶ。 分類、セグメンテーション、認識ブランチの相互訓練と最適化を可能にし、柔軟性や単純さを犠牲にすることなく、より深い機能共有を実現する。 さらに,任意の字型テキストを読むためにグローバルな特徴を逐次的特徴に伝達するAdaptive Global aGgregation (AGG) モジュールを設計し,RoI操作のサブ最適化問題を克服する。 さらに、テキスト検出とエンドツーエンドテキストスポッティング結果のさらなる改善により、潜在的なコーパス情報は、弱いアノテーションから、混合監督によりフルラベルに活用される。 様々なバイリンガル(英語と中国語)ベンチマークに関する広範囲な実験が本手法の優越性を示している。 特にTDA-ReCTSデータセットでは、TextFormerが最先端の手法を13.2%上回っている。

End-to-end text spotting is a vital computer vision task that aims to integrate scene text detection and recognition into a unified framework. Typical methods heavily rely on Region-of-Interest (RoI) operations to extract local features and complex post-processing steps to produce final predictions. To address these limitations, we propose TextFormer, a query-based end-to-end text spotter with Transformer architecture. Specifically, using query embedding per text instance, TextFormer builds upon an image encoder and a text decoder to learn a joint semantic understanding for multi-task modeling. It allows for mutual training and optimization of classification, segmentation, and recognition branches, resulting in deeper feature sharing without sacrificing flexibility or simplicity. Additionally, we design an Adaptive Global aGgregation (AGG) module to transfer global features into sequential features for reading arbitrarily-shaped texts, which overcomes the sub-optimization problem of RoI operations. Furthermore, potential corpus information is utilized from weak annotations to full labels through mixed supervision, further improving text detection and end-to-end text spotting results. Extensive experiments on various bilingual (i.e., English and Chinese) benchmarks demonstrate the superiority of our method. Especially on TDA-ReCTS dataset, TextFormer surpasses the state-of-the-art method in terms of 1-NED by 13.2%.
翻訳日:2023-06-07 17:33:43 公開日:2023-06-06
# 画像言語基盤モデルを用いたヒト脳における識別可能概念の同定

Identifying Shared Decodable Concepts in the Human Brain Using Image-Language Foundation Models ( http://arxiv.org/abs/2306.03375v1 )

ライセンス: Link先を確認
Cory Efird, Alex Murphy, Joel Zylberberg, Alona Fyshe(参考訳) 高品質な事前学習型マルチモーダル表現を利用して、人間の脳内のきめ細かいセマンティックネットワークを探索する手法を提案する。 以前の研究では、脳内の機能的局在の証拠が記録されており、様々な解剖学的領域が様々な種類の感覚入力に優先的に活性化している。 このような局所的な構造は、ファシフォーム・フェイス・エリアやパラヒッポカンプス・プレイス・エリアなど、多く知られている。 これは、追加の脳領域(または脳領域の結合)が他の重要な意味概念に特化しているかどうかという問題を提起する。 このような脳領域を特定するため,我々は,fMRIデータセットからデオード可能な視覚概念を明らかにするためのデータ駆動型アプローチを開発した。 我々の分析はおおむね3つのセクションに分けられる。 まず、完全に接続されたニューラルネットワークを使用して、画像言語基盤モデルの出力であるCLIP(Radford et al., 2021)に脳の反応をマッピングする。 その後、対照的な学習次元減少法により、CLIP空間の脳分解性成分が明らかにされる。 分析の最終章では、ボクセル・マスキング最適化法を用いて脳内の共有デオード可能な概念を局所化し、共有デオード可能な概念(SDC)空間を生成する。 この方法の精度は, 顔, 体, 場所の領域を識別する以前の局所化実験と比較することにより検証される。 対応する脳領域がすでに知られているこれらの概念に加えて、参加者間で共有される新しい概念表現を、人間の脳の他の領域にローカライズする。 また,この手法を用いて個々の参加者の詳細なセマンティックネットワークを検査する方法を示す。 我々は、この拡張可能な手法が、AIと神経科学の交差点で他の質問にも適用できると考えている。

We introduce a method that takes advantage of high-quality pretrained multimodal representations to explore fine-grained semantic networks in the human brain. Previous studies have documented evidence of functional localization in the brain, with different anatomical regions preferentially activating for different types of sensory input. Many such localized structures are known, including the fusiform face area and parahippocampal place area. This raises the question of whether additional brain regions (or conjunctions of brain regions) are also specialized for other important semantic concepts. To identify such brain regions, we developed a data-driven approach to uncover visual concepts that are decodable from a massive functional magnetic resonance imaging (fMRI) dataset. Our analysis is broadly split into three sections. First, a fully connected neural network is trained to map brain responses to the outputs of an image-language foundation model, CLIP (Radford et al., 2021). Subsequently, a contrastive-learning dimensionality reduction method reveals the brain-decodable components of CLIP space. In the final section of our analysis, we localize shared decodable concepts in the brain using a voxel-masking optimization method to produce a shared decodable concept (SDC) space. The accuracy of our procedure is validated by comparing it to previous localization experiments that identify regions for faces, bodies, and places. In addition to these concepts, whose corresponding brain regions were already known, we localize novel concept representations which are shared across participants to other areas of the human brain. We also demonstrate how this method can be used to inspect fine-grained semantic networks for individual participants. We envisage that this extensible method can also be adapted to explore other questions at the intersection of AI and neuroscience.
翻訳日:2023-06-07 17:33:17 公開日:2023-06-06
# PGformer:多人数対話型モーション予測のためのプロキシブリッジ型ゲームトランス

PGformer: Proxy-Bridged Game Transformer for Multi-Person Extremely Interactive Motion Prediction ( http://arxiv.org/abs/2306.03374v1 )

ライセンス: Link先を確認
Yanwen Fang, Chao Li, Jintai Chen, Pengtao Jiang, Yifeng Geng, Xuansong Xie, Eddy K.F. LAM, Guodong Li(参考訳) マルチパーソン動作予測は特に密接な相互作用のある人の現実シナリオにおいて難しい課題である。 これまでのほとんどの作品は、通常、各人間のポーズを単独で予測する弱い相互作用(例えば、ハンドシェイキング)の研究に費やされてきた。 本稿では,過度な協調関係を有する複数人の動作予測に着目し,対話性の高い人物の動き軌跡間の関係を探究する。 具体的には,この状況に適した2つのポーズ列間の相互依存性を双方向に学習するために,新しいクロスクエリアテンション(XQA)モジュールを提案する。 さらに,提案するXQAモジュールと連携し,双方向情報フローを微妙に制御し,移動仲介役として機能する,関係者を橋渡しするプロキシエンティティを導入・構築する。 次に、これらの設計をTransformerベースのアーキテクチャに適応させ、プロキシブリッジゲームトランスフォーマー(PGformer)と呼ばれるシンプルなエンドツーエンドフレームワークを多人数対話型モーション予測に適用する。 本手法の有効性は,高度に対話的な動作を伴うEXPIデータセット上で評価されている。 PGformer は,短期・長期の予測において,最先端の手法よりも高い性能を示すことを示す。 さらに、我々のアプローチは、弱い相互作用を持つCMU-MocapとMuPoTS-3Dデータセットと互換性があり、奨励的な結果が得られる。 私たちのコードは受け入れ次第公開されます。

Multi-person motion prediction is a challenging task, especially for real-world scenarios of densely interacted persons. Most previous works have been devoted to studying the case of weak interactions (e.g., hand-shaking), which typically forecast each human pose in isolation. In this paper, we focus on motion prediction for multiple persons with extreme collaborations and attempt to explore the relationships between the highly interactive persons' motion trajectories. Specifically, a novel cross-query attention (XQA) module is proposed to bilaterally learn the cross-dependencies between the two pose sequences tailored for this situation. Additionally, we introduce and build a proxy entity to bridge the involved persons, which cooperates with our proposed XQA module and subtly controls the bidirectional information flows, acting as a motion intermediary. We then adapt these designs to a Transformer-based architecture and devise a simple yet effective end-to-end framework called proxy-bridged game Transformer (PGformer) for multi-person interactive motion prediction. The effectiveness of our method has been evaluated on the challenging ExPI dataset, which involves highly interactive actions. We show that our PGformer consistently outperforms the state-of-the-art methods in both short- and long-term predictions by a large margin. Besides, our approach can also be compatible with the weakly interacted CMU-Mocap and MuPoTS-3D datasets and achieve encouraging results. Our code will become publicly available upon acceptance.
翻訳日:2023-06-07 17:32:48 公開日:2023-06-06
# cit-net:医療画像セグメンテーションのための視覚トランスフォーマーを用いた畳み込みニューラルネットワーク

CiT-Net: Convolutional Neural Networks Hand in Hand with Vision Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2306.03373v1 )

ライセンス: Link先を確認
Tao Lei, Rui Sun, Xuan Wang, Yingbo Wang, Xi He, Asoke Nandi(参考訳) 畳み込みニューラルネットワーク(CNN)とTransformerのハイブリッドアーキテクチャは、医療画像セグメンテーションで非常に人気がある。 しかし、それは2つの課題に苦しむ。 まず、cnnsブランチはバニラ畳み込みを使って局所的な画像特徴をキャプチャできるが、適応的特徴学習は実現できない。 第二に、Transformerブランチはグローバルな特徴をキャプチャできるが、チャネルとクロス次元の自己アテンションを無視し、複雑なコンテンツ画像のセグメンテーション精度を低くする。 そこで本研究では, 医用画像分割のための視覚トランスフォーマー(cit-net)を用いた畳み込みニューラルネットワークのハイブリッドアーキテクチャを提案する。 我々のネットワークには2つの利点がある。 まず、動的変形可能な畳み込みを設計、cnnsブランチに適用し、固定サイズの畳み込みカーネルによる弱い特徴抽出能力を克服し、異なる入力間でカーネルパラメータを共有する強固な設計を行う。 第2に,シフトウインド適応補完アテンションモジュールとコンパクト畳み込みプロジェクションを設計した。 これらをトランスフォーマーブランチに適用し,医療画像の長期的依存性を学習する。 実験の結果,一般的なSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。 さらに、cit-netはパラメータを小さくし、計算コストを削減し、事前トレーニングに依存しません。 コードはhttps://github.com/SR0920/CiT-Netで公開されている。

The hybrid architecture of convolutional neural networks (CNNs) and Transformer are very popular for medical image segmentation. However, it suffers from two challenges. First, although a CNNs branch can capture the local image features using vanilla convolution, it cannot achieve adaptive feature learning. Second, although a Transformer branch can capture the global features, it ignores the channel and cross-dimensional self-attention, resulting in a low segmentation accuracy on complex-content images. To address these challenges, we propose a novel hybrid architecture of convolutional neural networks hand in hand with vision Transformers (CiT-Net) for medical image segmentation. Our network has two advantages. First, we design a dynamic deformable convolution and apply it to the CNNs branch, which overcomes the weak feature extraction ability due to fixed-size convolution kernels and the stiff design of sharing kernel parameters among different inputs. Second, we design a shifted-window adaptive complementary attention module and a compact convolutional projection. We apply them to the Transformer branch to learn the cross-dimensional long-term dependency for medical images. Experimental results show that our CiT-Net provides better medical image segmentation results than popular SOTA methods. Besides, our CiT-Net requires lower parameters and less computational costs and does not rely on pre-training. The code is publicly available at https://github.com/SR0920/CiT-Net.
翻訳日:2023-06-07 17:32:25 公開日:2023-06-06
# オンラインテンソル学習:計算と統計のトレードオフ、適応性と最適後悔

Online Tensor Learning: Computational and Statistical Trade-offs, Adaptivity and Optimal Regret ( http://arxiv.org/abs/2306.03372v1 )

ライセンス: Link先を確認
Jian-Feng Cai, Jingyang Li and Dong Xia(参考訳) オンライン環境での潜在低ランクテンソル推定のための一般化フレームワークについて検討し,線形モデルと一般化線形モデルの両方を包含する。 このフレームワークは、連続変数や分類変数を扱うための柔軟なアプローチを提供する。 さらに、オンラインテンソル補完とオンラインバイナリテンソル学習の2つの応用について検討する。 これらの課題に対処するために、線形収束と低ランク成分を全てのアプリケーションで適切な条件下で回復する能力を示すオンラインリーマン勾配降下アルゴリズムを提案する。 さらに,オンラインテンソル完備化のための正確なエントリワイド誤差を確立する。 特に、我々の研究は、オンライン低ランクテンソルリカバリタスクにノイズを組み込む最初の試みである。 興味深いことに、ノイズの存在における計算的側面と統計的側面の間の驚くべきトレードオフを観察する。 ステップサイズの増加は収束を加速するが、より小さなステップサイズでは収束が遅くなり、統計的に最適な推定器となる。 さらに,オンラインテンソル回帰に対する後悔分析を行った。 固定ステップサイズでは,収束率,統計誤差率,後悔に関する興味深いトリレンマが観察された。 ステップサイズを最適に選択することで、$O(\sqrt{T})$を最適に後悔する。 さらに、この解析を水平線Tが未知な適応的な設定にまで拡張する。 この場合、異なるステップサイズを使用することで、統計的に最適のエラー率を達成でき、後悔は$o(\log t)$であることが示される。 理論的な主張を検証するために、我々の発見を裏付ける数値結果を提供し、我々の主張を支持する。

We investigate a generalized framework for estimating latent low-rank tensors in an online setting, encompassing both linear and generalized linear models. This framework offers a flexible approach for handling continuous or categorical variables. Additionally, we investigate two specific applications: online tensor completion and online binary tensor learning. To address these challenges, we propose the online Riemannian gradient descent algorithm, which demonstrates linear convergence and the ability to recover the low-rank component under appropriate conditions in all applications. Furthermore, we establish a precise entry-wise error bound for online tensor completion. Notably, our work represents the first attempt to incorporate noise in the online low-rank tensor recovery task. Intriguingly, we observe a surprising trade-off between computational and statistical aspects in the presence of noise. Increasing the step size accelerates convergence but leads to higher statistical error, whereas a smaller step size yields a statistically optimal estimator at the expense of slower convergence. Moreover, we conduct regret analysis for online tensor regression. Under the fixed step size regime, a fascinating trilemma concerning the convergence rate, statistical error rate, and regret is observed. With an optimal choice of step size we achieve an optimal regret of $O(\sqrt{T})$. Furthermore, we extend our analysis to the adaptive setting where the horizon T is unknown. In this case, we demonstrate that by employing different step sizes, we can attain a statistically optimal error rate along with a regret of $O(\log T)$. To validate our theoretical claims, we provide numerical results that corroborate our findings and support our assertions.
翻訳日:2023-06-07 17:31:59 公開日:2023-06-06
# 自己スーパービジョンによるマルチステップとワンショット軌道予測のギャップを埋める

Bridging the Gap Between Multi-Step and One-Shot Trajectory Prediction via Self-Supervision ( http://arxiv.org/abs/2306.03367v1 )

ライセンス: Link先を確認
Faris Janjo\v{s}, Max Keller, Maxim Dolgov, J. Marius Z\"ollner(参考訳) 正確な車両軌道予測は、様々な研究課題を伴う自動運転における未解決問題である。 State-of-the-art approach regress trajectoriesをワンショットまたはステップワイズにアプローチする。 ワンショットアプローチは通常、単純さのために好まれるが、複数の時間ステップをチェーンすることで構築できる強力な自己超越スキームを放棄する。 この問題に対処するために、複数の軌道セグメントが連鎖した中間層を提案する。 提案するマルチブランチ自己監視予測器は,中間セグメントから始まる新しい予測のトレーニングを受ける。 さらに、モデルが潜在文脈を「想像」し、「過去を予測」し、木のような方法でマルチモーダル軌道を結合する。 インタラクションや環境モデリングといった側面を意図的に保持すると同時に,インタラクションデータセット上での競合的な結果も達成します。 さらに,決定論的予測器の不確実性評価について検討した。 予測誤差と2つの提案指標との間には正の相関関係がみられ,予測信頼度を決定する方法が考えられる。

Accurate vehicle trajectory prediction is an unsolved problem in autonomous driving with various open research questions. State-of-the-art approaches regress trajectories either in a one-shot or step-wise manner. Although one-shot approaches are usually preferred for their simplicity, they relinquish powerful self-supervision schemes that can be constructed by chaining multiple time-steps. We address this issue by proposing a middle-ground where multiple trajectory segments are chained together. Our proposed Multi-Branch Self-Supervised Predictor receives additional training on new predictions starting at intermediate future segments. In addition, the model 'imagines' the latent context and 'predicts the past' while combining multi-modal trajectories in a tree-like manner. We deliberately keep aspects such as interaction and environment modeling simplistic and nevertheless achieve competitive results on the INTERACTION dataset. Furthermore, we investigate the sparsely explored uncertainty estimation of deterministic predictors. We find positive correlations between the prediction error and two proposed metrics, which might pave way for determining prediction confidence.
翻訳日:2023-06-07 17:31:35 公開日:2023-06-06
# 単位球面上の学習表現:オンライン連続学習への応用

Learning Representations on the Unit Sphere: Application to Online Continual Learning ( http://arxiv.org/abs/2306.03364v1 )

ライセンス: Link先を確認
Nicolas Michel, Giovanni Chierchia, Romain Negrel, Jean-Fran\c{c}ois Bercher(参考訳) 単位球上に分布する表現の学習には,最大アフター推定原理を用いる。 我々は、対称方向データモデリング用に設計されたフォン・ミセス・フィッシャー分布と角ガウス分布の損失関数を導出する。 我々のアプローチの注目すべき特徴は、学習した表現が一定の方向にプッシュされ、データドリフトに弾力性のある学習戦略が可能になることです。 これにより、連続したデータストリーム上でニューラルネットワークをトレーニングする問題であるオンライン連続学習に適合する。複数の分類タスクが順次提示され、過去のタスクからのデータがアクセス不能になり、現在のタスクからのデータは1回だけ見ることができる。 この課題に対処するために,新たな損失関数を備えたメモリベース表現学習手法を提案する。 提案手法では,タスク境界に関する負のデータや知識は必要とせず,計算効率が向上し,バッチサイズも小さくなった。 提案手法は,標準的な評価シナリオと,ぼやけたタスク境界を持つ現実シナリオの両方において,現在の最先端手法よりも優れていることを示す。 再現性のために、比較対象のメソッド毎に同じトレーニングパイプラインを使用し、コードをhttps://t.ly/SQTj.orgで共有します。

We use the maximum a posteriori estimation principle for learning representations distributed on the unit sphere. We derive loss functions for the von Mises-Fisher distribution and the angular Gaussian distribution, both designed for modeling symmetric directional data. A noteworthy feature of our approach is that the learned representations are pushed toward fixed directions, allowing for a learning strategy that is resilient to data drift. This makes it suitable for online continual learning, which is the problem of training neural networks on a continuous data stream, where multiple classification tasks are presented sequentially so that data from past tasks are no longer accessible, and data from the current task can be seen only once. To address this challenging scenario, we propose a memory-based representation learning technique equipped with our new loss functions. Our approach does not require negative data or knowledge of task boundaries and performs well with smaller batch sizes while being computationally efficient. We demonstrate with extensive experiments that the proposed method outperforms the current state-of-the-art methods on both standard evaluation scenarios and realistic scenarios with blurry task boundaries. For reproducibility, we use the same training pipeline for every compared method and share the code at https://t.ly/SQTj.
翻訳日:2023-06-07 17:31:19 公開日:2023-06-06
# Action Preference Queryによるオフライン強化学習の促進

Boosting Offline Reinforcement Learning with Action Preference Query ( http://arxiv.org/abs/2306.03362v1 )

ライセンス: Link先を確認
Qisen Yang, Shenzhi Wang, Matthieu Gaetan Lin, Shiji Song, Gao Huang(参考訳) 実践的エージェントの訓練は通常、政策のパフォーマンスと相互作用コストのバランスをとるために、オフラインおよびオンライン強化学習(RL)を含む。 特に、オンラインの微調整は、オフライントレーニングフェーズで学んだ分散データの誤った推定を補正するための一般的な方法となっている。 しかし、医療や自動運転といった高度なシナリオでは、限られたオンラインインタラクションでさえアクセス不能あるいは破滅的になる可能性がある。 本稿では,オフライン・アズ・アクション・プリファレンス(oap)と呼ばれるインタラクションフリーな学習方式を提案する。 主な洞察は、オンラインの微調整と比較して、事前収集されたアクションと学習されたアクションの間の好みをクエリすることは、誤った見積もり問題に等しく、あるいはさらに役立つ可能性があることである。 行動選好に応じて政策制約を適応的に奨励または抑制することにより、OAPは有益な政策改善と過大評価を区別し、不適切なデータのより正確な評価を得ることができる。 理論的には、OAPによる行動ポリシーの性能改善の限界を低くする。 さらに、D4RLベンチマークと最先端アルゴリズムに関する包括的な実験により、OAPは、特に挑戦的AntMazeタスク(98%以上)において、平均で29%高いスコアを得ることが示された。

Training practical agents usually involve offline and online reinforcement learning (RL) to balance the policy's performance and interaction costs. In particular, online fine-tuning has become a commonly used method to correct the erroneous estimates of out-of-distribution data learned in the offline training phase. However, even limited online interactions can be inaccessible or catastrophic for high-stake scenarios like healthcare and autonomous driving. In this work, we introduce an interaction-free training scheme dubbed Offline-with-Action-Preferences (OAP). The main insight is that, compared to online fine-tuning, querying the preferences between pre-collected and learned actions can be equally or even more helpful to the erroneous estimate problem. By adaptively encouraging or suppressing policy constraint according to action preferences, OAP could distinguish overestimation from beneficial policy improvement and thus attains a more accurate evaluation of unseen data. Theoretically, we prove a lower bound of the behavior policy's performance improvement brought by OAP. Moreover, comprehensive experiments on the D4RL benchmark and state-of-the-art algorithms demonstrate that OAP yields higher (29% on average) scores, especially on challenging AntMaze tasks (98% higher).
翻訳日:2023-06-07 17:30:58 公開日:2023-06-06
# スライドレベルラベルを用いた臨床応用細胞学的全スライド画像スクリーニング

Clinical-Inspired Cytological Whole Slide Image Screening with Just Slide-Level Labels ( http://arxiv.org/abs/2306.03407v1 )

ライセンス: Link先を確認
Beidi Zhao, Wenlong Deng, Zi Han (Henry) Li, Chen Zhou, Zuhua Gao, Gang Wang and Xiaoxiao Li(参考訳) 細胞診検査は有効で、非侵襲的で、便利で、がん検診に安価である。 一般的に使用される液体ベースの標本であるthinprepをスキャンして、細胞診検査用のデジタル全スライド画像(wsis)を生成することができる。 しかし、ギガピクセルの解像度を持つwsis分類は非常にリソース集約的であり、自動医療画像解析には大きな課題がある。 この計算ミスを回避するために、既存の手法では、セルやパッチレベルでの学習機能を強調し、通常、セルやパッチレベルでのラベルのような、労働集約的で詳細な手作業によるアノテーションを必要とする。 本稿では,slideレベルラベルのみを用いた細胞診に基づく診断のための,新しい自動ラベル効率wsiスクリーニング法であるlessを提案する。 まず,ラベル効率を達成するために,変分正無ラベル(vpu)学習を用い,wsiレベルラベルを用いたパッチレベル特徴学習の強化を提案する。 その後,様々な視野とスケールでwsisを検査する臨床アプローチを指導し,クロス・アテンション・ビジョン・トランスフォーマ(crossvit)を用いて,マルチスケールのパッチレベルデータを融合し,wsiレベルの分類を行う。 提案手法は,130サンプル(13,000パッチ)と212サンプル(21,200パッチ)のFNAC 2019データセットを含む尿細胞診WSIデータセットに対して検証した。 実験の結果、提案されたLESSは尿細胞診WSIデータセットで84.79%、85.43%、91.79%、78.30%、FNAC 2019データセットで96.53%、96.37%、99.31%、94.95%に達した。 最先端の方法よりも優れており、膀胱がんの自動スクリーニングを実現する。

Cytology test is effective, non-invasive, convenient, and inexpensive for clinical cancer screening. ThinPrep, a commonly used liquid-based specimen, can be scanned to generate digital whole slide images (WSIs) for cytology testing. However, WSIs classification with gigapixel resolutions is highly resource-intensive, posing significant challenges for automated medical image analysis. In order to circumvent this computational impasse, existing methods emphasize learning features at the cell or patch level, typically requiring labor-intensive and detailed manual annotations, such as labels at the cell or patch level. Here we propose a novel automated Label-Efficient WSI Screening method, dubbed LESS, for cytology-based diagnosis with only slide-level labels. Firstly, in order to achieve label efficiency, we suggest employing variational positive-unlabeled (VPU) learning, enhancing patch-level feature learning using WSI-level labels. Subsequently, guided by the clinical approach of scrutinizing WSIs at varying fields of view and scales, we employ a cross-attention vision transformer (CrossViT) to fuse multi-scale patch-level data and execute WSI-level classification. We validate the proposed label-efficient method on a urine cytology WSI dataset encompassing 130 samples (13,000 patches) and FNAC 2019 dataset with 212 samples (21,200 patches). The experiment shows that the proposed LESS reaches 84.79%, 85.43%, 91.79% and 78.30% on a urine cytology WSI dataset, and 96.53%, 96.37%, 99.31%, 94.95% on FNAC 2019 dataset in terms of accuracy, AUC, sensitivity and specificity. It outperforms state-of-the-art methods and realizes automatic cytology-based bladder cancer screening.
翻訳日:2023-06-07 17:24:00 公開日:2023-06-06
# 多様体学習の観点からみたディープニューラルネットワークアーキテクチャ

Deep neural networks architectures from the perspective of manifold learning ( http://arxiv.org/abs/2306.03406v1 )

ライセンス: Link先を確認
German Magai(参考訳) 様々な分野へのap-plicationsにおけるディープラーニングの分野における大きな進歩にもかかわらず、ニューラルネットワークモデルの学習前領域の説明は、依然として重要なオープンキューメントである。 本稿では,ge-ometryとトポロジーの観点から,ニューラルネットワークアーキテクチャの包括的比較と記述を行う。 我々は、ニューラルネットワークの内部表現と、異なる層上のデータ多様体のトポロジーと幾何学の変化のダイナミクスに焦点を当てる。 本稿では,位相データ解析 (tda) と持続的ホモロジーフラクタル次元 (persistent homological fractal dimension) の概念を用いる。 CVおよびNLPタスクにおける畳み込みニューラルネットワーク(CNN)アーキテクチャとトランスフォーマーのさまざまなデータセットと構成を用いて、幅広い実験を行う。 私たちの研究は、幾何学的深層学習の枠組みにおいて、説明可能かつ解釈可能なaiの重要な分野の開発に寄与しています。

Despite significant advances in the field of deep learning in ap-plications to various areas, an explanation of the learning pro-cess of neural network models remains an important open ques-tion. The purpose of this paper is a comprehensive comparison and description of neural network architectures in terms of ge-ometry and topology. We focus on the internal representation of neural networks and on the dynamics of changes in the topology and geometry of a data manifold on different layers. In this paper, we use the concepts of topological data analysis (TDA) and persistent homological fractal dimension. We present a wide range of experiments with various datasets and configurations of convolutional neural network (CNNs) architectures and Transformers in CV and NLP tasks. Our work is a contribution to the development of the important field of explainable and interpretable AI within the framework of geometrical deep learning.
翻訳日:2023-06-07 17:23:23 公開日:2023-06-06
# ガウス過程を用いた自律走行車のダイナミクスモデリング

Vehicle Dynamics Modeling for Autonomous Racing Using Gaussian Processes ( http://arxiv.org/abs/2306.03405v1 )

ライセンス: Link先を確認
Jingyun Ning and Madhur Behl(参考訳) 自動運転レースは、現在の能力の限界において、自動運転車技術の実証地になりつつある。 最も有名な例としては、f110レースシリーズ、フォーミュラ・学生ドライバーレス(fsd)、ロボレース、インディ自動運転チャレンジ(iac)などがある。 特に高速自動レースでは、正確なレースカーの動力学の知識が必要とされる。 車両力学モデルの選択は、より複雑なモデルの精度を改善するのとは対照的に、増大する計算要求のバランスをとることで行う必要がある。 近年,車両力学モデルを近似するためのガウス過程(GP)回帰などの学習に基づく手法が研究されている。 しかしながら、これらの取り組みは、運動計画や予測制御のような高次構造に重点を置いており、GPモデリングプロセスのリアリズムと厳密さが欠如している。 本稿では,自動走行における車両動力学の近似におけるGPモデルの適用性について,最も詳細な解析を行った。 特に、人気のあるF1TENTHレーシングプラットフォームのための動的および拡張キネマティックモデルを構築する。 本研究では,カーネル選択,サンプルサイズ,レーストラックレイアウト,レースライン,速度分布が学習力学の有効性と一般化性に及ぼす影響について検討する。 実f1トラックレイアウト上で400以上のシミュレーションを行い,レースカーの単トラック車両ダイナミクスの正確なgp回帰を訓練するための研究コミュニティへの総合的な推奨を行った。

Autonomous racing is increasingly becoming a proving ground for autonomous vehicle technology at the limits of its current capabilities. The most prominent examples include the F1Tenth racing series, Formula Student Driverless (FSD), Roborace, and the Indy Autonomous Challenge (IAC). Especially necessary, in high speed autonomous racing, is the knowledge of accurate racecar vehicle dynamics. The choice of the vehicle dynamics model has to be made by balancing the increasing computational demands in contrast to improved accuracy of more complex models. Recent studies have explored learning-based methods, such as Gaussian Process (GP) regression for approximating the vehicle dynamics model. However, these efforts focus on higher level constructs such as motion planning, or predictive control and lack both in realism and rigor of the GP modeling process, which is often over-simplified. This paper presents the most detailed analysis of the applicability of GP models for approximating vehicle dynamics for autonomous racing. In particular we construct dynamic, and extended kinematic models for the popular F1TENTH racing platform. We investigate the effect of kernel choices, sample sizes, racetrack layout, racing lines, and velocity profiles on the efficacy and generalizability of the learned dynamics. We conduct 400+ simulations on real F1 track layouts to provide comprehensive recommendations to the research community for training accurate GP regression for single-track vehicle dynamics of a racecar.
翻訳日:2023-06-07 17:23:11 公開日:2023-06-06
# SGAT4PASS: Panoramic Semantic Segmentationのための球形状認識変換器

SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation ( http://arxiv.org/abs/2306.03403v1 )

ライセンス: Link先を確認
Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li(参考訳) PAnoramic Semantic Segmentation (PASS)は、コンピュータビジョンにおける重要かつ困難な問題として、超広視野の視点に基づく完全なシーン認識を提供する。 通常、2次元パノラマ画像入力を持つPASS法は、画像歪みを解くことに重点を置いているが、元の360^{\circ}$データの3D特性を考慮していない。 したがって、パノラマ画像の3Dインプットでは、パフォーマンスが大幅に低下する。 本研究では,3次元球面形状の知識を考慮したPanoramic Semantic Segmentation (SGAT4PASS) のための球面形状認識変換器を提案する。 具体的には,PASSに対して球面形状認識フレームワークを提案する。 球形形状対応画像投影、球状変形可能なパッチ埋め込み、パノラマ認識損失という3つのモジュールを含み、3次元乱れを考慮した入力イメージを考慮に入れ、既存の変形可能なパッチ埋め込みに球形幾何学対応の制約を加え、それぞれ360円円のデータのピクセル密度を示す。 スタンフォード2D3Dパノラマデータセットの実験結果から,SGAT4PASSはmIoUの約2%増加とともに性能とロバスト性を大幅に向上し,データに小さな3D障害が発生した場合,その安定性は桁違いに向上することが示された。 コードと補足資料はhttps://github.com/TencentARC/SGAT4PASS.comで公開されています。

As an important and challenging problem in computer vision, PAnoramic Semantic Segmentation (PASS) gives complete scene perception based on an ultra-wide angle of view. Usually, prevalent PASS methods with 2D panoramic image input focus on solving image distortions but lack consideration of the 3D properties of original $360^{\circ}$ data. Therefore, their performance will drop a lot when inputting panoramic images with the 3D disturbance. To be more robust to 3D disturbance, we propose our Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation (SGAT4PASS), considering 3D spherical geometry knowledge. Specifically, a spherical geometry-aware framework is proposed for PASS. It includes three modules, i.e., spherical geometry-aware image projection, spherical deformable patch embedding, and a panorama-aware loss, which takes input images with 3D disturbance into account, adds a spherical geometry-aware constraint on the existing deformable patch embedding, and indicates the pixel density of original $360^{\circ}$ data, respectively. Experimental results on Stanford2D3D Panoramic datasets show that SGAT4PASS significantly improves performance and robustness, with approximately a 2% increase in mIoU, and when small 3D disturbances occur in the data, the stability of our performance is improved by an order of magnitude. Our code and supplementary material are available at https://github.com/TencentARC/SGAT4PASS.
翻訳日:2023-06-07 17:22:49 公開日:2023-06-06
# サンプルとラベル依存ラベルノイズを用いたバイナリ分類

Binary Classification with Instance and Label Dependent Label Noise ( http://arxiv.org/abs/2306.03402v1 )

ライセンス: Link先を確認
Hyungki Im and Paul Grigas(参考訳) ラベル依存ラベルノイズを用いた学習は理論と実践の両方で広く研究されてきたが、例(特徴)とラベル依存ラベルノイズを扱うことは依然として困難な課題である。 難易度は、各インスタンスのノイズレートが変化するため、正確な推定が困難であるという事実から生じる。 ノイズサンプルのみを使用して信頼できるモデルを学ぶことができるかどうかという問題は未解決のままである。 我々は、上と下の境界が一致する理論解析でこの質問に答える。 驚くべきことに、我々の結果は、追加の仮定なしに、経験的リスク最小化が最適な過剰なリスクバウンドを達成することを示している。 具体的には,クリーンサンプルとノイズサンプルから得られた経験的リスク最小値を比較することで,ノイズレベルに比例する新たな過大リスクを導出する。 第2に,0-1損失に対するミニマックス下限は,平均雑音率に比例して一定であることを示す。 以上の結果から,ノイズサンプルのみを用いた学習は,クリーンサンプルやデータの分布に関する強い仮定がなければ不可能であることが示唆された。

Learning with label dependent label noise has been extensively explored in both theory and practice; however, dealing with instance (i.e., feature) and label dependent label noise continues to be a challenging task. The difficulty arises from the fact that the noise rate varies for each instance, making it challenging to estimate accurately. The question of whether it is possible to learn a reliable model using only noisy samples remains unresolved. We answer this question with a theoretical analysis that provides matching upper and lower bounds. Surprisingly, our results show that, without any additional assumptions, empirical risk minimization achieves the optimal excess risk bound. Specifically, we derive a novel excess risk bound proportional to the noise level, which holds in very general settings, by comparing the empirical risk minimizers obtained from clean samples and noisy samples. Second, we show that the minimax lower bound for the 0-1 loss is a constant proportional to the average noise rate. Our findings suggest that learning solely with noisy samples is impossible without access to clean samples or strong assumptions on the distribution of the data.
翻訳日:2023-06-07 17:22:20 公開日:2023-06-06
# 連帯平均化における未知の参加確率に取り組む軽量手法

A Lightweight Method for Tackling Unknown Participation Probabilities in Federated Averaging ( http://arxiv.org/abs/2306.03401v1 )

ライセンス: Link先を確認
Shiqiang Wang, Mingyue Ji(参考訳) フェデレートラーニング(FL)では、クライアントは通常、事前知識のない多様な参加確率を持ち、適切に扱わなければFLのパフォーマンスを著しく損なう可能性がある。 この問題に対処する既存の作業は通常、クライアントの総数に匹敵する乗算係数において、かなりの量の追加メモリを必要とするグローバルな分散削減に基づいている。 重要なオープンな問題は、未参加率のクライアントの存在下でFLの軽量な方法を見つけることである。 本稿では、各クライアントの参加履歴に基づいて、フェデレーション平均化(FedAvg)における集約重みを適応させることにより、この問題に対処する。 まず,不均質な参加確率により,非最適凝集重み付きフェダブグが元のfl目標の最適解から逸脱し,最適凝集重みを求める必要性が示された。 しかし,参加確率が不明な場合,最適重量を計算することは困難である。 そこで本研究では,最適重みのオンライン推定に基づいてクライアント更新を適応的に重み付けすることにより,クライアント参加の確率を知らずにfedabgを改善するfedaという新しいアルゴリズムを提案する。 推定誤差と収束率を結合する新しい手法を用いてFedAUの理論的収束解析を行う。 理論的な結果は,FedAUが元の目的の最適解に収束し,線形スピードアップなどの望ましい性質を持つことを示す一方で,重要かつ興味深い知見を提示する。 また,ベースライン法よりもFedAUの利点を検証した。

In federated learning (FL), clients usually have diverse participation probabilities that are unknown a priori, which can significantly harm the performance of FL if not handled properly. Existing works aiming at addressing this problem are usually based on global variance reduction, which requires a substantial amount of additional memory in a multiplicative factor equal to the total number of clients. An important open problem is to find a lightweight method for FL in the presence of clients with unknown participation rates. In this paper, we address this problem by adapting the aggregation weights in federated averaging (FedAvg) based on the participation history of each client. We first show that, with heterogeneous participation probabilities, FedAvg with non-optimal aggregation weights can diverge from the optimal solution of the original FL objective, indicating the need of finding optimal aggregation weights. However, it is difficult to compute the optimal weights when the participation probabilities are unknown. To address this problem, we present a new algorithm called FedAU, which improves FedAvg by adaptively weighting the client updates based on online estimates of the optimal weights without knowing the probabilities of client participation. We provide a theoretical convergence analysis of FedAU using a novel methodology to connect the estimation error and convergence. Our theoretical results reveal important and interesting insights, while showing that FedAU converges to an optimal solution of the original objective and has desirable properties such as linear speedup. Our experimental results also verify the advantage of FedAU over baseline methods.
翻訳日:2023-06-07 17:22:01 公開日:2023-06-06
# G-CAME:オブジェクト検出器用ガウス級アクティブマッピング説明器

G-CAME: Gaussian-Class Activation Mapping Explainer for Object Detectors ( http://arxiv.org/abs/2306.03400v1 )

ライセンス: Link先を確認
Quoc Khanh Nguyen, Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Van Binh Truong, Quoc Hung Cao(参考訳) 近年,画像中の物体検出のための深層ニューラルネットワークが普及している。 しかし、これらのネットワークの複雑さのため、なぜこれらのオブジェクトがモデルによって検出されるのかを理解するのは難しい。 本稿では,オブジェクト検出モデルの説明としてサリエンシマップを生成するG-CAME(Gaussian Class Activation Mapping Explainer)を提案する。 G-CAMEは、選択したレイヤの活性化マップとガウスカーネルを組み合わせることで、予測ボックスのイメージ内の重要な領域をハイライトするCAMベースの方法と考えることができる。 他の領域ベースの方法と比較して、g-cameはオブジェクトを説明するのに非常に時間がかかるため、時間の制約を超越することができる。 また,MS-COCO 2017データセット上でYOLOXを定性的かつ定量的に評価し,G-CAMEを2段階のFaster-RCNNモデルに適用するように誘導した。

Nowadays, deep neural networks for object detection in images are very prevalent. However, due to the complexity of these networks, users find it hard to understand why these objects are detected by models. We proposed Gaussian Class Activation Mapping Explainer (G-CAME), which generates a saliency map as the explanation for object detection models. G-CAME can be considered a CAM-based method that uses the activation maps of selected layers combined with the Gaussian kernel to highlight the important regions in the image for the predicted box. Compared with other Region-based methods, G-CAME can transcend time constraints as it takes a very short time to explain an object. We also evaluated our method qualitatively and quantitatively with YOLOX on the MS-COCO 2017 dataset and guided to apply G-CAME into the two-stage Faster-RCNN model.
翻訳日:2023-06-07 17:21:31 公開日:2023-06-06
# エントロピー最適輸送のための最小固有次元スケーリング

Minimum intrinsic dimension scaling for entropic optimal transport ( http://arxiv.org/abs/2306.03398v1 )

ライセンス: Link先を確認
Austin J. Stromme(参考訳) 高い外生次元のデータがまだ低い内生次元を持つ可能性があるという多様体仮説に動機づけられた我々は、データの内生次元に敏感なエントロピー最適輸送のための洗練された統計境界を開発する。 我々の境界には本質次元の頑健な概念が含まれており、正規化パラメータに依存する単距離スケールで測定され、収束率を規定するこれらの単スケール本質次元の最小値であることを示している。 これを最小内在次元スケーリング(mid scaling)現象と呼び、コストが有界かつリプシッツである限り、データ分布を仮定せずにミッドスケーリングを確立する。 本研究は,中間スケーリングが一般的な現象であることを示し,遠距離尺度としてエントロピー正則化の統計的効果を初めて厳密に解釈することで,芸術の理論的状態を著しく前進させた。

Motivated by the manifold hypothesis, which states that data with a high extrinsic dimension may yet have a low intrinsic dimension, we develop refined statistical bounds for entropic optimal transport that are sensitive to the intrinsic dimension of the data. Our bounds involve a robust notion of intrinsic dimension, measured at only a single distance scale depending on the regularization parameter, and show that it is only the minimum of these single-scale intrinsic dimensions which governs the rate of convergence. We call this the Minimum Intrinsic Dimension scaling (MID scaling) phenomenon, and establish MID scaling with no assumptions on the data distributions so long as the cost is bounded and Lipschitz, and for various entropic optimal transport quantities beyond just values, with stronger analogs when one distribution is supported on a manifold. Our results significantly advance the theoretical state of the art by showing that MID scaling is a generic phenomenon, and provide the first rigorous interpretation of the statistical effect of entropic regularization as a distance scale.
翻訳日:2023-06-07 17:21:14 公開日:2023-06-06
# 重力誘導GANによる原位置ネットワーク生成

Origin-Destination Network Generation via Gravity-Guided GAN ( http://arxiv.org/abs/2306.03390v1 )

ライセンス: Link先を確認
Can Rong, Huandong Wang, Yong Li(参考訳) 方向や容積を含む貴重な人口移動情報を含むOrigin-Detination (OD) フローは、都市計画や交通管理など、多くの都市用途において重要である。 しかし、ODデータは高コストやプライバシー上の懸念からアクセスしやすいとは限らない。 したがって,数理モデルによるODの生成を検討する必要がある。 既存の研究では、物理法則や機械学習(ml)モデルを用いて都市構造とodフローの関係を構築するが、これら2つの手法はそれぞれ単純化の限界と一般化能力の低さに苦しめられている。 本稿では,物理知識とデータ駆動型ML手法を組み合わせた物理インフォームMLパラダイムを採用し,物理とML手法を組み合わせた補完的強みを活用して,人口移動性モデリングを改善するために,Origin-Destination Generation Networks (ODGN) というモデルを構築することを提案する。 具体的には、まず、各地域の都市の特徴を捉えるための多視点グラフ注意ネットワーク(MGAT)を構築し、次に重力誘導予測器を用いて、2つの地域間のODフローを得る。 さらに,条件付きgan学習戦略を用いてシーケンスベース判別器を設計し,odの位相的特徴をネットワークとして考慮する。 提案手法がベースラインよりも優れていることを示すために,実世界のデータセットに関する広範な実験を行った。

Origin-destination (OD) flow, which contains valuable population mobility information including direction and volume, is critical in many urban applications, such as urban planning, transportation management, etc. However, OD data is not always easy to access due to high costs or privacy concerns. Therefore, we must consider generating OD through mathematical models. Existing works utilize physics laws or machine learning (ML) models to build the association between urban structures and OD flows while these two kinds of methods suffer from the limitation of over-simplicity and poor generalization ability, respectively. In this paper, we propose to adopt physics-informed ML paradigm, which couple the physics scientific knowledge and data-driven ML methods, to construct a model named Origin-Destination Generation Networks (ODGN) for better population mobility modeling by leveraging the complementary strengths of combining physics and ML methods. Specifically, we first build a Multi-view Graph Attention Networks (MGAT) to capture the urban features of every region and then use a gravity-guided predictor to obtain OD flow between every two regions. Furthermore, we use a conditional GAN training strategy and design a sequence-based discriminator to consider the overall topological features of OD as a network. Extensive experiments on real-world datasets have been done to demonstrate the superiority of our proposed method compared with baselines.
翻訳日:2023-06-07 17:20:55 公開日:2023-06-06
# ColdNAS: ユーザのコールドスタートレコメンデーションを変調する検索

ColdNAS: Search to Modulate for User Cold-Start Recommendation ( http://arxiv.org/abs/2306.03387v1 )

ライセンス: Link先を確認
Shiguang Wu, Yaqing Wang, Qinghe Jing, Daxiang Dong, Dejing Dou, Quanming Yao(参考訳) 少数のインタラクション履歴しか持たないコールドスタートユーザーにパーソナライズドレコメンデーションを作ることは、レコメンデーションシステムでは難しい問題である。 最近の研究はハイパーネットを利用してユーザインタラクション履歴を直接ユーザ固有のパラメータにマッピングし、特徴量線形変調関数によって予測を変調する。 これらの作品は最先端のパフォーマンスを得る。 しかし、レコメンデーションデータのスケーリングとシフトの物理的意味は明らかではない。 固定変調関数を用いて、専門知識で変調位置を決定する代わりに、ユーザコールドスタート問題に対して、ColdNASと呼ばれる変調フレームワークを提案し、ニューラルネットワークを用いて関数や位置を含む適切な変調構造を求める。 我々は広いモデルをカバーする探索空間を設計し、この探索空間がより小さな空間に変換可能であることを理論的に証明し、効率的で堅牢なワンショット探索アルゴリズムを実現する。 ベンチマークデータセットの大規模な実験結果から、ColdNASは一貫して最高のパフォーマンスを示している。 異なる変調関数は、異なるデータセット上で最高の性能をもたらし、探索に基づく手法を設計する必要性を検証している。

Making personalized recommendation for cold-start users, who only have a few interaction histories, is a challenging problem in recommendation systems. Recent works leverage hypernetworks to directly map user interaction histories to user-specific parameters, which are then used to modulate predictor by feature-wise linear modulation function. These works obtain the state-of-the-art performance. However, the physical meaning of scaling and shifting in recommendation data is unclear. Instead of using a fixed modulation function and deciding modulation position by expertise, we propose a modulation framework called ColdNAS for user cold-start problem, where we look for proper modulation structure, including function and position, via neural architecture search. We design a search space which covers broad models and theoretically prove that this search space can be transformed to a much smaller space, enabling an efficient and robust one-shot search algorithm. Extensive experimental results on benchmark datasets show that ColdNAS consistently performs the best. We observe that different modulation functions lead to the best performance on different datasets, which validates the necessity of designing a searching-based method.
翻訳日:2023-06-07 17:20:30 公開日:2023-06-06
# 共同視覚言語トークン化学習の多様化

Diversifying Joint Vision-Language Tokenization Learning ( http://arxiv.org/abs/2306.03421v1 )

ライセンス: Link先を確認
Vardaan Pahuja, AJ Piergiovanni, Anelia Angelova(参考訳) 画像とテキストをつなぐ共同表現の構築は、視覚的質問応答やビデオ質問応答といったタスクにとって必須のステップである。 この研究において、表現は両方のモダリティから特徴を共同にキャプチャするだけでなく、より優れた一般化性能を得るためにも多様である必要がある。 そこで本研究では,トークン化学習プロセスを多様化し,相互に疎結合なトークンを両様相から学習可能にすることにより,視覚言語表現学習を両立させる。 提案手法は,ほとんどの設定においてベースラインモデルよりも優れており,最先端の手法と競合する。

Building joint representations across images and text is an essential step for tasks such as Visual Question Answering and Video Question Answering. In this work, we find that the representations must not only jointly capture features from both modalities but should also be diverse for better generalization performance. To this end, we propose joint vision-language representation learning by diversifying the tokenization learning process, enabling tokens that are sufficiently disentangled from each other to be learned from both modalities. We observe that our approach outperforms the baseline models in a majority of settings and is competitive with state-of-the-art methods.
翻訳日:2023-06-07 17:15:03 公開日:2023-06-06
# 渦光を用いた電子量子ホール状態の光励起

Optical pumping of electronic quantum Hall states with vortex light ( http://arxiv.org/abs/2306.03417v1 )

ライセンス: Link先を確認
Deric Session, Mahmoud Jalali Mehrabad, Nikil Paithanker, Tobias Grass, Christian Eckhardt, Bin Cao, Daniel Gustavo Su\'arez Forero, Kevin Li, Mohammad S. Alam, Glenn S. Solomon, Nathan Schine, Jay Sau, Roman Sordan, Mohammad Hafezi(参考訳) 量子技術の基本的な要件は、電子と光子の相互作用をコヒーレントに制御できることである。 しかし、光と物質の間の相互作用を含む多くのシナリオでは、電子と光子の間の線形または角運動量の交換は実現不可能であり、双極子近似極限と呼ばれる状態である。 この限界を超える場合の例として、キラル電子と渦光の相互作用が考慮され、光の軌道角運動量が電子に伝達される。 本稿では、光渦ビームから電子量子ホール状態への軌道角運動量移動の新たなメカニズムを提案する。 具体的には、光の渦度に依存する量子ホール状態の環状グラフェン試料において、放射光電流に対する堅牢な寄与を同定する。 この現象は、光子の角運動量は電子に移され、放射状の電流を生成し、電流の方向は光の渦度によって決定される光ポンピングスキームと解釈できる。 以上の知見は、量子コヒーレンスの光学的検出と操作に関する基本的な知見を提供し、量子コヒーレント光エレクトロニクスの進歩に幅広い意味を持つ。

A fundamental requirement for quantum technologies is the ability to coherently control the interaction between electrons and photons. However, in many scenarios involving the interaction between light and matter, the exchange of linear or angular momentum between electrons and photons is not feasible, a condition known as the dipole-approximation limit. An example of a case beyond this limit that has remained experimentally elusive is when the interplay between chiral electrons and vortex light is considered, where the orbital angular momentum of light can be transferred to electrons. Here, we present a novel mechanism for such an orbital angular momentum transfer from optical vortex beams to electronic quantum Hall states. Specifically, we identify a robust contribution to the radial photocurrent, in an annular graphene sample within the quantum Hall regime, that depends on the vorticity of light. This phenomenon can be interpreted as an optical pumping scheme, where the angular momentum of photons is transferred to electrons, generating a radial current, and the current's direction is determined by the light's vorticity. Our findings offer fundamental insights into the optical probing and manipulation of quantum coherence, with wide-ranging implications for advancing quantum coherent optoelectronics.
翻訳日:2023-06-07 17:14:51 公開日:2023-06-06
# 教師なしデュアルエージェント強化学習による効率的かつ解釈可能な圧縮テキスト要約

Efficient and Interpretable Compressive Text Summarisation with Unsupervised Dual-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.03415v1 )

ライセンス: Link先を確認
Peggy Tang, Junbin Gao, Lei Zhang, Zhiyong Wang(参考訳) 近年, 圧縮テキスト要約は, 抽出要約の簡潔さ問題と抽象要約の事実幻覚問題とのバランスを保っている。 しかし、既存の圧縮要約手法の多くは、対応する圧縮要約を伴う新しいトレーニングデータセットを作成するためのコストのかかる労力に頼っている。 本稿では,教師なしの二重エージェント強化学習を活用し,要約品質に対する人間の判断をシミュレートし,要約の意味的カバレッジとフラレンスを最適化する,効率的かつ解釈可能な圧縮要約手法を提案する。 本モデルは,抽出剤と圧縮剤から構成され,両剤は多面的注意点に基づく構造を有する。 抽出エージェントは、まず文書からサリエント文を選択し、次に圧縮エージェントは、サレントワードを選択してサマリー文を圧縮し、参照要約を用いずにサマリを形成し、サマリ報酬を算出する。 我々の知る限り、これは教師なし圧縮要約に関する最初の研究である。 広範に使われている3つのデータセット(例えば、Newsroom、CNN/DM、XSum)の実験結果から、我々のモデルは、ROUGEメトリックの点から、Newsroomで有望な性能と大幅な改善を実現し、また要約結果の意味的カバレッジの解釈可能性を示している。

Recently, compressive text summarisation offers a balance between the conciseness issue of extractive summarisation and the factual hallucination issue of abstractive summarisation. However, most existing compressive summarisation methods are supervised, relying on the expensive effort of creating a new training dataset with corresponding compressive summaries. In this paper, we propose an efficient and interpretable compressive summarisation method that utilises unsupervised dual-agent reinforcement learning to optimise a summary's semantic coverage and fluency by simulating human judgment on summarisation quality. Our model consists of an extractor agent and a compressor agent, and both agents have a multi-head attentional pointer-based structure. The extractor agent first chooses salient sentences from a document, and then the compressor agent compresses these extracted sentences by selecting salient words to form a summary without using reference summaries to compute the summary reward. To our best knowledge, this is the first work on unsupervised compressive summarisation. Experimental results on three widely used datasets (e.g., Newsroom, CNN/DM, and XSum) show that our model achieves promising performance and a significant improvement on Newsroom in terms of the ROUGE metric, as well as interpretability of semantic coverage of summarisation results.
翻訳日:2023-06-07 17:14:32 公開日:2023-06-06
# dreamsparse: スパースビューを付与した2次元拡散モデルによるプラトンの洞窟からの脱出

DreamSparse: Escaping from Plato's Cave with 2D Diffusion Model Given Sparse Views ( http://arxiv.org/abs/2306.03414v1 )

ライセンス: Link先を確認
Paul Yoo, Jiaxian Guo, Yutaka Matsuo, Shixiang Shane Gu(参考訳) いくつかの視点から新しいビューイメージを合成することは、難しいが実践的な問題である。 既存の手法では、提供された情報不足のため、品質の高い結果を生成するのに苦労することが多い。 本研究では,事前学習した拡散モデルにおける2次元先行の強みを利用した新しいビュー画像の合成について検討する。 しかし、2d拡散モデルには3d認識が欠如しており、画像合成の歪曲化とアイデンティティの妥協に繋がる。 このような問題に対処するために,凍結した事前学習拡散モデルにより幾何学的,アイデンティティに一貫性のある新しいビュー画像を生成するフレームワークDreamSparseを提案する。 具体的には、DreamSparseには3Dビューから3Dの機能をキャプチャーするための幾何学モジュールが組み込まれている。 その後、これらの3次元特徴写像を生成過程の空間情報に変換するための空間誘導モデルを導入する。 この情報は、事前訓練された拡散モデルを導くために使用され、幾何的に一貫した画像を生成することができる。 事前訓練された拡散モデルで強いイメージを活用すれば、DreamSparseはオブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成し、オープンセットイメージに一般化することができる。 実験により,本フレームワークは,スパースビューから新しいビューイメージを効果的に合成し,訓練されたカテゴリイメージとオープンセットのカテゴリイメージの両方において,ベースラインに優れることを示した。 https://sites.google.com/view/dreamsparse-webページ。

Synthesizing novel view images from a few views is a challenging but practical problem. Existing methods often struggle with producing high-quality results or necessitate per-object optimization in such few-view settings due to the insufficient information provided. In this work, we explore leveraging the strong 2D priors in pre-trained diffusion models for synthesizing novel view images. 2D diffusion models, nevertheless, lack 3D awareness, leading to distorted image synthesis and compromising the identity. To address these problems, we propose DreamSparse, a framework that enables the frozen pre-trained diffusion model to generate geometry and identity-consistent novel view image. Specifically, DreamSparse incorporates a geometry module designed to capture 3D features from sparse views as a 3D prior. Subsequently, a spatial guidance model is introduced to convert these 3D feature maps into spatial information for the generative process. This information is then used to guide the pre-trained diffusion model, enabling it to generate geometrically consistent images without tuning it. Leveraging the strong image priors in the pre-trained diffusion models, DreamSparse is capable of synthesizing high-quality novel views for both object and scene-level images and generalising to open-set images. Experimental results demonstrate that our framework can effectively synthesize novel view images from sparse views and outperforms baselines in both trained and open-set category images. More results can be found on our project page: https://sites.google.com/view/dreamsparse-webpage.
翻訳日:2023-06-07 17:14:06 公開日:2023-06-06
# DVIS: 分離されたビデオインスタンスセグメンテーションフレームワーク

DVIS: Decoupled Video Instance Segmentation Framework ( http://arxiv.org/abs/2306.03413v1 )

ライセンス: Link先を確認
Tao Zhang, Xingye Tian, Yu Wu, Shunping Ji, Xuebo Wang, Yuan Zhang, Pengfei Wan(参考訳) ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。 既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。 まず、オフライン手法は、全てのフレームを等しく扱い、隣接するフレーム間の相互依存性を無視する密結合モデリングパラダイムによって制限される。 これにより、長期の時間的アライメント中に過度のノイズが発生する。 第二に、オンライン手法は時間情報の不十分な利用に悩まされる。 これらの課題に取り組むため,我々はvisをセグメンテーション,トラッキング,リファインメントという3つの独立したサブタスクに分割することにより,分離戦略を提案する。 分離戦略の有効性は2つの重要な要素に依存している。 1)追跡中のフレーム・バイ・フレーム・アソシエーションによる正確な長期的アライメントの達成 2) 上述の正確なアライメント結果に基づく時間情報の有効性について検討した。 本稿では,新しいレファレンストラッカーとテンポラリファインダを導入し,それを用いて \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS})を構築する。 DVISは、VISとVPSの両方で新しいSOTAパフォーマンスを実現し、現在のSOTAメソッドを7.3 APと9.6 VPQのOVISとVIPSegデータセットで上回っている。 さらに、デカップリング戦略により、参照トラッカーと時間精製器は超軽量(セグメンタFLOPのわずか1.69\%)であり、11Gメモリを持つ単一のGPU上で効率的なトレーニングと推論を可能にする。 コードは \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS} で公開されている。

Video instance segmentation (VIS) is a critical task with diverse applications, including autonomous driving and video editing. Existing methods often underperform on complex and long videos in real world, primarily due to two factors. Firstly, offline methods are limited by the tightly-coupled modeling paradigm, which treats all frames equally and disregards the interdependencies between adjacent frames. Consequently, this leads to the introduction of excessive noise during long-term temporal alignment. Secondly, online methods suffer from inadequate utilization of temporal information. To tackle these challenges, we propose a decoupling strategy for VIS by dividing it into three independent sub-tasks: segmentation, tracking, and refinement. The efficacy of the decoupling strategy relies on two crucial elements: 1) attaining precise long-term alignment outcomes via frame-by-frame association during tracking, and 2) the effective utilization of temporal information predicated on the aforementioned accurate alignment outcomes during refinement. We introduce a novel referring tracker and temporal refiner to construct the \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS}). DVIS achieves new SOTA performance in both VIS and VPS, surpassing the current SOTA methods by 7.3 AP and 9.6 VPQ on the OVIS and VIPSeg datasets, which are the most challenging and realistic benchmarks. Moreover, thanks to the decoupling strategy, the referring tracker and temporal refiner are super light-weight (only 1.69\% of the segmenter FLOPs), allowing for efficient training and inference on a single GPU with 11G memory. The code is available at \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}.
翻訳日:2023-06-07 17:13:41 公開日:2023-06-06
# DEK-Forecaster: 交通予測のためのEMD-KNNを統合した新しいディープラーニングモデル

DEK-Forecaster: A Novel Deep Learning Model Integrated with EMD-KNN for Traffic Prediction ( http://arxiv.org/abs/2306.03412v1 )

ライセンス: Link先を確認
Sajal Saha, Sudipto Baral, and Anwar Haque(参考訳) インターネットトラフィックのボリューム推定は、ISP(Internet Service Provider)産業のビジネスポリシーとビジネス継承に大きな影響を与えている。 インターネットトラフィックの需要予測は、将来のトラフィックトレンドを暗示するのに役立ち、ネットワーク計画活動や投資におけるISPの意思決定に役立ちます。 さらに、将来の傾向を理解する能力は、定期的および長期的操作の管理に寄与する。 本研究では,経験的モード分解(EMD)に基づくノイズ低減,経験則に基づく外乱検出,K$-Nearest Neighbour(KNN)に基づく外乱緩和を組み込んだディープシーケンス手法を用いて,ネットワークトラフィック量需要を予測することを目的とする。 前者の研究とは対照的に、提案モデルは信号のデノイジングのために本質モード関数(imf)と呼ばれる特定のemd分解成分に依存しない。 提案した交通予測モデルでは,すべてのIMFコンポーネントの平均を信号聴取に利用した。 さらに、異常なデータポイントは平均で$K$に近いデータポイントに置き換えられ、Root Mean Squared Error (RMSE)で測定されたKNN回帰器予測誤差に基づいて$K$の値が最適化されている。 最後に,ARIMA(Auto Regressive Integrated Integrated Average)とAIC(Akaike Information Criterion)の値に基づいて,予測モデルに最適な時間付き特徴サブセットを選択した。 実業界におけるインターネットトラフィックデータセットを用いて実験を行い,提案手法を従来のディープシークエンスベースラインモデルと比較した。 その結果,提案したEMD-KNN統合予測モデルは比較モデルよりも優れていた。

Internet traffic volume estimation has a significant impact on the business policies of the ISP (Internet Service Provider) industry and business successions. Forecasting the internet traffic demand helps to shed light on the future traffic trend, which is often helpful for ISPs decision-making in network planning activities and investments. Besides, the capability to understand future trend contributes to managing regular and long-term operations. This study aims to predict the network traffic volume demand using deep sequence methods that incorporate Empirical Mode Decomposition (EMD) based noise reduction, Empirical rule based outlier detection, and $K$-Nearest Neighbour (KNN) based outlier mitigation. In contrast to the former studies, the proposed model does not rely on a particular EMD decomposed component called Intrinsic Mode Function (IMF) for signal denoising. In our proposed traffic prediction model, we used an average of all IMFs components for signal denoising. Moreover, the abnormal data points are replaced by $K$ nearest data points average, and the value for $K$ has been optimized based on the KNN regressor prediction error measured in Root Mean Squared Error (RMSE). Finally, we selected the best time-lagged feature subset for our prediction model based on AutoRegressive Integrated Moving Average (ARIMA) and Akaike Information Criterion (AIC) value. Our experiments are conducted on real-world internet traffic datasets from industry, and the proposed method is compared with various traditional deep sequence baseline models. Our results show that the proposed EMD-KNN integrated prediction models outperform comparative models.
翻訳日:2023-06-07 17:13:08 公開日:2023-06-06
# Generate-then-Retrieve:製品検索におけるIntent-Aware FAQ検索

Generate-then-Retrieve: Intent-Aware FAQ Retrieval in Product Search ( http://arxiv.org/abs/2306.03411v1 )

ライセンス: Link先を確認
Zhiyu Chen, Jason Choi, Besnik Fetahu, Oleg Rokhlenko, Shervin Malmasi(参考訳) 製品検索エンジンと対話する顧客は、情報参照クエリを定式化している。 FAQ検索は,質問意図のあるユーザクエリに対して,共通の質問応答ペアを検索することを目的としている。 faq検索を製品検索に組み込むことで、ユーザーはよりインフォームドな購入判断を行えるだけでなく、効率的な購入後サポートによってユーザーの保持力を高めることができる。 faqエントリが商品検索におけるユーザーの情報要求をいつ満たせるかを決定することは、買い物体験を混乱させることなく、重要な課題である。 本稿では,(1)ユーザの情報が必要なタイミングをFAQで予測する意図分類器,(2)クエリを自然な質問に書き換える修正モデルからなる意図認識型FAQ検索システムを提案する。 オフライン評価の結果,Hit@1はベースラインシステムに比べて95%の遅延を低減し,基幹FAQの検索において13%改善した。 これらの改善は、製品検索結果の上に表示されたfaqの71%が明示的なポジティブなユーザーフィードバックを受けた実際のユーザーフィードバックによってさらに検証される。 総じて, FAQ検索を大規模製品検索に組み込む上で有望な方向性を示す。

Customers interacting with product search engines are increasingly formulating information-seeking queries. Frequently Asked Question (FAQ) retrieval aims to retrieve common question-answer pairs for a user query with question intent. Integrating FAQ retrieval in product search can not only empower users to make more informed purchase decisions, but also enhance user retention through efficient post-purchase support. Determining when an FAQ entry can satisfy a user's information need within product search, without disrupting their shopping experience, represents an important challenge. We propose an intent-aware FAQ retrieval system consisting of (1) an intent classifier that predicts when a user's information need can be answered by an FAQ; (2) a reformulation model that rewrites a query into a natural question. Offline evaluation demonstrates that our approach improves Hit@1 by 13% on retrieving ground-truth FAQs, while reducing latency by 95% compared to baseline systems. These improvements are further validated by real user feedback, where 71% of displayed FAQs on top of product search results received explicit positive user feedback. Overall, our findings show promising directions for integrating FAQ retrieval into product search at scale.
翻訳日:2023-06-07 17:12:41 公開日:2023-06-06
# マニピュレーションのための木枝運動のシミュレーション学習

Learning to Simulate Tree-Branch Dynamics for Manipulation ( http://arxiv.org/abs/2306.03410v1 )

ライセンス: Link先を確認
Jayadeep Jacob, Tirthankar Bandyopadhyay, Jason Williams, Paulo Borges and Fabio Ramos(参考訳) 本稿では,木枝の操作時の関節力学をモデル化するために,シミュレーション駆動逆推論手法を提案する。 枝のダイナミックスを学び、変形可能な植生を操作する能力を得ることは、密集した葉の果実の摘み取りや、密集した植生の航行のために過剰なブドウや枝を移動させるなど、閉塞し易いタスクに役立つ。 基礎となる変形可能なツリー幾何学は、並列で微分不可能なシミュレータ上で実行される粗いスプリング抽象としてカプセル化されている。 シミュレータによって定義された暗黙の統計モデル、基底真理を積極的に探究した参照軌道、ベイズ形式は、スプリングパラメータの後方密度推定を導く。 スタイン変分勾配降下に基づく非パラメトリック推定アルゴリズムは、生物学的に動機づけられた仮定をニューラルネットワーク駆動学習者関節前駆として推論プロセスに組み込むとともに、勾配近似のための有限差分スキームを利用する。 実およびシミュレーション実験により, 本モデルが変形軌跡を予測し, 推定の不確かさを定量化し, 他の推論アルゴリズム, 特にモンテカルロ系に対してベースライン化した場合, 性能が向上することを確認した。 このモデルは、ヘテロセダスティックなセンサノイズの存在下で強い強靭性を示し、さらに、把握できない場所に一般化することができる。

We propose to use a simulation driven inverse inference approach to model the joint dynamics of tree branches under manipulation. Learning branch dynamics and gaining the ability to manipulate deformable vegetation can help with occlusion-prone tasks, such as fruit picking in dense foliage, as well as moving overhanging vines and branches for navigation in dense vegetation. The underlying deformable tree geometry is encapsulated as coarse spring abstractions executed on parallel, non-differentiable simulators. The implicit statistical model defined by the simulator, reference trajectories obtained by actively probing the ground truth, and the Bayesian formalism, together guide the spring parameter posterior density estimation. Our non-parametric inference algorithm, based on Stein Variational Gradient Descent, incorporates biologically motivated assumptions into the inference process as neural network driven learnt joint priors; moreover, it leverages the finite difference scheme for gradient approximations. Real and simulated experiments confirm that our model can predict deformation trajectories, quantify the estimation uncertainty, and it can perform better when base-lined against other inference algorithms, particularly from the Monte Carlo family. The model displays strong robustness properties in the presence of heteroscedastic sensor noise; furthermore, it can generalise to unseen grasp locations.
翻訳日:2023-06-07 17:12:19 公開日:2023-06-06
# 多目的最小重み問題に対するMOEA/Dの剛性解析

Rigorous Runtime Analysis of MOEA/D for Solving Multi-Objective Minimum Weight Base Problems ( http://arxiv.org/abs/2306.03409v1 )

ライセンス: Link先を確認
Anh Viet Do, Aneta Neumann, Frank Neumann, Andrew M. Sutton(参考訳) 多目的最小重みベース問題(multi-objective minimum weight base problem)は、多目的最小スパンディングツリー問題のような古典的なnp-ハードコンビネート問題(np-hard combinatorial problem)の抽象化である。 我々は非支配的前線の凸包のいくつかの重要な性質を証明し、その近似的品質や極点数の上限などについて証明する。 これらの特性を用いて,MOEA/Dアルゴリズムを初めて実行時解析し,目的を単一目的成分に分解することで効率よく最適化する進化的アルゴリズムを提案する。 適切な分解条件が与えられたMOEA/Dは、オラクルモデルにおいて、期待される固定パラメータ多項式時間内の全ての極端点、すなわちパラメータが目的数であることを示す。 実験はランダムな二目的最小スパンディングツリーインスタンス上で行われ,実験結果は理論値と一致した。 さらに、以前に研究されたGSEMO問題に対する進化的アルゴリズムと比較すると、MOEA/Dは全てのインスタンスにおいて極端な点をはるかに高速に見つける。

We study the multi-objective minimum weight base problem, an abstraction of classical NP-hard combinatorial problems such as the multi-objective minimum spanning tree problem. We prove some important properties of the convex hull of the non-dominated front, such as its approximation quality and an upper bound on the number of extreme points. Using these properties, we give the first run-time analysis of the MOEA/D algorithm for this problem, an evolutionary algorithm that effectively optimizes by decomposing the objectives into single-objective components. We show that the MOEA/D, given an appropriate decomposition setting, finds all extreme points within expected fixed-parameter polynomial time in the oracle model, the parameter being the number of objectives. Experiments are conducted on random bi-objective minimum spanning tree instances, and the results agree with our theoretical findings. Furthermore, compared with a previously studied evolutionary algorithm for the problem GSEMO, MOEA/D finds all extreme points much faster across all instances.
翻訳日:2023-06-07 17:11:56 公開日:2023-06-06
# エージェントがより良い意思決定のためのモデルを改善するために良い行動を超えた環境を探る

Agents Explore the Environment Beyond Good Actions to Improve Their Model for Better Decisions ( http://arxiv.org/abs/2306.03408v1 )

ライセンス: Link先を確認
Matthias Unverzagt(参考訳) エージェントの意思決定能力の向上は、人工知能への道のりにおける重要な課題である。 適切な意思決定を行うために必要な計画スキルを改善するために、MuZeroのエージェントは、ネットワークモデルによる予測と、予測を用いた木探索による計画を組み合わせる。 muzeroの学習プロセスは、予測が貧弱な場合には失敗するが、計画にはそれが必要だ。 我々は、エージェントに、そうでなければ探索しない環境における決定木の一部を探索させるために、これを衝動として使用します。 エージェントは、まず通常の計画によって、改善されたポリシーを策定する。 第2に、トレーニングエピソードの開始時にランダムにこの方針から逸脱する。 そして第3に、改善ポリシーをランダムな時間ステップで改善ポリシーに切り替えて、改善ポリシーに関連する環境からの報酬を経験する。 シンプルなボードゲームTic-Tac-Toeは、このアプローチがエージェントの意思決定能力をどのように改善するかを説明するために使用される。 ソースコードはJavaで書かれており、https://github.com/enpasos/muzero.comで入手できる。

Improving the decision-making capabilities of agents is a key challenge on the road to artificial intelligence. To improve the planning skills needed to make good decisions, MuZero's agent combines prediction by a network model and planning by a tree search using the predictions. MuZero's learning process can fail when predictions are poor but planning requires them. We use this as an impetus to get the agent to explore parts of the decision tree in the environment that it otherwise would not explore. The agent achieves this, first by normal planning to come up with an improved policy. Second, it randomly deviates from this policy at the beginning of each training episode. And third, it switches back to the improved policy at a random time step to experience the rewards from the environment associated with the improved policy, which is the basis for learning the correct value expectation. The simple board game Tic-Tac-Toe is used to illustrate how this approach can improve the agent's decision-making ability. The source code, written entirely in Java, is available at https://github.com/enpasos/muzero.
翻訳日:2023-06-07 17:11:39 公開日:2023-06-06
# コードの大きな言語モデルは潜在的なバグでコードの完成に失敗する

Large Language Models of Code Fail at Completing Code with Potential Bugs ( http://arxiv.org/abs/2306.03438v1 )

ライセンス: Link先を確認
Tuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen, Sheng Zha, George Karypis(参考訳) 大規模なコード言語モデル(Code-LLMs)は、最近、プログラミング補助とコードインテリジェンスの基本機能であるコード補完に大きな進歩をもたらした。 しかしながら、既存の作業のほとんどは、ソフトウェア開発では避けられないコードコンテキストにおけるバグの存在を無視しています。 そこで本研究では,コードコンテキストが潜在的なバグを含むリアルタイムコード提案の現実的なシナリオから着想を得た,バグのあるコード補完問題を紹介し,研究する。 タスクを体系的に研究するために,semantics-alteringオペレータの変更(buggy-humaneval)に由来する合成バグと,コーディング問題(buggy-fixeval)に対するユーザの投稿から派生した現実的なバグ(buggy-humaneval)の2つのデータセットを導入する。 潜在的なバグの存在は、パフォーマンスの高いコードllmの生成性能を著しく低下させる。 例えば、Buggy-HumanEvalのテストケースにおけるCodeGen-2B-monoの通過率は、コンテキスト内の単一の潜在的なバグから50%以上減少する。 最後に,潜在的なバグの悪影響を緩和するポストホック法をいくつか検討し,ポストホック性能に大きなギャップがあることを見いだした。

Large language models of code (Code-LLMs) have recently brought tremendous advances to code completion, a fundamental feature of programming assistance and code intelligence. However, most existing works ignore the possible presence of bugs in the code context for generation, which are inevitable in software development. Therefore, we introduce and study the buggy-code completion problem, inspired by the realistic scenario of real-time code suggestion where the code context contains potential bugs -- anti-patterns that can become bugs in the completed program. To systematically study the task, we introduce two datasets: one with synthetic bugs derived from semantics-altering operator changes (buggy-HumanEval) and one with realistic bugs derived from user submissions to coding problems (buggy-FixEval). We find that the presence of potential bugs significantly degrades the generation performance of the high-performing Code-LLMs. For instance, the passing rates of CodeGen-2B-mono on test cases of buggy-HumanEval drop more than 50% given a single potential bug in the context. Finally, we investigate several post-hoc methods for mitigating the adverse effect of potential bugs and find that there remains a large gap in post-mitigation performance.
翻訳日:2023-06-07 17:04:25 公開日:2023-06-06
# DFormer:Universal Image Segmentationのための拡散誘導変換器

DFormer: Diffusion-guided Transformer for Universal Image Segmentation ( http://arxiv.org/abs/2306.03437v1 )

ライセンス: Link先を確認
Hefeng Wang, Jiale Cao, Rao Muhammad Anwer, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang(参考訳) 本稿では,ユニバーサルイメージセグメンテーションのためのアプローチであるdformerを提案する。 提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。 DFormerはまず、グラウンドトルースマスクに様々なレベルのガウスノイズを加え、その後、劣化したマスクからデノナイジングマスクを予測するモデルを学ぶ。 具体的には,ノイズの少ないマスクを入力とし,マスク特徴や注意マスクを生成し,拡散型デコーダを用いてマスク予測を徐々に行う。 推論では、ドフォーマーはランダムに生成されたマスクからマスクと対応するカテゴリを直接予測します。 広範な実験により,提案する画像分割タスクにおける提案手法の有用性が明らかになった。 我々のDFormerは,MS COCO val2017セットで3.6%向上し,近年の拡散型パノプティックセグメンテーション法Pix2Seq-Dより優れている。 さらに、dformer は ade20k val セット上で、最近の拡散ベース法を2.2%上回る有望な意味セグメンテーション性能を実現する。 ソースコードとモデルはhttps://github.com/cp3wan/dformerで公開します。

This paper introduces an approach, named DFormer, for universal image segmentation. The proposed DFormer views universal image segmentation task as a denoising process using a diffusion model. DFormer first adds various levels of Gaussian noise to ground-truth masks, and then learns a model to predict denoising masks from corrupted masks. Specifically, we take deep pixel-level features along with the noisy masks as inputs to generate mask features and attention masks, employing diffusion-based decoder to perform mask prediction gradually. At inference, our DFormer directly predicts the masks and corresponding categories from a set of randomly-generated masks. Extensive experiments reveal the merits of our proposed contributions on different image segmentation tasks: panoptic segmentation, instance segmentation, and semantic segmentation. Our DFormer outperforms the recent diffusion-based panoptic segmentation method Pix2Seq-D with a gain of 3.6% on MS COCO val2017 set. Further, DFormer achieves promising semantic segmentation performance outperforming the recent diffusion-based method by 2.2% on ADE20K val set. Our source code and models will be publicly on https://github.com/cp3wan/DFormer
翻訳日:2023-06-07 17:04:04 公開日:2023-06-06
# ウォーターマーク拡散法による拡散モデルの知的特性の保護

Protecting the Intellectual Property of Diffusion Models by the Watermark Diffusion Process ( http://arxiv.org/abs/2306.03436v1 )

ライセンス: Link先を確認
Sen Peng, Yufei Chen, Cong Wang, Xiaohua Jia(参考訳) 拡散モデルが最先端のディープジェネレーティブアーキテクチャとして登場し、生成タスクの需要が高まっている。 優れたパフォーマンスのために大きな拡散モデルをトレーニングするには、高いリソースコストが必要です。 ウォーターマーキングを含む既存の所有ソリューションのほとんどは、主に差別モデルに焦点を当てている。 本稿では, 透かし埋め込み, 抽出, 検証を含む拡散モデルのための新しい透かし法である wdm を提案する。 WDMは、タスクデータの標準的な拡散プロセスとは異なる、ウォーターマーク拡散プロセス(WDP)を学ぶために、トレーニングまたは拡散モデルを微調整することで、ウォーターマークデータを埋め込む。 組込み透かしは、学習したWDPから共有逆ノイズを用いてサンプリングすることにより、元のタスクの性能を劣化させることなく抽出することができる。 また,WDPと拡散過程を改良したガウスカーネルで接続することで,提案手法の理論的基礎と解析を行う。 各種攻撃に対する有効性と堅牢性を示すため, 広範囲な実験を行った。

Diffusion models have emerged as state-of-the-art deep generative architectures with the increasing demands for generation tasks. Training large diffusion models for good performance requires high resource costs, making them valuable intellectual properties to protect. While most of the existing ownership solutions, including watermarking, mainly focus on discriminative models. This paper proposes WDM, a novel watermarking method for diffusion models, including watermark embedding, extraction, and verification. WDM embeds the watermark data through training or fine-tuning the diffusion model to learn a Watermark Diffusion Process (WDP), different from the standard diffusion process for the task data. The embedded watermark can be extracted by sampling using the shared reverse noise from the learned WDP without degrading performance on the original task. We also provide theoretical foundations and analysis of the proposed method by connecting the WDP to the diffusion process with a modified Gaussian kernel. Extensive experiments are conducted to demonstrate its effectiveness and robustness against various attacks.
翻訳日:2023-06-07 17:03:48 公開日:2023-06-06
# プロンプトチューニングにおける注意の役割について

On the Role of Attention in Prompt-tuning ( http://arxiv.org/abs/2306.03435v1 )

ライセンス: Link先を確認
Samet Oymak, Ankit Singh Rawat, Mahdi Soltanolkotabi, Christos Thrampoulidis(参考訳) Prompt-tuningは、(ソフト)promptパラメータをデータから学習することで、大規模言語モデル(LLM)を下流タスクに適応する新たな戦略である。 LLMでの成功にもかかわらず、プロンプトチューニングのパワーと注意機構の役割についての理論的理解は限られている。 本研究では,一層アテンションアーキテクチャのプロンプトチューニングと,各入力トークンがコンテキスト関連あるいは非関連集合に属するコンテキスト混合モデルについて検討する。 我々は,自己完結型プロンプトアテンションモデルにより,プロンプトチューニングの役割を分離する。 1) 文脈データモデルにおいて,softmax-prompt-attentionはsoftmax-self-attentionやlinear-prompt-attentionよりも表現力が高いことを示す。 2) 勾配降下の初期軌道を解析し, ほぼ最適サンプルの複雑度でプロンプトと予測ヘッドを学習し, プロンプトが文脈関連トークンの疎結合化にいかに有効かを示す。 3) 既知のプロンプトだが未知の予測ヘッドを仮定し, 基本性能限界と文脈情報の正確な利点を明らかにする, プロンプトアテンションの有限個のサンプル性能を特徴付ける。 また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。

Prompt-tuning is an emerging strategy to adapt large language models (LLM) to downstream tasks by learning a (soft-)prompt parameter from data. Despite its success in LLMs, there is limited theoretical understanding of the power of prompt-tuning and the role of the attention mechanism in prompting. In this work, we explore prompt-tuning for one-layer attention architectures and study contextual mixture-models where each input token belongs to a context-relevant or -irrelevant set. We isolate the role of prompt-tuning through a self-contained prompt-attention model. Our contributions are as follows: (1) We show that softmax-prompt-attention is provably more expressive than softmax-self-attention and linear-prompt-attention under our contextual data model. (2) We analyze the initial trajectory of gradient descent and show that it learns the prompt and prediction head with near-optimal sample complexity and demonstrate how prompt can provably attend to sparse context-relevant tokens. (3) Assuming a known prompt but an unknown prediction head, we characterize the exact finite sample performance of prompt-attention which reveals the fundamental performance limits and the precise benefit of the context information. We also provide experiments that verify our theoretical insights on real datasets and demonstrate how prompt-tuning enables the model to attend to context-relevant information.
翻訳日:2023-06-07 17:03:32 公開日:2023-06-06
# グラフ畳み込みネットワークを用いた最小支配集合問題の組合せ最適化のための学習ベースヒューリスティック

Learning-Based Heuristic for Combinatorial Optimization of the Minimum Dominating Set Problem using Graph Convolutional Networks ( http://arxiv.org/abs/2306.03434v1 )

ライセンス: Link先を確認
Abihith Kothapalli, Mudassir Shabbir, Xenofon Koutsoukos(参考訳) グラフ $\mathcal{G=(V, E)}$ の支配集合は、頂点 $S\subseteq\mathcal{V}$ の部分集合であり、すべての頂点 $v\in \mathcal{V} \setminus S$ が集合内の頂点 $u\in S$ に隣接している。 最小支配集合問題は、最小濃度の支配集合を見つけ、NP-ハード組合せ最適化問題として確立された。 本稿では,グラフ畳み込みネットワークを用いた最小支配集合問題に対する学習に基づく新しいヒューリスティック手法を提案する。 本研究では,ランダムに生成したグラフと実世界のグラフデータセットを組み合わせることで,提案手法の広範な実験的評価を行う。 提案手法は,従来のグリーディ近似アルゴリズムよりも優れていることを示す。 さらに,データセットにまたがるグラフ畳み込みネットワークの一般化能力と,学習したグラフよりも上位のグラフにスケールする能力を示す。 最後に,提案する学習に基づくヒューリスティックを反復欲アルゴリズムで活用し,支配集合の計算において最先端の性能を実現する。

A dominating set of a graph $\mathcal{G=(V, E)}$ is a subset of vertices $S\subseteq\mathcal{V}$ such that every vertex $v\in \mathcal{V} \setminus S$ outside the dominating set is adjacent to a vertex $u\in S$ within the set. The minimum dominating set problem seeks to find a dominating set of minimum cardinality and is a well-established NP-hard combinatorial optimization problem. We propose a novel learning-based heuristic approach to compute solutions for the minimum dominating set problem using graph convolutional networks. We conduct an extensive experimental evaluation of the proposed method on a combination of randomly generated graphs and real-world graph datasets. Our results indicate that the proposed learning-based approach can outperform a classical greedy approximation algorithm. Furthermore, we demonstrate the generalization capability of the graph convolutional network across datasets and its ability to scale to graphs of higher order than those on which it was trained. Finally, we utilize the proposed learning-based heuristic in an iterative greedy algorithm, achieving state-of-the-art performance in the computation of dominating sets.
翻訳日:2023-06-07 17:03:04 公開日:2023-06-06
# フィルタの重量分布による精度とロバストさのトレードオフの再検討

Revisiting the Trade-off between Accuracy and Robustness via Weight Distribution of Filters ( http://arxiv.org/abs/2306.03430v1 )

ライセンス: Link先を確認
Xingxing Wei, and Shiji Zhao(参考訳) 敵の攻撃はディープニューラルネットワーク(DNN)の潜在的な脅威であることが証明されており、敵の攻撃に対して多くの方法が提案されている。 しかし、ロバスト性を高める一方で、クリーンな精度はある程度低下し、精度とロバスト性の間にトレードオフがあったことを意味する。 本稿では,まず,同一アーキテクチャのフィルタの重み分布における標準モデルとロバストモデルとの明らかな区別を見出した上で,この現象を勾配正規化の観点から理論的に説明し,この差がdnnに固有の特性であることを示し,静的ネットワークアーキテクチャは,同時に精度と頑健性を向上させることは困難である。 第二に,本研究では,「分割と規則」の重み戦略を用いて,クリーンかつ逆の例を扱うことに焦点を当てた,Adversarial Weight-Varied Network (AW-Net) という動的ネットワークアーキテクチャを提案する。 AW-Netは、入力サンプルに直接影響される対向検出器によって生成された制御信号に基づいて、ネットワークの重みを動的に調整する。 動的ネットワークアーキテクチャの利点は、クリーンで逆の例を異なるネットワーク重みで処理することで、精度と堅牢性を同時に向上する可能性を提供する。 一連の実験により、我々のAW-Netはクリーンな例と敵対的な例の両方を扱うのにアーキテクチャに優しいことが示され、最先端のロバストモデルよりも優れたトレードオフ性能が得られる。

Adversarial attacks have been proven to be potential threats to Deep Neural Networks (DNNs), and many methods are proposed to defend against adversarial attacks. However, while enhancing the robustness, the clean accuracy will decline to a certain extent, implying a trade-off existed between the accuracy and robustness. In this paper, we firstly empirically find an obvious distinction between standard and robust models in the filters' weight distribution of the same architecture, and then theoretically explain this phenomenon in terms of the gradient regularization, which shows this difference is an intrinsic property for DNNs, and thus a static network architecture is difficult to improve the accuracy and robustness at the same time. Secondly, based on this observation, we propose a sample-wise dynamic network architecture named Adversarial Weight-Varied Network (AW-Net), which focuses on dealing with clean and adversarial examples with a ``divide and rule" weight strategy. The AW-Net dynamically adjusts network's weights based on regulation signals generated by an adversarial detector, which is directly influenced by the input sample. Benefiting from the dynamic network architecture, clean and adversarial examples can be processed with different network weights, which provides the potentiality to enhance the accuracy and robustness simultaneously. A series of experiments demonstrate that our AW-Net is architecture-friendly to handle both clean and adversarial examples and can achieve better trade-off performance than state-of-the-art robust models.
翻訳日:2023-06-07 17:02:44 公開日:2023-06-06
# GaitGCI: 歩行認識のための生成的対実的介入

GaitGCI: Generative Counterfactual Intervention for Gait Recognition ( http://arxiv.org/abs/2306.03428v1 )

ライセンス: Link先を確認
Huanzhang Dou, Pengyi Zhang, Wei Su, Yunlong Yu, Yining Lin, and Xi Li(参考訳) Gaitは、歩行者を歩行パターンから識別する最も有望なバイオメトリクスの1つだ。 しかし、一般的な手法は共同設立者の影響を受けやすいため、ネットワークは効果的な歩行パターンを反映する領域にほとんど焦点を合わせない。 歩行認識におけるこの根本的な問題に対処するため,我々は,対人介入学習(cil)と多様性制約動的畳み込み(dcdc)からなる生成的対人介入フレームワークgaitgciを提案する。 cilは、事実的・国的注意の確率差を最大化し、dcdcはサンプル的・国的注意を適応的に生成し、サンプル的特性を効率的に知覚することで、共同設立者の影響をなくす。 行列分解と多様性制約により、dcdcはモデルを効率的かつ効果的に保証する。 大規模な実験はGaitGCIの提案を示唆している。 1) 歩行パターンを反映した識別可能領域及び解釈可能領域に効果的に集中することができる。 2) モデル非依存であり、余分なコストなしでパフォーマンスを改善するために既存のモデルにプラグインすることができる。 3) 任意のシナリオ(組込みおよび組込み)における最先端のパフォーマンスを効率よく達成する。

Gait is one of the most promising biometrics that aims to identify pedestrians from their walking patterns. However, prevailing methods are susceptible to confounders, resulting in the networks hardly focusing on the regions that reflect effective walking patterns. To address this fundamental problem in gait recognition, we propose a Generative Counterfactual Intervention framework, dubbed GaitGCI, consisting of Counterfactual Intervention Learning (CIL) and Diversity-Constrained Dynamic Convolution (DCDC). CIL eliminates the impacts of confounders by maximizing the likelihood difference between factual/counterfactual attention while DCDC adaptively generates sample-wise factual/counterfactual attention to efficiently perceive the sample-wise properties. With matrix decomposition and diversity constraint, DCDC guarantees the model to be efficient and effective. Extensive experiments indicate that proposed GaitGCI: 1) could effectively focus on the discriminative and interpretable regions that reflect gait pattern; 2) is model-agnostic and could be plugged into existing models to improve performance with nearly no extra cost; 3) efficiently achieves state-of-the-art performance on arbitrary scenarios (in-the-lab and in-the-wild).
翻訳日:2023-06-07 17:02:12 公開日:2023-06-06
# 差分誘導DDPMに基づく変化拡散:変化検出マップの生成

Change Diffusion: Change Detection Map Generation Based on Difference-Feature Guided DDPM ( http://arxiv.org/abs/2306.03424v1 )

ライセンス: Link先を確認
Yihan Wen, Jialu Sui, Xianping Ma, Wendi Liang, Xiaokang Zhang, Man-On Pun(参考訳) CNN-purelyネットワークまたはTransformerネットワークに基づくディープラーニング(DL)アプローチは、バイテンポラル変化検出(CD)において有望な結果を示した。 しかし、それらの性能は、異なるレベルの特徴マップ間の暗黙的な文脈依存関係を完全に捉えるのに苦労するため、十分なコンテキスト情報収集によって制限される。 さらに、研究者は軽量CD分類器の訓練にDDPM(Denoising diffusion Probabilistic Model)を事前訓練した。 それでもddpmを訓練して複雑なマルチチャネルリモートセンシング画像を生成するには、数ヶ月のトレーニング時間と大量のラベルなしリモートセンシングデータセットが必要であり、単一のチャネルの変更マップを生成するよりもはるかに複雑である。 これらの課題を克服するために,変更認識拡散モデル (CADM) と呼ばれる新しいエンド・ツー・エンドDDPMベースのモデルアーキテクチャを提案する。 さらに,動的差分条件符号化を導入し,CDデータセットのバイテンポラル画像に対するDDPMのステップワイズ領域の注意度を高める。 本手法は, サンプリングステップ毎に状態適応条件を定め, モデルの2つの革新的点を強調する。 1)そのエンドツーエンドの性質と 2)差分条件符号化。 我々は,CDD,WHU,Levier,GVLMの4つのリモートセンシングCDタスクにおけるCADMの評価を行った。 実験の結果,CADMは最先端手法よりも優れており,提案モデルの一般化と有効性を示している。

Deep learning (DL) approaches based on CNN-purely or Transformer networks have demonstrated promising results in bitemporal change detection (CD). However, their performance is limited by insufficient contextual information aggregation, as they struggle to fully capture the implicit contextual dependency relationships among feature maps at different levels. Additionally, researchers have utilized pre-trained denoising diffusion probabilistic models (DDPMs) for training lightweight CD classifiers. Nevertheless, training a DDPM to generate intricately detailed, multi-channel remote sensing images requires months of training time and a substantial volume of unlabeled remote sensing datasets, making it significantly more complex than generating a single-channel change map. To overcome these challenges, we propose a novel end-to-end DDPM-based model architecture called change-aware diffusion model (CADM), which can be trained using a limited annotated dataset quickly. Furthermore, we introduce dynamic difference conditional encoding to enhance step-wise regional attention in DDPM for bitemporal images in CD datasets. This method establishes state-adaptive conditions for each sampling step, emphasizing two main innovative points of our model: 1) its end-to-end nature and 2) difference conditional encoding. We evaluate CADM on four remote sensing CD tasks with different ground scenarios, including CDD, WHU, Levier, and GVLM. Experimental results demonstrate that CADM significantly outperforms state-of-the-art methods, indicating the generalization and effectiveness of the proposed model.
翻訳日:2023-06-07 17:01:52 公開日:2023-06-06
# 残念ながら、それはできません:ブラックボックス生成言語モデルにおける即時拒否の予測

I'm Afraid I Can't Do That: Predicting Prompt Refusal in Black-Box Generative Language Models ( http://arxiv.org/abs/2306.03423v1 )

ライセンス: Link先を確認
Max Reuter, William Schulze(参考訳) OpenAIのChatGPTのリリース以来、生成言語モデルは広く注目を集めている。 利用の増加は生成モデルの広範な実用性を強調しているが、いくつかの形態の埋め込みバイアスも明らかにしている。 いくつかは事前学習コーパスによって引き起こされるが、生成モデルに特有の追加のバイアスは、有害なコンテンツを生成するのを避けるために主観的微調整を使用することから生じる。 微調整バイアスは、個々のエンジニアと企業のポリシーから生じ、モデルが拒否する方向に影響を及ぼす可能性がある。 本実験では,ブラックボックス攻撃によるChatGPTの拒絶動作を特徴付ける。 まずChatGPTにさまざまな攻撃的かつ良心的なプロンプト(n=1,730)を問い合わせ、それから手動で各レスポンスをコンプライアンスや拒否としてラベル付けします。 応答の手動検査は、拒絶はクリーンなバイナリではなく、連続体上にあることを示し、いくつかの異なる種類の応答をコンプライアンスや拒否のバイナリにマップする。 手動でラベルされた小さなデータセットは、拒絶分類器のトレーニングに使用され、精度は92%になる。 次に、この拒絶分類器を使用して、Quora Insincere Questionsデータセットから適合したより大きな(n=10,000)データセットをブートストラップします。 この機械ラベル付きデータを用いて、ChatGPTの応答を見ることなく、ChatGPTが与えられた質問を拒否するかどうかを予測するプロンプト分類器を訓練する。 このプロンプト分類器は、手動ラベル付き質問(n=1,009)のテストセットで76%の精度を達成する。 コンプライアンスや拒否を最も予測する分類器とn-gramのプロンプトについて検討した。 データセットとコードはhttps://github.com/maxwellreuter/chatgpt-refusalsで入手できる。

Since the release of OpenAI's ChatGPT, generative language models have attracted extensive public attention. The increased usage has highlighted generative models' broad utility, but also revealed several forms of embedded bias. Some is induced by the pre-training corpus; but additional bias specific to generative models arises from the use of subjective fine-tuning to avoid generating harmful content. Fine-tuning bias may come from individual engineers and company policies, and affects which prompts the model chooses to refuse. In this experiment, we characterize ChatGPT's refusal behavior using a black-box attack. We first query ChatGPT with a variety of offensive and benign prompts (n=1,730), then manually label each response as compliance or refusal. Manual examination of responses reveals that refusal is not cleanly binary, and lies on a continuum; as such, we map several different kinds of responses to a binary of compliance or refusal. The small manually-labeled dataset is used to train a refusal classifier, which achieves an accuracy of 92%. Second, we use this refusal classifier to bootstrap a larger (n=10,000) dataset adapted from the Quora Insincere Questions dataset. With this machine-labeled data, we train a prompt classifier to predict whether ChatGPT will refuse a given question, without seeing ChatGPT's response. This prompt classifier achieves 76% accuracy on a test set of manually labeled questions (n=1,009). We examine our classifiers and the prompt n-grams that are most predictive of either compliance or refusal. Datasets and code are available at https://github.com/maxwellreuter/chatgpt-refusals.
翻訳日:2023-06-07 17:01:27 公開日:2023-06-06
# 大規模言語モデルによるモーメントローカライゼーションのためのクエリの再構築

Prompting Large Language Models to Reformulate Queries for Moment Localization ( http://arxiv.org/abs/2306.03422v1 )

ライセンス: Link先を確認
Wenfeng Yan, Shaoxiang Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。 非トリミングビデオは、非常に冗長な内容を含んでいるため、クエリの品質は正確な位置決めに不可欠であり、すなわち、クエリは、ビデオ内の何を探すべきかを理解するために、ターゲットモーメントに関する正確な情報を提供するべきである。 しかし、現在のデータセットの自然言語クエリは、既存のモデルでは理解しにくいかもしれない。 例えば、ego4dデータセットは質問文をクエリとして使用し、比較的複雑なモーメントを記述する。 人間にとって自然で単純であるが、そのような疑問文を理解することは、2D-TANのようなメインストリームのモーメントローカライゼーションモデルでは難しい。 近年の大規模言語モデルの成功,特に複雑な自然言語内容の理解と生成能力に触発されて,我々はモーメントクエリを大規模言語モデルを用いて命令セットに再構成し,より局所化モデルに親しみやすくする試みを行っている。

The task of moment localization is to localize a temporal moment in an untrimmed video for a given natural language query. Since untrimmed video contains highly redundant contents, the quality of the query is crucial for accurately localizing moments, i.e., the query should provide precise information about the target moment so that the localization model can understand what to look for in the videos. However, the natural language queries in current datasets may not be easy to understand for existing models. For example, the Ego4D dataset uses question sentences as the query to describe relatively complex moments. While being natural and straightforward for humans, understanding such question sentences are challenging for mainstream moment localization models like 2D-TAN. Inspired by the recent success of large language models, especially their ability of understanding and generating complex natural language contents, in this extended abstract, we make early attempts at reformulating the moment queries into a set of instructions using large language models and making them more friendly to the localization models.
翻訳日:2023-06-07 17:00:57 公開日:2023-06-06
# 音韻基底言語生成 : 舌ねじりの場合

Phonetically-Grounded Language Generation: The Case of Tongue Twisters ( http://arxiv.org/abs/2306.03457v1 )

ライセンス: Link先を確認
Tyler Loakman, Chen Tang and Chenghua Lin(参考訳) 音声言語生成におけるこれまでの研究は、主に歌詞や詩などの分野に重点を置いてきた。 本稿では,音声の重なりを最大化するために音素的に条件づけされ,入力トピックと意味的一貫性を維持しつつも文法的に正しい言語である舌ツイスターの生成について述べる。 我々は2.1K以上の人為的な例からなる舌ねじれの大規模な注釈付きデータセットである \textbf{TwistList} を提示する。 さらに,提案する舌ツイスター生成タスクに対して,複数のベンチマークシステム(ツイスターミスターと呼ばれる)を提示する。 本稿では,本課題における既存のメインストリーム事前学習モデルの性能を,タスク特化訓練とデータに限定し,明示的な音声知識を持たない,自動的・人間的評価の結果を示す。 これらの条件下では舌ツイスター生成の課題はモデルにとって困難であるが、一部のモデルでは受け入れられる例を生成することができる。

Previous work in phonetically-grounded language generation has mainly focused on domains such as lyrics and poetry. In this paper, we present work on the generation of tongue twisters - a form of language that is required to be phonetically conditioned to maximise sound overlap, whilst maintaining semantic consistency with an input topic, and still being grammatically correct. We present \textbf{TwistList}, a large annotated dataset of tongue twisters, consisting of 2.1K+ human-authored examples. We additionally present several benchmark systems (referred to as TwisterMisters) for the proposed task of tongue twister generation, including models that both do and do not require training on in-domain data. We present the results of automatic and human evaluation to demonstrate the performance of existing mainstream pre-trained models in this task with limited (or no) task specific training and data, and no explicit phonetic knowledge. We find that the task of tongue twister generation is challenging for models under these conditions, yet some models are still capable of generating acceptable examples of this language type.
翻訳日:2023-06-07 16:55:06 公開日:2023-06-06
# ai対応多センサ核融合システムのロバスト性:挑戦と機会

Benchmarking Robustness of AI-enabled Multi-sensor Fusion Systems: Challenges and Opportunities ( http://arxiv.org/abs/2306.03454v1 )

ライセンス: Link先を確認
Xinyu Gao, Zhijie Wang, Yang Feng, Lei Ma, Zhenyu Chen, Baowen Xu(参考訳) マルチセンサー・フュージョン(msf)ベースの知覚システムは、自動運転車、ロボットアーム、無人航空機など、多くの産業用途やドメインをサポートする基礎となっている。 過去数年間、データ駆動人工知能(AI)の急速な進歩は、特にインテリジェントシステムやその知覚システムにおいて、パフォーマンスをさらに向上させるために、深層学習技術によってMSFシステムを強化する、急速なトレンドをもたらした。 AI対応のMSF認識システムや技術はいくつか提案されているが、現時点では、MSF認識にフォーカスする限られたベンチマークが公開されている。 自動運転車のようなインテリジェントなシステムは、認識システムが重要な役割を果たす安全クリティカルな状況で運用されているため、これらのMSFシステムの性能と信頼性をより深く理解する必要がある。 このギャップを埋めるため、我々はこの方向の早期段階を開始し、3つの一般的に採用されているタスク(オブジェクト検出、オブジェクト追跡、奥行き完了)を含むai対応msfベースの知覚システムの公開ベンチマークを構築する。 そこで我々は,MSFシステムの堅牢性と信頼性を包括的に理解するために,大規模に破損したデータセットを合成するために,14の共通かつ現実的な破損パターンを設計する。 さらに, 大規模評価を行い, システムの系統的評価を行った。 我々の結果は、現在のAI対応のMSF認識システムの脆弱性を明らかにし、AI対応のMSFを設計する際に、研究者や実践者が堅牢性と信頼性を考慮するように求めている。

Multi-Sensor Fusion (MSF) based perception systems have been the foundation in supporting many industrial applications and domains, such as self-driving cars, robotic arms, and unmanned aerial vehicles. Over the past few years, the fast progress in data-driven artificial intelligence (AI) has brought a fast-increasing trend to empower MSF systems by deep learning techniques to further improve performance, especially on intelligent systems and their perception systems. Although quite a few AI-enabled MSF perception systems and techniques have been proposed, up to the present, limited benchmarks that focus on MSF perception are publicly available. Given that many intelligent systems such as self-driving cars are operated in safety-critical contexts where perception systems play an important role, there comes an urgent need for a more in-depth understanding of the performance and reliability of these MSF systems. To bridge this gap, we initiate an early step in this direction and construct a public benchmark of AI-enabled MSF-based perception systems including three commonly adopted tasks (i.e., object detection, object tracking, and depth completion). Based on this, to comprehensively understand MSF systems' robustness and reliability, we design 14 common and realistic corruption patterns to synthesize large-scale corrupted datasets. We further perform a systematic evaluation of these systems through our large-scale evaluation. Our results reveal the vulnerability of the current AI-enabled MSF perception systems, calling for researchers and practitioners to take robustness and reliability into account when designing AI-enabled MSF.
翻訳日:2023-06-07 16:54:47 公開日:2023-06-06
# 時変霧散乱媒体における量子デフォッギング:時変光子数変動相関

Quantum defogging: temporal photon number fluctuation correlation in time-variant fog scattering medium ( http://arxiv.org/abs/2306.03450v1 )

ライセンス: Link先を確認
Deyang Duan, Yuge Li, Yunjie Xia(参考訳) 従来のマッカートニーモデルは、時変特性が古典光学画像の純粋なノイズであるため、時変不変の散乱媒質として霧を単純化する。 この手紙では、伝統的な考えとは反対の発見が報告されている。 時間パラメータをマッカートニーモデルに組み込んで、時間変動霧によって引き起こされる光子数変動を考慮する。 時間領域における周囲光子のランダム性は,散乱光子が逆であるのに対して,安定な相関がないことを実証した。 この差は、2つの条件が満たされると光子数ゆらぎ相関によって測定できる。 散乱光により搬送されたターゲットの情報から、消光像を再構成する。 これにより、時変霧によるノイズを単独で除去する。 従来のカメラでは目標が識別できない場合でも、識別可能な画像が得られ、その後のハイレベルコンピュータビジョンタスクの前提条件となる。

The conventional McCartney model simplifies fog as a scattering medium with space-time invariance, as the time-variant nature of fog is a pure noise for classical optical imaging. In this letter, an opposite finding to traditional idea is reported. The time parameter is incorporated into the McCartney model to account for photon number fluctuation introduced by time-variant fog. We demonstrated that the randomness of ambient photons in the time domain results in the absence of a stable correlation, while the scattering photons are the opposite. This difference can be measured by photon number fluctuation correlation when two conditions are met. A defogging image is reconstructed from the target's information carried by scattering light. Thus, the noise introduced by time-variant fog is eliminated by itself. Distinguishable images can be obtained even when the target is indistinguishable by conventional cameras, providing a prerequisite for subsequent high-level computer vision tasks.
翻訳日:2023-06-07 16:54:21 公開日:2023-06-06
# GRAFENNE:不均一で動的な特徴セットを持つグラフの学習

GRAFENNE: Learning on Graphs with Heterogeneous and Dynamic Feature Sets ( http://arxiv.org/abs/2306.03447v1 )

ライセンス: Link先を確認
Shubham Gupta, Sahil Manchanda, Sayan Ranu, Srikanta Bedathur(参考訳) グラフニューラルネットワーク(gnns)は一般的に、グラフの各ノードを特徴付ける静的な特徴の集合の仮定に基づいて構築される。 この仮定は実際にはしばしば破られる。 既存のメソッドはフィーチャーインプテーションを通じてこの問題に部分的に対処している。 しかし これらの技術は (i)ノード間の特徴集合の均一性を仮定する。 (ii)自然に受け継がれており、 (iii)機能の追加や削除が時間とともに行われると機能しない。 本稿では,GRAFENNEと呼ばれる新しいGNNフレームワークを用いて,これらの制約に対処する。 GRAFENNEは元のグラフに新しい同型変換を行い、ノードと特徴は二部体エンコーディングによって分離される。 アロトロピック変換に関する慎重に選択されたメッセージパッシングフレームワークを通じて、モデルパラメータのサイズを特徴数とは無関係にし、その結果、未知のノードと特徴の両方に誘導する。 Wesfeiler-Leman テストでは,GRAFENNE が既存のメッセージパス GNN よりも少なくとも表現力があることが証明されている。 さらに、4つの実世界のグラフで示されるように、GRAFENNEは、基礎となるGNNを、経験的有効性と、ストリーミング機能セットよりも継続的な方法で学習する能力で強化する。

Graph neural networks (GNNs), in general, are built on the assumption of a static set of features characterizing each node in a graph. This assumption is often violated in practice. Existing methods partly address this issue through feature imputation. However, these techniques (i) assume uniformity of feature set across nodes, (ii) are transductive by nature, and (iii) fail to work when features are added or removed over time. In this work, we address these limitations through a novel GNN framework called GRAFENNE. GRAFENNE performs a novel allotropic transformation on the original graph, wherein the nodes and features are decoupled through a bipartite encoding. Through a carefully chosen message passing framework on the allotropic transformation, we make the model parameter size independent of the number of features and thereby inductive to both unseen nodes and features. We prove that GRAFENNE is at least as expressive as any of the existing message-passing GNNs in terms of Weisfeiler-Leman tests, and therefore, the additional inductivity to unseen features does not come at the cost of expressivity. In addition, as demonstrated over four real-world graphs, GRAFENNE empowers the underlying GNN with high empirical efficacy and the ability to learn in continual fashion over streaming feature sets.
翻訳日:2023-06-07 16:54:06 公開日:2023-06-06
# オピニオンダイナミクスにおける計算エージェントに基づくモデル--社会的シミュレーションと実証的研究

Computational Agent-based Models in Opinion Dynamics: A Survey on Social Simulations and Empirical Studies ( http://arxiv.org/abs/2306.03446v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Timothy T. Rogers(参考訳) 他者の社会的影響によって個人の態度、信念、意見がどう変わるかを理解することは、その幅広い影響のために不可欠である。 社会的影響下での態度の変化を研究するのに使用される中核的な方法論はエージェントベースモデル(ABM)である。 本研究の目的は, 誘導型ABMと誘導型AMMの2つのファミリーに分類した既存のABMを比較し, 比較することである。 前者は社会シミュレーション研究を仮定し、後者は人間の実験を含む。 異なる定式化の ABM の比較を容易にするため,全 ABM を特殊ケースとみなす汎用的な定式化を提案する。 さらに, 誘導型ABMと誘導型ABMの関連性を示すとともに, その強度と限界を指摘する。 論文の最後に,未調査領域を特定し,今後の研究方向性を示唆する。

Understanding how an individual changes its attitude, belief, and opinion due to other people's social influences is vital because of its wide implications. A core methodology that is used to study the change of attitude under social influences is agent-based model (ABM). The goal of this review paper is to compare and contrast existing ABMs, which I classify into two families, the deductive ABMs and the inductive ABMs. The former subsumes social simulation studies, and the latter involves human experiments. To facilitate the comparison between ABMs of different formulations, I propose a general unified formulation, in which all ABMs can be viewed as special cases. In addition, I show the connections between deductive ABMs and inductive ABMs, and point out their strengths and limitations. At the end of the paper, I identify underexplored areas and suggest future research directions.
翻訳日:2023-06-07 16:53:46 公開日:2023-06-06
# MetaGait: 歩行認識のためのOmniサンプル適応表現の学習

MetaGait: Learning to Learn an Omni Sample Adaptive Representation for Gait Recognition ( http://arxiv.org/abs/2306.03445v1 )

ライセンス: Link先を確認
Huanzhang Dou, Pengyi Zhang, Wei Su, Yunlong Yu, and Xi Li(参考訳) 歩行パターンによる個人識別を目的とした歩行認識は,近年,研究の注目を集めている。 しかし、歩容認識は依然としてシルエットの限られた二項視覚手がかりと多様なスケールの多くの共変量との衝突に苦しめられているため、モデルの適応性に課題をもたらす。 本稿では,全サンプル適応表現を学ぶことを学ぶ新しいメタゲイトを開発することで,この対立に対処する。 この目標に向けて、metagaitはメタ知識を注入し、モデルがサンプル特有の特性を認識できるように誘導し、全規模、全次元、全プロセスの観点から適応性を改善するための注意機構のキャリブレーションネットワークにモデルを注入する。 具体的には,メタトリプル・アテンションとメタテンポラル・プールをそれぞれ提示し,空間的・チャネル的・時間的次元からオームニスケールの依存性を同時に捉えるとともに,3つの相補的時間的アグリゲーション手法の利点を統合することで時間的情報を適応的に集約する。 大規模な実験によって提案されたMetaGaitの最先端性能が実証された。 casia-bでは,3つの条件下でそれぞれ98.7%,96.0%,89.3%のランク-1精度を達成した。 OU-MVLPでは、ランク1の精度は92.4%である。

Gait recognition, which aims at identifying individuals by their walking patterns, has recently drawn increasing research attention. However, gait recognition still suffers from the conflicts between the limited binary visual clues of the silhouette and numerous covariates with diverse scales, which brings challenges to the model's adaptiveness. In this paper, we address this conflict by developing a novel MetaGait that learns to learn an omni sample adaptive representation. Towards this goal, MetaGait injects meta-knowledge, which could guide the model to perceive sample-specific properties, into the calibration network of the attention mechanism to improve the adaptiveness from the omni-scale, omni-dimension, and omni-process perspectives. Specifically, we leverage the meta-knowledge across the entire process, where Meta Triple Attention and Meta Temporal Pooling are presented respectively to adaptively capture omni-scale dependency from spatial/channel/temporal dimensions simultaneously and to adaptively aggregate temporal information through integrating the merits of three complementary temporal aggregation methods. Extensive experiments demonstrate the state-of-the-art performance of the proposed MetaGait. On CASIA-B, we achieve rank-1 accuracy of 98.7%, 96.0%, and 89.3% under three conditions, respectively. On OU-MVLP, we achieve rank-1 accuracy of 92.4%.
翻訳日:2023-06-07 16:53:32 公開日:2023-06-06
# 読解診断における読解精度の自動評価

Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics ( http://arxiv.org/abs/2306.03444v1 )

ライセンス: Link先を確認
Bo Molenaar, Cristian Tejedor-Garcia, Helmer Strik, Catia Cucchiarini(参考訳) 自動音声認識(asr)による読解変動の自動評価は,読解障害の早期検出とその後の時間的介入に大いに寄与する。 特に英語以外の言語では、正確な評価ツールが必要である。 本研究では,オランダ語読み上げ精度をKaldiとWhisperを用いて自動評価するための6つの最先端ASRシステムの評価を行った。 その結果,最も成功したシステムは人的評価(MCC=.63。 同じシステムは強制復号自信スコアと単語の正確性(r = .45)の最も高い相関に達した。 このシステムの言語モデル(LM)は、手動の書写とテストデータの読み出しプロンプトで構成されており、LMの読み出しエラーを含むと評価性能が向上することを示している。 自動評価システムの開発における意義と今後の研究の道筋について考察する。

Automatic assessment of reading fluency using automatic speech recognition (ASR) holds great potential for early detection of reading difficulties and subsequent timely intervention. Precise assessment tools are required, especially for languages other than English. In this study, we evaluate six state-of-the-art ASR-based systems for automatically assessing Dutch oral reading accuracy using Kaldi and Whisper. Results show our most successful system reached substantial agreement with human evaluations (MCC = .63). The same system reached the highest correlation between forced decoding confidence scores and word correctness (r = .45). This system's language model (LM) consisted of manual orthographic transcriptions and reading prompts of the test data, which shows that including reading errors in the LM improves assessment performance. We discuss the implications for developing automatic assessment systems and identify possible avenues of future research.
翻訳日:2023-06-07 16:53:04 公開日:2023-06-06
# ASRに基づく転写によるアルツハイマー病の分類 : 触覚とポーズの影響を探る

Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses ( http://arxiv.org/abs/2306.03443v1 )

ライセンス: Link先を確認
Luc\'ia G\'omez-Zaragoz\'a, Simone Wills, Cristian Tejedor-Garcia, Javier Mar\'in-Morales, Mariano Alca\~niz, Helmer Strik(参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は、世界でも有数の神経変性疾患である。 音声の分析は、その状態を特定する診断ツールとして機能する。 最近のADReSSチャレンジはAD分類のためのデータセットを提供し、手書き文字の実用性を強調した。 本研究では,新しい最先端音声認識モデルであるasr(state-of-the-art automatic speech recognition)を用いて,自動句読点を含む書き起こしを得る。 分類モデルは,手動とASRの書き起こしに対して,事前学習したFastTextワード埋め込みと繰り返しニューラルネットワークを組み合わせた0.854と0.833の精度スコアを得た。 また,ポーズ情報や句読点の影響についても検討した。 その結果, 句読解は一部の症例でわずかに改善しただけであり, ポーズエンコーディングは手動およびASRの転写におけるAD分類を助けた。

Alzheimer's Disease (AD) is the world's leading neurodegenerative disease, which often results in communication difficulties. Analysing speech can serve as a diagnostic tool for identifying the condition. The recent ADReSS challenge provided a dataset for AD classification and highlighted the utility of manual transcriptions. In this study, we used the new state-of-the-art Automatic Speech Recognition (ASR) model Whisper to obtain the transcriptions, which also include automatic punctuation. The classification models achieved test accuracy scores of 0.854 and 0.833 combining the pretrained FastText word embeddings and recurrent neural networks on manual and ASR transcripts respectively. Additionally, we explored the influence of including pause information and punctuation in the transcriptions. We found that punctuation only yielded minor improvements in some cases, whereas pause encoding aided AD classification for both manual and ASR transcriptions across all approaches investigated.
翻訳日:2023-06-07 16:52:51 公開日:2023-06-06
# 携帯電話データと位置情報ソーシャルネットワークの結合による人間活動の再構築

Reconstructing human activities via coupling mobile phone data with location-based social networks ( http://arxiv.org/abs/2306.03441v1 )

ライセンス: Link先を確認
Le Huang, Fan Xia, Hui Chen, Bowen Hu, Xiao Zhou, Chunxiao Li, Yaohui Jin, Yanyan Xu(参考訳) ビッグデータの時代において、位置情報対応携帯機器の普及は、住民の行動と構築された環境との相互作用を理解する前例のない機会を提供する。 広く使われているデータ資源のうち、携帯電話データは受動的に収集され、人口で最大の範囲を占めている。 しかし、モバイルオペレータはメーター内で1人のユーザを特定できないため、アクティビティ推論が困難になる。 そこで本稿では,携帯電話データと位置情報ソーシャルネットワーク(LBSN)データを結合することで,ユーザの行動を特定するためのデータ分析フレームワークを提案する。 2つのデータセットはベイズ推論モジュールに統合され、時間と空間の概日リズムを考慮している。 具体的には,各施設への到着時刻のパターンと施設の空間分布について考察する。 前者はLBSNデータから観測でき、後者はPOI(Point of interest)データセットによって提供される。 上海を例として,アクティブ携帯電話ユーザ1,000,000のアクティビティチェーンを再構築し,各アクティビティタイプの時間的・空間的特性を解析した。 本研究は,上海で収集された実世界のチェックインデータを用いて,人間活動の把握と分析を効果的に行うことができることを示す。 次に、ユーザの推定アクティビティチェーンをトピックモデルでクラスタ化し、異なるグループのユーザの振る舞いを理解する。 このデータ分析フレームワークは、ビッグデータ融合による都市規模での人口活動の再構築と理解の例を提供する。

In the era of big data, the ubiquity of location-aware portable devices provides an unprecedented opportunity to understand inhabitants' behavior and their interactions with the built environments. Among the widely used data resources, mobile phone data is the one passively collected and has the largest coverage in the population. However, mobile operators cannot pinpoint one user within meters, leading to the difficulties in activity inference. To that end, we propose a data analysis framework to identify user's activity via coupling the mobile phone data with location-based social networks (LBSN) data. The two datasets are integrated into a Bayesian inference module, considering people's circadian rhythms in both time and space. Specifically, the framework considers the pattern of arrival time to each type of facility and the spatial distribution of facilities. The former can be observed from the LBSN Data and the latter is provided by the points of interest (POIs) dataset. Taking Shanghai as an example, we reconstruct the activity chains of 1,000,000 active mobile phone users and analyze the temporal and spatial characteristics of each activity type. We assess the results with some official surveys and a real-world check-in dataset collected in Shanghai, indicating that the proposed method can capture and analyze human activities effectively. Next, we cluster users' inferred activity chains with a topic model to understand the behavior of different groups of users. This data analysis framework provides an example of reconstructing and understanding the activity of the population at an urban scale with big data fusion.
翻訳日:2023-06-07 16:52:34 公開日:2023-06-06
# ニューラルネットワークの変動崩壊の定量化

Quantifying the Variability Collapse of Neural Networks ( http://arxiv.org/abs/2306.03440v1 )

ライセンス: Link先を確認
Jing Xu, Haoxiong Liu(参考訳) 近年の研究では、ニューラルネットワークの転送可能性とラスト層の特徴のクラス内変動との正の関係が実証されている。 最近発見されたneural collapse (nc)現象は、ニューラルネットワークの最後の層構造を理解する新しい視点を提供する。 本稿では, NCパラダイムにおける変動崩壊現象を定量化するために, VCI(Variability Collapse Index)という新しい指標を提案する。 VCI測定値は、最終層の特徴に対する線形なプローブ損失と本質的に関係している。 さらに、逆線型変換や数値安定性の下での不変性を含む、望ましい理論的および経験的性質を享受し、それ以前の指標と区別する。 実験により,vciは,事前学習したニューラルネットワークの変動性崩壊と伝達性を示す。

Recent studies empirically demonstrate the positive relationship between the transferability of neural networks and the within-class variation of the last layer features. The recently discovered Neural Collapse (NC) phenomenon provides a new perspective of understanding such last layer geometry of neural networks. In this paper, we propose a novel metric, named Variability Collapse Index (VCI), to quantify the variability collapse phenomenon in the NC paradigm. The VCI metric is well-motivated and intrinsically related to the linear probing loss on the last layer features. Moreover, it enjoys desired theoretical and empirical properties, including invariance under invertible linear transformations and numerical stability, that distinguishes it from previous metrics. Our experiments verify that VCI is indicative of the variability collapse and the transferability of pretrained neural networks.
翻訳日:2023-06-07 16:52:09 公開日:2023-06-06
# 半監督残差変換器を用いた予算アノテーションを用いた効率的な異常検出

Efficient Anomaly Detection with Budget Annotation Using Semi-Supervised Residual Transformer ( http://arxiv.org/abs/2306.03492v1 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Hao Chen, Mingwen Wang, Chunhua Shen(参考訳) 異常検出は、通常、訓練中に通常のサンプルのみが見られ、検出器は飛行中の異常を検出する必要があるため、難しい。 最近提案されたディープラーニングベースのアプローチは、この問題を緩和する可能性があるが、実世界のアプリケーションのための産業レベルの異常検知器を得るには、まだまだ長い道のりがある。 一方、特定のADタスクでは、精度を高めるためにいくつかの異常サンプルを手動でラベル付けする。 しかし、このパフォーマンス向上にはかなりのアノテーションの努力が費やされているため、多くの実践的なシナリオでは難解である。 この作業では、上記の2つの問題は統一されたフレームワークで解決される。 まず、パッチマッチングベースのADアルゴリズムの成功に触発されて、新しい位置制約パッチマッチングによって生成される残差に対して、スライディングビジョン変換器を訓練する。 第二に、従来の画素ワイドセグメンテーション問題をブロックワイド分類問題に投入する。 これにより、スライディング変圧器は、アノテーションの手間をはるかに少なくして、さらに高い精度が得られる。 第3に,ラベル付けコストをさらに削減するために,境界ボックスのみを用いて異常領域をラベル付けすることを提案する。 弱ラベルによる未ラベル領域を、2つの新しいデータ拡張手法を備えた高度にカスタマイズされた半教師付き学習スキームを用いて効果的に活用する。 提案手法は,教師なしシナリオと教師なしシナリオの両方において,すべての評価指標を用いて,最先端手法を上回っている。 一般的なmvtec-adデータセットでは、semirestアルゴリズムは教師なし条件で81.2%、教師なし異常検出で84.4%の平均精度(ap)を得る。 意外なことに、バウンディングボックスベースのセミスーパービジョンでは、SemiRESTはMVTec-AD上で完全な監視(83.8%AP)でSOTAメソッドよりも優れています。

Anomaly Detection is challenging as usually only the normal samples are seen during training and the detector needs to discover anomalies on-the-fly. The recently proposed deep-learning-based approaches could somehow alleviate the problem but there is still a long way to go in obtaining an industrial-class anomaly detector for real-world applications. On the other hand, in some particular AD tasks, a few anomalous samples are labeled manually for achieving higher accuracy. However, this performance gain is at the cost of considerable annotation efforts, which can be intractable in many practical scenarios. In this work, the above two problems are addressed in a unified framework. Firstly, inspired by the success of the patch-matching-based AD algorithms, we train a sliding vision transformer over the residuals generated by a novel position-constrained patch-matching. Secondly, the conventional pixel-wise segmentation problem is cast into a block-wise classification problem. Thus the sliding transformer can attain even higher accuracy with much less annotation labor. Thirdly, to further reduce the labeling cost, we propose to label the anomalous regions using only bounding boxes. The unlabeled regions caused by the weak labels are effectively exploited using a highly-customized semi-supervised learning scheme equipped with two novel data augmentation methods. The proposed method outperforms all the state-of-the-art approaches using all the evaluation metrics in both the unsupervised and supervised scenarios. On the popular MVTec-AD dataset, our SemiREST algorithm obtains the Average Precision (AP) of 81.2% in the unsupervised condition and 84.4% AP for supervised anomaly detection. Surprisingly, with the bounding-box-based semi-supervisions, SemiREST still outperforms the SOTA methods with full supervision (83.8% AP) on MVTec-AD.
翻訳日:2023-06-07 16:44:28 公開日:2023-06-06
# SciCap+:科学的フィギュアキャプションの課題を研究するための知識強化データセット

SciCap+: A Knowledge Augmented Dataset to Study the Challenges of Scientific Figure Captioning ( http://arxiv.org/abs/2306.03491v1 )

ライセンス: Link先を確認
Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki(参考訳) 学術文献では、数字は科学的な発見を読者に伝える直接的な方法を提供する。 図キャプション生成の自動化は、科学文書のモデル理解をテキストを超えて移動させ、著者が科学的な発見を伝えるのに役立つ情報キャプションを書くのに役立つ。 従来の研究とは異なり、モデルがキャプション生成のためにモダリティに埋め込まれた知識を活用すべき知識提示画像キャプションタスクとして、科学的な図形キャプションを再構成する。 この目的のために、大規模なSciCapデータセット~\cite{hsu-etal-2021-scicap-generating}をSciCap+に拡張した。 そこで本研究では,M4C-Captioner(ポインタネットワークを持つマルチモーダルトランスフォーマーモデル)をベースラインとして実験を行った。 その結果,参照パラグラフは付加的な文脈知識として機能し,図形のみのベースラインと比較すると,画像の自動キャプション評価スコアが大幅に向上することがわかった。 人間の評価は、読者に有益な図形キャプションを生成するという課題をさらに明らかにする。 codeとSciCap+データセットはhttps://github.com/ZhishenYang/scientific_figure_captioning_datasetで公開される。

In scholarly documents, figures provide a straightforward way of communicating scientific findings to readers. Automating figure caption generation helps move model understandings of scientific documents beyond text and will help authors write informative captions that facilitate communicating scientific findings. Unlike previous studies, we reframe scientific figure captioning as a knowledge-augmented image captioning task that models need to utilize knowledge embedded across modalities for caption generation. To this end, we extended the large-scale SciCap dataset~\cite{hsu-etal-2021-scicap-generating} to SciCap+ which includes mention-paragraphs (paragraphs mentioning figures) and OCR tokens. Then, we conduct experiments with the M4C-Captioner (a multimodal transformer-based model with a pointer network) as a baseline for our study. Our results indicate that mention-paragraphs serves as additional context knowledge, which significantly boosts the automatic standard image caption evaluation scores compared to the figure-only baselines. Human evaluations further reveal the challenges of generating figure captions that are informative to readers. The code and SciCap+ dataset will be publicly available at https://github.com/ZhishenYang/scientific_figure_captioning_dataset
翻訳日:2023-06-07 16:43:57 公開日:2023-06-06
# 動的フィールドプログラム可能な中性原子配列プロセッサのための量子回路のコンパイル

Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v1 )

ライセンス: Link先を確認
Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong(参考訳) dynamic field-programmable qubit arrays (dpqa) は量子情報処理の有望なプラットフォームとして最近登場した。 dpqaでは、原子量子ビットを光学トラップの配列に選択的にロードし、計算自体中に再構成することができる。 量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。 このような再構成可能性と非ローカル接続性は、特にキュービットを配置し、ゲートをスケジュールするレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。 本稿では,複数の配列を含むdpqaアーキテクチャを検討し,最先端の実験プラットフォームを表現した2次元アレイ動作をサポートする。 このアーキテクチャでは、状態空間とレイアウト合成を、回路深度の観点から、既存の解法によって最適に解ける満足なモジュラー理論問題として識別する。 複雑なコネクティビティを持つランダムグラフによって生成される一連のベンチマーク回路に対して,本コンパイラ olsq-dpqa は,固定平面アーキテクチャにおける最適コンパイル結果と比較して,小問題インスタンス上の2量子ゲート数を1.7倍削減する。 本手法のスケーラビリティと実用性をさらに高めるために,古典的集積回路ルーティングにおける反復剥離アプローチに触発された欲深いヒューリスティックを提案する。 グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバーヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。 これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。

Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfactory modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices.
翻訳日:2023-06-07 16:43:35 公開日:2023-06-06
# 検索と聞き取り:音声ガイドによるテキスト認識

Looking and Listening: Audio Guided Text Recognition ( http://arxiv.org/abs/2306.03482v1 )

ライセンス: Link先を確認
Wenwen Yu, Mingyu Liu, Biao Yang, Enming Zhang, Deqiang Jiang, Xing Sun, Yuliang Liu, Xiang Bai(参考訳) テキスト認識は、コンピュータビジョンにおける長年の問題である。 エンド・ツー・エンドのディープラーニングによって駆動される最近の研究は、視覚と言語処理がシーンテキスト認識に有効であることを示唆している。 しかし、既存のアプローチでは、追加、削除、置換などの編集エラーを解決することが大きな課題である。 実際、テキストの内容と音声は互いに自然に対応しており、例えば1文字の誤りははっきりと異なる発音をもたらす可能性がある。 本稿では,AudioOCRを提案する。AudioOCRはメルスペクトログラムシーケンス予測のためのシンプルで効果的な確率的オーディオデコーダで,シーンテキスト認識を誘導する。 AudioOCRの基本原理は、既存のアプローチに容易に適用できる。 既存の正則, 不規則, 暗黙のベンチマーク12項目に対して, 先行する7場面のテキスト認識手法を用いた実験により, 提案手法が一貫した改善をもたらすことを実証した。 さらに重要なことは、実験を通じて、AudioOCRは、非英語のテキスト認識、語彙外単語、様々なアクセント付きテキストなど、より困難なシナリオにまで及ぶ一般化性を持っていることを示しています。 コードはhttps://github.com/wenwenyu/AudioOCRで入手できる。

Text recognition in the wild is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest vision and language processing are effective for scene text recognition. Yet, solving edit errors such as add, delete, or replace is still the main challenge for existing approaches. In fact, the content of the text and its audio are naturally corresponding to each other, i.e., a single character error may result in a clear different pronunciation. In this paper, we propose the AudioOCR, a simple yet effective probabilistic audio decoder for mel spectrogram sequence prediction to guide the scene text recognition, which only participates in the training phase and brings no extra cost during the inference stage. The underlying principle of AudioOCR can be easily applied to the existing approaches. Experiments using 7 previous scene text recognition methods on 12 existing regular, irregular, and occluded benchmarks demonstrate our proposed method can bring consistent improvement. More importantly, through our experimentation, we show that AudioOCR possesses a generalizability that extends to more challenging scenarios, including recognizing non-English text, out-of-vocabulary words, and text with various accents. Code will be available at https://github.com/wenwenyu/AudioOCR.
翻訳日:2023-06-07 16:43:03 公開日:2023-06-06
# 量子機械学習における絡み合ったデータの遷移的役割

Transition role of entangled data in quantum machine learning ( http://arxiv.org/abs/2306.03481v1 )

ライセンス: Link先を確認
Xinbiao Wang, Yuxuan Du, Zhuozhuo Tu, Yong Luo, Xiao Yuan, Dacheng Tao(参考訳) エンタングルメントは量子コンピューティングを力づけるリソースとして機能する。 最近の進歩は量子力学の学習に対する肯定的な影響を強調しており、量子演算への絡み合いの統合や量子機械学習(QML)モデルの測定により、特定の予測エラーしきい値を超えた、トレーニングデータサイズが大幅に削減される。 しかし、データ内の絡み合い度がモデル性能にどのように影響するかを解析的に理解する。 本研究では,この知識ギャップを,絡み合ったデータを用いて量子力学を学習する量子ノーランチ(NFL)定理を確立することによって解決する。 従来の知見とは対照的に, 絡み合ったデータが予測誤差に与える影響は, 許容された測定値の数に応じて二重効果を示すことを示す。 十分な数の測定で、トレーニングデータの絡み合いを増大させることで、予測誤差を一貫して減らしたり、トレーニングデータの必要なサイズを減らして、同じ予測誤差を達成することができる。 逆に、少ない測定が許される場合、高度に絡み合ったデータを使用することで予測エラーが増大する可能性がある。 得られた結果は、特に量子リソースへのアクセスが制限されたアーリーステージ量子コンピュータ上での実行に適した、高度なQMLプロトコルを設計するための重要なガイダンスを提供する。

Entanglement serves as the resource to empower quantum computing. Recent progress has highlighted its positive impact on learning quantum dynamics, wherein the integration of entanglement into quantum operations or measurements of quantum machine learning (QML) models leads to substantial reductions in training data size, surpassing a specified prediction error threshold. However, an analytical understanding of how the entanglement degree in data affects model performance remains elusive. In this study, we address this knowledge gap by establishing a quantum no-free-lunch (NFL) theorem for learning quantum dynamics using entangled data. Contrary to previous findings, we prove that the impact of entangled data on prediction error exhibits a dual effect, depending on the number of permitted measurements. With a sufficient number of measurements, increasing the entanglement of training data consistently reduces the prediction error or decreases the required size of the training data to achieve the same prediction error. Conversely, when few measurements are allowed, employing highly entangled data could lead to an increased prediction error. The achieved results provide critical guidance for designing advanced QML protocols, especially for those tailored for execution on early-stage quantum computers with limited access to quantum resources.
翻訳日:2023-06-07 16:42:43 公開日:2023-06-06
# gshot:ラベル付きグラフの少ない生成モデル

GSHOT: Few-shot Generative Modeling of Labeled Graphs ( http://arxiv.org/abs/2306.03480v1 )

ライセンス: Link先を確認
Sahil Manchanda, Shubham Gupta, Sayan Ranu, Srikanta Bedathur(参考訳) 近年、深層グラフ生成モデリングは、基盤となる隠れグラフ分布を直接学習する能力によって、大きな注目を集めている。 初期の成功にもかかわらず、これらのテクニックは既存の多くの深層生成手法と同様に、優れたモデルを学ぶために多くのトレーニングサンプルを必要とする。 残念なことに、多くのトレーニングサンプルは、希少な疾患の薬物発見のようなシナリオで常に利用できるとは限らない。 同時に、数発学習の最近の進歩は、利用可能なトレーニングデータが制限されたアプリケーションへの扉を開いた。 本稿では,数ショットグラフ生成モデリングの非探索的パラダイムを紹介する。 これに向けて我々は,限定ラベルグラフ生成モデリングのためのメタラーニングベースのフレームワークであるgshotを開発した。 GSHOTは、類似のグラフデータセットからメタ知識の転送を学ぶ。 これらの経験を生かして、GSHOTは、セルフペースの微調整を通じて、目に見えないグラフデータセットに迅速に適応する。 トレーニングサンプルが限られている多様なドメインからのデータセットに関する広範な実験により、GSHOTは既存のベースラインに比べて優れた忠実度グラフを生成することが判明した。

Deep graph generative modeling has gained enormous attraction in recent years due to its impressive ability to directly learn the underlying hidden graph distribution. Despite their initial success, these techniques, like much of the existing deep generative methods, require a large number of training samples to learn a good model. Unfortunately, large number of training samples may not always be available in scenarios such as drug discovery for rare diseases. At the same time, recent advances in few-shot learning have opened door to applications where available training data is limited. In this work, we introduce the hitherto unexplored paradigm of few-shot graph generative modeling. Towards this, we develop GSHOT, a meta-learning based framework for few-shot labeled graph generative modeling. GSHOT learns to transfer meta-knowledge from similar auxiliary graph datasets. Utilizing these prior experiences, GSHOT quickly adapts to an unseen graph dataset through self-paced fine-tuning. Through extensive experiments on datasets from diverse domains having limited training samples, we establish that GSHOT generates graphs of superior fidelity compared to existing baselines.
翻訳日:2023-06-07 16:42:21 公開日:2023-06-06
# 画像キャプションループに人間を配置する

Putting Humans in the Image Captioning Loop ( http://arxiv.org/abs/2306.03476v1 )

ライセンス: Link先を確認
Aliki Anagnostopoulou and Mareike Hartmann and Daniel Sonntag(参考訳) 画像キャプション(ic)モデルは、特にデータが制限された場合において、トレーニングプロセスにおける人間のフィードバックの恩恵を受ける。 我々は、ユーザ固有のデータに容易に適応できるようにすることを目的として、人間のフィードバックを統合するため、ICシステムに適応する作業を行う。 提案手法は,MS COCOデータセットに基づいて事前学習したベースICモデルに基づいて,未確認画像のキャプションを生成する。 ユーザは、画像と生成された/予測されたキャプションに対するフィードバックを提供することができ、モデル適応のための追加のトレーニングインスタンスを作成することができる。 追加インスタンスはステップワイズアップデートを使用してモデルに統合され、破滅的な忘れ物を避けるためにスパースメモリ再生コンポーネントが使用される。 このアプローチが結果の改善につながる一方で、カスタマイズ可能なICモデルも実現することを期待しています。

Image Captioning (IC) models can highly benefit from human feedback in the training process, especially in cases where data is limited. We present work-in-progress on adapting an IC system to integrate human feedback, with the goal to make it easily adaptable to user-specific data. Our approach builds on a base IC model pre-trained on the MS COCO dataset, which generates captions for unseen images. The user will then be able to offer feedback on the image and the generated/predicted caption, which will be augmented to create additional training instances for the adaptation of the model. The additional instances are integrated into the model using step-wise updates, and a sparse memory replay component is used to avoid catastrophic forgetting. We hope that this approach, while leading to improved results, will also result in customizable IC models.
翻訳日:2023-06-07 16:42:06 公開日:2023-06-06
# 構造意味マッチングによる共同イベント抽出

Joint Event Extraction via Structural Semantic Matching ( http://arxiv.org/abs/2306.03469v1 )

ライセンス: Link先を確認
Haochen Li, Tianhao Gao, Jingkun Wang, Weiping Li(参考訳) イベント抽出(EE)は、テキストからイベント参照を検出し、対応する引数ロールを見つけることを目的として、情報抽出において不可欠なタスクの1つである。 eeタスクは、イベントタイプの意味定義と引数構造とターゲットテキストとをマッチングするプロセスとして抽象化することができる。 本稿では,イベントタイプの意味的特徴をエンコードし,対象テキストと構造的マッチングを行う。 具体的には、セマンティック型埋め込み(STE)と動的構造エンコーダ(DSE)モジュールを提案する。 また、連立構造セマンティックマッチング(JSSM)モデルを構築し、双方向の注意層を通してイベント検出と引数抽出タスクを共同で行う。 ace2005データセットの実験結果から,本モデルの性能向上が期待できる。

Event Extraction (EE) is one of the essential tasks in information extraction, which aims to detect event mentions from text and find the corresponding argument roles. The EE task can be abstracted as a process of matching the semantic definitions and argument structures of event types with the target text. This paper encodes the semantic features of event types and makes structural matching with target text. Specifically, Semantic Type Embedding (STE) and Dynamic Structure Encoder (DSE) modules are proposed. Also, the Joint Structural Semantic Matching (JSSM) model is built to jointly perform event detection and argument extraction tasks through a bidirectional attention layer. The experimental results on the ACE2005 dataset indicate that our model achieves a significant performance improvement
翻訳日:2023-06-07 16:41:53 公開日:2023-06-06
# ポアソン逆問題に対する収束ブラグマンプラグアンドプレイ画像復元法

Convergent Bregman Plug-and-Play Image Restoration for Poisson Inverse Problems ( http://arxiv.org/abs/2306.03466v1 )

ライセンス: Link先を確認
Samuel Hurault, Ulugbek Kamilov, Arthur Leclaire, Nicolas Papadakis(参考訳) Plug-and-Play (PnP) 法は画像逆問題に対する効率的な反復アルゴリズムである。 PnP法は, 近位演算子の代わりに深いガウスデノイザ, あるいは近位アルゴリズムの勾配差ステップを用いて得られる。 現在のpnpスキームはリプシッツ勾配を持つデータ忠実性項やポアソン逆問題には適用されない閉形式近距離作用素に依存する。 この設定においてガウス雑音が適切な雑音モデルではないという観測に基づいて,BPG法を用いてPnPの一般化を提案する。 BPGはユークリッド距離をブレグマン発散に置き換え、問題の滑らかさ特性をよりよく捉えることができる。 ブレグマン・スコア・デノイザー(Bregman Score Denoiser)は、新しいブレグマン幾何学のパラメータ化と訓練を行い、非凸ポテンシャルの近作用素に対応することを示す。 本稿では,Poisson逆問題に対するBregman Score Denoiserに基づく2つのPnPアルゴリズムを提案する。 非凸条件下でのBPGの収束結果を拡張することにより,提案手法が収束し,グローバル関数の定常点を対象とすることを示す。 各種ポアソン逆問題に対する実験的評価は, 収束結果を検証し, 有効復元性能を示す。

Plug-and-Play (PnP) methods are efficient iterative algorithms for solving ill-posed image inverse problems. PnP methods are obtained by using deep Gaussian denoisers instead of the proximal operator or the gradient-descent step within proximal algorithms. Current PnP schemes rely on data-fidelity terms that have either Lipschitz gradients or closed-form proximal operators, which is not applicable to Poisson inverse problems. Based on the observation that the Gaussian noise is not the adequate noise model in this setting, we propose to generalize PnP using theBregman Proximal Gradient (BPG) method. BPG replaces the Euclidean distance with a Bregman divergence that can better capture the smoothness properties of the problem. We introduce the Bregman Score Denoiser specifically parametrized and trained for the new Bregman geometry and prove that it corresponds to the proximal operator of a nonconvex potential. We propose two PnP algorithms based on the Bregman Score Denoiser for solving Poisson inverse problems. Extending the convergence results of BPG in the nonconvex settings, we show that the proposed methods converge, targeting stationary points of an explicit global functional. Experimental evaluations conducted on various Poisson inverse problems validate the convergence results and showcase effective restoration performance.
翻訳日:2023-06-07 16:41:42 公開日:2023-06-06
# プログラム合成による自然言語指令

Natural Language Commanding via Program Synthesis ( http://arxiv.org/abs/2306.03460v1 )

ライセンス: Link先を確認
Apurva Gandhi, Thong Q. Nguyen, Huitian Jiao, Robert Steen, Ameya Bhatawdekar(参考訳) アプリケーション機能間でユーザインテントを実行するために,大規模な言語モデル(LLM)を活用するMicrosoft Officeのような生産性ソフトウェア用の自然言語フレンドリなAIシステムであるSemantic Interpreterを提案する。 LLMは自然言語として表現されるユーザ意図を理解するのに優れていますが、テキストからテキストへの変換以上のアプリケーション固有のユーザ意図を満たすには不十分です。 そこで我々は,officeアプリケーションにおけるエンティティの動作や操作に特化した,簡潔でハイレベルな言語であるoffice domain specific language (odsl)を紹介する。 Semantic Interpreterは、LLMを用いた解析-検索プロンプト構築法を利用して、自然言語のユーザ発話をODSLプログラムに変換し、アプリケーションAPIに変換して実行します。 私たちは主にMicrosoft PowerPointの研究に焦点をあてています。

We present Semantic Interpreter, a natural language-friendly AI system for productivity software such as Microsoft Office that leverages large language models (LLMs) to execute user intent across application features. While LLMs are excellent at understanding user intent expressed as natural language, they are not sufficient for fulfilling application-specific user intent that requires more than text-to-text transformations. We therefore introduce the Office Domain Specific Language (ODSL), a concise, high-level language specialized for performing actions in and interacting with entities in Office applications. Semantic Interpreter leverages an Analysis-Retrieval prompt construction method with LLMs for program synthesis, translating natural language user utterances to ODSL programs that can be transpiled to application APIs and then executed. We focus our discussion primarily on a research exploration for Microsoft PowerPoint.
翻訳日:2023-06-07 16:41:19 公開日:2023-06-06
# Mega-TTS:内因性誘導バイアスによるゼロショットテキスト音声合成

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias ( http://arxiv.org/abs/2306.03509v1 )

ライセンス: Link先を確認
Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao(参考訳) テキストから音声への拡大は、特にゼロショットttsにおいて、音色と音声スタイルの一般化を達成する上で非常に効果的であることが証明されている。 しかし、従来の作品では音声コーデックを用いて音声を潜在言語にエンコードし、それを生成するために自己回帰言語モデルや拡散モデルを使用していた。 音声は複数の属性(例えば、内容、音色、韻律、位相)に分解でき、それぞれが適切な帰納バイアスを持つモジュールを用いてモデル化されるべきである。 この観点から,大規模野生データを用いて訓練し,異なる属性を異なる方法でモデル化する,mega-ttsと呼ばれる新規で大規模なゼロショットttsシステムを慎重に設計する。 1) 音声コーデックで符号化された潜伏音を中間機能として使用する代わりに, 位相と他の属性を非常によく分離するため, スペクトログラムを選択する。 フェーズはGANベースのボコーダで適切に構築することができ、言語モデルでモデル化される必要はない。 2) 音色は時間とともにゆっくりと変化するグローバル属性であるため,グローバルベクトルを用いて音色をモデル化する。 3)VQGANをベースとした音響モデルを用いて,韻律の分布に適合するスペクトルと潜在コード言語モデルを生成する。 メガttsを20万時間の音声によるマルチドメインデータセットにスケールし,その性能評価を行った。 実験の結果,Mega-TTS はゼロショット TTS,音声編集,言語間 TTS タスクで最先端の TTS システムを超え,各モジュールの固有帰納バイアスによる自然性,頑健性,話者類似性に優れていた。 オーディオサンプルはhttps://mega-tts.github.io/demo-pageで入手できる。

Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.
翻訳日:2023-06-07 16:37:13 公開日:2023-06-06
# コントラスト損失とマルチデータセット学習によるVSPWデータセットのセマンティックセグメンテーション

Semantic Segmentation on VSPW Dataset through Contrastive Loss and Multi-dataset Training Approach ( http://arxiv.org/abs/2306.03508v1 )

ライセンス: Link先を確認
Min Yan, Qianxiong Ning, Qian Wang(参考訳) ビデオシーン解析には時間情報が含まれており、画像シーン解析と比較して予測の一貫性と正確性を高めることができる。 時間次元を追加することで、シーンのより包括的な理解が可能になり、より信頼性の高い結果が得られる。 本稿では,ビデオセマンティックセグメンテーションのためのCVPR2023ワークショップの優勝ソリューションを提案する。 また,ラベルマッピング技術を利用したマルチデータセット学習の影響についても検討する。 最後の結果は、上記の2つのモデルの出力を集約することです。 CVPR 2023のVSPWチャレンジでは,VSPWデータセット上で65.95% mIoUのパフォーマンスを達成した。

Video scene parsing incorporates temporal information, which can enhance the consistency and accuracy of predictions compared to image scene parsing. The added temporal dimension enables a more comprehensive understanding of the scene, leading to more reliable results. This paper presents the winning solution of the CVPR2023 workshop for video semantic segmentation, focusing on enhancing Spatial-Temporal correlations with contrastive loss. We also explore the influence of multi-dataset training by utilizing a label-mapping technique. And the final result is aggregating the output of the above two models. Our approach achieves 65.95% mIoU performance on the VSPW dataset, ranked 1st place on the VSPW challenge at CVPR 2023.
翻訳日:2023-06-07 16:36:36 公開日:2023-06-06
# A little is Enough":Few-Shot Quality Estimation based Corpus Filtering による機械翻訳の改善

"A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering improves Machine Translation ( http://arxiv.org/abs/2306.03507v1 )

ライセンス: Link先を確認
Akshay Batheja, Pushpak Bhattacharyya(参考訳) 品質評価(QE)は、参照翻訳が利用できない場合に翻訳の品質を評価するタスクである。 QEの目標はコーパスフィルタリングのタスクと一致し、そこで擬並列コーパスに存在する文対に品質スコアを割り当てる。 疑似並列コーパスから高品質並列データを抽出するための品質推定に基づくフィルタリング手法を提案する。 私たちの知る限りでは、これは疑似並列コーパスから品質並列コーパスを抽出するためのqeフレームワークの新しい適応である。 このフィルタコーパスを用いて学習することにより,英語・マラタイ語・中国語・ヒンディー語・ベンガル語をベースラインモデルで最大1.8BLEU点の機械翻訳(MT)システムの性能向上を観察する。 ベースラインモデルは、擬似並列コーパス全体をトレーニングしたモデルである。 英語とマラソンのQEモデルから学習し,500のヒンディー・ベンガル語訓練インスタンスで微調整を行った結果,ヒンディー・ベンガル語対に対する最大0.6のBLEU点がベースラインモデルと比較された。 これは、議論中の環境での転校学習の約束を示しています。 QEシステムは通常、訓練データの順番(7K-25K)を必要とする。 当社のHindi-Bengali QEは、通常の要件の1/40のトレーニングインスタンスでトレーニングされており、同等のパフォーマンスを実現しています。 この研究で使用されるスクリプトとデータセットはすべて、公開される予定である。

Quality Estimation (QE) is the task of evaluating the quality of a translation when reference translation is not available. The goal of QE aligns with the task of corpus filtering, where we assign the quality score to the sentence pairs present in the pseudo-parallel corpus. We propose a Quality Estimation based Filtering approach to extract high-quality parallel data from the pseudo-parallel corpus. To the best of our knowledge, this is a novel adaptation of the QE framework to extract quality parallel corpus from the pseudo-parallel corpus. By training with this filtered corpus, we observe an improvement in the Machine Translation (MT) system's performance by up to 1.8 BLEU points, for English-Marathi, Chinese-English, and Hindi-Bengali language pairs, over the baseline model. The baseline model is the one that is trained on the whole pseudo-parallel corpus. Our Few-shot QE model transfer learned from the English-Marathi QE model and fine-tuned on only 500 Hindi-Bengali training instances, shows an improvement of up to 0.6 BLEU points for Hindi-Bengali language pair, compared to the baseline model. This demonstrates the promise of transfer learning in the setting under discussion. QE systems typically require in the order of (7K-25K) of training data. Our Hindi-Bengali QE is trained on only 500 instances of training that is 1/40th of the normal requirement and achieves comparable performance. All the scripts and datasets utilized in this study will be publicly available.
翻訳日:2023-06-07 16:36:24 公開日:2023-06-06
# サブグラフネットワークによるコントラスト学習

Subgraph Networks Based Contrastive Learning ( http://arxiv.org/abs/2306.03506v1 )

ライセンス: Link先を確認
Jinhuan Wang, Jiafei Shao, Zeyu Wang, Shanqing Yu, Qi Xuan, Xiaoniu Yang(参考訳) 自己教師付き学習方法としてのグラフコントラスト学習(gcl)は、注釈付きデータ不足の問題を解決する。 注釈のないグラフの明示的な特徴を発掘し、下流タスクに好適なグラフ表現を生成する。 既存のgcl法はグラフ拡張戦略と相互情報推定操作の設計に焦点を当てている。 グラフ拡大はグラフ摂動による拡張ビューを生成する。 これらのビューは局所的に類似した構造を保持し、明示的な特徴を利用する。 しかし、これらの手法はサブグラフに存在する相互作用を考慮していない。 グラフ表現に対する部分構造相互作用の影響を検討するために,サブグラフネットワークに基づくコントラスト学習(SGNCL)と呼ばれる新しいフレームワークを提案する。 sgnclは拡張ビューを生成するためにサブグラフネットワーク生成戦略を適用する。 この戦略は、元のグラフをトポロジと属性の両方の特徴を持つエッジ-ノードマッピングネットワークに変換する。 シングルショット拡張ビューは、ノード、ノードエッジ、エッジ間のインタラクションをマイニングする、一階サブグラフネットワークである。 さらに,第2次部分グラフの増大がマイニンググラフ構造相互作用に与える影響についても検討し,第1次および第2次部分グラフ情報を融合するコントラスト目的を提案する。 我々はSGNCLを、異なる領域の複数のベンチマークデータセット上で、古典的および最先端のグラフコントラスト学習手法と比較する。 大規模な実験により、SGNCLは教師なしの学習環境において、すべてのデータセット上で、競争力またはより良いパフォーマンス(トップ3)を達成することが示された。 さらに、SGNCLは、最良の方法と比較して、転送学習の6.9\%の平均ゲインを達成する。 最後に、実験は、マイニングサブストラクチャー相互作用がグラフコントラスト学習にポジティブな意味を持つことを示した。

Graph contrastive learning (GCL), as a self-supervised learning method, can solve the problem of annotated data scarcity. It mines explicit features in unannotated graphs to generate favorable graph representations for downstream tasks. Most existing GCL methods focus on the design of graph augmentation strategies and mutual information estimation operations. Graph augmentation produces augmented views by graph perturbations. These views preserve a locally similar structure and exploit explicit features. However, these methods have not considered the interaction existing in subgraphs. To explore the impact of substructure interactions on graph representations, we propose a novel framework called subgraph network-based contrastive learning (SGNCL). SGNCL applies a subgraph network generation strategy to produce augmented views. This strategy converts the original graph into an Edge-to-Node mapping network with both topological and attribute features. The single-shot augmented view is a first-order subgraph network that mines the interaction between nodes, node-edge, and edges. In addition, we also investigate the impact of the second-order subgraph augmentation on mining graph structure interactions, and further, propose a contrastive objective that fuses the first-order and second-order subgraph information. We compare SGNCL with classical and state-of-the-art graph contrastive learning methods on multiple benchmark datasets of different domains. Extensive experiments show that SGNCL achieves competitive or better performance (top three) on all datasets in unsupervised learning settings. Furthermore, SGNCL achieves the best average gain of 6.9\% in transfer learning compared to the best method. Finally, experiments also demonstrate that mining substructure interactions have positive implications for graph contrastive learning.
翻訳日:2023-06-07 16:35:55 公開日:2023-06-06
# ada-tta: 適応型高品質テキスト対話アバター合成に向けて

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis ( http://arxiv.org/abs/2306.03504v1 )

ライセンス: Link先を確認
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao(参考訳) 私たちは新しいタスク、すなわち低リソースのテキスト対トークアバターに興味を持っています。 音声トラックをトレーニングデータとし、任意のテキストを駆動入力とする数分間の会話人ビデオと、入力テキストに対応する高品質な音声肖像画を合成することを目的としている。 この課題は,デジタルヒューマン産業において広く応用されるが,(1)従来のマルチスピーカーテキスト音声合成システムにおいて,ドメイン外オーディオの音色を模倣することは困難である。 2) 訓練データによる高忠実度・リップ同期音声アバターのレンダリングは困難である。 本稿では,(1)テキストの内容,音色,韻律をうまく切り離す汎用的なゼロショットマルチスピーカTSモデルを設計したAdaptive Text-to-Talking Avatar(Ada-TTA)について紹介する。 これらの設計により, 上記の2つの課題を克服し, 身元保存音声と実話映像を生成する。 実験により,本手法が現実的,アイデンティティ保存,音声-視覚同期音声アバター映像を合成できることが実証された。

We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
翻訳日:2023-06-07 16:35:10 公開日:2023-06-06
# 大規模言語モデルにおける上流・下流倫理の推進のための標準の適用

Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models ( http://arxiv.org/abs/2306.03503v1 )

ライセンス: Link先を確認
Jose Berengueres and Marybeth Sandell(参考訳) 本稿では、他のコンテンツ制作業界における行動規範や倫理基準から、AIが生成するコンテンツに対する保護を開発する方法について考察する。 これは、Large Language Models (LLMs) に対する倫理的意識の現在の状態に根ざしている。 LLMによるコンテンツ生成のメカニズムを解明することにより、安全ガードを効果的に適用可能な4つのキー領域(上流/下流およびユーザプロンプト/アンサー)を同定する。 これら4つの分野の比較分析は、コスト、有効性、および確立された産業慣行との整合性の観点から、既存の倫理的保護の評価を含む。 論文の重要な論点は、既存のIT関連倫理コードは、従来のITエンジニアリングには適していないが、LCMベースのコンテンツ生成がもたらす課題には不十分であるということである。 ジャーナリズムの確立した実践から,llm生成コンテンツの配布と販売に関わるビジネスの潜在的な標準を提案する。 最後に、上流のデータセットキュレーションと下流の倫理的ベンチマークの間の潜在的な関心の衝突が強調され、単なるアウトプット以上の広範な評価の必要性が強調される。 この研究は、この急速に進化するコンテンツ生成の分野における倫理的意味に関する微妙な議論を促す。

This paper explores how AI-owners can develop safeguards for AI-generated content by drawing from established codes of conduct and ethical standards in other content-creation industries. It delves into the current state of ethical awareness on Large Language Models (LLMs). By dissecting the mechanism of content generation by LLMs, four key areas (upstream/downstream and at user prompt/answer), where safeguards could be effectively applied, are identified. A comparative analysis of these four areas follows and includes an evaluation of the existing ethical safeguards in terms of cost, effectiveness, and alignment with established industry practices. The paper's key argument is that existing IT-related ethical codes, while adequate for traditional IT engineering, are inadequate for the challenges posed by LLM-based content generation. Drawing from established practices within journalism, we propose potential standards for businesses involved in distributing and selling LLM-generated content. Finally, potential conflicts of interest between dataset curation at upstream and ethical benchmarking downstream are highlighted to underscore the need for a broader evaluation beyond mere output. This study prompts a nuanced conversation around ethical implications in this rapidly evolving field of content generation.
翻訳日:2023-06-07 16:34:15 公開日:2023-06-06
# ロシア・ウクライナ戦争:twitter停止の予測と説明

Russo-Ukrainian War: Prediction and explanation of Twitter suspension ( http://arxiv.org/abs/2306.03502v1 )

ライセンス: Link先を確認
Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Ioannis Kontogiorgakis, Polyvios Pratikakis, Sotiris Ioannidis(参考訳) 2022年2月24日、ロシアはウクライナに侵攻し、現在ロシア・ウクライナ戦争と呼ばれる戦争が始まった。 Twitterは、オープンで民主的な性格を持つ最も人気のあるSNの1つであり、大きなユーザー層の間で透明な議論を可能にしている。 残念ながら、これはTwitterのポリシー違反、プロパガンダ、虐待行為、公民権侵害、結果としてユーザーアカウントの停止と削除につながることが多い。 本研究は,twitterのサスペンション機構と,これにつながる可能性のあるユーザアカウントの共有コンテンツと機能の解析に焦点を当てている。 この目標に向けて、Twitter APIを使用して、980万人のユーザーから生まれた107.7万のツイートを含むデータセットを得た。 懸濁アカウントの共有コンテンツのカテゴリを抽出し,コサイン類似度クラスタリングと結合したテキスト埋め込みの抽出を通じてその特徴を説明する。 当社の調査結果は、ロシアとウクライナのbitcoin紛争やethereum詐欺、スパム、広告キャンペーンに関するトレンドを生かした詐欺キャンペーンが明らかになった。 さらに、ユーザアカウントの停止方法を理解し説明するために、SHapley Additive説明可能性モデルを含む機械学習手法を適用した。

On 24 February 2022, Russia invaded Ukraine, starting what is now known as the Russo-Ukrainian War, initiating an online discourse on social media. Twitter as one of the most popular SNs, with an open and democratic character, enables a transparent discussion among its large user base. Unfortunately, this often leads to Twitter's policy violations, propaganda, abusive actions, civil integrity violation, and consequently to user accounts' suspension and deletion. This study focuses on the Twitter suspension mechanism and the analysis of shared content and features of the user accounts that may lead to this. Toward this goal, we have obtained a dataset containing 107.7M tweets, originating from 9.8 million users, using Twitter API. We extract the categories of shared content of the suspended accounts and explain their characteristics, through the extraction of text embeddings in junction with cosine similarity clustering. Our results reveal scam campaigns taking advantage of trending topics regarding the Russia-Ukrainian conflict for Bitcoin and Ethereum fraud, spam, and advertisement campaigns. Additionally, we apply a machine learning methodology including a SHapley Additive explainability model to understand and explain how user accounts get suspended.
翻訳日:2023-06-07 16:33:46 公開日:2023-06-06
# データ増補とエピソディクスメモリを用いた適応型対話型画像キャプション

Towards Adaptable and Interactive Image Captioning with Data Augmentation and Episodic Memory ( http://arxiv.org/abs/2306.03500v1 )

ライセンス: Link先を確認
Aliki Anagnostopoulou and Mareike Hartmann and Daniel Sonntag(参考訳) インタラクティブ機械学習(iml)は、人間のフィードバックがトレーニングプロセスにインクリメンタルに統合されるため、データ可用性が制限された場合に有用な学習パラダイムである。 本稿では,予め学習した画像キャプションモデルを,ユーザの入力に基づいて新たなデータ分布に漸進的に適応させる,画像キャプションのためのimlパイプラインを提案する。 ユーザ入力をモデルに組み込むために,新たに付加されたデータインスタンス毎により大きなデータバッチを取得するための単純なデータ拡張手法の組み合わせを探索し,繰り返し更新から壊滅的な忘れることを防止するための連続学習手法を実装した。 実験では、ドメイン固有の画像キャプションデータセット、すなわちVizWizを非重複部分に分割し、インクリメンタルな入力フローをシミュレートし、モデルを新しいデータに継続的に適応させる。 比較的少ないデータ量でも、データ拡張は結果を悪化させるが、エピソディックメモリは、これまで見られたクラスタからの知識を保持する効果的な戦略である。

Interactive machine learning (IML) is a beneficial learning paradigm in cases of limited data availability, as human feedback is incrementally integrated into the training process. In this paper, we present an IML pipeline for image captioning which allows us to incrementally adapt a pre-trained image captioning model to a new data distribution based on user input. In order to incorporate user input into the model, we explore the use of a combination of simple data augmentation methods to obtain larger data batches for each newly annotated data instance and implement continual learning methods to prevent catastrophic forgetting from repeated updates. For our experiments, we split a domain-specific image captioning dataset, namely VizWiz, into non-overlapping parts to simulate an incremental input flow for continually adapting the model to new data. We find that, while data augmentation worsens results, even when relatively small amounts of data are available, episodic memory is an effective strategy to retain knowledge from previously seen clusters.
翻訳日:2023-06-07 16:33:26 公開日:2023-06-06
# Dichotomous Medical Image Segmentation の指導的特徴強調

Instructive Feature Enhancement for Dichotomous Medical Image Segmentation ( http://arxiv.org/abs/2306.03497v1 )

ライセンス: Link先を確認
Lian Liu, Han Zhou, Jiongquan Chen, Sijing Liu, Wenlong Shi, Dong Ni, Deng-Ping Fan, Xin Yang(参考訳) 深層ニューラルネットワークは、様々な形態の解剖学的構造のdmis(dichotomous medical image segmentation)に広く応用され、有望な性能を達成している。 しかし、既存のネットワークは、正確性を改善するためにタスク固有の重い複雑な設計に苦しむ傾向がある。 彼らは、どの機能チャネルがセグメンテーションにとってより有益なものかをほとんど指示しなかったので、これらのセグメンテーションモデルの性能と普遍性が妨げられているのかもしれない。 本研究では,テクスチャの豊富な特徴チャネルを適応的に選択し,局所的な曲率やグローバル情報エントロピー基準に基づく特徴の識別性を高めるための指導的特徴拡張手法ifeを提案する。 IFEは、プラグ・アンド・プレイであり、多様なDMISタスクに適用できるため、曖昧で困難な境界識別において特に重要であり、シンプルさ、普遍性、そしてある種の解釈可能性を達成するために、テクスチャに富んだ機能に焦点を合わせることを奨励している。 提案したIFEを評価するために,7つのモダリティと26の解剖学的構造から55,023個の画像を含む,最初の大規模DMISデータセットCosmos55kを構築した。 大規模な実験により、IFEは様々な解剖学とモダリティにわたる古典的セグメンテーションネットワークの性能をわずかに修正するだけで改善できることが示された。 コードはhttps://github.com/yezi-66/IFEで入手できる。

Deep neural networks have been widely applied in dichotomous medical image segmentation (DMIS) of many anatomical structures in several modalities, achieving promising performance. However, existing networks tend to struggle with task-specific, heavy and complex designs to improve accuracy. They made little instructions to which feature channels would be more beneficial for segmentation, and that may be why the performance and universality of these segmentation models are hindered. In this study, we propose an instructive feature enhancement approach, namely IFE, to adaptively select feature channels with rich texture cues and strong discriminability to enhance raw features based on local curvature or global information entropy criteria. Being plug-and-play and applicable for diverse DMIS tasks, IFE encourages the model to focus on texture-rich features which are especially important for the ambiguous and challenging boundary identification, simultaneously achieving simplicity, universality, and certain interpretability. To evaluate the proposed IFE, we constructed the first large-scale DMIS dataset Cosmos55k, which contains 55,023 images from 7 modalities and 26 anatomical structures. Extensive experiments show that IFE can improve the performance of classic segmentation networks across different anatomies and modalities with only slight modifications. Code is available at https://github.com/yezi-66/IFE
翻訳日:2023-06-07 16:33:07 公開日:2023-06-06
# LegoNet:医療画像セグメンテーションのための代替モデルブロック

LegoNet: Alternating Model Blocks for Medical Image Segmentation ( http://arxiv.org/abs/2306.03494v1 )

ライセンス: Link先を確認
Ikboljon Sobirov, Cheng Xie, Muhammad Siddique, Parijat Patel, Kenneth Chan, Thomas Halborg, Christos Kotanidis, Zarqiash Fatima, Henry West, Keith Channon, Stefan Neubauer, Charalambos Antoniades, and Mohammad Yaqub(参考訳) 畳み込みニューラルネットワーク(cnns)や後の視覚トランスフォーマー(vits)が出現して以来、モデル開発における一般的なパラダイムは、パラメータやハイパーパラメータの異なる同一のブロックタイプを使用してきた。 異なるアーキテクチャ設計(例えばCNNやViT)の利点を活用するため、レゴブロックを組み立てる方法を模した新しいアーキテクチャを生成するために、構造的に異なるタイプのブロックを代替することを提案する。 CNNベースの2つのブロックとSwinViTベースのブロックを用いて、医療画像における分割タスクにブロック変更という新しい概念を適用した、いわゆるLegoNetの3つのバリエーションを調査した。 また,右内乳頭動脈 (RIMA) とCTA (Computed tomography angiography) による血管周囲空間の分画について検討した。 2つの大きなデータセット(例えば、より大きなデータセットで 0.749 dice similarity coefficient (dsc) を達成する)を使用して、人気のあるcnnとvitアーキテクチャと比較した。 3つの外部テストコホートにおけるモデルの性能を評価するとともに,専門家臨床医がモデルセグメンテーション結果(3つのコホートに対するdsc>0.90)を補正した。 臨床応用における適合性モデルを評価するため,サーバ内およびサーバ間変動解析を行った。 最後に,モデル性能への影響を評価するための自己教師あり学習手法について検討した。 コードと事前訓練されたモデルの重み付けは、受け入れ次第利用できる。

Since the emergence of convolutional neural networks (CNNs), and later vision transformers (ViTs), the common paradigm for model development has always been using a set of identical block types with varying parameters/hyper-parameters. To leverage the benefits of different architectural designs (e.g. CNNs and ViTs), we propose to alternate structurally different types of blocks to generate a new architecture, mimicking how Lego blocks can be assembled together. Using two CNN-based and one SwinViT-based blocks, we investigate three variations to the so-called LegoNet that applies the new concept of block alternation for the segmentation task in medical imaging. We also study a new clinical problem which has not been investigated before, namely the right internal mammary artery (RIMA) and perivascular space segmentation from computed tomography angiography (CTA) which has demonstrated a prognostic value to major cardiovascular outcomes. We compare the model performance against popular CNN and ViT architectures using two large datasets (e.g. achieving 0.749 dice similarity coefficient (DSC) on the larger dataset). We evaluate the performance of the model on three external testing cohorts as well, where an expert clinician made corrections to the model segmented results (DSC>0.90 for the three cohorts). To assess our proposed model for suitability in clinical use, we perform intra- and inter-observer variability analysis. Finally, we investigate a joint self-supervised learning approach to assess its impact on model performance. The code and the pretrained model weights will be available upon acceptance.
翻訳日:2023-06-07 16:32:39 公開日:2023-06-06
# BackpropTools: 継続的制御のための高速でポータブルな深層強化学習ライブラリ

BackpropTools: A Fast, Portable Deep Reinforcement Learning Library for Continuous Control ( http://arxiv.org/abs/2306.03530v1 )

ライセンス: Link先を確認
Jonas Eschmann, Dario Albani, Giuseppe Loianno(参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、いくつかのドメインで有能なエージェントとコントロールポリシーを付与することが実証されているが、一般的には、非常に長い訓練時間によって悩まされている。 さらに、継続的制御問題の場合、既存のディープラーニングライブラリのリアルタイム保証やポータビリティの欠如により、実世界の組み込みデバイスに対する学習ポリシーの適用性が制限される。 これらの課題に対処するために、我々は、深い教師付きおよび強化学習のための依存関係のない、ヘッダのみの純粋なc++ライブラリであるbackproptoolsを提案する。 最近のc++標準のテンプレートメタプログラミング機能を活用することで、コンパイラによって強く統合できる構成可能なコンポーネントを提供します。 BackpropToolsは、ワークステーションやラップトップ上のHPCクラスタから、スマートフォン、スマートウォッチ、マイクロコントローラに至るまで、さまざまなプラットフォーム上でシームレスに使用することができる。 具体的には、シミュレーション環境とのRLアルゴリズムの密接な統合により、BackpropToolsは、TD3を使用する場合の他の一般的なRLフレームワークと比較して、ウォールクロックトレーニング時間の約7~15倍の速度でPendulum-v1のスウィングアップのような一般的なRL問題を解決することができる。 また,MuJoCoシミュレータの低オーバヘッド・並列化インタフェースを提供し,PPO実装がAnt-v4環境におけるアートリターンの状態を達成し,壁時計のトレーニング時間を25~30%高速化したことを示す。 最後に、様々なマイクロコントローラのポリシー推論をベンチマークし、ほとんどの場合、最適化された推論実装はメーカーのDSPライブラリよりもはるかに高速であることを示す。 私たちの知る限り、BackpropToolsは、マイクロコントローラ上でディープRLアルゴリズムを直接トレーニングする最初のデモンストレーションを可能にし、Tiny Reinforcement Learning(TinyRL)の分野を生み出します。 プロジェクトページ: https://backprop.tools

Deep Reinforcement Learning (RL) has been demonstrated to yield capable agents and control policies in several domains but is commonly plagued by prohibitively long training times. Additionally, in the case of continuous control problems, the applicability of learned policies on real-world embedded devices is limited due to the lack of real-time guarantees and portability of existing deep learning libraries. To address these challenges, we present BackpropTools, a dependency-free, header-only, pure C++ library for deep supervised and reinforcement learning. Leveraging the template meta-programming capabilities of recent C++ standards, we provide composable components that can be tightly integrated by the compiler. Its novel architecture allows BackpropTools to be used seamlessly on a heterogeneous set of platforms, from HPC clusters over workstations and laptops to smartphones, smartwatches, and microcontrollers. Specifically, due to the tight integration of the RL algorithms with simulation environments, BackpropTools can solve popular RL problems like the Pendulum-v1 swing-up about 7 to 15 times faster in terms of wall-clock training time compared to other popular RL frameworks when using TD3. We also provide a low-overhead and parallelized interface to the MuJoCo simulator, showing that our PPO implementation achieves state of the art returns in the Ant-v4 environment while achieving a 25 to 30 percent faster wall-clock training time. Finally, we also benchmark the policy inference on a diverse set of microcontrollers and show that in most cases our optimized inference implementation is much faster than even the manufacturer's DSP libraries. To the best of our knowledge, BackpropTools enables the first-ever demonstration of training a deep RL algorithm directly on a microcontroller, giving rise to the field of Tiny Reinforcement Learning (TinyRL). Project page: https://backprop.tools
翻訳日:2023-06-07 16:25:16 公開日:2023-06-06
# 車両メタバースにおけるセマンティクスコミュニケーションの敵意攻撃と防御

Adversarial Attacks and Defenses for Semantic Communication in Vehicular Metaverses ( http://arxiv.org/abs/2306.03528v1 )

ライセンス: Link先を確認
Jiawen Kang, Jiayi He, Hongyang Du, Zehui Xiong, Zhaohui Yang, Xumin Huang, Shengli Xie(参考訳) 車載メタバースでは、究極的なユーザ中心の目標の1つは、ユーザの没入的なエクスペリエンスとQuality of Service(QoS)を最適化することである。 セマンティック・コミュニケーション (Semantic Communication, SemCom) はこの目的を達成するために、車載メタバースアプリケーションにおける通信リソースの圧力を大幅に緩和する革命的パラダイムとして導入された。 SemComは、車両間のデータトラフィックが爆発的に増加しても、高品質で超効率的な車両通信を可能にする。 本稿では,グローバルメタバース,ローカルメタバース,セムコムモジュール,リソースプールからなる階層型セムコム対応車両メタバースフレームワークを提案する。 グローバルメタバースとローカルメタバースはメタバースの分布の観点から新しい概念である。 ユーザのqosを考慮して,提案フレームワークの潜在的なセキュリティ脆弱性について検討する。 この目的のために、本研究ではフレームワークのSemComモジュールに対する特定のセキュリティリスクを強調し、実行可能な防御ソリューションを提供する。 最後に, 車両メタバースにおけるセキュアsemcomのオープンイシューの概要, 特に今後の研究方向性について述べる。

For vehicular metaverses, one of the ultimate user-centric goals is to optimize the immersive experience and Quality of Service (QoS) for users on board. Semantic Communication (SemCom) has been introduced as a revolutionary paradigm that significantly eases communication resource pressure for vehicular metaverse applications to achieve this goal. SemCom enables high-quality and ultra-efficient vehicular communication, even with explosively increasing data traffic among vehicles. In this article, we propose a hierarchical SemCom-enabled vehicular metaverses framework consisting of the global metaverse, local metaverses, SemCom module, and resource pool. The global and local metaverses are brand-new concepts from the metaverse's distribution standpoint. Considering the QoS of users, this article explores the potential security vulnerabilities of the proposed framework. To that purpose, this study highlights a specific security risk to the framework's SemCom module and offers a viable defense solution, so encouraging community researchers to focus more on vehicular metaverse security. Finally, we provide an overview of the open issues of secure SemCom in the vehicular metaverses, notably pointing out potential future research directions.
翻訳日:2023-06-07 16:24:40 公開日:2023-06-06
# Rec4Ad: タオバオにおける広告CTR予測のためのサンプル選択バイアスを緩和するフリーランチ

Rec4Ad: A Free Lunch to Mitigate Sample Selection Bias for Ads CTR Prediction in Taobao ( http://arxiv.org/abs/2306.03527v1 )

ライセンス: Link先を確認
Jingyue Gao, Shuguang Han, Han Zhu, Siran Yang, Yuning Jiang, Jian Xu, Bo Zheng(参考訳) CTR(Click-Through Rate)予測は、オンライン広告の基本的な構成要素である。 一般的なプラクティスは、広告(ad)インプレッションのCTRモデルをユーザフィードバックでトレーニングすることである。 広告インプレッションはモデル自身によって意図的に選択されるため、その分布は推論分布と異なり、モデル性能に影響を与えるサンプル選択バイアス(ssb)を示す。 SSBに関する既存の研究は、主に高ばらつきと低モデルの校正に苦しむサンプル再重み付け技術を用いている。 別の作業は、産業モデルを訓練するのに不適切なコストの均一なデータに依存している。 したがって、一様データフリーフレームワークによる産業モデルにおけるSSBの緩和は検討に値する。 幸いなことに、多くのプラットフォームは、さまざまなシステムによって広告やレコメンデーションの印象が選択されるが、同じユーザ決定の根拠を共有する、有機アイテム(レコメンデーション)とスポンサードアイテム(広告)の混合結果をユーザに表示する。 以上の特徴から,広告CTRモデル(Rec4Ad)のSSBを緩和するために,推奨サンプルをフリーランチとして活用することを提案する。 データを拡張した後、Rec4Adはアライメントとデコレーションモジュールによるアンタングル表現を学習し、拡張する。 タオバオのディスプレイ広告システムに展開すると、Rec4Adは最大で+6.6.%のCTRと+2.9.%のRPMを持ち、主要なビジネス指標でかなりの利益を上げている。

Click-Through Rate (CTR) prediction serves as a fundamental component in online advertising. A common practice is to train a CTR model on advertisement (ad) impressions with user feedback. Since ad impressions are purposely selected by the model itself, their distribution differs from the inference distribution and thus exhibits sample selection bias (SSB) that affects model performance. Existing studies on SSB mainly employ sample re-weighting techniques which suffer from high variance and poor model calibration. Another line of work relies on costly uniform data that is inadequate to train industrial models. Thus mitigating SSB in industrial models with a uniform-data-free framework is worth exploring. Fortunately, many platforms display mixed results of organic items (i.e., recommendations) and sponsored items (i.e., ads) to users, where impressions of ads and recommendations are selected by different systems but share the same user decision rationales. Based on the above characteristics, we propose to leverage recommendations samples as a free lunch to mitigate SSB for ads CTR model (Rec4Ad). After elaborating data augmentation, Rec4Ad learns disentangled representations with alignment and decorrelation modules for enhancement. When deployed in Taobao display advertising system, Rec4Ad achieves substantial gains in key business metrics, with a lift of up to +6.6\% CTR and +2.9\% RPM.
翻訳日:2023-06-07 16:24:19 公開日:2023-06-06
# 普遍制約付き優先データベースにおける不整合処理:複雑性解析とアクティブ積分制約付きリンク

Inconsistency Handling in Prioritized Databases with Universal Constraints: Complexity Analysis and Links with Active Integrity Constraints ( http://arxiv.org/abs/2306.03523v1 )

ライセンス: Link先を確認
Meghyn Bienvenu and Camille Bourgaux(参考訳) 本稿では,共通制約を満たした一貫性のないデータベースの修正とクエリの問題を再検討する。 我々は、整合性回復に事実の削除と付加の両方を使用できる対称差分補修を採用し、(否定された)事実に対する二項優先関係によって、優先的な修理動作が特定されると仮定する。 最初のコントリビューションは、より単純な否定的制約と事実削除のみに基づく修復のために定義された、既存の最適修復の概念が、よりリッチな設定にどのように拡張できるかを示すことである。 次に,結果の補修概念,特に補修検査のデータ複雑性と不整合耐性クエリ応答の計算特性について検討する。 最後に、優先度付けされたデータベースの最適修復と、アクティブな整合性制約の枠組みで導入された修復概念との関係を明らかにする。 特に、我々の設定におけるパレート最適修復は、優先順位付けされたデータベースを翻訳することによって得られる能動的整合性制約と一致することを示す。 また,本研究は,能動的整合性制約の挙動に関する有用な知見も得る。

This paper revisits the problem of repairing and querying inconsistent databases equipped with universal constraints. We adopt symmetric difference repairs, in which both deletions and additions of facts can be used to restore consistency, and suppose that preferred repair actions are specified via a binary priority relation over (negated) facts. Our first contribution is to show how existing notions of optimal repairs, defined for simpler denial constraints and repairs solely based on fact deletion, can be suitably extended to our richer setting. We next study the computational properties of the resulting repair notions, in particular, the data complexity of repair checking and inconsistency-tolerant query answering. Finally, we clarify the relationship between optimal repairs of prioritized databases and repair notions introduced in the framework of active integrity constraints. In particular, we show that Pareto-optimal repairs in our setting correspond to founded, grounded and justified repairs w.r.t. the active integrity constraints obtained by translating the prioritized database. Our study also yields useful insights into the behavior of active integrity constraints.
翻訳日:2023-06-07 16:23:52 公開日:2023-06-06
# 多層アウトオブディストリビューション検出における機能的データパースペクティブとベースライン

A Functional Data Perspective and Baseline On Multi-Layer Out-of-Distribution Detection ( http://arxiv.org/abs/2306.03522v1 )

ライセンス: Link先を確認
Eduardo Dadalto, Pierre Colombo, Guillaume Staerman, Nathan Noiry, and Pablo Piantanida(参考訳) out-of-distribution(ood)検出の重要な特徴は、多層分類器を通じて統計的パターンと関係を抽出して、期待される入力データ分布のシフトを検出することで、トレーニングされたニューラルネットワークを活用することである。 確固とした結果が得られたにも拘わらず、いくつかの最先端の手法は、OOD検出のための貴重な情報を残して、最後層または最後層の出力のみに依存する。 複数のレイヤを探索するメソッドは、特別なアーキテクチャや監視対象を必要とする。 この研究は、様々な層とそれらの統計的依存関係を通してサンプルの軌跡を利用するネットワークの機能的ビューに基づく独自のアプローチを採用する。 多変量機能アグリゲーションを超えて、機能的異常検出に根ざしたベースラインを導入している。 この新たな枠組みでは、OOD検出はトレーニングセットが特徴とする典型的な行動と軌跡が異なるサンプルに変換される。 本手法を検証し,コンピュータビジョンベンチマークの強固なベースラインと比較し,ood検出の有効性を実証した。

A key feature of out-of-distribution (OOD) detection is to exploit a trained neural network by extracting statistical patterns and relationships through the multi-layer classifier to detect shifts in the expected input data distribution. Despite achieving solid results, several state-of-the-art methods rely on the penultimate or last layer outputs only, leaving behind valuable information for OOD detection. Methods that explore the multiple layers either require a special architecture or a supervised objective to do so. This work adopts an original approach based on a functional view of the network that exploits the sample's trajectories through the various layers and their statistical dependencies. It goes beyond multivariate features aggregation and introduces a baseline rooted in functional anomaly detection. In this new framework, OOD detection translates into detecting samples whose trajectories differ from the typical behavior characterized by the training set. We validate our method and empirically demonstrate its effectiveness in OOD detection compared to strong state-of-the-art baselines on computer vision benchmarks.
翻訳日:2023-06-07 16:23:32 公開日:2023-06-06
# 均衡内外における機械学習

Machine learning in and out of equilibrium ( http://arxiv.org/abs/2306.03521v1 )

ライセンス: Link先を確認
Shishir Adhikari, Alkan Kabak\c{c}{\i}o\u{g}lu, Alexander Strang, Deniz Yuret, Michael Hinczewski(参考訳) 確率勾配降下(SGD)のようなニューラルネットワークのトレーニングに使われるアルゴリズムは、タンパク質の折り畳みや進化など、高次元のパラメータ空間をナビゲートする自然なプロセスと類似している。 本研究では,統計物理学を応用したfokker-planckアプローチを用いて,これらの並列を単一統一的な枠組みで探索する。 我々は特に,従来のSGDでは平衡が切れており,ネットワークパラメータの空間に持続的な電流が現れる長期的限界におけるシステムの定常状態に着目した。 物理的類似物と同様に、電流は任意の訓練軌道のエントロピー生成率と関連している。 これらの速度の定常分布は積分的かつ詳細なゆらぎ定理(熱力学の第2法則の非平衡一般化)に従う。 この関係を非線形回帰ネットワークとMNIST桁分類という2つの数値例で検証する。 ゆらぎの定理は普遍的であるが、静止状態の他の側面は訓練の詳細に非常に敏感である。 驚くべきことに、定常分布の形状を決定する効果的な損失景観と拡散行列は、置換の有無にかかわらず、単純な選択によって異なる。 この非平衡感度を利用して、特定の応用のための平衡定常状態(ベイズ機械学習におけるネットワーク重みの後方分布からのサンプリング)を構築することができる。 本稿では,代替ミニバッチングを伴わない確率勾配ランジュバンダイナミクス(sgld)の新たなバリエーションを提案する。 このSGWORLDアルゴリズムは、後部が正確に知られている例として、SGLDよりも優れており、学習速度の関数として、後部順序が桁違いに速く収束する。

The algorithms used to train neural networks, like stochastic gradient descent (SGD), have close parallels to natural processes that navigate a high-dimensional parameter space -- for example protein folding or evolution. Our study uses a Fokker-Planck approach, adapted from statistical physics, to explore these parallels in a single, unified framework. We focus in particular on the stationary state of the system in the long-time limit, which in conventional SGD is out of equilibrium, exhibiting persistent currents in the space of network parameters. As in its physical analogues, the current is associated with an entropy production rate for any given training trajectory. The stationary distribution of these rates obeys the integral and detailed fluctuation theorems -- nonequilibrium generalizations of the second law of thermodynamics. We validate these relations in two numerical examples, a nonlinear regression network and MNIST digit classification. While the fluctuation theorems are universal, there are other aspects of the stationary state that are highly sensitive to the training details. Surprisingly, the effective loss landscape and diffusion matrix that determine the shape of the stationary distribution vary depending on the simple choice of minibatching done with or without replacement. We can take advantage of this nonequilibrium sensitivity to engineer an equilibrium stationary state for a particular application: sampling from a posterior distribution of network weights in Bayesian machine learning. We propose a new variation of stochastic gradient Langevin dynamics (SGLD) that harnesses without replacement minibatching. In an example system where the posterior is exactly known, this SGWORLD algorithm outperforms SGLD, converging to the posterior orders of magnitude faster as a function of the learning rate.
翻訳日:2023-06-07 16:23:13 公開日:2023-06-06
# COPR: オンライン広告のための一貫性指向事前広告

COPR: Consistency-Oriented Pre-Ranking for Online Advertising ( http://arxiv.org/abs/2306.03516v1 )

ライセンス: Link先を確認
Zhishan Zhao, Jingyue Gao, Yu Zhang, Shuguang Han, Siyuan Lou, Xiang-Rong Sheng, Zhe Wang, Han Zhu, Yuning Jiang, Jian Xu, Bo Zheng(参考訳) cascadingアーキテクチャは、効率と効果のバランスをとるために、大規模な広告システムで広く採用されている。 このアーキテクチャでは、プレグレードモデルは、厳格なレイテンシ要求でより多くの候補を処理するランキングモデルの軽量な近似であると期待されている。 モデル能力の不足のため、序列とランク付けモデルは通常、一貫性のないランク付け結果を生成し、システム全体の効果を損なう。 スコアアライメントのパラダイムは、スコアを一貫性のあるように調整するために提案される。 しかし、オンライン広告に適用される入札によって、避けられないアライメントエラーやエラー増幅に苦しむ。 そこで我々は,チャンクベースサンプリングモジュールとプラグアンドプレイランキングアライメントモジュールを用いて,ECPMランキング結果の一貫性を明示的に最適化する,オンライン広告のための一貫性指向プレグレードフレームワークを提案する。 最適化におけるチャンク間サンプルの重要性をよりよく区別するために、$\Delta NDCG$ベースの重み付け機構が採用された。 オンライン実験とオフライン実験の両方が、私たちのフレームワークの優位性を検証しました。 Taobaoのディスプレイ広告システムに展開すると、最大で+12.3\% CTRと+5.6\% RPMの改善が達成される。

Cascading architecture has been widely adopted in large-scale advertising systems to balance efficiency and effectiveness. In this architecture, the pre-ranking model is expected to be a lightweight approximation of the ranking model, which handles more candidates with strict latency requirements. Due to the gap in model capacity, the pre-ranking and ranking models usually generate inconsistent ranked results, thus hurting the overall system effectiveness. The paradigm of score alignment is proposed to regularize their raw scores to be consistent. However, it suffers from inevitable alignment errors and error amplification by bids when applied in online advertising. To this end, we introduce a consistency-oriented pre-ranking framework for online advertising, which employs a chunk-based sampling module and a plug-and-play rank alignment module to explicitly optimize consistency of ECPM-ranked results. A $\Delta NDCG$-based weighting mechanism is adopted to better distinguish the importance of inter-chunk samples in optimization. Both online and offline experiments have validated the superiority of our framework. When deployed in Taobao display advertising system, it achieves an improvement of up to +12.3\% CTR and +5.6\% RPM.
翻訳日:2023-06-07 16:22:52 公開日:2023-06-06
# 知識グラフ推論のための論理拡散

Logic Diffusion for Knowledge Graph Reasoning ( http://arxiv.org/abs/2306.03515v1 )

ライセンス: Link先を確認
Xiaoying Xie, Biao Gong, Yiliang Lv, Zhen Han, Guoshuai Zhao, Xueming Qian(参考訳) 最近の研究は、マルチホップ論理予測によるナレッジグラフ推論を探求するために、一階の論理クエリに答えることに焦点を当てている。 しかし、既存の推論モデルはトレーニングサンプルの周囲の論理パラダイムによって制限されており、未知の論理の弱い一般化につながる。 これらの問題に対処するため,周辺から目に見えないクエリを発見し,異なるパターン間の動的平衡を実現するために,Logic Diffusion (LoD) と呼ばれるプラグインモジュールを提案する。 lodの基本的な考え方は、ランダムウォーキングによる関係拡散とサンプリングサブ論理、および勾配適応と呼ばれる特別な訓練機構である。 また、トレーニングやテストセットでノイズデータに直面した場合に、ロバストな論理拡散を達成するための新しい損失関数がlodに付随する。 4つの公開データセットに対する大規模な実験は、LoDを用いた主流知識グラフ推論モデルの最先端性を示している。 さらに, 雑音に富む知識グラフにおけるlodの汎用的有効性を示す。

Most recent works focus on answering first order logical queries to explore the knowledge graph reasoning via multi-hop logic predictions. However, existing reasoning models are limited by the circumscribed logical paradigms of training samples, which leads to a weak generalization of unseen logic. To address these issues, we propose a plug-in module called Logic Diffusion (LoD) to discover unseen queries from surroundings and achieves dynamical equilibrium between different kinds of patterns. The basic idea of LoD is relation diffusion and sampling sub-logic by random walking as well as a special training mechanism called gradient adaption. Besides, LoD is accompanied by a novel loss function to further achieve the robust logical diffusion when facing noisy data in training or testing sets. Extensive experiments on four public datasets demonstrate the superiority of mainstream knowledge graph reasoning models with LoD over state-of-the-art. Moreover, our ablation study proves the general effectiveness of LoD on the noise-rich knowledge graph.
翻訳日:2023-06-07 16:22:33 公開日:2023-06-06
# あらゆるものを認識する:強力な画像タグモデル

Recognize Anything: A Strong Image Tagging Model ( http://arxiv.org/abs/2306.03514v1 )

ライセンス: Link先を確認
Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang(参考訳) 我々は,画像タグ付けのための強固な基礎モデルであるliam anything model(ram)を提案する。 RAMは任意の共通カテゴリを高い精度で認識することができる。 RAMは画像タグ付けの新しいパラダイムを導入し、手動のアノテーションの代わりに大規模な画像テキストペアをトレーニングに利用している。 RAMの開発には4つの重要なステップがある。 まず、アノテーションのない画像タグを自動テキストセマンティック解析によって大規模に取得する。 その後、キャプションとタグ付けタスクを統一し、それぞれ元のテキストとパースされたタグで教師された予備モデルで自動アノテーションを訓練する。 第3に、追加のアノテーションと不正確なアノテーションを生成するために、データエンジンが使用される。 最後に、モデルは処理されたデータで再トレーニングされ、より小さいが高品質なデータセットを使用して微調整される。 多数のベンチマークでRAMのタグ付け機能を評価し,優れたゼロショット性能を示し,CLIPとBLIPを著しく上回る性能を示した。 注目すべきは、RAMが完全に教師された方法を超え、Google APIと競合するパフォーマンスを示すことだ。 私たちは、コンピュータビジョンにおける大きなモデルの進歩を促進するために、RAMを \url{https://recognize-anything.github.io/} でリリースしています。

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.
翻訳日:2023-06-07 16:22:18 公開日:2023-06-06
# ロバストな医用画像分割のためのカリキュラムベース拡張フーリエドメイン適応

Curriculum-Based Augmented Fourier Domain Adaptation for Robust Medical Image Segmentation ( http://arxiv.org/abs/2306.03511v1 )

ライセンス: Link先を確認
An Wang, Mobarakol Islam, Mengya Xu, Hongliang Ren(参考訳) コンピュータ支援診断・介入システムの自律性向上には,正確かつ堅牢な医用画像分割が不可欠である。 医療データ収集は通常、異なるスキャナー、プロトコル、人口を含むため、ドメイン適応(DA)は、デプロイメントサイトのモデル劣化を軽減するために非常に要求の高い研究分野となる。 本研究は、複数のテスト領域にわたるモデル性能を維持するために、堅牢な医用画像セグメンテーションのためのCurriculum-based Augmented Fourier Domain Adaptation (Curri-AFDA)を提案する。 特に、我々のカリキュラム学習戦略は、展開フェーズにおけるデータシフトの異なるレベルにおけるモデルの因果関係に基づいており、シフトが高いほど分散を認識するのが難しくなる。 そこで本研究では,本研究のカリキュラムスタイル学習において,対象領域からソース領域への振幅情報の導入を段階的に進め,意味知識の伝達をより容易かつ困難にスケジュールする。 さらに、トレーニング時間チェーンによる拡張混合を組み込んで、ドメイン不変セマンティクスを維持しながら、データ分布の拡大を支援します。 複数のサイトとスキャナーから収集した網膜と核の2つのセグメンテーションタスクに関する広範囲な実験により,提案手法が優れた適応と一般化性能をもたらすことが示唆された。 一方, 本手法は, 汚職タイプや重度レベルの増加により, より堅牢であることが証明された。 また,本手法は皮膚病変データセットを用いた領域適応分類にも有用であることを示す。 コードはhttps://github.com/lofrienger/Curri-AFDAで入手できる。

Accurate and robust medical image segmentation is fundamental and crucial for enhancing the autonomy of computer-aided diagnosis and intervention systems. Medical data collection normally involves different scanners, protocols, and populations, making domain adaptation (DA) a highly demanding research field to alleviate model degradation in the deployment site. To preserve the model performance across multiple testing domains, this work proposes the Curriculum-based Augmented Fourier Domain Adaptation (Curri-AFDA) for robust medical image segmentation. In particular, our curriculum learning strategy is based on the causal relationship of a model under different levels of data shift in the deployment phase, where the higher the shift is, the harder to recognize the variance. Considering this, we progressively introduce more amplitude information from the target domain to the source domain in the frequency space during the curriculum-style training to smoothly schedule the semantic knowledge transfer in an easier-to-harder manner. Besides, we incorporate the training-time chained augmentation mixing to help expand the data distributions while preserving the domain-invariant semantics, which is beneficial for the acquired model to be more robust and generalize better to unseen domains. Extensive experiments on two segmentation tasks of Retina and Nuclei collected from multiple sites and scanners suggest that our proposed method yields superior adaptation and generalization performance. Meanwhile, our approach proves to be more robust under various corruption types and increasing severity levels. In addition, we show our method is also beneficial in the domain-adaptive classification task with skin lesion datasets. The code is available at https://github.com/lofrienger/Curri-AFDA.
翻訳日:2023-06-07 16:21:59 公開日:2023-06-06
# 逆説明積分器を用いた雑音データからの動的システム学習

Learning Dynamical Systems from Noisy Data with Inverse-Explicit Integrators ( http://arxiv.org/abs/2306.03548v1 )

ライセンス: Link先を確認
H\r{a}kon Noren, S{\o}lve Eidnes and Elena Celledoni(参考訳) 雑音データから力学系のベクトル場を近似するためにニューラルネットワークをトレーニングする際の精度を向上させる新しい手法である平均逆積分器(MII)を導入する。 この方法は、runge-kutta法のような数値積分器によって得られる複数の軌道の平均に使うことができる。 モノインプリシットなrunge-kuttaメソッド(mirk)のクラスはmiiと関連づける場合に特に有利であることを示す。 ベクトル場近似を訓練する場合、MIRK式にトレーニングデータを挿入する際、損失関数の明示的な式が得られ、初期値問題に対して暗黙的な対称および高階積分器をアンロックする。 MII に MIRK を適用するという組み合わせのアプローチは、トラジェクトリを平均化せずに数値積分器の通常の使用に比べて誤差が大幅に低い。 これは、いくつかの(カオス的な)ハミルトン系のデータを用いた実験で実証される。 また,通常分散摂動下での損失関数の感度解析を行い,miiの性能を良好に評価した。

We introduce the mean inverse integrator (MII), a novel approach to increase the accuracy when training neural networks to approximate vector fields of dynamical systems from noisy data. This method can be used to average multiple trajectories obtained by numerical integrators such as Runge-Kutta methods. We show that the class of mono-implicit Runge-Kutta methods (MIRK) has particular advantages when used in connection with MII. When training vector field approximations, explicit expressions for the loss functions are obtained when inserting the training data in the MIRK formulae, unlocking symmetric and high-order integrators that would otherwise be implicit for initial value problems. The combined approach of applying MIRK within MII yields a significantly lower error compared to the plain use of the numerical integrator without averaging the trajectories. This is demonstrated with experiments using data from several (chaotic) Hamiltonian systems. Additionally, we perform a sensitivity analysis of the loss functions under normally distributed perturbations, supporting the favorable performance of MII.
翻訳日:2023-06-07 16:15:35 公開日:2023-06-06
# 特定の問題や予算に最適なアクティブラーニング戦略を選択する方法

How to Select Which Active Learning Strategy is Best Suited for Your Specific Problem and Budget ( http://arxiv.org/abs/2306.03543v1 )

ライセンス: Link先を確認
Guy Hacohen, Daphna Weinshall(参考訳) アクティブラーニング(AL)では、学習者は、いくつかの予算制約の下でラベルを問うためにラベルのない例を積極的に選択する。 異なるalクエリ戦略は、さまざまな問題や予算に適している。 したがって、実際には、手前の問題に最も適したAL戦略を事前に知ることは、未解決の問題である。 そこで本研究では,各予算の最適戦略を動的に識別する実用的なデリバティブベース手法を提案する。 我々は、我々のアプローチを動機づけ、直観を構築するための簡易なケースの理論分析を提供する。 次に,特定の問題と予算に基づいてAL戦略を動的に選択する手法を提案する。 その結果,様々な予算やコンピュータビジョンタスクにまたがるアプローチの有効性が示された。

In Active Learning (AL), a learner actively chooses which unlabeled examples to query for labels from an oracle, under some budget constraints. Different AL query strategies are more suited to different problems and budgets. Therefore, in practice, knowing in advance which AL strategy is most suited for the problem at hand remains an open problem. To tackle this challenge, we propose a practical derivative-based method that dynamically identifies the best strategy for each budget. We provide theoretical analysis of a simplified case to motivate our approach and build intuition. We then introduce a method to dynamically select an AL strategy based on the specific problem and budget. Empirical results showcase the effectiveness of our approach across diverse budgets and computer vision tasks.
翻訳日:2023-06-07 16:15:19 公開日:2023-06-06
# マスク付きオートエンコーダは効率的連帯学習者である

Masked Autoencoders are Efficient Continual Federated Learners ( http://arxiv.org/abs/2306.03542v1 )

ライセンス: Link先を確認
Subarnaduti Paul, Lars-Joel Frey, Roshni Kamath, Kristian Kersting, Martin Mundt(参考訳) 機械学習は通常、i.d.の観点からフレーム化され、さらに重要なのは孤立したデータである。 部分的には、フェデレーション学習は、クライアント間で分散されたデータから共有モデルを共同学習するという現実世界の課題を解決するために、この仮定を解き放ちます。 しかし、主にプライバシと計算上の制約によって動機付けられており、データが変化したり、分散がドリフトしたり、あるいはタスクがクライアント上で個別に進行したりするという事実は、ほとんど考慮されていない。 継続的学習の分野は、この別の課題に対処し、最近は、複数のクライアントが、以前見たものを忘れずに、時間とともに分類タスクを変更することを学ぶ、分散教師付き設定におけるシナジーを活用するための最初のステップが取られている。 これらの先行研究に動機づけられ、このような連合型連続学習は、クライアント間で共有される表現の教師なし学習(unsupervised learning)に基礎を置くべきであると仮定する。 この目的のために、分布推定のためのマスク付きオートエンコーダがこの設定に特に適していることを示す。 具体的には、そのマスキング戦略をタスク注意機構とシームレスに統合し、クライアント間の選択的知識伝達を可能にする。 画像およびバイナリデータセットの連続的なフェデレーションシナリオを通じて、後者のステートメントを実証的に相関する。

Machine learning is typically framed from a perspective of i.i.d., and more importantly, isolated data. In parts, federated learning lifts this assumption, as it sets out to solve the real-world challenge of collaboratively learning a shared model from data distributed across clients. However, motivated primarily by privacy and computational constraints, the fact that data may change, distributions drift, or even tasks advance individually on clients, is seldom taken into account. The field of continual learning addresses this separate challenge and first steps have recently been taken to leverage synergies in distributed supervised settings, in which several clients learn to solve changing classification tasks over time without forgetting previously seen ones. Motivated by these prior works, we posit that such federated continual learning should be grounded in unsupervised learning of representations that are shared across clients; in the loose spirit of how humans can indirectly leverage others' experience without exposure to a specific task. For this purpose, we demonstrate that masked autoencoders for distribution estimation are particularly amenable to this setup. Specifically, their masking strategy can be seamlessly integrated with task attention mechanisms to enable selective knowledge transfer between clients. We empirically corroborate the latter statement through several continual federated scenarios on both image and binary datasets.
翻訳日:2023-06-07 16:15:06 公開日:2023-06-06
# SDR-GAIN: 自動走行のための高リアルタイムOccluded Pedestrian Pose Completion法

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving ( http://arxiv.org/abs/2306.03538v1 )

ライセンス: Link先を確認
Honghao Fu(参考訳) 本研究では,人間のポーズキーポイントに基づく歩行者検出手法における部分閉塞から生じる課題を軽減するために,分割・次元減少に基づく生成逆計算ネットワーク(SDR-GAIN)と呼ばれる新しい歩行者ポーズキーポイント完了手法を提案する。 まず、OpenPoseを使って画像中の歩行者のポーズを推定する。 そして,閉塞などの要因により不完全な鍵点を持つ歩行者の頭と胴のキーポイントを分離し,次元的削減を行い,特徴量を高め,さらに特徴分布を統一する。 最後に, フーバー損失, 残差構造, l1正規化を組み込んだgenerative adversarial networks (gan) フレームワークに基づく生成モデルについて紹介する。 我々は,MS COCOとJAADデータセットを用いて,SDR-GAINが基本的なGAINフレームワーク,PCHIPとMAKIMA,機械学習手法k-NN,MissForestをポーズ完了タスクで上回ることを示す。 さらに、SDR-GAINのランタイムは約0.4msであり、自律運転の分野で高いリアルタイム性能と重要な応用価値を示す。

To mitigate the challenges arising from partial occlusion in human pose keypoint based pedestrian detection methods , we present a novel pedestrian pose keypoint completion method called the separation and dimensionality reduction-based generative adversarial imputation networks (SDR-GAIN) . Firstly, we utilize OpenPose to estimate pedestrian poses in images. Then, we isolate the head and torso keypoints of pedestrians with incomplete keypoints due to occlusion or other factors and perform dimensionality reduction to enhance features and further unify feature distribution. Finally, we introduce two generative models based on the generative adversarial networks (GAN) framework, which incorporate Huber loss, residual structure, and L1 regularization to generate missing parts of the incomplete head and torso pose keypoints of partially occluded pedestrians, resulting in pose completion. Our experiments on MS COCO and JAAD datasets demonstrate that SDR-GAIN outperforms basic GAIN framework, interpolation methods PCHIP and MAkima, machine learning methods k-NN and MissForest in terms of pose completion task. In addition, the runtime of SDR-GAIN is approximately 0.4ms, displaying high real-time performance and significant application value in the field of autonomous driving.
翻訳日:2023-06-07 16:14:41 公開日:2023-06-06
# 拡張現実のためのリアルタイム搭載物体検出:YOLOv8によるヘッドマウントディスプレイの実現

Real-Time Onboard Object Detection for Augmented Reality: Enhancing Head-Mounted Display with YOLOv8 ( http://arxiv.org/abs/2306.03537v1 )

ライセンス: Link先を確認
Miko{\l}aj {\L}ysakowski, Kamil \.Zywanowski, Adam Banaszczyk, Micha{\l} R. Nowicki, Piotr Skrzypczy\'nski, S{\l}awomir K. Tadeja(参考訳) 本稿では,拡張現実(AR)環境における機械学習(ML)を用いたリアルタイム物体検出のためのソフトウェアアーキテクチャを提案する。 我々のアプローチでは、Microsoft HoloLens 2ヘッドマウントディスプレイ(HMD)上で動作する最新のYOLOv8ネットワークを使用します。 この研究の背後にある主な動機は、ウェアラブルでハンズフリーなARプラットフォームによる高度なMLモデルによる認識と状況認識の強化を可能にすることである。 我々は、yolov8モデルの画像処理パイプラインと、ヘッドセットのリソース制限されたエッジコンピューティングプラットフォーム上でのリアルタイム処理技術を紹介する。 実験結果から,本ソリューションは,通常のmAP測定値と測定定性性能に関して良好な精度を維持しつつ,クラウドや他の外部サーバにタスクをオフロードすることなくリアルタイム処理を実現することを示した。

This paper introduces a software architecture for real-time object detection using machine learning (ML) in an augmented reality (AR) environment. Our approach uses the recent state-of-the-art YOLOv8 network that runs onboard on the Microsoft HoloLens 2 head-mounted display (HMD). The primary motivation behind this research is to enable the application of advanced ML models for enhanced perception and situational awareness with a wearable, hands-free AR platform. We show the image processing pipeline for the YOLOv8 model and the techniques used to make it real-time on the resource-limited edge computing platform of the headset. The experimental results demonstrate that our solution achieves real-time processing without needing offloading tasks to the cloud or any other external servers while retaining satisfactory accuracy regarding the usual mAP metric and measured qualitative performance
翻訳日:2023-06-07 16:14:14 公開日:2023-06-06
# テスト時間適応の落とし穴について

On Pitfalls of Test-Time Adaptation ( http://arxiv.org/abs/2306.03536v1 )

ライセンス: Link先を確認
Hao Zhao, Yuejiang Liu, Alexandre Alahi, Tao Lin(参考訳) テスト時間適応(TTA)は、分散シフトの下で堅牢性に対処するための有望なアプローチとして最近登場した。 しかし、先行文献における一貫した設定や体系的な研究の欠如は、既存の手法の徹底的な評価を妨げる。 この問題に対処するため,我々は10の最先端アルゴリズム,多様な分散シフト,2つの評価プロトコルを含むテスト時間適応ベンチマークであるttabを提案する。 大規模な実験を通じて、我々のベンチマークは以前の取り組みに共通する3つの落とし穴を明らかにした。 まず、オンラインバッチ依存のため、特にモデル選択のための適切なハイパーパラメータの選択が極めて困難である。 第2に、TTAの有効性は、適合するモデルの質や性質によって大きく異なる。 第3に、最適なアルゴリズム条件下であっても、既存の手法では、すべての共通タイプの分散シフトに対処できない。 本研究は,より広範なモデルとシフトの厳密な評価と,TTAの実証的成功の背景にある仮定の再検討の必要性を明らかにするものである。 私たちのコードは \url{https://github.com/lins-lab/ttab} で利用可能です。

Test-Time Adaptation (TTA) has recently emerged as a promising approach for tackling the robustness challenge under distribution shifts. However, the lack of consistent settings and systematic studies in prior literature hinders thorough assessments of existing methods. To address this issue, we present TTAB, a test-time adaptation benchmark that encompasses ten state-of-the-art algorithms, a diverse array of distribution shifts, and two evaluation protocols. Through extensive experiments, our benchmark reveals three common pitfalls in prior efforts. First, selecting appropriate hyper-parameters, especially for model selection, is exceedingly difficult due to online batch dependency. Second, the effectiveness of TTA varies greatly depending on the quality and properties of the model being adapted. Third, even under optimal algorithmic conditions, none of the existing methods are capable of addressing all common types of distribution shifts. Our findings underscore the need for future research in the field to conduct rigorous evaluations on a broader set of models and shifts, and to re-examine the assumptions behind the empirical success of TTA. Our code is available at \url{https://github.com/lins-lab/ttab}.
翻訳日:2023-06-07 16:14:02 公開日:2023-06-06
# scilit: 共同科学文献発見,要約,引用生成のためのプラットフォーム

SciLit: A Platform for Joint Scientific Literature Discovery, Summarization and Citation Generation ( http://arxiv.org/abs/2306.03535v1 )

ライセンス: Link先を確認
Nianlong Gu, Richard H.R. Hahnloser(参考訳) 科学的な文章は、大規模で急速に進化する分野における時間を要するプロセスである関連論文の検索、要約、引用を含む。 これらのプロセスを相互運用可能にすることで、自然言語処理(NLP)はエンドツーエンドの補助書記ツールを作成する機会を提供する。 本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,ユーザが提供するコンテキストやキーワードを考慮した論文の引用として参照文を提案する。 scilitは、紙のデータベースの追加と削除を柔軟に処理する2段階のプレフェッチと再ランキングの文学検索システムを使用して、数十億の論文の大規模なデータベースからの論文を効率的に推奨する。 推奨論文を抽出要約として表示し、提供された文脈に沿った要約文を抽象的に生成し、選択されたキーワードを参照する便利なユーザインタフェースを提供する。 文献発見と科学的執筆を支援するツールがhttps://scilit.vercel.appで公開されている。

Scientific writing involves retrieving, summarizing, and citing relevant papers, which can be time-consuming processes in large and rapidly evolving fields. By making these processes inter-operable, natural language processing (NLP) provides opportunities for creating end-to-end assistive writing tools. We propose SciLit, a pipeline that automatically recommends relevant papers, extracts highlights, and suggests a reference sentence as a citation of a paper, taking into consideration the user-provided context and keywords. SciLit efficiently recommends papers from large databases of hundreds of millions of papers using a two-stage pre-fetching and re-ranking literature search system that flexibly deals with addition and removal of a paper database. We provide a convenient user interface that displays the recommended papers as extractive summaries and that offers abstractively-generated citing sentences which are aligned with the provided context and which mention the chosen keyword(s). Our assistive tool for literature discovery and scientific writing is available at https://scilit.vercel.app
翻訳日:2023-06-07 16:13:46 公開日:2023-06-06
# データの線形分類における連続学習

Continual Learning in Linear Classification on Separable Data ( http://arxiv.org/abs/2306.03534v1 )

ライセンス: Link先を確認
Itay Evron, Edward Moroshko, Gon Buzaglo, Maroun Khriesh, Badea Marjieh, Nathan Srebro, Daniel Soudry(参考訳) 二項ラベルを用いた分割可能な線形分類タスクの連続学習を解析した。 本稿では,弱い正規化による学習が,POCS(Projection Onto Convex Sets)フレームワークの特別な場合に対応する,逐次最大行列問題の解に還元されることを理論的に示す。 次に,タスクの循環順序やランダム順序など,反復的なタスクを伴う様々な設定下で,忘れられた他の関心値の上限を開発する。 正規化スケジューリングや重み付けといった,一般的なトレーニングプラクティスに対する実践的な影響について論じる。 我々は,我々の連続的分類設定と最近研究された連続的回帰設定との間に,いくつかの理論的相違点を指摘する。

We analyze continual learning on a sequence of separable linear classification tasks with binary labels. We show theoretically that learning with weak regularization reduces to solving a sequential max-margin problem, corresponding to a special case of the Projection Onto Convex Sets (POCS) framework. We then develop upper bounds on the forgetting and other quantities of interest under various settings with recurring tasks, including cyclic and random orderings of tasks. We discuss several practical implications to popular training practices like regularization scheduling and weighting. We point out several theoretical differences between our continual classification setting and a recently studied continual regression setting.
翻訳日:2023-06-07 16:13:28 公開日:2023-06-06
# 矛盾し不確定な証拠に対する信念モデル--デンプスター・シェーファー理論と証拠のトポロジーをつなぐ

A Belief Model for Conflicting and Uncertain Evidence -- Connecting Dempster-Shafer Theory and the Topology of Evidence ( http://arxiv.org/abs/2306.03532v1 )

ライセンス: Link先を確認
Daira Pinto Prieto, Ronald de Haan, Ayb\"uke \"Ozg\"un(参考訳) 情報融合、意思決定、その他の人工知能の課題の文脈で解決すべき問題は、証拠に基づいて正当化された信念を計算することである。 実例では、この証拠は矛盾、不完全、不確実であり、証拠融合の問題は非常に非自明である。 本稿では,Dempster-Shafer理論とトポロジカル・モデル・オブ・エビデンス(Topological Models of Evidence)のツールを組み合わせることで,不一致,不完全,不確実な証拠に基づく信念の度合いを測定する新しいモデルを提案する。 我々の信念モデルは、(1)適切な制約が課されたときにそれらを再現できる、(2)エージェントの顕在的要求を表す様々な基準に従って信念を計算するのに十分柔軟である、という2つの重要な方法で、上記のアプローチよりも一般的である。 後者のノベルティは、例えば、エージェントが偽陰性の回避を優先し、偽陽性の回避を優先する状況において、同じ証拠に基づいて、エージェントの(おそらくは)異なる信念の程度を計算するために、我々のモデルのユーザがそれを利用するようにします。 最後に、このモデルによる信念の計算次数は一般に#P完全であることを示す。

One problem to solve in the context of information fusion, decision-making, and other artificial intelligence challenges is to compute justified beliefs based on evidence. In real-life examples, this evidence may be inconsistent, incomplete, or uncertain, making the problem of evidence fusion highly non-trivial. In this paper, we propose a new model for measuring degrees of beliefs based on possibly inconsistent, incomplete, and uncertain evidence, by combining tools from Dempster-Shafer Theory and Topological Models of Evidence. Our belief model is more general than the aforementioned approaches in two important ways: (1) it can reproduce them when appropriate constraints are imposed, and, more notably, (2) it is flexible enough to compute beliefs according to various standards that represent agents' evidential demands. The latter novelty allows the users of our model to employ it to compute an agent's (possibly) distinct degrees of belief, based on the same evidence, in situations when, e.g, the agent prioritizes avoiding false negatives and when it prioritizes avoiding false positives. Finally, we show that computing degrees of belief with this model is #P-complete in general.
翻訳日:2023-06-07 16:13:18 公開日:2023-06-06
# 説明可能性のホライズンの拡張:地域・グローバル・誤分類記述のための統一概念ベースシステム

Expanding Explainability Horizons: A Unified Concept-Based System for Local, Global, and Misclassification Explanations ( http://arxiv.org/abs/2306.03531v1 )

ライセンス: Link先を確認
Fatemeh Aghaeipoor, Dorsa Asgarian, Mohammad Sabokrou(参考訳) 近年,インテリジェントモデルの説明可能性に注目が集まっている。 様々な説明可能性のアプローチの中で、概念に基づく手法は、個々のピクセルに焦点をあてるのではなく、人間に意味のある概念の集合を利用するのが特徴である。 しかし、局所的な説明とグローバルな説明を一貫して提供する手法は乏しい。 さらに、ほとんどのメソッドには、誤分類ケースを説明する提案がない。 これらの課題に対処するため、研究は単純かつ効果的なアプローチに従っています。 本稿では,複数の超画素イメージをネットワークに入力し,対象のオブジェクトの表現や対象のコンセプトをより良く学習する,統一された概念ベースシステムを提案する。 この方法は、局所的およびグローバルな概念を学習し、得点し、抽出する。 実験の結果,性能の向上に加えて,モデルが予測の深い洞察を与え,誤分類を解明できることが判明した。

Explainability of intelligent models has been garnering increasing attention in recent years. Of the various explainability approaches, concept-based techniques are notable for utilizing a set of human-meaningful concepts instead of focusing on individual pixels. However, there is a scarcity of methods that consistently provide both local and global explanations. Moreover, most of the methods have no offer to explain misclassification cases. To address these challenges, our study follows a straightforward yet effective approach. We propose a unified concept-based system, which inputs a number of super-pixelated images into the networks, allowing them to learn better representations of the target's objects as well as the target's concepts. This method automatically learns, scores, and extracts local and global concepts. Our experiments revealed that, in addition to enhancing performance, the models could provide deeper insights into predictions and elucidate false classifications.
翻訳日:2023-06-07 16:12:53 公開日:2023-06-06
# clausal tableaux による範囲制限補間

Range-Restricted Interpolation through Clausal Tableaux ( http://arxiv.org/abs/2306.03572v1 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) 一階述語論理におけるクレイグ補間(Craig interpolation)の出力への入力から、範囲制限のバリエーションとホーン特性の変換方法を示す。 証明システムはclausal tableauxであり、一階のatpに由来する。 この結果は、一般に証明変換によって達成できるクララザウ構造の制限によって誘導され、また、ソース証明が分解/パラモディフィケーションによっても得られる。 主な用途は、クエリ合成と補間による再構成である。 我々の方法論的アプローチは、高度に最適化された一階述語プローバーを組み込むことにより、証明構造上の操作を実現可能な実装の即時的な視点と組み合わせる。

We show how variations of range-restriction and also the Horn property can be passed from inputs to outputs of Craig interpolation in first-order logic. The proof system is clausal tableaux, which stems from first-order ATP. Our results are induced by a restriction of the clausal tableau structure, which can be achieved in general by a proof transformation, also if the source proof is by resolution/paramodulation. Primarily addressed applications are query synthesis and reformulation with interpolation. Our methodical approach combines operations on proof structures with the immediate perspective of feasible implementation through incorporating highly optimized first-order provers.
翻訳日:2023-06-07 16:04:37 公開日:2023-06-06
# フェデレーション学習のためのパーソナライズ・ディアングルメント

Personalization Disentanglement for Federated Learning ( http://arxiv.org/abs/2306.03570v1 )

ライセンス: Link先を確認
Peng Yan, Guodong Long(参考訳) パーソナライズドフェデレーション学習(pfl)は、クライアント間の知識共有とクライアント毎のモデルパーソナライゼーションのバランスを通じて、さまざまなローカルモデルを共同でトレーニングする。 本稿では,PFLを2つの部分に分割することで,共有知識とクライアント固有のパーソナライゼーションを抽出し,より信頼性と効果的なPFLを実現する。 2種類の表現を推論するために2つのエンコーダを使用するFedDVA(Federated Dual Variational Autoencoder)によって実現されている。 FedDVAは、グローバル知識共有とPFLにおけるローカルパーソナライゼーションのトレードオフをよりよく理解することができる。 さらに、既存のflメソッドと統合して、ヘテロジニアスなダウンストリームタスク用にパーソナライズされたモデルにすることができる。 広汎な実験は、非絡み合いによる利点を検証し、非絡み合い表現で訓練されたモデルがそれらのバニラ法を大幅に上回っていることを示す。

Personalized federated learning (PFL) jointly trains a variety of local models through balancing between knowledge sharing across clients and model personalization per client. This paper addresses PFL via explicit disentangling latent representations into two parts to capture the shared knowledge and client-specific personalization, which leads to more reliable and effective PFL. The disentanglement is achieved by a novel Federated Dual Variational Autoencoder (FedDVA), which employs two encoders to infer the two types of representations. FedDVA can produce a better understanding of the trade-off between global knowledge sharing and local personalization in PFL. Moreover, it can be integrated with existing FL methods and turn them into personalized models for heterogeneous downstream tasks. Extensive experiments validate the advantages caused by disentanglement and show that models trained with disentangled representations substantially outperform those vanilla methods.
翻訳日:2023-06-07 16:04:28 公開日:2023-06-06
# 逐次学習のためのメモリベースデュアルガウス過程

Memory-Based Dual Gaussian Processes for Sequential Learning ( http://arxiv.org/abs/2306.03566v1 )

ライセンス: Link先を確認
Paul E. Chang, Prakhar Verma, S.T. John, Arno Solin, Mohammad Emtiyaz Khan(参考訳) ガウス過程(GP)による逐次学習は、例えば連続的および活発な学習において、過去のデータへのアクセスが制限されている場合に困難である。 このような場合、後部、ハイパーパラメータの不正確さ、およびポイントの誘導によりエラーが時間の経過とともに蓄積され、正確な学習が困難になる。 そこで本研究では,最近提案されたデュアルスパース変分GPを用いて,このようなエラーをすべてチェックする手法を提案する。 提案手法は,過去の記憶を積極的に構築・更新することで,汎用的確率の正確な推論を可能にし,学習を改善する。 ベイズ最適化,アクティブラーニング,継続的な学習を含むいくつかのアプリケーションでその効果を示す。

Sequential learning with Gaussian processes (GPs) is challenging when access to past data is limited, for example, in continual and active learning. In such cases, errors can accumulate over time due to inaccuracies in the posterior, hyperparameters, and inducing points, making accurate learning challenging. Here, we present a method to keep all such errors in check using the recently proposed dual sparse variational GP. Our method enables accurate inference for generic likelihoods and improves learning by actively building and updating a memory of past data. We demonstrate its effectiveness in several applications involving Bayesian optimization, active learning, and continual learning.
翻訳日:2023-06-07 16:04:11 公開日:2023-06-06
# 複数スピン量子ビットの同時一過性分散読み出しの理論

Theory of the Simultaneous Transient Dispersive Readout of Multiple Spin Qubits ( http://arxiv.org/abs/2306.03564v1 )

ライセンス: Link先を確認
Florian Ginzel and Guido Burkard(参考訳) 量子ビットの脱相間における多重分散量子ビット測定のパラダイムを提案する。 時間依存キャビティ応答のラプラス変換は、同じ共振器モードに結合された複数のキュービットからコントリビューションを分離することができ、同時に単発読み出すことができる。 シリコンスピン量子ビットの現実的なパラメータは競合的な読み出し忠実度を示し、測定時間は従来の分散読み出しと比較するのが好ましい。 多重読み出し法を補助量子ビットを用いた量子非分解計測に拡張する。

We propose a paradigm of multiplexed dispersive qubit measurement performed while the qubits dephase. A Laplace transformation of the time-dependent cavity response allows to separate contributions from multiple qubits coupled to the same resonator mode, thus allowing for simultaneous single-shot read out. With realistic parameters for silicon spin qubits we find a competitive readout fidelity, while the measurement time compares favourably to conventional dispersive readout. We extend the multiplexed readout method to quantum non-demolition measurements using auxiliary qubits.
翻訳日:2023-06-07 16:03:59 公開日:2023-06-06
# CIN++: トポロジカルメッセージパッシングの強化

CIN++: Enhancing Topological Message Passing ( http://arxiv.org/abs/2306.03561v1 )

ライセンス: Link先を確認
Lorenzo Giusti, Teodora Reu, Francesco Ceccarelli, Cristian Bodnar, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習において顕著な成功を収めている。 しかし、それらは表現力において重大な制限に直面し、長距離相互作用に苦しめられ、高次構造や群相互作用をモデル化する原理的なアプローチを欠いている。 細胞間アイソモルフィックネットワーク(CIN)は近年,細胞複合体に基づくメッセージパッシング方式でこれらの課題の多くに対処している。 それらの利点にもかかわらず、CINは基底複体に存在する環間の直接相互作用を考慮しない境界メッセージと上メッセージのみを利用する。 これらの相互作用の説明は、超分子集合体の力学、脳内の神経活動、遺伝子制御プロセスなどの多くの現実世界の複雑な現象の表現を学ぶために重要である。 本研究では,CINで導入されたトポロジ的メッセージパッシング方式の強化であるCIN++を提案する。 当社のメッセージパッシングスキームは、セルが各レイヤ内のメッセージも受信できるようにすることで、前述の制限を満たしています。 高次および長距離相互作用のより包括的な表現を提供することで、我々の拡張されたトポロジカルメッセージパッシングスキームは、大規模かつ長距離の化学ベンチマークで最先端の結果を得ることができる。

Graph Neural Networks (GNNs) have demonstrated remarkable success in learning from graph-structured data. However, they face significant limitations in expressive power, struggling with long-range interactions and lacking a principled approach to modeling higher-order structures and group interactions. Cellular Isomorphism Networks (CINs) recently addressed most of these challenges with a message passing scheme based on cell complexes. Despite their advantages, CINs make use only of boundary and upper messages which do not consider a direct interaction between the rings present in the underlying complex. Accounting for these interactions might be crucial for learning representations of many real-world complex phenomena such as the dynamics of supramolecular assemblies, neural activity within the brain, and gene regulation processes. In this work, we propose CIN++, an enhancement of the topological message passing scheme introduced in CINs. Our message passing scheme accounts for the aforementioned limitations by letting the cells to receive also lower messages within each layer. By providing a more comprehensive representation of higher-order and long-range interactions, our enhanced topological message passing scheme achieves state-of-the-art results on large-scale and long-range chemistry benchmarks.
翻訳日:2023-06-07 16:03:51 公開日:2023-06-06
# 機械学習: 調査

Machine Unlearning: A Survey ( http://arxiv.org/abs/2306.03558v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, Philip S. Yu(参考訳) 機械学習は広く注目を集め、インテリジェントコンピュータビジョン、音声認識、医療診断など、幅広い高度に成功している応用を可能にする技術へと発展してきた。 しかし、プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。 この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。 同時に、この野心的な問題は、その挑戦に対処するための多くの研究につながった。 我々の知る限りでは、この複雑なトピックを分析したり、既存の未学習ソリューションをさまざまなシナリオで実現可能であることと比較する研究はない。 そこで本研究では,アンラーニング技術の重要な概念を捉えることを目的とする。 既存のソリューションは、各カテゴリの利点と限界に関する最新の包括的なレビューの中で、それらの特性に基づいて分類され、要約される。 この調査は、未学習技術の優れた問題のいくつかと、新たな研究機会に向けた実現可能な方向を強調することで締めくくっている。

Machine learning has attracted widespread attention and evolved into an enabling technology for a wide range of highly successful applications, such as intelligent computer vision, speech recognition, medical diagnosis, and more. Yet a special need has arisen where, due to privacy, usability, and/or the right to be forgotten, information about some specific samples needs to be removed from a model, called machine unlearning. This emerging technology has drawn significant interest from both academics and industry due to its innovation and practicality. At the same time, this ambitious problem has led to numerous research efforts aimed at confronting its challenges. To the best of our knowledge, no study has analyzed this complex topic or compared the feasibility of existing unlearning solutions in different kinds of scenarios. Accordingly, with this survey, we aim to capture the key concepts of unlearning techniques. The existing solutions are classified and summarized based on their characteristics within an up-to-date and comprehensive review of each category's advantages and limitations. The survey concludes by highlighting some of the outstanding issues with unlearning techniques, along with some feasible directions for new research opportunities.
翻訳日:2023-06-07 16:03:31 公開日:2023-06-06
# Take the Hint: 部分分類テキストによるアラビア語の発音改善

Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text ( http://arxiv.org/abs/2306.03557v1 )

ライセンス: Link先を確認
Parnia Bahar, Mattia Di Gangi, Nick Rossenbach, Mohammad Zeineldeen(参考訳) 自動アラビア語読解は、言語学習者の読解サポートから、音声合成のような下流タスクの正確な発音予測器まで、多くのアプリケーションで有用である。 以前の研究のほとんどは、生の非発音テキストで動くモデルに焦点を当てていたが、生産システムはまず人間が曖昧な単語に注釈を付けることで精度を上げることができる。 本稿では,入力中の任意のダイアクリティカルスを効果的にサポートし,すべての予測を知らせるマルチソースモデルである2sdiacを提案する。 また,ランダムマスキングのレベルが異なる入力のダイアクリティカルスを活用した学習手法である誘導学習についても紹介する。 テスト中に提供されるヒントは、注釈が付されたものよりも出力位置に影響を及ぼす。 さらに、2つの共通ベンチマーク実験により、我々のアプローチが i)非診断テキストで評価する場合においても,ベースラインを大幅に上回る。 二) パラメータ数を60%以上削減しつつ、最先端の結果を得る。

Automatic Arabic diacritization is useful in many applications, ranging from reading support for language learners to accurate pronunciation predictor for downstream tasks like speech synthesis. While most of the previous works focused on models that operate on raw non-diacritized text, production systems can gain accuracy by first letting humans partly annotate ambiguous words. In this paper, we propose 2SDiac, a multi-source model that can effectively support optional diacritics in input to inform all predictions. We also introduce Guided Learning, a training scheme to leverage given diacritics in input with different levels of random masking. We show that the provided hints during test affect more output positions than those annotated. Moreover, experiments on two common benchmarks show that our approach i) greatly outperforms the baseline also when evaluated on non-diacritized text; and ii) achieves state-of-the-art results while reducing the parameter count by over 60%.
翻訳日:2023-06-07 16:03:17 公開日:2023-06-06
# 抽象推論コーパス(ARC)の課題解決への取り組み

An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge ( http://arxiv.org/abs/2306.03553v1 )

ライセンス: Link先を確認
Tan John Chong Min(参考訳) 我々は、大規模言語モデル(LLM)、特にGPT4のパワーを利用して、任意のタスクの実行を迅速に行う。 ここでは、ARCタスクを解くための典型的な手順とともに、テキストを介して、そのモデルに人間の事前情報を与え、生成を依頼する。 一 入出力関係の広範な記述 二 入出力マッピングの詳細な手順 三 詳細な手順を用いて、試験入力の操作を行い、試験出力を導出すること。 現在のGPT3.5/GPT4は、試験された4つのARC課題のうち2つを解決する。 ユースケースをより具体化するプロンプトを微調整することで、さらに多くの問題を解決することができる。 我々は,過去の記憶を用いてマルチエージェントシステムにスケールし,視覚的質問応答による画像解釈ツールを備える場合,arcチャレンジの大部分を実際に解決できる可能性を示す。

We utilise the power of Large Language Models (LLMs), in particular GPT4, to be prompt engineered into performing an arbitrary task. Here, we give the model some human priors via text, along with some typical procedures for solving the ARC tasks, and ask it to generate the i) broad description of the input-output relation, ii) detailed steps of the input-output mapping, iii) use the detailed steps to perform manipulation on the test input and derive the test output. The current GPT3.5/GPT4 prompt solves 2 out of 4 tested small ARC challenges (those with small grids of 8x8 and below). With tweaks to the prompt to make it more specific for the use case, it can solve more. We posit that when scaled to a multi-agent system with usage of past memory and equipped with an image interpretation tool via Visual Question Answering, we may actually be able to solve the majority of the ARC challenge
翻訳日:2023-06-07 16:03:03 公開日:2023-06-06
# ダイナミクスシフトを伴うデータに対する状態正規化ポリシー最適化

State Regularized Policy Optimization on Data with Dynamics Shift ( http://arxiv.org/abs/2306.03552v1 )

ライセンス: Link先を確認
Zhenghai Xue, Qingpeng Cai, Shuchang Liu, Dong Zheng, Peng Jiang, Kun Gai, Bo An(参考訳) 多くの現実世界のシナリオでは、強化学習(rl)アルゴリズムは、動的シフトのあるデータ、すなわち異なる環境ダイナミクスに基づいて訓練される。 現在の手法の大部分は、環境パラメータを識別するためにコンテキストエンコーダをトレーニングすることでこの問題に対処している。 動的シフトを伴うデータは、環境パラメータに従って分離され、対応するポリシーをトレーニングする。 しかし、これらの手法は、データがtextit{ad hoc} として使用されるため、サンプル非効率であり、1つのダイナミクスのために訓練されたポリシーは、異なるダイナミクスを持つ他のすべての環境で収集されたデータから恩恵を受けることができない。 本稿では,類似した構造と異なるダイナミクスを持つ多くの環境において,最適ポリシーが類似した定常状態分布を持つことを示す。 このような特性を活用し,動的シフトを持つデータから定常状態分布を学習し,効率的なデータ再利用を行う。 そのような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization)アルゴリズムにつながる。 理論的解析を行うため、類似した環境構造の直観はホモモルファスMDPの概念によって特徴づけられる。 次に、定常状態分布によって規則化されたポリシーに対して、低いバウンド性能保証を示す。 実際には、SRPOはオンラインとオフラインのRL設定の両方でコンテキストベースのアルゴリズムのアドオンモジュールとなることができる。 実験の結果、srpoは複数のコンテキストベースのアルゴリズムをより効率的にし、全体的な性能を大幅に向上できることがわかった。

In many real-world scenarios, Reinforcement Learning (RL) algorithms are trained on data with dynamics shift, i.e., with different underlying environment dynamics. A majority of current methods address such issue by training context encoders to identify environment parameters. Data with dynamics shift are separated according to their environment parameters to train the corresponding policy. However, these methods can be sample inefficient as data are used \textit{ad hoc}, and policies trained for one dynamics cannot benefit from data collected in all other environments with different dynamics. In this paper, we find that in many environments with similar structures and different dynamics, optimal policies have similar stationary state distributions. We exploit such property and learn the stationary state distribution from data with dynamics shift for efficient data reuse. Such distribution is used to regularize the policy trained in a new environment, leading to the SRPO (\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization) algorithm. To conduct theoretical analyses, the intuition of similar environment structures is characterized by the notion of homomorphous MDPs. We then demonstrate a lower-bound performance guarantee on policies regularized by the stationary state distribution. In practice, SRPO can be an add-on module to context-based algorithms in both online and offline RL settings. Experimental results show that SRPO can make several context-based algorithms far more data efficient and significantly improve their overall performance.
翻訳日:2023-06-07 16:02:48 公開日:2023-06-06
# 産業におけるスケーラブルな概念抽出 4.0

Scalable Concept Extraction in Industry 4.0 ( http://arxiv.org/abs/2306.03551v1 )

ライセンス: Link先を確認
Andr\'es Felipe Posada-Moreno, Kai M\"uller, Florian Brillowski, Friedrich Solowjow, Thomas Gries, Sebastian Trimpe(参考訳) 業界 4.0 は製造プロセスの接続と最適化にデジタル技術と機械学習技術を活用している。 このアイデアの中心は、信頼できるデータ駆動意思決定のために、生データを人間の理解可能な知識に変換する能力である。 畳み込みニューラルネットワーク(CNN)は画像データの処理に役立っているが、その‘ブラックボックス’の性質は予測プロセスの理解を複雑にしている。 この文脈において、eXplainable Artificial Intelligence(XAI)の分野における最近の進歩は、概念の抽出とローカライゼーション、あるいはCNNの予測過程に視覚的手がかりが介在するものである。 本稿では,概念抽出法(CE)の産業シナリオへの適用に取り組む。 そこで我々は,最近開発された手法である「ローカル集約記述子による概念抽出(ECLAD)」を改良し,そのスケーラビリティを向上する。 具体的には,cnn用に設計されたラッパー関数を用いて,概念重要度を計算する新しい手法を提案する。 このプロセスは、各画像の評価に必要な回数を減らすことを目的としている。 次に,3つの産業ユースケースに適用することにより,CE法の可能性を示す。 材料設計, 製造 (炭素繊維補強), メンテナンス (太陽電池モジュール検査) における品質管理の文脈において, 代表的な3つのユースケースを選択した。 これらの例では、CEは各タスクに直接関連する概念を抽出し、見つけ出すことに成功した。 これは、視覚的な手がかりが複数のクラスの間で絡まっていたとしても、人間の専門家がタスク自体を実行するために使用するものと一致する。 実証的な結果から,CEは産業的文脈におけるCNNの理解に応用できることを示し,ドメイン知識に関連する有用な洞察を提供する。

The industry 4.0 is leveraging digital technologies and machine learning techniques to connect and optimize manufacturing processes. Central to this idea is the ability to transform raw data into human understandable knowledge for reliable data-driven decision-making. Convolutional Neural Networks (CNNs) have been instrumental in processing image data, yet, their ``black box'' nature complicates the understanding of their prediction process. In this context, recent advances in the field of eXplainable Artificial Intelligence (XAI) have proposed the extraction and localization of concepts, or which visual cues intervene on the prediction process of CNNs. This paper tackles the application of concept extraction (CE) methods to industry 4.0 scenarios. To this end, we modify a recently developed technique, ``Extracting Concepts with Local Aggregated Descriptors'' (ECLAD), improving its scalability. Specifically, we propose a novel procedure for calculating concept importance, utilizing a wrapper function designed for CNNs. This process is aimed at decreasing the number of times each image needs to be evaluated. Subsequently, we demonstrate the potential of CE methods, by applying them in three industrial use cases. We selected three representative use cases in the context of quality control for material design (tailored textiles), manufacturing (carbon fiber reinforcement), and maintenance (photovoltaic module inspection). In these examples, CE was able to successfully extract and locate concepts directly related to each task. This is, the visual cues related to each concept, coincided with what human experts would use to perform the task themselves, even when the visual cues were entangled between multiple classes. Through empirical results, we show that CE can be applied for understanding CNNs in an industrial context, giving useful insights that can relate to domain knowledge.
翻訳日:2023-06-07 16:02:18 公開日:2023-06-06
# 記憶共有と注意喚起ネットワークに基づく感情対話ヘッド生成

Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks ( http://arxiv.org/abs/2306.03594v1 )

ライセンス: Link先を確認
Jianrong Wang, Yaxin Zhao, Li Liu, Tianyi Xu, Qi Li, Sen Li(参考訳) 音声クリップと参照顔画像が与えられた場合、対話ヘッド生成の目的は高忠実な音声ヘッドビデオを生成することである。 音声による頭部ビデオの生成には過去にいくつかの成果があるが、その多くは唇と音声の同期にのみ焦点を合わせ、対象者の表情を再現する能力に欠けていた。 そこで本研究では,記憶共有感情特徴抽出器 (msef) と u-net (aatu) に基づく注意喚起翻訳器からなる対話ヘッド生成モデルを提案する。 まず、MSEFは音声から暗黙の感情的な補助的特徴を抽出し、より正確な感情的な顔のランドマークを推定する。 第2に、AATUは推定ランドマークと写真リアルなビデオフレームの間の翻訳を行う。 大規模定性的および定量的実験により,提案手法の先行研究に対する優位性が示された。 コードは公開される予定だ。

Given an audio clip and a reference face image, the goal of the talking head generation is to generate a high-fidelity talking head video. Although some audio-driven methods of generating talking head videos have made some achievements in the past, most of them only focused on lip and audio synchronization and lack the ability to reproduce the facial expressions of the target person. To this end, we propose a talking head generation model consisting of a Memory-Sharing Emotion Feature extractor (MSEF) and an Attention-Augmented Translator based on U-net (AATU). Firstly, MSEF can extract implicit emotional auxiliary features from audio to estimate more accurate emotional face landmarks.~Secondly, AATU acts as a translator between the estimated landmarks and the photo-realistic video frames. Extensive qualitative and quantitative experiments have shown the superiority of the proposed method to the previous works. Codes will be made publicly available.
翻訳日:2023-06-07 15:56:18 公開日:2023-06-06
# エントロピー共分散モデル

Entropic covariance models ( http://arxiv.org/abs/2306.03590v1 )

ライセンス: Link先を確認
Piotr Zwiernik(参考訳) 共分散行列推定における課題の1つは、適切なモデルと効率的な推定方法を見つけることである。 文献でよく使われる2つのアプローチは、共分散行列またはその逆行列に線形制限を課すことである。 別のアプローチでは、共分散行列の行列対数に対する線形制限を考える。 本稿では,上記の例を含む共分散行列の異なる変換に対する線形制約に関する一般的な枠組みを提案する。 提案手法は凸問題を解き,M推定器を出力し,比較的簡単な漸近的・有限標本解析を可能にする。 一般理論を発展させた後、相関行列のモデリングとスパーシティに着目する。 我々の幾何学的洞察は、共分散行列モデリングにおける最近の様々な結果を拡張することができる。 これには、行列対数を用いた最近の結果の代替となる相関行列の空間の非制限パラメトリゼーション(unrestricted parametrization)を提供する。

In covariance matrix estimation, one of the challenges lies in finding a suitable model and an efficient estimation method. Two commonly used approaches in the literature involve imposing linear restrictions on the covariance matrix or its inverse. Another approach considers linear restrictions on the matrix logarithm of the covariance matrix. In this paper, we present a general framework for linear restrictions on different transformations of the covariance matrix, including the mentioned examples. Our proposed estimation method solves a convex problem and yields an M-estimator, allowing for relatively straightforward asymptotic and finite sample analysis. After developing the general theory, we focus on modelling correlation matrices and on sparsity. Our geometric insights allow to extend various recent results in covariance matrix modelling. This includes providing unrestricted parametrizations of the space of correlation matrices, which is alternative to a recent result utilizing the matrix logarithm.
翻訳日:2023-06-07 15:56:02 公開日:2023-06-06
# オーバースカッシングはGNNのパワーにどのように影響しますか?

How does over-squashing affect the power of GNNs? ( http://arxiv.org/abs/2306.03589v1 )

ライセンス: Link先を確認
Francesco Di Giovanni, T. Konstantin Rusch, Michael M. Bronstein, Andreea Deac, Marc Lackenby, Siddhartha Mishra, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習のための最先端モデルである。 最もポピュラーなGNNクラスは、隣接ノード間で情報を交換することで動作し、Message Passing Neural Networks (MPNNs)として知られている。 広く使われているMPNNの表現力を理解することは重要な問題である。 しかし、既存の結果は、通常、ノード機能のない設定を考える。 本稿では,与えられたキャパシティを持つMPNNがどのノード特徴の関数クラスを学習できるかを決定するための厳密な分析を行う。 私たちはMPNNが許容するノード間のペアワイズインタラクションのレベルを測定することで実現しています。 この尺度は、大量のメッセージが固定サイズのベクトルに集約されたときに発生する、いわゆるオーバースワッシング効果の新しい定量的特徴付けを提供する。 提案手法を用いて,一対のノード間の十分な通信を保証するために,MPNNの容量は,通勤時間などの入力グラフ構造の性質に応じて十分に大きくなければならないことを示す。 多くの関連するシナリオにおいて、我々の分析は実際には不可能なステートメントを生じさせ、過剰なスカッシングがMPNNの表現力を妨げていることを示す。 我々は,広範囲な制御実験とアブレーション研究を通じて理論的知見を検証する。

Graph Neural Networks (GNNs) are the state-of-the-art model for machine learning on graph-structured data. The most popular class of GNNs operate by exchanging information between adjacent nodes, and are known as Message Passing Neural Networks (MPNNs). Given their widespread use, understanding the expressive power of MPNNs is a key question. However, existing results typically consider settings with uninformative node features. In this paper, we provide a rigorous analysis to determine which function classes of node features can be learned by an MPNN of a given capacity. We do so by measuring the level of pairwise interactions between nodes that MPNNs allow for. This measure provides a novel quantitative characterization of the so-called over-squashing effect, which is observed to occur when a large volume of messages is aggregated into fixed-size vectors. Using our measure, we prove that, to guarantee sufficient communication between pairs of nodes, the capacity of the MPNN must be large enough, depending on properties of the input graph structure, such as commute times. For many relevant scenarios, our analysis results in impossibility statements in practice, showing that over-squashing hinders the expressive power of MPNNs. We validate our theoretical findings through extensive controlled experiments and ablation studies.
翻訳日:2023-06-07 15:55:48 公開日:2023-06-06
# 言語習得: 子供と言語モデルは同様の学習段階に従うか?

Language acquisition: do children and language models follow similar learning stages? ( http://arxiv.org/abs/2306.03586v1 )

ライセンス: Link先を確認
Linnea Evanson, Yair Lakretz, Jean-R\'emi King(参考訳) 言語習得中、子供たちは典型的な学習段階に従って、まず音素の分類を学び、語彙を発達させ、次第に複雑な構文構造を習得する。 しかし、この学習の軌跡に繋がる計算原理はほとんど不明である。 そこで本研究では,深層言語モデルの学習軌跡と子どもの学習軌跡を比較した。 具体的には, GPT-2が18歳から6歳までの子どもに比較して, 言語習得の段階を示すかを検討した。 そこで我々は,48 GPT-2モデルをスクラッチからトレーニングし,BLiMP,Zorro,BIG-Benchベンチマークから算出した96個のプローブを用いて,各トレーニングステップにおける構文的および意味的能力を評価する。 そして、これらの評価を54人の子どもの言語生産における行動と比較した。 我々の分析は3つの主要な発見を明らかにした。 まず、子どもと同様に、言語モデルは体系的な順序で言語スキルを学ぶ傾向がある。 第2に、この学習スキームは並列であり、最後に学習される言語タスクは、最初のトレーニングステップから改善される。 第3に、学習段階は子供とこれらの言語モデルの間で共有される。 全体として、これらの結果は言語獲得の原則に新たな光を当て、人間と現代のアルゴリズムが自然言語を処理する方法を学ぶ上で重要な相違点を浮き彫りにした。

During language acquisition, children follow a typical sequence of learning stages, whereby they first learn to categorize phonemes before they develop their lexicon and eventually master increasingly complex syntactic structures. However, the computational principles that lead to this learning trajectory remain largely unknown. To investigate this, we here compare the learning trajectories of deep language models to those of children. Specifically, we test whether, during its training, GPT-2 exhibits stages of language acquisition comparable to those observed in children aged between 18 months and 6 years. For this, we train 48 GPT-2 models from scratch and evaluate their syntactic and semantic abilities at each training step, using 96 probes curated from the BLiMP, Zorro and BIG-Bench benchmarks. We then compare these evaluations with the behavior of 54 children during language production. Our analyses reveal three main findings. First, similarly to children, the language models tend to learn linguistic skills in a systematic order. Second, this learning scheme is parallel: the language tasks that are learned last improve from the very first training steps. Third, some - but not all - learning stages are shared between children and these language models. Overall, these results shed new light on the principles of language acquisition, and highlight important divergences in how humans and modern algorithms learn to process natural language.
翻訳日:2023-06-07 15:55:28 公開日:2023-06-06
# RDFC-GAN:RGB-Depth Fusion CycleGAN

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion ( http://arxiv.org/abs/2306.03584v1 )

ライセンス: Link先を確認
Haowen Wang, Zhengping Che, Mingyuan Wang, Zhiyuan Xu, Xiuquan Qiao, Mengshi Qi, Feifei Feng, Jian Tang(参考訳) 屋内の奥行きセンサーが捉えた生の奥行き画像は、通常、透明な物体を知覚できないことや距離範囲が限られるなど、固有の制限により、奥行き値が不足している範囲が広い。 不完全な深度マップは、多くの下流視覚課題を負担し、この問題を軽減するために多くの深度補完法が提案されている。 既存の方法のほとんどは、疎さと均一にサンプリングされた深度マップから正確な濃密な深さマップを生成することができるが、屋内環境で撮影される画像において一般的かつ重要な深さ値の欠落した大きな連続した領域を補完するのには適していない。 これらの課題を克服するため、RDFC-GANと呼ばれる新しい2分岐のエンドツーエンド核融合ネットワークを設計し、RGBと不完全深度画像のペアを入力として、密度と完成深度マップを予測する。 第1分枝は、マンハッタン世界の仮定に固執し、RGB-D情報からの正規写像をガイダンスとして利用して、生の深度マップから局所的な密度深度値を回帰することにより、エンコーダ・デコーダ構造を用いる。 他方のブランチでは、RGB画像を微細なテクスチャ化深度マップに転送するRGB深度融合CycleGANを提案する。 w-adain と呼ばれる適応型核融合モジュールを採用して2つの枝にまたがる特徴を伝播させ、最終深度マップのために枝の2つの出力を融合する信頼度核融合ヘッドを付加する。 nyu-depth v2 と sun rgb-d の広範な実験により,提案手法が,特に室内環境のより現実的な環境での奥行き完了性能を,トレーニングにおける擬似奥行きマップの助けを借りて明らかに改善できることが証明された。

The raw depth image captured by indoor depth sensors usually has an extensive range of missing depth values due to inherent limitations such as the inability to perceive transparent objects and the limited distance range. The incomplete depth map with missing values burdens many downstream vision tasks, and a rising number of depth completion methods have been proposed to alleviate this issue. While most existing methods can generate accurate dense depth maps from sparse and uniformly sampled depth maps, they are not suitable for complementing large contiguous regions of missing depth values, which is common and critical in images captured in indoor environments. To overcome these challenges, we design a novel two-branch end-to-end fusion network named RDFC-GAN, which takes a pair of RGB and incomplete depth images as input to predict a dense and completed depth map. The first branch employs an encoder-decoder structure, by adhering to the Manhattan world assumption and utilizing normal maps from RGB-D information as guidance, to regress the local dense depth values from the raw depth map. In the other branch, we propose an RGB-depth fusion CycleGAN to transfer the RGB image to the fine-grained textured depth map. We adopt adaptive fusion modules named W-AdaIN to propagate the features across the two branches, and we append a confidence fusion head to fuse the two outputs of the branches for the final depth map. Extensive experiments on NYU-Depth V2 and SUN RGB-D demonstrate that our proposed method clearly improves the depth completion performance, especially in a more realistic setting of indoor environments, with the help of our proposed pseudo depth maps in training.
翻訳日:2023-06-07 15:55:06 公開日:2023-06-06
# 集合論と多くの世界

Set Theory and Many Worlds ( http://arxiv.org/abs/2306.03583v1 )

ライセンス: Link先を確認
Paul Tappenden(参考訳) 2022年のテルアビブの量子力学の多世界解釈に関する会議は、理論家の間で多くの違いを浮き彫りにした。 非常に重要な二分法は、エベレットの分裂(分裂)とサンダース=ウォレス=ウィルソンの分岐である。 フィッションの場合、観測者は複数の未来を持つが、発散の場合は常に単一の未来を持つ。 発散はエベレット理論における測定前の不確実性(英語版)の問題を解決するために明示的に導入された。 ここでは、客観的確率がエベレット枝の性質である限り、核分裂以前の将来の観測には確かに不確実性がある。 これは宇宙が集合であり、分枝が確率測度を持つ部分集合であるときに可能となる。 宇宙は、マクロ的に同型であり、顕微鏡的な局所的なbe\"可能な全ての構成にまたがる宇宙の集合である。 客観的確率が分枝の性質であるならば、成功したドイッチュ=ウォレス決定理論の議論は主原理を正当化し、多くの世界特有のものではなく確率論の一部となる。 環境中のあらゆるマクロな物体は、異なる微視的な構成を持つアイソモルフィックの集合となり、それぞれが要素宇宙(集合論的な意味での要素)にある。 これは多くの相互作用世界理論に類似しているが、観察者は個々の世界ではなく世界の集合に居住している。 オブザーバーには多くの元素体があります。

The 2022 Tel Aviv conference on the Many Worlds interpretation of quantum mechanics highlighted many differences between theorists. A very significant dichotomy is between Everettian fission (splitting) and Saunders-Wallace-Wilson divergence. For fission, an observer may have multiple futures, whereas for divergence they always have a single future. Divergence was explicitly introduced to resolve the problem of pre-measurement uncertainty for Everettian theory, which is universally believed to be absent for fission. Here, I maintain that there is indeed uncertainty about future observations prior to fission, so long as objective probability is a property of Everettian branches. This is made possible if the universe is a set and branches are subsets with probability measure. A universe which is a set of universes which are macroscopically isomorphic and span all possible configurations of microscopic local be\"ables fulfils that role. If objective probability is a property of branches, a successful Deutsch-Wallace decision-theoretic argument would justify the Principal Principle and be part of probability theory rather than being specific to Many Worlds. Any macroscopic object in our environment becomes a set of isomorphs with different microscopic configurations, each in an elemental universe (elemental in the set-theoretic sense). This is similar to Many Interacting Worlds theory but the observer inhabits the set of worlds, not an individual world. An observer has many elemental bodies.
翻訳日:2023-06-07 15:54:31 公開日:2023-06-06
# L-C2ST:シミュレーションによる後部近似の局所診断

L-C2ST: Local Diagnostics for Posterior Approximations in Simulation-Based Inference ( http://arxiv.org/abs/2306.03580v1 )

ライセンス: Link先を確認
Julia Linhart, Alexandre Gramfort, Pedro L. C. Rodrigues(参考訳) シミュレーションベース推論(SBI)における最近の多くの研究は、複雑で高次元の後方分布を近似する深層生成モデルに依存している。 しかし、これらの近似が信頼できるかどうかの評価は依然として課題である。 ほとんどのアプローチでは、後方推定器は観測空間上の期待でのみ評価される。 これにより解釈可能性が制限され、近似が信頼できるか改善されるべきかを特定できない。 有名な分類器2サンプル試験(C2ST)に基づいて,任意の観測で後部推定器の局所的な評価を可能にする新しい手法であるL-C2STを導入する。 理論的に根拠があり、簡単に解釈できる、例えばグラフィカルな診断を提供するが、C2STとは異なり、真の後部からのサンプルにアクセスする必要はない。 フローベース後部推定器の正規化の場合、L-C2STは計算効率が良く、より優れた統計パワーを提供するために特殊化することができる。 標準的なSBIベンチマークでは、L-C2STはC2STに匹敵する結果を提供し、最大予測密度(HPD)に基づいたカバレッジテストのような他のローカルアプローチよりも優れている。 さらに,L-C2STの局所的評価の重要性と,計算神経科学からの挑戦的応用に対する解釈可能性の利点を強調した。

Many recent works in simulation-based inference (SBI) rely on deep generative models to approximate complex, high-dimensional posterior distributions. However, evaluating whether or not these approximations can be trusted remains a challenge. Most approaches evaluate the posterior estimator only in expectation over the observation space. This limits their interpretability and is not sufficient to identify for which observations the approximation can be trusted or should be improved. Building upon the well-known classifier two-sample test (C2ST), we introduce L-C2ST, a new method that allows for a local evaluation of the posterior estimator at any given observation. It offers theoretically grounded and easy to interpret - e.g. graphical - diagnostics, and unlike C2ST, does not require access to samples from the true posterior. In the case of normalizing flow-based posterior estimators, L-C2ST can be specialized to offer better statistical power, while being computationally more efficient. On standard SBI benchmarks, L-C2ST provides comparable results to C2ST and outperforms alternative local approaches such as coverage tests based on highest predictive density (HPD). We further highlight the importance of local evaluation and the benefit of interpretability of L-C2ST on a challenging application from computational neuroscience.
翻訳日:2023-06-07 15:54:09 公開日:2023-06-06
# Rydbergブロックゲートのオフ共振変調駆動プロトコルにおける高周波成分の抑制

Suppression of high-frequency components in off-resonant modulated driving protocols for Rydberg blockade gate ( http://arxiv.org/abs/2306.03579v1 )

ライセンス: Link先を確認
Yuan Sun(参考訳) 低温原子量子プラットフォームの開発が急速に進んでいる中で, オフ共振変調駆動による2ビット制御PPHASE Rydbergブロックゲートは, 近年大きな進歩を遂げている。 高忠実度,より高速な動作,より堅牢性を実現するため,変調における高周波成分の抑制に関する大きなアップグレードが求められ,この目的のために体系的な手法が確立されている。 新たに構築した手法のクインテッセンスを、基本関数に埋め込まれた比較的高周波成分をフィルタリングして変調波形を生成し、ゲート条件を満たすか否かを分析することができる。 これらの周波数調整基底関数により、2量子ビットエンタングリングゲートプロトコルの適切な波形が、数値最適化手法により確立できることが判明した。 さらに、このタイムリーアップグレードバージョンは、特定の有限なリドベルク封鎖強度値への適応と、クビット原子の残留熱運動を克服する二重パルス技術によりさらに強化することができる。 理論的な導出に加えて,2量子エンタングリングRydbergブロックゲートの設計におけるオフ共振変調駆動法の汎用性を示す代表変調パターンについても,徹底的に検討した。

In the rapid development of cold atom qubit platform, the two-qubit Controlled-PHASE Rydberg blockade gate via off-resonant modulated driving has been making significant progress recently. In pursuit of higher fidelity, faster operation and better robustness, a major upgrade about suppression of high-frequency components in the modulation is called for, and a systematic method has been established here for this purpose. The quintessence of this newly constructed method can be interpreted as filtering out the relatively high frequency ingredients embedded in basis functions to generate the modulation waveforms and then analyzing whether they fulfill the requirement of gate condition. It turns out that appropriate waveforms of two-qubit entangling gate protocols can be successfully established via these frequency-adjusted basis functions, with the help of numerical optimization procedures. Moreover, this timely upgrade version can be further enhanced with adaptions to specific finite Rydberg blockade strength values and dual-pulse technique to overcome residual thermal motion of qubit atoms. Besides theoretical derivations, we also thoroughly investigate the representative modulation patterns, demonstrating the versatility of off-resonant modulated driving method in the design of two-qubit entangling Rydberg blockade gate.
翻訳日:2023-06-07 15:53:48 公開日:2023-06-06
# 生成型adversarial networkを用いたオープンパッチ生成に基づく指紋提示攻撃検出

An Open Patch Generator based Fingerprint Presentation Attack Detection using Generative Adversarial Network ( http://arxiv.org/abs/2306.03577v1 )

ライセンス: Link先を確認
Anuj Rai, Ashutosh Anshul, Ashwini Jha, Prayag Jain, Ramprakash Sharma, Somnath Dey(参考訳) 低コストでユーザフレンドリで便利な自動指紋認識システム(AFRS)は、幅広い用途に適している。 AFRSの普及により、さまざまなセキュリティ脅威に対して脆弱になる。 プレゼンテーションアタック(PA)またはスプーイング(spoofing)は、本物の指紋のスプーフをAFRSのセンサーに提示することによる脅威の1つである。 FPAD(フィンガープリント・プレゼンテーション・アタック・ディテクト・ディテクト)は、AFRSを様々な製造材料で作られた偽の指紋や偽の指紋から守るための対策である。 本稿では、GAN(Generative Adversarial Network)を用いて、提案したOpen Patch Generator(OPG)から生成されたスプーフサンプルを用いてデータセットを増大させる畳み込みニューラルネットワーク(CNN)に基づく手法を提案する。 このOPGは、他の材料で生成された既存のスプーフ指紋サンプルと似ていない現実的な指紋サンプルを生成することができる。 拡張データセットはDenseNet分類器に送られ、未知のスプーフ材料で可能な様々な実世界の攻撃に対して、PAD(Presentation Detection Detection)モジュールのパフォーマンスを高めるのに役立つ。 提案手法の実験的な評価は、liveness detection (livdet) 2015, 2017, 2019のコンペティションデータベース上で実施された。 livdet 2015、2017、2019のデータベースでは、96.20\%、94.97\%、92.90\%の全体的な精度がそれぞれlivdetプロトコルのシナリオで達成されている。 提案したPADモデルの性能は、現実世界の攻撃シナリオでの使用能力を示すクロスマテリアルおよびクロスセンサー攻撃パラダイムでも検証されている。

The low-cost, user-friendly, and convenient nature of Automatic Fingerprint Recognition Systems (AFRS) makes them suitable for a wide range of applications. This spreading use of AFRS also makes them vulnerable to various security threats. Presentation Attack (PA) or spoofing is one of the threats which is caused by presenting a spoof of a genuine fingerprint to the sensor of AFRS. Fingerprint Presentation Attack Detection (FPAD) is a countermeasure intended to protect AFRS against fake or spoof fingerprints created using various fabrication materials. In this paper, we have proposed a Convolutional Neural Network (CNN) based technique that uses a Generative Adversarial Network (GAN) to augment the dataset with spoof samples generated from the proposed Open Patch Generator (OPG). This OPG is capable of generating realistic fingerprint samples which have no resemblance to the existing spoof fingerprint samples generated with other materials. The augmented dataset is fed to the DenseNet classifier which helps in increasing the performance of the Presentation Attack Detection (PAD) module for the various real-world attacks possible with unknown spoof materials. Experimental evaluations of the proposed approach are carried out on the Liveness Detection (LivDet) 2015, 2017, and 2019 competition databases. An overall accuracy of 96.20\%, 94.97\%, and 92.90\% has been achieved on the LivDet 2015, 2017, and 2019 databases, respectively under the LivDet protocol scenarios. The performance of the proposed PAD model is also validated in the cross-material and cross-sensor attack paradigm which further exhibits its capability to be used under real-world attack scenarios.
翻訳日:2023-06-07 15:53:27 公開日:2023-06-06
# 意図しないニューラル表現を用いた人間の3次元アバターモデリング:簡単な調査

Human 3D Avatar Modeling with Implicit Neural Representation: A Brief Survey ( http://arxiv.org/abs/2306.03576v1 )

ライセンス: Link先を確認
Mingyang Sun, Dingkang Yang, Dongliang Kou, Yang Jiang, Weihua Shan, Zhe Yan, Lihua Zhang(参考訳) ヒトの3Dアバターはメタバースの重要な要素の1つであり、モデリング効果は人々の視覚的体験に直接影響を及ぼす。 しかし、人体は複雑なトポロジーと多様な詳細を持っているため、満足できるモデルを構築するのに費用がかかり、時間がかかる。 近年,任意の位相を持つ物体を任意の解像度で表現できる連続表現法である暗黙的神経表現法が提案されている。 研究者は人間の3Dアバターモデリングに暗黙の神経表現を適用し、従来の方法よりも優れた結果を得た。 本稿では,人体モデリングにおける暗黙的神経表現の応用について概説する。 まず,占領野,SDF,NeRFの3つの暗黙的表現を導入し,文献の分類を行った。 そして、それぞれ、身体、手、頭部における暗黙のモデリング手法の適用を比較して分析する。 最後に、現在の研究の欠点を指摘し、研究者に利用可能な提案を提供する。

A human 3D avatar is one of the important elements in the metaverse, and the modeling effect directly affects people's visual experience. However, the human body has a complex topology and diverse details, so it is often expensive, time-consuming, and laborious to build a satisfactory model. Recent studies have proposed a novel method, implicit neural representation, which is a continuous representation method and can describe objects with arbitrary topology at arbitrary resolution. Researchers have applied implicit neural representation to human 3D avatar modeling and obtained more excellent results than traditional methods. This paper comprehensively reviews the application of implicit neural representation in human body modeling. First, we introduce three implicit representations of occupancy field, SDF, and NeRF, and make a classification of the literature investigated in this paper. Then the application of implicit modeling methods in the body, hand, and head are compared and analyzed respectively. Finally, we point out the shortcomings of current work and provide available suggestions for researchers.
翻訳日:2023-06-07 15:52:57 公開日:2023-06-06
# 量子認知に触発された感情分析モデルの検討

A Survey of Quantum-Cognitively Inspired Sentiment Analysis Models ( http://arxiv.org/abs/2306.03608v1 )

ライセンス: Link先を確認
Yaochen Liu, Qiuchi Li, Benyou Wang, Yazhou Zhang, Dawei Song(参考訳) 量子理論はもともと、粒子の動きを記述する物理理論として提案され、人間の認識や決定に関わる様々な非物理学領域に適用され、本質的に不確実であり、ある種の非古典的、量子的特性を示す。 感覚分析はそのような領域の典型的な例である。 ここ数年、量子確率(量子力学方法論から派生した古典的ではない確率)とディープニューラルネットワークのモデリング能力を活用して、感情分析のための新しい量子認知モデルが出現し、うまく機能している。 この調査は、この興味深い分野における最新の発展をタイムリーに概観するものである。 まず、理論レベルで量子確率と量子認知の背景を提供し、感情分析の認知的側面をモデル化する際の古典理論に対するそれらの優位性を解析する。 次に、最近の量子認知モデルを紹介し、感情分析タスクの重要な課題にどのようにアプローチするかに焦点を当てて、詳細に論じる。 最後に,現在の研究の限界について論じ,今後の研究の方向性を明らかにする。

Quantum theory, originally proposed as a physical theory to describe the motions of microscopic particles, has been applied to various non-physics domains involving human cognition and decision-making that are inherently uncertain and exhibit certain non-classical, quantum-like characteristics. Sentiment analysis is a typical example of such domains. In the last few years, by leveraging the modeling power of quantum probability (a non-classical probability stemming from quantum mechanics methodology) and deep neural networks, a range of novel quantum-cognitively inspired models for sentiment analysis have emerged and performed well. This survey presents a timely overview of the latest developments in this fascinating cross-disciplinary area. We first provide a background of quantum probability and quantum cognition at a theoretical level, analyzing their advantages over classical theories in modeling the cognitive aspects of sentiment analysis. Then, recent quantum-cognitively inspired models are introduced and discussed in detail, focusing on how they approach the key challenges of the sentiment analysis task. Finally, we discuss the limitations of the current research and highlight future research directions.
翻訳日:2023-06-07 15:46:51 公開日:2023-06-06
# 確率最適化のための情報購入

Buying Information for Stochastic Optimization ( http://arxiv.org/abs/2306.03607v1 )

ライセンス: Link先を確認
Mingchen Ma and Christos Tzamos(参考訳) 確率最適化は、機械学習と理論的コンピュータ科学における中心的な問題の1つである。 標準モデルでは、アルゴリズムは事前に知られている固定分布を与えられる。 しかし実際には、より良い意思決定を行うために、コストのかかる余分な情報を取得することができる。 本稿では,確率的最適化のための情報購入方法を検討し,この問題をオンライン学習問題として定式化する。 学習者が元の最適化問題に対してオラクルを持つと仮定すると、情報を購入するための2ドルの競争的決定論的アルゴリズムと$e/(e-1)$-競争的ランダム化アルゴリズムを設計する。 この比は、スキーレンタル問題の堅牢な一般化と同値であり、超マーチンゲール停止(super-martingale stop)と呼ぶことから、厳密であることを示す。 また,基礎となる最適化問題に対して何らかのアクションをとれば,学習者が情報購入を選択できる適応的な設定も検討する。 従来の最適化問題であるmin-sum set coverに注目し、既知のディストリビューションから引き出された要求をすばやくカバーするアクションを見つけることを目標としている。 多項式時間で動作し、アクションを選択し、基盤となるリクエストに関する情報をいつ購入するかを決定する8ドルの競合アルゴリズムを提供する。

Stochastic optimization is one of the central problems in Machine Learning and Theoretical Computer Science. In the standard model, the algorithm is given a fixed distribution known in advance. In practice though, one may acquire at a cost extra information to make better decisions. In this paper, we study how to buy information for stochastic optimization and formulate this question as an online learning problem. Assuming the learner has an oracle for the original optimization problem, we design a $2$-competitive deterministic algorithm and a $e/(e-1)$-competitive randomized algorithm for buying information. We show that this ratio is tight as the problem is equivalent to a robust generalization of the ski-rental problem, which we call super-martingale stopping. We also consider an adaptive setting where the learner can choose to buy information after taking some actions for the underlying optimization problem. We focus on the classic optimization problem, Min-Sum Set Cover, where the goal is to quickly find an action that covers a given request drawn from a known distribution. We provide an $8$-competitive algorithm running in polynomial time that chooses actions and decides when to buy information about the underlying request.
翻訳日:2023-06-07 15:46:35 公開日:2023-06-06
# BioBLP: マルチモーダルなバイオメディカル知識グラフを学習するためのモジュールフレームワーク

BioBLP: A Modular Framework for Learning on Multimodal Biomedical Knowledge Graphs ( http://arxiv.org/abs/2306.03606v1 )

ライセンス: Link先を確認
Daniel Daza, Dimitrios Alivanistos, Payal Mitra, Thom Pijnenburg, Michael Cochez, Paul Groth(参考訳) 知識グラフ(KG)は、生物医学領域におけるエンティティ間の複雑な関係を表現する重要なツールである。 このようなグラフにおける新しいリンクを予測できる埋め込み学習法が提案されている。 いくつかの方法は、タンパク質配列や分子グラフなどの生物医学的なKGの実体に関連する貴重な属性データを無視する。 他の研究はそのようなデータを含むが、エンティティは同じデータモダリティで表現できると仮定する。 生物医学的なKGでは、実体は対象領域におけるその表現の中心となる異質なモダリティを示す。 本研究では,異なる属性の属性データをエンコードすると同時に,属性の欠如したエンティティもサポートする,エンティティ属性付きkgs組込み学習のためのモジュールフレームワークを提案する。 さらに,必要なトレーニング実行時間を削減するための効率的な事前トレーニング戦略を提案する。 我々は,約200万トリプルの生物医学的KGを用いてモデルを訓練し,リンク予測や薬物とタンパク質の相互作用予測のタスクに対する実体埋め込みの性能を評価し,属性データを考慮しない手法と比較した。 標準リンク予測評価では,提案手法は属性データを使用しないベースラインに比べて,競争力は低いが,性能は低い。 薬物-タンパク質相互作用予測のタスクで評価すると,本手法は基準値と良好に比較される。 我々は、KG内のエンティティのセットのかなりの部分を占める低次エンティティを含む設定を見つけ、そこでは、メソッドがベースラインより優れています。 提案するプリトレーニング戦略は,要求されるトレーニングランタイムを削減しつつ,パフォーマンスを著しく向上させる。 私たちの実装はhttps://github.com/elsevier-AI-Lab/BioBLPで利用可能です。

Knowledge graphs (KGs) are an important tool for representing complex relationships between entities in the biomedical domain. Several methods have been proposed for learning embeddings that can be used to predict new links in such graphs. Some methods ignore valuable attribute data associated with entities in biomedical KGs, such as protein sequences, or molecular graphs. Other works incorporate such data, but assume that entities can be represented with the same data modality. This is not always the case for biomedical KGs, where entities exhibit heterogeneous modalities that are central to their representation in the subject domain. We propose a modular framework for learning embeddings in KGs with entity attributes, that allows encoding attribute data of different modalities while also supporting entities with missing attributes. We additionally propose an efficient pretraining strategy for reducing the required training runtime. We train models using a biomedical KG containing approximately 2 million triples, and evaluate the performance of the resulting entity embeddings on the tasks of link prediction, and drug-protein interaction prediction, comparing against methods that do not take attribute data into account. In the standard link prediction evaluation, the proposed method results in competitive, yet lower performance than baselines that do not use attribute data. When evaluated in the task of drug-protein interaction prediction, the method compares favorably with the baselines. We find settings involving low degree entities, which make up for a substantial amount of the set of entities in the KG, where our method outperforms the baselines. Our proposed pretraining strategy yields significantly higher performance while reducing the required training runtime. Our implementation is available at https://github.com/elsevier-AI-Lab/BioBLP .
翻訳日:2023-06-07 15:46:16 公開日:2023-06-06
# アルゴリズムエージェントとLLMの効率的なインタラクションの実現:強化学習アプローチ

Enabling Efficient Interaction between an Algorithm Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v1 )

ライセンス: Link先を確認
Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu(参考訳) 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。 近年の研究では、LLMは高レベルな指示を提供することで、複雑な逐次決定タスクを具現化環境で解決するアルゴリズムエージェントを補助できることが示されている。 しかし、LLMとの対話には時間がかかる場合がある。多くの実践的なシナリオでは、リモートクラウドサーバノードにしかデプロイできない大量のストレージスペースが必要になる。 加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。 本稿では, エージェントとLLMの効率的な, 費用対効果の相互作用を実現する方法について検討する。 本稿では,目標タスクを達成するためにllmに相談する必要があるタイミングを決定する強化学習型メディエータモデルを提案する。 4つのミニグリッド環境におけるプランニングサブゴールを含む実験により、本手法は、llmとほんの数個の必要なインタラクションだけでターゲットタスクを解くことを学び、ベースライン法と比較してテスト環境でのインタラクションコストを大幅に削減できることが証明された。 また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が探索環境と確率環境の両方に対してより堅牢になることを示す。

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an algorithm agent in solving complex sequential decision making tasks in embodied environments by providing high-level instructions. However, interacting with LLMs can be time-consuming, as in many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable efficient and cost-effective interactions between the agent and an LLM. We propose a reinforcement learning based mediator model that determines when it is necessary to consult LLMs for high-level instructions to accomplish a target task. Experiments on 4 MiniGrid environments that entail planning sub-goals demonstrate that our method can learn to solve target tasks with only a few necessary interactions with an LLM, significantly reducing interaction costs in testing environments, compared with baseline methods. Experimental results also suggest that by learning a mediator model to interact with the LLM, the agent's performance becomes more robust against both exploratory and stochastic environments.
翻訳日:2023-06-07 15:45:37 公開日:2023-06-06
# testlab: インテリジェントな自動ソフトウェアテスティングフレームワーク

TestLab: An Intelligent Automated Software Testing Framework ( http://arxiv.org/abs/2306.03602v1 )

ライセンス: Link先を確認
Tiago Dias, Arthur Batista, Eva Maia and Isabel Pra\c{c}a(参考訳) ソフトウェアシステムの普及は、現代の生活において不可欠な部分となっている。 ソフトウェアの使用量は大幅に増加し、サイズと複雑さの両方が増加した。 その結果、ソフトウェア開発はより時間を要するプロセスになっています。 開発サイクルを加速しようとすると、テストフェーズは無視されることが多く、欠陥のあるシステムのデプロイがユーザの日々のアクティビティに重大な影響を与えます。 この作業では、一連のテストメソッドを収集し、人工知能を使って自動化しようとするインテリジェントな自動ソフトウェアテストフレームワークであるTestLabを紹介し、開発者からエンドユーザまで、さまざまなスコープからソフトウェアシステムの継続的テストを可能にする。 ツールは3つのモジュールで構成され、それぞれが別々の目的を果たす。 最初の2つのモジュールは異なる視点から脆弱性を特定することを目的としており、3番目のモジュールはソースコード解析を通じてテストケースを自動的に生成することで、従来の自動ソフトウェアテストを強化する。

The prevalence of software systems has become an integral part of modern-day living. Software usage has increased significantly, leading to its growth in both size and complexity. Consequently, software development is becoming a more time-consuming process. In an attempt to accelerate the development cycle, the testing phase is often neglected, leading to the deployment of flawed systems that can have significant implications on the users daily activities. This work presents TestLab, an intelligent automated software testing framework that attempts to gather a set of testing methods and automate them using Artificial Intelligence to allow continuous testing of software systems at multiple levels from different scopes, ranging from developers to end-users. The tool consists of three modules, each serving a distinct purpose. The first two modules aim to identify vulnerabilities from different perspectives, while the third module enhances traditional automated software testing by automatically generating test cases through source code analysis.
翻訳日:2023-06-07 15:44:59 公開日:2023-06-06
# 生成AIの創造的フロンティア - 新規利用トレードオフの管理

The Creative Frontier of Generative AI: Managing the Novelty-Usefulness Tradeoff ( http://arxiv.org/abs/2306.03601v1 )

ライセンス: Link先を確認
Anirban Mukherjee and Hannah Chang(参考訳) 本稿では,人間の創造性文学からインスピレーションを得て,生成人工知能(AI)システムにおける新規性と有用性の最適バランスについて検討する。 いずれの側面も過度に強調すると幻覚や記憶などの限界が生じると仮定する。 ランダムな不正確さや偽りを含むAI応答を特徴とする幻覚は、モデルが有用性よりも斬新さを優先する場合に現れる。 aiモデルがトレーニングデータからコンテンツを再現する暗記は、有用性に過度に焦点を合わせ、創造性を制限している。 これらの課題に対処するために、ドメイン固有の分析、データと転送学習、ユーザの好みとカスタマイズ、カスタム評価メトリクス、コラボレーションメカニズムを含むフレームワークを提案する。 本手法は,様々なコンテキストのユニークな要件を考慮しつつ,特定の領域内で新規かつ有用なコンテンツを生成することを目的としている。

In this paper, drawing inspiration from the human creativity literature, we explore the optimal balance between novelty and usefulness in generative Artificial Intelligence (AI) systems. We posit that overemphasizing either aspect can lead to limitations such as hallucinations and memorization. Hallucinations, characterized by AI responses containing random inaccuracies or falsehoods, emerge when models prioritize novelty over usefulness. Memorization, where AI models reproduce content from their training data, results from an excessive focus on usefulness, potentially limiting creativity. To address these challenges, we propose a framework that includes domain-specific analysis, data and transfer learning, user preferences and customization, custom evaluation metrics, and collaboration mechanisms. Our approach aims to generate content that is both novel and useful within specific domains, while considering the unique requirements of various contexts.
翻訳日:2023-06-07 15:44:27 公開日:2023-06-06
# 多段階調査によるフェデレーション学習における適応回避

Avoid Adversarial Adaption in Federated Learning by Multi-Metric Investigations ( http://arxiv.org/abs/2306.03600v1 )

ライセンス: Link先を確認
Torsten Krau{\ss} (1) and Alexandra Dmitrienko (1) ((1) University of W\"urzburg)(参考訳) federated learning(fl)は、複数のデバイスに分散したデータのマシンラーニングモデルをトレーニングし、中央の場所へのデータ転送を回避する。 これによりプライバシが向上し、通信コストが削減され、モデルパフォーマンスが向上する。 しかし、FLは、モデル性能の低下を狙った攻撃や、適切な入力によって引き起こされる敵の振る舞いを付加するいわゆるバックドアを標的にしない攻撃をしがちである。 秘密を守るために、バックドア攻撃は扱いにくい。 毒殺攻撃の緩和技術は、特定のメトリクスの監視と悪意のあるモデル更新のフィルタリングに依存している。 しかし、以前の作品は現実世界の敵やデータ配信を考慮しなかった。 この声明を支持するために,我々は,複数の目的に同時に適応し,広範囲なテストにより既存の防衛手法を回避できることを示す,強力な適応的敵の新たな概念を定義した。 また,既存の防御効果は,基礎となるデータ分布に関する仮定が存在しない場合に限定的に有効であることを示す。 現実的なシナリオや敵モデルに対処するために,有毒モデル更新のフィルタリングに複数の検出指標を同時に活用するMetric-Cascades (MESAS)を提案する。 本手法は, 適応攻撃者に対して, 重度多目的最適化問題に強制的に適用し, 9つのバックドアと3つのデータセットによる評価により, 強い適応攻撃者でさえMESASの検出を回避できないことを示す。 mesasは、クライアント内外の異なるデータ分布から生じる歪みとバックドアを区別する既存の防御を上回っている。 全体として、MESASは強力な適応敵に対して堅牢であり、平均24.37秒のオーバーヘッドを伴いながら現実世界のデータシナリオに有効である。

Federated Learning (FL) trains machine learning models on data distributed across multiple devices, avoiding data transfer to a central location. This improves privacy, reduces communication costs, and enhances model performance. However, FL is prone to poisoning attacks, which can be untargeted aiming to reduce the model performance, or targeted, so-called backdoors, which add adversarial behavior that can be triggered with appropriately crafted inputs. Striving for stealthiness, backdoor attacks are harder to deal with. Mitigation techniques against poisoning attacks rely on monitoring certain metrics and filtering malicious model updates. However, previous works didn't consider real-world adversaries and data distributions. To support our statement, we define a new notion of strong adaptive adversaries that can simultaneously adapt to multiple objectives and demonstrate through extensive tests, that existing defense methods can be circumvented in this adversary model. We also demonstrate, that existing defenses have limited effectiveness when no assumptions are made about underlying data distributions. To address realistic scenarios and adversary models, we propose Metric-Cascades (MESAS) a new defense that leverages multiple detection metrics simultaneously for the filtering of poisoned model updates. This approach forces adaptive attackers into a heavy multi-objective optimization problem, and our evaluation with nine backdoors and three datasets shows that even our strong adaptive attacker cannot evade MESAS's detection. We show that MESAS outperforms existing defenses in distinguishing backdoors from distortions originating from different data distributions within and across the clients. Overall, MESAS is the first defense that is robust against strong adaptive adversaries and is effective in real-world data scenarios while introducing a low overhead of 24.37s on average.
翻訳日:2023-06-07 15:43:57 公開日:2023-06-06
# CUE: 事前学習言語モデルに基づくテキスト分類のための不確実性解釈フレームワーク

CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models ( http://arxiv.org/abs/2306.03598v1 )

ライセンス: Link先を確認
Jiazheng Li, Zhaoyue Sun, Bin Liang, Lin Gui, Yulan He(参考訳) プレトレーニング言語モデル(PLM)に基づくテキスト分類器は、感情分析、自然言語推論、質問応答など様々なタスクにおいて顕著な進歩を遂げている。 しかし、これらの分類器による不確実な予測の発生は、実用アプリケーションに展開する際の信頼性に課題をもたらす。 PLMが何を捉えているのかを理解するために、様々なプローブの設計に多くの努力が注がれている。 しかし、PLMに基づく分類器の予測の不確実性に影響を与える要因を調査する研究はほとんどない。 本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。 特に,変分オートエンコーダを用いて,まずPLM符号化表現を潜在空間にマッピングする。 次に、予測不確実性の変動を引き起こす潜在空間を摂動することで、テキスト表現を生成する。 摂動と元のテキスト表現の予測の不確実性の違いを比較することで、不確実性の原因となる潜在次元を特定し、その不確実性に寄与する入力特徴に遡ることができる。 言語受容性分類,感情分類,自然言語推論を含む4つのベンチマークデータセットに関する広範な実験により,提案手法の有効性が示された。 ソースコードはhttps://github.com/lijiazheng99/cueで入手できます。

Text classifiers built on Pre-trained Language Models (PLMs) have achieved remarkable progress in various tasks including sentiment analysis, natural language inference, and question-answering. However, the occurrence of uncertain predictions by these classifiers poses a challenge to their reliability when deployed in practical applications. Much effort has been devoted to designing various probes in order to understand what PLMs capture. But few studies have delved into factors influencing PLM-based classifiers' predictive uncertainty. In this paper, we propose a novel framework, called CUE, which aims to interpret uncertainties inherent in the predictions of PLM-based models. In particular, we first map PLM-encoded representations to a latent space via a variational auto-encoder. We then generate text representations by perturbing the latent space which causes fluctuation in predictive uncertainty. By comparing the difference in predictive uncertainty between the perturbed and the original text representations, we are able to identify the latent dimensions responsible for uncertainty and subsequently trace back to the input features that contribute to such uncertainty. Our extensive experiments on four benchmark datasets encompassing linguistic acceptability classification, emotion classification, and natural language inference show the feasibility of our proposed framework. Our source code is available at: https://github.com/lijiazheng99/CUE.
翻訳日:2023-06-07 15:43:28 公開日:2023-06-06
# 視線追従による映像中の人間と物体の相互作用予測

Human-Object Interaction Prediction in Videos through Gaze Following ( http://arxiv.org/abs/2306.03597v1 )

ライセンス: Link先を確認
Zhifan Ni, Esteve Valls Mascar\'o, Hyemin Ahn, Dongheui Lee(参考訳) 映像から人間と物体の相互作用(HOI)を理解することは、視覚シーンを完全に理解するのに不可欠である。 この一連の研究は、画像や最近ビデオからHOIを検出することで解決されている。 しかし,3人称視点でのHOI予測タスクはまだ検討されていない。 本稿では,現在のHOIを検知し,将来のHOIをビデオで予測するためのフレームワークを設計する。 対話する前に物体に固定することが多いため,人間の視線情報を活用することを提案する。 これらの視線特徴とシーンコンテキストと、人間の物体対の視覚的外観は、時空間変換器を介して融合される。 HOI予測タスクのモデルを多人数シナリオで評価するために,個人単位の多ラベルメトリクスのセットを提案する。 我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットでトレーニングされ、検証され、現在、最大のビデオHOIデータセットである。 HOI検出タスクの実験結果から,本手法はベースラインを36.3%の差で改善することが示された。 さらに,時空間変圧器の改良および拡張の有効性を示すため,広範囲にわたるアブレーション研究を行った。 私たちのコードはhttps://github.com/nizhf/hoi-prediction-gaze-transformerで公開しています。

Understanding the human-object interactions (HOIs) from a video is essential to fully comprehend a visual scene. This line of research has been addressed by detecting HOIs from images and lately from videos. However, the video-based HOI anticipation task in the third-person view remains understudied. In this paper, we design a framework to detect current HOIs and anticipate future HOIs in videos. We propose to leverage human gaze information since people often fixate on an object before interacting with it. These gaze features together with the scene contexts and the visual appearances of human-object pairs are fused through a spatio-temporal transformer. To evaluate the model in the HOI anticipation task in a multi-person scenario, we propose a set of person-wise multi-label metrics. Our model is trained and validated on the VidHOI dataset, which contains videos capturing daily life and is currently the largest video HOI dataset. Experimental results in the HOI detection task show that our approach improves the baseline by a great margin of 36.3% relatively. Moreover, we conduct an extensive ablation study to demonstrate the effectiveness of our modifications and extensions to the spatio-temporal transformer. Our code is publicly available on https://github.com/nizhf/hoi-prediction-gaze-transformer.
翻訳日:2023-06-07 15:43:08 公開日:2023-06-06
# 位相相関:anyonic状態は局所的操作と古典的通信では決定できない

Topological correlation: anyonic states cannot be determined by local operations and classical communication ( http://arxiv.org/abs/2306.03596v1 )

ライセンス: Link先を確認
Cheng-Qian Xu and D. L. Zhou(参考訳) anyonic system は位相量子コンピュータの構成に潜在的に応用できるだけでなく、量子多体系における位相絡みエントロピーとして知られる特異な性質を示す。 トポロジカル絡み合いのエントロピーを理解する方法は、物理学者にとって最も関心のある問題の1つである。 正準双極子系では、最大エントロピーの原理に基づいて位相相関の操作測度を定義し、このトポロジ的相関は、正準超選択規則や古典的通信によって制約された局所的な操作によってアクセスできない情報である。 この測度は、スーパー選択規則の存在下で他の複合量子系の非局所的資源を測定するために拡張することができる。 最大階数を持つ任意のアノニカル二成分状態に対して、その位相相関は、その位相的絡み合いエントロピーを導出できることが文献に示されているアノニカル電荷の絡み合いのエントロピーに等しいことが証明される。 この尺度は、超選択規則と位相位相分類への照明的アプローチを備えた多部系における相関のより洗練された分類を提供する。

Anyonic system not only has potential applications in the construction of topological quantum computer, but also presents a unique property known as topological entanglement entropy in quantum many-body systems. How to understand topological entanglement entropy is one of the most concerned problems for physicists. For an anyonic bipartite system, we define an operational measure of topological correlation based on the principle of maximal entropy, where the topological correlation is the information that cannot be accessed by local operations constrained by anyonic superselection rules and classical communication. This measure can be extended to measure non-local resources of other compound quantum systems in the presence of superselection rules. For a given anyonic bipartite state with maximal rank, we prove that its topological correlation is equal to its entropy of anyonic charge entanglement that has been shown in the literature to be able to derive topological entanglement entropy. This measure provides a more refined classification of correlations in a multipartite system with superselection rules and an illuminating approach to topological phase classification.
翻訳日:2023-06-07 15:42:50 公開日:2023-06-06
# グラフ理論対応マッチングによる単一ショットグローバルローカライズ

Single-Shot Global Localization via Graph-Theoretic Correspondence Matching ( http://arxiv.org/abs/2306.03641v1 )

ライセンス: Link先を確認
Shigemichi Matsuzaki, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno(参考訳) 本稿では,問合せと事前マップのインスタンス間のグラフ理論的関連に基づくグローバルローカライズ手法について述べる。 提案手法は,最大傾き問題(MCP)に基づく対応マッチングを用いる。 既存のグローバルローカライズ手法の多くは、同じモダリティでクエリとデータセットに依存しているが、このフレームワークはグラフベースの抽象化によって、他のマップやクエリのモダリティにも適用できる可能性がある。 意味的にラベル付けされた3dポイントクラウドマップと、クエリとして意味セグメンテーションイメージで実装する。 提案手法は,グラフ理論フレームワークを活用し,地図とクエリのみを利用したグローバルなローカライゼーションを実現する。 本手法は,都市景観の複数の大規模シミュレーション地図上で有望な結果を示す。

This paper describes a method of global localization based on graph-theoretic association of instances between a query and the prior map. The proposed framework employs correspondence matching based on the maximum clique problem (MCP). The framework is potentially applicable to other map and/or query modalities thanks to the graph-based abstraction of the problem, while many of existing global localization methods rely on a query and the dataset in the same modality. We implement it with a semantically labeled 3D point cloud map, and a semantic segmentation image as a query. Leveraging the graph-theoretic framework, the proposed method realizes global localization exploiting only the map and the query. The method shows promising results on multiple large-scale simulated maps of urban scenes.
翻訳日:2023-06-07 15:36:33 公開日:2023-06-06
# 弱教師付きrgb-dサルエント物体検出のための相互情報正規化

Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection ( http://arxiv.org/abs/2306.03630v1 )

ライセンス: Link先を確認
Aixuan Li, Yuxin Mao, Jing Zhang, Yuchao Dai(参考訳) 本稿では,scribble supervisor による弱教師付きrgb-dサルエント物体検出モデルを提案する。 具体的には,マルチモーダル学習タスクとして,相互情報正規化による効果的なマルチモーダル表現学習に着目した。 特に,不整合表現学習の原則に従えば,相互情報最小化正規化器による上界の相互情報を導入し,各モダリティの非整合表現を促進する。 マルチモーダル表現学習フレームワークに基づき、従来の対称バックボーン設定よりも効果的であることが証明されたマルチモーダルデータに対する非対称特徴抽出器を導入する。 また,確率的予測手法としてマルチモーダル変分オートエンコーダを導入し,第1訓練段階から擬似ラベルを監督し,洗練された予測を生成する。 ベンチマークRGB-Dの有意なオブジェクト検出データセットによる実験結果から,我々の明示的マルチモーダル不整合表現学習法と確率的予測精度向上戦略の有効性が検証された。 私たちのコードとデータは、https://github.com/baneitixiaomai/MIRV.comで利用可能です。

In this paper, we present a weakly-supervised RGB-D salient object detection model via scribble supervision. Specifically, as a multimodal learning task, we focus on effective multimodal representation learning via inter-modal mutual information regularization. In particular, following the principle of disentangled representation learning, we introduce a mutual information upper bound with a mutual information minimization regularizer to encourage the disentangled representation of each modality for salient object detection. Based on our multimodal representation learning framework, we introduce an asymmetric feature extractor for our multimodal data, which is proven more effective than the conventional symmetric backbone setting. We also introduce multimodal variational auto-encoder as stochastic prediction refinement techniques, which takes pseudo labels from the first training stage as supervision and generates refined prediction. Experimental results on benchmark RGB-D salient object detection datasets verify both effectiveness of our explicit multimodal disentangled representation learning method and the stochastic prediction refinement strategy, achieving comparable performance with the state-of-the-art fully supervised models. Our code and data are available at: https://github.com/baneitixiaomai/MIRV.
翻訳日:2023-06-07 15:36:10 公開日:2023-06-06
# 制御階層における収束と多様性

Convergence and Diversity in the Control Hierarchy ( http://arxiv.org/abs/2306.03628v1 )

ライセンス: Link先を確認
Alexandra Butoi, Ryan Cotterell, David Chiang(参考訳) Weir氏は、第2のメンバ(\mathcal{L}_2$)が木結合文法(TAG)、線形インデックス文法(LIG)、結合圏文法、ヘッド文法によって生成される言語クラスの階層を定義した。 階層構造は制御機構を用いて取得され、$\mathcal{L}_2$は文脈自由文法(CFG)を用いて取得され、その導出は別のCFGによって制御される。 我々は、制御可能なCFGの定義を適用して、制御可能なプッシュダウンオートマトン(PDA)を定義する。 これは、PDAを制御するPDA、CFGを制御するPDA、PDAを制御するCFGによって生成される言語のクラスとして$\mathcal{L}_2$という3つの新しい特徴を与える。 これらの4つの形式は弱同値であるだけでなく、d-弱同値と呼ばれるより厳密な意味で同値であることを示している。 さらに、d-strong equivalenceと呼ばれるより厳密な等価性の概念を用いて、CFGを制御するCFGがTAGであり、PDAを制御するPDAが埋め込みPDAであり、CFGを制御するPDAがLIGであるという直感を正確にする。 pdaを制御するcfgであるこのファミリーの4番目のメンバーは、我々が知っているいかなる形式主義とも一致しないので、それを発明し、それをプッシュダウン随伴オートマトンと呼ぶ。

Weir has defined a hierarchy of language classes whose second member ($\mathcal{L}_2$) is generated by tree-adjoining grammars (TAG), linear indexed grammars (LIG), combinatory categorial grammars, and head grammars. The hierarchy is obtained using the mechanism of control, and $\mathcal{L}_2$ is obtained using a context-free grammar (CFG) whose derivations are controlled by another CFG. We adapt Weir's definition of a controllable CFG to give a definition of controllable pushdown automata (PDAs). This yields three new characterizations of $\mathcal{L}_2$ as the class of languages generated by PDAs controlling PDAs, PDAs controlling CFGs, and CFGs controlling PDAs. We show that these four formalisms are not only weakly equivalent but equivalent in a stricter sense that we call d-weak equivalence. Furthermore, using an even stricter notion of equivalence called d-strong equivalence, we make precise the intuition that a CFG controlling a CFG is a TAG, a PDA controlling a PDA is an embedded PDA, and a PDA controlling a CFG is a LIG. The fourth member of this family, a CFG controlling a PDA, does not correspond to any formalism we know of, so we invent one and call it a Pushdown Adjoining Automaton.
翻訳日:2023-06-07 15:35:51 公開日:2023-06-06
# ランダム座標降下の枠組みによるプログレッシブトレーニングの理解

Understanding Progressive Training Through the Framework of Randomized Coordinate Descent ( http://arxiv.org/abs/2306.03626v1 )

ライセンス: Link先を確認
Rafa{\l} Szlendak, Elnur Gasanov, Peter Richt\'arik(参考訳) 我々は、よく知られたプログレッシブトレーニング法(PT)の確率的プロキシであるランダム化プログレッシブトレーニングアルゴリズム(RPT)を提案する(Karras et al., 2017)。 当初、GANを訓練するために設計された(Goodfellow et al., 2014)PTは、最も単純な目的関数に対しても収束解析を行わず、ヒューリスティックとして提案された。 それとは対照的に、我々の知る限り、RTPは一般の滑らかな目的関数に対する厳密で健全な理論的保証を持つ最初のPT型アルゴリズムである。 我々は,Randomized Coordinate Descent (RCD) (Nesterov, 2012; Richt\'arik & Tak\'a\v{c}, 2014) の確立された枠組みに本手法を投入した。 次に、この枠組みを用いてRTTの収束理論を確立する。 最後に,提案手法の有効性を計算実験により検証した。

We propose a Randomized Progressive Training algorithm (RPT) -- a stochastic proxy for the well-known Progressive Training method (PT) (Karras et al., 2017). Originally designed to train GANs (Goodfellow et al., 2014), PT was proposed as a heuristic, with no convergence analysis even for the simplest objective functions. On the contrary, to the best of our knowledge, RPT is the first PT-type algorithm with rigorous and sound theoretical guarantees for general smooth objective functions. We cast our method into the established framework of Randomized Coordinate Descent (RCD) (Nesterov, 2012; Richt\'arik & Tak\'a\v{c}, 2014), for which (as a by-product of our investigations) we also propose a novel, simple and general convergence analysis encapsulating strongly-convex, convex and nonconvex objectives. We then use this framework to establish a convergence theory for RPT. Finally, we validate the effectiveness of our method through extensive computational experiments.
翻訳日:2023-06-07 15:35:23 公開日:2023-06-06
# 政策学習における異種治療効果の公平かつロバストな推定

Fair and Robust Estimation of Heterogeneous Treatment Effects for Policy Learning ( http://arxiv.org/abs/2306.03625v1 )

ライセンス: Link先を確認
Kwangho Kim and Jos\'e R. Zubizarreta(参考訳) フェアネス制約下での不均一な処理効果の非パラメトリック推定のための簡易かつ一般的なフレームワークを提案する。 標準正規性条件下では、得られた推定器が二重ロバスト性特性を持つことを示す。 我々は,この枠組みを用いて,公平性と最大福祉のトレードオフを最適政策によって特徴づける。 本研究はシミュレーション研究における手法の評価と実世界のケーススタディにおける評価である。

We propose a simple and general framework for nonparametric estimation of heterogeneous treatment effects under fairness constraints. Under standard regularity conditions, we show that the resulting estimators possess the double robustness property. We use this framework to characterize the trade-off between fairness and the maximum welfare achievable by the optimal policy. We evaluate the methods in a simulation study and illustrate them in a real-world case study.
翻訳日:2023-06-07 15:35:00 公開日:2023-06-06
# ユーザ項目グラフの信号操作について:ヤコビ多項式を用いたグラフ協調フィルタリング

On Manipulating Signals of User-Item Graph: A Jacobi Polynomial-based Graph Collaborative Filtering ( http://arxiv.org/abs/2306.03624v1 )

ライセンス: Link先を確認
Jiayan Guo and Lun Du and Xu Chen and Xiaojun Ma and Qiang Fu and Shi Han and Dongmei Zhang and Yan Zhang(参考訳) コラボレーティブ・フィルタリング(CF)は,ユーザとイテムのインタラクションに関する情報を考慮し,レコメンデーションを行うことを目的としたレコメンデーションシステムにおいて重要な研究方向である。 グラフCFは、より優れたレコメンデーションのために、ユーザイテムの2部グラフで高次情報を活用する効果により、近年ますます注目を集めている。 特に最近の研究では、CFのためのグラフニューラルネットワーク(GNN)の成功は、その低パスフィルタリング効果に起因することが示されている。 しかしながら、現在の研究では、異なるシグナル成分がレコメンデーションにどのように貢献するか、そしてそれを適切に活用するための戦略を設計する方法についての研究が欠けている。 この目的のために、スペクトル変換の観点から、グラフフィルタがより良い性能を達成するために考慮すべき重要な要素を分析する。 これらの発見に基づき,ヤコビ多項式基底と周波数分解戦略に基づくcfの効率的かつ効果的な手法であるjgcfを設計した。 広く使用されている4つのパブリックデータセットに対する大規模な実験では、提案手法の有効性と効率が示され、Alibaba-iFashionのパフォーマンスが27.06%向上した。 さらに、実験結果からは、JGCFはスパースデータセットの処理に優れており、コールドスタートユーザーに推奨する可能性を示している。

Collaborative filtering (CF) is an important research direction in recommender systems that aims to make recommendations given the information on user-item interactions. Graph CF has attracted more and more attention in recent years due to its effectiveness in leveraging high-order information in the user-item bipartite graph for better recommendations. Specifically, recent studies show the success of graph neural networks (GNN) for CF is attributed to its low-pass filtering effects. However, current researches lack a study of how different signal components contributes to recommendations, and how to design strategies to properly use them well. To this end, from the view of spectral transformation, we analyze the important factors that a graph filter should consider to achieve better performance. Based on the discoveries, we design JGCF, an efficient and effective method for CF based on Jacobi polynomial bases and frequency decomposition strategies. Extensive experiments on four widely used public datasets show the effectiveness and efficiency of the proposed methods, which brings at most 27.06% performance gain on Alibaba-iFashion. Besides, the experimental results also show that JGCF is better at handling sparse datasets, which shows potential in making recommendations for cold-start users.
翻訳日:2023-06-07 15:34:54 公開日:2023-06-06
# 古典的リカレントニューラルネットワークを用いたスパイク計算

Spike-based computation using classical recurrent neural networks ( http://arxiv.org/abs/2306.03623v1 )

ライセンス: Link先を確認
Florent De Geeter (1), Damien Ernst (1), Guillaume Drion (1) ((1) Montefiore Institute, University of Li\`ege, Li\`ege, Belgium)(参考訳) スパイクニューラルネットワーク(spyking neural network)は、ニューロン間の通信がスパイクと呼ばれるイベントのみで構成されている人工ニューラルネットワークの一種である。 この特性により、ニューラルネットワークは非同期でスパースな計算を可能にするため、特別なハードウェア上で実行する際のエネルギー消費量を大幅に削減できる。 しかし、このようなネットワークのトレーニングは、主に古典的なバックプロパゲーションの使用を妨げるスパイクアクティベーションの非微分性のために困難であることが知られている。 これは、最先端のスパイキングニューラルネットワークが、通常、トレーニングに機械学習の手法を適用する生物学的にインスパイアされたニューロンモデルから派生しているためである。 現在、スパイクニューラルネットワークの研究は、特定のタスクで非スパイクバージョンと競合するネットワークを得ることを目標とするトレーニングアルゴリズムの設計に焦点を当てている。 本稿では対称的アプローチを試みる。我々は、よく知られた、容易に訓練可能なリカレントニューラルネットワークのダイナミクスを、イベントベースにするために修正する。 新しいrnn細胞はスパイキングリカレント細胞と呼ばれ、スパイクのようなイベントを使って通信するが、完全に微分可能である。 したがって、バニラバックプロパゲーションは、そのようなRNN細胞で作られたネットワークをトレーニングするために使用できる。 この新ネットワークは,MNISTベンチマークとその変種であるFashion-MNISTとNeuromorphic-MNISTの他の種類のスパイクネットワークに匹敵する性能が得られることを示す。 さらに,この新細胞は,深層スパイクネットワークのトレーニングが実現可能であることを示す。

Spiking neural networks are a type of artificial neural networks in which communication between neurons is only made of events, also called spikes. This property allows neural networks to make asynchronous and sparse computations and therefore to drastically decrease energy consumption when run on specialized hardware. However, training such networks is known to be difficult, mainly due to the non-differentiability of the spike activation, which prevents the use of classical backpropagation. This is because state-of-the-art spiking neural networks are usually derived from biologically-inspired neuron models, to which are applied machine learning methods for training. Nowadays, research about spiking neural networks focuses on the design of training algorithms whose goal is to obtain networks that compete with their non-spiking version on specific tasks. In this paper, we attempt the symmetrical approach: we modify the dynamics of a well-known, easily trainable type of recurrent neural network to make it event-based. This new RNN cell, called the Spiking Recurrent Cell, therefore communicates using events, i.e. spikes, while being completely differentiable. Vanilla backpropagation can thus be used to train any network made of such RNN cell. We show that this new network can achieve performance comparable to other types of spiking networks in the MNIST benchmark and its variants, the Fashion-MNIST and the Neuromorphic-MNIST. Moreover, we show that this new cell makes the training of deep spiking networks achievable.
翻訳日:2023-06-07 15:34:33 公開日:2023-06-06
# 病理研究所のデジタル化:学習した教訓の概観

Digitization of Pathology Labs: A Review of Lessons Learned ( http://arxiv.org/abs/2306.03619v1 )

ライセンス: Link先を確認
Lars Ole Schwen, Tim-Rasmus Kiehl, Rita Cavalho, Norman Zerbe, Andr\'e Homeyer(参考訳) 病理研究所はデジタルワークフローをますます利用している。 これは実験室の効率を高める可能性があるが、デジタル化プロセスには大きな課題もある。 デジタル化プロセスによる特定の研究室の個々の経験を記述したいくつかの報告が公表されている。 しかし、学んだ教訓の包括的な概要はまだ欠けている。 本稿では,デジタルケース管理,デジタルスライド読解,コンピュータ支援スライド読解など,デジタル化プロセスのさまざまな側面から学んだ教訓の概要を紹介する。 また、パフォーマンスや落とし穴、実際に観測される値の監視に使用されるメトリクスも取り上げています。 概要は、病理学者、it意思決定者、管理者が他人の経験から利益を得られるように支援し、デジタル化プロセスを最適な方法で実装することを目的としている。

Pathology laboratories are increasingly using digital workflows. This has the potential of increasing lab efficiency, but the digitization process also involves major challenges. Several reports have been published describing the individual experiences of specific laboratories with the digitization process. However, a comprehensive overview of the lessons learned is still lacking. We provide an overview of the lessons learned for different aspects of the digitization process, including digital case management, digital slide reading, and computer-aided slide reading. We also cover metrics used for monitoring performance and pitfalls and corresponding values observed in practice. The overview is intended to help pathologists, IT decision-makers, and administrators to benefit from the experiences of others and to implement the digitization process in an optimal way to make their own laboratory future-proof.
翻訳日:2023-06-07 15:34:04 公開日:2023-06-06
# 最適輸送によるオフラインRLのゼロショット選好学習

Zero-shot Preference Learning for Offline RL via Optimal Transport ( http://arxiv.org/abs/2306.03615v1 )

ライセンス: Link先を確認
Runze Liu, Yali Du, Fengshuo Bai, Jiafei Lyu, Xiu Li(参考訳) 嗜好に基づく強化学習(PbRL)は、報酬と人間の意図の一致において顕著な効果を示した。 しかし、大きな課題は、コストと時間を要する、実質的な人間ラベルの必要性にある。 さらに、先行タスクから得られる高価な選好データは、通常、その後のタスク学習では再利用されず、新しいタスクごとに広範囲なラベル付けが行われる。 本稿では,ソースタスクからラベル付き選好データを活用し,対象タスクのラベルを推測し,ヒューマンクエリの必要をなくす,ゼロショット選好に基づくrlアルゴリズムを提案する。 提案手法は,Gromov-Wasserstein 距離を用いて,音源と目標タスク間の軌道分布を整列する。 最適輸送行列は、2つのタスクの軌道間の対応として機能し、タスク間の対応する軌道対を識別し、優先ラベルを転送することができる。 しかし、ノイズの少ないラベルを含む推論されたラベルから直接学習すると、不正確な報酬関数が発生し、その後ポリシーのパフォーマンスに影響を及ぼす。 この目的のために,報奨をガウス分布としてモデル化し,報奨平均に加えて報奨不確実性を組み込んだRobust Preference Transformerを導入する。 Meta-World と Robomimic のロボット操作における実験結果から,タスク間の好みを伝達し,ノイズラベルから報酬関数を頑健に学習する能力が強いことが示唆された。 さらに,本手法はoracleに近い性能を,少数のスクリプトラベルで達成できることが判明した。

Preference-based Reinforcement Learning (PbRL) has demonstrated remarkable efficacy in aligning rewards with human intentions. However, a significant challenge lies in the need of substantial human labels, which is costly and time-consuming. Additionally, the expensive preference data obtained from prior tasks is not typically reusable for subsequent task learning, leading to extensive labeling for each new task. In this paper, we propose a novel zero-shot preference-based RL algorithm that leverages labeled preference data from source tasks to infer labels for target tasks, eliminating the requirement for human queries. Our approach utilizes Gromov-Wasserstein distance to align trajectory distributions between source and target tasks. The solved optimal transport matrix serves as a correspondence between trajectories of two tasks, making it possible to identify corresponding trajectory pairs between tasks and transfer the preference labels. However, learning directly from inferred labels that contains a fraction of noisy labels will result in an inaccurate reward function, subsequently affecting policy performance. To this end, we introduce Robust Preference Transformer, which models the rewards as Gaussian distributions and incorporates reward uncertainty in addition to reward mean. The empirical results on robotic manipulation tasks of Meta-World and Robomimic show that our method has strong capabilities of transferring preferences between tasks and learns reward functions from noisy labels robustly. Furthermore, we reveal that our method attains near-oracle performance with a small proportion of scripted labels.
翻訳日:2023-06-07 15:33:50 公開日:2023-06-06
# BERTスタイルとCLIPスタイルのテキストエンコーダの違いについて

On the Difference of BERT-style and CLIP-style Text Encoders ( http://arxiv.org/abs/2306.03678v1 )

ライセンス: Link先を確認
Zhihong Chen, Guiming Hardy Chen, Shizhe Diao, Xiang Wan, Benyou Wang(参考訳) Masked Language Modeling (MLM)は、自然言語処理において最も人気のある事前学習レシピの1つであり、例えばBERT(英語版)は代表的なモデルの1つである。 近年,言語画像事前学習(CLIP)も注目されている。 しかし、CLIPが学習したテキストエンコーダを研究する研究はほとんどない。 本稿では,BERTスタイルとCLIPスタイルのテキストエンコーダの違いを3つの実験から分析する。 (i)一般的な文章理解 (ii)視覚中心テキスト理解、及び (iii)テキストから画像への生成。 実験分析により、クリップスタイルのテキストエンコーダは、一般的なテキスト理解タスクのためにbertスタイルのものよりも、人間の感覚に近いクロスモーダルアソシエーションのための独特な能力、すなわちシナセシア(synesthesia)を備えていることが示されている。

Masked language modeling (MLM) has been one of the most popular pretraining recipes in natural language processing, e.g., BERT, one of the representative models. Recently, contrastive language-image pretraining (CLIP) has also attracted attention, especially its vision models that achieve excellent performance on a broad range of vision tasks. However, few studies are dedicated to studying the text encoders learned by CLIP. In this paper, we analyze the difference between BERT-style and CLIP-style text encoders from three experiments: (i) general text understanding, (ii) vision-centric text understanding, and (iii) text-to-image generation. Experimental analyses show that although CLIP-style text encoders underperform BERT-style ones for general text understanding tasks, they are equipped with a unique ability, i.e., synesthesia, for the cross-modal association, which is more similar to the senses of humans.
翻訳日:2023-06-07 15:26:16 公開日:2023-06-06
# 有限次元ステインスプリング曲線はどんなダイナミクスも近似できる

Finite-Dimensional Stinespring Curves Can Approximate Any Dynamics ( http://arxiv.org/abs/2306.03667v1 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 我々は、すべての解析的量子力学が時間依存ハミルトニアンによって生成されるユニタリダイナミクスの還元として正確に表現できるという最近の結果を一般化する。 より正確には、ユニタリ解析経路上の部分的トレースが任意のリプシッツ連続量子力学を任意に近似できることを示す。 これらの結果の潜在的な改善と一般化、その限界、そしてシステム環境の量と力学を関連付けようとする際に克服しなければならない一般的な課題について論じる。

We generalize the recent result that all analytic quantum dynamics can be represented exactly as the reduction of unitary dynamics generated by a time-dependent Hamiltonian. More precisely, we prove that the partial trace over analytic paths of unitaries can approximate any Lipschitz-continuous quantum dynamics arbitrarily well. We conclude by discussing potential improvements and generalizations of these results, their limitations, and the general challenges one has to overcome when trying to relate dynamics to quantities on the system-environment level.
翻訳日:2023-06-07 15:25:58 公開日:2023-06-06
# pqm:高密度写像のための点品質評価指標

PQM: A Point Quality Evaluation Metric for Dense Maps ( http://arxiv.org/abs/2306.03660v1 )

ライセンス: Link先を確認
Yash Turkar, Pranay Meshram, Charuvahan Adhivarahan, Karthik Dantu(参考訳) LiDARベースのマッピング/リコンストラクションは、様々なアプリケーションにとって重要であるが、それらが生み出す高密度マップの品質を評価することは困難である。 現在の手法には、完全性、構造情報、エラーの局所的な変動をキャプチャできないといった制限がある。 本稿では,ポイントクラウドの品質をより包括的に評価するための4つのサブメトリックからなる,新しいポイント品質評価指標(pqm)を提案する。 完全度サブメトリックは、欠落データの比率を評価し、アーティファクトスコアサブメトリックは、アーティファクトを認識して特徴付け、精度サブメトリックは登録精度を計測し、解像度サブメトリックはポイントクラウド密度を定量化する。 プロトタイプデータセットを用いたアブレーション研究を通じて,各サブメトリックの有効性を実証し,一般的な点雲距離測定と比較した。 3つのLiDAR SLAMシステムを用いて,その出力マップの品質を評価し,ノイズやアーティファクトに対するロバスト性を示す。 カスタムの高密度マッピングパイプラインとの統合方法に関するPQM、データセット、詳細なドキュメントは、github.com/droneslab/pqmで確認できます。

LiDAR-based mapping/reconstruction are important for various applications, but evaluating the quality of the dense maps they produce is challenging. The current methods have limitations, including the inability to capture completeness, structural information, and local variations in error. In this paper, we propose a novel point quality evaluation metric (PQM) that consists of four sub-metrics to provide a more comprehensive evaluation of point cloud quality. The completeness sub-metric evaluates the proportion of missing data, the artifact score sub-metric recognizes and characterizes artifacts, the accuracy sub-metric measures registration accuracy, and the resolution sub-metric quantifies point cloud density. Through an ablation study using a prototype dataset, we demonstrate the effectiveness of each of the sub-metrics and compare them to popular point cloud distance measures. Using three LiDAR SLAM systems to generate maps, we evaluate their output map quality and demonstrate the metrics robustness to noise and artifacts. Our implementation of PQM, datasets and detailed documentation on how to integrate with your custom dense mapping pipeline can be found at github.com/droneslab/pqm
翻訳日:2023-06-07 15:25:49 公開日:2023-06-06
# スキーマファースト! MASCHInEを用いた意味論のキャプチャによる多言語知識グラフ埋め込みの学習

Schema First! Learn Versatile Knowledge Graph Embeddings by Capturing Semantics with MASCHInE ( http://arxiv.org/abs/2306.03659v1 )

ライセンス: Link先を確認
Nicolas Hubert, Heiko Paulheim, Pierre Monnin, Armelle Brun, Davy Monticolo(参考訳) 近年,知識グラフ埋め込みモデル (KGEMs) が注目されている。 これらのモデルは知識グラフ実体と関係、すなわち知識グラフ埋め込み(KGE)のベクトル表現を学ぶ。 汎用的なKGEを学習することは、幅広いタスクに役立てるのが望ましい。 しかしながら、KGEMは通常、特定のタスクのためにトレーニングされるため、組み込みはタスクに依存している。 平行して、KGEMが実際に基礎となるエンティティと関係(例えば、異なるエンティティよりも近いプロジェクト類似のエンティティ)のセマンティック表現を作成するという仮定が問題視されている。 本研究では,スキーマに基づく情報を活用するKGの小型化バージョンを生成するためのヒューリスティックスを設計する。 学習されたプロトグラフベースの埋め込みは、KGのセマンティクスをカプセル化することを目的としており、KGEの学習に利用することができる。 様々な評価ベンチマークによる広範囲な実験は、この手法の健全性を示しており、我々はModular and Agnostic SCHema-based Integration of protograph Embeddings (MASCHInE)と呼ぶ。 特に、MASCHInEはより汎用的なKGEを生成し、エンティティクラスタリングやノード分類タスクのパフォーマンスを大幅に向上させる。 リンク予測では、MASCHInEの使用はランクベースの性能にはほとんど影響しないが、意味論的に有効な予測の数を増やす。

Knowledge graph embedding models (KGEMs) have gained considerable traction in recent years. These models learn a vector representation of knowledge graph entities and relations, a.k.a. knowledge graph embeddings (KGEs). Learning versatile KGEs is desirable as it makes them useful for a broad range of tasks. However, KGEMs are usually trained for a specific task, which makes their embeddings task-dependent. In parallel, the widespread assumption that KGEMs actually create a semantic representation of the underlying entities and relations (e.g., project similar entities closer than dissimilar ones) has been challenged. In this work, we design heuristics for generating protographs -- small, modified versions of a KG that leverage schema-based information. The learnt protograph-based embeddings are meant to encapsulate the semantics of a KG, and can be leveraged in learning KGEs that, in turn, also better capture semantics. Extensive experiments on various evaluation benchmarks demonstrate the soundness of this approach, which we call Modular and Agnostic SCHema-based Integration of protograph Embeddings (MASCHInE). In particular, MASCHInE helps produce more versatile KGEs that yield substantially better performance for entity clustering and node classification tasks. For link prediction, using MASCHInE has little impact on rank-based performance but increases the number of semantically valid predictions.
翻訳日:2023-06-07 15:25:28 公開日:2023-06-06
# 非線形制約下でのオンライン学習

Online Learning under Adversarial Nonlinear Constraints ( http://arxiv.org/abs/2306.03655v1 )

ライセンス: Link先を確認
Pavel Kolev, Georg Martius, Michael Muehlebach(参考訳) 多くのアプリケーションでは、学習システムは連続的な非定常データストリームを処理する必要がある。 本稿では,この問題をオンライン学習フレームワークで研究し,逆時間的制約や非線形制約に対処できるアルゴリズムを提案する。 我々の研究で示したように、Constraint Violation Velocity Projection (CVV-Pro) と呼ばれるアルゴリズムは、学習者にとって徐々に時間変化し、先行性がないにもかかわらず、後悔し、実現可能なセットに1/\sqrt{T}$で収束する。 CVV-Proは、実現可能な集合の局所スパース線型近似にのみ依存するため、各反復における集合全体の最適化を回避し、射影勾配やフランク=ウルフ法とは対照的である。 また,プレイヤーが共有制約を受ける2プレイヤーゲームにおいて,アルゴリズムを経験的に評価する。

In many applications, learning systems are required to process continuous non-stationary data streams. We study this problem in an online learning framework and propose an algorithm that can deal with adversarial time-varying and nonlinear constraints. As we show in our work, the algorithm called Constraint Violation Velocity Projection (CVV-Pro) achieves $\sqrt{T}$ regret and converges to the feasible set at a rate of $1/\sqrt{T}$, despite the fact that the feasible set is slowly time-varying and a priori unknown to the learner. CVV-Pro only relies on local sparse linear approximations of the feasible set and therefore avoids optimizing over the entire set at each iteration, which is in sharp contrast to projected gradients or Frank-Wolfe methods. We also empirically evaluate our algorithm on two-player games, where the players are subjected to a shared constraint.
翻訳日:2023-06-07 15:25:00 公開日:2023-06-06
# 言語生成に知識を注入する:医療対話からの訪問後ケア指導のオートチャート化を事例として

Injecting knowledge into language generation: a case study in auto-charting after-visit care instructions from medical dialogue ( http://arxiv.org/abs/2306.03652v1 )

ライセンス: Link先を確認
Maksim Eremeev, Ilya Valmianski, Xavier Amatriain, Anitha Kannan(参考訳) 事実的正当性は、医療などの高度な領域における自然言語生成の実践的応用において、しばしば制限要因である。 事実性を維持するための必須要件は、まれなトークンを扱う能力である。 本稿では,ソースと参照シーケンスの両方に現れる稀なトークンに着目し,生成時に見逃された場合には,出力テキストの事実的正しさを低下させる。 知識に富む高い領域に対しては、知識の使い方を示す。 (a)ソースおよび参照の両方に現れる稀なトークンが重要であること。 (b)条件付き確率を引き上げる。 我々は,選択されたトークンの限界確率を最大化することにより,知識をエンコードし,正規化として機能する ``utilization rate''' を導入する。 本稿では,患者と医師の対話に基づく訪問後のケア指導の課題に対処する,知識豊富な医療分野の研究を紹介する。 データセットでは、高い利用率を持つ特定の医療概念が、従来訓練されたシーケンス・ツー・シーケンスモデルによって過小評価されていることを検証します。 知識注入のアプローチでこれを修正することで、モデルの不確実性が減少し、フラレンシに悪影響を及ぼすことなく、事実性と一貫性が向上するのを観察します。

Factual correctness is often the limiting factor in practical applications of natural language generation in high-stakes domains such as healthcare. An essential requirement for maintaining factuality is the ability to deal with rare tokens. This paper focuses on rare tokens that appear in both the source and the reference sequences, and which, when missed during generation, decrease the factual correctness of the output text. For high-stake domains that are also knowledge-rich, we show how to use knowledge to (a) identify which rare tokens that appear in both source and reference are important and (b) uplift their conditional probability. We introduce the ``utilization rate'' that encodes knowledge and serves as a regularizer by maximizing the marginal probability of selected tokens. We present a study in a knowledge-rich domain of healthcare, where we tackle the problem of generating after-visit care instructions based on patient-doctor dialogues. We verify that, in our dataset, specific medical concepts with high utilization rates are underestimated by conventionally trained sequence-to-sequence models. We observe that correcting this with our approach to knowledge injection reduces the uncertainty of the model as well as improves factuality and coherence without negatively impacting fluency.
翻訳日:2023-06-07 15:24:42 公開日:2023-06-06
# 共同マルチモーダル・サーカズム・感情・感情分析のための量子確率駆動フレームワーク

A Quantum Probability Driven Framework for Joint Multi-Modal Sarcasm, Sentiment and Emotion Analysis ( http://arxiv.org/abs/2306.03650v1 )

ライセンス: Link先を確認
Yaochen Liu, Yazhou Zhang, Dawei Song(参考訳) サルカズム、感情、感情は、外的出来事に対する人間の自発的な感情反応の典型的な3つのタイプであり、互いに密接に絡み合っている。 このようなイベントは複数のモダリティ(言語、視覚、音響など)、例えばマルチモーダル会話で表現することができる。 ヒトのマルチモーダルサルカズム、感情、感情の結合分析は、相互モダリティ相互作用と相互反応相関の両方を含む複雑な認知プロセスであるため、重要かつ困難なトピックである。 確率論の観点からは、交叉相関はまた、皮肉、感情、感情に関する判断が相容れないことを意味する。 しかし、この露光現象は、互換性の仮定により古典的確率論によって十分にモデル化することはできない。 既存のアプローチも考慮に入れていない。 人間の認知、特に文脈的不整合意思決定のモデル化における量子確率(QP)の最近の成功を考えると、我々は、共同マルチモーダル皮肉、感情分析、感情分析にQPを導入するための第一歩を踏み出した。 具体的には、QUantum probabIlityによるマルチモーダルサルカム、sEntimentおよびemoTion分析フレームワーク、QUIETを提案する。 2つのデータセットと結果に対する大規模な実験により、QUIETの有効性と利点が、最先端の幅広いベースラインと比較された。 また,多因子分析におけるQPの可能性を示した。

Sarcasm, sentiment, and emotion are three typical kinds of spontaneous affective responses of humans to external events and they are tightly intertwined with each other. Such events may be expressed in multiple modalities (e.g., linguistic, visual and acoustic), e.g., multi-modal conversations. Joint analysis of humans' multi-modal sarcasm, sentiment, and emotion is an important yet challenging topic, as it is a complex cognitive process involving both cross-modality interaction and cross-affection correlation. From the probability theory perspective, cross-affection correlation also means that the judgments on sarcasm, sentiment, and emotion are incompatible. However, this exposed phenomenon cannot be sufficiently modelled by classical probability theory due to its assumption of compatibility. Neither do the existing approaches take it into consideration. In view of the recent success of quantum probability (QP) in modeling human cognition, particularly contextual incompatible decision making, we take the first step towards introducing QP into joint multi-modal sarcasm, sentiment, and emotion analysis. Specifically, we propose a QUantum probabIlity driven multi-modal sarcasm, sEntiment and emoTion analysis framework, termed QUIET. Extensive experiments on two datasets and the results show that the effectiveness and advantages of QUIET in comparison with a wide range of the state-of-the-art baselines. We also show the great potential of QP in multi-affect analysis.
翻訳日:2023-06-07 15:24:23 公開日:2023-06-06
# 教師付き知識が新しいクラス発見のパフォーマンスを損なうかもしれない

Supervised Knowledge May Hurt Novel Class Discovery Performance ( http://arxiv.org/abs/2306.03648v1 )

ライセンス: Link先を確認
Ziyun Li, Jona Otholt, Ben Dai, Di Hu, Christoph Meinel, Haojin Yang(参考訳) 新たなクラス発見(NCD)は、非結合クラスを含むラベル付き集合の事前知識を活用することにより、ラベル付きデータセットに新しいカテゴリを推論することを目的としている。 既存の文献のほとんどが方法論レベルでラベル付き集合からの教師付き知識の活用に重点を置いていることを考えると、本論文ではその疑問を考察する。 そこで我々はまず,ラベル付き/ラベルなしデータセット間のセマンティックな類似性を測定するために,転送フローと呼ばれる新しいメトリクスを確立する。 提案手法の有効性を示すために,階層型クラス構造を活用し,imagenet上のラベル付き/ラベルなしデータセット間の様々な意味的類似度を持つ大規模ベンチマークを構築した。 提案するベンチマークに基づく結果は,提案する転送フローが階層的クラス構造と一致していることを示し,ncdの性能は意味的類似性(提案メトリックによる測定)と一致することを示した。 次に, 提案した伝達流を用いて, 意味的類似性の異なる様々な実験を行い, 教師付き知識がNCD性能を損なう可能性を示唆した。 特に、低相似性ラベル付き集合からの教師付き情報の使用は、純粋な自己教師付き知識の使用と比較して、最適な結果をもたらす可能性がある。 これらの結果は、教師付き知識が有用であると考える既存のNCD文献の不十分さを明らかにしている。 最後に,NCDにおいて教師付き知識を使用するべきかを判断するために,転送フローの擬似変換を実用的な参照として開発する。 その効果は,疑似転送フロー(教師付き知識の有無に関わらず)が,各種データセットに基づいて対応する精度と一致していることを示す実験研究によって裏付けられている。 コードはhttps://github.com/J-L-O/SK-Hurt-NCDで公開されている。

Novel class discovery (NCD) aims to infer novel categories in an unlabeled dataset by leveraging prior knowledge of a labeled set comprising disjoint but related classes. Given that most existing literature focuses primarily on utilizing supervised knowledge from a labeled set at the methodology level, this paper considers the question: Is supervised knowledge always helpful at different levels of semantic relevance? To proceed, we first establish a novel metric, so-called transfer flow, to measure the semantic similarity between labeled/unlabeled datasets. To show the validity of the proposed metric, we build up a large-scale benchmark with various degrees of semantic similarities between labeled/unlabeled datasets on ImageNet by leveraging its hierarchical class structure. The results based on the proposed benchmark show that the proposed transfer flow is in line with the hierarchical class structure; and that NCD performance is consistent with the semantic similarities (measured by the proposed metric). Next, by using the proposed transfer flow, we conduct various empirical experiments with different levels of semantic similarity, yielding that supervised knowledge may hurt NCD performance. Specifically, using supervised information from a low-similarity labeled set may lead to a suboptimal result as compared to using pure self-supervised knowledge. These results reveal the inadequacy of the existing NCD literature which usually assumes that supervised knowledge is beneficial. Finally, we develop a pseudo-version of the transfer flow as a practical reference to decide if supervised knowledge should be used in NCD. Its effectiveness is supported by our empirical studies, which show that the pseudo transfer flow (with or without supervised knowledge) is consistent with the corresponding accuracy based on various datasets. Code is released at https://github.com/J-L-O/SK-Hurt-NCD
翻訳日:2023-06-07 15:23:58 公開日:2023-06-06
# 近位対称非負遅延因子分析:非方向重み付きネットワークの高精度表現への新しいアプローチ

Proximal Symmetric Non-negative Latent Factor Analysis: A Novel Approach to Highly-Accurate Representation of Undirected Weighted Networks ( http://arxiv.org/abs/2306.03647v1 )

ライセンス: Link先を確認
Yurong Zhong, Zhe Xie, Weiling Li, and Xin Luo(参考訳) Undirected Weighted Network (UWN) は、ビッグデータ関連のアプリケーションで一般的に見られる。 このようなネットワークの情報はノードに接続されており、エッジは対称で高次元で不完全(shdi)な行列として表現できる。 しかし、既存のモデルは本質的な対称性や低データ密度のモデル化に失敗するため、モデルのスケーラビリティや表現学習能力が低下する。 この問題に対処するために, 近位対称非負の潜在因子分析(psnl)モデルを提案する。 近似項を対称性認識とデータ密度指向の目的関数に組み込んで表現精度を高める。 次に,適応型マルチプライヤ(ADMM)に基づく学習方式をParzen Estimators(TPE)法によるツリー構造化により実装し,高い計算効率を実現する。 4つのuwnに関する実証研究は、psnlが最先端モデルよりも高い精度と高い計算効率を達成していることを示している。

An Undirected Weighted Network (UWN) is commonly found in big data-related applications. Note that such a network's information connected with its nodes, and edges can be expressed as a Symmetric, High-Dimensional and Incomplete (SHDI) matrix. However, existing models fail in either modeling its intrinsic symmetry or low-data density, resulting in low model scalability or representation learning ability. For addressing this issue, a Proximal Symmetric Nonnegative Latent-factor-analysis (PSNL) model is proposed. It incorporates a proximal term into symmetry-aware and data density-oriented objective function for high representation accuracy. Then an adaptive Alternating Direction Method of Multipliers (ADMM)-based learning scheme is implemented through a Tree-structured of Parzen Estimators (TPE) method for high computational efficiency. Empirical studies on four UWNs demonstrate that PSNL achieves higher accuracy gain than state-of-the-art models, as well as highly competitive computational efficiency.
翻訳日:2023-06-07 15:23:28 公開日:2023-06-06
# 音の象徴語によるダンス生成

Dance Generation by Sound Symbolic Words ( http://arxiv.org/abs/2306.03646v1 )

ライセンス: Link先を確認
Miki Okamura, Naruya Kondo, Tatsuki Fushimi Maki Sakamoto and Yoichi Ochiai(参考訳) 本研究は,オノマトペをインプットとして,ダンス生成における創造性と多様性を高めることを目的とした,新たなダンス動作生成手法を提案する。 テキストや音楽とは異なり、オノマトペは表現に制約がなく、専門知識も必要とせず、抽象的な言葉表現を通じてリズムと意味を伝える。 音素や音節に着目したオノマトペの特徴抽出手法である坂本システムを用いて,AIコレオグラフィーの枠組みを適用した。 さらに,ユーザ調査により収集したオノマトペ・ダンス動作ペア40組のデータセットを提案する。 提案手法は,より直感的なダンス生成を可能にし,オノマトペのない言語を含む様々な言語から,音記号的単語を用いたダンス動作を生成できることを示す。 これは様々な言語や文化にまたがる多様なダンスの創造の可能性を強調しており、より広い聴衆にアクセスできる。 私たちのモデルの質的なサンプルは、https://sites.google.com/view/onomatopoeia-dance/home/で見ることができます。

This study introduces a novel approach to generate dance motions using onomatopoeia as input, with the aim of enhancing creativity and diversity in dance generation. Unlike text and music, onomatopoeia conveys rhythm and meaning through abstract word expressions without constraints on expression and without need for specialized knowledge. We adapt the AI Choreographer framework and employ the Sakamoto system, a feature extraction method for onomatopoeia focusing on phonemes and syllables. Additionally, we present a new dataset of 40 onomatopoeia-dance motion pairs collected through a user survey. Our results demonstrate that the proposed method enables more intuitive dance generation and can create dance motions using sound-symbolic words from a variety of languages, including those without onomatopoeia. This highlights the potential for diverse dance creation across different languages and cultures, accessible to a wider audience. Qualitative samples from our model can be found at: https://sites.google.com/view/onomatopoeia-dance/home/.
翻訳日:2023-06-07 15:23:10 公開日:2023-06-06
# 近赤外ビデオカメラによるバイタルサインと活動からの深層学習型睡眠ステージング

Deep Learning-Enabled Sleep Staging From Vital Signs and Activity Measured Using a Near-Infrared Video Camera ( http://arxiv.org/abs/2306.03711v1 )

ライセンス: Link先を確認
Jonathan Carter, Jo\~ao Jorge, Bindia Venugopal, Oliver Gibson, Lionel Tarassenko(参考訳) 従来の睡眠モニタリングは、時間がかかり、高価で不快であり、多くのコンタクトセンサーを患者に装着する必要がある。 ビデオデータは一般に睡眠検査の一部として記録される。 正確な睡眠ステージングがビデオだけで達成できれば、従来の方法の多くの問題を克服できるだろう。 本研究では,近赤外線ビデオカメラから派生した心拍数,呼吸数,活動測定値を用いて睡眠ステージの分類を行う。 既存のコンタクトセンサーデータセットを用いて、心拍数と呼吸速度時系列から効果的な表現を学習することにより、データ不足を克服するディープトランスファー学習手法を用いる。 健康な50人のボランティアのデータセットを用いて、4クラス睡眠ステージ分類において73.4\%の精度と0.61のCohenのカッパを達成し、ビデオベースの睡眠ステージのための新しい最先端技術を確立した。

Conventional sleep monitoring is time-consuming, expensive and uncomfortable, requiring a large number of contact sensors to be attached to the patient. Video data is commonly recorded as part of a sleep laboratory assessment. If accurate sleep staging could be achieved solely from video, this would overcome many of the problems of traditional methods. In this work we use heart rate, breathing rate and activity measures, all derived from a near-infrared video camera, to perform sleep stage classification. We use a deep transfer learning approach to overcome data scarcity, by using an existing contact-sensor dataset to learn effective representations from the heart and breathing rate time series. Using a dataset of 50 healthy volunteers, we achieve an accuracy of 73.4\% and a Cohen's kappa of 0.61 in four-class sleep stage classification, establishing a new state-of-the-art for video-based sleep staging.
翻訳日:2023-06-07 15:17:59 公開日:2023-06-06
# 実験ガウス粒子サンプリングシミュレーションのためのテンソルネットワークアルゴリズム

Tensor network algorithm for simulating experimental Gaussian boson sampling ( http://arxiv.org/abs/2306.03709v1 )

ライセンス: Link先を確認
Changhun Oh, Minzhao Liu, Yuri Alexeev, Bill Fefferman, Liang Jiang(参考訳) ガウスボソンサンプリングは実験的量子優位性を示す有望な候補である。 無ノイズガウスボソンサンプリングは古典的コンピュータで効率的にシミュレーションすることは困難であるが、現在のガウスボソンサンプリング実験は必然的に損失やその他のノイズモデルに苦しんでいる。 高い光子損失率とノイズの存在にもかかわらず、現在では最もよく知られた古典的アルゴリズムで古典的にシミュレートするのが難しいとされている。 本研究では,ガウスボソンサンプリングをシミュレートする古典的なテンソルネットワークアルゴリズムを提案する。 既存の熱状態近似アルゴリズムである損失ガウスボソンサンプリングを一般化することにより,提案アルゴリズムは,熱状態からサンプルを採取するアルゴリズムとは対照的に,アルゴリズムの実行時間が大きくなるにつれて精度が向上する。 この一般化により、出力状態が熱状態に近いとは考えられなくても、現在の損失実験の計算能力を評価することができる。 これまでに実施した最大のガウスボソンサンプリングをシミュレートした。 実際の実験と同様に、この大規模なシミュレーションを古典的に検証することは難しい。 これを実現するために、我々はまず小さなシミュレーションで、全変動距離、クロスエントロピー、および2点相関ベンチマークが全て一致することを観察した。 本研究は, 大規模実験において, 試料が地上の2点, 高階の相関関数と実験よりもよく一致し, 試料が地上の2点の分布をシミュレーションできることを示すものである。

Gaussian boson sampling is a promising candidate for showing experimental quantum advantage. While there is evidence that noiseless Gaussian boson sampling is hard to efficiently simulate using a classical computer, the current Gaussian boson sampling experiments inevitably suffer from loss and other noise models. Despite a high photon loss rate and the presence of noise, they are currently claimed to be hard to classically simulate with the best-known classical algorithm. In this work, we present a classical tensor-network algorithm that simulates Gaussian boson sampling and whose complexity can be significantly reduced when the photon loss rate is high. By generalizing the existing thermal-state approximation algorithm of lossy Gaussian boson sampling, the proposed algorithm enables us to achieve increased accuracy as the running time of the algorithm scales, as opposed to the algorithm that samples from the thermal state, which can give only a fixed accuracy. The generalization allows us to assess the computational power of current lossy experiments even though their output state is not believed to be close to a thermal state. We then simulate the largest Gaussian boson sampling implemented in experiments so far. Much like the actual experiments, classically verifying this large-scale simulation is challenging. To do this, we first observe that in our smaller-scale simulations the total variation distance, cross-entropy, and two-point correlation benchmarks all coincide. Based on this observation, we demonstrate for large-scale experiments that our sampler matches the ground-truth two-point and higher-order correlation functions better than the experiment does, exhibiting evidence that our sampler can simulate the ground-truth distribution better than the experiment can.
翻訳日:2023-06-07 15:17:42 公開日:2023-06-06
# 軽量S2CGAN-IDSを用いた高不均衡IoTネットワークの効果的な侵入検出

Effective Intrusion Detection in Highly Imbalanced IoT Networks with Lightweight S2CGAN-IDS ( http://arxiv.org/abs/2306.03707v1 )

ライセンス: Link先を確認
Caihong Wang, Du Xu, Zonghang Li, Dusit Niyato(参考訳) IoT(Internet of Things)の出現以来、大量の情報を交換することで、ネットワーク内のセキュリティ脅威の数が増えてきた。 その結果、高いスループットと高精度を実現するために、ディープラーニング(DL)に基づく侵入検出が開発された。 一般的なディープラーニングベースのシナリオとは異なり、IoTネットワークは異常なトラフィックよりもはるかに良質なトラフィックを含んでいる。 しかし、既存の研究のほとんどは、クラス不均衡iotネットワークにおけるマイノリティクラスの検出率を改善するために、多数派クラスの検出率を犠牲にすることに集中している。 この方法は少数民族の誤った否定率を減らすことができるが、資源を浪費し、侵入検知システムの信頼性を低下させる。 そこで本研究では,S2CGAN-IDSという軽量フレームワークを提案する。 提案フレームワークは,ネットワークトラフィックの分布特性を利用して,データ空間と特徴空間の両方においてマイノリティーカテゴリの数を拡大し,マイノリティーカテゴリの検出率を大幅に向上させ,マイノリティーカテゴリの検出精度を同時に確保する。 実験結果への影響を低減するため,CICIDS2017数値データセットを用いて提案手法の有効性を実証した。 実験の結果,提案手法は精度とリコールともに優れた手法を上回っており,特にf1-scoreの10.2%向上した。

Since the advent of the Internet of Things (IoT), exchanging vast amounts of information has increased the number of security threats in networks. As a result, intrusion detection based on deep learning (DL) has been developed to achieve high throughput and high precision. Unlike general deep learning-based scenarios, IoT networks contain benign traffic far more than abnormal traffic, with some rare attacks. However, most existing studies have been focused on sacrificing the detection rate of the majority class in order to improve the detection rate of the minority class in class-imbalanced IoT networks. Although this way can reduce the false negative rate of minority classes, it both wastes resources and reduces the credibility of the intrusion detection systems. To address this issue, we propose a lightweight framework named S2CGAN-IDS. The proposed framework leverages the distribution characteristics of network traffic to expand the number of minority categories in both data space and feature space, resulting in a substantial increase in the detection rate of minority categories while simultaneously ensuring the detection precision of majority categories. To reduce the impact of sparsity on the experiments, the CICIDS2017 numeric dataset is utilized to demonstrate the effectiveness of the proposed method. The experimental results indicate that our proposed approach outperforms the superior method in both Precision and Recall, particularly with a 10.2% improvement in the F1-score.
翻訳日:2023-06-07 15:17:15 公開日:2023-06-06
# ランダム森林のベイズ後正規化

Bayesian post-hoc regularization of random forests ( http://arxiv.org/abs/2306.03702v1 )

ライセンス: Link先を確認
Bastian Pfeifer(参考訳) Random Forestsは、さまざまな機械学習タスクで広く使われている強力なアンサンブル学習アルゴリズムである。 しかし、ノイズや無関係な特徴に過度に適合する傾向があり、一般化性能が低下する可能性がある。 ポストホック正規化技術は、トレーニング後の学習アンサンブルの構造を変更してこの問題を緩和することを目的としている。 そこで本研究では,葉ノードが根に近づいた場合の信頼性の高いパターンを活用すべく,ベイズポストホック正規化を提案する。 このアプローチにより、木の一般的な構造を変化させるのではなく、ルートノードに近接して葉ノードの影響を調整することができる。 各種機械学習データセットを用いて,本手法の性能評価を行った。 提案手法は,最先端手法と競合する性能を示し,予測精度と一般化の点でその性能を上回っている。

Random Forests are powerful ensemble learning algorithms widely used in various machine learning tasks. However, they have a tendency to overfit noisy or irrelevant features, which can result in decreased generalization performance. Post-hoc regularization techniques aim to mitigate this issue by modifying the structure of the learned ensemble after its training. Here, we propose Bayesian post-hoc regularization to leverage the reliable patterns captured by leaf nodes closer to the root, while potentially reducing the impact of more specific and potentially noisy leaf nodes deeper in the tree. This approach allows for a form of pruning that does not alter the general structure of the trees but rather adjusts the influence of leaf nodes based on their proximity to the root node. We have evaluated the performance of our method on various machine learning data sets. Our approach demonstrates competitive performance with the state-of-the-art methods and, in certain cases, surpasses them in terms of predictive accuracy and generalization.
翻訳日:2023-06-07 15:16:52 公開日:2023-06-06
# グラフニューラルネットワークの細粒度表現性

Fine-grained Expressivity of Graph Neural Networks ( http://arxiv.org/abs/2306.03698v1 )

ライセンス: Link先を確認
Jan B\"oker, Ron Levie, Ningyuan Huang, Soledad Villar, Christopher Morris(参考訳) グラフ同型問題に対する1ドルのWeisfeiler-Lemanテスト(1$-WL)のような組合せ手法を主に利用して、メッセージパッシンググラフニューラルネットワーク(MPNN)の表現力を分析した。 しかし、グラフ同型目的は本質的にバイナリであり、2つの与えられたグラフ間の類似度について洞察を与えない。 この研究は、1ドルのWLとMPNNをグラファイトに連続的に拡張することでこの問題を解決する。 具体的には,MPNNのグラフ上での表現力の正確なトポロジ的特徴を提示し,これらのネットワークが区別できるグラフと分離の難しさのレベルを明らかにした。 我々はMPNNが点を分離し、普遍近似定理を証明する最も優れた位相を同定する。 その結果,1ドルWLの古典的特徴づけの様々な位相的不変量を組み合わせたグラフとグラフの類似性の理論的枠組みを提供する。 特に、分数同型の概念に基づくグラフ距離である木間距離(英語版)と木準同型(英語版)による部分構造数(英語版)という観点からMPNNの表現力を特徴づけ、これらの概念がグラフオン上の1ドルWLやMPNNと同じ表現力を持つことを示す。 実験により, ランダムに初期化したMPNNは, 訓練を受けずに, 訓練したMPNNと比較して, 競争性能を示すことを示した。 さらに,MPNNの表現性を理解する上での連続的な1ドルWLテストの重要性を強調し,グラフ距離を保存する能力に基づいて異なるMPNNアーキテクチャを評価する。

Numerous recent works have analyzed the expressive power of message-passing graph neural networks (MPNNs), primarily utilizing combinatorial techniques such as the $1$-dimensional Weisfeiler-Leman test ($1$-WL) for the graph isomorphism problem. However, the graph isomorphism objective is inherently binary, not giving insights into the degree of similarity between two given graphs. This work resolves this issue by considering continuous extensions of both $1$-WL and MPNNs to graphons. Concretely, we show that the continuous variant of $1$-WL delivers an accurate topological characterization of the expressive power of MPNNs on graphons, revealing which graphs these networks can distinguish and the level of difficulty in separating them. We identify the finest topology where MPNNs separate points and prove a universal approximation theorem. Consequently, we provide a theoretical framework for graph and graphon similarity combining various topological variants of classical characterizations of the $1$-WL. In particular, we characterize the expressive power of MPNNs in terms of the tree distance, which is a graph distance based on the concepts of fractional isomorphisms, and substructure counts via tree homomorphisms, showing that these concepts have the same expressive power as the $1$-WL and MPNNs on graphons. Empirically, we validate our theoretical findings by showing that randomly initialized MPNNs, without training, exhibit competitive performance compared to their trained counterparts. Moreover, we evaluate different MPNN architectures based on their ability to preserve graph distances, highlighting the significance of our continuous $1$-WL test in understanding MPNNs' expressivity.
翻訳日:2023-06-07 15:16:36 公開日:2023-06-06
# ESL-SNN:スパイクニューラルネットワークのための進化的構造学習戦略

ESL-SNNs: An Evolutionary Structure Learning Strategy for Spiking Neural Networks ( http://arxiv.org/abs/2306.03693v1 )

ライセンス: Link先を確認
Jiangrong Shen, Qi Xu, Jian K. Liu, Yueming Wang, Gang Pan, Huajin Tang(参考訳) スパイキングニューラルネットワーク(SNN)は、推論プロセス中に消費電力とイベント駆動特性に顕著な優位性を示した。 低消費電力をフル活用し、これらのモデルの効率をさらに向上するために、訓練後に冗長接続を伴わないスパースSNNの探索を行った。 しかし、パラメータ冗長性はトレーニング中のSNNの効率を妨げている。 ヒトの脳では、ニューラルネットワークのスイッチングプロセスは非常にダイナミックで、シナプス接続は脳の発達中に比較的疎い。 そこで本研究では,ESL-SNNと呼ばれるSNNのための効率的な進化的構造学習(ESL)フレームワークを提案する。 SNNにおけるシナプス接続の切断と再生は、学習中に動的に進化するが、構造的疎結合は一定のレベルに保つ。 その結果、ESL-SNNは時間を通して可能な全てのパラメータを探索することで最適なスパース接続を探索できる。 実験の結果,提案するESL-SNNフレームワークは,限られた精度を抑えつつ,スパース構造を持つSNNを効果的に学習できることがわかった。 ESL-SNNは、DVS-Cifar10データセット上で10%の接続密度で0.28%の精度損失を達成している。 本研究は, SNNをスクラッチから切り離し, 生物学的に妥当な進化機構により, スパーストレーニングと密なトレーニングとの表現性のギャップを埋める新しいアプローチを提案する。 したがって、SNNの軽量なトレーニングや、低消費電力と少ないメモリ使用量での推論には大きな可能性を秘めている。

Spiking neural networks (SNNs) have manifested remarkable advantages in power consumption and event-driven property during the inference process. To take full advantage of low power consumption and improve the efficiency of these models further, the pruning methods have been explored to find sparse SNNs without redundancy connections after training. However, parameter redundancy still hinders the efficiency of SNNs during training. In the human brain, the rewiring process of neural networks is highly dynamic, while synaptic connections maintain relatively sparse during brain development. Inspired by this, here we propose an efficient evolutionary structure learning (ESL) framework for SNNs, named ESL-SNNs, to implement the sparse SNN training from scratch. The pruning and regeneration of synaptic connections in SNNs evolve dynamically during learning, yet keep the structural sparsity at a certain level. As a result, the ESL-SNNs can search for optimal sparse connectivity by exploring all possible parameters across time. Our experiments show that the proposed ESL-SNNs framework is able to learn SNNs with sparse structures effectively while reducing the limited accuracy. The ESL-SNNs achieve merely 0.28% accuracy loss with 10% connection density on the DVS-Cifar10 dataset. Our work presents a brand-new approach for sparse training of SNNs from scratch with biologically plausible evolutionary mechanisms, closing the gap in the expressibility between sparse training and dense training. Hence, it has great potential for SNN lightweight training and inference with low power consumption and small memory usage.
翻訳日:2023-06-07 15:16:05 公開日:2023-06-06
# アームチェアリボン幾何学の量子スピンホール位相における位相的に保護されたエッジ状態の剛性解析

Rigorous analysis of the topologically protected edge states in the quantum spin Hall phase of the armchair ribbon geometry ( http://arxiv.org/abs/2306.03690v1 )

ライセンス: Link先を確認
Mozhgan Sadeghizadeh, Morteza Soltani, and Mohsen Amini(参考訳) トポロジカルシステムのエッジ状態の研究とそれらのトポロジカルな性質の抽出は、これらのシステムの理解と特性化において非常に重要である。 本稿では, アームチェア境界を特徴とするリボン幾何学において, ケーン・ミールモデルにおけるエッジ状態の明示的表現を得るための新しい解析手法を提案する。 我々のアプローチは、運動量空間において、システムを拡張されたsu-schrieffer-heegerモデルに変換するマッピング手順を含む。 厳密な導出により、波動関数やエネルギー分散を含むエッジ状態の様々な解析的性質を決定する。 さらに, エッジ状態のみを解析することにより, 位相遷移の条件を解明し, 比較的狭いリボンにおけるバルクエッジ対応の違反の原因を明らかにする。 この結果から,Ke-Meleモデルの量子スピンホール相におけるエッジ状態の特異な特性について光を当て,そのトポロジ的特性について貴重な知見を得た。

Studying the edge states of a topological system and extracting their topological properties is of great importance in understanding and characterizing these systems. In this paper, we present a novel analytical approach for obtaining explicit expressions for the edge states in the Kane-Mele model within a ribbon geometry featuring armchair boundaries. Our approach involves a mapping procedure that transforms the system into an extended Su-Schrieffer-Heeger model, specifically a two-leg ladder, in momentum space. Through rigorous derivation, we determine various analytical properties of the edge states, including their wave functions and energy dispersion. Additionally, we investigate the condition for topological transition by solely analyzing the edge states, and we elucidate the underlying reasons for the violation of the bulk-edge correspondence in relatively narrow ribbons. Our findings shed light on the unique characteristics of the edge states in the quantum spin Hall phase of the Kane-Mele model and provide valuable insights into the topological properties of such systems.
翻訳日:2023-06-07 15:15:40 公開日:2023-06-06
# YONA:ビデオポリープの正確な検出には、隣接する参照フレームが1つ必要

YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection ( http://arxiv.org/abs/2306.03686v1 )

ライセンス: Link先を確認
Yuncheng Jiang, Zixun Zhang, Ruimao Zhang, Guanbin Li, Shuguang Cui, Zhen Li(参考訳) 正確なポリープ検出は臨床直腸癌診断に不可欠である。 コロニービデオには静止画像よりも豊富な情報が含まれており、深層学習のための貴重なリソースとなっている。 多フレーム時間/空間アグリゲーションによるビデオポリープ検出に多大な努力が払われている。 しかし、一般的な固定カメラビデオとは異なり、大腸内視鏡ビデオにおけるカメラ移動シーンは、急激なビデオジッタを引き起こし、既存のビデオ検出モデルの不安定なトレーニングにつながる。 さらに、ポリプの隠れた性質と複雑な背景環境は、既存のビデオ検出器の性能をさらに阻害する。 本稿では,ビデオポリープ検出のための効率的なエンドツーエンドトレーニングフレームワークである \textbf{YONA} (\textbf{Y}ou \textbf{O}ned one \textbf{N}eed one \textbf{A}djacent Reference-frame) 法を提案する。 YONAは、隣接するフレームの情報をフル活用し、複数フレームのコラボレーションなしで現在のフレーム上でポリプ検出を行う。 具体的には、前景については、前景の類似性に応じて、現在のフレームのチャネル活性化パターンを隣接する参照フレームに適応的に整合させる。 背景としては,フレーム間差による背景動的アライメントを行い,空間ジッタが生み出す無効な特徴を解消する。 さらに、ヨナはトレーニング中にクロスフレームのコントラスト学習を適用し、真理境界ボックスを活用して、ポリプと背景に対するモデルの認識を改善する。 3つの公開課題ベンチマークの定量的および定性的な実験により、提案されたYONAは、従来の最先端の競合よりも精度と速度に大きな差があることが証明された。

Accurate polyp detection is essential for assisting clinical rectal cancer diagnoses. Colonoscopy videos contain richer information than still images, making them a valuable resource for deep learning methods. Great efforts have been made to conduct video polyp detection through multi-frame temporal/spatial aggregation. However, unlike common fixed-camera video, the camera-moving scene in colonoscopy videos can cause rapid video jitters, leading to unstable training for existing video detection models. Additionally, the concealed nature of some polyps and the complex background environment further hinder the performance of existing video detectors. In this paper, we propose the \textbf{YONA} (\textbf{Y}ou \textbf{O}nly \textbf{N}eed one \textbf{A}djacent Reference-frame) method, an efficient end-to-end training framework for video polyp detection. YONA fully exploits the information of one previous adjacent frame and conducts polyp detection on the current frame without multi-frame collaborations. Specifically, for the foreground, YONA adaptively aligns the current frame's channel activation patterns with its adjacent reference frames according to their foreground similarity. For the background, YONA conducts background dynamic alignment guided by inter-frame difference to eliminate the invalid features produced by drastic spatial jitters. Moreover, YONA applies cross-frame contrastive learning during training, leveraging the ground truth bounding box to improve the model's perception of polyp and background. Quantitative and qualitative experiments on three public challenging benchmarks demonstrate that our proposed YONA outperforms previous state-of-the-art competitors by a large margin in both accuracy and speed.
翻訳日:2023-06-07 15:15:22 公開日:2023-06-06
# オフライン強化学習のための軽度制約付き評価政策

Mildly Constrained Evaluation Policy for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.03680v1 )

ライセンス: Link先を確認
Linjie Xu, Zhengyao Jiang, Jinyu Wang, Lei Song, Jiang Bian(参考訳) オフライン強化学習(rl)手法は、行動ポリシーに密着するポリシーに制約を課すことにより、価値学習を安定化し、テスト時間中にアウトオブディストリビューション(ood)アクションの選択を緩和する。 従来のアプローチでは、バリューラーニングとテストタイム推論の両方に同じ制約を適用する。 しかし, 実測値推定に適した制約は, テスト期間中の行動選択に過度に制限される可能性が示唆された。 この問題に対処するため,より制約のある評価対象ポリシを用いたテスト時間推定のためのMCEP(Mildly Constrained Evaluation Policy)を提案する。 MCEPは,様々なアプローチでターゲットポリシーが採用されているため,プラグインとしてシームレスに統合することができる。 TD3-BC (Fujimoto and Gu, 2021) と AWAC (Nair et al., 2020) のアルゴリズムに基づいて MCEP をインスタンス化する。 MuJoCoのロコモーションタスクの実証結果は、MCEPがターゲットポリシーを著しく上回り、最先端のオフラインRL手法と競合する結果が得られることを示している。 コードはhttps://github.com/egg-west/MCEP.gitで公開されている。

Offline reinforcement learning (RL) methodologies enforce constraints on the policy to adhere closely to the behavior policy, thereby stabilizing value learning and mitigating the selection of out-of-distribution (OOD) actions during test time. Conventional approaches apply identical constraints for both value learning and test time inference. However, our findings indicate that the constraints suitable for value estimation may in fact be excessively restrictive for action selection during test time. To address this issue, we propose a Mildly Constrained Evaluation Policy (MCEP) for test time inference with a more constrained target policy for value estimation. Since the target policy has been adopted in various prior approaches, MCEP can be seamlessly integrated with them as a plug-in. We instantiate MCEP based on TD3-BC [Fujimoto and Gu, 2021] and AWAC [Nair et al., 2020] algorithms. The empirical results on MuJoCo locomotion tasks show that the MCEP significantly outperforms the target policy and achieves competitive results to state-of-the-art offline RL methods. The codes are open-sourced at https://github.com/egg-west/MCEP.git.
翻訳日:2023-06-07 15:14:55 公開日:2023-06-06
# 人間の知覚できない、機械認識可能な画像

Human-imperceptible, Machine-recognizable Images ( http://arxiv.org/abs/2306.03679v1 )

ライセンス: Link先を確認
Fusheng Hao, Fengxiang He, Yikai Wang, Fuxiang Wu, Jing Zhang, Jun Cheng, Dacheng Tao(参考訳) コンピュータービジョンタスクのためのニューラルネットワークをトレーニングするために、大量の人間関連データが収集される。 より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。 この矛盾を解消するために,本論文では,(1)等サイズのパッチの集合へのランダムシャッフルと(2)画像の混合部分パッチの2つの暗号戦略の1つを介して,画像が最初に「人間非知覚的,機械認識可能」に暗号化される,効率的なプライバシー保護学習パラダイムを提案する。 次に、視覚トランスフォーマーに最小限の適応を施し、画像分類や物体検出を含む視覚タスクの暗号化画像について学習できるようにする。 ImageNet と COCO の大規模な実験により,提案手法は競合手法と同等の精度を達成できることが示された。 暗号化された画像の復号にはNPハードのジグソーパズルや不適切な逆問題の解法が必要となる。 したがって,提案手法は,機械認識可能な情報を維持しつつ,暗号化画像が人間に受け入れられるようになることを保証できることを示す。 コードは \url{https://github.com/fushenghao/privacypreservingmlで入手できる。 }

Massive human-related data is collected to train neural networks for computer vision tasks. A major conflict is exposed relating to software engineers between better developing AI systems and distancing from the sensitive training data. To reconcile this conflict, this paper proposes an efficient privacy-preserving learning paradigm, where images are first encrypted to become ``human-imperceptible, machine-recognizable'' via one of the two encryption strategies: (1) random shuffling to a set of equally-sized patches and (2) mixing-up sub-patches of the images. Then, minimal adaptations are made to vision transformer to enable it to learn on the encrypted images for vision tasks, including image classification and object detection. Extensive experiments on ImageNet and COCO show that the proposed paradigm achieves comparable accuracy with the competitive methods. Decrypting the encrypted images requires solving an NP-hard jigsaw puzzle or an ill-posed inverse problem, which is empirically shown intractable to be recovered by various attackers, including the powerful vision transformer-based attacker. We thus show that the proposed paradigm can ensure the encrypted images have become human-imperceptible while preserving machine-recognizable information. The code is available at \url{https://github.com/FushengHao/PrivacyPreservingML.}
翻訳日:2023-06-07 15:14:32 公開日:2023-06-06
# 幾何学的軌道補正によるユニバーサルロバスト幾何量子制御

Universal Robust Geometric Quantum Control via Geometric Trajectory Correction ( http://arxiv.org/abs/2306.03732v1 )

ライセンス: Link先を確認
Tao Chen, Jia-Qi Hu, Chengxian Zhang, and Zheng-Yuan Xue(参考訳) 普遍ロバスト量子制御は、複雑な量子アルゴリズムと効率的な量子誤り訂正プロトコルを実行するために必須である。 固有フォールトトレラント特徴を持つ鍵要素としての幾何学的位相は、制御の堅牢性を高めるために量子制御プロセスに十分に統合することができる。 しかし、現在の幾何学的量子制御はロバスト普遍性においていまだ議論の余地があり、任意のタイプの幾何学的ゲートのロバスト性が十分に向上できないような不十分な結果をもたらす。 本研究では, 幾何進化軌道の有限選択が, 体系的誤差に深刻な影響を受けない軌道セグメントを任意に回避できないため, 従来の幾何学的スキームの制御ロバスト性を制約する主要な根の1つであることを明らかにした。 そこで本研究では,幾何学的軌道修正に基づく普遍的ロバスト幾何制御のための新しいスキームを提案する。 数値シミュレーションの結果から,補正幾何軌道を用いて実装した任意の幾何学ゲートは,従来の量子ゲートよりも絶対的ロバスト性が優れていることがわかった。 また、超伝導量子回路における高忠実度物理実装の実現可能性を検証するとともに、本手法に基づく潜在的な研究を詳細に検討した。 したがって,本研究は,既存の実験プラットフォームにおいて,実用的なフォールトトレラント量子計算を実現するための魅力的な手段となることが期待される。

Universal robust quantum control is essential for performing complex quantum algorithms and efficient quantum error correction protocols. Geometric phase, as a key element with intrinsic fault-tolerant feature, can be well integrated into quantum control processes to enhance control robustness. However, the current geometric quantum control is still controversial in robust universality, which leads to the unsatisfactory result that cannot sufficiently enhance the robustness of arbitrary type of geometric gate. In this study, we find that the finite choice on geometric evolution trajectory is one of the main roots that constrain the control robustness of previous geometric schemes, as it is unable to optionally avoid some trajectory segments that are seriously affected by systematic errors. In view of this, we here propose a new scheme for universal robust geometric control based on geometric trajectory correction, where enough available evolution parameters are introduced to ensure that the effective correction against systematic errors can be executed. From the results of our numerical simulation, arbitrary type of geometric gate implemented by using the corrected geometric trajectory has absolute robustness advantages over conventional quantum one. In addition, we also verify the feasibility of the high-fidelity physical implementation of our scheme in superconducting quantum circuit, and finally discuss in detail the potential researches based on our scheme. Therefore, our theoretical work is expected to offer an attractive avenue for realizing practical fault-tolerant quantum computation in existing experimental platforms.
翻訳日:2023-06-07 15:06:10 公開日:2023-06-06
# マルチモーダル自己蒸留による医用画像セグメンテーションのモダリティ非依存学習

Modality-Agnostic Learning for Medical Image Segmentation Using Multi-modality Self-distillation ( http://arxiv.org/abs/2306.03730v1 )

ライセンス: Link先を確認
Qisheng He, Nicholas Summerfield, Ming Dong, Carri Glide-Hurst(参考訳) リスクのある腫瘍や臓器の医用画像分割は、マルチモダリティイメージング(例えば、異なる買収、データタイプ、シーケンス)を使用して、セグメンテーションの精度を高めるために、診療所において時間を要するが重要なプロセスである。 本稿では,マルチモダリティ・セルフディスト・イレレーション(mag-ms)によるモダリティ非依存学習という新しい枠組みを提案し,入力モダリティが医用画像のセグメンテーションに与える影響について検討する。 MAG-MSは複数のモーダルの融合から知識を蒸留し、個々のモーダルに対する表現学習を強化する。 したがって、テスト中に限られたモダリティを扱うための汎用的で効率的なアプローチを提供する。 ベンチマークデータセットに関する広範囲な実験により,mag-msの高効率性と,現在の最先端手法よりも優れたセグメンテーション性能を示す。 さらに,mag-msを用いて医用画像分割タスクの入力モダリティ選択に関する洞察とガイダンスを提供する。

Medical image segmentation of tumors and organs at risk is a time-consuming yet critical process in the clinic that utilizes multi-modality imaging (e.g, different acquisitions, data types, and sequences) to increase segmentation precision. In this paper, we propose a novel framework, Modality-Agnostic learning through Multi-modality Self-dist-illation (MAG-MS), to investigate the impact of input modalities on medical image segmentation. MAG-MS distills knowledge from the fusion of multiple modalities and applies it to enhance representation learning for individual modalities. Thus, it provides a versatile and efficient approach to handle limited modalities during testing. Our extensive experiments on benchmark datasets demonstrate the high efficiency of MAG-MS and its superior segmentation performance than current state-of-the-art methods. Furthermore, using MAG-MS, we provide valuable insight and guidance on selecting input modalities for medical image segmentation tasks.
翻訳日:2023-06-07 15:05:45 公開日:2023-06-06
# 物理シーンの視覚基礎モデルに向けて

Towards Visual Foundational Models of Physical Scenes ( http://arxiv.org/abs/2306.03727v1 )

ライセンス: Link先を確認
Chethan Parameshwara, Alessandro Achille, Matthew Trager, Xiaolong Li, Jiawei Mo, Matthew Trager, Ashwin Swaminathan, CJ Taylor, Dheera Venkatraman, Xiaohan Fei, Stefano Soatto(参考訳) 本稿では,イメージ予測のみをトレーニング基準として,物理シーンの汎用的な視覚表現を学習するための第一歩について述べる。 そのために、まず「物理的シーン」を定義し、異なるエージェントが同じシーンの異なる表現を保持しても、推論できる物理的なシーンはユニークであることを示す。 そして,外挿機構が欠如しているため,NeRFは物理シーンを表現できないことを示す。 しかし、これらは少なくとも理論上は拡散モデルによって提供される。 この仮説を実証的に検証するために、NeRFは、物理シーンの教師なし表現として使われるプロセスである拡散モデルと組み合わせることができる。 我々の分析は視覚データに限られており、外部の接地機構は独立の感覚モーダルによって提供されない。

We describe a first step towards learning general-purpose visual representations of physical scenes using only image prediction as a training criterion. To do so, we first define "physical scene" and show that, even though different agents may maintain different representations of the same scene, the underlying physical scene that can be inferred is unique. Then, we show that NeRFs cannot represent the physical scene, as they lack extrapolation mechanisms. Those, however, could be provided by Diffusion Models, at least in theory. To test this hypothesis empirically, NeRFs can be combined with Diffusion Models, a process we refer to as NeRF Diffusion, used as unsupervised representations of the physical scene. Our analysis is limited to visual data, without external grounding mechanisms that can be provided by independent sensory modalities.
翻訳日:2023-06-07 15:05:26 公開日:2023-06-06
# 累積中毒発見のためのモデルダイナミクスの探求

Exploring Model Dynamics for Accumulative Poisoning Discovery ( http://arxiv.org/abs/2306.03726v1 )

ライセンス: Link先を確認
Jianing Zhu, Xiawei Guo, Jiangchao Yao, Chao Du, Li He, Shuo Yuan, Tongliang Liu, Liang Wang, Bo Han(参考訳) 敵対的な毒殺攻撃は、さまざまな機械学習アプリケーションに大きな脅威をもたらす。 特に,近年の累積毒殺事件では,一連の非受容的攻撃と引き金のバッチによって,モデルに対する不可分な害を達成できることが示されている。 リアルタイムデータストリーミングにおけるデータレベルの差が限られているため、現在の防御方法は毒とクリーンサンプルの扱いにおいて無差別である。 本稿では,モデル力学の視点を掘り下げて,モデルレベルの情報を通して防衛を探索するための新しい情報測度,すなわち記憶の不一致を提案する。 データ操作の変更をモデル出力のそれへ暗黙的に転送することで、記憶力の不一致は、クリーンなサンプルと異なるダイナミクスに基づいて、不可避な毒のサンプルを発見できる。 我々は,その特性を徹底的に調査し,累積的中毒攻撃から防御するために,dsc(disrepancy-aware sample correction)を提案する。 記憶の相違を包括的に特徴付け、その効果を検証した。 コードは、https://github.com/tmlr-group/Memorization-Discrepancy.comで公開されている。

Adversarial poisoning attacks pose huge threats to various machine learning applications. Especially, the recent accumulative poisoning attacks show that it is possible to achieve irreparable harm on models via a sequence of imperceptible attacks followed by a trigger batch. Due to the limited data-level discrepancy in real-time data streaming, current defensive methods are indiscriminate in handling the poison and clean samples. In this paper, we dive into the perspective of model dynamics and propose a novel information measure, namely, Memorization Discrepancy, to explore the defense via the model-level information. By implicitly transferring the changes in the data manipulation to that in the model outputs, Memorization Discrepancy can discover the imperceptible poison samples based on their distinct dynamics from the clean samples. We thoroughly explore its properties and propose Discrepancy-aware Sample Correction (DSC) to defend against accumulative poisoning attacks. Extensive experiments comprehensively characterized Memorization Discrepancy and verified its effectiveness. The code is publicly available at: https://github.com/tmlr-group/Memorization-Discrepancy.
翻訳日:2023-06-07 15:05:14 公開日:2023-06-06
# 極大出力空間のメモリ効率向上に向けて -単一コモディティGPUを用いた500kラベルの学習-

Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU ( http://arxiv.org/abs/2306.03725v1 )

ライセンス: Link先を確認
Erik Schultheis, Rohit Babbar(参考訳) 大きな出力空間(数百万のラベルまで)を持つ分類問題では、最後の層は膨大なメモリを必要とする。 スパース接続を使用することでメモリ要件が大幅に削減されるが、以下に示すように、モデル予測性能が大幅に低下する可能性がある。 幸いなことに、中間サイズのペナルティメート層を導入することで、これを緩和できることがわかった。 さらに、各出力ニューロンが全く同じ数の入ってくる接続数を持つという意味で、スパース層の接続性を均一に制限できることを実証する。 これにより、スパース行列乗算の効率的な実装とGPUハードウェアへの接続再配布が可能になる。 カスタムCUDAの実装により、提案手法は4GBのメモリしか持たない単一のコモディティGPU上で670,000ラベルのデータセットにスケール可能であることを示す。

In classification problems with large output spaces (up to millions of labels), the last layer can require an enormous amount of memory. Using sparse connectivity would drastically reduce the memory requirements, but as we show below, it can result in much diminished predictive performance of the model. Fortunately, we found that this can be mitigated by introducing a penultimate layer of intermediate size. We further demonstrate that one can constrain the connectivity of the sparse layer to be uniform, in the sense that each output neuron will have the exact same number of incoming connections. This allows for efficient implementations of sparse matrix multiplication and connection redistribution on GPU hardware. Via a custom CUDA implementation, we show that the proposed approach can scale to datasets with 670,000 labels on a single commodity GPU with only 4GB memory.
翻訳日:2023-06-07 15:04:55 公開日:2023-06-06
# 財務数値ラベリング - XBRLタグのデータセットとベンチマーク

Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging ( http://arxiv.org/abs/2306.03723v1 )

ライセンス: Link先を確認
Soumya Sharma, Subhendu Khatuya, Manjunath Hegde, Afreen Shaikh. Koustuv Dasgupta, Pawan Goyal, Niloy Ganguly(参考訳) アメリカ合衆国証券取引委員会(sec)は、すべての公的企業に対し、特定のラベルに付記された数字を含む定期的な財務諸表を分類から提出するよう義務付けている。 本稿では,非常に大きなラベル集合から文中の特定の数字スパンへのラベルの割り当てを自動化するタスクを定式化する。 この課題に向けて、2,794ラベルの注釈付きデータセットであるFinancial Numeric Extreme Labelling (FNXL)をリリースする。 タスクを定式化することでFNXLデータセットのパフォーマンスをベンチマークする。 (a)配列ラベリング問題、及び (b)スパン抽出のパイプラインを極端に分類する。 2つのアプローチは比較可能だが、パイプラインソリューションは、最も頻繁なラベルに対してわずかなエッジを提供する。

The U.S. Securities and Exchange Commission (SEC) mandates all public companies to file periodic financial statements that should contain numerals annotated with a particular label from a taxonomy. In this paper, we formulate the task of automating the assignment of a label to a particular numeral span in a sentence from an extremely large label set. Towards this task, we release a dataset, Financial Numeric Extreme Labelling (FNXL), annotated with 2,794 labels. We benchmark the performance of the FNXL dataset by formulating the task as (a) a sequence labelling problem and (b) a pipeline with span extraction followed by Extreme Classification. Although the two approaches perform comparably, the pipeline solution provides a slight edge for the least frequent labels.
翻訳日:2023-06-07 15:04:42 公開日:2023-06-06
# 限定ラベル付き言語におけるヘイトスピーチ検出における自然言語推論の有効性の評価

Evaluating the Effectiveness of Natural Language Inference for Hate Speech Detection in Languages with Limited Labeled Data ( http://arxiv.org/abs/2306.03722v1 )

ライセンス: Link先を確認
Janis Goldzycher, Moritz Preisig, Chantal Amrhein, Gerold Schneider(参考訳) ヘイトスピーチ検出に関するほとんどの研究は、大量のラベル付きトレーニングデータが利用できる英語に焦点を当てている。 しかし、ヘイトスピーチ検出をより多くの言語に拡張するには、最小限のトレーニングデータを必要とするアプローチが必要である。 本稿では,対象言語で限られたラベル付きデータしか利用できない場合において,ゼロおよび少数ショット設定で良好に動作する自然言語推論(NLI)モデルが,ヘイトスピーチ検出性能に有用かどうかを検証する。 対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。 しかし、英語データにおける中間微調整を提案する以前の研究の有効性は一致しない。 英語のトレーニングデータがテスト領域と一致しない場合のみ、我々のカスタマイズされたNLI形式は英語の中間微調整よりも優れる。 そこで本研究では,ラベル付き学習データを最小限に抑える言語におけるヘイトスピーチ検出のための一連の推奨手法を提案する。

Most research on hate speech detection has focused on English where a sizeable amount of labeled training data is available. However, to expand hate speech detection into more languages, approaches that require minimal training data are needed. In this paper, we test whether natural language inference (NLI) models which perform well in zero- and few-shot settings can benefit hate speech detection performance in scenarios where only a limited amount of labeled data is available in the target language. Our evaluation on five languages demonstrates large performance improvements of NLI fine-tuning over direct fine-tuning in the target language. However, the effectiveness of previous work that proposed intermediate fine-tuning on English data is hard to match. Only in settings where the English training data does not match the test domain, can our customised NLI-formulation outperform intermediate fine-tuning on English. Based on our extensive experiments, we propose a set of recommendations for hate speech detection in languages where minimal labeled training data is available.
翻訳日:2023-06-07 15:04:30 公開日:2023-06-06
# 階層型変分オートエンコーダを用いた感情条件メロディ調和

Emotion-Conditioned Melody Harmonization with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2306.03718v1 )

ライセンス: Link先を確認
Shulei Ji and Xinyu Yang(参考訳) 既存のメロディ調和モデルでは、生成したハーモニーの品質向上に大きな進歩を遂げているが、その多くは音楽の下の感情を無視している。 一方、以前の手法で生成された調和の変動性は不十分である。 これらの問題を解決するために,LSTMを用いた階層的変分自動エンコーダ(LHVAE)を提案する。 特に、LHVAEは、グローバルおよびローカルな音楽特性をモデル化するために、様々なレベル(ピースレベルとバーレベル)の潜伏変数と感情条件を組み込んでいる。 さらに,各ステップに注意に基づくメロディコンテキストベクトルを導入し,メロディとハーモニーの対応をよりよく学習する。 評価実験の結果,提案モデルが他のLSTMモデルより優れていることが示された。 主観的評価により、和音の修正だけが音楽の全体的な感情を変えることはないと結論づけた。 定性的解析は、我々のモデルが可変調和を生成する能力を示す。

Existing melody harmonization models have made great progress in improving the quality of generated harmonies, but most of them ignored the emotions beneath the music. Meanwhile, the variability of harmonies generated by previous methods is insufficient. To solve these problems, we propose a novel LSTM-based Hierarchical Variational Auto-Encoder (LHVAE) to investigate the influence of emotional conditions on melody harmonization, while improving the quality of generated harmonies and capturing the abundant variability of chord progressions. Specifically, LHVAE incorporates latent variables and emotional conditions at different levels (piece- and bar-level) to model the global and local music properties. Additionally, we introduce an attention-based melody context vector at each step to better learn the correspondence between melodies and harmonies. Experimental results of the objective evaluation show that our proposed model outperforms other LSTM-based models. Through subjective evaluation, we conclude that only altering the chords hardly changes the overall emotion of the music. The qualitative analysis demonstrates the ability of our model to generate variable harmonies.
翻訳日:2023-06-07 15:04:13 公開日:2023-06-06
# 抽象と洗練を伴う記述論理

Description Logics with Abstraction and Refinement ( http://arxiv.org/abs/2306.03717v1 )

ライセンス: Link先を確認
Carsten Lutz, Lukas Schulze(参考訳) オントロジは複数の抽象化レベルに関する知識表現を必要とすることが多いが、記述ロジック(DL)はそれをサポートするには不十分である。 本稿では,抽象レベルが第一級市民であり,複数の抽象レベルにまたがる概念や役割の抽象化と洗練のための明示的な演算子を提供するDLの拡張を提案する。 結果として生じるDLの系統の推論は決定可能であり、一見無害ないくつかのバリエーションは決定不可能であることが証明された。 また、論理の正確な複雑さといくつかの関連する断片を指摘します。

Ontologies often require knowledge representation on multiple levels of abstraction, but description logics (DLs) are not well-equipped for supporting this. We propose an extension of DLs in which abstraction levels are first-class citizens and which provides explicit operators for the abstraction and refinement of concepts and roles across multiple abstraction levels, based on conjunctive queries. We prove that reasoning in the resulting family of DLs is decidable while several seemingly harmless variations turn out to be undecidable. We also pinpoint the precise complexity of our logics and several relevant fragments.
翻訳日:2023-06-07 15:03:53 公開日:2023-06-06
# unleashing mask: 内在的な分散検出機能を探求する

Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection Capability ( http://arxiv.org/abs/2306.03715v1 )

ライセンス: Link先を確認
Jianing Zhu, Hengzhuang Li, Jiangchao Yao, Tongliang Liu, Jianliang Xu, Bo Han(参考訳) Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。 以前のパラダイムは、より良いスコアリング関数を探索するか、またはOOD検出能力を備えたモデルにアウトリーチの知識を利用する。 しかし、そのモデル固有のOOD検出能力に注意を払っているものはほとんどない。 本研究は一般的に,OOD検出性能が最終段階よりも高い分布(ID)データに基づいて訓練されたモデルの中間段階の存在を発見し,さらに非定型サンプルを用いて学習する重要なデータレベルの属性を同定する。 このような知見に基づいて,IDデータを用いたよく訓練されたモデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。 本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。 本手法の有効性を示す実験と分析を行った。 コードはhttps://github.com/tmlr-group/unleashing-maskで入手できる。

Out-of-distribution (OOD) detection is an indispensable aspect of secure AI when deploying machine learning models in real-world applications. Previous paradigms either explore better scoring functions or utilize the knowledge of outliers to equip the models with the ability of OOD detection. However, few of them pay attention to the intrinsic OOD detection capability of the given model. In this work, we generally discover the existence of an intermediate stage of a model trained on in-distribution (ID) data having higher OOD detection performance than that of its final stage across different settings, and further identify one critical data-level attribution to be learning with the atypical samples. Based on such insights, we propose a novel method, Unleashing Mask, which aims to restore the OOD discriminative capabilities of the well-trained model with ID data. Our method utilizes a mask to figure out the memorized atypical samples, and then finetune the model or prune it with the introduced mask to forget them. Extensive experiments and analysis demonstrate the effectiveness of our method. The code is available at: https://github.com/tmlr-group/Unleashing-Mask.
翻訳日:2023-06-07 15:03:44 公開日:2023-06-06
# 任意耐故障グラフ状態コンパイル用基板スケジューリング器

A Substrate Scheduler for Compiling Arbitrary Fault-tolerant Graph States ( http://arxiv.org/abs/2306.03758v1 )

ライセンス: Link先を確認
Sitong Liu, Naphan Benchasattabuse, Darcy QC Morgan, Michal Hajdu\v{s}ek, Simon J. Devitt and Rodney Van Meter(参考訳) グラフ状態は量子コンピューティング、特に測定に基づく量子計算モデルにおいて有用な計算資源である。 しかし、フォールトトレラントなサーフェスコード実行のために任意のグラフ状態を実行可能な形式にコンパイルし、コンパイルコストと実行時のリソースコストを正確に推定することは未解決の問題である。 我々は,フォールトトレラントグラフ状態コンパイル用に設計されたコンパイラモジュールである基板スケジューラを紹介する。 基板スケジューラは、グラフ状態を生成する時空間ボリュームコストを最小化することを目的としている。 基板スケジューラは"a game of surface codes"形式のパッチベースサーフェスコードシステムにおいて,数千の頂点を持つグラフ状態を効率的にコンパイルできることを示す。 以上の結果から,我々のモジュールは今までで最低実行時間でグラフ状態を生成し,頂点数において線形以下であるグラフ状態生成時間複雑性を実現し,一定の生成時間複雑性を持つグラフの種類を示す。 さらに、幅広い後古典的量子コンピューティングアプリケーションに対応するのに必要な数百万から数十億という、より多くの頂点を処理するコンパイラを開発するための確かな基盤を提供する。

Graph states are useful computational resources in quantum computing, particularly in measurement-based quantum computing models. However, compiling arbitrary graph states into executable form for fault-tolerant surface code execution and accurately estimating the compilation cost and the run-time resource cost remains an open problem. We introduce the Substrate Scheduler, a compiler module designed for fault-tolerant graph state compilation. The Substrate Scheduler aims to minimize the space-time volume cost of generating graph states. We show that Substrate Scheduler can efficiently compile graph states with thousands of vertices for "A Game of Surface Codes"-style patch-based surface code systems. Our results show that our module generates graph states with the lowest execution time complexity to date, achieving graph state generation time complexity that is at or below linear in the number of vertices and demonstrating specific types of graphs to have constant generation time complexity. Moreover, it provides a solid foundation for developing compilers that can handle a larger number of vertices, up to the millions or billions needed to accommodate a wide range of post-classical quantum computing applications.
翻訳日:2023-06-07 14:58:20 公開日:2023-06-06
# ロボット設計が学習と神経制御に及ぼす影響を探る

Exploring the effects of robotic design on learning and neural control ( http://arxiv.org/abs/2306.03757v1 )

ライセンス: Link先を確認
Joshua Paul Powers(参考訳) 進行中のディープラーニング革命により、コンピュータは様々なゲームで人間を上回ることができ、分類タスク中に人間に知覚できない特徴を認識できるようになった。 現在の機械学習技術は、専門的なタスクで明確に区別されている。 しかし、専門家レベルで複数のタスクを実行できるロボットはまだ見ていません。 この分野でのほとんどの作業は、ロボットの制御器のためのより洗練された学習アルゴリズムの開発に焦点を当てている。 ニューラルコントローラではなく、ロボットボディの開発に焦点を当てることで、ニューラルネットワークがマルチタスク設定で遭遇する現在の落とし穴の多くを克服できるように、ロボットを設計できることがわかりました。 この発見を通じて,ロボット設計の学習能力と,破壊的干渉などの共通問題に対する抵抗を明示的に測定する新しい指標を提案する。 伝統的に、物理的ロボットの設計では、人間のエンジニアはシステムのあらゆる側面を計画する必要がある。 対照的に、進化ロボティクスの分野において、進化的アルゴリズムは最適化された設計を自動生成するために使用されるが、そのような設計はしばしばマルチタスク環境で実行する能力に制限される。 ここで作成され、提示されたメトリクスは、進化したロボットがコントローラと相乗し、破滅的な干渉を克服しながら学習の計算効率を向上する、自動化設計への新たな道筋を提供する。 全体として、この論文は、現在のロボットよりも汎用的なロボットを自動設計し、計算を少なくしながら様々なタスクを実行できることを前提としている。

The ongoing deep learning revolution has allowed computers to outclass humans in various games and perceive features imperceptible to humans during classification tasks. Current machine learning techniques have clearly distinguished themselves in specialized tasks. However, we have yet to see robots capable of performing multiple tasks at an expert level. Most work in this field is focused on the development of more sophisticated learning algorithms for a robot's controller given a largely static and presupposed robotic design. By focusing on the development of robotic bodies, rather than neural controllers, I have discovered that robots can be designed such that they overcome many of the current pitfalls encountered by neural controllers in multitask settings. Through this discovery, I also present novel metrics to explicitly measure the learning ability of a robotic design and its resistance to common problems such as catastrophic interference. Traditionally, the physical robot design requires human engineers to plan every aspect of the system, which is expensive and often relies on human intuition. In contrast, within the field of evolutionary robotics, evolutionary algorithms are used to automatically create optimized designs, however, such designs are often still limited in their ability to perform in a multitask setting. The metrics created and presented here give a novel path to automated design that allow evolved robots to synergize with their controller to improve the computational efficiency of their learning while overcoming catastrophic interference. Overall, this dissertation intimates the ability to automatically design robots that are more general purpose than current robots and that can perform various tasks while requiring less computation.
翻訳日:2023-06-07 14:58:04 公開日:2023-06-06
# 新しく形成された都市:AIキュレーション

Newly Formed Cities: an AI Curation ( http://arxiv.org/abs/2306.03753v1 )

ライセンス: Link先を確認
Dario Negueruela del Castillo, Ludovica Schaerf, Pepe Ballesteros, Iacopo Neri, Valentine Bernasconi(参考訳) 美術カリキュラムのプロセスは、知識のある方法で芸術作品のコレクションを提示することによって特徴づけられる。 マシンプロセスは、大量のデータを管理し分析する能力によって特徴づけられる。 本稿では,現代AIモデルがカリキュラム世界に与える影響を探求する手段として,マシンキュレーションとオーディエンスインタラクションを論じる。 このプロジェクトは、2023年のヘルシンキ美術二年祭(New Directions May Emerge)のために開発された。 我々はヘルシンキ美術館(HAM)のコレクションを使って、機械認識のレンズを通してヘルシンキ市を再想像する。 市内の屋外公共空間に現在展示されているアートワークを、視覚的なテキストモデルで配置し、類似度スコアに基づいて架空の座標を割り当てる。 合成360{\deg}アートパノラマは拡散モデルを用いて生成され、アートワークによってガイドされる機械的視覚スタイルを提案する。 このプロジェクトの結果は、事実上ウェブベースのインストレーションとして提示され、そのような再コンテキスト化によって、その芸術遺産を探索しながら、都市の代替バージョンのナビゲーションが可能になる。 最後に、機械のキュレーションへの我々の貢献と、そのようなプロセスが伴う倫理的影響について論じる。 webベースのインストールはこのリンクで利用可能である。

Art curatorial processes are characterized by the presentation of a collection of artworks in a knowledgeable way. Machine processes are characterized by their capacity to manage and analyze large amounts of data. This paper envisages machine curation and audience interaction as a means to explore the implications of contemporary AI models for the curatorial world. This project was developed for the occasion of the 2023 Helsinki Art Biennial, entitled New Directions May Emerge. We use the Helsinki Art Museum (HAM) collection to re-imagine the city of Helsinki through the lens of machine perception. We use visual-textual models to place artworks currently hosted inside the museum in outdoor public spaces of the city, assigning fictional coordinates based on similarity scores. Synthetic 360{\deg} art panoramas are generated using diffusion-based models to propose a machinic visual style guided by the artworks. The result of this project will be virtually presented as a web-based installation, where such a re-contextualization allows the navigation of an alternative version of the city while exploring its artistic heritage. Finally, we discuss our contributions to machine curation and the ethical implications that such a process entails. The web-based installation is available at this link: http://newlyformedcity.com/.
翻訳日:2023-06-07 14:57:39 公開日:2023-06-06
# 全フォトニック量子リピータのアーキテクチャとプロトコル

Architecture and protocols for all-photonic quantum repeaters ( http://arxiv.org/abs/2306.03748v1 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Michal Hajdu\v{s}ek, Rodney Van Meter(参考訳) リピータグラフ状態(rgs)と呼ばれるグラフ状態に基づく全光子リピータスキームは、光子損失に対する耐性と運用エラーを保証し、rgs生成時間(強制されたラウンドトリップ待機時間ではなく)によってのみ制限される高速ベル対生成率を提供する。 このトピックに関する以前の研究は、rsgの生成と秘密鍵共有率の分析に焦点を当てているが、汎用量子インターネットで使用される分散計算やテレポーテーションといったユースケースに拡張する必要がある。 本稿では,終端ノードが接続にどのように関与するか,各ノードの能力と責務,ノード間の古典的通信,および終端ベル対当たりのPauliフレーム補正情報について検討するプロトコルとアーキテクチャを提案する。 グラフ状態操作ルールにより,プロトコルの正確性に関するグラフィカルな推論を行う。 次に、RGSスキームは、秘密共有を超えたアプリケーションのためのメモリベースのリピータとエンドノードを接続するリンクアーキテクチャでの使用に適していることを示す。 最後に,提案プロトコルを量子ネットワークシミュレータ上で実装することの実用性と,既存の量子ネットワークアーキテクチャにどのように統合できるかについて議論する。

An all-photonic repeater scheme based on a type of graph state called a repeater graph state (RGS) promises tolerance to photon losses as well as operational errors, and offers a fast Bell pair generation rate, limited only by the RGS creation time (rather than enforced round-trip waits). Prior research on the topic has focused on the RGS generation and analyzing the secret key sharing rate, but there is a need to extend to use cases such as distributed computation or teleportation as will be used in a general-purpose Quantum Internet. Here, we propose a protocol and architecture that consider how end nodes participate in the connection; the capabilities and responsibilities of each node; the classical communications between nodes; and the Pauli frame correction information per end-to-end Bell pair. We give graphical reasoning on the correctness of the protocol via graph state manipulation rules. We then show that the RGS scheme is well suited to use in a link architecture connecting memory-based repeaters and end nodes for applications beyond secret sharing. Finally, we discuss the practicality of implementing our proposed protocol on quantum network simulators and how it can be integrated into an existing proposed quantum network architecture.
翻訳日:2023-06-07 14:57:20 公開日:2023-06-06
# 幾何・材料のスケーラブル多視点再構成に向けて

Towards Scalable Multi-View Reconstruction of Geometry and Materials ( http://arxiv.org/abs/2306.03747v1 )

ライセンス: Link先を確認
Carolin Schmitt and Bo\v{z}idar Anti\'c and Andrei Neculai and Joo Ho Lee and Andreas Geiger(参考訳) 本稿では,カメラのポーズ,物体形状,空間変動する立体反射率分布関数(svbrdf)を,物体規模を超え,静止光ステージでは撮影できない3次元シーンで統合的に復元する方法を提案する。 入力は高解像度のRGB-D画像であり、アクティブ照明用の点灯付き携帯型手持ちキャプチャシステムによってキャプチャされる。 ハンドヘルドスキャナーから幾何学と材料を共同で推定する以前の研究と比較し, 既成勾配解法を用いて最小化できる単一目的関数を用いてこの問題を定式化する。 多数の観測ビューや最適化変数へのスケーラビリティ向上を目的として,2.5D鍵フレームに基づくシーン表現を再構成する分散最適化アルゴリズムを提案する。 新しいマルチビュー一貫性調整器は、局所最適化結果がグローバルに一貫性のある3dモデルへのシームレスな統合を可能にするように、隣り合うキーフレームを効果的に同期する。 定式化における各成分の重要性について検討し,本手法がベースラインと良好に比較できることを示す。 さらに, 様々な物体や材料を正確に再構成し, 空間的に大きなシーンにまで拡張できることを実証する。 この研究は、ハンドヘルドスキャナーから幾何学的および物質的推定をスケーラブルにするための重要なステップであると考えている。

In this paper, we propose a novel method for joint recovery of camera pose, object geometry and spatially-varying Bidirectional Reflectance Distribution Function (svBRDF) of 3D scenes that exceed object-scale and hence cannot be captured with stationary light stages. The input are high-resolution RGB-D images captured by a mobile, hand-held capture system with point lights for active illumination. Compared to previous works that jointly estimate geometry and materials from a hand-held scanner, we formulate this problem using a single objective function that can be minimized using off-the-shelf gradient-based solvers. To facilitate scalability to large numbers of observation views and optimization variables, we introduce a distributed optimization algorithm that reconstructs 2.5D keyframe-based representations of the scene. A novel multi-view consistency regularizer effectively synchronizes neighboring keyframes such that the local optimization results allow for seamless integration into a globally consistent 3D model. We provide a study on the importance of each component in our formulation and show that our method compares favorably to baselines. We further demonstrate that our method accurately reconstructs various objects and materials and allows for expansion to spatially larger scenes. We believe that this work represents a significant step towards making geometry and material estimation from hand-held scanners scalable.
翻訳日:2023-06-07 14:56:58 公開日:2023-06-06
# 適応ルーティングによるエキスパートのソフトマージ

Soft Merging of Experts with Adaptive Routing ( http://arxiv.org/abs/2306.03745v1 )

ライセンス: Link先を確認
Mohammed Muqeeth, Haokun Liu, Colin Raffel(参考訳) 条件付き計算を伴うスパースに活性化されたニューラルネットワークは、入力を異なる「熟練した」サブネットワークにルーティングし、密に活性化されたモデルに欠けているモジュラリティの形式を提供する。 そのメリットはあるものの、学習されたルーティングを持つモデルは、パラメータにマッチする密に活性化されたモデルや、非学習型のヒューリスティックなルーティング戦略を使用するモデルを過小評価することが多い。 本稿では、これらの欠点は、微分不可能な離散的ルーティング決定を用いた疎活性化モデルの訓練に使用される勾配推定手法に由来すると仮定する。 この問題に対処するために,専門家のパラメータの重み付け平均を用いて構築された単一の"マージ"エキスパートを使用することで,個別のルーティングを回避するためのSMEAR(Soft Merging of Experts with Adaptive Routing)を導入する。 単一のマージされた専門家を通してアクティベーションをルーティングすることで、SMEARは計算コストを大幅に増加させず、標準勾配ベースのトレーニングを可能にする。 我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。 さらに,スメアで学んだ専門家が相当量の専門化を示す質的分析を行った。 私たちの実験で使われたコードはすべて公開されています。

Sparsely activated neural networks with conditional computation learn to route their inputs through different "expert" subnetworks, providing a form of modularity that densely activated models lack. Despite their possible benefits, models with learned routing often underperform their parameter-matched densely activated counterparts as well as models that use non-learned heuristic routing strategies. In this paper, we hypothesize that these shortcomings stem from the gradient estimation techniques used to train sparsely activated models that use non-differentiable discrete routing decisions. To address this issue, we introduce Soft Merging of Experts with Adaptive Routing (SMEAR), which avoids discrete routing by using a single "merged" expert constructed via a weighted average of all of the experts' parameters. By routing activations through a single merged expert, SMEAR does not incur a significant increase in computational costs and enables standard gradient-based training. We empirically validate that models using SMEAR outperform models that route based on metadata or learn sparse routing through gradient estimation. Furthermore, we provide qualitative analysis demonstrating that the experts learned via SMEAR exhibit a significant amount of specialization. All of the code used in our experiments is publicly available.
翻訳日:2023-06-07 14:56:34 公開日:2023-06-06
# 実行中の学習と学習--オンライン連続チューニングのための強化学習とベイズ最適化

Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning ( http://arxiv.org/abs/2306.03739v1 )

ライセンス: Link先を確認
Jan Kaiser, Chenran Xu, Annika Eichler, Andrea Santamaria Garcia, Oliver Stein, Erik Br\"undermann, Willi Kuropka, Hannes Dinter, Frank Mayet, Thomas Vinatier, Florian Burkart, Holger Schlarb(参考訳) 実世界の植物のオンラインチューニングは複雑な最適化問題であり、経験豊富な人間の操作者が手動で介入する必要がある。 自律的チューニングは、強化学習訓練最適化(RLO)やベイズ最適化(BO)のような学習に基づく手法が、優れた植物性能とチューニング時間の短縮を約束する、急速に普及する研究分野である。 しかし、どのアルゴリズムを異なるシナリオで選ぶかは未解決のままだ。 ここでは、実粒子加速器におけるルーチンタスクを用いた比較研究を行い、RLOがBOより一般的に優れているが、必ずしも最良の選択ではないことを示す。 本研究の結果に基づき,与えられたチューニングタスクに対するアルゴリズムの選択を導くための明確な基準セットを提案する。 これにより、複雑な現実世界のプラントの運用に対する学習に基づく自律的なチューニングソリューションの導入が容易になり、最終的にはこれらの施設の可用性を改善し、運用の限界を押し上げ、科学と工学の進歩を可能にする。

Online tuning of real-world plants is a complex optimisation problem that continues to require manual intervention by experienced human operators. Autonomous tuning is a rapidly expanding field of research, where learning-based methods, such as Reinforcement Learning-trained Optimisation (RLO) and Bayesian optimisation (BO), hold great promise for achieving outstanding plant performance and reducing tuning times. Which algorithm to choose in different scenarios, however, remains an open question. Here we present a comparative study using a routine task in a real particle accelerator as an example, showing that RLO generally outperforms BO, but is not always the best choice. Based on the study's results, we provide a clear set of criteria to guide the choice of algorithm for a given tuning task. These can ease the adoption of learning-based autonomous tuning solutions to the operation of complex real-world plants, ultimately improving the availability and pushing the limits of operability of these facilities, thereby enabling scientific and engineering advancements.
翻訳日:2023-06-07 14:56:13 公開日:2023-06-06
# FinRED:金融分野における関係抽出のためのデータセット

FinRED: A Dataset for Relation Extraction in Financial Domain ( http://arxiv.org/abs/2306.03736v1 )

ライセンス: Link先を確認
Soumya Sharma, Tapas Nayak, Arusarka Bose, Ajay Kumar Meena, Koustuv Dasgupta, Niloy Ganguly, Pawan Goyal(参考訳) ソースドメインでトレーニングされた関係抽出モデルは、関係セット間のミスマッチのため、異なるターゲットドメインに適用できない。 現在の文献では、財務ドメインに特有の広範なオープンソース関係抽出データセットは存在しない。 本稿では、金融ニュースから収集した関係抽出データセットfinredをリリースし、金融ドメインから関係情報を含む通話記録を取得する。 FinRED は Wikidata のトリプルを遠隔監視手法を用いてマッピングすることで作成されている。 テストデータを手動でアノテートして、適切な評価を行ないます。 また、このデータセット上で様々な最先端関係抽出モデルを用いてベンチマークを作成する。 金融関係抽出のためのより良いモデルが必要であることを示す一般的な関係抽出データセットと比較して、FinREDのパフォーマンスは大幅に低下している。

Relation extraction models trained on a source domain cannot be applied on a different target domain due to the mismatch between relation sets. In the current literature, there is no extensive open-source relation extraction dataset specific to the finance domain. In this paper, we release FinRED, a relation extraction dataset curated from financial news and earning call transcripts containing relations from the finance domain. FinRED has been created by mapping Wikidata triplets using distance supervision method. We manually annotate the test data to ensure proper evaluation. We also experiment with various state-of-the-art relation extraction models on this dataset to create the benchmark. We see a significant drop in their performance on FinRED compared to the general relation extraction datasets which tells that we need better models for financial relation extraction.
翻訳日:2023-06-07 14:55:42 公開日:2023-06-06
# 単語順における一様情報密度に対する言語間圧力

A Cross-Linguistic Pressure for Uniform Information Density in Word Order ( http://arxiv.org/abs/2306.03734v1 )

ライセンス: Link先を確認
Thomas Hikaru Clark (1), Clara Meister (2), Tiago Pimentel (3), Michael Hahn (4), Ryan Cotterell (2), Richard Futrell (5), Roger Levy (1) ((1) MIT, (2) ETH Zurich, (3) University of Cambridge, (4) Saarland University, (5) UC Irvine)(参考訳) 自然言語は、標準語順と単語順の柔軟性の両方で大きく異なるが、その単語順は、しばしば機能的な圧力による共有言語間統計パターンに従っている。 これらのプレッシャーを特定するために、先行研究は実際の語順と偽語順を比較した。 しかし、このような調査では、一様情報密度(UID)仮説という1つの機能的圧力が見過ごされている。 ここでは,UIDの圧力が語順パターンに相互言語的に影響を与えているかどうかを問う。 この目的のために、実順序が反実順序よりも情報均一性が高まるかどうかを計算モデルを用いて検証する。 類型的に多様性のある10の言語に関する実証的研究では、 (i)SVO言語では、実語順は逆語順よりも一貫して一様であり、 (ii) 言語的に不可解な反実順序のみが、実際の順序の均一性を超え続ける。 これらの知見は、自然言語の開発と利用における情報の均一性の圧力と互換性がある。

While natural languages differ widely in both canonical word order and word order flexibility, their word orders still follow shared cross-linguistic statistical patterns, often attributed to functional pressures. In the effort to identify these pressures, prior work has compared real and counterfactual word orders. Yet one functional pressure has been overlooked in such investigations: the uniform information density (UID) hypothesis, which holds that information should be spread evenly throughout an utterance. Here, we ask whether a pressure for UID may have influenced word order patterns cross-linguistically. To this end, we use computational models to test whether real orders lead to greater information uniformity than counterfactual orders. In our empirical study of 10 typologically diverse languages, we find that: (i) among SVO languages, real word orders consistently have greater uniformity than reverse word orders, and (ii) only linguistically implausible counterfactual orders consistently exceed the uniformity of real orders. These findings are compatible with a pressure for information uniformity in the development and usage of natural languages.
翻訳日:2023-06-07 14:55:23 公開日:2023-06-06
# Mutli-Headed Attention を用いた脆弱性解析のためのユーザエージェント文字列解析の新しいアプローチ

A Novel Approach To User Agent String Parsing For Vulnerability Analysis Using Mutli-Headed Attention ( http://arxiv.org/abs/2306.03733v1 )

ライセンス: Link先を確認
Dhruv Nandakumar, Sathvik Murli, Ankur Khosla, Kevin Choi, Abdul Rahman, Drew Walsh, Scott Riede, Eric Dull, Edward Bowen(参考訳) インターネットへの依存度が高まるにつれ、Web閲覧が可能な様々なWebブラウザやOS(OS)が急増している。 user agent string (uass) は、すべてのハイパーテキスト転送プロトコル(http)リクエストで送信されるwebブラウジングのコンポーネントである。 それらは、webサーバがコンテンツネゴシエーションやセキュリティなど、さまざまな目的で使用するクライアントデバイスとソフトウェアに関する情報を含んでいる。 しかし、様々なブラウザやデバイスの普及により、UASフォーマットの標準化が欠如しているため、UASを解析するのは簡単な作業ではない。 現在のルールベースのアプローチは、しばしば脆く、そのような標準でないフォーマットに遭遇しても失敗する。 本研究では,複数重み付き注意型変換器を用いたUAS解析手法を提案する。 提案手法は,異なるフォーマットの様々なUASを解析する上で,高い性能を示す。 さらに、解析されたUASを用いて、公開ITネットワークやリージョンの大部分の脆弱性スコアを推定するフレームワークについても論じる。 ここでの方法論は、企業の設定でログをリアルタイムで解析するために、簡単に拡張したり、デプロイしたりできる。

The increasing reliance on the internet has led to the proliferation of a diverse set of web-browsers and operating systems (OSs) capable of browsing the web. User agent strings (UASs) are a component of web browsing that are transmitted with every Hypertext Transfer Protocol (HTTP) request. They contain information about the client device and software, which is used by web servers for various purposes such as content negotiation and security. However, due to the proliferation of various browsers and devices, parsing UASs is a non-trivial task due to a lack of standardization of UAS formats. Current rules-based approaches are often brittle and can fail when encountering such non-standard formats. In this work, a novel methodology for parsing UASs using Multi-Headed Attention Based transformers is proposed. The proposed methodology exhibits strong performance in parsing a variety of UASs with differing formats. Furthermore, a framework to utilize parsed UASs to estimate the vulnerability scores for large sections of publicly visible IT networks or regions is also discussed. The methodology present here can also be easily extended or deployed for real-time parsing of logs in enterprise settings.
翻訳日:2023-06-07 14:54:52 公開日:2023-06-06
# 大規模言語モデルを用いたファウショット推論成功のプロンプト空間最適化

Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models ( http://arxiv.org/abs/2306.03799v1 )

ライセンス: Link先を確認
Fobo Shi, Peijun Qing, Dong Yang, Nan Wang, Youbo Lei, Haonan Lu, Xiaodong Lin(参考訳) プロンプトエンジニアリングは、明示的で具体的な命令を提供することで、大規模言語モデル(LLM)の能力を高めるための重要な技術である。 LLMは算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析など、様々なタスクで優れている。 研究者は、Chain of Thought(CoT)、Zero-CoT、In-context Learningなど、さまざまな迅速なエンジニアリング戦略を積極的に検討している。 しかし、未解決の問題は、現在のアプローチが最適なプロンプトを決定するための確固たる理論的な基礎を欠いているという事実から生じる。 本稿では,この問題を解決するために,Prompt Spaceという新しい効果的手法を提案する。 提案手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。 Prompt Spaceは、10の公開推論ベンチマークで最先端のプロンプトパラダイムを大幅に上回っている。 特に、CoT法と"Let's Think by Step"の助けなしに、Prompt Spaceは、数ショット法よりも優れたパフォーマンスを示している。 全体として、我々のアプローチは単純かつ効果的なプロンプトを選択するための堅牢で基本的な理論的枠組みを提供する。 この進歩は、llmにおける幅広いアプリケーションのプロンプトエンジニアリングを改善するための重要なステップである。

Prompt engineering is an essential technique for enhancing the abilities of large language models (LLMs) by providing explicit and specific instructions. It enables LLMs to excel in various tasks, such as arithmetic reasoning, question answering, summarization, relation extraction, machine translation, and sentiment analysis. Researchers have been actively exploring different prompt engineering strategies, such as Chain of Thought (CoT), Zero-CoT, and In-context learning. However, an unresolved problem arises from the fact that current approaches lack a solid theoretical foundation for determining optimal prompts. To address this issue in prompt engineering, we propose a new and effective approach called Prompt Space. Our methodology utilizes text embeddings to obtain basis vectors by matrix decomposition, and then constructs a space for representing all prompts. Prompt Space significantly outperforms state-of-the-art prompt paradigms on ten public reasoning benchmarks. Notably, without the help of the CoT method and the prompt "Let's think step by step", Prompt Space shows superior performance over the few-shot method. Overall, our approach provides a robust and fundamental theoretical framework for selecting simple and effective prompts. This advancement marks a significant step towards improving prompt engineering for a wide variety of applications in LLMs.
翻訳日:2023-06-07 14:46:21 公開日:2023-06-06
# ai支援による負荷安全評価

AI-Supported Assessment of Load Safety ( http://arxiv.org/abs/2306.03795v1 )

ライセンス: Link先を確認
Julius Sch\"oning and Niklas Kruse(参考訳) 負荷安全評価とコンプライアンスは、すべてのロジスティクスサービスプロバイダのコーポレートプロセスにおいて不可欠なステップです。 2020年には、トラックの警察による検査が11,371回行われ、その間に9.6%(1091)の負荷安全規則違反が検出された。 ロジスティックサービスプロバイダの場合、すべてのロードセーフティ違反は、高い罰金と評判へのダメージをもたらす。 人工知能(ai)が支援する負荷安全性の評価は、安全アセスメント中の安全でない負荷と罰金による事故のリスクを低減させる。 本研究は,荷積み作業の後にトラック運転手やロードマスターが撮影した荷重の写真を用いて,荷の安全性を評価する方法を示したものである。 訓練された2段階の人工知能ニューラルネットワーク(ANN)により、これらの写真は安全にロードされる3つの異なるクラスI、安全にロードされる2、安全ではないロードされる2、使用できないイメージIIIに分類される。 畳み込みニューラルネットワーク(CNN)のいくつかのアーキテクチャを適用することで、貨物の安全評価に使用できない画像と使用可能な画像を区別できることが示される。 トラックの運転手とロードマスターは、トラックのケース構造や貨物全体のような重要な画像機能なしで写真を提供することがあるため、この区別は非常に重要である。 人間のオペレータか他のANNは、第2段階の負荷安全性を評価する。

Load safety assessment and compliance is an essential step in the corporate process of every logistics service provider. In 2020, a total of 11,371 police checks of trucks were carried out, during which 9.6% (1091) violations against the load safety regulations were detected. For a logistic service provider, every load safety violation results in height fines and damage to reputation. An assessment of load safety supported by artificial intelligence (AI) will reduce the risk of accidents by unsecured loads and fines during safety assessments. This work shows how photos of the load, taken by the truck driver or the loadmaster after the loading process, can be used to assess load safety. By a trained two-stage artificial neural network (ANN), these photos are classified into three different classes I) cargo loaded safely, II) cargo loaded unsafely, and III) unusable image. By applying several architectures of convolutional neural networks (CNN), it can be shown that it is possible to distinguish between unusable and usable images for cargo safety assessment. This distinction is quite crucial since the truck driver and the loadmaster sometimes provide photos without the essential image features like the case structure of the truck and the whole cargo. A human operator or another ANN will then assess the load safety within the second stage.
翻訳日:2023-06-07 14:46:00 公開日:2023-06-06
# FAMO: 高速適応型マルチタスク最適化

FAMO: Fast Adaptive Multitask Optimization ( http://arxiv.org/abs/2306.03792v1 )

ライセンス: Link先を確認
Bo Liu, Yihao Feng, Peter Stone, Qiang Liu(参考訳) AIの壮大な持続目標の1つは、マルチタスク学習(MTL)を通じて多様なデータから複数の異なるタスクを学習できる汎用エージェントを作成することである。 しかしながら、全タスクの平均損失に対する勾配降下(GD)は、特定のタスクの過度な過度な最適化により、マルチタスク性能が低下する可能性がある。 よりバランスの取れた損失を減らすためにタスク勾配を操作する従来のアプローチでは、すべてのタスク勾配(O(K)空間とKがタスク数である時間)を保存し、計算する必要がある。 本稿では,O(1)空間と時間を用いたバランスの取れた方法でタスク損失を低減する動的重み付け手法であるFast Adaptive Multitask Optimization (FAMO)を導入する。 マルチタスクの教師付きおよび強化学習問題を網羅する広範な実験を行う。 以上の結果から,famoは最先端の勾配操作技術と同等あるいは優れた性能を達成でき,空間と計算効率も大幅に向上した。 コードはhttps://github.com/Cranial-XIX/FAMOで入手できる。

One of the grand enduring goals of AI is to create generalist agents that can learn multiple different tasks from diverse data via multitask learning (MTL). However, gradient descent (GD) on the average loss across all tasks may yield poor multitask performance due to severe under-optimization of certain tasks. Previous approaches that manipulate task gradients for a more balanced loss decrease require storing and computing all task gradients (O(K) space and time where K is the number of tasks), limiting their use in large-scale scenarios. In this work, we introduce Fast Adaptive Multitask Optimization (FAMO), a dynamic weighting method that decreases task losses in a balanced way using O(1) space and time. We conduct an extensive set of experiments covering multi-task supervised and reinforcement learning problems. Our results indicate that FAMO achieves comparable or superior performance to state-of-the-art gradient manipulation techniques while offering significant improvements in space and computational efficiency. Code is available at https://github.com/Cranial-XIX/FAMO.
翻訳日:2023-06-07 14:45:41 公開日:2023-06-06
# ランダム特徴回帰におけるベイズ不確かさ推定の漸近

Asymptotics of Bayesian Uncertainty Estimation in Random Features Regression ( http://arxiv.org/abs/2306.03783v1 )

ライセンス: Link先を確認
Youngsoo Baek, Samuel I. Berchuck, Sayan Mukherjee(参考訳) 本稿では, 過パラメータ化状態における乱特徴回帰モデルに対して, 後部予測分布の挙動と, 最大後部推定器のリスクとを比較し, 比較する。 我々は,後方予測分布(ベイズモデル平均値)のばらつきに着目し,その漸近性とマップ推定器のリスクの比較を行う。 モデル次元がサンプル数のどの定数倍よりも速く成長する体制では、これらの2つの量間の漸近的一致は信号対雑音比の位相遷移によって制御される。 また、サンプルの数がモデル次元の任意の定数倍よりも速く成長する場合にも漸近的に一致する。 数値シミュレーションは、有限次元における2つの量のより細かい分布特性を示す。 ガウス的揺らぎを持つと推測し、それ以前の著者が独立した理論的な関心を持つガウス列モデルで見出した同様の性質を示す。

In this paper we compare and contrast the behavior of the posterior predictive distribution to the risk of the maximum a posteriori estimator for the random features regression model in the overparameterized regime. We will focus on the variance of the posterior predictive distribution (Bayesian model average) and compare its asymptotics to that of the risk of the MAP estimator. In the regime where the model dimensions grow faster than any constant multiple of the number of samples, asymptotic agreement between these two quantities is governed by the phase transition in the signal-to-noise ratio. They also asymptotically agree with each other when the number of samples grow faster than any constant multiple of model dimensions. Numerical simulations illustrate finer distributional properties of the two quantities for finite dimensions. We conjecture they have Gaussian fluctuations and exhibit similar properties as found by previous authors in a Gaussian sequence model, which is of independent theoretical interest.
翻訳日:2023-06-07 14:45:24 公開日:2023-06-06
# パフォーマンス最適化された深部ニューラルネットワークは、時間外視覚野の悪化モデルに進化している

Performance-optimized deep neural networks are evolving into worse models of inferotemporal visual cortex ( http://arxiv.org/abs/2306.03779v1 )

ライセンス: Link先を確認
Drew Linsley, Ivan F. Rodriguez, Thomas Fel, Michael Arcaro, Saloni Sharma, Margaret Livingstone, Thomas Serre(参考訳) 過去10年間の計算神経科学における最も影響力のある発見の1つは、ディープニューラルネットワーク(DNN)の物体認識精度が、非時間的(IT)大脳皮質の自然画像に対する神経反応を予測する能力と相関していることである。 この発見は、物体認識が視覚野の中核的な目的であるという長年の理論を支持し、より正確なDNNが画像に対するITニューロン反応のモデルとして役立つことを示唆した。 何十億もの画像で訓練された数十億のパラメータスケールのDNNは、オブジェクト認識を含む視覚的タスクにおいて、人間に匹敵したり、上回ったりしている。 今日のDNNは、オブジェクト認識の精度が向上するにつれて、画像に対するITニューロンの反応を予測する精度が向上していますか? 意外なことに、3つの独立した実験では、そうではない。 DNNは、ImageNetの精度が向上するにつれて、ITのモデルが徐々に悪化している。 DNNがなぜこのトレードオフを経験したのかを理解し、視覚システムをモデル化するための適切なパラダイムであるかどうかを評価するために、自然画像によって引き起こされた空間的に解決された神経活動の地図をキャプチャするITの記録に目を向ける。 これらのニューロンのアクティビティマップは、ImageNetで訓練されたDNNが、ITによって符号化されたものとは異なる視覚的特徴に頼ることを学び、精度が上がるにつれてこの問題が悪化することを示している。 私たちは、学習した表現を人間と一致させるDNNのためのプラグアンドプレイトレーニングルーチンであるNeural harmonizerで、この問題をうまく解決しました。 以上の結果から,高調波DNNはイメージネットの精度とニューラル予測の精度のトレードオフを断ち切ることが示唆された。

One of the most impactful findings in computational neuroscience over the past decade is that the object recognition accuracy of deep neural networks (DNNs) correlates with their ability to predict neural responses to natural images in the inferotemporal (IT) cortex. This discovery supported the long-held theory that object recognition is a core objective of the visual cortex, and suggested that more accurate DNNs would serve as better models of IT neuron responses to images. Since then, deep learning has undergone a revolution of scale: billion parameter-scale DNNs trained on billions of images are rivaling or outperforming humans at visual tasks including object recognition. Have today's DNNs become more accurate at predicting IT neuron responses to images as they have grown more accurate at object recognition? Surprisingly, across three independent experiments, we find this is not the case. DNNs have become progressively worse models of IT as their accuracy has increased on ImageNet. To understand why DNNs experience this trade-off and evaluate if they are still an appropriate paradigm for modeling the visual system, we turn to recordings of IT that capture spatially resolved maps of neuronal activity elicited by natural images. These neuronal activity maps reveal that DNNs trained on ImageNet learn to rely on different visual features than those encoded by IT and that this problem worsens as their accuracy increases. We successfully resolved this issue with the neural harmonizer, a plug-and-play training routine for DNNs that aligns their learned representations with humans. Our results suggest that harmonized DNNs break the trade-off between ImageNet accuracy and neural prediction accuracy that assails current DNNs and offer a path to more accurate models of biological vision.
翻訳日:2023-06-07 14:44:47 公開日:2023-06-06
# ランキングフェアネスのためのマッチングペア校正

Matched Pair Calibration for Ranking Fairness ( http://arxiv.org/abs/2306.03775v1 )

ライセンス: Link先を確認
Hannah Korevaar, Chris McConnell, Edmund Tong, Erik Brinkman, Alana Shine, Misam Abbas, Blossom Metevier, Sam Corbett-Davies, Khalid El-Arini(参考訳) マッチングペアキャリブレーションと呼ばれるスコアベースランキングシステムにおける公平性テストを提案する。 本手法は,集合上のランク付け誤差の適切な尺度を計算する前に,部分群間の差異を最小化するマッチングアイテムペアを構成する。 一致ステップにより、評価結果の差がサブグループレベルの露光において直接不公平であることを暗示する。 本手法は,二分分類設定からランク付けまでの校正の公平さ直観を一般化する方法を示し,公平度尺度の他の提案と結びつける。 さらに,提案手法は,分析者がモデルスコアにアクセス可能な場合に,限界結果テストの論理がどのように拡張されるかを示す。 最後に,実単語ランキングデータセットにマッチしたペアキャリブレーションを適用し,ランキングバイアスの検出に有効性を示す例を示す。

We propose a test of fairness in score-based ranking systems called matched pair calibration. Our approach constructs a set of matched item pairs with minimal confounding differences between subgroups before computing an appropriate measure of ranking error over the set. The matching step ensures that we compare subgroup outcomes between identically scored items so that measured performance differences directly imply unfairness in subgroup-level exposures. We show how our approach generalizes the fairness intuitions of calibration from a binary classification setting to ranking and connect our approach to other proposals for ranking fairness measures. Moreover, our strategy shows how the logic of marginal outcome tests extends to cases where the analyst has access to model scores. Lastly, we provide an example of applying matched pair calibration to a real-word ranking data set to demonstrate its efficacy in detecting ranking bias.
翻訳日:2023-06-07 14:44:00 公開日:2023-06-06
# トルコ文字可読性のための言語的特徴の探索

Exploring Linguistic Features for Turkish Text Readability ( http://arxiv.org/abs/2306.03774v1 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) 本稿では,トルコ語テキストの自動可読性評価に関する最初の包括的研究を行う。 我々は,最先端のニューラルネットワークモデルと,語彙的,形態素的,構文的,談話的レベルでの言語的特徴を組み合わせることで,高度な可読性ツールを開発した。 従来の可読性公式の有効性を,現代の自動手法と比較して評価し,トルコ語の可読性を決定する重要な言語的特徴を特定する。

This paper presents the first comprehensive study on automatic readability assessment of Turkish texts. We combine state-of-the-art neural network models with linguistic features at lexical, morphosyntactic, syntactic and discourse levels to develop an advanced readability tool. We evaluate the effectiveness of traditional readability formulas compared to modern automated methods and identify key linguistic features that determine the readability of Turkish texts.
翻訳日:2023-06-07 14:43:46 公開日:2023-06-06
# スペクトル特徴によるガウス過程のグラフ分類

Graph Classification Gaussian Processes via Spectral Features ( http://arxiv.org/abs/2306.03770v1 )

ライセンス: Link先を確認
Felix L. Opolka, Yin-Cong Zhi, Pietro Li\`o, Xiaowen Dong(参考訳) グラフ分類は、その構造とノード属性に基づいてグラフを分類することを目的としている。 本研究では、スペクトル特徴を導出してグラフ信号処理のツールを用いてこの問題に対処し、グラフ分類のためのガウス過程モデルの2つの変種を設計する。 第1の変種は、グラフのスペクトル上のノード特徴信号のエネルギー分布に基づくスペクトル特徴を用いる。 このような単純なアプローチであっても、学習パラメータを持たない場合、強力なニューラルネットワークやグラフカーネルベースラインに比べて、競争力の高いパフォーマンスが得られる。 2つ目は、スペクトルグラフウェーブレットフィルタを学習することで、グラフ内のマルチスケールおよびローカライズされたパターンをキャプチャし、合成および実世界のデータセットの性能を改善することである。 最後に,両モデルとも十分に校正された不確実性推定を行い,モデル予測に基づく信頼性の高い意思決定を可能にすることを示す。

Graph classification aims to categorise graphs based on their structure and node attributes. In this work, we propose to tackle this task using tools from graph signal processing by deriving spectral features, which we then use to design two variants of Gaussian process models for graph classification. The first variant uses spectral features based on the distribution of energy of a node feature signal over the spectrum of the graph. We show that even such a simple approach, having no learned parameters, can yield competitive performance compared to strong neural network and graph kernel baselines. A second, more sophisticated variant is designed to capture multi-scale and localised patterns in the graph by learning spectral graph wavelet filters, obtaining improved performance on synthetic and real-world data sets. Finally, we show that both models produce well calibrated uncertainty estimates, enabling reliable decision making based on the model predictions.
翻訳日:2023-06-07 14:43:37 公開日:2023-06-06
# 安定による連合学習の一般化の理解--異質性問題

Understanding Generalization of Federated Learning via Stability: Heterogeneity Matters ( http://arxiv.org/abs/2306.03824v1 )

ライセンス: Link先を確認
Zhenyu Sun, Xiaochun Niu, Ermin Wei(参考訳) 一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。 良質な一般化は、限られた数のデータの下でトレーニングされた場合、モデルは見当たらないデータを正しく予測できることを示している。 一般的な分散学習フレームワークとして登場したfederated learning(fl)は、複数のデバイスやクライアントが、プライバシ要件に違反することなく、共有モデルをトレーニング可能にする。 既存の文献では、集中型機械学習アルゴリズムの一般化性能が広く研究されているが、フェデレーション設定における類似の分析は欠落するか、損失関数に非常に制限的な仮定を持つかのどちらかである。 本稿では,1つのデータポイントを摂動する場合のアルゴリズムの出力モデルの変化を測定するアルゴリズム安定性を用いて,フェデレーション学習の一般化性能を解析することを目的とする。 凸および非凸損失関数の下で、FedAvg、SCAFFOLD、FedProxを含む3つの広く利用されているアルゴリズムが研究されている。 解析の結果,これら3つのアルゴリズムで学習したモデルの一般化性能は,クライアントのデータセットの多様性やアルゴリズムの収束挙動と密接に関連していることがわかった。 特にi.i.d.設定では,確率勾配降下 (sgd) の古典的結果が復元された。

Generalization performance is a key metric in evaluating machine learning models when applied to real-world applications. Good generalization indicates the model can predict unseen data correctly when trained under a limited number of data. Federated learning (FL), which has emerged as a popular distributed learning framework, allows multiple devices or clients to train a shared model without violating privacy requirements. While the existing literature has studied extensively the generalization performances of centralized machine learning algorithms, similar analysis in the federated settings is either absent or with very restrictive assumptions on the loss functions. In this paper, we aim to analyze the generalization performances of federated learning by means of algorithmic stability, which measures the change of the output model of an algorithm when perturbing one data point. Three widely-used algorithms are studied, including FedAvg, SCAFFOLD, and FedProx, under convex and non-convex loss functions. Our analysis shows that the generalization performances of models trained by these three algorithms are closely related to the heterogeneity of clients' datasets as well as the convergence behaviors of the algorithms. Particularly, in the i.i.d. setting, our results recover the classical results of stochastic gradient descent (SGD).
翻訳日:2023-06-07 14:38:37 公開日:2023-06-06
# LEACE: 閉形式の完全線形概念消去

LEACE: Perfect linear concept erasure in closed form ( http://arxiv.org/abs/2306.03819v1 )

ライセンス: Link先を確認
Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman(参考訳) 概念消去は、特定の特徴を表現から削除することを目的としている。 公平性(例えば、分類器が性別や人種を使用するのを防ぐこと)と解釈可能性(例えば、モデル行動の変化を観察するために概念を削除すること)を改善するために使用できる。 本稿では,すべての線形分類器が概念を検出できないようにし,その表現に最小のダメージを与える閉形式法である最小二乗概念消去法(leace)を提案する。 我々は,ネットワークの各層から対象概念情報を消去する「概念スクラブ」と呼ばれる新しい手法を用いて,大規模言語モデルに適用する。 本稿では,言語モデルの音声情報への依存度の測定と,BERT埋め込みにおける性別バイアスの低減という2つの課題に対して,本手法の有効性を示す。 コードはhttps://github.com/eleutherai/concept-erasureで入手できる。

Concept erasure aims to remove specified features from a representation. It can be used to improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). In this paper, we introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while inflicting the least possible damage to the representation. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate the usefulness of our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.
翻訳日:2023-06-07 14:38:18 公開日:2023-06-06
# 動的カシミール放射による移動鏡のノイズと消散

Noise and dissipation on a moving mirror induced by the dynamical Casimir emission ( http://arxiv.org/abs/2306.03813v1 )

ライセンス: Link先を確認
Salvatore Butera(参考訳) 量子場からのバックリアクションが移動ミラーのダイナミクスに与える影響を研究するために、オープン量子システムアプローチを採用している。 鏡の誘電応答が第一原理から得られる顕微鏡モデルを用いて,鏡とフィールドのカップリングについて述べる。 二階摂動理論を用いて、ミラーの機械的運動を支配する主方程式を導出する。 解析の結果, 粒子対の放出が動的カシミール効果によって生じる色付きノイズと非局所散逸を経験していることが判明した。 主方程式の時間依存係数の定義に入る雑音および散逸核は, ゆらぎ・散逸関係によって関係していることを示す。

We adopt an open quantum system approach to study the effects of the back-reaction from a quantum field onto the dynamics of a moving mirror. We describe the coupling between the mirror and the field by using a microscopic model from which the dielectric response of the mirror is obtained from first principles. Using second-order perturbation theory, we derive the master equation governing the mechanical motion of the mirror. Our analysis reveals that the mirror experiences coloured noise and non-local dissipation, which originate from the emission of particle pairs via the dynamical Casimir effect. We show that the noise and dissipation kernels, that enter in the definition of the time-dependent coefficients of the master equation, are related by fluctuation-dissipation relations.
翻訳日:2023-06-07 14:38:01 公開日:2023-06-06
# 脳内の配列を用いた計算

Computation with Sequences in the Brain ( http://arxiv.org/abs/2306.03812v1 )

ライセンス: Link先を確認
Max Dabagia, Christos H. Papadimitriou, Santosh S. Vempala(参考訳) 機械学習は多くのアプリケーションで人間レベルのパフォーマンスを上回っているが、脳の学習能力の汎用性、堅牢性、迅速性は相容れないままである。 神経活動から認知がどのように生じるかは、神経科学において中心的なオープンな問題であり、知性自体の研究から不可解である。 神経活動の単純な形式モデルがpadimitriou [2020]で提案され、その後、数学的証明とシミュレーションの両方を通じて、ニューロンのアセンブリの作成と操作を通じて、特定の単純な認知操作を実行することができることが示されている。 しかし、多くの知的行動は刺激の時間的シーケンス(計画、言語、ナビゲーションなど)を認識し、記憶し、操作する能力に依存している。 ここでは, 同じモデルにおいて, シナプス重みと可塑性により, 時刻を優先的に捉えることができ, 結果として, 集合列上の計算範囲を計算できることを示す。 特に、一連の刺激の繰り返しの提示は、対応する神経集合体を通して配列を記憶させる: 配列内の任意の刺激の将来の提示では、対応するアセンブリとその後続の刺激は、配列の終わりまで、それぞれ活性化される。 最後に、任意の有限状態機械は、適切なシーケンスパターンの提示を通じて、同様の方法で学習できることを示す。 この機構の拡張により、モデルは普遍的な計算が可能であることが示される。 我々は、このモデルにおける学習の限界を重要な方法で探究するために、いくつかの実験で分析を支援します。 これらの結果は、脳の卓越した計算と学習能力の基礎となる具体的な仮説を与え、配列が重要な役割を担っている。

Even as machine learning exceeds human-level performance on many applications, the generality, robustness, and rapidity of the brain's learning capabilities remain unmatched. How cognition arises from neural activity is a central open question in neuroscience, inextricable from the study of intelligence itself. A simple formal model of neural activity was proposed in Papadimitriou [2020] and has been subsequently shown, through both mathematical proofs and simulations, to be capable of implementing certain simple cognitive operations via the creation and manipulation of assemblies of neurons. However, many intelligent behaviors rely on the ability to recognize, store, and manipulate temporal sequences of stimuli (planning, language, navigation, to list a few). Here we show that, in the same model, time can be captured naturally as precedence through synaptic weights and plasticity, and, as a result, a range of computations on sequences of assemblies can be carried out. In particular, repeated presentation of a sequence of stimuli leads to the memorization of the sequence through corresponding neural assemblies: upon future presentation of any stimulus in the sequence, the corresponding assembly and its subsequent ones will be activated, one after the other, until the end of the sequence. Finally, we show that any finite state machine can be learned in a similar way, through the presentation of appropriate patterns of sequences. Through an extension of this mechanism, the model can be shown to be capable of universal computation. We support our analysis with a number of experiments to probe the limits of learning in this model in key ways. Taken together, these results provide a concrete hypothesis for the basis of the brain's remarkable abilities to compute and learn, with sequences playing a vital role.
翻訳日:2023-06-07 14:37:49 公開日:2023-06-06
# x-align++:bird's-eye-viewセグメンテーションのためのクロスモーダルクロスビューアライメント

X-Align++: cross-modal cross-view alignment for Bird's-eye-view segmentation ( http://arxiv.org/abs/2306.03810v1 )

ライセンス: Link先を確認
Shubhankar Borse, Senthil Yogamani, Marvin Klingner, Varun Ravi, Hong Cai, Abdulaziz Almuzairee and Fatih Porikli(参考訳) バードズ・アイ・ビュー(bird's-eye-view, bev)グリッドは、自動車運転における道路要素の認識の典型例である。 既存のアプローチのほとんどはbev空間でのセグメンテーションのみをカメラに頼っており、これは基本的に信頼できる深度情報がないことによる制約がある。 最新の作品は、カメラとlidarの両方のモードを利用しているが、シンプルで結合性に基づくメカニズムを使って機能をサブオプティマイズしている。 本稿では,カメラの視界ビュー(PV)とBEV表現との整合性を高めるとともに,特徴融合を支援するため,一方向特徴の整合性を高めることでこれらの問題を解決する。 我々は,BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダル・クロスビュー学習フレームワークであるX-Alignを提案する。 (i)新規なクロスモーダル特徴アライメント(x-fa)損失 (II)マルチモーダルBEV機能を暗黙的に整列する注目型クロスモーダル機能融合(X-FF)モジュール 3) PV-to-BEV変換を改善するため, クロスビューセグメンテーションアライメント(X-SA)損失を伴う補助PVセグメンテーションブランチ。 提案手法は2つの一般的なベンチマークデータセット(nuScenesとKITTI-360)で評価する。 特に、X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端よりも著しく優れている。 また, 個々の成分の有効性を示すため, 広範囲のアブレーション研究を行った。

Bird's-eye-view (BEV) grid is a typical representation of the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform segmentation in BEV space, which is fundamentally constrained by the absence of reliable depth information. The latest works leverage both camera and LiDAR modalities but suboptimally fuse their features using simple, concatenation-based mechanisms. In this paper, we address these problems by enhancing the alignment of the unimodal features in order to aid feature fusion, as well as enhancing the alignment between the cameras' perspective view (PV) and BEV representations. We propose X-Align, a novel end-to-end cross-modal and cross-view learning framework for BEV segmentation consisting of the following components: (i) a novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation. We evaluate our proposed method across two commonly used benchmark datasets, i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide extensive ablation studies to demonstrate the effectiveness of the individual components.
翻訳日:2023-06-07 14:37:21 公開日:2023-06-06
# 大規模言語モデルはデュアルユースバイオテクノロジーへのアクセスを民主化できるか?

Can large language models democratize access to dual-use biotechnology? ( http://arxiv.org/abs/2306.03809v1 )

ライセンス: Link先を確認
Emily H. Soice, Rafael Rocha, Kimberlee Cordova, Michael Specter, and Kevin M. Esvelt(参考訳) チャットボット"に埋め込まれたような大規模言語モデル(llm)は、さまざまな分野から理解可能な情報と専門知識を提供することで、研究を加速し、民主化している。 しかし、これらのモデルは、大きな損害を与える可能性のあるデュアルユース技術への容易にアクセスを提供することもできる。 このリスクを評価するため、MITの'Safeguarding the Future'コースでは、非科学者の学生に、LLMチャットボットがパンデミックの原因となる非専門家を支援することができるかどうかを調査するよう指示した。 1時間以内に、チャットボットは4つの潜在的なパンデミック病原体を提案し、逆遺伝学を使って合成DNAからどのように生成できるかを説明し、DNA合成会社の名前を検査できないよう供給し、詳細なプロトコルを特定し、それらをトラブルシュートする方法を示し、逆遺伝学を行うスキルを欠いた者は、コア施設や契約研究組織に関与するよう推奨した。 総じて,llmは,臨床訓練がほとんどあるいは全く行われていない人でも,パンデミック級のエージェントが信頼でき次第,広くアクセスできるようになることが示唆された。 非増殖防止策として、サードパーティによるLCMのプレリリース評価、有害な概念を除去するためのトレーニングデータセットのキュレーション、合成提供者や契約研究機関やロボットクラウド研究所が生み出した全てのDNAの検証などが挙げられる。

Large language models (LLMs) such as those embedded in 'chatbots' are accelerating and democratizing research by providing comprehensible information and expertise from many different fields. However, these models may also confer easy access to dual-use technologies capable of inflicting great harm. To evaluate this risk, the 'Safeguarding the Future' course at MIT tasked non-scientist students with investigating whether LLM chatbots could be prompted to assist non-experts in causing a pandemic. In one hour, the chatbots suggested four potential pandemic pathogens, explained how they can be generated from synthetic DNA using reverse genetics, supplied the names of DNA synthesis companies unlikely to screen orders, identified detailed protocols and how to troubleshoot them, and recommended that anyone lacking the skills to perform reverse genetics engage a core facility or contract research organization. Collectively, these results suggest that LLMs will make pandemic-class agents widely accessible as soon as they are credibly identified, even to people with little or no laboratory training. Promising nonproliferation measures include pre-release evaluations of LLMs by third parties, curating training datasets to remove harmful concepts, and verifiably screening all DNA generated by synthesis providers or used by contract research organizations and robotic cloud laboratories to engineer organisms or viruses.
翻訳日:2023-06-07 14:36:54 公開日:2023-06-06
# 二重Jaynes-Cummingsモデルの絡み合いに及ぼすマルコフノイズと共振器障害の影響

Effects of Markovian noise and cavity disorders on the entanglement dynamics of double Jaynes-Cummings models ( http://arxiv.org/abs/2306.03806v1 )

ライセンス: Link先を確認
Harsh Rathee, Kishore Thapliyal and Anirban Pathak(参考訳) 二重Jaynes-Cummingsモデルのダイナミクスはマルコフノイズや空洞障害の存在下で研究され、突然の死と回復に特に注目されている。 この研究は、観察中に変化しないガラスの障害に焦点を当てている。 当初、場は真空状態にあると考えられており、原子は特定の2量子ビット重畳状態にあると考えられている。 特に、ノイズや非線形ポンプの存在は、絡み合いダイナミクスにおいて興味深い挙動をもたらすことが示されている。 さらに、マルコフノイズと非線形ポンプの存在下で、絡み合い急死が観測される。 絡み合った突然の死亡と回復の存在は、最初に選ばれた州で欠席していた場合にも観察されている。 システムの力学に対するノイズの影響は特性を減衰させることであり、障害のノイズはそれらを洗い流すことである。 一方、非線形性の導入は、システムのダイナミクスをスピードアップさせる。

Dynamics of double Jaynes-Cummings models are studied in the presence of Markovian noise and cavity disorders with specific attention to entanglement sudden death and revivals. The study is focused on the glassy disorders, which remain unchanged during the observations. The field is initially assumed to be in a vacuum state, while the atoms are considered to be in a specific two-qubit superposition state. Specifically, the study has revealed that the presence of noise, or a nonlinear pump results in interesting behaviors in the entanglement dynamics. Further, entanglement sudden death is observed in the presence of Markovian noise and nonlinear pump. The presence of entanglement sudden deaths and revivals have also been observed in cases where they were absent initially for the chosen states. The effect of noise on the dynamics of the system is to decay the characteristics, while that of the disorder is to wash them out. On the other hand, the introduction of nonlinearity is found to cause the dynamics of the system to speed up.
翻訳日:2023-06-07 14:36:27 公開日:2023-06-06
# 大規模事前訓練モデルにおける本質的疎結合の出現:重要度

The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter ( http://arxiv.org/abs/2306.03805v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Zhangyang Wang(参考訳) 大規模な事前学習型トランスフォーマーは、現代のディープラーニングにおけるショーステアラーであり、規模が大きくなるにつれてその内部に存在する相似パターンを理解することが重要である。 LTH(Lottery Ticket hypothesis)とその変種は、爆発的パラメータ数(expploding parameter counts)によって、モデルサイズの増加に伴って悪化する反復的等級プルーニング(IMP)の列車-プルー・リトラクションルーチンの高計算とメモリボトルネックにより、それらの実用性を失った。 本稿では,複数の大きな事前学習された視覚と言語トランスフォーマーにまたがるスパースパターンを包括的に研究する。 我々は,1ショットで最小の大きさの重みを直接取り除くことにより,性能がw.r.tよりもずっと速く低下する急降下点で定義される本質的スパーシティの存在を提案する。 また, BERTの前訓練中に急激な急激なスペーサー化現象, すなわち, BERTは, 一定反復後の事前トレーニングにおいて, 急激なスペーサー化現象を呈する。 さらに,より大量の事前学習データでトレーニングされたbertは,比較的少ないパラメータで知識を凝縮する能力が向上する傾向にあった。 最後に,学習前損失が本態性の空間性に及ぼす影響について検討し,自己教師付き学習(SSL)目標が教師付き学習(SL)よりも強い創発的スパシフィケーション特性を引き起こすことを明らかにする。 我々のコードは \url{https://github.com/VITA-Group/essential\_sparsity} で利用可能です。

Large pre-trained transformers are show-stealer in modern-day deep learning, and it becomes crucial to comprehend the parsimonious patterns that exist within them as they grow in scale. With exploding parameter counts, Lottery Ticket Hypothesis (LTH) and its variants, have lost their pragmatism in sparsifying them due to high computation and memory bottleneck of the repetitive train-prune-retrain routine of iterative magnitude pruning (IMP) which worsens with increasing model size. In this paper, we comprehensively study induced sparse patterns across multiple large pre-trained vision and language transformers. We propose the existence of -- essential sparsity defined with a sharp dropping point beyond which the performance declines much faster w.r.t the rise of sparsity level, when we directly remove weights with the smallest magnitudes in one-shot. In the sparsity-performance curve We also present an intriguing emerging phenomenon of abrupt sparsification during the pre-training of BERT, i.e., BERT suddenly becomes heavily sparse in pre-training after certain iterations. Moreover, our observations also indicate a counter-intuitive finding that BERT trained with a larger amount of pre-training data tends to have a better ability to condense knowledge in comparatively relatively fewer parameters. Lastly, we investigate the effect of the pre-training loss on essential sparsity and discover that self-supervised learning (SSL) objectives trigger stronger emergent sparsification properties than supervised learning (SL). Our codes are available at \url{https://github.com/VITA-Group/essential\_sparsity}.
翻訳日:2023-06-07 14:36:13 公開日:2023-06-06
# ナレーションを通したビデオの授業記事への学習

Learning to Ground Instructional Articles in Videos through Narrations ( http://arxiv.org/abs/2306.03802v1 )

ライセンス: Link先を確認
Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani(参考訳) 本稿では,ナレーション付きハウツービデオにおける手続き活動の段階をローカライズするためのアプローチを提案する。 大規模にラベル付けされたデータの不足に対処するため,多種多様な手続きタスクのための指導記事を含む言語知識ベース(wikiHow)からステップ記述を抽出した。 手動による監督がなければ、我々のモデルは3つのモダリティ(フレーム、ナレーション、ステップ記述)をマッチングすることにより、プロシージャ記事のステップをハウツービデオに時間的に基礎づけることを学ぶ。 具体的には,2つの異なる経路からの情報を融合することで,映像にステップを合わせる。 i) ステップ記述のフレームへのアライメント 二 ナレーション対ビデオ対応のステップからナレーションまでを合成して得られる間接的アライメント 特に,本手法は順序情報を利用して記事中のすべてのステップを同時にグローバルな時間的接地を行い,反復的に洗練され,積極的にフィルタリングされるステップ擬似ラベルを用いて訓練する。 モデルを検証するために、howto100m\footnote{a test server is accessible at \url{https://eval.ai/web/challenges/challenge-page/2082}で124時間のサブセットを手動でアノテートして得られる、新しい評価ベンチマーク、ht-stepを紹介します。 WikiHowの記事から引用したステップで。 このベンチマークとクロスタスクにおけるゼロショット評価の実験は、我々のマルチモダリティアライメントがいくつかのベースラインと以前の作業に対して劇的な向上をもたらすことを示している。 最後に, HTM-Align narration-videoアライメントベンチマークにおいて, ナレーションとビデオのマッチングを行う内部モジュールの精度は, 高い差が認められた。

In this paper we present an approach for localizing steps of procedural activities in narrated how-to videos. To deal with the scarcity of labeled data at scale, we source the step descriptions from a language knowledge base (wikiHow) containing instructional articles for a large variety of procedural tasks. Without any form of manual supervision, our model learns to temporally ground the steps of procedural articles in how-to videos by matching three modalities: frames, narrations, and step descriptions. Specifically, our method aligns steps to video by fusing information from two distinct pathways: i) {\em direct} alignment of step descriptions to frames, ii) {\em indirect} alignment obtained by composing steps-to-narrations with narrations-to-video correspondences. Notably, our approach performs global temporal grounding of all steps in an article at once by exploiting order information, and is trained with step pseudo-labels which are iteratively refined and aggressively filtered. In order to validate our model we introduce a new evaluation benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of HowTo100M\footnote{A test server is accessible at \url{https://eval.ai/web/challenges/challenge-page/2082}.} with steps sourced from wikiHow articles. Experiments on this benchmark as well as zero-shot evaluations on CrossTask demonstrate that our multi-modality alignment yields dramatic gains over several baselines and prior works. Finally, we show that our inner module for matching narration-to-video outperforms by a large margin the state of the art on the HTM-Align narration-video alignment benchmark.
翻訳日:2023-06-07 14:35:40 公開日:2023-06-06
# 符号付きバーコードを用いた多パラメータ持続ホモロジーの安定ベクトル化

Stable Vectorization of Multiparameter Persistent Homology using Signed Barcodes as Measures ( http://arxiv.org/abs/2306.03801v1 )

ライセンス: Link先を確認
David Loiseaux, Luis Scoccola, Mathieu Carri\`ere, Magnus Bakke Botnan, Steve Oudot(参考訳) 永続ホモロジー (PH) は、解釈可能で摂動に安定な重み付きグラフのような幾何学的データに対して位相記述子を提供する。 PHのほとんどの応用は1パラメータの場合に焦点を当てており、そこでは1パラメータPHディスクリプタをヒルベルト空間の要素として安定なベクトル化に依存したデータサイエンスで使用するための幅広い手法がある。 複数の利害関係によってフィルタリングされるデータの多パラメータPH(MPH)は、その1パラメータよりもはるかにリッチな情報を符号化するが、MPH記述子に対する安定性の欠如は、MPHの安定ベクトル化のための選択肢を制限してきた。 本稿では,符号付きバーコード(最近のMPH記述子ファミリー)の解釈が,あるパラメータから複数のパラメータへのベクトル化戦略の自然な拡張につながることを示すことによって,両世界の長所をまとめることを目的とする。 結果として得られる特徴ベクトルは定義しやすく、計算しやすく、確実に安定である。 概念実証として,署名されたバーコードとベクトル化の簡単な選択に着目するが,特徴ベクトルと最先端のトポロジに基づく各種データとの比較では,すでに顕著な性能向上が見られる。

Persistent homology (PH) provides topological descriptors for geometric data, such as weighted graphs, which are interpretable, stable to perturbations, and invariant under, e.g., relabeling. Most applications of PH focus on the one-parameter case -- where the descriptors summarize the changes in topology of data as it is filtered by a single quantity of interest -- and there is now a wide array of methods enabling the use of one-parameter PH descriptors in data science, which rely on the stable vectorization of these descriptors as elements of a Hilbert space. Although the multiparameter PH (MPH) of data that is filtered by several quantities of interest encodes much richer information than its one-parameter counterpart, the scarceness of stability results for MPH descriptors has so far limited the available options for the stable vectorization of MPH. In this paper, we aim to bring together the best of both worlds by showing how the interpretation of signed barcodes -- a recent family of MPH descriptors -- as signed measures leads to natural extensions of vectorization strategies from one parameter to multiple parameters. The resulting feature vectors are easy to define and to compute, and provably stable. While, as a proof of concept, we focus on simple choices of signed barcodes and vectorizations, we already see notable performance improvements when comparing our feature vectors to state-of-the-art topology-based methods on various types of data.
翻訳日:2023-06-07 14:35:04 公開日:2023-06-06
# 3dシーンでのヒューマンメッシュリカバリの学習

Learning Human Mesh Recovery in 3D Scenes ( http://arxiv.org/abs/2306.03847v1 )

ライセンス: Link先を確認
Zehong Shen, Zhi Cen, Sida Peng, Qing Shuai, Hujun Bao, Xiaowei Zhou(参考訳) 本研究では,人間の絶対的なポーズと形状を1枚の画像から再現する新しい手法を提案する。 シーンアウェアメッシュ最適化を行う従来の手法と異なり、まずスパース3d cnnと絶対位置と密接なシーン接触を推定し、その後、導出した3dシーンキューとのクロスアテンションにより、事前訓練されたヒューマンメッシュリカバリネットワークを強化する。 画像とシーン形状の連成学習により,奥行きや閉塞によるあいまいさを低減し,より合理的な姿勢と接触を実現することができる。 ネットワーク内でシーン対応のヒントをエンコーディングすることで、提案手法を最適化フリーにすることも可能となり、リアルタイムアプリケーションへの機会が開放される。 実験により,提案したネットワークは,1つの前方通過によって正確かつ物理的に証明可能なメッシュを復元し,精度と速度の両面で最先端の手法より優れていることを示す。

We present a novel method for recovering the absolute pose and shape of a human in a pre-scanned scene given a single image. Unlike previous methods that perform sceneaware mesh optimization, we propose to first estimate absolute position and dense scene contacts with a sparse 3D CNN, and later enhance a pretrained human mesh recovery network by cross-attention with the derived 3D scene cues. Joint learning on images and scene geometry enables our method to reduce the ambiguity caused by depth and occlusion, resulting in more reasonable global postures and contacts. Encoding scene-aware cues in the network also allows the proposed method to be optimization-free, and opens up the opportunity for real-time applications. The experiments show that the proposed network is capable of recovering accurate and physically-plausible meshes by a single forward pass and outperforms state-of-the-art methods in terms of both accuracy and speed.
翻訳日:2023-06-07 14:26:58 公開日:2023-06-06
# 反復ベットの実用性について

Remarks on Utility in Repeated Bets ( http://arxiv.org/abs/2306.03842v1 )

ライセンス: Link先を確認
Nimrod Megiddo(参考訳) von neumann -- morgensternユーティリティの使用は、宝くじ間の複数の選択の文脈で検討される。 選択が同時または逐次である場合、異なる結論に達する。 ユーティリティは加法できないことが示されている。

The use of von Neumann -- Morgenstern utility is examined in the context of multiple choices between lotteries. Different conclusions are reached if the choices are simultaneous or sequential. It is demonstrated that utility cannot be additive.
翻訳日:2023-06-07 14:26:39 公開日:2023-06-06
# 球面フーリエニューラル演算子:球面上の安定ダイナミクスを学習する

Spherical Fourier Neural Operators: Learning Stable Dynamics on the Sphere ( http://arxiv.org/abs/2306.03838v1 )

ライセンス: Link先を確認
Boris Bonev, Thorsten Kurth, Christian Hundt, Jaideep Pathak, Maximilian Baust, Karthik Kashinath, Anima Anandkumar(参考訳) フーリエニューラル演算子(FNO)は、科学的機械学習の幅広い応用分野において、分解能に依存しない演算子学習の効率的かつ効果的な方法であることが証明されている。 彼らの成功の鍵となる理由は、時空間データにおける長距離依存を正確にモデル化し、計算効率のよい方法でグローバル畳み込みを学習できる能力である。 この目的のために、FNOは離散フーリエ変換(DFT)に依存するが、DFTは平面幾何学を誤って仮定しているため、球面座標の演算子を学習する際に、視覚的およびスペクトル的アーティファクトや顕著な散逸を引き起こす。 この制限を克服するため、球面上のFNOを一般化し、球面上の演算子を学習するためのSFNOを導入する。 SFNOを大気力学の予測に応用し,1年間のシミュレーション時間(1,460ステップ)で安定な自動回帰ロールアウトを示す。 SFNOは機械学習に基づく気候動態のシミュレーションに重要な意味を持ち、気候変動に対する私たちの反応を加速するのに役立ちます。

Fourier Neural Operators (FNOs) have proven to be an efficient and effective method for resolution-independent operator learning in a broad variety of application areas across scientific machine learning. A key reason for their success is their ability to accurately model long-range dependencies in spatio-temporal data by learning global convolutions in a computationally efficient manner. To this end, FNOs rely on the discrete Fourier transform (DFT), however, DFTs cause visual and spectral artifacts as well as pronounced dissipation when learning operators in spherical coordinates since they incorrectly assume a flat geometry. To overcome this limitation, we generalize FNOs on the sphere, introducing Spherical FNOs (SFNOs) for learning operators on spherical geometries. We apply SFNOs to forecasting atmospheric dynamics, and demonstrate stable auto\-regressive rollouts for a year of simulated time (1,460 steps), while retaining physically plausible dynamics. The SFNO has important implications for machine learning-based simulation of climate dynamics that could eventually help accelerate our response to climate change.
翻訳日:2023-06-07 14:26:36 公開日:2023-06-06
# 複数症例学習を用いた超音波映像による小児心房中隔欠損の検出

Atrial Septal Defect Detection in Children Based on Ultrasound Video Using Multiple Instances Learning ( http://arxiv.org/abs/2306.03835v1 )

ライセンス: Link先を確認
Yiman Liu and Qiming Huang and Xiaoxiang Han and Tongtong Liang and Zhifang Zhang and Lijun Chen and Jinfeng Wang and Angelos Stefanidis and Jionglong Su and Jiangang Chen and Qingli Li and Yuqi Zhang(参考訳) 目的:先天性心不全(CHD)が最も多い。 胸部心エコー法(TTE)は、十分な心構造情報を提供し、血行動態と心機能を評価し、心房中隔欠損(ASD)検査に有効な方法である。 本稿では,心エコー画像を用いた深層学習法について検討し,ASD診断を支援することを目的とする。 対象と方法: 心房中隔(subAS)と低中隔4区画(LPS4C)の2つの標準ビューをASDを識別する2つのビューとして選択する。 対象児300名を対象に,5倍のクロスバリデーションを用いた二重盲検実験を行い,モデルの性能検証を行った。 また, 小児30名(陰性15名,陰性15名)のデータを臨床検査で収集し, モデル検査結果と比較した(モデルトレーニングには参加していない)。 心エコー画像を用いた心房中隔欠損診断システムを提案する。 本モデルでは,トレーニングとテストのためのブロックランダム選択,最大合意決定,フレームサンプリング戦略を提案し,resnet18とr3dネットワークを用いてフレーム特徴の抽出と集約を行い,リッチなビデオレベル表現を構築する。 結果: 5クロス検証により,プライベートデータセットを用いてモデルを検証する。 ASD検出では,89.33 AUC,84.95精度,85.70感度,81.51特異度,81.99F1スコアが得られた。 結論:本モデルでは,前回のネットワークや臨床医師のパフォーマンスと比較してasd検出精度を効果的に向上するビデオ心房中隔欠損検出のための学習型深層学習モデルを提案する。

Purpose: Congenital heart defect (CHD) is the most common birth defect. Thoracic echocardiography (TTE) can provide sufficient cardiac structure information, evaluate hemodynamics and cardiac function, and is an effective method for atrial septal defect (ASD) examination. This paper aims to study a deep learning method based on cardiac ultrasound video to assist in ASD diagnosis. Materials and methods: We select two standard views of the atrial septum (subAS) and low parasternal four-compartment view (LPS4C) as the two views to identify ASD. We enlist data from 300 children patients as part of a double-blind experiment for five-fold cross-validation to verify the performance of our model. In addition, data from 30 children patients (15 positives and 15 negatives) are collected for clinician testing and compared to our model test results (these 30 samples do not participate in model training). We propose an echocardiography video-based atrial septal defect diagnosis system. In our model, we present a block random selection, maximal agreement decision and frame sampling strategy for training and testing respectively, resNet18 and r3D networks are used to extract the frame features and aggregate them to build a rich video-level representation. Results: We validate our model using our private dataset by five-cross validation. For ASD detection, we achieve 89.33 AUC, 84.95 accuracy, 85.70 sensitivity, 81.51 specificity and 81.99 F1 score. Conclusion: The proposed model is multiple instances learning-based deep learning model for video atrial septal defect detection which effectively improves ASD detection accuracy when compared to the performances of previous networks and clinical doctors.
翻訳日:2023-06-07 14:26:15 公開日:2023-06-06
# mts2graph:時間発展グラフを用いた多変量時系列分類

MTS2Graph: Interpretable Multivariate Time Series Classification with Temporal Evolving Graphs ( http://arxiv.org/abs/2306.03834v1 )

ライセンス: Link先を確認
Raneen Younis, Abdul Hakmeh, and Zahra Ahmadi(参考訳) パターンやシェープレットの袋に基づく従来の時系列分類アプローチは、高次元多変量データから大量の特徴候補を扱う上で大きな課題に直面している。 対照的に、深層ニューラルネットワークは低次元の特徴を効率的に学習することができ、特に畳み込みニューラルネットワーク(cnn)は多変量時系列(mts)データの分類において有望な結果を示している。 ディープニューラルネットワークの成功の重要な要因は、この驚くべき表現力である。 しかし、このパワーは複雑なブラックボックスモデルのコストを伴い、信頼性と人間に理解可能なモデルを構築するという目標と矛盾する。 このような予測的深層モデルを理解する上で不可欠な基準は、時変入力変数の分類への寄与を定量化することである。 そこで本研究では,cnnニューロンを活性化する入力代表パターンを抽出・クラスタリングすることにより,多変量時系列データを解釈するための新しいフレームワークを提案する。 これにより、mts入力における信号の全ての組み合わせを考慮して、各信号の役割と依存性を識別する。 次に,各層から抽出されたパターン間の時間的関係を捉えるグラフを構築する。 効果的なグラフマージ戦略は、各ノードと前のレイヤのノードの接続を見つける。 最後に、グラフ埋め込みアルゴリズムは、生成された解釈可能な時系列特徴の新しい表現を生成する。 提案フレームワークの性能を評価するため,UCR/UEAアーカイブの8つのデータセットに対して,HARおよびPAMデータセットとともに広範な実験を行った。 実験により, MTS分類における時間認識グラフに基づく表現の利点が示された。

Conventional time series classification approaches based on bags of patterns or shapelets face significant challenges in dealing with a vast amount of feature candidates from high-dimensional multivariate data. In contrast, deep neural networks can learn low-dimensional features efficiently, and in particular, Convolutional Neural Networks (CNN) have shown promising results in classifying Multivariate Time Series (MTS) data. A key factor in the success of deep neural networks is this astonishing expressive power. However, this power comes at the cost of complex, black-boxed models, conflicting with the goals of building reliable and human-understandable models. An essential criterion in understanding such predictive deep models involves quantifying the contribution of time-varying input variables to the classification. Hence, in this work, we introduce a new framework for interpreting multivariate time series data by extracting and clustering the input representative patterns that highly activate CNN neurons. This way, we identify each signal's role and dependencies, considering all possible combinations of signals in the MTS input. Then, we construct a graph that captures the temporal relationship between the extracted patterns for each layer. An effective graph merging strategy finds the connection of each node to the previous layer's nodes. Finally, a graph embedding algorithm generates new representations of the created interpretable time-series features. To evaluate the performance of our proposed framework, we run extensive experiments on eight datasets of the UCR/UEA archive, along with HAR and PAM datasets. The experiments indicate the benefit of our time-aware graph-based representation in MTS classification while enriching them with more interpretability.
翻訳日:2023-06-07 14:25:46 公開日:2023-06-06
# 仮想健康における患者のドロップアウト予測:マルチモーダルな動的知識グラフとテキストマイニングアプローチ

Patient Dropout Prediction in Virtual Health: A Multimodal Dynamic Knowledge Graph and Text Mining Approach ( http://arxiv.org/abs/2306.03833v1 )

ライセンス: Link先を確認
Shuang Geng, Wenli Zhang, Jiaheng Xie, Gemin Liang, Ben Niu(参考訳) バーチャルヘルスは、医療提供における変革的な力として称賛されている。 しかし、その脱落問題は、健康状態の悪化、健康、社会的、経済的コストの増大に繋がる重要な問題である。 患者ドロップアウトのタイムリーな予測は、ステークホルダーが患者の懸念に対処するための積極的なステップを採り、保持率を向上する可能性がある。 仮想健康では、情報の非対称性は、その配信形式、異なる利害関係者間、および異なる医療提供システム間で内在し、既存の予測方法のパフォーマンスを阻害する。 本稿では,医師と患者の対話から暗黙的かつ明示的な知識と,オンラインおよびオフラインの医療提供システムにおける様々な利害関係者の動的かつ複雑なネットワークを学習するMDKDP(Multimodal Dynamic Knowledge-driven Dropout Prediction)フレームワークを提案する。 我々は,中国最大のバーチャルヘルスプラットフォームであるmdkdpと提携して,mdkdpを評価する。 MDKDPは最高のベンチマークに対してF1スコアを3.26ポイント改善する。 包括的ロバストネス解析により,利害関係者属性,知識力学,コンパクトな双線形プールの統合により,性能が著しく向上することが示された。 我々の研究は、異なるサービスモダリティにおけるマイニングと知識の価値を明らかにすることで、医療ITに重大な影響を与える。 MDKDPは、患者のドロップアウト管理において、バーチャルヘルスプラットフォームのための新しいデザインアーティファクトを提供する。

Virtual health has been acclaimed as a transformative force in healthcare delivery. Yet, its dropout issue is critical that leads to poor health outcomes, increased health, societal, and economic costs. Timely prediction of patient dropout enables stakeholders to take proactive steps to address patients' concerns, potentially improving retention rates. In virtual health, the information asymmetries inherent in its delivery format, between different stakeholders, and across different healthcare delivery systems hinder the performance of existing predictive methods. To resolve those information asymmetries, we propose a Multimodal Dynamic Knowledge-driven Dropout Prediction (MDKDP) framework that learns implicit and explicit knowledge from doctor-patient dialogues and the dynamic and complex networks of various stakeholders in both online and offline healthcare delivery systems. We evaluate MDKDP by partnering with one of the largest virtual health platforms in China. MDKDP improves the F1-score by 3.26 percentage points relative to the best benchmark. Comprehensive robustness analyses show that integrating stakeholder attributes, knowledge dynamics, and compact bilinear pooling significantly improves the performance. Our work provides significant implications for healthcare IT by revealing the value of mining relations and knowledge across different service modalities. Practically, MDKDP offers a novel design artifact for virtual health platforms in patient dropout management.
翻訳日:2023-06-07 14:25:20 公開日:2023-06-06
# コミュニケーションを伴う逐次主エージェント問題:効率的な計算と学習

Sequential Principal-Agent Problems with Communication: Efficient Computation and Learning ( http://arxiv.org/abs/2306.03832v1 )

ライセンス: Link先を確認
Jiarui Gan, Rupak Majumdar, Debmalya Mandal, Goran Radanovic(参考訳) 両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。 このモデルでは、プリンシパルとエージェントは確率的な環境で相互作用し、それぞれが互いに利用できない状態に関する観察を優先する。 校長は、エージェントから情報を引き出すことと、自身の情報に関する信号を提供するという、コミットメントの力を持っている。 プリンシパルとエージェントは互いにシグナルを伝達し、この通信に基づいて独立して行動を選択する。 各プレイヤーは、状態と共同動作に基づいてペイオフを受け取り、環境は新しい状態に移動する。 相互作用は有限時間水平線上で継続し、双方のプレイヤーは水平線上での合計ペイオフを最適化する。 本モデルでは,不完全情報とPOMDPの確率ゲーム,シーケンシャルベイズパースと機構設計の問題を含む。 我々は,最適政策の計算と学習の両方について検討する。 一般的な問題は計算に難解であるが、基礎となる状態観測分布の条件付き独立性仮定の下でアルゴリズム解を考察する。 本稿では,主成分の最適ポリシを加法近似まで計算する多項式時間アルゴリズムを提案する。 さらに,遷移確率が事前に分かっていない場合に,効率的な学習アルゴリズムを示す。 このアルゴリズムは両プレイヤーに対してサブ線形後悔を保証する。

We study a sequential decision making problem between a principal and an agent with incomplete information on both sides. In this model, the principal and the agent interact in a stochastic environment, and each is privy to observations about the state not available to the other. The principal has the power of commitment, both to elicit information from the agent and to provide signals about her own information. The principal and the agent communicate their signals to each other, and select their actions independently based on this communication. Each player receives a payoff based on the state and their joint actions, and the environment moves to a new state. The interaction continues over a finite time horizon, and both players act to optimize their own total payoffs over the horizon. Our model encompasses as special cases stochastic games of incomplete information and POMDPs, as well as sequential Bayesian persuasion and mechanism design problems. We study both computation of optimal policies and learning in our setting. While the general problems are computationally intractable, we study algorithmic solutions under a conditional independence assumption on the underlying state-observation distributions. We present an polynomial-time algorithm to compute the principal's optimal policy up to an additive approximation. Additionally, we show an efficient learning algorithm in the case where the transition probabilities are not known beforehand. The algorithm guarantees sublinear regret for both players.
翻訳日:2023-06-07 14:24:54 公開日:2023-06-06
# GEO-Bench:地球モニタリングの基礎モデルを目指して

GEO-Bench: Toward Foundation Models for Earth Monitoring ( http://arxiv.org/abs/2306.03831v1 )

ライセンス: Link先を確認
Alexandre Lacoste, Nils Lehmann, Pau Rodriguez, Evan David Sherwin, Hannah Kerner, Bj\"orn L\"utjens, Jeremy Andrew Irvin, David Dao, Hamed Alemohammad, Alexandre Drouin, Mehmet Gunturkun, Gabriel Huang, David Vazquez, Dava Newman, Yoshua Bengio, Stefano Ermon, Xiao Xiang Zhu(参考訳) 自己スーパービジョンの最近の進歩は、膨大な量の教師なしデータで大きなニューラルネットワークを事前トレーニングすることで、下流タスクへの一般化が大幅に増加することを示している。 近年の基盤モデルであるそのようなモデルは、自然言語処理の分野に転換してきた。 画像データにも変種が提案されているが、リモートセンシングタスクへの適用性は限られている。 そこで本研究では,地球観測のための基礎モデルの開発を奨励するために,6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。 我々は,このベンチマークをモデルの評価と集計結果を報告するためのロバストな手法で随伴し,進捗の信頼性を評価する。 最後に,既存モデルの性能に関する情報を得るため,20基準ラインの結果を報告する。 このベンチマークは、さまざまな地球観測タスクにおける進歩の原動力となると思います。

Recent progress in self-supervision has shown that pre-training large neural networks on vast amounts of unsupervised data can lead to substantial increases in generalization to downstream tasks. Such models, recently coined foundation models, have been transformational to the field of natural language processing. Variants have also been proposed for image data, but their applicability to remote sensing tasks is limited. To stimulate the development of foundation models for Earth monitoring, we propose a benchmark comprised of six classification and six segmentation tasks, which were carefully curated and adapted to be both relevant to the field and well-suited for model evaluation. We accompany this benchmark with a robust methodology for evaluating models and reporting aggregated results to enable a reliable assessment of progress. Finally, we report results for 20 baselines to gain information about the performance of existing models. We believe that this benchmark will be a driver of progress across a variety of Earth monitoring tasks.
翻訳日:2023-06-07 14:24:34 公開日:2023-06-06
# 連続環境における創発的コミュニケーションのための誘導バイアス

Inductive Bias for Emergent Communication in a Continuous Setting ( http://arxiv.org/abs/2306.03830v1 )

ライセンス: Link先を確認
John Isak Fjellvang Villanger and Troels Arnfred Bojesen(参考訳) エージェントが協調作業の解決とコミュニケーションチャネルへのアクセスを行うマルチエージェント強化学習環境における創発的コミュニケーションについて検討する。 通信チャネルは、離散シンボルまたは連続変数のいずれかからなることができる。 我々は,連続メッセージのための優れた通信プロトコルの出現を支援する帰納的バイアスを導入し,このタイプの帰納的バイアスが,連続的および離散的なメッセージそのものや強化学習と組み合わせて使用される場合に与える影響について考察する。 このような帰納バイアスは,2つの玩具環境で学習したコミュニケーションプロトコル,NegotiationとSequence Guessに有効であることを示す。

We study emergent communication in a multi-agent reinforcement learning setting, where the agents solve cooperative tasks and have access to a communication channel. The communication channel may consist of either discrete symbols or continuous variables. We introduce an inductive bias to aid with the emergence of good communication protocols for continuous messages, and we look at the effect this type of inductive bias has for continuous and discrete messages in itself or when used in combination with reinforcement learning. We demonstrate that this type of inductive bias has a beneficial effect on the communication protocols learnt in two toy environments, Negotiation and Sequence Guess.
翻訳日:2023-06-07 14:24:19 公開日:2023-06-06
# Quick-Tune: トレーニング済みモデルをファインチューンに学習する

Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How ( http://arxiv.org/abs/2306.03828v1 )

ライセンス: Link先を確認
Sebastian Pineda Arango, Fabio Ferreira, Arlind Kadra, Frank Hutter Josif Grabocka(参考訳) トレーニング済みモデルが増え続ける中で、機械学習の実践者は、どのトレーニング済みモデルを使用するか、新しいデータセットのためにそれを微調整する方法を常に直面している。 本稿では,最適事前学習モデルとハイパーパラメータを共同で探索して微調整する手法を提案する。 本手法は,複数のハイパーパラメータ構成を持つ事前学習モデルの性能に関する知識を一連のデータセット上で伝達する。 そこで本研究では,87データセット上の24の事前学習画像分類モデルを微調整し,大規模メタデータセットを生成するために,20k以上のハイパーパラメータ構成を評価した。 我々は、このメタデータセットの学習曲線について多元的性能予測器をメタ学習し、新しいデータセットの高速ハイパーパラメータ最適化に使用する。 提案手法は,新しいデータセットの正確な事前学習モデルと最適なハイパーパラメータを迅速に選択できることを実証的に実証する。

With the ever-increasing number of pretrained models, machine learning practitioners are continuously faced with which pretrained model to use, and how to finetune it for a new dataset. In this paper, we propose a methodology that jointly searches for the optimal pretrained model and the hyperparameters for finetuning it. Our method transfers knowledge about the performance of many pretrained models with multiple hyperparameter configurations on a series of datasets. To this aim, we evaluated over 20k hyperparameter configurations for finetuning 24 pretrained image classification models on 87 datasets to generate a large-scale meta-dataset. We meta-learn a multi-fidelity performance predictor on the learning curves of this meta-dataset and use it for fast hyperparameter optimization on new datasets. We empirically demonstrate that our resulting approach can quickly select an accurate pretrained model for a new dataset together with its optimal hyperparameters.
翻訳日:2023-06-07 14:24:08 公開日:2023-06-06
# 画像拡散による創発的対応

Emergent Correspondence from Image Diffusion ( http://arxiv.org/abs/2306.03881v1 )

ライセンス: Link先を確認
Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan(参考訳) 画像間の対応を見つけることはコンピュータビジョンの基本的な問題である。 本稿では,画像拡散モデルにおいて,明示的な監督なしに対応が現れることを示す。 画像の特徴として拡散ネットワーク(DIFT)からこの暗黙的知識を抽出し,実際の画像間の対応を確立するための簡単な手法を提案する。 タスク固有のデータやアノテーションに関する追加の微調整や監督がなければ、DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付きメソッドと競合するオフザシェルフ機能の両方より優れている。 特に意味対応において、安定拡散のDIFTは、挑戦的なSPair-71kベンチマークでそれぞれ19と14の精度でDINOとOpenCLIPを上回っている。 さらに18のカテゴリ中9の最先端の教師付きメソッドよりも優れていますが、全体的なパフォーマンスには同等です。 プロジェクトページ: https://diffusionfeatures.github.io

Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowledge out of diffusion networks as image features, namely DIffusion FeaTures (DIFT), and use them to establish correspondences between real images. Without any additional fine-tuning or supervision on the task-specific data or annotations, DIFT is able to outperform both weakly-supervised methods and competitive off-the-shelf features in identifying semantic, geometric, and temporal correspondences. Particularly for semantic correspondence, DIFT from Stable Diffusion is able to outperform DINO and OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k benchmark. It even outperforms the state-of-the-art supervised methods on 9 out of 18 categories while remaining on par for the overall performance. Project page: https://diffusionfeatures.github.io
翻訳日:2023-06-07 14:18:01 公開日:2023-06-06
# 弱監視型医用画像分割のための条件拡散モデル

Conditional Diffusion Models for Weakly Supervised Medical Image Segmentation ( http://arxiv.org/abs/2306.03878v1 )

ライセンス: Link先を確認
Xinrong Hu, Yu-Jen Chen, Tsung-Yi Ho, and Yiyu Shi(参考訳) 近年の拡散確率モデルの普及は画像合成タスクにおいて大きな成功を収めている。 イメージセマンティクスセグメンテーションにおけるこの強力なツールの可能性を探求する作業はすでに存在するが、弱い教師付きセマンティクスセグメンテーション(wsss)におけるその応用は、比較的未検討のままである。 条件拡散モデル(cdm)が特定の分布に属する画像を生成することができることを観察し、本研究では、cdmに依拠するカテゴリ認識意味情報を用いて、画像レベルのアノテーションのみを用いて対象オブジェクトの予測マスクを得る。 具体的には、入力条件に対してCDMの出力の微分を近似することで、所望のクラスを見つける。 本手法は, 復元過程において背景雑音を蓄積する外部分類器からの指導により, 従来の拡散モデル手法とは異なる。 本手法は,2つの医用画像セグメンテーションデータセット上で,最先端のCAMおよび拡散モデル法より優れており,CDMがWSSSにおいて有望なツールであることを示す。 また,本手法は既存の拡散モデル法よりも時間効率が良く,より広い用途に適用できることを示した。

Recent advances in denoising diffusion probabilistic models have shown great success in image synthesis tasks. While there are already works exploring the potential of this powerful tool in image semantic segmentation, its application in weakly supervised semantic segmentation (WSSS) remains relatively under-explored. Observing that conditional diffusion models (CDM) is capable of generating images subject to specific distributions, in this work, we utilize category-aware semantic information underlied in CDM to get the prediction mask of the target object with only image-level annotations. More specifically, we locate the desired class by approximating the derivative of the output of CDM w.r.t the input condition. Our method is different from previous diffusion model methods with guidance from an external classifier, which accumulates noises in the background during the reconstruction process. Our method outperforms state-of-the-art CAM and diffusion model methods on two public medical image segmentation datasets, which demonstrates that CDM is a promising tool in WSSS. Also, experiment shows our method is more time-efficient than existing diffusion model methods, making it practical for wider applications.
翻訳日:2023-06-07 14:17:43 公開日:2023-06-06
# 現実的因果分析における背景知識の活用--解集合プログラミングのアプローチ

Embracing Background Knowledge in the Analysis of Actual Causality: An Answer Set Programming Approach ( http://arxiv.org/abs/2306.03874v1 )

ライセンス: Link先を確認
Michael Gelfond, Jorge Fandinno and Evgenii Balai(参考訳) 本稿では,因果知識の形式化を目的とした豊富な知識表現言語を提案する。 この言語は、実際の因果関係の文献から共通のベンチマーク例を正確にかつ直接的に定式化するために用いられる。 原因の定義が提示され、それらの例を表すアクションのシーケンスに関する変更の実際の原因を分析するために使用される。

This paper presents a rich knowledge representation language aimed at formalizing causal knowledge. This language is used for accurately and directly formalizing common benchmark examples from the literature of actual causality. A definition of cause is presented and used to analyze the actual causes of changes with respect to sequences of actions representing those examples.
翻訳日:2023-06-07 14:17:22 公開日:2023-06-06
# チェーン・オブ・サート推論の導出検証

Deductive Verification of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2306.03872v1 )

ライセンス: Link先を確認
Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic and Hao Su(参考訳) 大規模言語モデル(llm)は、様々な推論タスクの実行を促す連鎖的思考(cot)の恩恵を受ける。 CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積誤差を導入し、複雑な推論タスクを解くモデルの能力を制限する。 人間の課題解決に用いた注意深い推論的論理的推論プロセスへの取り組みから着想を得て、言語モデルによる明示的で厳格な推論を可能にし、自己検証を通じて推論プロセスの信頼性を確保することを目指す。 しかし、ChatGPTのような先進的なモデルであっても、導出的推論プロセス全体の妥当性を直接検証することは困難である。 これを踏まえて,推論検証プロセスをステップバイステップの一連のサブプロセスに分解し,それぞれに必要なコンテキストと前提のみを受け取ることを提案する。 そこで本研究では,自然言語に基づく推論形式であるNatural Programを提案する。 我々のアプローチでは、モデルがより厳密な事前ステップに基づく正確な推論ステップを生成することができる。 また、言語モデルに対して、段階的に自己検証を行う権限を与える。 この検証プロセスを各推論段階に統合することにより、生成した推論段階の厳密性と信頼性を著しく向上する。 この過程では,複雑な推論タスクに対する回答の正確性も向上する。 コードはhttps://github.com/lz1oceani/verify_cotでリリースされる。

Large Language Models (LLMs) significantly benefit from Chain-of-Thought (CoT) prompting in performing various reasoning tasks. While CoT allows models to produce more comprehensive reasoning processes, its emphasis on intermediate reasoning steps can inadvertently introduce hallucinations and accumulated errors, thereby limiting models' ability to solve complex reasoning tasks. Inspired by how humans engage in careful and meticulous deductive logical reasoning processes to solve tasks, we seek to enable language models to perform explicit and rigorous deductive reasoning, and also ensure the trustworthiness of their reasoning process through self-verification. However, directly verifying the validity of an entire deductive reasoning process is challenging, even with advanced models like ChatGPT. In light of this, we propose to decompose a reasoning verification process into a series of step-by-step subprocesses, each only receiving their necessary context and premises. To facilitate this procedure, we propose Natural Program, a natural language-based deductive reasoning format. Our approach enables models to generate precise reasoning steps where subsequent steps are more rigorously grounded on prior steps. It also empowers language models to carry out reasoning self-verification in a step-by-step manner. By integrating this verification process into each deductive reasoning stage, we significantly enhance the rigor and trustfulness of generated reasoning steps. Along this process, we also improve the answer correctness on complex reasoning tasks. Code will be released at https://github.com/lz1oceani/verify_cot.
翻訳日:2023-06-07 14:17:17 公開日:2023-06-06
# 古典的有限交換可能性と量子論をつなぐ

Connecting classical finite exchangeability to quantum theory ( http://arxiv.org/abs/2306.03869v1 )

ライセンス: Link先を確認
Alessio Benavoli and Alessandro Facchini and Marco Zaffalon(参考訳) 交換性は確率論と統計学の基本的な概念である。 観測の順序が重要でない状況のモデル化を可能にする。 古典的ド・フィニッティの定理は、独立変数と同一分布変数の混合として、確率変数の無限に交換可能な列の表現を提供する。 量子ド・フィニッティの定理はこの結果をテンソル積ヒルベルト空間上の対称量子状態へと拡張する。 しかし、両定理は有限交換可能な列に対しては成立しない。 この研究の目的は、あまり知られていない2つの表現定理を調べることである。 古典的な確率理論で発展し、準確率性と準予想を用いてデ・フィニッティの定理を有限交換可能な列に拡張した。 これらの定理の助けを借りて、有限交換可能な列に対するデ・フィネッティのような表現定理は、(ボソン対称密度行列を持つ)量子論と正式に等価な数学的表現を必要とする。

Exchangeability is a fundamental concept in probability theory and statistics. It allows to model situations where the order of observations does not matter. The classical de Finetti's theorem provides a representation of infinitely exchangeable sequences of random variables as mixtures of independent and identically distributed variables. The quantum de Finetti theorem extends this result to symmetric quantum states on tensor product Hilbert spaces. However, both theorems do not hold for finitely exchangeable sequences. The aim of this work is to investigate two lesser-known representation theorems. Developed in classical probability theory, they extend de Finetti's theorem to finitely exchangeable sequences by using quasi-probabilities and quasi-expectations. With the aid of these theorems, we illustrate how a de Finetti-like representation theorem for finitely exchangeable sequences requires a mathematical representation which is formally equivalent to quantum theory (with boson-symmetric density matrices).
翻訳日:2023-06-07 14:16:56 公開日:2023-06-06
# テキスト生成のための自動メトリクスからの選好評価における誤りの補正

Correction of Errors in Preference Ratings from Automated Metrics for Text Generation ( http://arxiv.org/abs/2306.03866v1 )

ライセンス: Link先を確認
Jan Deriu, Pius von D\"aniken, Don Tuggener, Mark Cieliebak(参考訳) テキスト生成の分野での大きな課題は、評価である: 人間の評価はコスト集約的であり、自動化されたメトリクスは人間の判断とかなりの相違を示すことが多い。 本稿では,システム出力間の選好ランキングを生成する際に,自動メトリクスの誤り傾向を考慮したテキスト生成評価の統計的モデルを提案する。 既存の自動メトリクスは、この設定でシステム間で大きな違いを割り当てるのに一般的に過信であることを示す。 しかし,本モデルでは,自動評価を効率よく組み合わせることで,自動評価の誤差を軽減できる。 この組み合わせを用いることで、評価に一般的に用いられる人間のアノテーションの約50%しか必要とせず、95%のケースで純粋な人間評価と同じ評価結果が得られることを示し、統計的に有意な結果を得ることができた。 本稿では,対話システム,機械翻訳,テキスト要約という3つのテキスト生成タスクに対するアプローチの利点を紹介する。

A major challenge in the field of Text Generation is evaluation: Human evaluations are cost-intensive, and automated metrics often display considerable disagreement with human judgments. In this paper, we propose a statistical model of Text Generation evaluation that accounts for the error-proneness of automated metrics when used to generate preference rankings between system outputs. We show that existing automated metrics are generally over-confident in assigning significant differences between systems in this setting. However, our model enables an efficient combination of human and automated ratings to remedy the error-proneness of the automated metrics. We show that using this combination, we only require about 50% of the human annotations typically used in evaluations to arrive at robust and statistically significant results while yielding the same evaluation outcome as the pure human evaluation in 95% of cases. We showcase the benefits of approach for three text generation tasks: dialogue systems, machine translation, and text summarization.
翻訳日:2023-06-07 14:16:43 公開日:2023-06-06
# moleによる学習:再構成のないナビゲーションのための転送可能な潜在空間表現

Learning with a Mole: Transferable latent spatial representations for navigation without reconstruction ( http://arxiv.org/abs/2306.03857v1 )

ライセンス: Link先を確認
Guillaume Bono, Leonid Antsfeld, Assem Sadek, Gianluca Monaci, Christian Wolf(参考訳) 3D環境をナビゲートするエージェントは何らかのメモリを必要とするため、意思決定や計画に有用な観察履歴のコンパクトで実用的な表現を保持する必要がある。 ほとんどのエンド・ツー・エンドの学習アプローチでは、表現は潜在的で、通常は明確な解釈を持っていないが、クラシック・ロボティクスはこれをシーンの再構築で解決し、幾何やセンサモデルや学習で推定される何らかの形式の地図を生成する。 本研究では,目的とする下流タスクとは独立してシーンの動作可能な表現を,明示的に再構成を最適化することなく学習することを提案する。 学習された表現は、視覚的に直接観察することなく、複数の短いサブエピソードをナビゲートするように訓練された視覚補助エージェントによって最適化される。 我々は盲目性が重要であり、(訓練された)潜在表現が計画の唯一の手段であることを議論し示す。 探索実験により,学習表現が再現性ではなくナビゲータビリティを最適化することを示す。 下流のタスクでは、分散の変化、特に、実際のオフィスビルで実際の物理的ロボットで評価したsim2real gapにロバストであり、パフォーマンスが大幅に向上することを示している。

Agents navigating in 3D environments require some form of memory, which should hold a compact and actionable representation of the history of observations useful for decision taking and planning. In most end-to-end learning approaches the representation is latent and usually does not have a clearly defined interpretation, whereas classical robotics addresses this with scene reconstruction resulting in some form of map, usually estimated with geometry and sensor models and/or learning. In this work we propose to learn an actionable representation of the scene independently of the targeted downstream task and without explicitly optimizing reconstruction. The learned representation is optimized by a blind auxiliary agent trained to navigate with it on multiple short sub episodes branching out from a waypoint and, most importantly, without any direct visual observation. We argue and show that the blindness property is important and forces the (trained) latent representation to be the only means for planning. With probing experiments we show that the learned representation optimizes navigability and not reconstruction. On downstream tasks we show that it is robust to changes in distribution, in particular the sim2real gap, which we evaluate with a real physical robot in a real office building, significantly improving performance.
翻訳日:2023-06-07 14:16:26 公開日:2023-06-06
# 大規模言語モデルによる逐次翻訳の改良

Iterative Translation Refinement with Large Language Models ( http://arxiv.org/abs/2306.03856v1 )

ライセンス: Link先を確認
Pinzhen Chen, Zhicheng Guo, Barry Haddow, Kenneth Heafield(参考訳) 大規模言語モデルは、命令の理解や自然言語タスクの実行において驚くべきパフォーマンスを示している。 本稿では,より自然な翻訳や後編集のために,大規模言語モデルの力を利用する反復翻訳の改良を提案する。 反復的プロセスに単に大きな言語モデルを取り込むことで、出力品質が単なる翻訳以上のものとなることを示す。 GPT-3.5による大規模なテストシナリオでは、反復は文字列ベースのメートル法スコアを減少させるが、ニューラルネットワークメトリクスは翻訳品質を向上しないかどうかを示す。 また,人間の評価により,初期のgpt翻訳や,特に英語への指示に対する人間の参照と比較して,翻訳を効果的に削減できることが示されている。 アブレーション研究は、精製過程をソース入力と合理的な初期翻訳に固定することの重要性を強調している。

Large language models have shown surprising performances in understanding instructions and performing natural language tasks. In this paper, we propose iterative translation refinement to leverage the power of large language models for more natural translation and post-editing. We show that by simply involving a large language model in an iterative process, the output quality improves beyond mere translation. Extensive test scenarios with GPT-3.5 reveal that although iterations reduce string-based metric scores, neural metrics indicate comparable if not improved translation quality. Further, human evaluations demonstrate that our method effectively reduces translationese compared to initial GPT translations and even human references, especially for into-English directions. Ablation studies underscore the importance of anchoring the refinement process to the source input and a reasonable initial translation.
翻訳日:2023-06-07 14:16:04 公開日:2023-06-06
# キーポイントからキーポイント階層へ:構造化と表現的意見要約

From Key Points to Key Point Hierarchy: Structured and Expressive Opinion Summarization ( http://arxiv.org/abs/2306.03853v1 )

ライセンス: Link先を確認
Arie Cattan, Lilach Eden, Yoav Kantor and Roy Bar-Haim(参考訳) キーポイント分析(kpa)は、テキストコメントの集合からきめ細かい洞察を引き出すために最近提案されている。 KPAは、簡潔な文やフレーズのリストとしてデータの主要なポイントを抽出し、キーポイントと呼ばれ、その頻度を定量化する。 キーポイントは単語の雲やキーフレーズよりも表現力が高いが、キーポイントの長い平らなリストは、しばしば関連するアイデアを様々なレベルの粒度で表現するが、それでも困難である。 KPAのこの制限に対処するため、与えられたキーポイントの集合を階層に整理するタスクを、その特異性に応じて導入する。 このような階層は、新しいタイプのテクストリテラル・インテリメントグラフと見なすことができる。 ビジネスおよび製品レビューのためのキーポイント階層の高品質なベンチマークデータセットであるThinkPを開発し、複数のアノテーションを統合した。 キーポイント間のペアワイズ関係を予測し、これらのペアワイズ予測から階層を推定するための異なる手法の比較を行う。 特に,ペアワイズキーポイント関係の計算では,新たなキーポイント分布表現に方向分布類似性を適用することにより,既存の強力なベースラインに対して有意な利益を得るとともに,弱い監督による性能向上を図る。

Key Point Analysis (KPA) has been recently proposed for deriving fine-grained insights from collections of textual comments. KPA extracts the main points in the data as a list of concise sentences or phrases, termed key points, and quantifies their prevalence. While key points are more expressive than word clouds and key phrases, making sense of a long, flat list of key points, which often express related ideas in varying levels of granularity, may still be challenging. To address this limitation of KPA, we introduce the task of organizing a given set of key points into a hierarchy, according to their specificity. Such hierarchies may be viewed as a novel type of Textual Entailment Graph. We develop ThinkP, a high quality benchmark dataset of key point hierarchies for business and product reviews, obtained by consolidating multiple annotations. We compare different methods for predicting pairwise relations between key points, and for inferring a hierarchy from these pairwise predictions. In particular, for the task of computing pairwise key point relations, we achieve significant gains over existing strong baselines by applying directional distributional similarity methods to a novel distributional representation of key points, and further boost performance via weak supervision.
翻訳日:2023-06-07 14:15:50 公開日:2023-06-06
# リスクマップにおける人為的要因を考慮したロバスト運転注意喚起

Considering Human Factors in Risk Maps for Robust and Foresighted Driver Warning ( http://arxiv.org/abs/2306.03849v1 )

ライセンス: Link先を確認
Tim Puphal, Ryohei Hirano, Malte Probst, Raphael Wenzel and Akihito Kimata(参考訳) サポートプロセスに人間状態を含むドライバ支援システムは、アクティブな研究分野である。 最近の多くのアプローチでは、例えば運転者の眠気や運転状況に対する意識を感知することができる。 しかし, これまでのところ, この豊富な情報は, 支援システムの有効性向上にはあまり役立っていない。 そこで本研究では,ドライバエラーの形でヒューマンステートを利用した警告システムを提案するとともに,人的要因を考慮しないアートシステムの状態よりも数秒早くユーザに対して警告を行うシステムを提案する。 このシステムは行動プランナーのリスクマップから成り、ドライバーの認識したエラーに基づいて周囲の運転状況の予測を直接変更する。 ドライバーの行動計画が客観的に安全かどうかをチェックすることにより、より堅牢で先見の明のドライバー警告が達成される。 動的な車線変更と交差点シナリオの異なるシミュレーションにおいて,運転者の行動計画の安全性を,運転者の誤差の推定値から評価し,人間の要因を考慮する利点を実験的に検証する。

Driver support systems that include human states in the support process is an active research field. Many recent approaches allow, for example, to sense the driver's drowsiness or awareness of the driving situation. However, so far, this rich information has not been utilized much for improving the effectiveness of support systems. In this paper, we therefore propose a warning system that uses human states in the form of driver errors and can warn users in some cases of upcoming risks several seconds earlier than the state of the art systems not considering human factors. The system consists of a behavior planner Risk Maps which directly changes its prediction of the surrounding driving situation based on the sensed driver errors. By checking if this driver's behavior plan is objectively safe, a more robust and foresighted driver warning is achieved. In different simulations of a dynamic lane change and intersection scenarios, we show how the driver's behavior plan can become unsafe, given the estimate of driver errors, and experimentally validate the advantages of considering human factors.
翻訳日:2023-06-07 14:15:27 公開日:2023-06-06
# SAM3D:3Dシーンのセグメンテーション

SAM3D: Segment Anything in 3D Scenes ( http://arxiv.org/abs/2306.03908v1 )

ライセンス: Link先を確認
Yunhan Yang, Xiaoyang Wu, Tong He, Hengshuang Zhao, Xihui Liu(参考訳) 本研究では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークSAM3Dを提案する。 RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。 その後、3Dマスクをボトムアップマージアプローチと反復的にマージします。 各ステップにおいて、2つの隣接するフレームの点雲マスクと双方向のマージアプローチをマージする。 このように、異なるフレームから予測される3Dマスクは、徐々に3Dシーン全体の3Dマスクにマージされる。 最後に、3dシーンの幾何学的情報に基づいて、sam3dの結果をオーバーセグメンテーション結果と任意にアンサンブルできる。 提案手法はScanNetデータセットを用いて実験し,SAM3DがSAMのトレーニングや微調整を伴わずに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。

In this work, we propose SAM3D, a novel framework that is able to predict masks in 3D point clouds by leveraging the Segment-Anything Model (SAM) in RGB images without further training or finetuning. For a point cloud of a 3D scene with posed RGB images, we first predict segmentation masks of RGB images with SAM, and then project the 2D masks into the 3D points. Later, we merge the 3D masks iteratively with a bottom-up merging approach. At each step, we merge the point cloud masks of two adjacent frames with the bidirectional merging approach. In this way, the 3D masks predicted from different frames are gradually merged into the 3D masks of the whole 3D scene. Finally, we can optionally ensemble the result from our SAM3D with the over-segmentation results based on the geometric information of the 3D scenes. Our approach is experimented with ScanNet dataset and qualitative results demonstrate that our SAM3D achieves reasonable and fine-grained 3D segmentation results without any training or finetuning of SAM.
翻訳日:2023-06-07 14:08:10 公開日:2023-06-06
# cl-uzh at semeval-2023 task 10: ラベル記述を用いたインクリメンタル微調整とマルチタスク学習による性差検出

CL-UZH at SemEval-2023 Task 10: Sexism Detection through Incremental Fine-Tuning and Multi-Task Learning with Label Descriptions ( http://arxiv.org/abs/2306.03907v1 )

ライセンス: Link先を確認
Janis Goldzycher(参考訳) ソーシャルメディアの普及は、憎悪的、虐待的、セクシスト的言語の増加につながり、こうした現象を自動的に検出する手法を動機付けている。 SemEval 共有タスク \textit{Towards Explainable Detection of Online Sexism} (EDOS 2023) の目標は、英語のソーシャルメディア投稿(サブタスクA)で性差別を検知し、その投稿を4つの粗粒度(サブタスクB)と11の細粒度(サブタスクC)に分類することである。 本稿では,EDOSサブタスクを微調整する前に,関連するタスクやデータセットを微調整したマルチタスクモデルに基づく,3つのサブタスクすべてを対象とした提案システムを提案する。 各タスクを,入力テキストとともにデータセットとラベル記述が与えられるバイナリペアワイズテキスト分類として定式化することにより,マルチタスク学習を実現する。 その結果、f_1$-scoresはサブタスクaで85.9\%(ランク13/84)、サブタスクbで64.8\%(ランク19/69)、サブタスクcで44.9\%(26/63)となる。

The widespread popularity of social media has led to an increase in hateful, abusive, and sexist language, motivating methods for the automatic detection of such phenomena. The goal of the SemEval shared task \textit{Towards Explainable Detection of Online Sexism} (EDOS 2023) is to detect sexism in English social media posts (subtask A), and to categorize such posts into four coarse-grained sexism categories (subtask B), and eleven fine-grained subcategories (subtask C). In this paper, we present our submitted systems for all three subtasks, based on a multi-task model that has been fine-tuned on a range of related tasks and datasets before being fine-tuned on the specific EDOS subtasks. We implement multi-task learning by formulating each task as binary pairwise text classification, where the dataset and label descriptions are given along with the input text. The results show clear improvements over a fine-tuned DeBERTa-V3 serving as a baseline leading to $F_1$-scores of 85.9\% in subtask A (rank 13/84), 64.8\% in subtask B (rank 19/69), and 44.9\% in subtask C (26/63).
翻訳日:2023-06-07 14:07:53 公開日:2023-06-06
# フェルミオンペアレジスタを用いた量子計算とシミュレーション

Quantum Computation and Simulation using Fermion-Pair Registers ( http://arxiv.org/abs/2306.03905v1 )

ライセンス: Link先を確認
Xiangkai Sun, Di Luo, Soonwon Choi(参考訳) 量子ガス顕微鏡によるフェルミ粒子を用いた量子計算とシミュレーションを実現する手法の提案と解析を行う。 レーザー強度雑音に対して長いコヒーレンス時間とロバスト性を示す量子ビットを、厳密に局所化されたフェルミオン対で符号化する大規模量子レジスタの最近の実験に触発された。 フェミオンホッピングとフェシュバッハ相互作用強度を調整することにより、SWAPゲートと高忠実度制御相ゲートを設計する方法を説明する。 以前に実証されたシングルキュービット回転と組み合わせて、これらのゲートはシステムの計算的普遍性を確立する。 さらに,2次元量子イジングハミルトニアンは,feshbach相互作用の強さを変調することで効率的にシミュレーションできることを示した。 実験的な最小限の制御を必要とする古典的シャドウプロセストモグラフィーの改良に基づき,設計ゲートとハミルトン力学を特徴付けるサンプル効率のよいプロトコルを提案する。 我々の研究は、既存の超低温量子ガスを量子情報科学に活用する新たな機会を開く。

We propose and analyze an approach to realize quantum computation and simulation using fermionic particles under quantum gas microscopes. Our work is inspired by a recent experimental demonstration of large-scale quantum registers, where tightly localized fermion pairs are used to encode qubits exhibiting long coherence time and robustness against laser intensity noise. We describe how to engineer the SWAP gate and high-fidelity controlled-phase gates by adjusting the fermion hopping as well as Feshbach interaction strengths. Combined with previously demonstrated single-qubit rotations, these gates establish the computational universality of the system. Furthermore, we show that 2D quantum Ising Hamiltonians with tunable transverse and longitudinal fields can be efficient simulated by modulating Feshbach interaction strengths. We present a sample-efficient protocol to characterize engineered gates and Hamiltonian dynamics based on an improved classical shadow process tomography that requires minimal experimental controls. Our work opens up new opportunities to harness existing ultracold quantum gases for quantum information sciences.
翻訳日:2023-06-07 14:07:22 公開日:2023-06-06
# 論理ニューラルネットワークによる発話分類:精神障害診断のための説明可能なAI

Utterance Classification with Logical Neural Network: Explainable AI for Mental Disorder Diagnosis ( http://arxiv.org/abs/2306.03902v1 )

ライセンス: Link先を確認
Yeldar Toleubay, Don Joven Agravante, Daiki Kimura, Baihan Lin, Djallel Bouneffouf, Michiaki Tatsubori(参考訳) 本稿では,精神疾患診断のための論理ニューラルネット(lnn)を用いたニューロシンボリックai手法を提案する。 精神疾患に対する効果的な治療カバレッジが欠如しているため、診断でセラピストを支援するAIソリューションが必要である。 しかし、現在のニューラルネットワークモデルは説明可能性に欠けており、セラピストには信頼できない可能性がある。 LNNは、ニューラルネットワークの学習能力と古典論理ベースのAIの推論能力を組み合わせた、リカレントニューラルネットワークアーキテクチャである。 提案システムは, 臨床面接からの入力述語を用いて精神障害クラスを出力し, 異なる述語刈り技術を用いて拡張性と高得点を達成する。 また,臨床療法士の診断を支援するための洞察抽出法も提案する。 提案システムは、現在のニューラルネットワークモデルの説明可能性の欠如に対処し、精神疾患の診断にもっと信頼できるソリューションを提供する。

In response to the global challenge of mental health problems, we proposes a Logical Neural Network (LNN) based Neuro-Symbolic AI method for the diagnosis of mental disorders. Due to the lack of effective therapy coverage for mental disorders, there is a need for an AI solution that can assist therapists with the diagnosis. However, current Neural Network models lack explainability and may not be trusted by therapists. The LNN is a Recurrent Neural Network architecture that combines the learning capabilities of neural networks with the reasoning capabilities of classical logic-based AI. The proposed system uses input predicates from clinical interviews to output a mental disorder class, and different predicate pruning techniques are used to achieve scalability and higher scores. In addition, we provide an insight extraction method to aid therapists with their diagnosis. The proposed system addresses the lack of explainability of current Neural Network models and provides a more trustworthy solution for mental disorder diagnosis.
翻訳日:2023-06-07 14:07:02 公開日:2023-06-06
# ChatDB: シンボリックメモリとしてのデータベースによるLLMの拡張

ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory ( http://arxiv.org/abs/2306.03901v1 )

ライセンス: Link先を確認
Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao, Hang Zhao(参考訳) メモリを持つ大規模言語モデル(LLM)は計算的に普遍的である。 しかし、メインストリームのLSMはメモリを十分に活用しておらず、その設計は生物学的脳の影響を強く受けている。 誤差の蓄積に近似した性質と傾向のため、従来のニューラルメモリ機構は複雑な推論をシミュレートするLLMをサポートできない。 本稿では,計算機アーキテクチャからインスピレーションを得て,複雑なマルチホップ推論のためのシンボリックメモリを付加する。 このようなシンボリックメモリフレームワークは、LCMとSQLデータベースのセットとしてインスタンス化され、LCMはSQLデータベースを操作するSQL命令を生成する。 複雑な推論を必要とする合成データセット上で提案するメモリフレームワークの有効性を検証する。 プロジェクトのwebサイトはhttps://chatdatabase.github.io/で入手できる。

Large language models (LLMs) with memory are computationally universal. However, mainstream LLMs are not taking full advantage of memory, and the designs are heavily influenced by biological brains. Due to their approximate nature and proneness to the accumulation of errors, conventional neural memory mechanisms cannot support LLMs to simulate complex reasoning. In this paper, we seek inspiration from modern computer architectures to augment LLMs with symbolic memory for complex multi-hop reasoning. Such a symbolic memory framework is instantiated as an LLM and a set of SQL databases, where the LLM generates SQL instructions to manipulate the SQL databases. We validate the effectiveness of the proposed memory framework on a synthetic dataset requiring complex reasoning. The project website is available at https://chatdatabase.github.io/ .
翻訳日:2023-06-07 14:06:49 公開日:2023-06-06
# Model Spider: 事前学習モデルのランク付けを効果的に行う

Model Spider: Learning to Rank Pre-Trained Models Efficiently ( http://arxiv.org/abs/2306.03900v1 )

ライセンス: Link先を確認
Yi-Kai Zhang, Ting-Ji Huang, Yao-Xiang Ding, De-Chuan Zhan, Han-Jia Ye(参考訳) モデル動物園からPTM(Pre-Trained Model)がどのタスクに適合するかを判断することは、豊富なモデルリソースを活用するために不可欠である。 多様な分野から多種多様なptmが利用可能であるため、すべてのptmに対して前方または後方のパスを行う時間的コストがかかるため、最適なptmを効率的に選択することは困難である。 本稿では,これらの特徴をベクトルに要約することで,PTMとタスクの両方をトークン化するモデルスパイダーを提案する。 モデルのスパイダーは、個別のトレーニングタスクでPTMの近似パフォーマンスを活用することで、トークンを構築し、モデルとタスクのペア間の適合度スコアをトークンを介して測定することを学ぶ。 関連するPTMを他のものよりも高くランク付けする能力は、新しいタスクに一般化される。 トップランクのPTM候補では、PTM固有のセマンティクスでタスクトークンを豊かにすることで、より優れた選択のためにPTMを再ランクする。 モデルスパイダーは効率と選択能力のバランスをとり、ptmの選択をクモの巣のようにweb上で行う。 Model Spiderは、モデル動物園の様々な構成で有望なパフォーマンスを示す。

Figuring out which Pre-Trained Model (PTM) from a model zoo fits the target task is essential to take advantage of plentiful model resources. With the availability of numerous heterogeneous PTMs from diverse fields, efficiently selecting the most suitable PTM is challenging due to the time-consuming costs of carrying out forward or backward passes over all PTMs. In this paper, we propose Model Spider, which tokenizes both PTMs and tasks by summarizing their characteristics into vectors to enable efficient PTM selection. By leveraging the approximated performance of PTMs on a separate set of training tasks, Model Spider learns to construct tokens and measure the fitness score between a model-task pair via their tokens. The ability to rank relevant PTMs higher than others generalizes to new tasks. With the top-ranked PTM candidates, we further learn to enrich task tokens with their PTM-specific semantics to re-rank the PTMs for better selection. Model Spider balances efficiency and selection ability, making PTM selection like a spider preying on a web. Model Spider demonstrates promising performance in various configurations of model zoos.
翻訳日:2023-06-07 14:06:08 公開日:2023-06-06
# ビジョンファウンデーションモデルによるラベルなしシーン理解に向けて

Towards Label-free Scene Understanding by Vision Foundation Models ( http://arxiv.org/abs/2306.03899v1 )

ライセンス: Link先を確認
Runnan Chen, Youquan Liu, Lingdong Kong, Nenglun Chen, Xinge Zhu, Yuexin Ma, Tongliang Liu, Wenping Wang(参考訳) Contrastive Vision-Language Pre-Training (CLIP) や Segment Anything (SAM) のような視覚基礎モデルは、画像分類やセグメンテーションタスクにおいて印象的なゼロショット性能を示している。 しかし, ラベルなしシーン理解のためのCLIPとSAMの組み入れはまだ検討されていない。 本稿では,ラベル付きデータなしで2次元世界と3次元世界を理解可能にするビジョン基盤モデルの可能性を検討する。 主な課題は、非常にノイズの多い擬似ラベルの下でネットワークを効果的に監視することであり、これはCLIPによって生成され、2Dから3Dドメインへの伝播中にさらに悪化する。 これらの課題に対処するために,CLIPとSAMの強みを利用して同時に2Dと3Dネットワークを監督するクロスモダリティノイズスーパービジョン(CNS)手法を提案する。 特に,コトレイン2Dおよび3Dネットワークに対して予測整合性正則化を導入し,さらにSAMの頑健な特徴表現を用いた遅延空間整合性を示す。 屋内および屋外の多様なデータセットを用いた実験は,2次元および3次元オープン環境の理解において,本手法の優れた性能を示す。 我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。 nuScenesデータセットでは、パフォーマンスが26.8%、6%向上しています。 コードはリリースされます(https://github.com/runnanchen/Label-Free-Scene-Understanding)。

Vision foundation models such as Contrastive Vision-Language Pre-training (CLIP) and Segment Anything (SAM) have demonstrated impressive zero-shot performance on image classification and segmentation tasks. However, the incorporation of CLIP and SAM for label-free scene understanding has yet to be explored. In this paper, we investigate the potential of vision foundation models in enabling networks to comprehend 2D and 3D worlds without labelled data. The primary challenge lies in effectively supervising networks under extremely noisy pseudo labels, which are generated by CLIP and further exacerbated during the propagation from the 2D to the 3D domain. To tackle these challenges, we propose a novel Cross-modality Noisy Supervision (CNS) method that leverages the strengths of CLIP and SAM to supervise 2D and 3D networks simultaneously. In particular, we introduce a prediction consistency regularization to co-train 2D and 3D networks, then further impose the networks' latent space consistency using the SAM's robust feature representation. Experiments conducted on diverse indoor and outdoor datasets demonstrate the superior performance of our method in understanding 2D and 3D open environments. Our 2D and 3D network achieves label-free semantic segmentation with 28.4% and 33.5% mIoU on ScanNet, improving 4.7% and 7.9%, respectively. And for nuScenes dataset, our performance is 26.8% with an improvement of 6%. Code will be released (https://github.com/runnanchen/Label-Free-Scene-Understanding).
翻訳日:2023-06-07 14:05:34 公開日:2023-06-06
# コスト認識型連続学習における文脈適応の高速化

Fast Context Adaptation in Cost-Aware Continual Learning ( http://arxiv.org/abs/2306.03887v1 )

ライセンス: Link先を確認
Seyyidahmed Lahmer, Federico Mason, Federico Chiariotti, Andrea Zanella(参考訳) 近年,DRLは時間変動統計量を持つ複雑なネットワークにおいて,効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。 しかし、5GとBeyondネットワークの複雑さが増大するにつれて、より複雑な学習エージェントが必要となり、学習プロセス自体が通信や計算リソースのためにユーザと競合することになるかもしれない。 これは摩擦を引き起こします:一方、学習プロセスは効果的な戦略に素早く収束するためにリソースを必要とします。一方、学習プロセスは効率的でなければなりません。 本稿では,このトレードオフを調査し,データプレーンに割り当てられたリソースと学習用に確保されたリソースのバランスをとるための動的戦略を提案する。 提案手法では,学習エージェントが効率的なリソース割り当て戦略に迅速に収束し,clパラダイムと同様に環境の変化に適応し,ユーザのqosへの影響を最小限に抑えることができる。 シミュレーションの結果,提案手法は最小学習オーバヘッドで静的割当法を上回り,理想的なclソリューションの性能にほぼ達することがわかった。

In the past few years, DRL has become a valuable solution to automatically learn efficient resource management strategies in complex networks with time-varying statistics. However, the increased complexity of 5G and Beyond networks requires correspondingly more complex learning agents and the learning process itself might end up competing with users for communication and computational resources. This creates friction: on the one hand, the learning process needs resources to quickly convergence to an effective strategy; on the other hand, the learning process needs to be efficient, i.e., take as few resources as possible from the user's data plane, so as not to throttle users' QoS. In this paper, we investigate this trade-off and propose a dynamic strategy to balance the resources assigned to the data plane and those reserved for learning. With the proposed approach, a learning agent can quickly converge to an efficient resource allocation strategy and adapt to changes in the environment as for the CL paradigm, while minimizing the impact on the users' QoS. Simulation results show that the proposed method outperforms static allocation methods with minimal learning overhead, almost reaching the performance of an ideal out-of-band CL solution.
翻訳日:2023-06-07 14:04:38 公開日:2023-06-06
# 因果的介入は共通理解のための暗黙的状況モデルを明らかにする

Causal interventions expose implicit situation models for commonsense language understanding ( http://arxiv.org/abs/2306.03882v1 )

ライセンス: Link先を確認
Takateru Yamakoshi, James L. McClelland, Adele E. Goldberg, Robert D. Hawkins(参考訳) 人間の言語処理のアカウントは、関連性はあるが未定の世界の知識に対する理解を深める暗黙の「situation model」に長い間訴えてきた。 本稿では,近年の変圧器モデルに因果介入手法を適用し,一文脈cueがあいまいな代名詞の解釈をシフトさせるWonograd Schema Challenge(WSC)の性能解析を行う。 我々は、代名詞が最終的に出席する候補名詞句のどれを案内する文脈語から情報を伝達する比較的小さな注意ヘッドの回路を特定する。 次に,この回路の動作を,状況モデルが厳密には必要でない‘合成’制御で比較する。 これらの分析は、代名詞分解を導くために暗黙的状況モデルが構築される異なる経路を示唆する。

Accounts of human language processing have long appealed to implicit ``situation models'' that enrich comprehension with relevant but unstated world knowledge. Here, we apply causal intervention techniques to recent transformer models to analyze performance on the Winograd Schema Challenge (WSC), where a single context cue shifts interpretation of an ambiguous pronoun. We identify a relatively small circuit of attention heads that are responsible for propagating information from the context word that guides which of the candidate noun phrases the pronoun ultimately attends to. We then compare how this circuit behaves in a closely matched ``syntactic'' control where the situation model is not strictly necessary. These analyses suggest distinct pathways through which implicit situation models are constructed to guide pronoun resolution.
翻訳日:2023-06-07 14:04:18 公開日:2023-06-06
# SI-LSTM:会話における感情認識のための話者ハイブリッド長短記憶とクロスモーダル注意

SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation ( http://arxiv.org/abs/2305.03506v3 )

ライセンス: Link先を確認
Xingwei Liang, You Zou, Ruifeng Xu(参考訳) 会話における感情認識(erc)は、インテリジェントな医療、会話のための人工知能、チャット履歴に関する意見のマイニングなど、さまざまなアプリケーションにとって極めて重要である。 ERCの要点は、会話全体での相互モダリティと相互時間相互作用の両方をモデル化することである。 従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。 本稿では,ERCタスクにおける話者情報強化長短記憶(SI-LSTM)と呼ばれる繰り返し構造を提案する。 さらに、ercにおけるマルチモーダル特徴の学習を改善するために、クロスモーダル注意成分を用いて、異なるモーダリティ間の特徴を融合させ、異なるモーダリティから重要な情報の相互作用をモデル化する。 2つのベンチマークデータセットの実験結果は、マルチモーダルデータに基づくERCタスクにおける最先端のベースライン手法に対する提案したSI-LSTMの優位性を示している。

Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data.
翻訳日:2023-06-07 12:17:51 公開日:2023-06-06
# LIDA:大規模言語モデルを用いた文法非依存可視化とインフォグラフィックの自動生成ツール

LIDA: A Tool for Automatic Generation of Grammar-Agnostic Visualizations and Infographics using Large Language Models ( http://arxiv.org/abs/2303.02927v3 )

ライセンス: Link先を確認
Victor Dibia(参考訳) 可視化の自動生成でユーザをサポートするシステムは、データのセマンティクスを理解し、関連する視覚化目標を列挙し、視覚化仕様を生成する、いくつかのサブタスクに対処しなければならない。 本研究では,多段階生成問題として可視化生成を行い,チャットgpt/gpt-4や画像生成モデル(igms)といった大規模言語モデル(llm)に基づくパイプラインがこれらの課題に適していると主張する。 本稿では,文法に依存しないビジュアライゼーションとインフォグラフィックを生成するための新しいツールLIDAを提案する。 LIDAは4つのモジュールから構成される - データはリッチだがコンパクトな自然言語の要約に変換するSUMMARIZER、データに与えられた視覚化目標を列挙するGOAL EXPLORER、視覚化コードを生成し、洗練し、実行し、フィルタするVISGENERATOR、IGMを使用してデータに忠実なスタイリングされたグラフィックを生成するINFOGRAPHERモジュール。 LIDAは、python apiとインタラクティブチャート、インフォグラフィック、データストーリー生成のためのハイブリッドユーザインタフェース(直接操作と多言語自然言語)を提供する。 プロジェクトの詳細はhttps://microsoft.github.io/lida/。

Systems that support users in the automatic creation of visualizations must address several subtasks - understand the semantics of data, enumerate relevant visualization goals and generate visualization specifications. In this work, we pose visualization generation as a multi-stage generation problem and argue that well-orchestrated pipelines based on large language models (LLMs) such as ChatGPT/GPT-4 and image generation models (IGMs) are suitable to addressing these tasks. We present LIDA, a novel tool for generating grammar-agnostic visualizations and infographics. LIDA comprises of 4 modules - A SUMMARIZER that converts data into a rich but compact natural language summary, a GOAL EXPLORER that enumerates visualization goals given the data, a VISGENERATOR that generates, refines, executes and filters visualization code and an INFOGRAPHER module that yields data-faithful stylized graphics using IGMs. LIDA provides a python api, and a hybrid user interface (direct manipulation and multilingual natural language) for interactive chart, infographics and data story generation. Learn more about the project here - https://microsoft.github.io/lida/
翻訳日:2023-06-07 12:17:31 公開日:2023-06-06
# 補助材料を用いたL0規則化最小二乗の安全ピーリング

Safe Peeling for L0-Regularized Least-Squares with supplementary material ( http://arxiv.org/abs/2302.14471v4 )

ライセンス: Link先を確認
Th\'eo Guyard, Gilles Monnoyer, Cl\'ement Elvira, C\'edric Herzet(参考訳) 分岐境界(BnB)アルゴリズムを用いてL0正規化最小二乗問題の解法を高速化する「安全剥離」と呼ばれる新しい手法を提案する。 提案手法により,BnB決定木の各ノードで考慮される凸緩和を緩和し,より積極的な刈り取りが可能となる。 数値シミュレーションにより,提案手法が探索対象ノード数,全解時間において有意な向上をもたらし,提案手法が探索対象ノード数,全解時間において有意な向上をもたらすことが示された。

We introduce a new methodology dubbed ``safe peeling'' to accelerate the resolution of L0-regularized least-squares problems via a Branch-and-Bound (BnB) algorithm. Our procedure enables to tighten the convex relaxation considered at each node of the BnB decision tree and therefore potentially allows for more aggressive pruning. Numerical simulations show that our proposed methodology leads to significant gains in terms of number of nodes explored and overall solving time.s show that our proposed methodology leads to significant gains in terms of number of nodes explored and overall solving time.
翻訳日:2023-06-07 12:17:07 公開日:2023-06-06
# SGDで$L_1の罰金を科す

spred: Solving $L_1$ Penalty with SGD ( http://arxiv.org/abs/2210.01212v4 )

ライセンス: Link先を確認
Liu Ziyin, Zihao Wang(参考訳) 簡単な再パラメータ化と簡単な確率勾配勾配を用いて,$L_1$制約で一般化可能な目的を最小化することを提案する。 我々の提案は、l_1$ペナルティが、重量減衰を伴う微分可能再パラメータ化と同値になるかもしれないという以前のアイデアの直接の一般化である。 提案手法である \textit{spred} が $l_1$ の完全微分可能解法であること、および再パラメータ化トリックが一般の非凸関数に対して完全に ``benign" であることを証明する。 本手法は,(1)高次元空間における関連特徴の探索を含む遺伝子選択タスクを行うためにスパースニューラルネットワークを訓練すること,(2)従来の$l_1$-penalty適用の試みが失敗しているニューラルネットワーク圧縮タスクにおいて有用であることを示す。 概念的には,深層学習と従来の統計学習とのギャップを橋渡しする。

We propose to minimize a generic differentiable objective with $L_1$ constraint using a simple reparametrization and straightforward stochastic gradient descent. Our proposal is the direct generalization of previous ideas that the $L_1$ penalty may be equivalent to a differentiable reparametrization with weight decay. We prove that the proposed method, \textit{spred}, is an exact differentiable solver of $L_1$ and that the reparametrization trick is completely ``benign" for a generic nonconvex function. Practically, we demonstrate the usefulness of the method in (1) training sparse neural networks to perform gene selection tasks, which involves finding relevant features in a very high dimensional space, and (2) neural network compression task, to which previous attempts at applying the $L_1$-penalty have been unsuccessful. Conceptually, our result bridges the gap between the sparsity in deep learning and conventional statistical learning.
翻訳日:2023-06-07 12:16:55 公開日:2023-06-06
# ANN構造を改善するためのヨードニューラルネットワークへの変換

Transforming to Yoked Neural Networks to Improve ANN Structure ( http://arxiv.org/abs/2306.02157v2 )

ライセンス: Link先を確認
Xinshun Liu and Yizhi Fang and Yichao Jiang(参考訳) 既存のほとんどの古典的人工ニューラルネットワーク(ANN)は、ニューラルネットワークを模倣する木構造として設計されている。 本稿では,ニューラルネットワークを特徴付けるのに,木の接続性は十分ではないと論じる。 木の同じレベルのノードは互いに接続できない、すなわちこれらの神経ユニットは互いに情報を共有できない、これはANNの大きな欠点である。 近年、ANNは有向非巡回グラフ(DAG)のようなより複雑な構造へと大幅に改善されているが、これらの手法はANNに対して一方向および非巡回バイアスを持つ。 本稿では,神経モジュールを定式化するために,同じレベルのノードをヨークスする ann の同じレベルのノードに対して,双方向完全グラフを構築する手法を提案する。 われわれのモデルを略してYNNと呼んでいる。 YNNは情報伝達を著しく促進し、明らかに手法の性能向上に寄与する。 我々のYNNは、従来のANNよりもずっとよくニューラルネットワークを模倣することができます。 本稿では、ANNの既存の構造バイアスを分析し、そのような構造バイアスを効率的に除去するモデルYNNを提案する。 我々のモデルでは、ノードは特徴の集約と変換を行い、エッジは情報の流れを決定する。 さらに,接続性の分布に補助的なスパーシティ制約を課し,重要な接続に焦点をあてる学習構造を促進する。 最後に、最適化された構造に基づいて、YNNモデルの計算負担を軽減するため、最小カット法に基づく小さなニューラルモジュール構造も設計する。 この学習プロセスは、既存のネットワークと異なるタスクと互換性がある。 得られた定量的実験結果は,学習した接続性が従来のnn構造よりも優れていることを示唆する。

Most existing classical artificial neural networks (ANN) are designed as a tree structure to imitate neural networks. In this paper, we argue that the connectivity of a tree is not sufficient to characterize a neural network. The nodes of the same level of a tree cannot be connected with each other, i.e., these neural unit cannot share information with each other, which is a major drawback of ANN. Although ANN has been significantly improved in recent years to more complex structures, such as the directed acyclic graph (DAG), these methods also have unidirectional and acyclic bias for ANN. In this paper, we propose a method to build a bidirectional complete graph for the nodes in the same level of an ANN, which yokes the nodes of the same level to formulate a neural module. We call our model as YNN in short. YNN promotes the information transfer significantly which obviously helps in improving the performance of the method. Our YNN can imitate neural networks much better compared with the traditional ANN. In this paper, we analyze the existing structural bias of ANN and propose a model YNN to efficiently eliminate such structural bias. In our model, nodes also carry out aggregation and transformation of features, and edges determine the flow of information. We further impose auxiliary sparsity constraint to the distribution of connectedness, which promotes the learned structure to focus on critical connections. Finally, based on the optimized structure, we also design small neural module structure based on the minimum cut technique to reduce the computational burden of the YNN model. This learning process is compatible with the existing networks and different tasks. The obtained quantitative experimental results reflect that the learned connectivity is superior to the traditional NN structure.
翻訳日:2023-06-07 12:11:03 公開日:2023-06-06
# MultiLegalPile: 689GBの多言語法的コーパス

MultiLegalPile: A 689GB Multilingual Legal Corpus ( http://arxiv.org/abs/2306.02069v2 )

ライセンス: Link先を確認
Joel Niklaus, Veton Matoshi, Matthias St\"urmer, Ilias Chalkidis, Daniel E. Ho(参考訳) 大規模かつ高品質なデータセットは、大規模言語モデル(LLM)のトレーニングに不可欠である。 しかし、今のところ、法のような専門的な重要なドメインで利用可能なデータセットはほとんどなく、利用可能なデータセットは英語のみに限られることが多い。 我々は17の管轄区域から24の言語で689GBのコーパスであるMultiLegalPileをキュレートしてリリースする。 MultiLegalPile corpus は様々なライセンスを持つ様々な法的データソースを含み、Erlex Resources および Legal mC4 サブセットのより寛容なライセンスを持つ、公正な使用下で NLP モデルを事前訓練することができる。 2つのrobertaモデルと1つのlongformer多言語モデルと24個の単言語モデルをそれぞれ言語固有のサブセットで事前学習し,lextremeで評価した。 さらに、LexGLUE上での英語および多言語モデルの評価を行った。 我々の多言語モデルは、LEXTREME上の新しいSotAとLexGLUE上の英語モデルを設定した。 私たちはデータセット、トレーニングされたモデル、そして最もオープンなライセンスの下ですべてのコードをリリースします。

Large, high-quality datasets are crucial for training Large Language Models (LLMs). However, so far, there are few datasets available for specialized critical domains such as law and the available ones are often only for the English language. We curate and release MultiLegalPile, a 689GB corpus in 24 languages from 17 jurisdictions. The MultiLegalPile corpus, which includes diverse legal data sources with varying licenses, allows for pretraining NLP models under fair use, with more permissive licenses for the Eurlex Resources and Legal mC4 subsets. We pretrain two RoBERTa models and one Longformer multilingually, and 24 monolingual models on each of the language-specific subsets and evaluate them on LEXTREME. Additionally, we evaluate the English and multilingual models on LexGLUE. Our multilingual models set a new SotA on LEXTREME and our English models on LexGLUE. We release the dataset, the trained models, and all of the code under the most open possible licenses.
翻訳日:2023-06-07 12:10:39 公開日:2023-06-06
# 関係抽出のための深層学習に関する包括的調査:最近の進歩と新たなフロンティア

A Comprehensive Survey on Deep Learning for Relation Extraction: Recent Advances and New Frontiers ( http://arxiv.org/abs/2306.02051v2 )

ライセンス: Link先を確認
Xiaoyan Zhao, Yang Deng, Min Yang, Lingzhi Wang, Rui Zhang, Hong Cheng, Wai Lam, Ying Shen, Ruifeng Xu(参考訳) 関係抽出(RE)は、非構造化テキストからエンティティ間の関係を識別する。 REは知識グラフ補完、質問応答、情報検索など、多くの自然言語処理(NLP)アプリケーションの基礎として機能する。 近年、深層ニューラルネットワークがREの分野を支配し、顕著な進歩を遂げている。 その後、大規模な事前訓練言語モデル(PLM)がREの最先端を新たなレベルに引き上げた。 この調査は、REのための既存のディープラーニング技術に関する包括的なレビューを提供する。 まず,再データセットと評価指標を含む再資源を紹介する。 次に,既存の作品をテキスト表現,コンテキストエンコーディング,トリプレット予測という3つの視点から分類する新しい分類法を提案する。 第3に、REが直面しているいくつかの重要な課題について議論し、これらの課題に取り組むための潜在的テクニックを要約する。 最後に,この分野の今後の方向性と展望について概説する。 この調査は、リアルタイムREシステムの課題に取り組む研究者の協力活動を促進することが期待されている。

Relation extraction (RE) involves identifying the relations between entities from unstructured texts. RE serves as the foundation for many natural language processing (NLP) applications, such as knowledge graph completion, question answering, and information retrieval. In recent years, deep neural networks have dominated the field of RE and made noticeable progress. Subsequently, the large pre-trained language models (PLMs) have taken the state-of-the-art of RE to a new level. This survey provides a comprehensive review of existing deep learning techniques for RE. First, we introduce RE resources, including RE datasets and evaluation metrics. Second, we propose a new taxonomy to categorize existing works from three perspectives (text representation, context encoding, and triplet prediction). Third, we discuss several important challenges faced by RE and summarize potential techniques to tackle these challenges. Finally, we outline some promising future directions and prospects in this field. This survey is expected to facilitate researchers' collaborative efforts to tackle the challenges of real-life RE systems.
翻訳日:2023-06-07 12:10:19 公開日:2023-06-06
# 低品質マルチモーダルデータのための確率動的融合

Provable Dynamic Fusion for Low-Quality Multimodal Data ( http://arxiv.org/abs/2306.02050v2 )

ライセンス: Link先を確認
Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, Xi Peng(参考訳) マルチモーダル融合の固有の課題は、クロスモーダル相関を正確に捉え、柔軟にクロスモーダル相互作用を実行することである。 各モダリティの値を完全に解放し、低品質のマルチモーダルデータの影響を軽減するために、有望な学習パラダイムとして動的マルチモーダル融合が出現する。 広く使われているにもかかわらず、この分野の理論的正当化はまだ顕著に欠けている。 実現可能なロバストなマルチモーダル融合法を設計できるか? 本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 我々は、堅牢なマルチモーダル融合を実現するために、いくつかの不確実性推定ソリューションが自然に利用可能であることを明らかにする。 そこで,QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。 複数のベンチマークで大規模な実験結果が得られた。

The inherent challenge of multimodal fusion is to precisely capture the cross-modal correlation and flexibly conduct cross-modal interaction. To fully release the value of each modality and mitigate the influence of low-quality multimodal data, dynamic multimodal fusion emerges as a promising learning paradigm. Despite its widespread use, theoretical justifications in this field are still notably lacking. Can we design a provably robust multimodal fusion method? This paper provides theoretical understandings to answer this question under a most popular multimodal fusion framework from the generalization perspective. We proceed to reveal that several uncertainty estimation solutions are naturally available to achieve robust multimodal fusion. Then a novel multimodal fusion framework termed Quality-aware Multimodal Fusion (QMF) is proposed, which can improve the performance in terms of classification accuracy and model robustness. Extensive experimental results on multiple benchmarks can support our findings.
翻訳日:2023-06-07 12:10:05 公開日:2023-06-06
# videocomposer: 動作制御性を有する合成ビデオ合成

VideoComposer: Compositional Video Synthesis with Motion Controllability ( http://arxiv.org/abs/2306.02018v2 )

ライセンス: Link先を確認
Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou(参考訳) ビジュアルコンテンツ作成の高水準としての制御可能性の追求は、カスタマイズ可能な画像合成の著しい進歩をもたらした。 しかし,時間力学のばらつきやフレーム間の時間的一貫性が要求されるため,制御可能な映像合成を実現することは依然として困難である。 コンポジション生成のパラダイムに基づいて、この研究は、ユーザがテキスト条件、空間条件、さらに重要な時間条件でビデオを柔軟に構成できるVideoComposerを提示する。 具体的には,映像データの特徴を考慮し,圧縮映像からの動きベクトルを明示的な制御信号として導入し,時間ダイナミクスに関するガイダンスを提供する。 さらに、逐次入力の空間的および時間的関係を効果的に組み込むための統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発し、時間的条件をよりよく利用し、フレーム間の一貫性を向上させる。 大規模な実験結果から,VideoComposerはテキスト記述,スケッチシーケンス,参照ビデオ,あるいは手作り動作など,合成ビデオ内の空間的パターンと時間的パターンを同時に制御できることが示唆された。 コードとモデルはhttps://videocomposer.github.ioで公開されている。

The pursuit of controllability as a higher standard of visual content creation has yielded remarkable progress in customizable image synthesis. However, achieving controllable video synthesis remains challenging due to the large variation of temporal dynamics and the requirement of cross-frame temporal consistency. Based on the paradigm of compositional generation, this work presents VideoComposer that allows users to flexibly compose a video with textual conditions, spatial conditions, and more importantly temporal conditions. Specifically, considering the characteristic of video data, we introduce the motion vector from compressed videos as an explicit control signal to provide guidance regarding temporal dynamics. In addition, we develop a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified interface to effectively incorporate the spatial and temporal relations of sequential inputs, with which the model could make better use of temporal conditions and hence achieve higher inter-frame consistency. Extensive experimental results suggest that VideoComposer is able to control the spatial and temporal patterns simultaneously within a synthesized video in various forms, such as text description, sketch sequence, reference video, or even simply hand-crafted motions. The code and models will be publicly available at https://videocomposer.github.io.
翻訳日:2023-06-07 12:09:49 公開日:2023-06-06
# GAD-NR 近傍再構成によるグラフ異常検出

GAD-NR: Graph Anomaly Detection via Neighborhood Reconstruction ( http://arxiv.org/abs/2306.01951v2 )

ライセンス: Link先を確認
Amit Roy, Juan Shu, Jia Li, Carl Yang, Olivier Elshocht, Jeroen Smeets and Pan Li(参考訳) Graph Anomaly Detection (GAD) は、グラフ内の異常ノードを識別し、ネットワークセキュリティ、不正検出、ソーシャルメディアスパム検出、その他さまざまな分野の応用を見つけるために用いられるテクニックである。 GADの一般的な方法は、グラフデータをノード表現にエンコードし、これらの表現に基づいてグラフの再構成品質を評価することによって異常を識別するグラフオートエンコーダ(GAE)である。 しかし、既存のGAEモデルは直接リンク再構成に最適化されており、グラフに接続されたノードは潜在空間にクラスタ化される。 その結果、クラスター型構造異常を検出するのに優れるが、クラスタに適合しないより複雑な構造異常に悩まされる。 この制限に対処するため,グラフ異常検出のための近傍再構成を組み込んだGAEの新しい変種であるGAD-NRを提案する。 GAD-NRは、ノード表現に基づいて、ローカル構造、自己属性、および隣接属性を含むノードの近傍全体を再構築することを目的としている。 異常ノードと正常ノード間の近傍再構成損失を比較することで、GAD-NRは任意の異常を効果的に検出できる。 6つの実世界のデータセットで実施された大規模な実験は、GAD-NRの有効性を検証し、最先端の競合相手よりも顕著な改善(AUCでは最大30%)を示す。 GAD-NRのソースコードが公開されている。 比較分析の結果,既存の手法は3種類の異常から1種類または2種類の異常を検出する場合にのみ有効であることが判明した。 対照的に、GAD-NRはデータセット全体の3種類の異常を検知し、その包括的な異常検出能力を示す。

Graph Anomaly Detection (GAD) is a technique used to identify abnormal nodes within graphs, finding applications in network security, fraud detection, social media spam detection, and various other domains. A common method for GAD is Graph Auto-Encoders (GAEs), which encode graph data into node representations and identify anomalies by assessing the reconstruction quality of the graphs based on these representations. However, existing GAE models are primarily optimized for direct link reconstruction, resulting in nodes connected in the graph being clustered in the latent space. As a result, they excel at detecting cluster-type structural anomalies but struggle with more complex structural anomalies that do not conform to clusters. To address this limitation, we propose a novel solution called GAD-NR, a new variant of GAE that incorporates neighborhood reconstruction for graph anomaly detection. GAD-NR aims to reconstruct the entire neighborhood of a node, encompassing the local structure, self-attributes, and neighbor attributes, based on the corresponding node representation. By comparing the neighborhood reconstruction loss between anomalous nodes and normal nodes, GAD-NR can effectively detect any anomalies. Extensive experimentation conducted on six real-world datasets validates the effectiveness of GAD-NR, showcasing significant improvements (by up to 30% in AUC) over state-of-the-art competitors. The source code for GAD-NR is openly available. Importantly, the comparative analysis reveals that the existing methods perform well only in detecting one or two types of anomalies out of the three types studied. In contrast, GAD-NR excels at detecting all three types of anomalies across the datasets, demonstrating its comprehensive anomaly detection capabilities.
翻訳日:2023-06-07 12:09:28 公開日:2023-06-06
# 算数課題の解法によるマルチステップ推論の学習

Learning Multi-Step Reasoning by Solving Arithmetic Tasks ( http://arxiv.org/abs/2306.01707v2 )

ライセンス: Link先を確認
Tianduo Wang and Wei Lu(参考訳) 数学的推論は言語モデル(LM)に必要な能力とみなされる。 最近の研究は、数学問題を解決する際に大きなlmsの印象的な性能を示す。 この成功は、複雑な質問をステップバイステップの推論チェーンに分解する能力であるCoT推論能力(Chain-of-Thought)に起因しているが、そのような能力は豊富なパラメータを持つモデルからのみ現れるようである。 本研究では, 比較的小さなLMを多段階推論機能に組み込む方法について検討する。 我々は,多段階の算術課題からなる合成データセットMsAT上で,LMを継続的に事前学習することにより,そのような能力を注入することを提案する。 4つの数学単語問題データセットに対する実験により,提案手法の有効性が示唆された。

Mathematical reasoning is regarded as a necessary ability for Language Models (LMs). Recent works demonstrate large LMs' impressive performance in solving math problems. The success is attributed to their Chain-of-Thought (CoT) reasoning abilities, i.e., the ability to decompose complex questions into step-by-step reasoning chains, but such ability seems only to emerge from models with abundant parameters. This work investigates how to incorporate relatively small LMs with the capabilities of multi-step reasoning. We propose to inject such abilities by continually pre-training LMs on a synthetic dataset MsAT which is composed of Multi-step Arithmetic Tasks. Our experiments on four math word problem datasets show the effectiveness of the proposed method in enhancing LMs' math reasoning abilities.
翻訳日:2023-06-07 12:08:59 公開日:2023-06-06
# ランドー・ツェナー転移の連続測定による量子スペクトル解析

Quantum spectral analysis by continuous measurement of Landau-Zener transitions ( http://arxiv.org/abs/2306.01622v2 )

ライセンス: Link先を確認
Christopher C. Bounds, Josh P. Duff, Alex Tritt, Hamish Taylor, George X. Coe, Sam J. White, L. D. Turner (School of Physics and Astronomy, Monash University, Melbourne, Australia)(参考訳) 本稿では,信号周波数と振幅の同時推定を単一アンサンブル量子ビットセンサによる時間依存制御下で実証する。 スパンを直線的に分割すると、クビットが共鳴するときに非断熱的なランダウ・ツェナー転移が生じる。 信号周波数は遷移の時刻と振幅をその範囲で決定する。 このユニタリ進化の連続的な弱測定は、周波数と振幅を正確に測定するパラメータ推定器に知らせる。 ファラデー・スピンライト・インタフェースで読み出された電波を装った超低温原子に実装し、振幅が20〜\text{pT}$精度で、周波数がほぼ変化しない磁気信号を、300〜\text{ms}$スイープで7〜13〜\text{kHz}$で検出する。 このプロトコルは、sweept-sine量子スペクトルアナライザを実現し、単一のアンサンブル量子ビットで数百から数千のチャネルを検知する可能性がある。

We demonstrate the simultaneous estimation of signal frequency and amplitude by a single ensemble qubit sensor under irreducibly time-dependent control. Sweeping the qubit splitting linearly across a span induces a non-adiabatic Landau-Zener transition as the qubit crosses resonance. The signal frequency determines the time of the transition, and the amplitude its extent. Continuous weak measurement of this unitary evolution informs a parameter estimator retrieving precision measurements of frequency and amplitude. Implemented on radiofrequency-dressed ultracold atoms read out by a Faraday spin-light interface, we sense a magnetic signal with $20~\text{pT}$ precision in amplitude, and near-transform-limited precision in frequency, in a single $300~\text{ms}$ sweep from $7-13~\text{kHz}$. The protocol realises a swept-sine quantum spectrum analyzer, potentially sensing hundreds or thousands of channels with a single ensemble qubit.
翻訳日:2023-06-07 12:08:47 公開日:2023-06-06
# 基準は格付け以上のことを教えてくれる - criteria preference-aware light graph convolution for effective multi-criteria recommendation

Criteria Tell You More than Ratings: Criteria Preference-Aware Light Graph Convolution for Effective Multi-Criteria Recommendation ( http://arxiv.org/abs/2305.18885v4 )

ライセンス: Link先を確認
Jin-Duk Park, Siqing Li, Xin Cao, Won-Yong Shin(参考訳) 広範囲のeコマースエリアにおけるMCレーティング情報を活用するマルチクレーター(MC)レコメンデーションシステムは,近年広く普及している。 グラフニューラルネットワーク(GNN)は、グラフ表現の学習において、GNNの表現能力が高いため、様々なレコメンデータシステムの開発に広く応用されているが、GNNでMCレコメンデータシステムを設計する方法はまだ明らかにされていない。 これを踏まえ、我々はGNN支援MCレコメンデータシステムを設計するための最初の試みを行う。 具体的には、既存のgnnベースの推奨手法をそのまま採用するのではなく、複雑な高次コネクティビティにおけるユーザの基準選好と協調信号を正確に捉えることができる、新しい基準選好認識型光グラフ畳み込みcpa-lgc法を考案する。 この目的のために,我々はまず,ユーザ主導のmc評価を拡張した2部グラフに変換するmc拡張グラフを構築し,mcレーティングにおける協調的信号から学習する。 次に, CPA-LGCは, ユーザ固有の基準基準埋め込みや項目固有の基準埋め込みなど, 新たに特徴付けられた埋め込みをグラフ畳み込みモデルに組み込む。 4つの実世界のデータセットを用いた包括的評価を通して (a)GNNを用いたベンチマークMCレコメンデーション法やベンチマークレコメンデーション法よりも優れていること。 b) CPA-LGCにおけるコアコンポーネントの有効性、及び (c)計算効率。

The multi-criteria (MC) recommender system, which leverages MC rating information in a wide range of e-commerce areas, is ubiquitous nowadays. Surprisingly, although graph neural networks (GNNs) have been widely applied to develop various recommender systems due to GNN's high expressive capability in learning graph representations, it has been still unexplored how to design MC recommender systems with GNNs. In light of this, we make the first attempt towards designing a GNN-aided MC recommender system. Specifically, rather than straightforwardly adopting existing GNN-based recommendation methods, we devise a novel criteria preference-aware light graph convolution CPA-LGC method, which is capable of precisely capturing the criteria preference of users as well as the collaborative signal in complex high-order connectivities. To this end, we first construct an MC expansion graph that transforms user--item MC ratings into an expanded bipartite graph to potentially learn from the collaborative signal in MC ratings. Next, to strengthen the capability of criteria preference awareness, CPA-LGC incorporates newly characterized embeddings, including user-specific criteria-preference embeddings and item-specific criterion embeddings, into our graph convolution model. Through comprehensive evaluations using four real-world datasets, we demonstrate (a) the superiority over benchmark MC recommendation methods and benchmark recommendation methods using GNNs with tremendous gains, (b) the effectiveness of core components in CPA-LGC, and (c) the computational efficiency.
翻訳日:2023-06-07 12:08:21 公開日:2023-06-06
# 不均衡ラベルサンプル分布を用いたファッション検出のためのデータ効率向上

Data Efficient Training with Imbalanced Label Sample Distribution for Fashion Detection ( http://arxiv.org/abs/2305.04379v5 )

ライセンス: Link先を確認
Xin Shen, Praful Agrawal, Zhongwei Cheng(参考訳) マルチラベル分類モデルは、視覚に基づくラベル予測や言語に基づく感情分類など、Eコマースに幅広い応用がある。 実世界でこれらのタスクの満足なパフォーマンスを達成する上での大きな課題は、データ分散の顕著な不均衡である。 例えば、ファッション属性検出では、ほとんどのeコマースファッションカタログにおいて、1000製品中「パフスリーブ」の服は6つしかない。 この問題に対処するために、大量のアノテーションを取得して十分なサンプルを集めるのではなく、よりデータ効率のよいモデルトレーニング手法を検討する。 本稿では,長いデータ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。 本実験では,ファッションアパレルの画像に基づく属性分類を行い,非重み付けおよび逆周波数重み付け機構と比較して,新しい重み付け法に好適な性能を示す。 ファッション業界で人気のファッション属性タイプであるスリーブタイプとアーチタイプを用いた新しい重み付け機構の堅牢性をさらに評価した。

Multi-label classification models have a wide range of applications in E-commerce, including visual-based label predictions and language-based sentiment classifications. A major challenge in achieving satisfactory performance for these tasks in the real world is the notable imbalance in data distribution. For instance, in fashion attribute detection, there may be only six 'puff sleeve' clothes among 1000 products in most E-commerce fashion catalogs. To address this issue, we explore more data-efficient model training techniques rather than acquiring a huge amount of annotations to collect sufficient samples, which is neither economic nor scalable. In this paper, we propose a state-of-the-art weighted objective function to boost the performance of deep neural networks (DNNs) for multi-label classification with long-tailed data distribution. Our experiments involve image-based attribute classification of fashion apparels, and the results demonstrate favorable performance for the new weighting method compared to non-weighted and inverse-frequency-based weighting mechanisms. We further evaluate the robustness of the new weighting mechanism using two popular fashion attribute types in today's fashion industry: sleevetype and archetype.
翻訳日:2023-06-07 12:07:52 公開日:2023-06-06
# 深層学習モデルを用いたブルンジのマラリア動態予測

Predicting malaria dynamics in Burundi using deep Learning Models ( http://arxiv.org/abs/2306.02685v2 )

ライセンス: Link先を確認
Daxelle Sakubu, Kelly Joelle Gatore Sinigirira, David Niyukuri(参考訳) マラリアはアフリカ大陸、特にサハラ以南のアフリカにおける主要な公衆衛生問題であり続けている。 それでも努力は進行中であり、大きな進歩を遂げている。 ブルンジでは、マラリアが主要な公衆衛生上の懸念事項である。 文献ではブルンジの予測モデルが限定されている。 このようなツールは、介入設計にとても必要です。 本研究では,ブルンジのマラリアを推定する機械学習モデルを構築した。 地域レベルでも全国的にもマラリア発生率の予測が実施された。 長期記憶モデル(LSTM)は、マラリアの歴史的データやヒトの人口とともに、気温、雨水、相対湿度といった気候変動に関連する要因を用いて、最良の学習結果を得るために用いられてきた。 このモデルを用いて, 国レベルでは, マラリア症例の最小値と最大値を決定するために, 異なるパラメータのチューニングが利用できることを示した。 以前のマラリア症例の動態から学習した一変量モデル (LSTM) は、地域レベルでより正確な推定値を与えるが、どちらのモデルも、プロヴァンスレベルと国レベルでは全体的に同じ傾向を持つ。

Malaria continues to be a major public health problem on the African continent, particularly in Sub-Saharan Africa. Nonetheless, efforts are ongoing, and significant progress has been made. In Burundi, malaria is among the main public health concerns. In the literature, there are limited prediction models for Burundi. We know that such tools are much needed for interventions design. In our study, we built machine-learning based models to estimates malaria cases in Burundi. The forecast of malaria cases was carried out at province level and national scale as well. Long short term memory (LSTM) model, a type of deep learning model has been used to achieve best results using climate-change related factors such as temperature, rainfal, and relative humidity, together with malaria historical data and human population. With this model, the results showed that at country level different tuning of parameters can be used in order to determine the minimum and maximum expected malaria cases. The univariate version of that model (LSTM) which learns from previous dynamics of malaria cases give more precise estimates at province-level, but both models have same trends overall at provnce-level and country-level
翻訳日:2023-06-07 12:02:19 公開日:2023-06-06
# デュアルドメインスパースCT再構成のための学習置換最小化アルゴリズム

Learned Alternating Minimization Algorithm for Dual-domain Sparse-View CT Reconstruction ( http://arxiv.org/abs/2306.02644v2 )

ライセンス: Link先を確認
Chi Ding, Qingchao Zhang, Ge Wang, Xiaojing Ye and Yunmei Chen(参考訳) 両領域のスパース・ビューCT画像再構成のためのLearned Alternating Minimization Algorithm (LAMA)を提案する。 lamaは、画像領域とシンノグラム領域の両方のディープネットワークの複合関数としてパラメータ化される学習可能な非スムース非凸正規化子を用いたct再構成のための変分モデルによって自然に誘導される。 モデルの目的を最小化するために,スムース化手法と残差学習アーキテクチャをlamaの設計に取り入れる。 LAMAはネットワークの複雑さを大幅に減らし、メモリ効率と再構築精度を向上し、信頼性の高い再構築に確実に収束していることを示す。 大規模な数値実験により、LAMAは、複数のベンチマークCTデータセットにおいて、既存の手法よりも広いマージンで優れていることが示された。

We propose a novel Learned Alternating Minimization Algorithm (LAMA) for dual-domain sparse-view CT image reconstruction. LAMA is naturally induced by a variational model for CT reconstruction with learnable nonsmooth nonconvex regularizers, which are parameterized as composite functions of deep networks in both image and sinogram domains. To minimize the objective of the model, we incorporate the smoothing technique and residual learning architecture into the design of LAMA. We show that LAMA substantially reduces network complexity, improves memory efficiency and reconstruction accuracy, and is provably convergent for reliable reconstructions. Extensive numerical experiments demonstrate that LAMA outperforms existing methods by a wide margin on multiple benchmark CT datasets.
翻訳日:2023-06-07 12:02:01 公開日:2023-06-06
# 安定拡散は不安定です

Stable Diffusion is Unstable ( http://arxiv.org/abs/2306.02583v2 )

ライセンス: Link先を確認
Chengbin Du, Yanxi Li, Zhongwei Qiu, Chang Xu(参考訳) 近年,テキスト対画像モデルが盛んである。 その強力な生成能力にもかかわらず、我々の研究は、この世代のプロセスにおける堅牢さの欠如を明らかにしました。 具体的には、テキストプロンプトに小さな摂動を導入することで、他のカテゴリと主主題が混ざり合ったり、生成された画像に完全に消えたりする可能性がある。 本稿では,このような摂動を効果的かつ効率的に生成するために,勾配に基づく手法であるテキスト・ツー・イメージモデル(atm)の自動攻撃を提案する。 Gumbel Softmax分布を学習することにより、単語置換や拡張の離散的な過程を連続的に行うことができ、摂動生成の微分可能性を確保することができる。 配信が学習されると、ATMは複数の攻撃サンプルを同時にサンプリングできる。 これらの攻撃サンプルは、画像の品質を損なうことなく、生成モデルが所望の被写体を生成するのを防ぐことができる。 ATMは短文攻撃で91.1%の成功率、長文攻撃で81.2%の成功率を達成した。 さらなる実証分析により、以下の4つの攻撃パターンが明らかになった。 1) 発生速度の変動性。 2)粗粒度特性の類似性 3)言葉の多義性,及び 4) 単語の位置決め。

Recently, text-to-image models have been thriving. Despite their powerful generative capacity, our research has uncovered a lack of robustness in this generation process. Specifically, the introduction of small perturbations to the text prompts can result in the blending of primary subjects with other categories or their complete disappearance in the generated images. In this paper, we propose Auto-attack on Text-to-image Models (ATM), a gradient-based approach, to effectively and efficiently generate such perturbations. By learning a Gumbel Softmax distribution, we can make the discrete process of word replacement or extension continuous, thus ensuring the differentiability of the perturbation generation. Once the distribution is learned, ATM can sample multiple attack samples simultaneously. These attack samples can prevent the generative model from generating the desired subjects without compromising image quality. ATM has achieved a 91.1% success rate in short-text attacks and an 81.2% success rate in long-text attacks. Further empirical analysis revealed four attack patterns based on: 1) the variability in generation speed, 2) the similarity of coarse-grained characteristics, 3) the polysemy of words, and 4) the positioning of words.
翻訳日:2023-06-07 12:01:47 公開日:2023-06-06
# 超音波画像による頸動脈狭窄の3次元インフレーション変換

Inflated 3D Convolution-Transformer for Weakly-supervised Carotid Stenosis Grading with Ultrasound Videos ( http://arxiv.org/abs/2306.02548v2 )

ライセンス: Link先を確認
Xinrui Zhou, Yuhao Huang, Wufeng Xue, Xin Yang, Yuxin Zou, Qilong Ying, Yuanji Zhang, Jia Liu, Jie Ren, Dong Ni(参考訳) 臨床における頸動脈狭窄度(CSG)の診断には, 血管の最も狭い位置とそれに対応する血管と残存血管の脱線が不可欠である。 しかし、パイプラインは、プラークと時間的変動のあいまいな境界のため、時間がかかり、難しい。 この手順を自動化するには、多くの手作業による記述が必要になるが、これは手間がかかるだけでなく、アノテーションの難しさから信頼性も低い。 本研究では,CSGの自動分類のための最初のビデオ分類フレームワークを提案する。 私たちの貢献は3倍です。 まず, 冗長で信頼できないアノテーションの要求を避けるために, 弱教師付きcsgのための新しい効果的なビデオ分類ネットワークを提案する。 第二に、モデルのトレーニングを容易にするために、トレーニング済みの2D畳み込み重みをネットワーク内の3Dに適合させることができるネットワークのインフレーション戦略を採用する。 このように、既存の事前学習された大規模モデルは、ネットワークの効果的なウォームスタートとして使用できる。 第3に,2つの軽量な多次元アテンション機構を設計した空間的・時間的空間的・空間的相互依存をモデル化・統合するための,新しい注意誘導多次元フュージョン(AMDF)トランスフォーマエンコーダを提案する。 提案手法は,大容量の頸動脈ビデオデータセットで広く検証され,競合相手と比較して最先端の性能が示された。

Localization of the narrowest position of the vessel and corresponding vessel and remnant vessel delineation in carotid ultrasound (US) are essential for carotid stenosis grading (CSG) in clinical practice. However, the pipeline is time-consuming and tough due to the ambiguous boundaries of plaque and temporal variation. To automatize this procedure, a large number of manual delineations are usually required, which is not only laborious but also not reliable given the annotation difficulty. In this study, we present the first video classification framework for automatic CSG. Our contribution is three-fold. First, to avoid the requirement of laborious and unreliable annotation, we propose a novel and effective video classification network for weakly-supervised CSG. Second, to ease the model training, we adopt an inflation strategy for the network, where pre-trained 2D convolution weights can be adapted into the 3D counterpart in our network. In this way, the existing pre-trained large model can be used as an effective warm start for our network. Third, to enhance the feature discrimination of the video, we propose a novel attention-guided multi-dimension fusion (AMDF) transformer encoder to model and integrate global dependencies within and across spatial and temporal dimensions, where two lightweight cross-dimensional attention mechanisms are designed. Our approach is extensively validated on a large clinically collected carotid US video dataset, demonstrating state-of-the-art performance compared with strong competitors.
翻訳日:2023-06-07 12:01:31 公開日:2023-06-06
# グラフ状態を用いた量子マルチパラメータ推定

Quantum multiparameter estimation with graph states ( http://arxiv.org/abs/2306.02518v2 )

ライセンス: Link先を確認
Hong Tao, Xiaoqing Tan(参考訳) SU(2)力学では、最適な最適マルチパラメータ推定を実現することは特に重要であるが、非常に難しい。 SU(N)ダイナミクスの進化は、量子ネットワークを用いた同時マルチパラメータ推定の研究手法である。 高度に絡み合った状態であるグラフ状態は、量子力学の本質的な量子資源である。 n-qubit グラフ状態に対して,SU(N) ダイナミクスの進化を研究する同時マルチパラメータ推定法を提案する。 単パラメータ推定では、SU(2) の高次元スピンにおけるハイゼンベルク極限を超える精度限界が与えられる。 ハミルトニアン作用素がそれぞれ可換かつ非可換である2つのシナリオを考察し、大域的推定精度が局所的推定精度よりも高いことを検証する。 パラメータ限界条件では、各パラメータの同時推定のためのパラメータ推定の精度は、単パラメータ推定の精度と等しい。 さらに、ダイナミクス SU(N) に依存する精度向上スキームが見つかる。 動力学進化の n が小さくなればなるほど、パラメータ推定の精度は高まる。 最後に、グラフ状態が量子計量学の最適状態であることを証明し、最適な測定基準のセットを見つけることができ、マルチパラメータ推定の精度限界は量子Cram\'er-Rao境界に達することができる。

In the SU(2) dynamics, it is especially significant to achieve a simultaneous optimal multiparameter estimation but it is very difficult. Evolution on SU(N) dynamics is a research method to explore simultaneous multiparameter estimation with the quantum network. As the highly entangled states, graph state, is an intrinsical quantum resource for quantum metrology. For n-qubit graph state, we propose a simultaneous multiparameter estimation scheme that investigates evolution in SU(N) dynamics. For single-parameter estimation, the precision limit beyond the Heisenberg limit in the higher dimension spin of SU(2). We consider two scenarios where the Hamiltonian operator is commutation and non-commutation respectively and verify that the global estimation precision is higher than the local estimation precision. In the parameter limit condition, the precision of parameter estimation for the simultaneous estimation of each parameter is equal to the precision of the singleparameter estimation. In addition, we find a precision-enhancement scheme that depends on the dynamics SU(N). The smaller the N for the dynamics evolution, the higher the precision of the parameter estimation. Finally, we prove that the graph state is the optimal state of quantum metrology, a set of optimal measurement basic can be found, and the precision limit of multiparameter estimation can attain the quantum Cram\'er-Rao bound.
翻訳日:2023-06-07 12:01:07 公開日:2023-06-06
# Polyak-{\L}ojasiewicz条件下での2レベル学習のための一般化交替法

A Generalized Alternating Method for Bilevel Learning under the Polyak-{\L}ojasiewicz Condition ( http://arxiv.org/abs/2306.02422v2 )

ライセンス: Link先を確認
Quan Xiao, Songtao Lu, Tianyi Chen(参考訳) ハイパーパラメータ最適化、メタラーニング、強化学習といった新しい機械学習分野への応用により、最近、バイレベル最適化への関心が高まっている。 近年の研究では,単純交互(簡易)勾配に基づくアルゴリズムが,強凸低レベル目標を持つ2レベル問題に対して,単段勾配降下 (gd) の収束率を同一にできることを示した。 しかし、この結果がこの基本的な設定を超えた双レベル問題に一般化できるかどうかは不明である。 本稿では,ポリアック-{\L}ojasiewicz (PL) 条件を満たす非凸な低レベル目的を持つ二値オプティミゼーション(GALET)のための一般化アルテネートmEthodを提案する。 まず,既存の計量を一般化した二値問題を考えるための定常計量を導入する。 次に、galet は、滑らかな非凸問題に対する gd の反復複雑性と一致する $\tilde{\cal o}(\epsilon^{-1})$ の反復内で、考慮された問題に対して $\epsilon$-stationary metric を達成する。

Bilevel optimization has recently regained interest owing to its applications in emerging machine learning fields such as hyperparameter optimization, meta-learning, and reinforcement learning. Recent results have shown that simple alternating (implicit) gradient-based algorithms can achieve the same convergence rate of single-level gradient descent (GD) for bilevel problems with a strongly convex lower-level objective. However, it remains unclear whether this result can be generalized to bilevel problems beyond this basic setting. In this paper, we propose a Generalized ALternating mEthod for bilevel opTimization (GALET) with a nonconvex lower-level objective that satisfies the Polyak-{\L}ojasiewicz (PL) condition. We first introduce a stationary metric for the considered bilevel problems, which generalizes the existing metric. We then establish that GALET achieves an $\epsilon$-stationary metric for the considered problem within $\tilde{\cal O}(\epsilon^{-1})$ iterations, which matches the iteration complexity of GD for smooth nonconvex problems.
翻訳日:2023-06-07 12:00:49 公開日:2023-06-06
# 医療従事者としての訓練 : 文脈事前学習によるユニバーサル医療画像分割

Training Like a Medical Resident: Universal Medical Image Segmentation via Context Prior Learning ( http://arxiv.org/abs/2306.02416v2 )

ライセンス: Link先を確認
Yunhe Gao, Zhuowei Li, Di Liu, Mu Zhou, Shaoting Zhang, Dimitris N. Metaxas(参考訳) 臨床ワークフローの主要な焦点は疾患の分析と診断であり、特定の臨床目的にモダリティとアノテーションが強く結びついている医療画像データセットに繋がる。 現在、タスク固有のセグメンテーションモデルの構築は直感的だが制限的なアプローチであり、広範な画像コホートから得られる洞察を欠いている。 医療従事者の研修に触発されて,医療用画像セグメンテーションを探究し,臨床対象,身体領域,画像モダリティの多種多様な医療用画像ソースから学ぶことを目標とした。 このパラダイムに従って,提案する普遍パラダイムにおけるデータ,モダリティ,アノテーションの多様性に関連する課題に対処する,コンテキスト優先学習アプローチであるhermesを提案する。 7つの多様なデータセットのコレクションにおいて、従来のタスク固有のトレーニングパラダイムよりも普遍的なパラダイムの魅力を実証する。 さまざまなタスク間でシナジーを活用することで、Hermesは優れたパフォーマンスとモデルのスケーラビリティを示している。 2つの追加データセットに関する詳細な調査から,hermesの強力なトランスファラーニング能力,インクリメンタル学習,さまざまな下流タスクへの一般化が明らかになった。 コードはhttps://github.com/yhygao/universal-medical-image-segmentation。

A major enduring focus of clinical workflows is disease analytics and diagnosis, leading to medical imaging datasets where the modalities and annotations are strongly tied to specific clinical objectives. To date, building task-specific segmentation models is intuitive yet a restrictive approach, lacking insights gained from widespread imaging cohorts. Inspired by the training of medical residents, we explore universal medical image segmentation, whose goal is to learn from diverse medical imaging sources covering a range of clinical targets, body regions, and image modalities. Following this paradigm, we propose Hermes, a context prior learning approach that addresses the challenges related to the heterogeneity on data, modality, and annotations in the proposed universal paradigm. In a collection of seven diverse datasets, we demonstrate the appealing merits of the universal paradigm over the traditional task-specific training paradigm. By leveraging the synergy among various tasks, Hermes shows superior performance and model scalability. Our in-depth investigation on two additional datasets reveals Hermes' strong capabilities for transfer learning, incremental learning, and generalization to different downstream tasks. The code is available: https://github.com/yhygao/universal-medical-image-segmentation.
翻訳日:2023-06-07 12:00:29 公開日:2023-06-06
# pvuw2023vssトラックの3位解法:vspwにおける意味セグメンテーションのための大規模モデル

3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic Segmentation on VSPW ( http://arxiv.org/abs/2306.02291v2 )

ライセンス: Link先を確認
Shijie Chang, Zeqi Hao, Ben Kang, Xiaoqi Zhao, Jiawen Zhu, Zhenyu Chen, Lihe Zhang, Lu Zhang, Huchuan Lu(参考訳) 本稿では,PVUW2023 VSSトラックの3位解を提案する。 セマンティックセグメンテーション(Semantic segmentation)は、コンピュータビジョンにおける多くの実世界応用の基本課題である。 映像意味セグメンテーションの問題に取り組むため,様々な画像レベルの視覚バックボーンとセグメンテーションヘッドを調査した。 実験の結果,InternImage-Hがバックボーン,Mask2formerがセグメンテーションヘッドが最高の性能を発揮することがわかった。 さらに,CascadePSPとSegment Anything Model (SAM)の2つのポストプレシューティング手法について検討する。 最終的に、VSPWテストセット1と最終テストセットの62.60\%と64.84\% mIoUをそれぞれ取得し、PVUW2023 VSSトラックの第3位を確保した。

In this paper, we introduce 3rd place solution for PVUW2023 VSS track. Semantic segmentation is a fundamental task in computer vision with numerous real-world applications. We have explored various image-level visual backbones and segmentation heads to tackle the problem of video semantic segmentation. Through our experimentation, we find that InternImage-H as the backbone and Mask2former as the segmentation head achieves the best performance. In addition, we explore two post-precessing methods: CascadePSP and Segment Anything Model (SAM). Ultimately, our approach obtains 62.60\% and 64.84\% mIoU on the VSPW test set1 and final test set, respectively, securing the third position in the PVUW2023 VSS track.
翻訳日:2023-06-07 12:00:09 公開日:2023-06-06
# ギャップ濃縮固有モードにおける励起子-偏光子凝縮の理論

Theory of exciton-polariton condensation in gap-confined eigenmodes ( http://arxiv.org/abs/2306.02281v2 )

ライセンス: Link先を確認
Davide Nigro and Dario Gerace(参考訳) エクシトン・ポラリトン(Exciton- polariton)は、半導体におけるボゾン様の初等励起であり、最近、連続体における位相的に保護されたポラリトン境界状態の大きい占有度が、偏光子凝縮の定義と相容れない、適切に設計されたフォトニック格子 [Nature {\bf 605}, 447 (2022)] において示されている。 しかし、非平衡グロス=ピタエフスキイの定式化に基づくそのような凝縮機構の完全な理論的記述はいまだに欠けている。 従来の半導体マイクロキャビティにおける偏光子凝縮がよく知られており,その多モード一般化について報告し,放射特性や凝縮しきい値を含むパターン付きフォトニック格子の最近の実験結果を完全に解釈できることを示した。 さらに、これらの系における偏光子凝縮は、実際には、偏光子固有状態の負の質量閉じ込め(例えば、平面の周期パターンに由来するフォトニックギャップ)と偏光子損失の間の相互作用の結果であることが示された。 偏光子凝縮はギャップ閉じ込めされた明るいモードでも起こり得ること、つまり、qw励起子とダークフォトニックモードの結合は、人口の閾値が低いマクロな占有を達成するために必ずしも必要ではないことを証明できる。

Exciton-polaritons are bosonic-like elementary excitations in semiconductors, which have been recently shown to display large occupancy of topologically protected polariton bound states in the continuum in suitably engineered photonic lattices [Nature {\bf 605}, 447 (2022)], compatible with the definition of polariton condensation. However, a full theoretical description of such condensation mechanism that is based on a non equilibrium Gross-Pitaevskii formulation is still missing. Given that the latter is well known to account for polariton condensation in conventional semiconductor microcavities, here we report on its multi-mode generalization, showing that it allows to fully interpret the recent experimental findings in patterned photonic lattices, including emission characteristics and condensation thresholds. Beyond that, it is shown that the polariton condensation in these systems is actually the result of an interplay between negative mass confinement of polariton eigenstates (e.g., due to the photonic gap originated from the periodic pattern in plane) and polariton losses. We are then able to show that polariton condensation can also occur in gap-confined bright modes, i.e., coupling of QW excitons to a dark photonic mode is not necessarily required to achieve a macroscopic occupation with low population threshold.
翻訳日:2023-06-07 11:59:53 公開日:2023-06-06
# Polyglot-Ko: オープンソースの大規模韓国語モデル

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models ( http://arxiv.org/abs/2306.02254v2 )

ライセンス: Link先を確認
Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, Jiwung Hyun, Sungho Park, Kyubyong Park(参考訳) Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。 mBERT (Devlin et al., 2019)、XGLM (Lin et al., 2022)、BLOOM (Scao et al., 2022) のような様々な多言語モデルが利用可能であるにもかかわらず、研究者や開発者は現在の多言語モデル非英語機能に不満があるため、それぞれの言語でモノリンガルモデルを構築することに頼ることが多い。 このギャップに対処するため、非英語言語の性能向上を提供する先進多言語言語モデルの開発を目指している。 本稿では,本論文で紹介する多言語韓国語モデルについて紹介する。 TUNiBと共同で、研究旅行のために厳格にキュレートされた韓国の1.2TBのデータを収集しました。 我々は,多言語モデルに導入する前に,韓国語モデルの開発を優先する決定をした。 この選択は、複数の要因によって動機づけられた: まず、韓国モデルは、既存の多言語モデルのパフォーマンス比較を促進し、最後に、韓国企業や研究者の特定のニーズに対応する。 本稿では,多言語言語モデルにおける非英語言語のパフォーマンスギャップに対処するためのいくつかのステップを提案する。

Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models.
翻訳日:2023-06-07 11:59:17 公開日:2023-06-06
# 素直に隠れる: 連合学習におけるデータ盗み攻撃

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning ( http://arxiv.org/abs/2306.03013v2 )

ライセンス: Link先を確認
Kostadin Garov, Dimitar I. Dimitrov, Nikola Jovanovi\'c, Martin Vechev(参考訳) 悪意のあるサーバ(ms)攻撃は、フェデレーション学習におけるデータの盗みのスケーリングを可能にし、大規模なバッチサイズとセキュアアグリゲーションを可能にした。 しかし、MS攻撃のクライアント側検出性に関する多くの懸念が提起され、公開後にその実用性に疑問が呈された。 本研究では,クライアントサイド検出可能性の問題を初めて徹底的に検討し,従来のms攻撃のほとんどが,基本的に2つの重要な原則の1つに依存しており,クライアントサイドチェックの原則によって検出可能であることを実証する。 さらに,現実的なネットワークの勾配からユーザデータを盗むと同時に,大規模なバッチサイズ(実験では最大512個まで)やセキュアなアグリゲーションの下でも,すべてのデシダータを満足する新たな攻撃フレームワークであるSEERを提案する。 SEERの重要な洞察は、共有モデルと共同でトレーニングされたシークレットデコーダを使用することである。 私たちの作業は、MS攻撃をより原則的に扱うための、有望な第一歩であり、現実のデプロイメントにおけるユーザのプライバシを損なうような、現実的なデータ盗難への道を開くものです。

Malicious server (MS) attacks have enabled the scaling of data stealing in federated learning to large batch sizes and secure aggregation, settings previously considered private. However, many concerns regarding client-side detectability of MS attacks were raised, questioning their practicality once they are publicly known. In this work, for the first time, we thoroughly study the problem of client-side detectability.We demonstrate that most prior MS attacks, which fundamentally rely on one of two key principles, are detectable by principled client-side checks. Further, we formulate desiderata for practical MS attacks and propose SEER, a novel attack framework that satisfies all desiderata, while stealing user data from gradients of realistic networks, even for large batch sizes (up to 512 in our experiments) and under secure aggregation. The key insight of SEER is the use of a secret decoder, which is jointly trained with the shared model. Our work represents a promising first step towards more principled treatment of MS attacks, paving the way for realistic data stealing that can compromise user privacy in real-world deployments.
翻訳日:2023-06-07 11:51:00 公開日:2023-06-06
# 非パラメトリック反復機械教育

Nonparametric Iterative Machine Teaching ( http://arxiv.org/abs/2306.03007v2 )

ライセンス: Link先を確認
Chen Zhang, Xiaofeng Cao, Weiyang Liu, Ivor Tsang, James Kwok(参考訳) 本稿では、教師が学習者に反復的に例を提示し、学習者が目標モデルに迅速に収束できるというイテレーティブ・マシン・トレーニング(IMT)の問題について考察する。 しかし、既存のIMTアルゴリズムは対象モデルのパラメータ化された族のみに基づいている。 それらは主にパラメータ空間の収束にフォーカスしており、対象モデルがパラメータに依存しない関数として定義されると困難になる。 このような制限に対処するために,非パラメトリック反復機械教育 (nimt) は,非パラメトリック対象モデルを反復的に学習者に教えることを目的としている。 パラメータ空間でのみ動作するパラメトリックIMTとは異なり、NIMTを関数空間の関数最適化問題として用いた。 そこで本研究では,ランダムな機能指導アルゴリズムと無欲な機能指導アルゴリズムの両方を提案する。 適切な仮定の下でのランダム指導アルゴリズムの反復指導次元(itd)を求め,nimt における itd の均一な上界として機能する。 さらに、欲深い指導アルゴリズムは、nimtにおけるitdのより強固な上限に達する、かなり低いitdを有する。 最後に,非パラメトリックシナリオにおける広範囲な実験を行い,理論的知見の正確性を検証する。

In this paper, we consider the problem of Iterative Machine Teaching (IMT), where the teacher provides examples to the learner iteratively such that the learner can achieve fast convergence to a target model. However, existing IMT algorithms are solely based on parameterized families of target models. They mainly focus on convergence in the parameter space, resulting in difficulty when the target models are defined to be functions without dependency on parameters. To address such a limitation, we study a more general task -- Nonparametric Iterative Machine Teaching (NIMT), which aims to teach nonparametric target models to learners in an iterative fashion. Unlike parametric IMT that merely operates in the parameter space, we cast NIMT as a functional optimization problem in the function space. To solve it, we propose both random and greedy functional teaching algorithms. We obtain the iterative teaching dimension (ITD) of the random teaching algorithm under proper assumptions, which serves as a uniform upper bound of ITD in NIMT. Further, the greedy teaching algorithm has a significantly lower ITD, which reaches a tighter upper bound of ITD in NIMT. Finally, we verify the correctness of our theoretical findings with extensive experiments in nonparametric scenarios.
翻訳日:2023-06-07 11:50:37 公開日:2023-06-06
# 衛星画像を用いた長距離UAV熱測地

Long-range UAV Thermal Geo-localization with Satellite Imagery ( http://arxiv.org/abs/2306.02994v2 )

ライセンス: Link先を確認
Jiuhong Xiao, Daniel Tortei, Eloy Roura, Giuseppe Loianno(参考訳) カメラやサーマルセンサーなどの搭載センサーは、無人航空機(uav)ナビゲーションにおけるgps(global positioning system)の効果的な代替手段として登場した。 GPSは信号損失やスプーフィングの問題に悩まされるため、研究者は衛星画像を用いたビジュアルジオローカライゼーション(VG)のようなカメラベースの手法を探索してきた。 さらに、TGは低照度環境下での長距離UAV飛行において重要である。 本稿では,衛星画像を用いた熱的局所化の枠組みを提案する。 実験結果は, 自己相似的特徴を有する熱画像においても, 熱的局所化性能の信頼性を実現するための提案手法の有効性を示す。 UAVで収集した実データに対する我々のアプローチを評価する。 また,衛星画像と熱的局所化のための熱熱画像と非対の衛星画像のデータセットである \textit{boson-nighttime} も公開する。 我々の知る限り、この研究は、長距離飛行における衛星画像を用いた熱的ジオローカライズ法を最初に提案したものである。

Onboard sensors, such as cameras and thermal sensors, have emerged as effective alternatives to Global Positioning System (GPS) for geo-localization in Unmanned Aerial Vehicle (UAV) navigation. Since GPS can suffer from signal loss and spoofing problems, researchers have explored camera-based techniques such as Visual Geo-localization (VG) using satellite imagery. Additionally, thermal geo-localization (TG) has become crucial for long-range UAV flights in low-illumination environments. This paper proposes a novel thermal geo-localization framework using satellite imagery, which includes multiple domain adaptation methods to address the limited availability of paired thermal and satellite images. The experimental results demonstrate the effectiveness of the proposed approach in achieving reliable thermal geo-localization performance, even in thermal images with indistinct self-similar features. We evaluate our approach on real data collected onboard a UAV. We also release the code and \textit{Boson-nighttime}, a dataset of paired satellite-thermal and unpaired satellite images for thermal geo-localization with satellite imagery. To the best of our knowledge, this work is the first to propose a thermal geo-localization method using satellite imagery in long-range flights.
翻訳日:2023-06-07 11:50:19 公開日:2023-06-06
# Time Interpret: 時系列のための統一モデル解釈可能性ライブラリ

Time Interpret: a Unified Model Interpretability Library for Time Series ( http://arxiv.org/abs/2306.02968v2 )

ライセンス: Link先を確認
Joseph Enguehard(参考訳) Captumの拡張として設計されたライブラリである$\texttt{time_interpret}$を紹介します。 そのため、このライブラリは、任意のpytorchモデルによる予測を説明するために使用できるいくつかの機能帰属メソッドを実装している。 さらに$\texttt{time_interpret}$は、いくつかの合成および実世界の時系列データセット、様々なpytorchモデル、機能属性を評価する一連のメソッドを提供する。 さらに、時間的データに基づく予測を説明するために主に開発されたが、いくつかのコンポーネントは、例えば、言語モデルによる予測を説明するメソッドなど、異なるアプリケーションを持っている。 本稿では,本図書館の概要を紹介する。 以前未発表の機能属性メソッドもいくつか紹介し、$\texttt{time_interpret}$とともに開発されています。

We introduce $\texttt{time_interpret}$, a library designed as an extension of Captum, with a specific focus on temporal data. As such, this library implements several feature attribution methods that can be used to explain predictions made by any Pytorch model. $\texttt{time_interpret}$ also provides several synthetic and real world time series datasets, various PyTorch models, as well as a set of methods to evaluate feature attributions. Moreover, while being primarily developed to explain predictions based on temporal data, some of its components have a different application, including for instance methods explaining predictions made by language models. In this paper, we give a general introduction of this library. We also present several previously unpublished feature attribution methods, which have been developed along with $\texttt{time_interpret}$.
翻訳日:2023-06-07 11:50:00 公開日:2023-06-06
# Action-Evolution Petri Nets: 動的タスク割り当て問題のモデル化と解決のためのフレームワーク

Action-Evolution Petri Nets: a Framework for Modeling and Solving Dynamic Task Assignment Problems ( http://arxiv.org/abs/2306.02910v2 )

ライセンス: Link先を確認
Riccardo Lo Bianco, Remco Dijkman, Wim Nuijten, Willem van Jaarsveld(参考訳) 動的タスク割り当ては、割り当ての全体的なコストを最小化するために、到着するタスクを限られた数のリソースに割り当てることを伴う。 最適なタスク割り当てを実現するためには,まず課題をモデル化する必要がある。 マルコフ決定過程や(色)ペトリネットといった、問題の異なる側面をモデル化し、実行し、解決する独立した形式が存在するが、統合モデリング技術は存在しない。 本稿では,動的タスク割り当て問題のモデル化と解決のためのフレームワークとして,アクション進化ペトリネット(A-E PN)を提案する。 A-E PNは動的タスク割り当て問題のすべての要素を表現できる統一モデリング技術を提供する。 さらに、a-e pnモデルは実行可能であり、追加のモデリング作業なしに強化学習(rl)を通じて最適に近い割り当てポリシーを学ぶことができる。 この枠組みを評価するために,古型代入問題の分類を定義した。 a-e pnが最適の割り当てポリシーを学ぶために使用できる3つの事例を示す。 本研究は,a-e pnを用いて幅広い動的タスク割り当て問題をモデル化し,解決できることを示唆する。

Dynamic task assignment involves assigning arriving tasks to a limited number of resources in order to minimize the overall cost of the assignments. To achieve optimal task assignment, it is necessary to model the assignment problem first. While there exist separate formalisms, specifically Markov Decision Processes and (Colored) Petri Nets, to model, execute, and solve different aspects of the problem, there is no integrated modeling technique. To address this gap, this paper proposes Action-Evolution Petri Nets (A-E PN) as a framework for modeling and solving dynamic task assignment problems. A-E PN provides a unified modeling technique that can represent all elements of dynamic task assignment problems. Moreover, A-E PN models are executable, which means they can be used to learn close-to-optimal assignment policies through Reinforcement Learning (RL) without additional modeling effort. To evaluate the framework, we define a taxonomy of archetypical assignment problems. We show for three cases that A-E PN can be used to learn close-to-optimal assignment policies. Our results suggest that A-E PN can be used to model and solve a broad range of dynamic task assignment problems.
翻訳日:2023-06-07 11:49:46 公開日:2023-06-06
# 統一テキスト型人物検索に向けて:大規模マルチ属性と言語検索ベンチマーク

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark ( http://arxiv.org/abs/2306.02898v2 )

ライセンス: Link先を確認
Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng(参考訳) 本稿では,テキストベース人物検索のための大規模多属性・言語検索データセットmalsを紹介し,属性認識と画像テキストマッチングタスクの両方で事前学習を行う可能性について検討する。 特にMALSには1,510,330のイメージテキストペアがあり、CUHK-PEDESの約37.5倍の大きさで、すべてのイメージに27の属性が付加されている。 プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。 生成されたデータから学習する可能性を検証するため,属性とテキストの共有知識を考慮し,新たにaptm(joint attribute prompt learning and text matching learning)フレームワークを開発した。 名前が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれている。 1)属性プロンプト学習は属性プロンプトを利用して画像-属性アライメントを行い,テキストマッチング学習を強化する。 2) テキストマッチング学習は, きめ細かな細部での表現学習を促進するとともに, 属性のプロンプト学習を促進させる。 大規模な実験により、MALSの事前学習の有効性が検証され、3つの挑戦的な実世界のベンチマーク上でAPTMによる最先端の検索性能が達成された。 特にAPTMは、CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットをそれぞれ明確なマージンで、+6.60%、+7.39%、+15.90%のリコール@1精度で一貫した改善を実現している。

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.60%, +7.39%, and +15.90% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.
翻訳日:2023-06-07 11:49:23 公開日:2023-06-06
# セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic ( http://arxiv.org/abs/2306.02865v2 )

ライセンス: Link先を確認
Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu(参考訳) 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。 これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。 共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。 この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。 この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。 我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。 モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。

Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
翻訳日:2023-06-07 11:48:51 公開日:2023-06-06
# Video-LLaMA: 映像理解のための命令調整型オーディオ・ビジュアル言語モデル

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding ( http://arxiv.org/abs/2306.02858v2 )

ライセンス: Link先を確認
Hang Zhang, Xin Li, Lidong Bing(参考訳) 本稿では,ビデオ内の視覚的・聴覚的コンテンツの両方を理解する能力を備えた大規模言語モデル(LLM)を実現するマルチモーダルフレームワークであるVideo-LLaMAを提案する。 Video-LLaMAは、凍結した事前訓練されたビジュアルおよびオーディオエンコーダと凍結したLDMからのクロスモーダルトレーニングを行う。 MiniGPT-4やLLaVAのような静的画像理解に焦点を当てた従来のビジョンLLMとは異なり、Video-LLaMAは主にビデオ理解における2つの課題に対処している。 そこで本研究では,事前学習した画像エンコーダを映像エンコーダに組み込むビデオqフォーマを提案し,映像言語対応を学習するための映像対テキスト生成タスクを提案する。 第2の課題として,複数のモーダルを事前学習したオーディオエンコーダとして整列する汎用的な埋め込みモデルであるImageBindを利用するとともに,ImageBind上にオーディオQ-formerを導入して,LCMモジュールの適切な音声クエリ埋め込みを学習する。 ビジュアルエンコーダとオーディオエンコーダの出力をLLMの埋め込み空間に合わせるため,ビデオ-LLaMAを大量のビデオ/イメージ・キャプション・ペアと,適度だが高画質のビジュアル・インストラクション・チューニングデータセットで訓練する。 ビデオ-LLaMAは,映像内容の知覚と理解能力を示し,映像に提示される視覚的・聴覚的情報に基づく有意義な応答を生成する。 このことは、オーディオ視覚AIアシスタントの有望なプロトタイプとしてのVideo-LLaMAの可能性を強調している。

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual & audio encoders and the frozen LLMs. Unlike previous vision-LLMs that focus on static image comprehensions such as MiniGPT-4 and LLaVA, Video-LLaMA mainly tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. To counter the first challenge, we propose a Video Q-former to assemble the pre-trained image encoder into our video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind, a universal embedding model aligning multiple modalities as the pre-trained audio encoder, and introduce an Audio Q-former on top of ImageBind to learn reasonable auditory query embeddings for the LLM module. To align the output of both visual & audio encoders with LLM's embedding space, we train Video-LLaMA on massive video/image-caption pairs as well as visual-instruction-tuning datasets of moderate amount but higher quality. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information presented in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants.
翻訳日:2023-06-07 11:48:29 公開日:2023-06-06
# 居所としての場面

Scene as Occupancy ( http://arxiv.org/abs/2306.02851v2 )

ライセンス: Link先を確認
Wenwen Tong, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, Hongyang Li(参考訳) 人間ドライバーは、視覚システムによって複雑な交通シーンを簡単に記述できる。 このような正確な認識能力はドライバーの計画に不可欠である。 これを実現するには、物理的3dシーンを3d占有と呼ばれるセルごとの意味ラベルを持つ構造化グリッドマップに定量化する幾何認識表現が望ましい。 拘束箱の形式と比較すると、占領の背景にある重要な洞察は、シーン内の重要な障害物のきめ細かい詳細を捉え、その後の作業を容易にすることである。 先行的あるいは同時的な文献は、主に単一のシーン完了タスクに集中しており、この占有率表現の可能性は、より広範な影響を過小評価するかもしれない。 本稿では,3次元空間を再現するためのカスケードとテンポラリボクセルデコーダを備えた多視点視覚中心パイプラインであるoccnetを提案する。 OccNetの中核には3D物理世界を表す汎用の占有層がある。 このような記述子は、検出、セグメンテーション、計画を含む幅広い運転タスクに適用できる。 この表現の有効性と提案アルゴリズムの有効性を検証するため,我々はnuScenes上に構築された初の高品位3D占有率ベンチマークOpenOccを提案する。 実験の結果,複数のタスクにまたがる性能向上が確認できた。例えば,動作計画では衝突速度が15%~58%低下し,提案手法の優位性が示された。

Human driver can easily describe the complex traffic scene by visual system. Such an ability of precise perception is essential for driver's planning. To achieve this, a geometry-aware representation that quantizes the physical 3D scene into structured grid map with semantic labels per cell, termed as 3D Occupancy, would be desirable. Compared to the form of bounding box, a key insight behind occupancy is that it could capture the fine-grained details of critical obstacles in the scene, and thereby facilitate subsequent tasks. Prior or concurrent literature mainly concentrate on a single scene completion task, where we might argue that the potential of this occupancy representation might obsess broader impact. In this paper, we propose OccNet, a multi-view vision-centric pipeline with a cascade and temporal voxel decoder to reconstruct 3D occupancy. At the core of OccNet is a general occupancy embedding to represent 3D physical world. Such a descriptor could be applied towards a wide span of driving tasks, including detection, segmentation and planning. To validate the effectiveness of this new representation and our proposed algorithm, we propose OpenOcc, the first dense high-quality 3D occupancy benchmark built on top of nuScenes. Empirical experiments show that there are evident performance gain across multiple tasks, e.g., motion planning could witness a collision rate reduction by 15%-58%, demonstrating the superiority of our method.
翻訳日:2023-06-07 11:47:59 公開日:2023-06-06
# オブジェクト検出のためのより良い説明に向けて

Towards Better Explanations for Object Detection ( http://arxiv.org/abs/2306.02744v2 )

ライセンス: Link先を確認
Van Binh Truong, Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Khanh Nguyen, Quoc Hung Cao(参考訳) 人工知能(AI)技術の最近の進歩は、ほぼすべての分野における利用を促進している。 ディープニューラルネットワーク(DNN)の複雑さの増大により、ネットワークの内部動作と決定を説明することがますます難しく、重要になる。 しかし、近年のDNNの説明技術のほとんどは、主に分類タスクの解釈に重点を置いている。 本稿では,d-closeと呼ばれる任意の物体検出モデルの決定を説明する手法を提案する。 モデルの振る舞いを密に追跡するために、画像上の複数のレベルのセグメンテーションとそれらを組み合わせるプロセスを使いました。 我々は,YOLOXモデルを用いてMS-COCOデータセットの試験を行い,提案手法がD-RISEより優れ,品質が向上し,ノイズ説明が低くなることを示した。

Recent advances in Artificial Intelligence (AI) technology have promoted their use in almost every field. The growing complexity of deep neural networks (DNNs) makes it increasingly difficult and important to explain the inner workings and decisions of the network. However, most current techniques for explaining DNNs focus mainly on interpreting classification tasks. This paper proposes a method to explain the decision for any object detection model called D-CLOSE. To closely track the model's behavior, we used multiple levels of segmentation on the image and a process to combine them. We performed tests on the MS-COCO dataset with the YOLOX model, which shows that our method outperforms D-RISE and can give a better quality and less noise explanation.
翻訳日:2023-06-07 11:47:36 公開日:2023-06-06