このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230615となっている論文です。

PDF登録状況(公開日: 20230615)

TitleAuthorsAbstract論文公表日・翻訳日
# ソフトウェアセキュリティプラクティスは脆弱性を少なくできるか?

Do Software Security Practices Yield Fewer Vulnerabilities? ( http://arxiv.org/abs/2210.14884v2 )

ライセンス: Link先を確認
Nusrat Zahan, Shohanuzzaman Shohan, Dan Harris and Laurie Williams(参考訳) セキュリティ侵害が増え続けているため、実践者はより安全なソフトウェアを開発する動機があります。 アメリカ合衆国では、ホワイトハウスは執行命令(eo 14028)に関する覚書を発表し、組織がセキュアなソフトウェア開発プラクティスの使用を自認することを義務付けている。 OpenSSF Scorecardプロジェクトは、実践者が自動的にソフトウェアセキュリティプラクティスの使用を測定することを可能にする。 しかしながら、セキュリティプラクティスの使用がパッケージセキュリティを改善するかどうか、特にセキュリティプラクティスがセキュリティ結果に最も影響を与えるのかを判断する研究はほとんど行われていない。 本研究の目的は,ソフトウェアセキュリティ実践スコアとセキュリティ脆弱性数の間のモデルの開発を通じて,どのセキュリティプラクティスを採用するべきかを,実践者や研究者がインフォームドで判断することを支援することである。 そこで我々は,OpenSSF Scorecaredセキュリティプラクティススコアを用いて,npmとPyPIパッケージを対象とした5つの教師付き機械学習モデルを開発した。 私たちのモデルでは、4つのセキュリティプラクティス(Maintained、Code Review、ブランチ保護、Security Policy)が脆弱性数に影響を与える最も重要なプラクティスであることが分かりました。 しかし、脆弱性数を予測するためにモデルをテストしたとき、R^2(9%から12%)が低かった。 さらに,パッケージの集合的セキュリティスコアが増加するにつれて,報告された脆弱性の数も減少した。 どちらの発見も、パッケージの脆弱性数に影響を及ぼす可能性があることを示唆している。 我々は,脆弱性数とセキュリティスコアデータを洗練し,これらの対策をセキュリティ対策の実施可能なガイダンスとして用いることを提案する。

Due to the ever-increasing security breaches, practitioners are motivated to produce more secure software. In the United States, the White House Office released a memorandum on Executive Order (EO) 14028 that mandates organizations provide self-attestation of the use of secure software development practices. The OpenSSF Scorecard project allows practitioners to measure the use of software security practices automatically. However, little research has been done to determine whether the use of security practices improves package security, particularly which security practices have the biggest impact on security outcomes. The goal of this study is to assist practitioners and researchers making informed decisions on which security practices to adopt through the development of models between software security practice scores and security vulnerability counts. To that end, we developed five supervised machine learning models for npm and PyPI packages using the OpenSSF Scorecared security practices scores and aggregate security scores as predictors and the number of externally-reported vulnerabilities as a target variable. Our models found four security practices (Maintained, Code Review, Branch Protection, and Security Policy) were the most important practices influencing vulnerability count. However, we had low R^2 (ranging from 9% to 12%) when we tested the models to predict vulnerability counts. Additionally, we observed that the number of reported vulnerabilities increased rather than reduced as the aggregate security score of the packages increased. Both findings indicate that additional factors may influence the package vulnerability count. We suggest that vulnerability count and security score data be refined such that these measures may be used to provide actionable guidance on security practices.
翻訳日:2023-10-24 14:17:32 公開日:2023-06-15
# web開発における消滅するフレームワークの台頭

The Rise of Disappearing Frameworks in Web Development ( http://arxiv.org/abs/2304.01947v2 )

ライセンス: Link先を確認
Juho Veps\"al\"ainen, Arto Hellas, Petri Vuorimaa(参考訳) Webの進化は、静的Webサイトから動的Webアプリケーションへの道を切り開くフレームワークの出現として特徴づけられる。 webアプリケーションのスコープが拡大するにつれて、新しい技術的課題が生まれ、新しいソリューションの必要性が高まった。 最新の開発は、初期の世代のWebフレームワークの公理を疑問視するいわゆる消滅したWebフレームワークの台頭であり、初期のWebと単純な静的サイトの利点を提供している。

The evolution of the web can be characterized as an emergence of frameworks paving the way from static websites to dynamic web applications. As the scope of web applications has grown, new technical challenges have emerged, leading to the need for new solutions. The latest of these developments is the rise of so-called disappearing web frameworks that question the axioms of earlier generations of web frameworks, providing benefits of the early web and simple static sites.
翻訳日:2023-10-24 12:45:13 公開日:2023-06-15
# 放射性物質輸送評価のためのステークホルダーツールの検証・検証活動の更新

Update on the Verification and Validation Efforts for the Stakeholder Tool for Assessing Radioactive Transportation ( http://arxiv.org/abs/2306.09465v1 )

ライセンス: Link先を確認
Harish Gadey, Caitlin Condon, Steven Maheras, Kacey McGee(参考訳) アメリカ合衆国エネルギー省(U.S. DOE)は、使用済み核燃料(SNF)と高レベル放射性廃棄物(HLW)の輸送、貯蔵、廃棄を民間の原子力発電所や他の米国のDOE施設から計画している。 Stakeholder Tool for Assessing Radioactive Transportation (START) は、ルーティングオプションの評価やSNFやHLWの輸送におけるバージ、列車、トラック、インターモーダルな表面輸送などの側面のために開発されたウェブベースの地理空間決定支援ツールである。 検証と検証(V&V)の取り組みは、STARTを独立して評価することを目的としており、ツールが意図した出力を正確に提供する能力に対する信頼性を提供する。 START符号のV&V努力のために選択された結果には、課題の専門家による重要な出力として特定されたものが含まれる。 形状ファイルやキーホールマークアップ言語(KML)ファイルなどのSTARTからの出力を,WSG-84楕円体モデルを用いて測地計算により解析する。 V&Vの取り組みの多くは、STARTツールの様々なファイルで報告された総長を調べ、比較することを目的としている。 この研究は、エンドユーザーが一連のユーザ定義ルートで複製できる様々な出力のためのV&V方法論の開発にも焦点を当てている。 この取り組みの一環として150以上のオリジン宛先ペアが実行され、スタートツールの機能をテストする。 独立な測地線計算による結果の提示に加えて、STARTバージョン3.3とSTARTの以前のリリース(バージョン3.2.2)のルート長の比較も行う。

The United States Department of Energy (U.S. DOE) is planning for the transportation, storage, and disposal of spent nuclear fuel (SNF) and high-level radioactive waste (HLW) from commercial nuclear power plants and other U.S. DOE sites. The Stakeholder Tool for Assessing Radioactive Transportation (START) is a web-based, geospatial decision-support tool developed for evaluating routing options and other aspects of transporting SNF and HLW via barge, train, truck, and intermodal surface transport in the continental United States. The verification and validation (V&V) effort is intended to independently assess START to provide confidence in the ability of the tool to accurately provide intended outputs. The results selected for the V&V effort of the START code include those identified as crucial outputs by subject matter experts. Outputs from START such as shape files and keyhole markup language (KML) files are analyzed using a geodesic computation using the WSG-84 ellipsoid model. Most of the V&V efforts are aimed towards examining and comparing the total length reported in the various files in the START tool. This work also focuses on the development of V&V methodologies for various outputs that could be replicated by the end user on a set of user-defined routes. Over 150 origin destination pairs were run as part of this effort to test the functionality of the START tool. In addition to presenting results using an independent geodesic computation, this work will provide a comparison of the total route lengths between START version 3.3 and the previous release of START (version 3.2.2).
翻訳日:2023-10-23 19:37:07 公開日:2023-06-15
# MuRS: Identifierテンプレートを用いた変異ランク付けと抑制

MuRS: Mutant Ranking and Suppression using Identifier Templates ( http://arxiv.org/abs/2306.09130v1 )

ライセンス: Link先を確認
Zimin Chen, Malgorzata Salawa, Manushree Vijayvergiya, Goran Petrovic, Marko Ivankovic and Rene Just(参考訳) ディフベースの突然変異テスト(Diff-based mutation testing)は、レビュー中のコード変更によって影響を受ける行だけを突然変異させる突然変異テスト手法である。 Googleの突然変異テストサービスは、差分ベースの変異テストをコードレビュープロセスに統合し、コードレビュー中に浮上したミュータントに対する開発者のフィードバックを継続的に収集する。 開発者エクスペリエンスを向上させるために、この突然変異テストサービスは、役に立たないミュータントをターゲットにした、多くの抑制ルールを実装している。 しかし、効果的な一方で、手動による抑制ルールの実装にはかなりのエンジニアリング時間が必要である。 ミュータントをランク付けし抑制する自動システムにより、突然変異試験サービスのメンテナンスが容易になる。 本稿では、ミュータントをテスト中のソースコードのパターンごとにグループ化し、同じグループ内のミュータントに対する歴史的開発者フィードバックに基づいて将来のミュータントをランク付けし、抑制する自動アプローチであるmursを提案し、評価する。 mursを評価するために,既存の変異試験サービスと比較し,a/b試験を行った。 手動で開発された抑圧規則を用いた強いベースラインにもかかわらず、結果は統計学的にMRSが11.45%、ベースラインが12.41%であった。 また, MuRS はベースラインに実装された既存の抑制ルールを復元できることを示した。 最後に、ステートメント欠失変異群は最も肯定的かつ否定的な開発者フィードバックを受けており、これらのグループで有用かつ役に立たないミュータントを区別できる追加のコンテキストの必要性が示唆された。 全体として、mourは抑制ルールを自動的に学習することによって、効果的な突然変異テストサービスの開発とメンテナンスコストを大幅に削減する可能性がある。

Diff-based mutation testing is a mutation testing approach that only mutates lines affected by a code change under review. Google's mutation testing service integrates diff-based mutation testing into the code review process and continuously gathers developer feedback on mutants surfaced during code review. To enhance the developer experience, the mutation testing service implements a number of suppression rules, which target not-useful mutants-that is, mutants that have consistently received negative developer feedback. However, while effective, manually implementing suppression rules require significant engineering time. An automatic system to rank and suppress mutants would facilitate the maintenance of the mutation testing service. This paper proposes and evaluates MuRS, an automated approach that groups mutants by patterns in the source code under test and uses these patterns to rank and suppress future mutants based on historical developer feedback on mutants in the same group. To evaluate MuRS, we conducted an A/B testing study, comparing MuRS to the existing mutation testing service. Despite the strong baseline, which uses manually developed suppression rules, the results show a statistically significantly lower negative feedback ratio of 11.45% for MuRS versus 12.41% for the baseline. The results also show that MuRS is able to recover existing suppression rules implemented in the baseline. Finally, the results show that statement-deletion mutant groups received both the most positive and negative developer feedback, suggesting a need for additional context that can distinguish between useful and not-useful mutants in these groups. Overall, MuRS has the potential to substantially reduce the development and maintenance cost for an effective mutation testing service by automatically learning suppression rules.
翻訳日:2023-10-23 19:36:36 公開日:2023-06-15
# セキュリティapiの誤用の検出 - 体系的レビュー

Detecting Misuses of Security APIs: A Systematic Review ( http://arxiv.org/abs/2306.08869v1 )

ライセンス: Link先を確認
Zahra Mousavi, Chadni Islam, M. Ali Babar, Alsharif Abuadbba, and Kristen Moore(参考訳) セキュリティアプリケーションプログラミングインターフェース(API)は、ソフトウェアのセキュリティを確保する上で重要な役割を果たす。 しかし、セキュリティAPIの誤用は、ハッカーによって悪用される可能性のある脆弱性をもたらす可能性がある。 API設計の複雑さ、不十分なドキュメント、不十分なセキュリティトレーニングは、セキュリティAPIを誤用する理由のひとつだ。 開発者や組織を支援するため、ソフトウェアセキュリティコミュニティは、セキュリティapiの誤用を検出するためのいくつかのアプローチを考案し、評価した。 セキュリティapiの誤用に関する文献を厳密に分析・合成し,その話題に関する知識の体系を構築した。 本レビューでは,誤用の観点から検討したセキュリティapi,報告された誤用の種類,誤用検出のためのアプローチ,提案手法の評価について検討した。 私たちのレビューでは、セキュリティAPIの誤用を検出する最先端技術に関するオープンな研究課題も強調しています。

Security Application Programming Interfaces (APIs) play a vital role in ensuring software security. However, misuse of security APIs may introduce vulnerabilities that can be exploited by hackers. API design complexities, inadequate documentation and insufficient security training are some of the reasons for misusing security APIs. In order to help developers and organizations, software security community have devised and evaluated several approaches to detecting misuses of security APIs. We rigorously analyzed and synthesized the literature on security APIs misuses for building a body of knowledge on the topic. Our review has identified and discussed the security APIs studied from misuse perspective, the types of reported misuses and the approaches developed to detect misuses and how the proposed approaches have been evaluated. Our review has also highlighted the open research issues for advancing the state-of-the-art of detecting misuse of security APIs.
翻訳日:2023-10-23 19:35:40 公開日:2023-06-15
# モノリシックアプリケーションをマイクロサービスアプリケーションに変換する

Convert Monolithic Application to Microservice Application ( http://arxiv.org/abs/2306.08851v1 )

ライセンス: Link先を確認
Hatem Hammad, Thaer Sahmoud, Abed Al Rahman Abu Ghazala(参考訳) マイクロサービスアーキテクチャはソフトウェア設計アーキテクチャのトレンドであり、多くの企業がそのメリットとクラウドコンピューティングの迅速かつ広範な展開のためにマイクロサービス設計を採用しており、その結果、多くの企業が既存のモノリシックアプリケーションをマイクロサービスに転換して、スケールアップとアジャイル開発としてビジネス要件を達成しました。 本稿では、既存のモノリシックなアプリケーションを、マイクロサービスアプリケーション全体をスクラッチから書き直すことなく、マイクロサービスアプリケーションに変換する方法について、ソフトウェア開発者に指導するとともに、変換プロセス中にソフトウェア開発者が直面する可能性のある一般的な問題についても論じる。 ビジネスロジックをマイクロサービスに変換することに加えて、モノリシックなデータベースをサービス毎のデータベースに変換するステップについても言及します。 また、NetflixとAirbnbがモノリシックアプリケーションをマイクロサービスアプリケーションにどのように変換したかを要約します。

Microservice architecture is a trending topic in software design architecture and many enterprises adopted microservice design due its benefits and the rapid and wide deployment of cloud computing and as a result, many enterprises transformed their existing monolithic application to microservice to achieve business requirements as scaling up and agile development. In this paper we will guide software developers how to convert their existing monolithic application into microservice application without re-writing the whole microservice application from scratch, and we will also discuss the common issues that may face the software developer during the conversion processes. In addition to converting the business logic to microservice, we mention steps for converting the monolithic database into a database per service. Also, we summarize how Netflix and Airbnb converted their monolithic application to microservice application.
翻訳日:2023-10-23 19:35:20 公開日:2023-06-15
# 機械学習を用いたマルチモーダルヘイトスピーチ検出

Multi-modal Hate Speech Detection using Machine Learning ( http://arxiv.org/abs/2307.11519v1 )

ライセンス: Link先を確認
Fariha Tahosin Boishakhi, Ponkoj Chandra Shill, Md. Golam Rabiul Alam(参考訳) インターネットユーザーとメディアコンテンツの継続的な成長により、音声やビデオにおける憎悪的なスピーチを追跡することは極めて困難である。 ビデオや音声をテキストに変換することは、人間がユーモアや快適さとして憎しみのある言葉を使う場合が多いため、ヘイトスピーチを正確に検出するわけではない。 最先端のヘイトスピーチ検出モデルは、主に単一モードで開発された。 本研究では,音声から抽出した特徴量,音声,テキストから抽出した特徴量,機械学習と自然言語処理を抽出し,映像コンテンツからヘイトスピーチを検出するマルチモーダルシステムを提案する。

With the continuous growth of internet users and media content, it is very hard to track down hateful speech in audio and video. Converting video or audio into text does not detect hate speech accurately as human sometimes uses hateful words as humorous or pleasant in sense and also uses different voice tones or show different action in the video. The state-ofthe-art hate speech detection models were mostly developed on a single modality. In this research, a combined approach of multimodal system has been proposed to detect hate speech from video contents by extracting feature images, feature values extracted from the audio, text and used machine learning and Natural language processing.
翻訳日:2023-10-23 16:41:52 公開日:2023-06-15
# 位相型運動磁化と光流を用いたトンネルの変形モニタリング

Deformation Monitoring of Tunnel using Phase-based Motion Magnification and Optical Flow ( http://arxiv.org/abs/2310.07076v1 )

ライセンス: Link先を確認
Kecheng Chen, Hiroshi Kogi and Kenichi Soga(参考訳) 建設中、地下トンネルの連続監視は潜在的な危険を軽減し、地下トンネル間相互作用の詳細な理解を促進する。 従来の視覚に基づく監視は、幅広い動きを直接捉えることができるが、トンネルの振動と変形モードを分離することはできない。 位相に基づく運動拡大は、ターゲット周波数帯の運動を拡大し、系の力学を同定する手法の1つである。 光フローはコンピュータビジョンにおける画像強度の運動を計算する一般的な方法であり、デジタル画像相関よりも計算コストがはるかに低い。 本研究は,PMMとOFを組み合わせて,地下トンネルシーンの拡大変形モード画素変位の定量化を行う。 運動倍率アーチファクトが不正確な定量化につながるため、2D Wienerフィルタは高周波コンテンツを円滑にするために用いられる。 GPUアクセラレーションでは、各ピクセルの変位を計算し、シーン全体の動きを導出するアルゴリズムが採用されている。 トンネル内にプリインストールされたプリズムの増幅動作と実際の動作との間に検証実験を行う。

During construction, continuous monitoring of underground tunnels can mitigate potential hazards and facilitate an in-depth understanding of the ground-tunnel interaction behavior. Traditional vision-based monitoring can directly capture an extensive range of motion but cannot separate the tunnel's vibration and deformation mode. Phase-based motion magnification is one of the techniques to magnify the motion in target frequency bands and identify system dynamics. Optical flow is a popular method of calculating the motion of image intensities in computer vision and has a much lower computational cost than Digital Image Correlation. This study combines PMM and OF to quantify the underground tunnel scene's magnified deformation mode pixel displacements. As motion magnification artifacts may lead to inaccurate quantification, the 2D Wiener filter is used to smooth the high-frequency content. With GPU acceleration, a dense OF algorithm computing each pixel's displacement is adopted to derive the whole scene motion. A validation experiment is conducted between the amplification motion and the actual motion of prisms preinstalled in the tunnel.
翻訳日:2023-10-23 03:22:57 公開日:2023-06-15
# 数学研究の責任ある発展のためのマニフェスト--実践者および管理者のためのツール

Manifesto for the Responsible Development of Mathematical Works -- A Tool for Practitioners and for Management ( http://arxiv.org/abs/2306.09131v1 )

ライセンス: Link先を確認
Maurice Chiodo, Dennis M\"uller(参考訳) このマニフェストは、数学的な作業の実行、管理、あるいは影響するすべての人のための実践的なツールおよび支援として書かれてきた。 数学的に力のある製品やサービスを安全かつ責任ある方法で実行し、開発する方法に関する洞察を提供する。 達成すべき目標のフレームワークを与える代わりに、私たちは、開始から終了まで、数学的製品やサービスが作られる一般的な方法に統合可能なプロセスを導入します。 このプロセスは、製品、開発者、機関、そしてより広い社会に生じる様々な問題や問題に対処するのに役立ちます。 これを実現するために、我々は、数学的な発展の典型的な手順を10つの重要な段階に分類する:「責任ある発展のための10の柱」は、数学的な作業で頻繁に発生するステップと関連する課題の幾らかの時系列的な順序に従う。 これら10の柱は、プロジェクトの責任を負うために必要となる準備作業、優れた技術数学とデータサイエンスの中心的な問題、特に数学システムに関連するコミュニケーション、配置、フォローアップのメンテナンスの問題など、数学製品やサービスのライフサイクル全体の問題をカバーする。 このマニフェストと、その中の柱は、ケンブリッジ大学の倫理学・数学プロジェクトの一環として、私たちによって7年間の作業が完了したものです。 これらはすべて試行錯誤されたアイデアで、私たちが学術と工業の両方の環境で提示し、使用しました。 私たちの研究では、数学は社会において素晴らしいツールになり得るだけでなく、慎重な考慮がなければ大きな害をもたらすことも直接見てきた。 このマニフェストに従うことで、読者は、彼らの数学的作業の望ましくない、望ましくない結果のリスクを軽減できることを期待しています。

This manifesto has been written as a practical tool and aid for anyone carrying out, managing or influencing mathematical work. It provides insight into how to undertake and develop mathematically-powered products and services in a safe and responsible way. Rather than give a framework of objectives to achieve, we instead introduce a process that can be integrated into the common ways in which mathematical products or services are created, from start to finish. This process helps address the various issues and problems that can arise for the product, the developers, the institution, and for wider society. To do this, we break down the typical procedure of mathematical development into 10 key stages; our "10 pillars for responsible development" which follow a somewhat chronological ordering of the steps, and associated challenges, that frequently occur in mathematical work. Together these 10 pillars cover issues of the entire lifecycle of a mathematical product or service, including the preparatory work required to responsibly start a project, central questions of good technical mathematics and data science, and issues of communication, deployment and follow-up maintenance specifically related to mathematical systems. This manifesto, and the pillars within it, are the culmination of 7 years of work done by us as part of the Cambridge University Ethics in Mathematics Project. These are all tried-and-tested ideas, that we have presented and used in both academic and industrial environments. In our work, we have directly seen that mathematics can be an incredible tool for good in society, but also that without careful consideration it can cause immense harm. We hope that following this manifesto will empower its readers to reduce the risk of undesirable and unwanted consequences of their mathematical work.
翻訳日:2023-07-23 12:36:04 公開日:2023-06-15
# FANET実験:画像処理システムに接続されたリアルタイム監視アプリケーション

FANET Experiment: Real-Time Surveillance Applications Connected to Image Processing System ( http://arxiv.org/abs/2306.17172v1 )

ライセンス: Link先を確認
Bashir Olaniyi Sadiq, Muhammed Yusuf Abiodun, Sikiru Olayinka Zakariyya, and Mohammed Dahiru Buhari(参考訳) 本研究の主な目的は、FANETアプリケーションにおけるデータの強化と抽出に画像強調技術を使用することで、監視効率を向上させることである。 提案する概念システム設計は,石油パイプライン監視におけるFANETの運用可能性の向上と,興味のある人に効率的なサービスを提供するという究極の目標を掲げたスポーツとメディアの報道を改善することができる。 システムアーキテクチャモデルは、現在の科学原理と技術開発に基づいている。 ビデオ対応ドローンからの画像データを収集できるFANETと、データ収集と分析を可能にする画像処理システムとが、このシステムの2つの主要コンポーネントである。 画像処理技術に基づいて,ファネット状況と可能なサービスにおける効率的なデータ抽出と拡張のための概念実証を行う。

The major goal of this paper is to use image enhancement techniques for enhancing and extracting data in FANET applications to improve the efficiency of surveillance. The proposed conceptual system design can improve the likelihood of FANET operations in oil pipeline surveillance, and sports and media coverage with the ultimate goal of providing efficient services to those who are interested. The system architecture model is based on current scientific principles and developing technologies. A FANET, which is capable of gathering image data from video-enabled drones, and an image processing system that permits data collection and analysis are the two primary components of the system. Based on the image processing technique, a proof of concept for efficient data extraction and enhancement in FANET situations and possible services is illustrated.
翻訳日:2023-07-09 14:18:51 公開日:2023-06-15
# MBrain:脳信号のためのマルチチャネル自己監視学習フレームワーク

MBrain: A Multi-channel Self-Supervised Learning Framework for Brain Signals ( http://arxiv.org/abs/2306.13102v1 )

ライセンス: Link先を確認
Donghong Cai, Junru Chen, Yang Yang, Teng Liu, Yafeng Li(参考訳) 脳信号は人間の脳の生理的活動や病気を理解するための重要な定量的データである。 既存の研究の多くは教師あり学習法に注意を払っており、これは高コストの臨床ラベルを必要とする。 さらに、侵襲的(SEEGなど)と非侵襲的(EEGなど)によって測定される脳信号の臨床的パターンの大きな違いは、統一された方法の欠如につながる。 上記の問題に対処するため,SEEGデータとEEGデータの両方を事前学習可能な脳信号のための自己教師付き学習(SSL)フレームワークについて検討する。 直感的には、ニューロンの発射によって生じる脳信号は、人間の脳内の様々な結合構造の間で伝達される。 そこで本研究では,脳信号の一様モデル化の基礎として,異なるチャネル(例えば電極の接点,異なる脳領域に対応する)間の暗黙的な空間的・時間的相関を学習するためのmbrainを提案する。 具体的には,提案するマルチチャネルCPCを用いて構築したグラフ構造を用いて空間相関を表現する。 理論的には,マルチチャネルcpcの目標を最適化することで,より優れた予測表現が可能となり,それに基づく瞬時時間シフト予測タスクを適用できることを実証する。 そして、遅延時間シフト予測タスクを設計することで時間相関を捉える。 最後に,各チャネルの特性を保存するために,置換判別学習タスクを提案する。 脳波とSEEGの両方の大規模実世界のデータセットにおける発作検出の大規模な実験により、我々のモデルは、最先端の時系列SSLおよび教師なしモデルよりも優れており、臨床実践に展開する能力があることが示された。

Brain signals are important quantitative data for understanding physiological activities and diseases of human brain. Most existing studies pay attention to supervised learning methods, which, however, require high-cost clinical labels. In addition, the huge difference in the clinical patterns of brain signals measured by invasive (e.g., SEEG) and non-invasive (e.g., EEG) methods leads to the lack of a unified method. To handle the above issues, we propose to study the self-supervised learning (SSL) framework for brain signals that can be applied to pre-train either SEEG or EEG data. Intuitively, brain signals, generated by the firing of neurons, are transmitted among different connecting structures in human brain. Inspired by this, we propose MBrain to learn implicit spatial and temporal correlations between different channels (i.e., contacts of the electrode, corresponding to different brain areas) as the cornerstone for uniformly modeling different types of brain signals. Specifically, we represent the spatial correlation by a graph structure, which is built with proposed multi-channel CPC. We theoretically prove that optimizing the goal of multi-channel CPC can lead to a better predictive representation and apply the instantaneou-time-shift prediction task based on it. Then we capture the temporal correlation by designing the delayed-time-shift prediction task. Finally, replace-discriminative-learning task is proposed to preserve the characteristics of each channel. Extensive experiments of seizure detection on both EEG and SEEG large-scale real-world datasets demonstrate that our model outperforms several state-of-the-art time series SSL and unsupervised models, and has the ability to be deployed to clinical practice.
翻訳日:2023-07-02 13:54:49 公開日:2023-06-15
# BrainNet:階層グラフ拡散学習によるSEEGからの懐疑波検出

BrainNet: Epileptic Wave Detection from SEEG with Hierarchical Graph Diffusion Learning ( http://arxiv.org/abs/2306.13101v1 )

ライセンス: Link先を確認
Junru Chen, Yang Yang, Tao Yu, Yingying Fan, Xiaolong Mo, Carl Yang(参考訳) てんかんは最も深刻な神経疾患の一つであり、世界の人口の1-2%に影響を及ぼす。 てんかんの診断は、てんかん波、すなわち患者の脳における電気的脳波活動の異常を認識することに大きく依存する。 既存の研究は、皮質脳波(EEG)を介しててんかん波を検出する機械学習モデルを用いている。 しかし、最近開発されたSEEG法は、従来の脳波よりも高精度なステレオ情報を提供し、臨床応用に広く応用されている。 そこで本研究では,実世界のseegデータセットにおけるてんかん波を検出する最初のデータ駆動研究を提案する。 新しい機会を提供する一方で、SEEGはいくつかの課題も抱えている。 臨床において、てんかん波の活動は脳内の異なる領域の間で伝播すると考えられている。 これらの伝播経路はてんかん原性ネットワークとしても知られ、てんかん手術の文脈において重要な要素であると考えられている。 しかし、神経科学の分野では、各患者に正確なてんかん原性ネットワークをいかに取り出すかという問題は未解決のままである。 これらの課題に対処するために、動的拡散グラフを共同で学習し、脳波拡散パターンをモデル化する新しいモデル(BrainNet)を提案する。 さらに,複数の自己教師付き学習タスクと階層的枠組みを用いることで,ラベルの不均衡や重騒音に対する効果的抵抗を支援する。 複数の患者から得られた広範囲の実検体データセットを実験した結果,brainnetは時系列解析から得られた最新技術ベースラインを上回っていることがわかった。

Epilepsy is one of the most serious neurological diseases, affecting 1-2% of the world's population. The diagnosis of epilepsy depends heavily on the recognition of epileptic waves, i.e., disordered electrical brainwave activity in the patient's brain. Existing works have begun to employ machine learning models to detect epileptic waves via cortical electroencephalogram (EEG). However, the recently developed stereoelectrocorticography (SEEG) method provides information in stereo that is more precise than conventional EEG, and has been broadly applied in clinical practice. Therefore, we propose the first data-driven study to detect epileptic waves in a real-world SEEG dataset. While offering new opportunities, SEEG also poses several challenges. In clinical practice, epileptic wave activities are considered to propagate between different regions in the brain. These propagation paths, also known as the epileptogenic network, are deemed to be a key factor in the context of epilepsy surgery. However, the question of how to extract an exact epileptogenic network for each patient remains an open problem in the field of neuroscience. To address these challenges, we propose a novel model (BrainNet) that jointly learns the dynamic diffusion graphs and models the brain wave diffusion patterns. In addition, our model effectively aids in resisting label imbalance and severe noise by employing several self-supervised learning tasks and a hierarchical framework. By experimenting with the extensive real SEEG dataset obtained from multiple patients, we find that BrainNet outperforms several latest state-of-the-art baselines derived from time-series analysis.
翻訳日:2023-07-02 13:54:19 公開日:2023-06-15
# 新たな慈善チャネルとしてのゴースト予約 : ウクライナ・ロシア紛争を事例として

Ghost Booking as a New Philanthropy Channel: A Case Study on Ukraine-Russia Conflict ( http://arxiv.org/abs/2306.13667v1 )

ライセンス: Link先を確認
Fachrina Dewi Puspitasari, Gareth Tyson, Ehsan-Ul Haq, Pan Hui, Lik-Hang Lee(参考訳) ゴースト予約という用語は、2022年のロシアとウクライナの紛争で人道的行為を行う新しい方法として最近登場した。 この現象は、netizenがairbnbプラットフォーム上でショーなしの予約を通じてウクライナ市民に寄付するイベントを表現している。 印象的なことに、かつて寄付ベースのクラウドファンディングプラットフォームで組織されていたソーシャル資金調達法は、共有経済プラットフォーム市場へと移行し、より可視性を高めた。 寄付の目的は明らかだが、寄付者の財産選定の動機は隠されている。 そこで本研究は,元々経済交流を意図したプラットフォーム上でのピアツーピア寄付行動の探索と,どのプラットフォーム属性が寄付行動に効果的に寄与するかの特定を目的とする。 我々は2つの収集方法(スクリーンスクレイピングとhtmlパース)を用いて、ウクライナの16kのairbnbの不動産リストから2万以上のゲストレビューを集めました。 そして、ゲストレビューの中でゴースト予約を区別する。 本分析では,ゴースト予約行動とプラットフォーム属性の関係を明らかにし,ゴースト予約に影響を与える属性を特定できる。 以上の結果から,寄付者は人道的ニーズ,すなわち刑罰のホストに特有な信頼性特性に傾倒していることが示唆された。

The term ghost booking has recently emerged as a new way to conduct humanitarian acts during the conflict between Russia and Ukraine in 2022. The phenomenon describes the events where netizens donate to Ukrainian citizens through no-show bookings on the Airbnb platform. Impressively, the social fundraising act that used to be organized on donation-based crowdfunding platforms is shifted into a sharing economy platform market and thus gained more visibility. Although the donation purpose is clear, the motivation of donors in selecting a property to book remains concealed. Thus, our study aims to explore peer-to-peer donation behavior on a platform that was originally intended for economic exchanges, and further identifies which platform attributes effectively drive donation behaviors. We collect over 200K guest reviews from 16K Airbnb property listings in Ukraine by employing two collection methods (screen scraping and HTML parsing). Then, we distinguish ghost bookings among guest reviews. Our analysis uncovers the relationship between ghost booking behavior and the platform attributes, and pinpoints several attributes that influence ghost booking. Our findings highlight that donors incline to credible properties explicitly featured with humanitarian needs, i.e., the hosts in penury.
翻訳日:2023-07-02 13:46:25 公開日:2023-06-15
# PRISMA-DFLLM:ドメイン特化大言語モデルを用いた体系的文献レビューのためのPRISMAの拡張

PRISMA-DFLLM: An Extension of PRISMA for Systematic Literature Reviews using Domain-specific Finetuned Large Language Models ( http://arxiv.org/abs/2306.14905v1 )

ライセンス: Link先を確認
Teo Susnjak(参考訳) オープンソースのLarge Language Models(LLMs)の普及と効率的な微調整技術により、私たちは、専門分野や現在の汎用LLMが適さない分野にまたがる専門知識のために微調整された多くのドメイン固有LLMの出現の瀬戸際にある。 学界では、この技術は体系的な文献レビュー(slr)のやり方を革新し、知識にアクセスし、新しい洞察を生み出す可能性がある。 本稿では,LLMの能力と,PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)の厳密な報告ガイドラインを組み合わせた,AI対応の方法論フレームワークを提案する。 厳密なSLRプロセスによって選択されたドメイン固有の学術論文を微調整することにより、提案されたPRISMA-DFLLM(Domain-specific Finetuned LLMs)レポートガイドラインは、より大きな効率性、再利用性、スケーラビリティを実現すると同時に、LLMの助けを借りてインクリメンタルな体系的なレビューを行う可能性を開放する。 さらに,LSMをSLRに活用する手法により,微調整モデルの普及が可能となり,研究者が進歩を加速し,最先端の研究を民主化することができる。 本稿では、厳密なSLRをサポートするための微調整LDMの実現可能性とその実現のための技術的要件について述べる。 この研究は、報告ガイドラインの拡張されたPRISMA-DFLLMチェックリストと、PRISMA-DFLLMの実装の利点、課題、および潜在的影響について提案する。 最後に、このAI対応のSLRを開発するための将来の研究ロードマップを示し、エビデンス合成と知識発見の新しい時代への道を開く。

With the proliferation of open-sourced Large Language Models (LLMs) and efficient finetuning techniques, we are on the cusp of the emergence of numerous domain-specific LLMs that have been finetuned for expertise across specialized fields and applications for which the current general-purpose LLMs are unsuitable. In academia, this technology has the potential to revolutionize the way we conduct systematic literature reviews (SLRs), access knowledge and generate new insights. This paper proposes an AI-enabled methodological framework that combines the power of LLMs with the rigorous reporting guidelines of the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA). By finetuning LLMs on domain-specific academic papers that have been selected as a result of a rigorous SLR process, the proposed PRISMA-DFLLM (for Domain-specific Finetuned LLMs) reporting guidelines offer the potential to achieve greater efficiency, reusability and scalability, while also opening the potential for conducting incremental living systematic reviews with the aid of LLMs. Additionally, the proposed approach for leveraging LLMs for SLRs enables the dissemination of finetuned models, empowering researchers to accelerate advancements and democratize cutting-edge research. This paper presents the case for the feasibility of finetuned LLMs to support rigorous SLRs and the technical requirements for realizing this. This work then proposes the extended PRISMA-DFLLM checklist of reporting guidelines as well as the advantages, challenges, and potential implications of implementing PRISMA-DFLLM. Finally, a future research roadmap to develop this line of AI-enabled SLRs is presented, paving the way for a new era of evidence synthesis and knowledge discovery.
翻訳日:2023-07-02 13:26:39 公開日:2023-06-15
# 緊急対応のための人工知能

Artificial Intelligence for Emergency Response ( http://arxiv.org/abs/2306.10068v1 )

ライセンス: Link先を確認
Ayan Mukhopadhyay(参考訳) 緊急対応管理(erm)は、世界中のコミュニティが直面する課題である。 救急隊員は火災、交通事故、救急医療など様々な事件に対処しなければならない。 人命へのリスクを最小限に抑えるためには、事件に迅速に対応しなければならない。 その結果、過去数十年間、非常事態や対応の研究にかなりの注意が払われている。 特にデータ駆動モデルは、人的および財政的損失を減らし、設計コード、交通規制、安全対策を改善するのに役立つ。 本チュートリアルでは,緊急対応における4つのサブ問題,インシデント予測,インシデント検出,リソース割り当て,リソースディスパッチについて検討する。 我々は,これらの問題に対する数学的定式化と,各問題に対する幅広い枠組みを提案することを目的とする。 また,米国大都市からのオープンソース(合成)データも公開し,今後のデータ駆動型緊急対応について検討する。

Emergency response management (ERM) is a challenge faced by communities across the globe. First responders must respond to various incidents, such as fires, traffic accidents, and medical emergencies. They must respond quickly to incidents to minimize the risk to human life. Consequently, considerable attention has been devoted to studying emergency incidents and response in the last several decades. In particular, data-driven models help reduce human and financial loss and improve design codes, traffic regulations, and safety measures. This tutorial paper explores four sub-problems within emergency response: incident prediction, incident detection, resource allocation, and resource dispatch. We aim to present mathematical formulations for these problems and broad frameworks for each problem. We also share open-source (synthetic) data from a large metropolitan area in the USA for future work on data-driven emergency response.
翻訳日:2023-06-26 01:30:57 公開日:2023-06-15
# 埋め込みを用いた科学用ドメイン固有チャットボット

Domain-specific ChatBots for Science using Embeddings ( http://arxiv.org/abs/2306.10067v1 )

ライセンス: Link先を確認
Kevin G. Yager(参考訳) 大規模言語モデル(LLM)は、多数のタスクを処理できる強力な機械学習システムとして登場した。 これらのシステムのチューニングされたバージョンがチャットボットに変換され、さまざまなトピックのユーザクエリに応答し、情報的かつ創造的な応答を提供する。 しかし、これらの分野の知識が不完全なため、科学領域における厳密さやソーシングの必要性とは対照的なため、物理科学研究への応用は依然として限られている。 ここでは,既存の手法とソフトウェアツールを組み合わせることで,ドメイン固有のチャットボットを実現する方法を示す。 このシステムは既存のフォーマットで科学文書を取り込み、テキスト埋め込みルックアップを使用して、応答を構成する際にllmにドメイン固有のコンテキスト情報を提供する。 同様に,既存の画像埋め込み手法が出版物の検索や検索に利用可能であることを実証する。 これらの結果は、LSMは研究の加速にすでに物理科学者が使用するのに適していることを確認した。

Large language models (LLMs) have emerged as powerful machine-learning systems capable of handling a myriad of tasks. Tuned versions of these systems have been turned into chatbots that can respond to user queries on a vast diversity of topics, providing informative and creative replies. However, their application to physical science research remains limited owing to their incomplete knowledge in these areas, contrasted with the needs of rigor and sourcing in science domains. Here, we demonstrate how existing methods and software tools can be easily combined to yield a domain-specific chatbot. The system ingests scientific documents in existing formats, and uses text embedding lookup to provide the LLM with domain-specific contextual information when composing its reply. We similarly demonstrate that existing image embedding methods can be used for search and retrieval across publication figures. These results confirm that LLMs are already suitable for use by physical scientists in accelerating their research efforts.
翻訳日:2023-06-26 01:30:46 公開日:2023-06-15
# サブセット選択とインフォームドグラフニューラルネットワークの相互作用について

On the Interplay of Subset Selection and Informed Graph Neural Networks ( http://arxiv.org/abs/2306.10066v1 )

ライセンス: Link先を確認
Niklas Breustedt, Paolo Climaco, Jochen Garcke, Jan Hamaekers, Gitta Kutyniok, Dirk A. Lorenz, Rick Oerder, Chirag Varun Shukla(参考訳) 大規模なデータセットの可用性と組み合わせた機械学習技術は、分子特性の高速かつ正確な予測を提供することで、化学化合物空間を探索する能力を大幅に向上します。 しかし、大規模なデータセットでの学習は計算資源の可用性によって強く制限され、いくつかのシナリオでは実現不可能である。 さらに、データセットのインスタンスはまだラベル付けされておらず、量子化学計算のようにラベルを生成するのにコストがかかる。 したがって、ラベルのない大量のデータポイントから小さなトレーニングサブセットを選択し、小さなトレーニングセットから効果的に学習できる信頼性の高いMLメソッドを開発する必要がある。 この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。 情報ML手法と組み合わせた効率的なトレーニングセット選択のためのドメイン知識に基づくデータサンプリング手法の利点を検討する。 特に,訓練集合選択過程における分子多様性を最大化することで,カーネル法やグラフニューラルネットワークといった線形および非線形回帰手法の頑健性が向上することを示す。 また,モデルに依存しない説明手法を用いて,グラフニューラルネットワークによる予測の信頼性を確認する。

Machine learning techniques paired with the availability of massive datasets dramatically enhance our ability to explore the chemical compound space by providing fast and accurate predictions of molecular properties. However, learning on large datasets is strongly limited by the availability of computational resources and can be infeasible in some scenarios. Moreover, the instances in the datasets may not yet be labelled and generating the labels can be costly, as in the case of quantum chemistry computations. Thus, there is a need to select small training subsets from large pools of unlabelled data points and to develop reliable ML methods that can effectively learn from small training sets. This work focuses on predicting the molecules atomization energy in the QM9 dataset. We investigate the advantages of employing domain knowledge-based data sampling methods for an efficient training set selection combined with informed ML techniques. In particular, we show how maximizing molecular diversity in the training set selection process increases the robustness of linear and nonlinear regression techniques such as kernel methods and graph neural networks. We also check the reliability of the predictions made by the graph neural network with a model-agnostic explainer based on the rate distortion explanation framework.
翻訳日:2023-06-26 01:30:30 公開日:2023-06-15
# 音楽駆動導体運動生成のためのタンピング拡散モデル

Taming Diffusion Models for Music-driven Conducting Motion Generation ( http://arxiv.org/abs/2306.10065v1 )

ライセンス: Link先を確認
Zhuoran Zhao, Jinbin Bai, Delong Chen, Debang Wang, Yubo Pan(参考訳) 与えられた交響曲から管弦楽指揮者の動作を生成することは、モデルが意味音楽の特徴を学習し、実際の指揮動作の基盤となる分布を捉える必要があるため、難しい課題である。 この課題にGAN(Generative Adversarial Networks)を適用したが、トレーニング安定性と出力品質の両面で最近その優位性を示した有望な拡散モデルは、この文脈では利用されていない。 本稿では,2段階学習フレームワークに拡散モデルを統合する新しいddimに基づく音楽駆動導体運動生成手法である拡散導体について述べる。 さらに,特徴のロバスト性を向上させるためのランダムマスキング戦略を提案し,幾何学的損失関数を用いて追加の正則化と運動の多様性を高める。 また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。 実験の結果,本モデルの利点が示された。

Generating the motion of orchestral conductors from a given piece of symphony music is a challenging task since it requires a model to learn semantic music features and capture the underlying distribution of real conducting motion. Prior works have applied Generative Adversarial Networks (GAN) to this task, but the promising diffusion model, which recently showed its advantages in terms of both training stability and output quality, has not been exploited in this context. This paper presents Diffusion-Conductor, a novel DDIM-based approach for music-driven conducting motion generation, which integrates the diffusion model to a two-stage learning framework. We further propose a random masking strategy to improve the feature robustness, and use a pair of geometric loss functions to impose additional regularizations and increase motion diversity. We also design several novel metrics, including Frechet Gesture Distance (FGD) and Beat Consistency Score (BC) for a more comprehensive evaluation of the generated motion. Experimental results demonstrate the advantages of our model.
翻訳日:2023-06-26 01:30:12 公開日:2023-06-15
# 検索から回答へ:凍結大言語モデルを用いたゼロショットビデオ質問応答

Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models ( http://arxiv.org/abs/2306.11732v1 )

ライセンス: Link先を確認
Junting Pan, Ziyi Lin, Yuying Ge, Xiatian Zhu, Renrui Zhang, Yi Wang, Yu Qiao, Hongsheng Li(参考訳) Video Question Answering (ビデオQA) は近年のLarge Language Models (LLM) のスケーリングから大きく進歩している。 鍵となるアイデアは、視覚情報を言語の特徴空間に変換することで、LLMの能力を完全に活用できるようにすることである。 既存のビデオqa手法では,(1)クロスモーダルアライメントの学習,(2)既定キャプションモデルによる視覚データ記述,の2つのパラダイムが採用されている。 しかしながら、最初の設計では、多くの余分なマルチモーダルデータに対するコストのかかるトレーニングが必要である。 これらの制限に対処するため、R2Aフレームワークが提案され、R2Aはまず、事前訓練されたマルチモーダルモデル(例えば、CLIP)を使用して、ジェネリックテキストコーパスから意味的に類似したテキストの集合を検索する。 質問と検索されたテキストの両方で、LSM(例:DeBERTa)を直接使用して、望ましい回答を得ることができる。 クロスモーダルな微調整を必要としないため、R2Aはすべてのキーコンポーネント(LLM、検索モデル、テキストコーパスなど)をプラグイン&プレイできる。 いくつかのvideoqaベンチマークでの広範な実験では、1.3bのパラメータと微調整がないにもかかわらず、我々のr2aは2.1bのマルチモーダルデータでさらに訓練されたフラミンゴ80bモデルよりも61倍大きい。

Video Question Answering (VideoQA) has been significantly advanced from the scaling of recent Large Language Models (LLMs). The key idea is to convert the visual information into the language feature space so that the capacity of LLMs can be fully exploited. Existing VideoQA methods typically take two paradigms: (1) learning cross-modal alignment, and (2) using an off-the-shelf captioning model to describe the visual data. However, the first design needs costly training on many extra multi-modal data, whilst the second is further limited by limited domain generalization. To address these limitations, a simple yet effective Retrieving-to-Answer (R2A) framework is proposed.Given an input video, R2A first retrieves a set of semantically similar texts from a generic text corpus using a pre-trained multi-modal model (e.g., CLIP). With both the question and the retrieved texts, a LLM (e.g., DeBERTa) can be directly used to yield a desired answer. Without the need for cross-modal fine-tuning, R2A allows for all the key components (e.g., LLM, retrieval model, and text corpus) to plug-and-play. Extensive experiments on several VideoQA benchmarks show that despite with 1.3B parameters and no fine-tuning, our R2A can outperform the 61 times larger Flamingo-80B model even additionally trained on nearly 2.1B multi-modal data.
翻訳日:2023-06-26 01:20:27 公開日:2023-06-15
# あなたの進歩に興奮した! 大規模言語モデル(GPT-4)による高等教育プログラミングコースのパスアセスメントの長期化

Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming Courses ( http://arxiv.org/abs/2306.10073v1 )

ライセンス: Link先を確認
Jaromir Savelka, Arav Agarwal, Marshall An, Chris Bogart, Majd Sakr(参考訳) 本稿では,大言語モデル(llm)における初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルで受理する能力の最近の発展について述べる。 ChatGPTの出現は、潜在的な使用法(例えば、エクササイズ生成、コード説明)や、プログラミングクラス(例えば、不正)の誤用に関する熱い議論を引き起こした。 近年の研究では、典型的なプログラミングクラスで使用される様々な評価機器に対して驚くほど優れた性能を発揮するが、コースを通すには性能が不十分であることが示されている。 GPT-4のリリースは、もともと人間のテストテイカー向けに設計されたアセスメントの扱いに関する重要な改善を強調した。 この研究は、成熟した生成AIシステムへの移行が進行中である状況において必要な分析である。 具体的には、GPT-4の性能を以前の世代のGPTモデルと比較し、3つのPythonコースで報告し、単純な多重選択質問(コードが関与しない)から、コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599のエクササイズ)まで、評価を行った。 さらに,gpt-4で適切に処理されていない評価結果を分析し,モデルの現在の限界と,自動学習者が提供するフィードバックを活用する能力について検討した。 その結果、GPTモデルは、一般的なプログラミングクラスの評価(元のGPT-3)を完全に失敗することから、人間の関与なしにコースを確実にパスすること(GPT-4)へと進化した。 GPT-4のMCQ処理やコーディング演習に一定の制限が認められたが、近年のGPTモデルにおける改善率は、高等教育プログラムコースで広く使われているほぼあらゆるタイプの評価を扱う可能性を強く示唆している。 これらの知見は、プログラムアセスメントの設計に適応するために教育者や機関が活用し、最近の技術発展を反映してプログラミングクラスをどう更新すべきかに関する必要な議論を促進するために活用できる。 本研究は,学習者がパススコアを収集するために利用できる,使い易い広くアクセス可能な技術が存在する世界に向けて,プログラミングインストラクターが準備する必要があることを示すものである。

This paper studies recent developments in large language models' (LLM) abilities to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. The emergence of ChatGPT resulted in heated debates of its potential uses (e.g., exercise generation, code explanation) as well as misuses in programming classes (e.g., cheating). Recent studies show that while the technology performs surprisingly well on diverse sets of assessment instruments employed in typical programming classes the performance is usually not sufficient to pass the courses. The release of GPT-4 largely emphasized notable improvements in the capabilities related to handling assessments originally designed for human test-takers. This study is the necessary analysis in the context of this ongoing transition towards mature generative AI systems. Specifically, we report the performance of GPT-4, comparing it to the previous generations of GPT models, on three Python courses with assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Additionally, we analyze the assessments that were not handled well by GPT-4 to understand the current limitations of the model, as well as its capabilities to leverage feedback provided by an auto-grader. We found that the GPT models evolved from completely failing the typical programming class' assessments (the original GPT-3) to confidently passing the courses with no human involvement (GPT-4). While we identified certain limitations in GPT-4's handling of MCQs and coding exercises, the rate of improvement across the recent generations of GPT models strongly suggests their potential to handle almost any type of assessment widely used in higher education programming courses. These findings could be leveraged by educators and institutions to adapt the design of programming assessments as well as to fuel the necessary discussions into how programming classes should be updated to reflect the recent technological developments. This study provides evidence that programming instructors need to prepare for a world in which there is an easy-to-use widely accessible technology that can be utilized by learners to collect passing scores, with no effort whatsoever, on what today counts as viable programming knowledge and skills assessments.
翻訳日:2023-06-26 01:19:10 公開日:2023-06-15
# shorのアルゴリズムはノイズの存在下で大きな整数を分解しない

Shor's Algorithm Does Not Factor Large Integers in the Presence of Noise ( http://arxiv.org/abs/2306.10072v1 )

ライセンス: Link先を確認
Jin-Yi Cai(参考訳) 我々は、ショアの量子ファクタリングアルゴリズムをノイズの多い量子ゲートの設定とみなす。 回転ゲート(制御)に対するランダムノイズの一般的なモデルの下で、このアルゴリズムは、正の密度の正の素数の集合から$p$と$q$が明確に定義された整数のビット数である$n$ --という点で、ノイズが消滅的に小さいレベルを超えるとき、$pq$という形の整数を分解しないことを証明している。 さらに、確率 1 - o(1)$ over random prime pairs $(p,q)$ では、ショアの因子付けアルゴリズムは、同じレベルのランダムノイズを持つ $pq$ 形式の数を分解しない。

We consider Shor's quantum factoring algorithm in the setting of noisy quantum gates. Under a generic model of random noise for (controlled) rotation gates, we prove that the algorithm does not factor integers of the form $pq$ when the noise exceeds a vanishingly small level in terms of $n$ -- the number of bits of the integer to be factored, where $p$ and $q$ are from a well-defined set of primes of positive density. We further prove that with probability $1 - o(1)$ over random prime pairs $(p,q)$, Shor's factoring algorithm does not factor numbers of the form $pq$, with the same level of random noise present.
翻訳日:2023-06-26 01:18:31 公開日:2023-06-15
# 深部逆補強学習による適応学習を用いたセル接続型UAVの連成経路計画とパワーアロケーション

Joint Path planning and Power Allocation of a Cellular-Connected UAV using Apprenticeship Learning via Deep Inverse Reinforcement Learning ( http://arxiv.org/abs/2306.10071v1 )

ライセンス: Link先を確認
Alireza Shamsoshoara, Fatemeh Lotfi, Sajad Mousavi, Fatemeh Afghah, Ismail Guvenc(参考訳) 本稿では,郊外環境におけるセルラー接続型無人航空機(UAV)の干渉対応ジョイントパス計画と電力配分機構について検討する。 UAVの目標は、最初の地点から飛行し、必要なサービス品質(QoS)を保証するためにセルに沿って移動することで目的地に到達することである。 特にUAVは、最短経路と飛行資源制限を考慮して、そのアップリンクスループットを最大化し、近隣のセルBSに接続された地上ユーザ機器(UE)への干渉のレベルを最小化することを目的としている。 専門家の知識は、シナリオを経験し、エージェント(UAV)訓練のために望ましい行動を定義するために使用される。 この問題を解決するために、Q-ラーニングとDep reinforcement Learning(DRL)の両方に基づいて、逆強化学習(IRL)を介して見習いの学習を行う。 本手法の性能は, 教師付き学習手法を用いて, 行動クローニング(BC)と呼ばれる実演手法から学習することと比較される。 シミュレーションと数値計算により,提案手法がエキスパートレベルの性能を実現することを示す。 また,bc手法とは異なり,提案手法の性能が未熟な状況では低下しないことを示す。

This paper investigates an interference-aware joint path planning and power allocation mechanism for a cellular-connected unmanned aerial vehicle (UAV) in a sparse suburban environment. The UAV's goal is to fly from an initial point and reach a destination point by moving along the cells to guarantee the required quality of service (QoS). In particular, the UAV aims to maximize its uplink throughput and minimize the level of interference to the ground user equipment (UEs) connected to the neighbor cellular BSs, considering the shortest path and flight resource limitation. Expert knowledge is used to experience the scenario and define the desired behavior for the sake of the agent (i.e., UAV) training. To solve the problem, an apprenticeship learning method is utilized via inverse reinforcement learning (IRL) based on both Q-learning and deep reinforcement learning (DRL). The performance of this method is compared to learning from a demonstration technique called behavioral cloning (BC) using a supervised learning approach. Simulation and numerical results show that the proposed approach can achieve expert-level performance. We also demonstrate that, unlike the BC technique, the performance of our proposed approach does not degrade in unseen situations.
翻訳日:2023-06-26 01:18:13 公開日:2023-06-15
# 医療・健康におけるチャットGPTと大規模言語モデルの可能性と課題

Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health ( http://arxiv.org/abs/2306.10070v1 )

ライセンス: Link先を確認
Shubo Tian, Qiao Jin, Lana Yeganova, Po-Ting Lai, Qingqing Zhu, Xiuying Chen, Yifan Yang, Qingyu Chen, Won Kim, Donald C. Comeau, Rezarta Islamaj, Aadit Kapoor, Xin Gao, Zhiyong Lu(参考訳) ChatGPTはその卓越したテキスト生成能力を持つ一般とドメインの専門家からかなりの注目を集めている。 このことが、生物医学と健康分野における多様な応用の出現につながった。 本研究では, chatgpt などの大規模言語モデル (llm) のバイオメディカルや健康における多様な応用について検討する。 具体的には, 生体情報検索, 質問応答, 医用テキスト要約, 情報抽出, 医学教育の領域を探索し, LLMがこれらの課題に革命を起こすための変革力を持っているか, あるいは, 生体ドメインの複雑さが独特な課題を呈しているかを検討する。 広範な文献調査の結果,テキスト生成タスクの分野では,従来の最先端手法を超越した大きな進歩が見られた。 他のアプリケーションでは、進歩は控えめである。 全体として、LSMはまだバイオメディシンに革命を起こさないが、近年の急速な進歩は、これらの手法が発見と健康の向上に有用な手段を提供する大きな可能性を秘めていることを示している。 バイオメディシンや健康の分野でのチャットgptのようなllmの使用には、さまざまなリスクや課題が含まれており、その中には、生成した応答における情報の作成や、センシティブな患者データに関連する法的およびプライバシー上の懸念も含まれています。 この初歩的な調査は、ChatGPTや他のLSMを用いて生医学や健康を変革する機会と課題について、バイオメディカル研究者や医療実践者に包括的概要を提供することができると信じている。

ChatGPT has drawn considerable attention from both the general public and domain experts with its remarkable text generation capabilities. This has subsequently led to the emergence of diverse applications in the field of biomedicine and health. In this work, we examine the diverse applications of large language models (LLMs), such as ChatGPT, in biomedicine and health. Specifically we explore the areas of biomedical information retrieval, question answering, medical text summarization, information extraction, and medical education, and investigate whether LLMs possess the transformative power to revolutionize these tasks or whether the distinct complexities of biomedical domain presents unique challenges. Following an extensive literature survey, we find that significant advances have been made in the field of text generation tasks, surpassing the previous state-of-the-art methods. For other applications, the advances have been modest. Overall, LLMs have not yet revolutionized the biomedicine, but recent rapid progress indicates that such methods hold great potential to provide valuable means for accelerating discovery and improving health. We also find that the use of LLMs, like ChatGPT, in the fields of biomedicine and health entails various risks and challenges, including fabricated information in its generated responses, as well as legal and privacy concerns associated with sensitive patient data. We believe this first-of-its-kind survey can provide a comprehensive overview to biomedical researchers and healthcare practitioners on the opportunities and challenges associated with using ChatGPT and other LLMs for transforming biomedicine and health.
翻訳日:2023-06-26 01:17:53 公開日:2023-06-15
# pop song generator: コラボレーションで創造的なaiを教えるオンラインコースをデザイン

The pop song generator: designing an online course to teach collaborative, creative AI ( http://arxiv.org/abs/2306.10069v1 )

ライセンス: Link先を確認
Matthew Yee-king and Andrea Fiorucci and Mark d'Inverno(参考訳) この記事では、新しいオンラインAI創造コースを説明し、評価する。 このコースは、3つの最先端AIモデルに基づいており、ポップソング生成システムに組み込まれている。 微調整されたGPT-2モデルは歌詞を書き、Music-VAEは楽譜と楽器を作成し、Diffsingerは歌声を合成する。 本稿では,Piagetian, constructivist 'learning-by-doing'に基づくコースの設計における意思決定について説明する。 本稿では,学習目標,技術概念,創造的・技術的活動を含む5週間のコースデザインの詳細を紹介する。 我々は、pythonスクリプト、事前学習されたモデル、およびwebベースのideを介してdocker化されたlinuxコンテナで実行されるjavascriptコードからなる完全なpop songジェネレータシステムを構築する技術的課題を克服する方法を説明します。 学生活動の定量的分析は、エンゲージメントの証拠と将来の改善のためのベンチマークを提供する。 コース全体の設計を検証する専門家によるワークショップの質的分析は、より創造的で倫理的で法的な内容の必要性を示唆した。

This article describes and evaluates a new online AI-creativity course. The course is based around three near-state-of-the-art AI models combined into a pop song generating system. A fine-tuned GPT-2 model writes lyrics, Music-VAE composes musical scores and instrumentation and Diffsinger synthesises a singing voice. We explain the decisions made in designing the course which is based on Piagetian, constructivist 'learning-by-doing'. We present details of the five-week course design with learning objectives, technical concepts, and creative and technical activities. We explain how we overcame technical challenges to build a complete pop song generator system, consisting of Python scripts, pre-trained models, and Javascript code that runs in a dockerised Linux container via a web-based IDE. A quantitative analysis of student activity provides evidence on engagement and a benchmark for future improvements. A qualitative analysis of a workshop with experts validated the overall course design, it suggested the need for a stronger creative brief and ethical and legal content.
翻訳日:2023-06-26 01:17:25 公開日:2023-06-15
# MPSTAN: エピデミック予測のためのメタポピュレーションに基づく時空間アテンションネットワーク

MPSTAN: Metapopulation-based Spatio-Temporal Attention Network for Epidemic Forecasting ( http://arxiv.org/abs/2306.12436v1 )

ライセンス: Link先を確認
Junkai Mao, Yuexing Han and Bing Wang(参考訳) 正確な流行予測は、政府にとって感染抑制の効果的な対策を開発する上で重要な役割を担う。 現在の時空間モデルのほとんどは、様々な進化傾向を持つ流行の安定かつ正確な予測のための一般的な枠組みを提供できない。 単一パッチからマルチパッチまでの疫学領域の知識をニューラルネットワークに組み込むことで予測精度が向上することが期待される。 しかし、単一パッチの知識のみに頼ることは、マルチパッチの知識を構築することは、人口移動データなしでは困難である。 上記の問題に対処するため,メタポピュレーションに基づく時空間注意ネットワーク(MPSTAN)と呼ばれる新しいハイブリッドモデルを提案する。 本モデルは,マルチパッチ疫学知識を時空間モデルに取り入れ,パッチ間相互作用を適応的に定義することにより,流行予測の精度を向上させることを目的とする。 さらに,モデル構築と損失関数の両方にパッチ間疫学知識を組み込むことにより,モデルが伝染病の伝播動態を学ぶことを助ける。 疫学進化傾向の異なる2つの代表的なデータセットで実施した広範囲な実験により,提案モデルがベースラインより優れ,より正確で安定した短期・長期予測を提供することが示された。 学習モデルにおけるドメイン知識の有効性を確認し,ドメイン知識の統合が予測に与える影響について検討する。 モデル構築と損失関数の両方でドメイン知識を使用することにより、より効率的な予測が可能となり、適切なドメイン知識の選択によりさらに精度が向上することが観察される。

Accurate epidemic forecasting plays a vital role for governments in developing effective prevention measures for suppressing epidemics. Most of the present spatio-temporal models cannot provide a general framework for stable, and accurate forecasting of epidemics with diverse evolution trends. Incorporating epidemiological domain knowledge ranging from single-patch to multi-patch into neural networks is expected to improve forecasting accuracy. However, relying solely on single-patch knowledge neglects inter-patch interactions, while constructing multi-patch knowledge is challenging without population mobility data. To address the aforementioned problems, we propose a novel hybrid model called Metapopulation-based Spatio-Temporal Attention Network (MPSTAN). This model aims to improve the accuracy of epidemic forecasting by incorporating multi-patch epidemiological knowledge into a spatio-temporal model and adaptively defining inter-patch interactions. Moreover, we incorporate inter-patch epidemiological knowledge into both the model construction and loss function to help the model learn epidemic transmission dynamics. Extensive experiments conducted on two representative datasets with different epidemiological evolution trends demonstrate that our proposed model outperforms the baselines and provides more accurate and stable short- and long-term forecasting. We confirm the effectiveness of domain knowledge in the learning model and investigate the impact of different ways of integrating domain knowledge on forecasting. We observe that using domain knowledge in both model construction and loss functions leads to more efficient forecasting, and selecting appropriate domain knowledge can improve accuracy further.
翻訳日:2023-06-26 01:10:27 公開日:2023-06-15
# OCD診断における畳み込みニューラルネットワークを用いたT1静止MRI変数のモデル化

Modeling T1 Resting-State MRI Variants Using Convolutional Neural Networks in Diagnosis of OCD ( http://arxiv.org/abs/2306.12435v1 )

ライセンス: Link先を確認
Tarun Eswar(参考訳) 強迫性障害(OCD)は高度に不安定な障害である。 この疾患は前頭前皮質とメタボトロピックグルタミン酸受容体5(mGluR5)と呼ばれるグルタミン酸受容体と共通する。 この受容体は、マウスの分布体積比で測定されたポジトロン放射トモグラフィースキャンから高いレベルのシグナル伝達を示すことが観察されている。 この証拠にもかかわらず、より経験的なデータが必要なため、研究はmglur5の関与を完全に検証できない。 計算モデリング手法はmGluR5を含む過去の仮説の検証手段として用いられた。 統合失調症, 大うつ病, 強迫性障害患者のt1resting-state magnetic resonance imaging (trs-mri) スキャンを用いてocdの原因因子との関連性について検討した。 これらの疾患では共生例がしばしば発生するため、共通する能力は特徴的な特徴を見つけるために必要となる。 ResNet50とMobileNetモデルとともに2次元畳み込みニューラルネットワークを構築し,効率よく評価した。 TRS-MRIスキャンの活性化熱マップが出力され、転写学的解析が可能となった。 しかし,OCD症例の予測能力の欠如は遺伝子発現解析を妨げた。 すべてのモデルにまたがって、mddの88.75\%検証精度、resnet50のフレームワークによるszdの82.08\%検証精度、新規計算が存在した。 OCDの精度は54.4 %であった。 これらの結果は、精神疾患に関するp因子定理のさらなる証拠となった。 今後の研究には、転送学習の精度向上への活用が含まれる。

Obsessive-compulsive disorder (OCD) presents itself as a highly debilitating disorder. The disorder has common associations with the prefrontal cortex and the glutamate receptor known as Metabotropic Glutamate Receptor 5 (mGluR5). This receptor has been observed to demonstrate higher levels of signaling from positron emission tomography scans measured by its distribution volume ratios in mice. Despite this evidence, studies are unable to fully verify the involvement of mGluR5 as more empirical data is needed. Computational modeling methods were used as a means of validation for previous hypotheses involving mGluR5. The inadequacies in relation to the causal factor of OCD were answered by utilizing T1 resting-state magnetic resonance imaging (TRS-MRI) scans of patients suffering from schizophrenia, major depressive disorder, and obsessive-compulsive disorder. Because comorbid cases often occur within these disorders, cross-comparative abilities become necessary to find distinctive characteristics. Two-dimensional convolutional neural networks alongside ResNet50 and MobileNet models were constructed and evaluated for efficiency. Activation heatmaps of TRS-MRI scans were outputted, allowing for transcriptomics analysis. Though, a lack of ability to predict OCD cases prevented gene expression analysis. Across all models, there was an 88.75\% validation accuracy for MDD, and 82.08\% validation accuracy for SZD under the framework of ResNet50 as well as novel computation. OCD yielded an accuracy rate of ~54.4\%. These results provided further evidence for the p factor theorem regarding mental disorders. Future work involves the application of transfer learning to bolster accuracy rates.
翻訳日:2023-06-26 01:10:01 公開日:2023-06-15
# シングルセル顕微鏡におけるインターベンショナルスタイル転送による分布一般化の展開

Out of Distribution Generalization via Interventional Style Transfer in Single-Cell Microscopy ( http://arxiv.org/abs/2306.11890v1 )

ライセンス: Link先を確認
Wolfgang M. Pernice, Michael Doron, Alex Quach, Aditya Pratapa, Sultan Kenjeyev, Nicholas De Veaux, Michio Hirano, Juan C. Caicedo(参考訳) 生体医学研究の発見プロセスを含む現実世界でのコンピュータビジョンシステムの展開には、文脈的迷惑に不変な因果表現が必要となり、新しいデータに一般化される。 2つの新しい単細胞蛍光顕微鏡データセットの内部複製構造を利用して,ood一般化の難解な段階においてモデルが因果表現を学習する程度を評価する。 他の確立された指標によって評価されるように、一見強靭なパフォーマンスにもかかわらず、これらのテストでは、悪質なベースラインと現代的なベースラインが相反するように設計されている。 我々は,生物原因と栄養素の急激な相関を緩和する介入訓練分布を生成することにより,OODの一般化を著しく改善する新しい手法であるInterventional Style Transfer (IST)を導入する。 コードとデータセットを公開します。

Real-world deployment of computer vision systems, including in the discovery processes of biomedical research, requires causal representations that are invariant to contextual nuisances and generalize to new data. Leveraging the internal replicate structure of two novel single-cell fluorescent microscopy datasets, we propose generally applicable tests to assess the extent to which models learn causal representations across increasingly challenging levels of OOD-generalization. We show that despite seemingly strong performance, as assessed by other established metrics, both naive and contemporary baselines designed to ward against confounding, collapse on these tests. We introduce a new method, Interventional Style Transfer (IST), that substantially improves OOD generalization by generating interventional training distributions in which spurious correlations between biological causes and nuisances are mitigated. We publish our code and datasets.
翻訳日:2023-06-26 01:08:46 公開日:2023-06-15
# 議論フレームワークの望ましい拡張について:単射集合による単射

On the preferred extensions of argumentation frameworks: bijections with naive sets ( http://arxiv.org/abs/2202.05506v2 )

ライセンス: Link先を確認
Mohammed Elaroussi, Lhouari Nourine, Mohammed Said Radjef and Simon Vilmin(参考訳) 本稿では,他のフレームワークの素集合とのビジェクションにより,議論フレームワークの好拡張性を求める問題に対処する。 まず、議論の枠組みが内在的客観的である場合、その内在的集合と優先的拡張が等しいことを考察する。 直観的客観的議論フレームワークの認識は難しいが, 境界のあるフレームワークでは難解であることを示す。 次に、議論フレームワークの望ましい拡張が許容される(二つの許容集合の交叉は許容される)ことと、同じ議論の集合上の他のフレームワークのネーブ集合との双対性を与える。 一方、許容クローズドな議論フレームワークの同定はcoNP完全であることを示す。 最後に、既約自己防衛集合の概念を、他者の和集合ではない集合として導入する。 議論フレームワークの望ましい拡張と、その既約自己防衛集合上のフレームワークの単純集合との間には、双対が存在することが判明した。 したがって、いくつかの格子特性を持つ議論フレームワークの望ましい拡張は多項式遅延と多項式空間でリストすることができる。

This paper deals with the problem of finding the preferred extensions of an argumentation framework by means of a bijection with the naive sets of another framework. First, we consider the case where an argumentation framework is naive-bijective: its naive sets and preferred extensions are equal. Recognizing naive-bijective argumentation frameworks is hard, but we show that it is tractable for frameworks with bounded in-degree. Next, we give a bijection between the preferred extensions of an argumentation framework being admissible-closed (the intersection of two admissible sets is admissible) and the naive sets of another framework on the same set of arguments. On the other hand, we prove that identifying admissible-closed argumentation frameworks is coNP-complete. At last, we introduce the notion of irreducible self-defending sets as those that are not the union of others. It turns out there exists a bijection between the preferred extensions of an argumentation framework and the naive sets of a framework on its irreducible self-defending sets. Consequently, the preferred extensions of argumentation frameworks with some lattice properties can be listed with polynomial delay and polynomial space.
翻訳日:2023-06-19 18:45:35 公開日:2023-06-15
# プログラム言語処理パイプラインを構築するための再利用可能な機械学習コンポーネントを見つける

Finding Reusable Machine Learning Components to Build Programming Language Processing Pipelines ( http://arxiv.org/abs/2208.05596v2 )

ライセンス: Link先を確認
Patrick Flynn and Tristan Vanderbruggen and Chunhua Liao and Pei-Hung Lin and Murali Emani and Xipeng Shen(参考訳) 機械学習を用いたプログラミング言語処理(plp)は、ここ数年で大幅に改善されている。 この有望な分野を探求することに関心を持つ人がますます増えている。 しかし、解決すべき多様なplpタスク、リリース中の大量のデータセットとモデル、関連する複雑なコンパイラやツールセットを考えると、新たな研究者や開発者が独自の機械学習パイプラインを構築するための適切なコンポーネントを見つけることは困難である。 機械学習コンポーネントのファインダビリティ、アクセシビリティ、相互運用性、再利用性(FAIRness)を改善するため、機械学習ベースのPLPの領域における代表論文の集合を収集し分析する。 PLPタスクやモデルアーキテクチャ,サポートツールなど,主要な概念を識別し,特徴付ける。 最後に、plpタスクのセットを解決するために機械学習パイプラインを構築するために再利用可能なコンポーネントを利用するいくつかのユースケースを示す。

Programming Language Processing (PLP) using machine learning has made vast improvements in the past few years. Increasingly more people are interested in exploring this promising field. However, it is challenging for new researchers and developers to find the right components to construct their own machine learning pipelines, given the diverse PLP tasks to be solved, the large number of datasets and models being released, and the set of complex compilers or tools involved. To improve the findability, accessibility, interoperability and reusability (FAIRness) of machine learning components, we collect and analyze a set of representative papers in the domain of machine learning-based PLP. We then identify and characterize key concepts including PLP tasks, model architectures and supportive tools. Finally, we show some example use cases of leveraging the reusable components to construct machine learning pipelines to solve a set of PLP tasks.
翻訳日:2023-06-19 18:34:58 公開日:2023-06-15
# クリフォードネットワークにおける多部非局所性

Multipartite Nonlocality in Clifford Networks ( http://arxiv.org/abs/2208.04731v5 )

ライセンス: Link先を確認
Amanda Gatto Lamas, Eric Chitambar(参考訳) 我々は、ネットワーク上の運用上の制約の観点から、異なるタイプの量子ネットワーク非局所性を分類するためのリソース理論的フレームワークを採用する。 一種類の制約は、純粋安定状態における局所クリフォードゲートの実行を制限するものであり、この設定では量子ネットワーク非局所性は生じないことを示す。 しかし、制約を緩和して混合安定化状態を可能にすると、ネットワーク非局所性が得られる。 さらに, 両部絡み合いは, 多部絡み合い状態の全ての形式を生成するために, 両部絡み合いの普遍性に類似した性質であるポストセレクションを許容するときに, 量子ネットワークの非局所性を生成するのに十分であることを示す。

We adopt a resource-theoretic framework to classify different types of quantum network nonlocality in terms of operational constraints placed on the network. One type of constraint limits the parties to perform local Clifford gates on pure stabilizer states, and we show that quantum network nonlocality cannot emerge in this setting. Yet, if the constraint is relaxed to allow for mixed stabilizer states, then network nonlocality can indeed be obtained. We additionally show that bipartite entanglement is sufficient for generating all forms of quantum network nonlocality when allowing for post-selection, a property analogous to the universality of bipartite entanglement for generating all forms of multipartite entangled states.
翻訳日:2023-06-19 18:34:44 公開日:2023-06-15
# 機械学習における群集作業者の被写体状態の解明

Resolving the Human Subjects Status of Machine Learning's Crowdworkers ( http://arxiv.org/abs/2206.04039v2 )

ライセンス: Link先を確認
Divyansh Kaushik, Zachary C. Lipton, Alex John London(参考訳) 近年、機械学習(ML)は、データセットの構築と人間のインタラクションや判断を必要とする研究課題への対処の両方に、クラウドワーカーに大きく依存している。 様々なタスクが実行され、生成されたデータの使用は、群衆労働者が労働者(対人被験者)として最もよく考えられているかを決定するのを難しくする。 これらの困難は相反する政策によって複雑化しており、一部の機関や研究者はmlの全ての群衆労働者を人間として扱っている。 クラウドワークを含むML論文は特に少なく、IRBの監視に言及し、倫理的および規制的な要件に準拠する可能性を高めている。 本研究では,機械学習のクラウドソーシング研究の適切な指定について検討し,自然言語処理の課題を明らかにすることに焦点を当てた。 重要なことに、米国共通規則の下では、これらの判断は、収集されたデータが誰であるか(または何)、その分析が誰であるか(または何)について、無関心の判断にヒンジする。 我々は、mlが提起する2つの課題を強調する: 同じワーカセットが複数の役割を果たすことができ、多くの種類の情報を提供することができる。 我々の分析は、研究者がデータ収集と分析を別々の研究に分割することで、研究倫理の監督を免れるという共通規則の潜在的な抜け穴を露呈する。 最後に、これらの懸念に対処するためのポリシーレコメンデーションをいくつか提供します。

In recent years, machine learning (ML) has relied heavily on crowdworkers both for building datasets and for addressing research questions requiring human interaction or judgment. The diverse tasks performed and uses of the data produced render it difficult to determine when crowdworkers are best thought of as workers (versus human subjects). These difficulties are compounded by conflicting policies, with some institutions and researchers regarding all ML crowdworkers as human subjects and others holding that they rarely constitute human subjects. Notably few ML papers involving crowdwork mention IRB oversight, raising the prospect of non-compliance with ethical and regulatory requirements. We investigate the appropriate designation of ML crowdsourcing studies, focusing our inquiry on natural language processing to expose unique challenges for research oversight. Crucially, under the U.S. Common Rule, these judgments hinge on determinations of aboutness, concerning both whom (or what) the collected data is about and whom (or what) the analysis is about. We highlight two challenges posed by ML: the same set of workers can serve multiple roles and provide many sorts of information; and ML research tends to embrace a dynamic workflow, where research questions are seldom stated ex ante and data sharing opens the door for future studies to aim questions at different targets. Our analysis exposes a potential loophole in the Common Rule, where researchers can elude research ethics oversight by splitting data collection and analysis into distinct studies. Finally, we offer several policy recommendations to address these concerns.
翻訳日:2023-06-19 18:34:12 公開日:2023-06-15
# グラフ畳み込みネットワークのためのキャリブレートおよびデビアス層分割サンプリング

Calibrate and Debias Layer-wise Sampling for Graph Convolutional Networks ( http://arxiv.org/abs/2206.00583v2 )

ライセンス: Link先を確認
Yifan Chen, Tianning Xu, Dilek Hakkani-Tur, Di Jin, Yun Yang, Ruoqing Zhu(参考訳) グラフ畳み込みネットワーク(GCN)トレーニングにおけるノード埋め込みアグリゲーションの近似と高速化のための複数のサンプリングベース手法を開発した。 それらのうち、レイヤワイズアプローチは、各レイヤ内の既存のノードに対して共同で隣人を選択するために、重要サンプリングを実行する。 本稿では, 行列近似の観点からアプローチを再検討し, 既存のレイヤワイドサンプリング手法における2つの問題, 準最適サンプリング確率と, 置換せずにサンプリングによって誘導される推定バイアスについて述べる。 これらの問題に対処するため、サンプリング確率を構成するための新しい原理と効率的なデバイアスアルゴリズムの2つの方法を提案する。 この改善は、推定分散の広範囲な解析と共通ベンチマーク実験によって実証されている。 コードとアルゴリズムの実装はhttps://github.com/ychen-stat-ml/GCN-layer-wise-sampling で公開されている。

Multiple sampling-based methods have been developed for approximating and accelerating node embedding aggregation in graph convolutional networks (GCNs) training. Among them, a layer-wise approach recursively performs importance sampling to select neighbors jointly for existing nodes in each layer. This paper revisits the approach from a matrix approximation perspective, and identifies two issues in the existing layer-wise sampling methods: suboptimal sampling probabilities and estimation biases induced by sampling without replacement. To address these issues, we accordingly propose two remedies: a new principle for constructing sampling probabilities and an efficient debiasing algorithm. The improvements are demonstrated by extensive analyses of estimation variance and experiments on common benchmarks. Code and algorithm implementations are publicly available at https://github.com/ychen-stat-ml/GCN-layer-wise-sampling .
翻訳日:2023-06-19 18:33:16 公開日:2023-06-15
# Pix2Struct:ビジュアル言語理解のための事前トレーニングとしてのスクリーンショット解析

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding ( http://arxiv.org/abs/2210.03347v2 )

ライセンス: Link先を確認
Kenton Lee, Mandar Joshi, Iulia Turc, Hexiang Hu, Fangyu Liu, Julian Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, Kristina Toutanova(参考訳) ソースは、ダイアグラムの教科書から、画像とテーブルのwebページ、ボタンとフォームのモバイルアプリまで幅広い。 おそらくこの多様性のため、以前の作業は通常、基礎となるデータ、モデルアーキテクチャ、目的を限定したドメイン固有のレシピに依存しています。 本稿では,視覚言語理解のための事前学習された画像からテキストへのモデルpix2structを提案する。 Pix2Structは、Webページのマスクされたスクリーンショットを単純なHTMLにパースすることを学ぶことで事前訓練される。 Webは、HTML構造にきれいに反映された視覚要素の豊かさによって、下流タスクの多様性によく適合する事前学習データの巨大なソースを提供します。 直感的には、この目的はOCR、言語モデリング、画像キャプションなどの一般的な事前学習信号を仮定する。 新たな事前学習戦略に加えて,可変解像度の入力表現と,質問などの言語プロンプトを入力画像上に直接レンダリングする,言語および視覚入力のより柔軟な統合を導入する。 文書,イラスト,ユーザインターフェース,自然画像の4領域にまたがる9つのタスクのうち6つのタスクにおいて,1つの事前訓練されたモデルが最先端の結果を達成できることを初めて示す。

Visually-situated language is ubiquitous -- sources range from textbooks with diagrams to web pages with images and tables, to mobile apps with buttons and forms. Perhaps due to this diversity, previous work has typically relied on domain-specific recipes with limited sharing of the underlying data, model architectures, and objectives. We present Pix2Struct, a pretrained image-to-text model for purely visual language understanding, which can be finetuned on tasks containing visually-situated language. Pix2Struct is pretrained by learning to parse masked screenshots of web pages into simplified HTML. The web, with its richness of visual elements cleanly reflected in the HTML structure, provides a large source of pretraining data well suited to the diversity of downstream tasks. Intuitively, this objective subsumes common pretraining signals such as OCR, language modeling, image captioning. In addition to the novel pretraining strategy, we introduce a variable-resolution input representation and a more flexible integration of language and vision inputs, where language prompts such as questions are rendered directly on top of the input image. For the first time, we show that a single pretrained model can achieve state-of-the-art results in six out of nine tasks across four domains: documents, illustrations, user interfaces, and natural images.
翻訳日:2023-06-19 18:25:52 公開日:2023-06-15
# 最適化に基づく因果推論のためのデータ駆動型影響関数

Data-Driven Influence Functions for Optimization-Based Causal Inference ( http://arxiv.org/abs/2208.13701v4 )

ライセンス: Link先を確認
Michael I. Jordan, Yixin Wang, Angela Zhou(参考訳) 統計的汎関数に対するガトー微分を有限差分で近似する構成的アルゴリズムについて検討し、因果推論で生じる汎関数に着目した。 本研究では,確率分布を事前知識がないがデータから推定する必要がある場合について検討する。 これらの推定分布は, 経験的ガトー誘導体につながり, 経験的, 数値的および解析的ガトー誘導体の関係について検討する。 介入平均(平均的結果)のケーススタディから始め,有限差分と解析的ガトー微分の関係を明らかにした。 次に、摂動および平滑化における数値近似の速度に対する要求を導出し、レートダブルロバスト性などのワンステップ調整の統計的利点を保存できる。 次に、動的処理レジーム、無限ホリゾンマルコフ決定過程における政策最適化のための線形計画定式化、因果推論における感度解析などのより複雑な機能について研究する。 より広範に、回帰調整による識別は単純であるが、その小さな変化の下で影響関数が得られないような、最適化に基づく推定器のクラスを対象とする。 任意の制約の存在下でバイアス調整を近似する能力は、ガトー微分に対する構成的アプローチの有用性を示している。 また、関数の統計構造(レート二重ロバスト性)は、有限差分近似に対してより保守的な速度を許容する。 しかし、この性質は特定の機能に特有であり、例えば、平均ポテンシャル結果(平均処理効果)に対して発生するが、無限水平 MDP のポリシー値ではない。

We study a constructive algorithm that approximates Gateaux derivatives for statistical functionals by finite differencing, with a focus on functionals that arise in causal inference. We study the case where probability distributions are not known a priori but need to be estimated from data. These estimated distributions lead to empirical Gateaux derivatives, and we study the relationships between empirical, numerical, and analytical Gateaux derivatives. Starting with a case study of the interventional mean (average potential outcome), we delineate the relationship between finite differences and the analytical Gateaux derivative. We then derive requirements on the rates of numerical approximation in perturbation and smoothing that preserve the statistical benefits of one-step adjustments, such as rate double robustness. We then study more complicated functionals such as dynamic treatment regimes, the linear-programming formulation for policy optimization in infinite-horizon Markov decision processes, and sensitivity analysis in causal inference. More broadly, we study optimization-based estimators, since this begets a class of estimands where identification via regression adjustment is straightforward but obtaining influence functions under minor variations thereof is not. The ability to approximate bias adjustments in the presence of arbitrary constraints illustrates the usefulness of constructive approaches for Gateaux derivatives. We also find that the statistical structure of the functional (rate double robustness) can permit less conservative rates for finite-difference approximation. This property, however, can be specific to particular functionals; e.g., it occurs for the average potential outcome (hence average treatment effect) but not the infinite-horizon MDP policy value.
翻訳日:2023-06-19 18:23:55 公開日:2023-06-15
# 共有量子エンタングルメントを用いた干渉イメージング

Interferometric imaging using shared quantum entanglement ( http://arxiv.org/abs/2212.07395v3 )

ライセンス: Link先を確認
Matthew R. Brown, Markus Allgaier, Val\'erian Thiel, John D. Monnier, Michael G. Raymer, and Brian J. Smith(参考訳) 量子エンタングルメントに基づくイメージングは、天文学と測地学のために非常に長いベースライン干渉法で使用されるコレクション開口の空間的分離を拡張することで、分解能を著しく向上させる。 2つのエンタングルフィールドモードを2つのアパーチャ間の位相参照として利用する,テーブルトップエンタングルメントに基づく干渉画像技術について報告する。 各開口部で収集された光をエンタングルフィールドの1つで干渉させ、ジョイント測定することにより、シミュレーションされた熱光源の空間分布を決定する。 この実験は、干渉画像を実装するために絡み合う能力を示す。

Quantum entanglement-based imaging promises significantly increased resolution by extending the spatial separation of collection apertures used in very-long-baseline interferometry for astronomy and geodesy. We report a table-top entanglement-based interferometric imaging technique that utilizes two entangled field modes serving as a phase reference between two apertures. The spatial distribution of a simulated thermal light source is determined by interfering light collected at each aperture with one of the entangled fields and performing joint measurements. This experiment demonstrates the ability of entanglement to implement interferometric imaging.
翻訳日:2023-06-19 18:06:54 公開日:2023-06-15
# 機械学習によるルールベースのdns検閲検出の強化

Augmenting Rule-based DNS Censorship Detection at Scale with Machine Learning ( http://arxiv.org/abs/2302.02031v2 )

ライセンス: Link先を確認
Jacob Brown, Xi Jiang, Van Tran, Arjun Nitin Bhagoji, Nguyen Phong Hoang, Nick Feamster, Prateek Mittal, Vinod Yegneswaran(参考訳) グローバルな検閲の拡散は、それを監視し公開するための多数の測定プラットフォームの開発につながった。 ドメイン名システム(DNS)の検閲は、異なる国で使用される重要なメカニズムである。 現在、特定の宛先に対するDNSクエリとレスポンス(プローブ)のサンプルにヒューリスティックスを適用することで検出されている。 しかし、これらのヒューリスティックはいずれもプラットフォーム固有のものであり、検閲が妨害行動を変えると脆弱であることが判明し、検閲を検出するためのより信頼性の高い自動化プロセスが必要になる。 本稿では,機械学習(ML)モデルが,(1)検出プロセスの合理化,(2)検閲検出のための大規模データセットの利用可能性の向上,(3)既存のヒューリスティック手法で欠落した検閲インスタンスの発見,および署名のブロックについて検討する。 本研究は、既知の異常や検閲の可能性について、専門家由来のラベルを用いて訓練された教師付きモデルを用いて、異なる測定プラットフォームで使用される検出ヒューリスティックを学習できることを示唆する。 さらに重要なことは、検閲されていないインスタンスのみにトレーニングされた教師なしモデルは、既存のヒューリスティックスが見逃した新しいインスタンスと検閲のバリエーションを識別できるということです。 さらに、これらの手法は、既存のヒューリスティックによって見落とされた偽のIPアドレスを注入する、相当数の新しいDNSブロッキングシグネチャを明らかにする能力を示す。 これらの結果は、同じプローブを用いて訓練されたモデルの出力を比較するが、独立したプロセスから生じるラベルは、検閲の基幹的厳密なラベルがない場合に、より確実に検閲の事例を検出することができる。

The proliferation of global censorship has led to the development of a plethora of measurement platforms to monitor and expose it. Censorship of the domain name system (DNS) is a key mechanism used across different countries. It is currently detected by applying heuristics to samples of DNS queries and responses (probes) for specific destinations. These heuristics, however, are both platform-specific and have been found to be brittle when censors change their blocking behavior, necessitating a more reliable automated process for detecting censorship. In this paper, we explore how machine learning (ML) models can (1) help streamline the detection process, (2) improve the potential of using large-scale datasets for censorship detection, and (3) discover new censorship instances and blocking signatures missed by existing heuristic methods. Our study shows that supervised models, trained using expert-derived labels on instances of known anomalies and possible censorship, can learn the detection heuristics employed by different measurement platforms. More crucially, we find that unsupervised models, trained solely on uncensored instances, can identify new instances and variations of censorship missed by existing heuristics. Moreover, both methods demonstrate the capability to uncover a substantial number of new DNS blocking signatures, i.e., injected fake IP addresses overlooked by existing heuristics. These results are underpinned by an important methodological finding: comparing the outputs of models trained using the same probes but with labels arising from independent processes allows us to more reliably detect cases of censorship in the absence of ground-truth labels of censorship.
翻訳日:2023-06-19 17:55:40 公開日:2023-06-15
# 2次元正弦波モデルにおける最小偏差推定器の整合性と漸近正規性について

On Consistency and Asymptotic Normality of Least Absolute Deviation Estimators for 2-dimensional Sinusoidal Model ( http://arxiv.org/abs/2301.03229v2 )

ライセンス: Link先を確認
Saptarshi Roy, Amit Mitra and N K Archak(参考訳) 2次元正弦波モデルのパラメータの推定は、デジタル信号処理と時系列解析の基本的な問題である。 本稿では,パラメータ推定のためのロバスト最小絶対偏差推定器を提案する。 提案手法は,データに異常値が存在する場合や重く尾部ノイズが存在する場合において,最小二乗推定法のような非ロバスト推定手法にロバストな代替手段を提供する。 LAD推定器の重要な漸近特性について検討し、2次元正弦波モデルの信号パラメータのLAD推定器の強い一貫性と漸近正規性を確立する。 さらに, LAD推定器を用いた最小2乗推定器の利点について, 広範囲なシミュレーション研究を通じて述べる。 2次元テクスチャデータのデータ解析は,提案手法の実用性を示している。

Estimation of the parameters of a 2-dimensional sinusoidal model is a fundamental problem in digital signal processing and time series analysis. In this paper, we propose a robust least absolute deviation (LAD) estimators for parameter estimation. The proposed methodology provides a robust alternative to non-robust estimation techniques like the least squares estimators, in situations where outliers are present in the data or in the presence of heavy tailed noise. We study important asymptotic properties of the LAD estimators and establish the strong consistency and asymptotic normality of the LAD estimators of the signal parameters of a 2-dimensional sinusoidal model. We further illustrate the advantage of using LAD estimators over least squares estimators through extensive simulation studies. Data analysis of a 2-dimensional texture data indicates practical applicability of the proposed LAD approach.
翻訳日:2023-06-19 17:53:53 公開日:2023-06-15
# SLUE Phase-2: 多様な音声言語理解タスクのベンチマークスイート

SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks ( http://arxiv.org/abs/2212.10525v2 )

ライセンス: Link先を確認
Suwon Shon, Siddhant Arora, Chyi-Jiunn Lin, Ankita Pasad, Felix Wu, Roshan Sharma, Wei-Lun Wu, Hung-Yi Lee, Karen Livescu, Shinji Watanabe(参考訳) 音声言語理解(SLU)タスクは、音声研究コミュニティで何十年も研究されてきたが、音声認識や話者認識のような低レベルタスクほど注目されていない。 特に、sluタスクベンチマークはそれほど多くなく、既存のものの多くは、すべての研究者が自由に利用できないデータを使っている。 最近の作業では、いくつかのタスクのためのベンチマークデータセットの導入が始まっている。 本研究では,SLU評価環境における既存のベンチマークとアドレスギャップを補完する,自由可利用音声データに基づく新しい注釈付きSLUベンチマークタスクを紹介する。 質問応答と要約は、長い音声系列に対する推論を伴う; 名前付きエンティティローカライゼーションは、信号中のターゲットコンテンツを特定するための音声固有のタスクに対処する; ダイアログアクト分類は、与えられた発話の機能を識別する。 我々は,Spoken Language Understanding Evaluation (SLUE)ベンチマークスイートの青写真に従う。 事前学習した音声表現の成功を生かしたSLUモデルの開発を容易にするため,各課題について公開する。 (i)比較的小さな微調整セットに対するアノテーション (ii)注釈付き開発及び試験セット、及び (iii)再現性と比較の容易なベースラインモデル。 本稿では,データ収集とアノテーションの詳細とベースラインモデルの性能について述べる。 また,20以上の最先端音声認識モデルを用いて,音声認識精度に対するパイプラインモデルの性能(音声認識器+テキストモデル)の感度解析を行う。

Spoken language understanding (SLU) tasks have been studied for many decades in the speech research community, but have not received as much attention as lower-level tasks like speech and speaker recognition. In particular, there are not nearly as many SLU task benchmarks, and many of the existing ones use data that is not freely available to all researchers. Recent work has begun to introduce such benchmark datasets for several tasks. In this work, we introduce several new annotated SLU benchmark tasks based on freely available speech data, which complement existing benchmarks and address gaps in the SLU evaluation landscape. We contribute four tasks: question answering and summarization involve inference over longer speech sequences; named entity localization addresses the speech-specific task of locating the targeted content in the signal; dialog act classification identifies the function of a given speech utterance. We follow the blueprint of the Spoken Language Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the development of SLU models that leverage the success of pre-trained speech representations, we will be publishing for each task (i) annotations for a relatively small fine-tuning set, (ii) annotated development and test sets, and (iii) baseline models for easy reproducibility and comparisons. In this work, we present the details of data collection and annotation and the performance of the baseline models. We also perform sensitivity analysis of pipeline models' performance (speech recognizer + text model) to the speech recognition accuracy, using more than 20 state-of-the-art speech recognition models.
翻訳日:2023-06-19 17:53:41 公開日:2023-06-15
# 識別による正規化による表現不連続化

Representation Disentaglement via Regularization by Identification ( http://arxiv.org/abs/2303.00128v2 )

ライセンス: Link先を確認
Juan Castorena(参考訳) 本研究は,観測データから不整合表現を学習する問題に焦点をあてる。 for $i=1, ...,N $ draw from $p(\mathbf{x}|\mathbf{y})$ with generative variables $\mathbf{y}$ admitting the distribution factorization $p(\mathbf{y}) = \prod_{c} p(\mathbf{y}_c )$ が与えられたとき、各$c$に対して、後続の$p(\mathbf{z}| \mathbf{x}, \hat{\mathbf{y}}_c)$に対して、観測空間に一致する非有界表現を認識保証して学習することは可能かどうかを問う。 分散因子化特性に適合するデータの現代的深層表現学習モデルでは,衝突型バイアス行動が不適切である。 因果関係のルーリックの下では、この問題が識別可能性の条件の下で説明され、調整可能であることを示す。 そこで本研究では,大規模dlモデルの振る舞いをドメイン知識と整合するように設計されたモジュール型正規化エンジンであるregularization by identification (rei)を提案する。 実験的な証拠は、ReIを変分的枠組みで強制すると、一般化能力を備えた解釈不能な表現が分布外例に結びつき、生成変数と測定装置の間のドメイン知識からの真の期待効果とうまく一致していることを示している。

This work focuses on the problem of learning disentangled representations from observational data. Given observations ${\mathbf{x}^{(i)}}$ for $i=1,...,N $ drawn from $p(\mathbf{x}|\mathbf{y})$ with generative variables $\mathbf{y}$ admitting the distribution factorization $p(\mathbf{y}) = \prod_{c} p(\mathbf{y}_c )$, we ask whether learning disentangled representations matching the space of observations with identification guarantees on the posterior $p(\mathbf{z}| \mathbf{x}, \hat{\mathbf{y}}_c)$ for each $c$, is plausible. We argue modern deep representation learning models of data matching the distributed factorization property are ill-posed with collider bias behaviour; a source of bias producing entanglement between generating variables. Under the rubric of causality, we show this issue can be explained and reconciled under the condition of identifiability; attainable under supervision or a weak-form of it. For this, we propose regularization by identification (ReI), a modular regularization engine designed to align the behavior of large scale DL models with domain knowledge. Empirical evidence shows that enforcing ReI in a variational framework results in interpretable disentangled representations equipped with generalization capabilities to out-of-distribution examples and that aligns nicely with the true expected effect from domain knowledge between generating variables and measurement apparatus.
翻訳日:2023-06-19 17:47:28 公開日:2023-06-15
# ノイズとバックへ:共有自律性のための拡散

To the Noise and Back: Diffusion for Shared Autonomy ( http://arxiv.org/abs/2302.12244v3 )

ライセンス: Link先を確認
Takuma Yoneda and Luzhe Sun and and Ge Yang and Bradly Stadie and Matthew Walter(参考訳) 共有自律は、ユーザーと自律エージェントがロボットシステムを協調的に制御する運用概念である。 多くの設定において、フルテレオペレーションとフルオートノミーの極端よりも多くの利点を提供します。 従来の共有自律性へのアプローチは、環境力学の知識、優先事項として知られるユーザ目標の離散的な空間、あるいは多くのドメインで非現実的な仮定に依存する。 最近の研究は、モデルフリーの深層強化学習(RL)で共有自律性を定式化し、これらの仮定の一部を緩和している。 特に、彼らはもはやゴール空間(例えば、ゴールが離散的または制約的である)や環境力学の知識は必要としない。 しかし、ポリシーを訓練するにはタスク固有の報酬関数の知識が必要です。 残念なことに、このような報酬仕様は困難で不安定なプロセスになり得る。 それに加えて、定式化は本質的には人間のループトレーニングに依存しており、ユーザの行動を模倣するポリシーを作成する必要がある。 本稿では,拡散モデルの前方および逆拡散過程の変調を用いた共有自律性への新しいアプローチを提案する。 我々のアプローチは既知の環境ダイナミクスやユーザ目標の空間を前提とせず、以前の作業とは対照的に、報酬のフィードバックは必要とせず、トレーニング中にユーザのポリシにアクセスする必要もない。 その代わり、我々のフレームワークは望ましい行動の空間上の分布を学習する。 次に拡散モデルを使用して、この分布からユーザのアクションをサンプルに変換する。 重要なことは、ユーザのコントロール権限を保持する方法で、このプロセスを実行することが可能であることを示す。 当社のフレームワークを,一連の困難な継続的制御タスクで評価し,その自律性を維持しながらユーザの行動を効果的に修正する能力を分析した。

Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user's policy -- assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users' behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user's policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user's actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user's control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy.
翻訳日:2023-06-19 17:46:11 公開日:2023-06-15
# 量子イジングモデルにおける仕事の準確率分布

Quasiprobability distribution of work in the quantum Ising model ( http://arxiv.org/abs/2302.11255v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) 量子多体系のパラメータをクエンチすることでなされた仕事の統計の完全な理解は、エネルギー基底における初期量子コヒーレンスの存在下ではまだ不足している。 この場合、ワークは準確率分布のクラスで表現できる。 本稿では, 横場におけるIsingモデルの作業準確率を研究することによって, プロセスの真に量子的な特徴を明らかにする。 我々は,熱力学的限界を中心に,グローバルとローカルの両方のクエンチを考える。 グローバルなクエンチでは、作業のガウス確率分布を持つ対称非コンテキスト表現が存在するが、局所クエンチでは、作業の負の第4モーメントによって信号される量子文脈性が得られる。 さらに, 量子相転移に関連する臨界特性と初期量子コヒーレンスの役割を有用資源として検討した。

A complete understanding of the statistics of the work done by quenching a parameter of a quantum many-body system is still lacking in the presence of an initial quantum coherence in the energy basis. In this case, the work can be represented by a class of quasiprobability distributions. Here, we try to clarify the genuinely quantum features of the process by studying the work quasiprobability for an Ising model in a transverse field. We consider both a global and a local quench, by focusing mainly on the thermodynamic limit. We find that, while for a global quench there can be a symmetric non-contextual representation with a Gaussian probability distribution of work, for a local quench we can get quantum contextuality as signaled by a negative fourth moment of the work. Furthermore, we examine the critical features related to a quantum phase transition and the role of the initial quantum coherence as useful resource.
翻訳日:2023-06-19 17:45:43 公開日:2023-06-15
# 畳み込み型クロスビューポーズ推定

Convolutional Cross-View Pose Estimation ( http://arxiv.org/abs/2303.05915v2 )

ライセンス: Link先を確認
Zimin Xia, Olaf Booij, and Julian F. P. Kooij(参考訳) 本稿では,新しい視点間ポーズ推定手法を提案する。 クェリのローカルエリアをカバーする地上レベルのクェリ画像と空中画像が与えられた場合、クェリの3デグリー・オブ・フリーダムカメラのポーズは、その画像ディスクリプタと、その空中画像内のローカル領域のディスクリプタとのマッチングにより推定される。 方向認識ディスクリプタは、変換同変畳み込み基底画像エンコーダとコントラスト学習とを用いて得られる。 ローカライズデコーダは、新しいローカライズマッチングアップサンプリングモジュールと共に、粗〜微妙な方法で高密度確率分布を生成する。 より小さなオリエンテーションデコーダは、ローカライゼーションに向き推定を条件付けるベクトル場を生成する。 提案手法は,VIGORとKITTIのデータセットで検証され,最先端のベースラインを72%,中央値のローカライゼーション誤差が36%の精度で上回っている。 予測確率分布は局所的曖昧性を表すことができ、誤った予測を拒否することができる。 再トレーニングを行わなければ、異なる視野を持つ地上画像を推論し、利用可能であればオリエンテーション優先を利用することができる。 オックスフォード・ロボットカーデータセットでは,1m以下で中央位置推定誤差を,14fpsで1度前後で中央方向誤差を算出し,経時的に ego-vehicle の姿勢を確実に推定する。

We propose a novel end-to-end method for cross-view pose estimation. Given a ground-level query image and an aerial image that covers the query's local neighborhood, the 3 Degrees-of-Freedom camera pose of the query is estimated by matching its image descriptor to descriptors of local regions within the aerial image. The orientation-aware descriptors are obtained by using a translational equivariant convolutional ground image encoder and contrastive learning. The Localization Decoder produces a dense probability distribution in a coarse-to-fine manner with a novel Localization Matching Upsampling module. A smaller Orientation Decoder produces a vector field to condition the orientation estimate on the localization. Our method is validated on the VIGOR and KITTI datasets, where it surpasses the state-of-the-art baseline by 72% and 36% in median localization error for comparable orientation estimation accuracy. The predicted probability distribution can represent localization ambiguity, and enables rejecting possible erroneous predictions. Without re-training, the model can infer on ground images with different field of views and utilize orientation priors if available. On the Oxford RobotCar dataset, our method can reliably estimate the ego-vehicle's pose over time, achieving a median localization error under 1 meter and a median orientation error of around 1 degree at 14 FPS.
翻訳日:2023-06-19 17:34:01 公開日:2023-06-15
# Seq-HyGAN:Hypergraph Attention Networkによるシーケンス分類

Seq-HyGAN: Sequence Classification via Hypergraph Attention Network ( http://arxiv.org/abs/2303.02393v3 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Corey May, Farhan Tanvir, Muhammad Ifte Khairul Islam, Esra Akbas(参考訳) シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。 しかし、シーケンスデータに明示的な特徴がないため、機械学習モデルでは困難である。 ニューラルネットワーク(NN)モデルは、学習機能によってこの問題に対処するが、隣接する構造的接続をキャプチャし、シーケンス間のグローバルで高次情報を無視している。 シーケンス分類問題におけるこれらの課題に対処するため,我々は新しいハイパーグラフアテンションネットワークモデルseq-hyganを提案する。 シーケンスデータ間の複雑な構造的類似性を捉えるために、まず、シーケンスをハイパーエッジとして、シーケンスから抽出されたサブシーケンスをノードとして表現するハイパーグラフを作成する。 さらに,2段階の注意機構を利用した注意に基づくハイパーグラフニューラルネットワークモデルを提案する。 このモデルは、各シーケンスの重要なサブシーケンスを同時に学習しながら、ハイパーエッジとしてシーケンス表現を生成する。 我々は4つのデータセットについて広範な実験を行い、そのモデルをいくつかの最先端手法と比較した。 実験により,提案したSeq-HyGANモデルにより,シーケンスデータを効果的に分類し,ベースラインを大幅に上回ることを示す。 また,Seq-HyGANにおける各モジュールの寄与を調べるケーススタディも実施する。

Sequence classification has a wide range of real-world applications in different domains, such as genome classification in health and anomaly detection in business. However, the lack of explicit features in sequence data makes it difficult for machine learning models. While Neural Network (NN) models address this with learning features automatically, they are limited to capturing adjacent structural connections and ignore global, higher-order information between the sequences. To address these challenges in the sequence classification problems, we propose a novel Hypergraph Attention Network model, namely Seq-HyGAN. To capture the complex structural similarity between sequence data, we first create a hypergraph where the sequences are depicted as hyperedges and subsequences extracted from sequences are depicted as nodes. Additionally, we introduce an attention-based Hypergraph Neural Network model that utilizes a two-level attention mechanism. This model generates a sequence representation as a hyperedge while simultaneously learning the crucial subsequences for each sequence. We conduct extensive experiments on four data sets to assess and compare our model with several state-of-the-art methods. Experimental results demonstrate that our proposed Seq-HyGAN model can effectively classify sequence data and significantly outperform the baselines. We also conduct case studies to investigate the contribution of each module in Seq-HyGAN.
翻訳日:2023-06-19 17:33:19 公開日:2023-06-15
# 可変低損失結合器を用いた超伝導3次元マイクロ波空洞を用いた平面回路の統合

Integrating planar circuits with superconducting 3D microwave cavities using tunable low-loss couplers ( http://arxiv.org/abs/2304.06162v2 )

ライセンス: Link先を確認
Ziyi Zhao, Eva Gurra, Eric I. Rosenthal, Leila R. Vale, Gene C. Hilton, K. W. Lehnert(参考訳) 超伝導3次元マイクロ波キャビティと2次元回路間の低損失界面を設計・試験し,結合速度を高度に調整する。 このインタフェースはループアンテナとジョセフソン接合に基づく結合素子をシームレスに統合する。 この界面を空洞に接続することで得られた損失は1/(4.5 \times 10^6)$の逆品質係数に対応する1.28kHzであることを示す。 さらに, キャビティの50$\omega$伝送線路への外部結合率は, 内部損失率よりも3桁以上小さく, 特性時間3.2 nsで調整可能であることを示した。 この切替速度は、結合速度よりもずっと速いため、結合速度に付加的な制限を課さない。 さらに、カプラは低周波信号で制御でき、キャビティまたはキュービット周波数近傍のマイクロ波信号との干渉を避けることができる。 最後に、結合素子は共振器に0.04Hz/光子自己Kerr非線形性を導入し、高光子数演算では線形である。

We design and test a low-loss interface between superconducting 3-dimensional microwave cavities and 2-dimensional circuits, where the coupling rate is highly tunable. This interface seamlessly integrates a loop antenna and a Josephson junction-based coupling element. We demonstrate that the loss added by connecting this interface to the cavity is 1.28 kHz, corresponding to an inverse quality factor of $1/(4.5 \times 10^6)$. Furthermore, we show that the cavity's external coupling rate to a 50 $\Omega$ transmission line can be tuned from negligibly small to over 3 orders of magnitude larger than its internal loss rate in a characteristic time of 3.2 ns. This switching speed does not impose additional limits on the coupling rate because it is much faster than the coupling rate. Moreover, the coupler can be controlled by low frequency signals to avoid interference with microwave signals near the cavity or qubit frequencies. Finally, the coupling element introduces a 0.04 Hz/photon self-Kerr nonlinearity to the cavity, remaining linear in high photon number operations.
翻訳日:2023-06-19 17:28:03 公開日:2023-06-15
# 黒-白孔転移の数値解法

Numerical approach to the black-to-white hole transition ( http://arxiv.org/abs/2304.02691v2 )

ライセンス: Link先を確認
Pietropaolo Frisoni(参考訳) ループ量子重力共変定式法とローレンツ型エングル・ペレイラ・ロヴェッリ・リバインモデルを用いて,ブラックホール間遷移振幅を数値的に計算するアルゴリズムを概説する。 このアルゴリズムを用いて, 半古典的極限における同じ物理観測値の過去の解析的推定値と比較し, 深部量子状態における遷移の交差時間を計算する。 さらに,現在文献に残されているものに対する代替手法を用いて,交差時間を解析的に評価する方法を示す。 この方法は非常に簡単な計算を必要とし、横断時間は遷移の外部幾何学に依存しない、と強調する。

We outline an algorithm to compute numerically the black-to-white hole transition amplitude, using the loop quantum gravity covariant formulation and the Lorentzian Engle-Pereira-Rovelli-Livine model. We apply the algorithm to calculate the crossing time of the transition in the deep quantum regime, comparing our result with previous analytical estimates of the same physical observable in the semiclassical limit. Furthermore, we show how to evaluate the crossing time analytically using an alternative approach with respect to the one currently present in the literature. This method requires much easier calculations and emphasizes that the crossing time does not depend on the extrinsic geometry of the transition.
翻訳日:2023-06-19 17:25:40 公開日:2023-06-15
# 現代ディープラーニングアルゴリズムによる残差クラスに基づく整数の分類

Classification of integers based on residue classes via modern deep learning algorithms ( http://arxiv.org/abs/2304.01333v2 )

ライセンス: Link先を確認
Da Wu, Jingye Yang, Mian Umair Ahsan, Kai Wang(参考訳) 2, 3, などの素数で整数を割るときに剰余を計算することは、人間には自明に見えるかもしれないが、事前定義されたアルゴリズムがない場合、コンピュータにとっては簡単ではない。 本稿では,複数のディープラーニングアーキテクチャと,小素数で割った場合の剰余値に基づいて,大きな有限整数(最大$^{32}$)を分類する特徴工学的アプローチをテストした。 ネットワークアーキテクチャ(cnn、rnn、transformerなど)やネットワークの複雑さに関わらず、分類の能力はディープラーニングモデルに供給される機能空間に依存することが判明した。 また、amazon、google、microsoftの商用自動化機械学習(automl)パイプラインを評価したところ、適切に設計された機能が提供されない限り、この問題に対処できなかったことが分かりました。 さらに,フーリエ級数ベクトル上で線形回帰を利用する手法を導入し,その効果を一般のケースで実証した。 最後に, GPT-J, Falcon-40B, LLaMAを用いた即時学習手法の評価を行い, その明らかな失敗を実証した。 結論として、機能エンジニアリングは、AutoMLやLLM(Large Language Models)の時代にも、パフォーマンスを改善し、解釈可能性を高め、モデルの複雑さを低減するための重要なタスクである。

Computing the residue when dividing a given integer by prime numbers like 2, 3, or others may appear trivial to human beings, but it can be less straightforward for computers in the absence of pre-defined algorithms. In this paper, we tested multiple deep learning architectures and feature engineering approaches on classifying large finite integers (up to $2^{32}$) based on their residues when divided by small prime numbers. It turns out that, regardless of the network architectures (CNN, RNN, Transformer, etc.) or the complexity of the networks, the ability of classification critically depends on the feature space fed into the deep learning models. We also evaluated commercially available Automated Machine Learning (AutoML) pipelines from Amazon, Google and Microsoft, and found that they failed to address this issue unless appropriately engineered features were provided. Furthermore, we introduced a method that utilizes linear regression on Fourier series basis vectors, and successfully demonstrated its effectiveness in the general case. Finally, we evaluated prompt-based learning approaches using GPT-J, Falcon-40B, and LLaMA and demonstrated its apparent failures. To conclude, feature engineering remains an important task to improve the performance, increase the interpretability, and reduce the complexity of models, even in the era of AutoML and Large Language Models (LLMs).
翻訳日:2023-06-19 17:25:27 公開日:2023-06-15
# 農業分野における自己監督表現学習のためのインジェクトノイズ判別器

INoD: Injected Noise Discriminator for Self-Supervised Representation Learning in Agricultural Fields ( http://arxiv.org/abs/2303.18101v2 )

ライセンス: Link先を確認
Julia Hindel, Nikhil Gosala, Kevin Bregler, Abhinav Valada(参考訳) 農業の知覚データセットは量と多様性の両方に制限されており、教師付き学習アプローチの効果的な訓練を妨げる。 自己指導型学習技術によりこの問題が緩和されるが、既存の手法は農業領域の密集予測タスクに最適化されていないため、性能が低下する。 本研究では, 自己教師型表現学習における特徴置換とデータセット識別の原理を活かしたインジェクテッドノイズ識別器(INoD)を用いて, この制限に対処する。 inodは、畳み込み符号化中に2つの非結合データセットからフィーチャーマップをインターリーブし、プリテキストタスクとして結果のフィーチャーマップのデータセットアフィリエーションを予測する。 提案手法により、ネットワークは、あるデータセットで見られるオブジェクトの無意味な表現を学習し、解離したデータセットの類似した特徴と合わせて観察することができる。 これによりネットワークは、関連するオブジェクトの高レベルなセマンティクスを判断することができ、様々な下流タスクのパフォーマンスが向上する。 さらに,ポテトフィールドにおける物体検出のための16,800枚以上の画像からなるFraunhofer Potato 2022データセットについても紹介した。 サトウキビ2016とジャガイモデータセットのオブジェクト検出,セマンティクスセグメンテーション,インスタンスセグメンテーションといったタスクにおいて,提案するinodプリトレーニング戦略の広範な評価を行った結果,最先端のパフォーマンスが得られた。

Perception datasets for agriculture are limited both in quantity and diversity which hinders effective training of supervised learning approaches. Self-supervised learning techniques alleviate this problem, however, existing methods are not optimized for dense prediction tasks in agriculture domains which results in degraded performance. In this work, we address this limitation with our proposed Injected Noise Discriminator (INoD) which exploits principles of feature replacement and dataset discrimination for self-supervised representation learning. INoD interleaves feature maps from two disjoint datasets during their convolutional encoding and predicts the dataset affiliation of the resultant feature map as a pretext task. Our approach enables the network to learn unequivocal representations of objects seen in one dataset while observing them in conjunction with similar features from the disjoint dataset. This allows the network to reason about higher-level semantics of the entailed objects, thus improving its performance on various downstream tasks. Additionally, we introduce the novel Fraunhofer Potato 2022 dataset consisting of over 16,800 images for object detection in potato fields. Extensive evaluations of our proposed INoD pretraining strategy for the tasks of object detection, semantic segmentation, and instance segmentation on the Sugar Beets 2016 and our potato dataset demonstrate that it achieves state-of-the-art performance.
翻訳日:2023-06-19 17:24:43 公開日:2023-06-15
# 非クリフォードゲートの少ない量子状態の効率的な学習

Efficient Learning of Quantum States Prepared With Few Non-Clifford Gates ( http://arxiv.org/abs/2305.13409v2 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 我々はクリフォードゲートと$O(\log(n))$非クリフォードゲートで用意された量子状態を効率的に学習するアルゴリズムを与える。 具体的には、$n$-qubit state $\lvert \psi \rangle$を少なくとも$t$非クリフォードゲートで用意すると、$\mathsf{poly}(n,2^t,1/\epsilon)$ time and copy of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$を示す。 この結果は、量子状態が2^k$ パウリ作用素のアーベル群によって安定化されたとき、安定化次元が$k$となるような大きな安定化次元を持つ状態を学ぶためのアルゴリズムの特別な場合として従う。 また, 独立興味のある安定度次元に対する効率的な特性評価アルゴリズムを開発した。

We give an algorithm that efficiently learns a quantum state prepared by Clifford gates and $O(\log(n))$ non-Clifford gates. Specifically, for an $n$-qubit state $\lvert \psi \rangle$ prepared with at most $t$ non-Clifford gates, we show that $\mathsf{poly}(n,2^t,1/\epsilon)$ time and copies of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$. This result follows as a special case of an algorithm for learning states with large stabilizer dimension, where a quantum state has stabilizer dimension $k$ if it is stabilized by an abelian group of $2^k$ Pauli operators. We also develop an efficient property testing algorithm for stabilizer dimension, which may be of independent interest.
翻訳日:2023-06-19 17:17:03 公開日:2023-06-15
# SalienDet: 自律運転のための物体検出のためのサリエンシに基づく特徴強調アルゴリズム

SalienDet: A Saliency-based Feature Enhancement Algorithm for Object Detection for Autonomous Driving ( http://arxiv.org/abs/2305.06940v2 )

ライセンス: Link先を確認
Ning Ding, Ce Zhang, Azim Eskandarian(参考訳) 物体検出(OD)は自動運転に不可欠である。 一方で、訓練用サンプルセットでは見られない未知の物体が、自律走行車が運転領域を超えて運転することを妨げている理由の1つである。 この問題に対処するため、未知のオブジェクトを検出するために、サリエンデット法(SalienDet)を提案する。 我々のSaienDetは、オブジェクトの提案生成のための画像機能を強化するために、サリエンシに基づくアルゴリズムを利用している。 さらに、オープンワールド検出を実現するためのトレーニングサンプルセットにおいて、未知のオブジェクトをすべてのオブジェクトと区別するためのデータセットレザベリングアプローチを設計する。 SalienDetの性能を評価するために,KITTI,nuScenes,BDDのデータセット上でSaienDetを評価する。 特に、saliendetは、オープンワールド検出タスクでインクリメンタルな学習に容易に適応できる。 プロジェクトページは \url{https://github.com/dingmike001/SalienDet-Open-Detection.git} である。

Object detection (OD) is crucial to autonomous driving. On the other hand, unknown objects, which have not been seen in training sample set, are one of the reasons that hinder autonomous vehicles from driving beyond the operational domain. To addresss this issue, we propose a saliency-based OD algorithm (SalienDet) to detect unknown objects. Our SalienDet utilizes a saliency-based algorithm to enhance image features for object proposal generation. Moreover, we design a dataset relabeling approach to differentiate the unknown objects from all objects in training sample set to achieve Open-World Detection. To validate the performance of SalienDet, we evaluate SalienDet on KITTI, nuScenes, and BDD datasets, and the result indicates that it outperforms existing algorithms for unknown object detection. Notably, SalienDet can be easily adapted for incremental learning in open-world detection tasks. The project page is \url{https://github.com/dingmike001/SalienDet-Open-Detection.git}.
翻訳日:2023-06-19 17:15:48 公開日:2023-06-15
# 逆認知型分散ネットワーク型marlのためのアルゴリズム

An Algorithm For Adversary Aware Decentralized Networked MARL ( http://arxiv.org/abs/2305.05573v2 )

ライセンス: Link先を確認
Soumajyoti Sarkar(参考訳) 分散マルチエージェント強化学習 (marl) アルゴリズムは, 全エージェントの共通報酬関数を仮定する正準マルチエージェントマルコフ決定プロセス (mdp) とは対照的に, 異種エージェントが独自の報酬機能を持つことができるため, 文献で広く用いられている。 本稿では,コラボレーティブ marl における既存の研究について述べる。コラボレーティブ marl では,コラボレーティブなネットワーク内のエージェントがコンセンサスに達するために相互に情報を交換できる。 我々は既存のMARLアルゴリズムのコンセンサス更新に脆弱性を導入し、エージェントは通常のコンセンサス更新から逸脱することができる。 次に,非敵エージェントが制約条件下で敵の存在下でコンセンサスに達することを可能にするアルゴリズムを提案する。

Decentralized multi-agent reinforcement learning (MARL) algorithms have become popular in the literature since it allows heterogeneous agents to have their own reward functions as opposed to canonical multi-agent Markov Decision Process (MDP) settings which assume common reward functions over all agents. In this work, we follow the existing work on collaborative MARL where agents in a connected time varying network can exchange information among each other in order to reach a consensus. We introduce vulnerabilities in the consensus updates of existing MARL algorithms where agents can deviate from their usual consensus update, who we term as adversarial agents. We then proceed to provide an algorithm that allows non-adversarial agents to reach a consensus in the presence of adversaries under a constrained setting.
翻訳日:2023-06-19 17:15:31 公開日:2023-06-15
# 単元ビームスプリッタを用いたベルコヒーレント状態重畳における干渉位相推定と量子資源ダイナミクス

Interferometric phase estimation and quantum resources dynamics in Bell coherent-states superpositions generated via a unitary beam splitter ( http://arxiv.org/abs/2306.02702v2 )

ライセンス: Link先を確認
Abdallah Slaoui, Brahim Amghar and Rachid Ahl Laamara(参考訳) ビームスプリッター(英: beam splitters)は、初期の光ビームを必要な数のビームに分割するために現代の技術で広く用いられている光学素子であり、絡み合った光状態を生成するのに非常に有望な役割を果たす。 これにより、一方の入力モードにグラウバーコヒーレント状態が注入され、他方のモードに真空状態が入射した場合、ビームスプリッタの作用によりベルコヒーレント状態が重なり合う可能性がある。 異なる量子化器は、共起エンタングルメント、エントロピー量子不協和、量子コヒーレンス、量子不協和の幾何測度、局所量子不確実性(LQU)、局所量子フィッシャー情報などの出力状態の量子性を測定するために用いられる。 そこで, 解析式を導出し, それぞれの測定値の振る舞いと境界にもっと焦点をあてる。 また,標準射影計測のために定義された標準lquの一般化として弱測定により捕捉される弱測定誘起lquの概念を導入し,生成したベルキャット状態が量子計測におけるプローブ状態である場合,測定強度が推定位相強調に与える影響について検討した。 この結果から, 干渉位相推定の感度は, プローブ状態の摂動が強いこと, 弱測定が必ずしも複合系の量子性を捉えるとは限らないことが示唆された。

Beam splitters are optical elements widely used in modern technological applications to split the initial light beam into a required number of beams and they play a very promising role for generating entangled optical states. Here, a potential scheme is proposed to generate Bell coherent-states superpositions through the action of a beam splitter when a Glauber coherent state is injected on one input mode and vacuum state is incident on the other one. Different quantifiers are used to measure the quantumness in the output state such as concurrence entanglement, entropic quantum discord, quantum coherence, geometric measure of quantum discord, local quantum uncertainty (LQU) and local quantum Fisher information. Thereby, we derive their analytical formulas and focus more on the behavior and bounds of each measure. Besides, we have introduced the notion of "weak measurement-induced LQU" captured by weak measurements as the generalization of normal LQU defined for standard projective measurement, and we investigate the effect of the measurement strength on the estimated phase enhancement if the generated Bell cat states are the probe states in quantum metrology. Our results suggest that the sensitivity of the interferometric phase estimation depends on how strongly one perturbs the probe state and that a weak measurement does not necessarily capture more quantumness in composite system.
翻訳日:2023-06-19 17:07:49 公開日:2023-06-15
# 時間内2次元骨格配列のアライメントによる学習

Learning by Aligning 2D Skeleton Sequences in Time ( http://arxiv.org/abs/2305.19480v2 )

ライセンス: Link先を確認
Quoc-Huy Tran, Muhammad Ahmed, Ahmed Mehmood, M. Hassan Ahmed, Murad Popattia, Andrey Konin, M. Zeeshan Zia(参考訳) 本稿では,人間の活動を理解する上で有用な,新しい自己教師付き時間的映像アライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。 時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。 さらに,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。 さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。 最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。 我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を探索した。

This paper presents a novel self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To the best of our knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
翻訳日:2023-06-19 17:06:11 公開日:2023-06-15
# 道徳的イマジネーションによるGoogleチーム獲得: テクノロジー企業における責任あるイノベーションと倫理的文化変革のためのボトムアップアプローチ

Engaging Google Teams Through Moral Imagination: A Bottom-Up Approach for Responsible Innovation and Ethical Culture Change in Technology Companies ( http://arxiv.org/abs/2306.06901v2 )

ライセンス: Link先を確認
Benjamin Lange, Amanda McCroskery, Ben Zevenbergen, Geoff Keeling, Sandra Blascovich, Kyle Pedersen, Alison Lentz, and Blaise Aguera y Arcas(参考訳) 我々は,技術系企業のエンジニアリングチームと製品チームに対して,責任あるイノベーションの文化を促進するための「モラル・イマジネーション」手法を提案する。 当社のアプローチは、過去2年間にわたってGoogleで運用され、組織全体のチームと40以上のワークショップを開催しています。 当社のアプローチは,倫理意識,審議,企業の原則や倫理,プライバシレビュー手順,コンプライアンスコントロールといった技術設計における意思決定の文化を育むための,既存の形式的かつ非公式なイニシアティブを極めて補完するものです。 特に技術分野における方法論の特有な利点を特徴付ける。

We propose a 'Moral Imagination' methodology to facilitate a culture of responsible innovation for engineering and product teams in technology companies. Our approach has been operationalized over the past two years at Google, where we have conducted over 40 workshops with teams from across the organization. We argue that our approach is a crucial complement to existing formal and informal initiatives for fostering a culture of ethical awareness, deliberation, and decision-making in technology design such as company principles, ethics and privacy review procedures, and compliance controls. We characterize some distinctive benefits of our methodology for the technology sector in particular.
翻訳日:2023-06-19 16:55:19 公開日:2023-06-15
# 共同視覚言語トークン化学習の多様化

Diversifying Joint Vision-Language Tokenization Learning ( http://arxiv.org/abs/2306.03421v2 )

ライセンス: Link先を確認
Vardaan Pahuja, AJ Piergiovanni, Anelia Angelova(参考訳) 画像とテキストをつなぐ共同表現の構築は、視覚的質問応答やビデオ質問応答といったタスクにとって必須のステップである。 この研究において、表現は両方のモダリティから特徴を共同にキャプチャするだけでなく、より優れた一般化性能を得るためにも多様である必要がある。 そこで本研究では,トークン化学習プロセスを多様化し,相互に疎結合なトークンを両様相から学習可能にすることにより,視覚言語表現学習を両立させる。 提案手法は,ほとんどの設定においてベースラインモデルよりも優れており,最先端の手法と競合する。

Building joint representations across images and text is an essential step for tasks such as Visual Question Answering and Video Question Answering. In this work, we find that the representations must not only jointly capture features from both modalities but should also be diverse for better generalization performance. To this end, we propose joint vision-language representation learning by diversifying the tokenization learning process, enabling tokens that are sufficiently disentangled from each other to be learned from both modalities. We observe that our approach outperforms the baseline models in a majority of settings and is competitive with state-of-the-art methods.
翻訳日:2023-06-19 16:54:15 公開日:2023-06-15
# 等価なマルチタスク学習

Equitable Multi-task Learning ( http://arxiv.org/abs/2306.09373v1 )

ライセンス: Link先を確認
Jun Yuan and Rui Zhang(参考訳) マルチタスク学習(MTL)は,CV,NLP,IRなど,さまざまな研究領域で大きな成功を収めている。 複雑で競合するタスク相関のため、na\"iveなトレーニングでは、すべてのタスクが不平等な学習につながる可能性がある。 マルチタスク最適化(MTO)は、全てのタスクを同時に改善することを目的としているが、従来の手法は、大きな損失スケールや勾配ノルム等級差のあるタスクでは、しばしば不適切な処理を行う。 この問題を解決するため,我々はmtlのエクイティ問題を深く調査し,共有パラメータの更新において異なるタスクの相対的貢献(タスク固有の損失値が生の勾配ノルムを割り切ること)がmtlの一般化性能を向上させることを見出した。 理論的解析に基づいて,同値なMTLを実現するために,新しいマルチタスク最適化法である「textit{EMTL}」を提案する。 具体的には、異なるタスクの相対的な貢献をより近づけるために、分散正規化を効率的に追加する。 提案手法は,2つの異なる研究領域の公開ベンチマークデータセットにおいて,最先端の手法を安定的に上回っている。 さらに、マルチタスクレコメンデーションによるオフラインおよびオンラインa/bテストも実施する。 EMTLはマルチタスク・レコメンデーションを大幅に改善し,産業景観における手法の優位性と実践性を示す。

Multi-task learning (MTL) has achieved great success in various research domains, such as CV, NLP and IR etc. Due to the complex and competing task correlation, na\"ive training all tasks may lead to inequitable learning, \textit{i.e.} some tasks are learned well while others are overlooked. Multi-task optimization (MTO) aims to improve all tasks at same time, but conventional methods often perform poor when tasks with large loss scale or gradient norm magnitude difference. To solve the issue, we in-depth investigate the equity problem for MTL and find that regularizing relative contribution of different tasks (\textit{i.e.} value of task-specific loss divides its raw gradient norm) in updating shared parameter can improve generalization performance of MTL. Based on our theoretical analysis, we propose a novel multi-task optimization method, named \textit{EMTL}, to achieve equitable MTL. Specifically, we efficiently add variance regularization to make different tasks' relative contribution closer. Extensive experiments have been conduct to evaluate EMTL, our method stably outperforms state-of-the-art methods on the public benchmark datasets of two different research domains. Furthermore, offline and online A/B test on multi-task recommendation are conducted too. EMTL improves multi-task recommendation significantly, demonstrating the superiority and practicability of our method in industrial landscape.
翻訳日:2023-06-19 16:48:09 公開日:2023-06-15
# ストレス検出のためのマルチモーダル機械学習

Employing Multimodal Machine Learning for Stress Detection ( http://arxiv.org/abs/2306.09385v1 )

ライセンス: Link先を確認
Rahee Walambe, Pranav Nayak, Ashmit Bhardwaj, Ketan Kotecha(参考訳) 現代では、人間のライフスタイルはより知識指向となり、定住雇用の創出に繋がる。 これは多くの健康障害や精神障害を引き起こしている。 メンタルウェルネスは、今日の世界で最も無視されているが重要な側面の1つである。 メンタルヘルス問題は、直接的にも間接的にも、人間の生理学の他の部分に影響を与え、個人の日々の活動やパフォーマンスを妨げる可能性がある。 しかし、重度の精神障害につながる個人に対するストレスの特定とストレス傾向の発見は困難であり、複数の要因が伴う。 このような識別は、行動パターンから生じる複数のモーダル性(様々な要因による)を融合させることで、正確に実現できる。 この目的のために文献に特定の技術が特定されているが、このようなマルチモーダル融合タスクには機械学習に基づく手法がほとんど提案されていない。 本研究では,人の作業行動やストレスレベルを監視するために,マルチモーダルaiベースのフレームワークを提案する。 本研究では,ヘテロジニアスな生センサデータストリーム(表情,姿勢,心拍数,コンピュータインタラクションなど)を結合することにより,作業負荷によるストレスを効率的に検出する手法を提案する。 このデータを安全に保存して分析することで、精神的な緊張や疲労につながるパーソナライズされた行動パターンを理解し、発見することができる。 この研究の貢献は2つある: ストレスとそのレベルを検出するための融合のためのマルチモーダルaiベースの戦略を提案し、次に、ある期間にわたってストレスパターンを識別する。 ストレス検出と分類において,テストセットの精度96.09%を達成した。 さらに,これらのモードを用いて応力スケール予測モデル損失を0.036に低減する。 この作業は、特に新型コロナウイルス(COVID-19)の現在の状況において、特にストレスレベルを監視し、特定するための鎮静職で働く人々にとって、コミュニティにとって重要であることが証明される。

In the current age, human lifestyle has become more knowledge oriented leading to generation of sedentary employment. This has given rise to a number of health and mental disorders. Mental wellness is one of the most neglected but crucial aspects of today's world. Mental health issues can, both directly and indirectly, affect other sections of human physiology and impede an individual's day-to-day activities and performance. However, identifying the stress and finding the stress trend for an individual leading to serious mental ailments is challenging and involves multiple factors. Such identification can be achieved accurately by fusing these multiple modalities (due to various factors) arising from behavioral patterns. Certain techniques are identified in the literature for this purpose; however, very few machine learning-based methods are proposed for such multimodal fusion tasks. In this work, a multimodal AI-based framework is proposed to monitor a person's working behavior and stress levels. We propose a methodology for efficiently detecting stress due to workload by concatenating heterogeneous raw sensor data streams (e.g., face expressions, posture, heart rate, computer interaction). This data can be securely stored and analyzed to understand and discover personalized unique behavioral patterns leading to mental strain and fatigue. The contribution of this work is twofold; proposing a multimodal AI-based strategy for fusion to detect stress and its level and secondly identify a stress pattern over a period of time. We were able to achieve 96.09% accuracy on the test set in stress detection and classification. Further, we reduce the stress scale prediction model loss to 0.036 using these modalities. This work can prove important for the community at large, specifically those working sedentary jobs to monitor and identify stress levels, especially in current times of COVID-19.
翻訳日:2023-06-19 16:36:58 公開日:2023-06-15
# MobileASR:携帯電話の自動音声認識のためのリソース対応オンデバイスパーソナライゼーションフレームワーク

MobileASR: A resource-aware on-device personalisation framework for automatic speech recognition in mobile phones ( http://arxiv.org/abs/2306.09384v1 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, Pooja Rao, T. V. Prabhakar(参考訳) 本稿では,携帯電話上でモデルを効果的にトレーニングし,ユーザデータとモデルをローカルに保存・利用することによる,ユーザ音声パーソナライズしたasrモデル開発のための包括的方法論について述べる。 そこで本研究では,携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。 また、利用可能なリソースとトレーニング時間との関係についても検討し、そのようなシナリオでサブモデルを使うことの有効性を強調する。 携帯電話の評価基準とバッテリ制約を考慮して、効率的なトレーニングを実行し、そのプロセスを停止することができる。 実際のユーザをシミュレートするために、さまざまなアクセントのスピーカーを使用します。 オンデバイストレーニングと評価フレームワーク全体が、ブランド間のさまざまな携帯電話でテストされた。 モデルを微調整し、適切なハイパーパラメータ値を選択することは、最小の達成可能なパフォーマンス指標、オンデバイストレーニング時間、メモリ消費のトレードオフであることを示す。 本手法は,携帯電話の能力を活用しながらパーソナライズされたASRモデルを開発するための包括的ソリューションを提供し,精度とリソース制約のバランスをとる。

We describe a comprehensive methodology for developing user-voice personalised ASR models by effectively training models on mobile phones, allowing user data and models to be stored and used locally. To achieve this, we propose a resource-aware sub-model based training approach that considers the RAM, and battery capabilities of mobile phones. We also investigate the relationship between available resources and training time, highlighting the effectiveness of using sub-models in such scenarios. By taking into account the evaluation metric and battery constraints of the mobile phones, we are able to perform efficient training and halt the process accordingly. To simulate real users, we use speakers with various accents. The entire on-device training and evaluation framework was then tested on various mobile phones across brands. We show that fine-tuning the models and selecting the right hyperparameter values is a trade-off between the lowest achievable performance metric, on-device training time, and memory consumption. Overall, our methodology offers a comprehensive solution for developing personalized ASR models while leveraging the capabilities of mobile phones, and balancing the need for accuracy with resource constraints.
翻訳日:2023-06-19 16:36:30 公開日:2023-06-15
# sound demixing challenge 2023 -- music demixing trackテクニカルレポート

Sound Demixing Challenge 2023 -- Music Demixing Track Technical Report ( http://arxiv.org/abs/2306.09382v1 )

ライセンス: Link先を確認
Minseok Kim, Jun Hyung Lee(参考訳) 本報告では,2023年の音楽デミキシング・チャレンジの音楽デミキシング・トラックの受賞ソリューションについて述べる。 我々は,MUSDBベンチマークの最先端結果を実現する時間効率のよいソース分離ネットワークと,ノイズ・ロバスト音源分離のための損失マスキング手法の2つの手法に着目した。 モデルトレーニングと最終提案を再現するコードはgithub.com/kuielab/sdx23で入手できる。

In this report, we present our award-winning solutions for the Music Demixing Track of Sound Demixing Challenge 2023. We focus on two methods designed for this challenge: a time-efficient source separation network that achieves state-of-the-art results on the MUSDB benchmark and a loss masking method for noise-robust source separation. Code for reproducing model training and final submissions is available at github.com/kuielab/sdx23.
翻訳日:2023-06-19 16:36:11 公開日:2023-06-15
# ヒトモビリティシミュレーションのための時空間型グラフニューラルネットワーク

Spatiotemporal-Augmented Graph Neural Networks for Human Mobility Simulation ( http://arxiv.org/abs/2306.09381v1 )

ライセンス: Link先を確認
Yu Wang, Tongya Zheng, Shunyu Liu, Kaixuan Chen, Zunlei Feng, Yunzhi Hao, Mingli Song(参考訳) ヒューマンモビリティパターンは、政策決定シナリオや経済行動研究に重要な応用が示されている。 人体移動シミュレーションの課題は,人体移動データの希少性や疎大性に懸念を抱く,少数の軌跡データから人体移動軌道を生成することを目的としている。 既存の手法は主に位置の静的な関係に依存するが、場所の動的時空間効果は無視されている。 一方,訪問分布の時空間対応は,場所の空間的近接性と機能的類似性を明らかにする。 一方, 移動経路の反復的生成過程は, 異なる場所における変動持続時間によって阻害される。 そこで我々は,位置の動的時空間効果,すなわち時空間拡張gRaphニューラルネットワーク(STAR)をモデル化する新しい枠組みを提案する。 STARフレームワークは、時空間対応を捉えるために様々な時空間グラフを設計し、位置の変動期間をシミュレートする新しいdwellブランチを構築し、最終的に逆向きに最適化する。 人体移動シミュレーションのための4つの実際のデータセットに対する総合的な実験は、STARの最先端手法に対する優位性を検証した。 私たちのコードは公開されます。

Human mobility patterns have shown significant applications in policy-decision scenarios and economic behavior researches. The human mobility simulation task aims to generate human mobility trajectories given a small set of trajectory data, which have aroused much concern due to the scarcity and sparsity of human mobility data. Existing methods mostly rely on the static relationships of locations, while largely neglect the dynamic spatiotemporal effects of locations. On the one hand, spatiotemporal correspondences of visit distributions reveal the spatial proximity and the functionality similarity of locations. On the other hand, the varying durations in different locations hinder the iterative generation process of the mobility trajectory. Therefore, we propose a novel framework to model the dynamic spatiotemporal effects of locations, namely SpatioTemporal-Augmented gRaph neural networks (STAR). The STAR framework designs various spatiotemporal graphs to capture the spatiotemporal correspondences and builds a novel dwell branch to simulate the varying durations in locations, which is finally optimized in an adversarial manner. The comprehensive experiments over four real datasets for the human mobility simulation have verified the superiority of STAR to state-of-the-art methods. Our code will be made publicly available.
翻訳日:2023-06-19 16:36:02 公開日:2023-06-15
# 変圧器におけるパラメータ共有の理解

Understanding Parameter Sharing in Transformers ( http://arxiv.org/abs/2306.09380v1 )

ライセンス: Link先を確認
Ye Lin, Mingxuan Wang, Zhexi Zhang, Xiaohui Wang, Tong Xiao, Jingbo Zhu(参考訳) パラメータ共有はパラメータ効率のよいアプローチであることが証明されている。 トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデル深さを増やすことで、限られたパラメータを持つモデルの性能を向上させることができる。 本稿では,このアプローチがなぜ2つの視点から機能するのかを考察する。 まず、モデル深度の増加によりモデルがより複雑になり、その理由はモデルの複雑さに関連する(FLOPを参照)と仮定する。 第二に、各共有パラメータは前方伝播においてネットワーク計算に数回参加するので、対応する勾配は元のモデルとは異なる範囲の値を持ち、モデル収束に影響を与える。 これに基づいて、トレーニングの収束も理由の1つだと仮定する。 さらなる分析を通して、このアプローチの成功は、モデル複雑性の増加による小さな部分のみによる、より収束性の向上に起因することが示される。 これに触発されて,モデル収束に関連するトレーニングハイパーパラメータをターゲットとしたチューニングを行う。 8つの機械翻訳タスクにおける実験により、パラメータ共有モデルのモデル複雑性の半分しか持たない競合性能が得られた。

Parameter sharing has proven to be a parameter-efficient approach. Previous work on Transformers has focused on sharing parameters in different layers, which can improve the performance of models with limited parameters by increasing model depth. In this paper, we study why this approach works from two perspectives. First, increasing model depth makes the model more complex, and we hypothesize that the reason is related to model complexity (referring to FLOPs). Secondly, since each shared parameter will participate in the network computation several times in forward propagation, its corresponding gradient will have a different range of values from the original model, which will affect the model convergence. Based on this, we hypothesize that training convergence may also be one of the reasons. Through further analysis, we show that the success of this approach can be largely attributed to better convergence, with only a small part due to the increased model complexity. Inspired by this, we tune the training hyperparameters related to model convergence in a targeted manner. Experiments on 8 machine translation tasks show that our model achieves competitive performance with only half the model complexity of parameter sharing models.
翻訳日:2023-06-19 16:35:44 公開日:2023-06-15
# 1st Solution Places for CVPR 2023 UG$^2$+ Challenge Track 2.2-Coded Target Restoration through atmosphere

1st Solution Places for CVPR 2023 UG$^2$+ Challenge Track 2.2-Coded Target Restoration through Atmospheric Turbulence ( http://arxiv.org/abs/2306.09379v1 )

ライセンス: Link先を確認
Shengqi Xu, Shuning Cao, Haoyue Liu, Xueyao Xiao, Yi Chang, Luxin Yan(参考訳) 本稿では, CVPR 2023 UG$^2$+ Track 2.2において, 大気乱流によるターゲット復元のためのVIELab-HUSTの解法を簡潔に紹介する。 本稿では,歪みフレームから高品質な画像を復元する効率的な多段階フレームワークを提案する。 具体的には、まず各歪みフレームを画像登録を用いてアライメントして幾何学的歪みを抑制する。 次に、画像のシャープさに基づくフレーム選択アプローチを用いて、最もシャープなフレームを選択し、それらを平均して、ぼやけても幾何学的歪みがほとんどない画像を生成する。 次に、学習に基づくデブロアリング法を適用し、平均画像の残像のぼかしを除去する。 最後に、後処理技術を用いて出力画像の品質をさらに向上させる。 我々のフレームワークは、最終テストフェーズで提供されるさまざまな種類のコード化されたターゲットデータセットを処理でき、最終リーダーボードで1位にランクインしています。 私たちのコードはhttps://github.com/xsqhust/turbulence_removalで利用可能です。

In this technical report, we briefly introduce the solution of our team VIELab-HUST for coded target restoration through atmospheric turbulence in CVPR 2023 UG$^2$+ Track 2.2. In this task, we propose an efficient multi-stage framework to restore a high quality image from distorted frames. Specifically, each distorted frame is initially aligned using image registration to suppress geometric distortion. We subsequently select the sharpest set of registered frames by employing a frame selection approach based on image sharpness, and average them to produce an image that is largely free of geometric distortion, albeit with blurriness. A learning-based deblurring method is then applied to remove the residual blur in the averaged image. Finally, post-processing techniques are utilized to further enhance the quality of the output image. Our framework is capable of handling different kinds of coded target dataset provided in the final testing phase, and ranked 1st on the final leaderboard. Our code will be available at https://github.com/xsqhust/Turbulence_Removal.
翻訳日:2023-06-19 16:35:26 公開日:2023-06-15
# 自然主義的学習課題における人間の行動を予測する言語対応視覚表現

Language Aligned Visual Representations Predict Human Behavior in Naturalistic Learning Tasks ( http://arxiv.org/abs/2306.09377v1 )

ライセンス: Link先を確認
Can Demircan, Tankred Saanum, Leonardo Pettini, Marcel Binz, Blazej M Baczkowski, Paula Kaanders, Christian F Doeller, Mona M Garvert, Eric Schulz(参考訳) 人間は自然物の関連する特徴を識別し、一般化する能力を持っており、様々な状況でそれらを助ける。 この現象を調査し,人間の行動予測に最も効果的な表現を決定するために,カテゴリー学習と報酬学習の2つの実験を行った。 実験では写実的なイメージを刺激として使用し,すべての実験で新たな刺激に基づいて正確な判断を行うことを課題とし,一般化を要した。 両課題において, 人間の類似性判定から抽出した刺激次元を用いて, 基本ルールを単純な線形関数として生成した。 特に、参加者はいくつかの試行で関連する刺激の特徴を同定し、効果的な一般化を示した。 本研究では,多種多様な深層学習モデルの人間選択表現の試行錯誤精度を評価するため,広範囲なモデル比較を行った。 興味深いことに、テキストと画像データの両方でトレーニングされたモデルからの表現は、画像のみでトレーニングされたモデルよりも一貫して優れています。 これらの結果から,言語対応の視覚表現は,自然主義的な環境下での人間の一般化を記述するのに十分な豊かさを持っていることが示唆された。

Humans possess the ability to identify and generalize relevant features of natural objects, which aids them in various situations. To investigate this phenomenon and determine the most effective representations for predicting human behavior, we conducted two experiments involving category learning and reward learning. Our experiments used realistic images as stimuli, and participants were tasked with making accurate decisions based on novel stimuli for all trials, thereby necessitating generalization. In both tasks, the underlying rules were generated as simple linear functions using stimulus dimensions extracted from human similarity judgments. Notably, participants successfully identified the relevant stimulus features within a few trials, demonstrating effective generalization. We performed an extensive model comparison, evaluating the trial-by-trial predictive accuracy of diverse deep learning models' representations of human choices. Intriguingly, representations from models trained on both text and image data consistently outperformed models trained solely on images, even surpassing models using the features that generated the task itself. These findings suggest that language-aligned visual representations possess sufficient richness to describe human generalization in naturalistic settings and emphasize the role of language in shaping human cognition.
翻訳日:2023-06-19 16:35:08 公開日:2023-06-15
# トレーニング中のモジュール化:DNNモデルのモジュール化のための新しいパラダイム

Modularizing while Training: a New Paradigm for Modularizing DNN Models ( http://arxiv.org/abs/2306.09376v1 )

ライセンス: Link先を確認
Binhang Qi, Hailong Sun, Hongyu Zhang, Ruobing Zhao, Xiang Gao(参考訳) ディープニューラルネットワーク(DNN)モデルは、インテリジェントソフトウェアシステムにおいてますます重要なコンポーネントになりつつある。 しかし、DNNモデルのトレーニングは通常、時間とお金の両方の観点からコストがかかる。 この問題に対処するため、研究者は最近、既存のDNNモデルを再利用することに重点を置いている。 しかし、モデル全体の再利用は、余分なオーバーヘッドを引き起こしたり、望ましくない機能から弱点を継承する可能性がある。 したがって、既存の作業は、既に訓練済みのモデルをモジュール、すなわちモジュール化後のトレーニング、モジュールの再利用に分解することを提案する。 トレーニングされたモデルはモジュール化のために構築されていないため、モジュール化後トレーニングは膨大なオーバーヘッドとモデルの精度の損失をもたらす。 本稿では,モデル学習プロセス,すなわちmodularization-while-training (mwt) にモジュール化を組み込んだ新しい手法を提案する。 我々は、モジュール内凝集とモジュール間結合を最適化する2つの損失関数を通して、構造的にモジュラーとなるモデルを訓練する。 本研究では,畳み込みニューラルネットワーク(CNN)モデルをモジュール化するための提案手法を実装した。 代表モデルによる評価結果は,MwTが最先端アプローチよりも優れていることを示す。 具体的には、MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。 MwTが生成したモジュールのカーネル保持率は14.58%に過ぎず、最先端のアプローチでは74.31%削減された。 さらに、トレーニングとモジュール化に必要な総時間コストは、ベースラインの半分の108分に過ぎない。

Deep neural network (DNN) models have become increasingly crucial components in intelligent software systems. However, training a DNN model is typically expensive in terms of both time and money. To address this issue, researchers have recently focused on reusing existing DNN models - borrowing the idea of code reuse in software engineering. However, reusing an entire model could cause extra overhead or inherits the weakness from the undesired functionalities. Hence, existing work proposes to decompose an already trained model into modules, i.e., modularizing-after-training, and enable module reuse. Since trained models are not built for modularization, modularizing-after-training incurs huge overhead and model accuracy loss. In this paper, we propose a novel approach that incorporates modularization into the model training process, i.e., modularizing-while-training (MwT). We train a model to be structurally modular through two loss functions that optimize intra-module cohesion and inter-module coupling. We have implemented the proposed approach for modularizing Convolutional Neural Network (CNN) models in this work. The evaluation results on representative models demonstrate that MwT outperforms the state-of-the-art approach. Specifically, the accuracy loss caused by MwT is only 1.13 percentage points, which is 1.76 percentage points less than that of the baseline. The kernel retention rate of the modules generated by MwT is only 14.58%, with a reduction of 74.31% over the state-of-the-art approach. Furthermore, the total time cost required for training and modularizing is only 108 minutes, half of the baseline.
翻訳日:2023-06-19 16:34:46 公開日:2023-06-15
# 分子, タンパク質, 結晶材料の対称性インフォームド幾何表現

Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials ( http://arxiv.org/abs/2306.09375v1 )

ライセンス: Link先を確認
Shengchao Liu, Weitao Du, Yanjing Li, Zhuoxinran Li, Zhiling Zheng, Chenru Duan, Zhiming Ma, Omar Yaghi, Anima Anandkumar, Christian Borgs, Jennifer Chayes, Hongyu Guo, Jian Tang(参考訳) 科学発見のための人工知能は、最近、特に化学、生物学、材料発見の分野において、機械学習と科学コミュニティにおいて大きな関心を集めている。 これらの科学的問題に対して、分子は基本的な構成要素として機能し、機械学習は幾何学構造をモデル化するための非常に効果的で強力なツールとして登場した。 しかし、この分野の急速な発展と科学(物理学、化学、生物学など)と機械学習のコミュニティの間の知識ギャップのため、そのようなデータの幾何学的表現に関するベンチマーク研究は行われていない。 このような問題に対処するため、本稿では、まず現在の対称性インフォームド幾何手法の統一ビューを提供し、これらを不変性、球面の同値性、ベクトルフレームの同値性という3つの主要なカテゴリに分類する。 次に,幾何戦略の有効性をベンチマークするプラットフォームgeom3dを提案する。 Geom3Dには16の高度な対称性インフォームド幾何表現モデルと、46の多様なデータセット(小さな分子、タンパク質、結晶材料を含む14の幾何学的事前学習方法が含まれている。 他方、Geom3Dは科学的な問題を探究する機械学習研究者の障壁を排除し、一方、計算化学、構造生物学、材料科学の研究者にとって貴重なガイダンスを提供し、特定の応用のための情報的表現技術の選択を支援することを願っている。

Artificial intelligence for scientific discovery has recently generated significant interest within the machine learning and scientific communities, particularly in the domains of chemistry, biology, and material discovery. For these scientific problems, molecules serve as the fundamental building blocks, and machine learning has emerged as a highly effective and powerful tool for modeling their geometric structures. Nevertheless, due to the rapidly evolving process of the field and the knowledge gap between science (e.g., physics, chemistry, & biology) and machine learning communities, a benchmarking study on geometrical representation for such data has not been conducted. To address such an issue, in this paper, we first provide a unified view of the current symmetry-informed geometric methods, classifying them into three main categories: invariance, equivariance with spherical frame basis, and equivariance with vector frame basis. Then we propose a platform, coined Geom3D, which enables benchmarking the effectiveness of geometric strategies. Geom3D contains 16 advanced symmetry-informed geometric representation models and 14 geometric pretraining methods over 46 diverse datasets, including small molecules, proteins, and crystalline materials. We hope that Geom3D can, on the one hand, eliminate barriers for machine learning researchers interested in exploring scientific problems; and, on the other hand, provide valuable guidance for researchers in computational chemistry, structural biology, and materials science, aiding in the informed selection of representation techniques for specific applications.
翻訳日:2023-06-19 16:34:23 公開日:2023-06-15
# データベースの修復からデータベースの因果関係まで

From Database Repairs to Causality in Databases and Beyond ( http://arxiv.org/abs/2306.09374v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 本稿では,データベースにおける問合せ応答に対するスコアベース説明に対する最近のアプローチについて述べる。 焦点は著者と共同作業者による作業である。 スコアの仕様と計算に反実的推論を使うことに特に重点を置いている。 これらの手法の柔軟性を示すいくつかの例を示す。

We describe some recent approaches to score-based explanations for query answers in databases. The focus is on work done by the author and collaborators. Special emphasis is placed on the use of counterfactual reasoning for score specification and computation. Several examples that illustrate the flexibility of these methods are shown.
翻訳日:2023-06-19 16:33:58 公開日:2023-06-15
# 量子破壊の時間スケール

The Timescales of Quantum Breaking ( http://arxiv.org/abs/2306.09410v1 )

ライセンス: Link先を確認
Marco Michel, Sebastian Zell(参考訳) 量子効果の避けられない存在のため、古典的記述は有限な量子ブレークタイム $t_q$ の後に総称的に分解される。 我々は$t_q$を決定するための基準を見つけることを目指している。 そこで我々は,動的にアクセス可能な量子モードを多数備えた新しいプロトタイプモデルを構築した。 明示的な数値時間発展を用いて,$t_q$ が粒子数 $n$ などの系のパラメータに依存することを確かめる。 古典的不安定性の存在は、$t_q \sim \ln N$ または $t_q\sim \sqrt{N}$ につながる。 安定の場合、$t_q\sim N$を観測するが、完全な量子破壊は起こらないかもしれない。 異なるレジームは、$t_q\sim n^\gamma$ (0<\gamma<1$) とスムーズに融合する。 展望として、我々の結果をブラックホールに移し、時空を広げる可能性を指摘します。

Due to the inevitable existence of quantum effects, a classical description generically breaks down after a finite quantum break-time $t_q$. We aim to find criteria for determining $t_q$. To this end, we construct a new prototype model that features numerous dynamically accessible quantum modes. Using explicit numerical time evolution, we establish how $t_q$ depends on the parameters of the system such as its particle number $N$. The presence of a classical instability leads to $t_q \sim \ln N$ or $t_q\sim \sqrt{N}$. In the stable case, we observe $t_q\sim N$, although full quantum breaking may not take place at all. We find that the different regimes merge smoothly with $t_q\sim N^\gamma$ ($0<\gamma<1$). As an outlook, we point out possibilities for transferring our results to black holes and expanding spacetimes.
翻訳日:2023-06-19 16:28:35 公開日:2023-06-15
# wegner ising gauge spins vs kitaev's majorana partons:マッピングとスピン軌道液体の異方性閉じ込めへの応用

Wegner's Ising gauge spins versus Kitaev's Majorana partons: Mapping and application to anisotropic confinement in spin-orbital liquids ( http://arxiv.org/abs/2306.09405v1 )

ライセンス: Link先を確認
Urban F. P. Seifert and Sergej Moroz(参考訳) 創発的ゲージ理論は量子物質の記述において顕著な役割を担い、位相的順序と分数化励起を持つ分解相を支持する。 ウェグナーが最初に導入した、$\mathbb{Z}_2$格子ゲージ理論の一般的な構成は、リンク上に置かれ、離散的な$\mathbb{Z}_2$ガウス法則に従うイジングゲージスピンである。 Kitaev が示すように、$\mathbb{Z}_2$ 格子ゲージ理論は、結合依存相互作用を持つ特定のスピン系の正確な解にも現れる。 この文脈では、$\mathbb{Z}_2$ゲージ場はマヨラナフェルミオンから構成され、各サイト上のマヨラナフェルミオンのパリティによって与えられるゲージの制約が与えられる。 本研究では、正方格子上のこれらの2つの定式式式の間を写像する明示的なヨルダン・ウィグナー変換(英語版)(jordan-wigner transformation)を提供し、ここではキタエフ型ゲージ理論がスピン軌道(クーゲル・ホムスキー)ハミルトニアンの厳密な解として現れる。 次に、我々は、$\mathbb{Z}_2$ゲージ理論における電場変数間の異方性相互作用に対応するスピン軌道ハミルトニアンへの局所摂動の研究にマッピングを適用する。 これらは弱い結合した1次元スピン鎖の出現を特徴とする異方性閉じ込めを引き起こす。 本研究では,これらの相の性質と,不在および不在なフェルミオン性物質の存在下での留置遷移について検討する。 最後に,ハニカム格子上のキタエフスピン1/2モデルに対する写像の適用方法について述べる。

Emergent gauge theories take a prominent role in the description of quantum matter, supporting deconfined phases with topological order and fractionalized excitations. A common construction of $\mathbb{Z}_2$ lattice gauge theories, first introduced by Wegner, involves Ising gauge spins placed on links and subject to a discrete $\mathbb{Z}_2$ Gauss law constraint. As shown by Kitaev, $\mathbb{Z}_2$ lattice gauge theories also emerge in the exact solution of certain spin systems with bond-dependent interactions. In this context, the $\mathbb{Z}_2$ gauge field is constructed from Majorana fermions, with gauge constraints given by the parity of Majorana fermions on each site. In this work, we provide an explicit Jordan-Wigner transformation that maps between these two formulations on the square lattice, where the Kitaev-type gauge theory emerges as the exact solution of a spin-orbital (Kugel-Khomskii) Hamiltonian. We then apply our mapping to study local perturbations to the spin-orbital Hamiltonian, which correspond to anisotropic interactions between electric-field variables in the $\mathbb{Z}_2$ gauge theory. These are shown to induce anisotropic confinement that is characterized by emergence of weakly-coupled one-dimensional spin chains. We study the nature of these phases and corresponding confinement transitions in both absence and presence of itinerant fermionic matter degrees of freedom. Finally, we discuss how our mapping can be applied to the Kitaev spin-1/2 model on the honeycomb lattice.
翻訳日:2023-06-19 16:28:21 公開日:2023-06-15
# Bloch-oscillation-enhanced atom interferometry

Accurate and efficient Bloch-oscillation-enhanced atom interferometry ( http://arxiv.org/abs/2306.09399v1 )

ライセンス: Link先を確認
Florian Fitzek, Jan-Niclas Kirsten-Siem{\ss}, Ernst M. Rasel, Naceur Gaaloul and Klemens Hammerer(参考訳) 光格子中の原子のブローチ振動は、大きな運動量移動によって原子干渉計の感度を幅広い信号に高める強力な技術である。 この方法を最大限に活用するには、損失と位相の正確な理論的な記述が既存の処理を超えて必要となる。 本稿では,Bloch-oscillation-enhanced atom interferometryの包括的な理論的枠組みを提案し,Schr\odinger方程式の正確な数値解との比較により,その精度を検証する。 提案手法はブロッホ振動を用いた大運動量移動の基本効率と精度限界に到達する設計基準を確立する。 これらの限界を現在の最先端実験の場合と比較し、次世代の量子センサーの投影を行う。

Bloch oscillations of atoms in optical lattices are a powerful technique that can boost the sensitivity of atom interferometers to a wide range of signals by large momentum transfer. To leverage this method to its full potential, an accurate theoretical description of losses and phases is needed going beyond existing treatments. Here, we present a comprehensive theoretical framework for Bloch-oscillation-enhanced atom interferometry and verify its accuracy through comparison with an exact numerical solution of the Schr\"odinger equation. Our approach establishes design criteria to reach the fundamental efficiency and accuracy limits of large momentum transfer using Bloch oscillations. We compare these limits to the case of current state-of-the-art experiments and make projections for the next generation of quantum sensors.
翻訳日:2023-06-19 16:27:47 公開日:2023-06-15
# 限定データに基づくソーシャル機械学習の非漸近的性能

Non-Asymptotic Performance of Social Machine Learning Under Limited Data ( http://arxiv.org/abs/2306.09397v1 )

ライセンス: Link先を確認
Ping Hu, Virginia Bordignon, Mert Kayaalp, Ali H. Sayed(参考訳) 本稿では,グラフ上の協調的な意思決定フェーズに続き,独立した学習フェーズを含む社会機械学習フレームワークによる誤りの確率について検討する。 このフレームワークは、ラベルのないデータのストリームを分散的に分類する問題に対処する。 予測段階での観察が限定された2種類の分類課題,すなわち統計的分類タスクと単一サンプル分類タスクを考える。 各タスクについて,分散学習規則を記述し,それに従って誤差の確率を解析する。 そこで我々はまず,訓練された分類器が生成するマージン分布を含む強い一貫した訓練条件を導入する。 この条件に基づき、データの統計的特性と分散分類器を組み合わせるのに使用される組み合わせポリシーに依存する、両方のタスクのエラーの確率の上限を導出する。 統計的分類問題に対しては,幾何学的社会学習規則を採用し,非漸近的パフォーマンス分析を行う。 ラベルなしのサンプル数に対する誤差の確率の指数関数的減衰が上界で観測される。 単一サンプル分類タスクでは、アンサンブル分類器として機能する分散学習ルールを構築する。 このアンサンブル分類器の誤差の確率の上界が確立される。

This paper studies the probability of error associated with the social machine learning framework, which involves an independent training phase followed by a cooperative decision-making phase over a graph. This framework addresses the problem of classifying a stream of unlabeled data in a distributed manner. We consider two kinds of classification tasks with limited observations in the prediction phase, namely, the statistical classification task and the single-sample classification task. For each task, we describe the distributed learning rule and analyze the probability of error accordingly. To do so, we first introduce a stronger consistent training condition that involves the margin distributions generated by the trained classifiers. Based on this condition, we derive an upper bound on the probability of error for both tasks, which depends on the statistical properties of the data and the combination policy used to combine the distributed classifiers. For the statistical classification problem, we employ the geometric social learning rule and conduct a non-asymptotic performance analysis. An exponential decay of the probability of error with respect to the number of unlabeled samples is observed in the upper bound. For the single-sample classification task, a distributed learning rule that functions as an ensemble classifier is constructed. An upper bound on the probability of error of this ensemble classifier is established.
翻訳日:2023-06-19 16:27:32 公開日:2023-06-15
# プライベートフェデレーション周波数推定:インスタンスの硬さに適応する

Private Federated Frequency Estimation: Adapting to the Hardness of the Instance ( http://arxiv.org/abs/2306.09396v1 )

ライセンス: Link先を確認
Jingfeng Wu, Wennan Zhu, Peter Kairouz, Vladimir Braverman(参考訳) フェデレート周波数推定(FFE)では、複数のクライアントが協調して、Secure Summation(SecSum)のプライバシー制約を尊重するサーバと通信することで、クライアントが保持するベクトルの和にしかアクセスできないことを保証している。 単一ラウンドFFEの場合、カウントスケッチは基本的な精度通信トレードオフ(Chen et al., 2022)を達成するのにほぼ情報理論的に最適であることが知られている。 しかし,より実用的なマルチラウンド料金設定の下では,カウントスケッチの単純な適応が厳密に最適であることを示すとともに,より精度の高いハイブリッドスケッチ手法を提案する。 私たちはまた、以下の基本的な問題にも対処します: 基礎となる問題の難しさに適応する方法で、どのようにスケッチサイズを設定するべきか? より単純な問題(例えば、近接スパース分布や光尾分布)に対して、より小さなスケッチサイズを使用できる2相アプローチを提案する。 我々は,我々のアルゴリズムに差分プライバシを追加する方法を示し,大規模データセット上で行った広範囲な実験により,その優れた性能を検証した。

In federated frequency estimation (FFE), multiple clients work together to estimate the frequencies of their collective data by communicating with a server that respects the privacy constraints of Secure Summation (SecSum), a cryptographic multi-party computation protocol that ensures that the server can only access the sum of client-held vectors. For single-round FFE, it is known that count sketching is nearly information-theoretically optimal for achieving the fundamental accuracy-communication trade-offs [Chen et al., 2022]. However, we show that under the more practical multi-round FEE setting, simple adaptations of count sketching are strictly sub-optimal, and we propose a novel hybrid sketching algorithm that is provably more accurate. We also address the following fundamental question: how should a practitioner set the sketch size in a way that adapts to the hardness of the underlying problem? We propose a two-phase approach that allows for the use of a smaller sketch size for simpler problems (e.g. near-sparse or light-tailed distributions). We conclude our work by showing how differential privacy can be added to our algorithm and verifying its superior performance through extensive experiments conducted on large-scale datasets.
翻訳日:2023-06-19 16:27:15 公開日:2023-06-15
# ディープラーニングを用いた高濃度セル画像からのマルチオミクス予測

Multi-omics Prediction from High-content Cellular Imaging with Deep Learning ( http://arxiv.org/abs/2306.09391v1 )

ライセンス: Link先を確認
Rahil Mehrizi, Arash Mehrjou, Maryana Alegro, Yi Zhao, Benedetta Carbone, Carl Fishwick, Johanna Vappiani, Jing Bi, Siobhan Sanford, Hakan Keles, Marcus Bantscheff, Cuong Nguyen, and Patrick Schwab(参考訳) 高濃度の細胞イメージング、転写学、およびプロテオミクスのデータは、細胞の状態や機能に影響を与える生物学の分子層についてリッチで相補的な見解を提供する。 しかし、マルチオミクス測定の変化が細胞形態に影響を与える生物学的決定因子はまだ体系的に研究されておらず、細胞イメージングが細胞イメージングデータから直接マルチオミクスを予測できる可能性の程度は今のところ不明である。 ここでは, 蛍光色素で染色した高濃度画像から直接, 細胞集団のマルチオミクスを予測するディープラーニングアプローチであるImage2Omicsを用いて, 細胞画像から直接, バルクマルチオミクス測定を予測できるかどうかを問う。 ヒト誘導多能性幹細胞(hipsc)由来の遺伝子編集マクロファージを複数の刺激条件下で実験的に評価し,image2omicsが細胞画像から直接転写学およびプロテオミクス測定値を予測する際に,平均観測トレーニングセット存在量に基づく予測者よりも有意に優れた性能が得られることを実証した。 5903 (22.43%, 95% ci: 8.77%, 38.88%), 5819 (22.11%), 95% ci: 10.40%, 38.08%), 95% ci: 38.08%, それぞれ26137 in m1およびm2刺激マクロファージ, 1933 (38.77%), 95% ci: 36.94%, 39.85%, 2055 (41.22%), 95% ci: 39.31%, 42.42%) タンパク質はそれぞれm1およびm2刺激マクロファージ4986のうち4986タンパク質である。 以上の結果から, 細胞画像から転写産物やタンパク質の存在が予測可能であること, 細胞画像は, 興味の機構や期待される性能閾値によっては, マルチオミクス測定のスケーラブルで資源効率のよい代替品である可能性が示唆された。

High-content cellular imaging, transcriptomics, and proteomics data provide rich and complementary views on the molecular layers of biology that influence cellular states and function. However, the biological determinants through which changes in multi-omics measurements influence cellular morphology have not yet been systematically explored, and the degree to which cell imaging could potentially enable the prediction of multi-omics directly from cell imaging data is therefore currently unclear. Here, we address the question of whether it is possible to predict bulk multi-omics measurements directly from cell images using Image2Omics -- a deep learning approach that predicts multi-omics in a cell population directly from high-content images stained with multiplexed fluorescent dyes. We perform an experimental evaluation in gene-edited macrophages derived from human induced pluripotent stem cell (hiPSC) under multiple stimulation conditions and demonstrate that Image2Omics achieves significantly better performance in predicting transcriptomics and proteomics measurements directly from cell images than predictors based on the mean observed training set abundance. We observed significant predictability of abundances for 5903 (22.43%; 95% CI: 8.77%, 38.88%) and 5819 (22.11%; 95% CI: 10.40%, 38.08%) transcripts out of 26137 in M1 and M2-stimulated macrophages respectively and for 1933 (38.77%; 95% CI: 36.94%, 39.85%) and 2055 (41.22%; 95% CI: 39.31%, 42.42%) proteins out of 4986 in M1 and M2-stimulated macrophages respectively. Our results show that some transcript and protein abundances are predictable from cell imaging and that cell imaging may potentially, in some settings and depending on the mechanisms of interest and desired performance threshold, even be a scalable and resource-efficient substitute for multi-omics measurements.
翻訳日:2023-06-19 16:26:52 公開日:2023-06-15
# ソーシャルメディアにおける自殺リスク評価のためのチャットGPT : モデル性能・可能性・限界の定量的評価

ChatGPT for Suicide Risk Assessment on Social Media: Quantitative Evaluation of Model Performance, Potentials and Limitations ( http://arxiv.org/abs/2306.09390v1 )

ライセンス: Link先を確認
Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman(参考訳) 本稿では,メリーランド大学Reddit自殺データセットを用いて,ソーシャルメディア投稿からの自殺評価の文脈において,対話型ChatGPTモデルを定量的に評価するための新しい枠組みを提案する。 我々はZero-ShotとFew-Shot実験を用いてChatGPTの性能の技術的評価を行い、2つの微調整トランスフォーマーモデルと比較した。 さらに,ChatGPTの応答生成に及ぼす温度パラメータの影響について検討し,ChatGPTの不決定性率に基づく最適温度について考察する。 以上の結果から,ChatGPTの精度は高いが,人間の注釈付きデータセットを微調整した変換器ベースモデルは優れた性能を示した。 さらに,本研究は,chatgptのハイパーパラメータを調整することで,メンタルヘルスの専門家を支援する能力が向上することを示す。

This paper presents a novel framework for quantitatively evaluating the interactive ChatGPT model in the context of suicidality assessment from social media posts, utilizing the University of Maryland Reddit suicidality dataset. We conduct a technical evaluation of ChatGPT's performance on this task using Zero-Shot and Few-Shot experiments and compare its results with those of two fine-tuned transformer-based models. Additionally, we investigate the impact of different temperature parameters on ChatGPT's response generation and discuss the optimal temperature based on the inconclusiveness rate of ChatGPT. Our results indicate that while ChatGPT attains considerable accuracy in this task, transformer-based models fine-tuned on human-annotated datasets exhibit superior performance. Moreover, our analysis sheds light on how adjusting the ChatGPT's hyperparameters can improve its ability to assist mental health professionals in this critical task.
翻訳日:2023-06-19 16:26:04 公開日:2023-06-15
# ST-PINN:偏微分方程式の自己学習型ニューラルネットワーク

ST-PINN: A Self-Training Physics-Informed Neural Network for Partial Differential Equations ( http://arxiv.org/abs/2306.09389v1 )

ライセンス: Link先を確認
Junjun Yan, Xinhai Chen, Zhichao Wang, Enqiang Zhoui and Jie Liu(参考訳) 偏微分方程式 (Partial differential equations, PDE) は物理学や工学において重要な計算核である。 ディープラーニングの進歩により、メッシュなしの手法である物理インフォームドニューラルネットワーク(PINN)は、様々なアプリケーションで高速なPDE解決の可能性を示している。 既存のPINNの低精度・収束問題に対処するために,自己学習型物理インフォームドニューラルネットワークST-PINNを提案する。 具体的には、ST-PINNはトレーニング中に擬似ラベルに基づく自己学習アルゴリズムを導入する。 擬似ラベル評価指標として支配方程式を採用し、サンプルポイントから最も信頼度の高い例を選択して擬似ラベルを付加する。 最善の知識として、私たちは物理に則った学習に自己学習のメカニズムを組み込んだ最初の人です。 異なる分野とシナリオで5つのPDE問題を実験する。 その結果,提案手法により,ネットワークはより物理的な情報を学習し,収束を享受できることがわかった。 ST-PINNは既存の物理インフォームドニューラルネットワーク法より優れており、精度は 1.33x-2.54x である。 ST-PINNのコードはGitHubで公開されている。

Partial differential equations (PDEs) are an essential computational kernel in physics and engineering. With the advance of deep learning, physics-informed neural networks (PINNs), as a mesh-free method, have shown great potential for fast PDE solving in various applications. To address the issue of low accuracy and convergence problems of existing PINNs, we propose a self-training physics-informed neural network, ST-PINN. Specifically, ST-PINN introduces a pseudo label based self-learning algorithm during training. It employs governing equation as the pseudo-labeled evaluation index and selects the highest confidence examples from the sample points to attach the pseudo labels. To our best knowledge, we are the first to incorporate a self-training mechanism into physics-informed learning. We conduct experiments on five PDE problems in different fields and scenarios. The results demonstrate that the proposed method allows the network to learn more physical information and benefit convergence. The ST-PINN outperforms existing physics-informed neural network methods and improves the accuracy by a factor of 1.33x-2.54x. The code of ST-PINN is available at GitHub: https://github.com/junjun-yan/ST-PINN.
翻訳日:2023-06-19 16:25:47 公開日:2023-06-15
# 物理学者のための量子コンピューティング入門

A Short Introduction to Quantum Computing for Physicists ( http://arxiv.org/abs/2306.09388v1 )

ライセンス: Link先を確認
Oswaldo Zapata(参考訳) これらのノートは、既に量子力学の基礎知識を持っている人のために、量子計算と通信に関する標準的なトピックを紹介している。 主な対象はプロの物理学者と物理学の上級学生であるが、技術者や計算機科学者もその恩恵を受けるかもしれない。

These notes provide an introduction to standard topics on quantum computation and communication for those who already have a basic knowledge of quantum mechanics. The main target audience are professional physicists as well as advanced students of physics; however, engineers and computer scientists may also benefit from them.
翻訳日:2023-06-19 16:25:29 公開日:2023-06-15
# 交通予測のための適応階層型時空間ネットワーク

Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting ( http://arxiv.org/abs/2306.09386v1 )

ライセンス: Link先を確認
Yirong Chen, Ziyue Li, Wanli Ouyang, Michael Lepech(参考訳) 正確な交通予測は、都市交通問題を解決するために広く採用されているインテリジェント交通システムにとって不可欠である。 既存の交通予測研究は、道路網グラフに埋め込まれた空間依存を活用すべく、グラフ畳み込みネットワーク(gcn)が中心となる交通データの空間-時間ダイナミクスのモデル化に焦点を当てている。 しかし、これらのGCNベースの手法は、都市全体の空間的階層を見渡す一方で、本質的にはノードレベル(例えば道路と交差点)でのみ動作する。 交差点や道路セグメントのようなノードはクラスタ(例えば、リージョン)を形成し、互いに相互作用し、より高いレベルで類似性を共有することができる。 本研究では,空間的階層化とマルチスケール空間相関のモデル化により交通予測を促進する適応階層型時空間ネットワーク(AHSTN)を提案する。 ノードレベルの時空間ブロックとは別に、AHSTNはクラスタレベルの時空間モデリングのための空間階層を推論する適応時空間サンプリングモジュールを導入している。 次に,適応時空間アップサンプリングモジュールを提案し,クラスタレベルの表現をノードレベルにアップサンプリングし,予測を生成するためのマルチスケール表現を得る。 2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。

Accurate traffic forecasting is vital to intelligent transportation systems, which are widely adopted to solve urban traffic issues. Existing traffic forecasting studies focus on modeling spatial-temporal dynamics in traffic data, among which the graph convolution network (GCN) is at the center for exploiting the spatial dependency embedded in the road network graphs. However, these GCN-based methods operate intrinsically on the node level (e.g., road and intersection) only whereas overlooking the spatial hierarchy of the whole city. Nodes such as intersections and road segments can form clusters (e.g., regions), which could also have interactions with each other and share similarities at a higher level. In this work, we propose an Adaptive Hierarchical SpatioTemporal Network (AHSTN) to promote traffic forecasting by exploiting the spatial hierarchy and modeling multi-scale spatial correlations. Apart from the node-level spatiotemporal blocks, AHSTN introduces the adaptive spatiotemporal downsampling module to infer the spatial hierarchy for spatiotemporal modeling at the cluster level. Then, an adaptive spatiotemporal upsampling module is proposed to upsample the cluster-level representations to the node-level and obtain the multi-scale representations for generating predictions. Experiments on two real-world datasets show that AHSTN achieves better performance over several strong baselines.
翻訳日:2023-06-19 16:25:25 公開日:2023-06-15
# 非線形マニフォールド学習による教師なし異常検出

Unsupervised Anomaly Detection via Nonlinear Manifold Learning ( http://arxiv.org/abs/2306.09441v1 )

ライセンス: Link先を確認
Amin Yousefpour, Mehdi Shishehbor, Zahra Zanjani Foumani, Ramin Bostanabad(参考訳) データ駆動設計や新規性検出といったアプリケーションで確実に使用できる機械学習モデルを構築する上で、異常はデータの他の部分から著しく逸脱するサンプルであり、その検出は大きな役割を果たす。 既存の異常検出手法の大部分は、(semi)教師付き設定のためにのみ開発されたものか、ラベル付き異常なサンプルを持つトレーニングデータがない教師なしアプリケーションで性能の悪いもののいずれかである。 このギャップを埋めるために,非線形多様体学習に基づくロバストで効率的で解釈可能な方法論を導入し,教師なし設定における異常を検出する。 提案手法の本質は, 正規サンプルが自動的にクラスタ化され, 容易に, 堅牢に識別できるようなすべてのデータポイントに対して, 低次元かつ解釈可能な潜在表現(別名多様体)を学習することである。 この低次元多様体は、潜在写像ガウス過程(lmgp)または深いオートエンコーダ(ae)を利用する学習アルゴリズムを設計して学習する。 LMGPベースのアプローチは,特に学習課題の確率論的視点を提供し,少ないデータを持つ高次元アプリケーションに最適である。 複数の分析例と実世界のデータセットを用いて,既存技術に対するアプローチの優れた性能を示す。

Anomalies are samples that significantly deviate from the rest of the data and their detection plays a major role in building machine learning models that can be reliably used in applications such as data-driven design and novelty detection. The majority of existing anomaly detection methods either are exclusively developed for (semi) supervised settings, or provide poor performance in unsupervised applications where there is no training data with labeled anomalous samples. To bridge this research gap, we introduce a robust, efficient, and interpretable methodology based on nonlinear manifold learning to detect anomalies in unsupervised settings. The essence of our approach is to learn a low-dimensional and interpretable latent representation (aka manifold) for all the data points such that normal samples are automatically clustered together and hence can be easily and robustly identified. We learn this low-dimensional manifold by designing a learning algorithm that leverages either a latent map Gaussian process (LMGP) or a deep autoencoder (AE). Our LMGP-based approach, in particular, provides a probabilistic perspective on the learning task and is ideal for high-dimensional applications with scarce data. We demonstrate the superior performance of our approach over existing technologies via multiple analytic examples and real-world datasets.
翻訳日:2023-06-19 16:18:23 公開日:2023-06-15
# 分子量子光学における多レベルパーセル効果と振動モードの影響

Multi-level Purcell effect and the impact of vibrational modes in molecular quantum optics ( http://arxiv.org/abs/2306.09435v1 )

ライセンス: Link先を確認
Charlie Nation, Valentina Notararigo, and Alexandra Olaya-Castro(参考訳) パーセル効果(Purcell effect)として知られる光学キャビティに弱結合した2レベル系の崩壊速度は、キャビティQEDの基盤となる。 しかし,2レベル系を多レベル相互作用系に置き換えた場合,空洞結合の効果はよく理解されていない。 キャビティ相互作用を利用して分子系を特徴づける実験に動機づけられ,バイオインスパイアされた光合成ダイマーにおけるパーセル効果の出現を検討した。 特に,光合成エキシトン輸送において重要な役割を果たすと考えられる分子振動モードが,パーセル系におけるシステムキャビティ行動にどのように影響するかに注目した。 実効的非エルミート的ハミルトニアン(英語版)の理論図は、ジャイアン・カミングスモデルの単純な図面を「マルチレベル」なパーセル効果の記述に拡張し、異なるレベルがパーセル因子と異なり、コヒーレント振動相互作用を介する効果的な協調性を持つ。

The increased decay rate of a two-level system weakly coupled to an optical cavity, known as the Purcell effect, is a cornerstone of cavity QED. However, the effect of cavity coupling is not well understood if the two-level system is replaced by a multi-level interacting system. Motivated by experiments looking to characterise molecular systems via exploiting a cavity interaction, we study a manifestation of the Purcell effect in a bio-inspired photosynthetic dimer. We focus in particular on how molecular vibrational modes, thought to play an important role in photosynthetic exciton transport, impact the system-cavity behaviour in the Purcell regime. We provide a theoretical picture in terms of an effective non-Hermitian Hamiltonian, which extends the simple picture of a Jaynes-Cummings model to the description of a `multi-level' Purcell effect, where different levels have differing Purcell factors, with effective cooperativities mediated by coherent vibrational interactions.
翻訳日:2023-06-19 16:18:02 公開日:2023-06-15
# 因果構造学習の実践に向けて

Towards Practical Federated Causal Structure Learning ( http://arxiv.org/abs/2306.09433v1 )

ライセンス: Link先を確認
Zhaoyu Wang, Pingchuan Ma, Shuai Wang(参考訳) 因果関係を理解することは科学的発見に不可欠である。 因果構造学習のプロセスは、そのような関係を理解するために観測データから因果グラフを識別することを含む。 通常、中央サーバがこのタスクを実行するが、サーバとデータを共有するとプライバシー上のリスクが生じる。 フェデレーション学習はこの問題を解決できるが、既存のフェデレーション因果構造学習のソリューションは、データに関する非現実的な仮定を作り、収束の保証を欠く。 FedC2SLは、クライアントから生データを収集することなく、2変数間の条件独立性を調べるフェデレーション条件独立テストを用いて因果グラフを学習するフェデレーション制約に基づく因果構造学習スキームである。 FedC2SLは、データに関するより弱い、より現実的な仮定を必要とし、クライアント間のデータのばらつきに強く抵抗する。 FedPCとFedFCIはそれぞれ因果構造学習のためのFedC2SLの2つの変種である。 この研究は、既存のソリューションに対して合成データセットと実世界のデータの両方を使用してFedC2SLを評価し、クライアント間のデータ不均一性に対するパフォーマンスと強力なレジリエンスを示す。

Understanding causal relations is vital in scientific discovery. The process of causal structure learning involves identifying causal graphs from observational data to understand such relations. Usually, a central server performs this task, but sharing data with the server poses privacy risks. Federated learning can solve this problem, but existing solutions for federated causal structure learning make unrealistic assumptions about data and lack convergence guarantees. FedC2SL is a federated constraint-based causal structure learning scheme that learns causal graphs using a federated conditional independence test, which examines conditional independence between two variables under a condition set without collecting raw data from clients. FedC2SL requires weaker and more realistic assumptions about data and offers stronger resistance to data variability among clients. FedPC and FedFCI are the two variants of FedC2SL for causal structure learning in causal sufficiency and causal insufficiency, respectively. The study evaluates FedC2SL using both synthetic datasets and real-world data against existing solutions and finds it demonstrates encouraging performance and strong resilience to data heterogeneity among clients.
翻訳日:2023-06-19 16:17:42 公開日:2023-06-15
# 構造量子状態のための安定トモグラフィ

Stable Tomography for Structured Quantum States ( http://arxiv.org/abs/2306.09432v1 )

ライセンス: Link先を確認
Zhen Qin, Casey Jameson, Zhexuan Gong, Michael B. Wakin and Zhihui Zhu(参考訳) 量子状態トモグラフィ(QST)を用いてしばしば達成される実験的測定から量子状態の再構成は、量子デバイスの検証とベンチマークに不可欠である。 しかし、一般の非構造化量子状態に対してQSTを実行するには、最も最適な測定設定であっても、システム内の個々の量子数とともに \emph{exponentially} を成長させる膨大な数の状態コピーが必要である。 幸いなことに、ノイズや中間スケールの量子コンピュータによって生成される状態のような多くの物理量子状態は通常、構造化される。 一次元では、そのような状態は、キュービットの個数に依存しない有限行列/結合次元を持つ行列積作用素(MPO)によってよく近似されることが期待される。 しかしながら、これらの状態に対して効率的なQSTが実行可能であるかどうかはまだ不明である。 本稿では, このギャップを橋渡しし, 圧縮センシングと経験的過程の理論を用いたmposの安定回復のための理論的保証を確立する。 まず、ガウス測度とHaar random rank-one Positive Operator Valued Measures (POVMs)の2種類のランダム測定設定について検討する。 有限結合次元のMPOに含まれる情報は、測定値の統計的誤差を仮定して、キュービット数にのみ依存する多数のランダムな測定値を用いて保存可能であることを示す。 次に、量子コンピュータ上で実装可能なHaarランダムランクワンPOVMを用いて、MPOベースのQSTを物理量子測定により研究する。 我々は、MPO状態の有界回復誤差を保証するために、キュービット数における状態コピー数 \emph{polynomial} だけが必要であることを証明した。

The reconstruction of quantum states from experimental measurements, often achieved using quantum state tomography (QST), is crucial for the verification and benchmarking of quantum devices. However, performing QST for a generic unstructured quantum state requires an enormous number of state copies that grows \emph{exponentially} with the number of individual quanta in the system, even for the most optimal measurement settings. Fortunately, many physical quantum states, such as states generated by noisy, intermediate-scale quantum computers, are usually structured. In one dimension, such states are expected to be well approximated by matrix product operators (MPOs) with a finite matrix/bond dimension independent of the number of qubits, therefore enabling efficient state representation. Nevertheless, it is still unclear whether efficient QST can be performed for these states in general. In this paper, we attempt to bridge this gap and establish theoretical guarantees for the stable recovery of MPOs using tools from compressive sensing and the theory of empirical processes. We begin by studying two types of random measurement settings: Gaussian measurements and Haar random rank-one Positive Operator Valued Measures (POVMs). We show that the information contained in an MPO with a finite bond dimension can be preserved using a number of random measurements that depends only \emph{linearly} on the number of qubits, assuming no statistical error of the measurements. We then study MPO-based QST with physical quantum measurements through Haar random rank-one POVMs that can be implemented on quantum computers. We prove that only a \emph{polynomial} number of state copies in the number of qubits is required to guarantee bounded recovery error of an MPO state.
翻訳日:2023-06-19 16:17:22 公開日:2023-06-15
# 大域的モノポール時空におけるクラッツァー型ポテンシャルのクラスを持つシュル=オディンガー方程式の完全で近似的な境界状態解

Exact and approximate bound state solutions of the Schr\"odinger equation with a class of Kratzer-type potentials in the global monopole spacetime ( http://arxiv.org/abs/2306.09429v1 )

ライセンス: Link先を確認
Saulo S. Alves, Frankbelson dos S. Azevedo, Cleverson Filgueiras, Edilberto O. Silva(参考訳) 本研究では、大域単極子の時空における非相対論的荷電粒子の運動を研究する。 クラッツァーポテンシャルとスクリーン修正クラッツァーポテンシャルを考慮し,2つの相互作用による粒子の運動を記述するためのschr\"odinger方程式を導入する。 問題の固有関数と固有値は、ラジアル方程式を導出して解くことによって得られる。 有効ポテンシャルはクラッツァーと静電自己相互作用ポテンシャルの両方を含み、境界状態解につながる。 エネルギースペクトルは研究され、特にシステムの物理パラメータへの依存を強調している。 スクリーニングされた修正クラッツァーポテンシャルとスクリーニングされた自己相互作用電位は、有効電位とエネルギースペクトルの両方に影響を与える重要な役割を担っている。 さらに、境界状態の存在も満たしている。 これらの行動はすべてグラフで示され、詳細に議論されている。

This work investigates the motion of a non-relativistic charged particle within the spacetime of a global monopole. We introduce the Schr\"odinger equation to describe the particle's motion with two interactions by considering the Kratzer and the screened modified Kratzer potential. The problem's eigenfunctions and eigenvalues are obtained by deriving and solving the radial equation. The effective potential encompasses both the Kratzer and electrostatic self-interaction potential and leads to bound states solutions. The energy spectrum is investigated, particularly emphasizing its dependence on the system's physical parameters. The screened modified Kratzer potential and the screened self-interaction potential reveal an important role in influencing both the effective potential and the energy spectrum. Additionally, it also accommodates the existence of bound states. All these behaviors are illustrated with graphs and discussed in detail.
翻訳日:2023-06-19 16:16:54 公開日:2023-06-15
# ブラインド画像超解像のための深層学習技術:大規模マルチドメイン視点評価

Deep learning techniques for blind image super-resolution: A high-scale multi-domain perspective evaluation ( http://arxiv.org/abs/2306.09426v1 )

ライセンス: Link先を確認
Valdivino Alexandre de Santiago J\'unior(参考訳) 近年,画像超解像 (SR) に対するいくつかのソリューションや実験が実施されているが, ディープラーニング (DL) 技術によって促進されているため, 2倍, 4倍の精度で高いスケーリング係数で評価を設計することはない。 さらに、データセットは一般的に、テクニックを適切に評価するために、ドメインのかなりの多様性を真に包含するものではないベンチマークである。 ブラインドSRは劣化過程が未知であるという考えに基づいているため、現実のシナリオでは魅力的であり、それゆえ、この文脈における技術は基本的に低解像度(LR)画像に依存しているため、興味深い。 本稿では,適応擬似拡張(APA),Blind Image SR with spatially Variant Degradation(BlindSR),Deep Alternating Network(DAN),FastGAN,Mixture of Experts Super-Resolution(MoESR)という,視覚障害者のための最新のDL技術5つの手法を評価する。 我々は、航空、動物相、植物相、医学、衛星の5つの異なる領域の14の小さなデータセットを考察する。 評価の他の特徴は、DLアプローチのいくつかがシングルイメージSR用に設計されたが、そうでない点である。 no-reference image quality evaluator (niqe) と最近のtransformer-based multi-dimension attention network for no-reference image quality assessment (maniqa) という2つのno-reference metricsが選ばれた。 全体としては、MoESRは最高の解と見なすことができるが、生成したHR画像の知覚的品質は改善する必要がある。 コードのサポート:https://github.com/vsantjr/DL_BlindSR。 データセット: https://www.kaggle.com/datasets/valdivinosantiago/dl-blindsr-datasets。

Despite several solutions and experiments have been conducted recently addressing image super-resolution (SR), boosted by deep learning (DL) techniques, they do not usually design evaluations with high scaling factors, capping it at 2x or 4x. Moreover, the datasets are generally benchmarks which do not truly encompass significant diversity of domains to proper evaluate the techniques. It is also interesting to remark that blind SR is attractive for real-world scenarios since it is based on the idea that the degradation process is unknown, and hence techniques in this context rely basically on low-resolution (LR) images. In this article, we present a high-scale (8x) controlled experiment which evaluates five recent DL techniques tailored for blind image SR: Adaptive Pseudo Augmentation (APA), Blind Image SR with Spatially Variant Degradations (BlindSR), Deep Alternating Network (DAN), FastGAN, and Mixture of Experts Super-Resolution (MoESR). We consider 14 small datasets from five different broader domains which are: aerial, fauna, flora, medical, and satellite. Another distinctive characteristic of our evaluation is that some of the DL approaches were designed for single-image SR but others not. Two no-reference metrics were selected, being the classical natural image quality evaluator (NIQE) and the recent transformer-based multi-dimension attention network for no-reference image quality assessment (MANIQA) score, to assess the techniques. Overall, MoESR can be regarded as the best solution although the perceptual quality of the created HR images of all the techniques still needs to improve. Supporting code: https://github.com/vsantjr/DL_BlindSR. Datasets: https://www.kaggle.com/datasets/valdivinosantiago/dl-blindsr-datasets.
翻訳日:2023-06-19 16:16:40 公開日:2023-06-15
# アービタリネスはフェアネス精度フロンティアを越えている

Arbitrariness Lies Beyond the Fairness-Accuracy Frontier ( http://arxiv.org/abs/2306.09425v1 )

ライセンス: Link先を確認
Carol Xuan Long, Hsiang Hsu, Wael Alghamdi, Flavio P. Calmon(参考訳) 機械学習タスクは、同様のパフォーマンスを達成しながら、個々のサンプルに対して相反する結果を生み出す複数の競合モデルを認める可能性がある。 集団的公平性と正確性のみに最適化された機械学習における公平性介入は予測的重複を悪化させることを実証する。 その結果、最先端の公正な介入は、好ましいグループフェアネスと精度のメトリクスの背後にある高い予測的多重度を隠蔽することができる。 我々は、個々のレベルの影響の応用における意思決定を支援するモデルを展開する際に、‘arbitrariness’の第3軸を考慮するべきであると論じる。 この課題に対処するために、より一貫性のある予測を確実に保証するフェアネス介入に適用可能なアンサンブルアルゴリズムを提案する。

Machine learning tasks may admit multiple competing models that achieve similar performance yet produce conflicting outputs for individual samples -- a phenomenon known as predictive multiplicity. We demonstrate that fairness interventions in machine learning optimized solely for group fairness and accuracy can exacerbate predictive multiplicity. Consequently, state-of-the-art fairness interventions can mask high predictive multiplicity behind favorable group fairness and accuracy metrics. We argue that a third axis of ``arbitrariness'' should be considered when deploying models to aid decision-making in applications of individual-level impact. To address this challenge, we propose an ensemble algorithm applicable to any fairness intervention that provably ensures more consistent predictions.
翻訳日:2023-06-19 16:16:02 公開日:2023-06-15
# SSL4EO-L:ランドサット画像のデータセットと基礎モデル

SSL4EO-L: Datasets and Foundation Models for Landsat Imagery ( http://arxiv.org/abs/2306.09424v1 )

ライセンス: Link先を確認
Adam J. Stewart, Nils Lehmann, Isaac A. Corley, Yi Wang, Yi-Chia Chang, Nassim Ait Ali Braham, Shradha Sehgal, Caleb Robinson, Arindam Banerjee(参考訳) ランドサット計画(英: Landsat program)は、8つの衛星が50年以上にわたって取得した地球観測プログラムである。 これらの衛星に搭載されたセンサーが捉えたマルチスペクトル画像は、幅広い科学分野において重要である。 ディープラーニングとリモートセンシングの人気は高まっているが、ほとんどの研究者は、小さなラベル付きデータセットと基礎モデルの欠如により、ランドサット画像解析に決定木とランダム森林を使っている。 本稿では,ランドサット衛星群(3つのセンサと2つの製品レベルを含む)とランドサット史上最大のデータセット(5Mイメージパッチ)を対象とした,地球観測のための自己監督学習のための最初のデータセットであるSSL4EO-Lを紹介する。 さらに,L7 IrishおよびL8 Biomeクラウド検出データセットの近代化と再リリースを行い,Landsats 4-5 TMとLandsat 7 ETM+ SR用のMLベンチマークデータセットを導入した。 最後に,SSL4EO-Lを用いたランドサット画像の基礎モデルの事前学習を行い,複数のセマンティックセグメンテーションタスクの性能評価を行う。 全てのデータセットとモデル重みはtorchgeo(https://github.com/microsoft/torchgeo)ライブラリで利用可能であり、再現性と実験を容易にし、無数の下流アプリケーションのためのリモートセンシングの分野における科学的進歩を可能にする。

The Landsat program is the longest-running Earth observation program in history, with 50+ years of data acquisition by 8 satellites. The multispectral imagery captured by sensors onboard these satellites is critical for a wide range of scientific fields. Despite the increasing popularity of deep learning and remote sensing, the majority of researchers still use decision trees and random forests for Landsat image analysis due to the prevalence of small labeled datasets and lack of foundation models. In this paper, we introduce SSL4EO-L, the first ever dataset designed for Self-Supervised Learning for Earth Observation for the Landsat family of satellites (including 3 sensors and 2 product levels) and the largest Landsat dataset in history (5M image patches). Additionally, we modernize and re-release the L7 Irish and L8 Biome cloud detection datasets, and introduce the first ML benchmark datasets for Landsats 4-5 TM and Landsat 7 ETM+ SR. Finally, we pre-train the first foundation models for Landsat imagery using SSL4EO-L and evaluate their performance on multiple semantic segmentation tasks. All datasets and model weights are available via the TorchGeo (https://github.com/microsoft/torchgeo) library, making reproducibility and experimentation easy, and enabling scientific advancements in the burgeoning field of remote sensing for a myriad of downstream applications.
翻訳日:2023-06-19 16:15:50 公開日:2023-06-15
# 非UAVハイパースペクトル画像を用いた3次元畳み込みニューラルネットワークによる病原作物の分類手法の総合的検討

A comprehensive review of 3D convolutional neural network-based classification techniques of diseased and defective crops using non-UAV-based hyperspectral images ( http://arxiv.org/abs/2306.09418v1 )

ライセンス: Link先を確認
Nooshin Noshiri, Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry(参考訳) ハイパースペクトルイメージング(HSI)は、物体の構造と組成に関する貴重な情報を提供する非破壊的で接触のない技術である。 農作物の化学的および物理的性質に関する詳細な情報を取得することができる。 スペクトル範囲が広いため、マルチスペクトルまたはRGBベースの撮像法と比較すると、HSIは作物の健康と生産性をモニタリングするためのより効果的なツールとなる。 農業技術におけるこのイメージングツールの出現により、農業における病気や欠陥のある作物の検出に関する問題をより正確に解決することができる。 これにより、作物が畑の成長の傷つき難い段階に入る前に灌水や肥料化など、最も適した正確な農業ソリューションを実装することができる。 HSIは対象物に対する貴重な洞察を提供するが、作物評価のための限られた数のHSIデータセットは、現在ボトルネックとなっている。 次元の呪いを扱うことは、各超スペクトル立方体にスペクトル情報と空間情報が豊富にあるため、別の課題となる。 1D-および2D-CNNに基づく最先端手法は、スペクトルと空間情報を効率的に抽出するのに苦労する。 一方,3d-cnnに基づくモデルでは,スペクトル特徴と空間特徴を同時に活用することで,分類と検出結果の精度向上が期待できる。 3d-cnnベースのモデルの明らかな利点にもかかわらず、この分野における分類の用途は限られている。 本稿では, 3d-cnnベースのアーキテクチャと, 病害作物のハイパースペクトル画像の分類のための前処理と可視化を含む, 典型的なディープラーニングパイプラインについて検討することで, このギャップに対処しようとする。 さらに,HSIデータを用いた3D-CNNのオープンな研究領域と課題についても論じる。

Hyperspectral imaging (HSI) is a non-destructive and contactless technology that provides valuable information about the structure and composition of an object. It can capture detailed information about the chemical and physical properties of agricultural crops. Due to its wide spectral range, compared with multispectral- or RGB-based imaging methods, HSI can be a more effective tool for monitoring crop health and productivity. With the advent of this imaging tool in agrotechnology, researchers can more accurately address issues related to the detection of diseased and defective crops in the agriculture industry. This allows to implement the most suitable and accurate farming solutions, such as irrigation and fertilization before crops enter a damaged and difficult-to-recover phase of growth in the field. While HSI provides valuable insights into the object under investigation, the limited number of HSI datasets for crop evaluation presently poses a bottleneck. Dealing with the curse of dimensionality presents another challenge due to the abundance of spectral and spatial information in each hyperspectral cube. State-of-the-art methods based on 1D- and 2D-CNNs struggle to efficiently extract spectral and spatial information. On the other hand, 3D-CNN-based models have shown significant promise in achieving better classification and detection results by leveraging spectral and spatial features simultaneously. Despite the apparent benefits of 3D-CNN-based models, their usage for classification purposes in this area of research has remained limited. This paper seeks to address this gap by reviewing 3D-CNN-based architectures and the typical deep learning pipeline, including preprocessing and visualization of results, for the classification of hyperspectral images of diseased and defective crops. Furthermore, we discuss open research areas and challenges when utilizing 3D-CNNs with HSI data.
翻訳日:2023-06-19 16:15:22 公開日:2023-06-15
# diff-ttsg : 確率的統合音声合成とジェスチャ合成

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis ( http://arxiv.org/abs/2306.09417v1 )

ライセンス: Link先を確認
Shivam Mehta, Siyang Wang, Simon Alexanderson, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) 高自然度スコアを達成できる読解音声合成は、自然音声合成における研究の関心が高まっている。 しかし、人間の自発的な対面会話には、話し言葉と言葉以外の側面の両方がある(ここでは、協調的なジェスチャー)。 つい最近になって、これらの2つのモダリティを単一のシステムで共同で合成する方法の研究が始まった。 従来の技術では、人間の発話や動きの変動を捉えない非確率的手法を使用しており、過剰な人工物や準最適合成品質を生み出す危険性があった。 我々はdiff-ttsgと呼ばれる拡散に基づく最初の確率モデルを提案する。 我々の方法はスクラッチから小さなデータセットで訓練することができる。 さらに、統合音声とジェスチャー合成システムを評価するための一様・多様主観的一様テストのセットを記述し、提案手法の有効性を検証する。 合成例についてはhttps://shivammehta25.github.io/diff-ttsgを参照。

With read-aloud speech synthesis achieving high naturalness scores, there is a growing research interest in synthesising spontaneous speech. However, human spontaneous face-to-face conversation has both spoken and non-verbal aspects (here, co-speech gestures). Only recently has research begun to explore the benefits of jointly synthesising these two modalities in a single system. The previous state of the art used non-probabilistic methods, which fail to capture the variability of human speech and motion, and risk producing oversmoothing artefacts and sub-optimal synthesis quality. We present the first diffusion-based probabilistic model, called Diff-TTSG, that jointly learns to synthesise speech and gestures together. Our method can be trained on small datasets from scratch. Furthermore, we describe a set of careful uni- and multi-modal subjective tests for evaluating integrated speech and gesture synthesis systems, and use them to validate our proposed approach. For synthesised examples please see https://shivammehta25.github.io/Diff-TTSG
翻訳日:2023-06-19 16:14:54 公開日:2023-06-15
# 進化的ネットワークの強化

Kriging Convolutional Networks ( http://arxiv.org/abs/2306.09463v1 )

ライセンス: Link先を確認
Gabriel Appleby, Linfeng Liu, Li-Ping Liu(参考訳) 空間補間 (spatial interpolation) は、空間的局所性とトレンドの活用に重点を置き、既知の値を持つ場所を他の場所での値推定に利用する推定問題のクラスである。 伝統的なクリッピング法はガウスの仮定が強く、結果として、しばしばデータ内の複雑さを捉えることができない。 近年のグラフニューラルネットワークの進展に触発されて,グラフ畳み込みネットワーク(gcn)とkrigingを組み合わせる手法であるkriging convolutional networks(kcn)を導入した。 標準的なGCNと比較して、KCNは予測を生成する際に近隣の観測を直接利用する。 kcnsはkrigingメソッドを特定の構成として含む。 注意を加えることで、モデルの性能をさらに改善します。 経験的に、このモデルはいくつかのアプリケーションでgcnやkrigingよりも優れています。 PyTorchを使用したKCNの実装はGitHubリポジトリで公開されている。

Spatial interpolation is a class of estimation problems where locations with known values are used to estimate values at other locations, with an emphasis on harnessing spatial locality and trends. Traditional Kriging methods have strong Gaussian assumptions, and as a result, often fail to capture complexities within the data. Inspired by the recent progress of graph neural networks, we introduce Kriging Convolutional Networks (KCN), a method of combining the advantages of Graph Convolutional Networks (GCN) and Kriging. Compared to standard GCNs, KCNs make direct use of neighboring observations when generating predictions. KCNs also contain the Kriging method as a specific configuration. We further improve the model's performance by adding attention. Empirically, we show that this model outperforms GCNs and Kriging in several applications. The implementation of KCN using PyTorch is publicized at the GitHub repository: https://github.com/tufts-ml/kcn-torch.
翻訳日:2023-06-19 16:10:23 公開日:2023-06-15
# 自動運転車の運動快適性最適化:概念、方法、技術

Motion Comfort Optimization for Autonomous Vehicles: Concepts, Methods, and Techniques ( http://arxiv.org/abs/2306.09462v1 )

ライセンス: Link先を確認
Mohammed Aledhari, Mohamed Rahouti, Junaid Qadir, Basheer Qolomany, Mohsen Guizani, Ala Al-Fuqaha(参考訳) 本稿では、人間の快適性の観点から、自律運転と関連する補完的枠組みのアーキテクチャを概説する。 自律走行車(AV)の快適性と精神分析の技術的要素を以下に挙げる。 同時に、本論文では、自動運転の構造と自動運転の反応時間に関する技術を紹介する。 また、自動走行快適度システム、AVドライバの応答時間、AVの快適度、運動障害、および関連する最適化技術に関する技術的詳細についても論じる。 センサーの機能は様々な要因によって影響を受ける。 自動走行センサは、主に「天気」を含む車両周囲の環境を感知するので、異なる気象条件下での自動運転車における中古センサの課題と限界が生じる。 自動運転の快適性と安全性は、自動運転技術の開発に影響を与える要因でもある。 本稿では、自動運転がユーザーの身体的および心理的状態に与える影響と、自動運転車の快適性要因が自動車市場に与える影響をさらに分析する。 また、自動運転のメリットと欠点にも焦点を当てています。 目標は、研究者やアプリケーション開発者が自律運転のさまざまな快適な要素やシステムを理解するのを助けるために、最も関連性の高い技術的問題の概要を示すことである。 最後に,自動運転の快適性に関する問題点を説明するために,自動運転の快適性に関する詳細な事例を提供する。 そして、自動運転の未来への示唆と洞察を与えます。

This article outlines the architecture of autonomous driving and related complementary frameworks from the perspective of human comfort. The technical elements for measuring Autonomous Vehicle (AV) user comfort and psychoanalysis are listed here. At the same time, this article introduces the technology related to the structure of automatic driving and the reaction time of automatic driving. We also discuss the technical details related to the automatic driving comfort system, the response time of the AV driver, the comfort level of the AV, motion sickness, and related optimization technologies. The function of the sensor is affected by various factors. Since the sensor of automatic driving mainly senses the environment around a vehicle, including "the weather" which introduces the challenges and limitations of second-hand sensors in autonomous vehicles under different weather conditions. The comfort and safety of autonomous driving are also factors that affect the development of autonomous driving technologies. This article further analyzes the impact of autonomous driving on the user's physical and psychological states and how the comfort factors of autonomous vehicles affect the automotive market. Also, part of our focus is on the benefits and shortcomings of autonomous driving. The goal is to present an exhaustive overview of the most relevant technical matters to help researchers and application developers comprehend the different comfort factors and systems of autonomous driving. Finally, we provide detailed automated driving comfort use cases to illustrate the comfort-related issues of autonomous driving. Then, we provide implications and insights for the future of autonomous driving.
翻訳日:2023-06-19 16:10:09 公開日:2023-06-15
# 分類性能評価のための階層的混乱行列

Hierarchical confusion matrix for classification performance evaluation ( http://arxiv.org/abs/2306.09461v1 )

ライセンス: Link先を確認
Kevin Riehl, Michael Neunteufel, Martin Hemberg(参考訳) 本研究では,階層的混乱行列という新しい概念を提案し,階層的分類問題の特異性を考慮しつつ,二元的分類問題から一般的混乱行列(flat)評価手法への扉を開く。 一般化された形式への概念を開発し,有向非巡回グラフ,マルチパスラベリング,非強制リーフノード予測といった階層的分類問題に適用可能であることを証明した。 最後に,3つの実世界階層分類アプリケーションのベンチマークにおけるモデル評価に,新しい混乱行列に基づく尺度を用い,その結果を確立された評価尺度と比較する。 本手法の妥当性と階層的分類問題の評価に有用性について概説する。 階層的混乱マトリックスの実装はgithubで公開されている。

In this work we propose a novel concept of a hierarchical confusion matrix, opening the door for popular confusion matrix based (flat) evaluation measures from binary classification problems, while considering the peculiarities of hierarchical classification problems. We develop the concept to a generalized form and prove its applicability to all types of hierarchical classification problems including directed acyclic graphs, multi path labelling, and non mandatory leaf node prediction. Finally, we use measures based on the novel confusion matrix to evaluate models within a benchmark for three real world hierarchical classification applications and compare the results to established evaluation measures. The results outline the reasonability of this approach and its usefulness to evaluate hierarchical classification problems. The implementation of hierarchical confusion matrix is available on GitHub.
翻訳日:2023-06-19 16:09:47 公開日:2023-06-15
# リカレントメモリ決定変換器

Recurrent Memory Decision Transformer ( http://arxiv.org/abs/2306.09459v1 )

ライセンス: Link先を確認
Arkadii Bessonov and Alexey Staroverov and Huzhenyu Zhang and Alexey K. Kovalev and Dmitry Yudin and Aleksandr I. Panov(参考訳) もともと自然言語問題のために開発されたトランスフォーメーションモデルは、最近オフライン強化学習タスクで広く使われている。 これはエージェントの履歴をシーケンスとして表現でき、タスク全体をシーケンスモデリングタスクに還元できるという事実による。 しかし、変圧器演算の二次的な複雑さは、文脈の潜在的な増加を制限する。 したがって、自然言語の長いシーケンスを扱うために、異なるバージョンのメモリ機構が使用される。 本稿では,リカレントメモリ機構を用いた学習支援モデルであるリカレントメモリ決定トランス(rmdt)を提案する。 atariゲームおよびmojoco制御問題に関する徹底的な実験を行い,本モデルがatariゲームにおける記憶機構を欠いたモデルよりも優れていることを示す。 また,提案モデルの性能に対する記憶の影響についても慎重に検討した。 これらの結果は、オフライン強化学習タスクにおける大規模変圧器モデルの性能を改善するために再帰記憶機構を組み込む可能性に光を当てた。 Recurrent Memory Decision Transformer コードは、リポジトリ \url{https://anonymous.4open.science/r/RMDT-4FE4} で公開されている。

Transformative models, originally developed for natural language problems, have recently been widely used in offline reinforcement learning tasks. This is due to the fact that the agent's history can be represented as a sequence, and the whole task can be reduced to the sequence modeling task. However, the quadratic complexity of the transformer operation limits the potential increase in context. Therefore, to work with long sequences in a natural language, different versions of the memory mechanism are used. In this paper, we propose the Recurrent Memory Decision Transformer (RMDT), a model that uses a recurrent memory mechanism for reinforcement learning problems. We conduct thorough experiments on Atari games and MoJoCo control problems, and show that our proposed model is significantly superior to its counterparts without the recurrent memory mechanism on Atari games. We also carefully study the effect of memory on the performance of the proposed model. These findings shed light on the potential of incorporating recurrent memory mechanisms to improve the performance of large-scale transformer models in offline reinforcement learning tasks. The Recurrent Memory Decision Transformer code is publicly available in repository \url{https://anonymous.4open.science/r/RMDT-4FE4}.
翻訳日:2023-06-19 16:09:36 公開日:2023-06-15
# 多階層HPCシステム評価のためのマルチレベル・マルチスケールビジュアル分析手法

A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of Multifidelity HPC Systems ( http://arxiv.org/abs/2306.09457v1 )

ライセンス: Link先を確認
Shilpika, Bethany Lusch, Murali Emani, Filippo Simini, Venkatram Vishwanath, Michael E. Papka, and Kwan-Liu Ma(参考訳) ハードウェアシステムのイベントや動作を監視し解釈する能力は、特にスーパーコンピューティング設備において、これらのシステムのロバスト性と信頼性を向上させる上で重要である。 これらのシステムの複雑さと規模の増加は、複数の忠実度レベルと異なる時間分解能で収集された監視データの増加を要求する。 本研究では,ハードウェアログやジョブログ,スーパーコンピュータシステムの異なるサブシステムやコンポーネントから収集された環境ログなど,膨大なデータを理解するための総合的な分析システムを構築することを目的とする。 このエンドツーエンドのログ分析システムは、ビジュアルアナリティクスのサポートと合わせて、時間的および空間的な解像度の異なるスーパーコンピュータの使用状況やエラーパターンを、迅速かつ明瞭に抽出する。 高次元データを相関した空間-時間変動パターンやモードとして表現する手法であるマルチレゾリューション動的モード分解(mrdmd)を用いて,特定の周波数で分離した変動パターンを抽出する。 mrDMDアルゴリズムの改良は、大規模環境ログデータセットに有用な情報を明らかにするのに役立ち、処理されたハードウェアやジョブログデータセットに視覚分析システムを用いて関連付ける。 さらに,本システムでは,ユーザ,プロジェクト,サブコンポーネントレベルでフィルタされた使用状況とエラーパターンを識別できる。 我々は,Cray XC40スーパーコンピュータを用いた2つのユースケースを用いたアプローチの有効性を実証する。

The ability to monitor and interpret of hardware system events and behaviors are crucial to improving the robustness and reliability of these systems, especially in a supercomputing facility. The growing complexity and scale of these systems demand an increase in monitoring data collected at multiple fidelity levels and varying temporal resolutions. In this work, we aim to build a holistic analytical system that helps make sense of such massive data, mainly the hardware logs, job logs, and environment logs collected from disparate subsystems and components of a supercomputer system. This end-to-end log analysis system, coupled with visual analytics support, allows users to glean and promptly extract supercomputer usage and error patterns at varying temporal and spatial resolutions. We use multiresolution dynamic mode decomposition (mrDMD), a technique that depicts high-dimensional data as correlated spatial-temporal variations patterns or modes, to extract variation patterns isolated at specified frequencies. Our improvements to the mrDMD algorithm help promptly reveal useful information in the massive environment log dataset, which is then associated with the processed hardware and job log datasets using our visual analytics system. Furthermore, our system can identify the usage and error patterns filtered at user, project, and subcomponent levels. We exemplify the effectiveness of our approach with two use scenarios with the Cray XC40 supercomputer.
翻訳日:2023-06-19 16:09:18 公開日:2023-06-15
# 特徴フラッテニングと二段階協調分類器によるホスト型ネットワーク侵入検出

Host-Based Network Intrusion Detection via Feature Flattening and Two-stage Collaborative Classifier ( http://arxiv.org/abs/2306.09451v1 )

ライセンス: Link先を確認
Zhiyan Chen, Murat Simsek, Burak Kantarci, Mehran Bagheri, Petar Djukic(参考訳) ネットワーク侵入検知システム (NIDS) は, 実ネットワークトラフィックを監視し, 不審な活動を解析することによって, 広範囲に研究されている。 ただし、Advanced Persistent Threats(APT)など、NIDSによる特定のタイプの攻撃を検出するには制限がある。 さらに、NIDSは、暗号化されたトラフィックや権限の欠如による完全なトラフィック情報の監視に制限されている。 これらの制限に対処するため、ホストベースの侵入検知システム(HIDS)は、ログ、ファイル、フォルダを含むホスト内のリソースを評価し、悪意のあるファイルを被害者ノードに定期的に注入するAPT攻撃を特定する。 本研究では,NIDSとHIDSを組み合わせたハイブリッドネットワーク侵入検知システムを提案する。 特徴フラット化手法は、2次元ホストベースの機能を1次元ベクトルにフラット化するために応用され、従来の機械学習(ml)モデルで直接使用できる。 ネットワーク侵入を識別するために、2段階のMLアルゴリズムをデプロイする2段階の協調分類器が導入された。 第1段階では、良性サンプルを検出するためにバイナリ分類器が使用される。 検出されたすべての攻撃タイプは、元の問題の複雑さを減らし、全体的な検出性能を改善するために、マルチクラス分類器を実行する。 提案手法は、CICIDS 2018とNDSec-1という、よく知られた2つのデータセットを一般化する。 従来のMLを表すXGBoostの性能を評価した。 ホストとネットワーク機能を組み合わせることで、攻撃検出性能(macro平均f1スコア)がcicids 2018データセットでは8.1%向上し、ndsec-1データセットでは3.7%向上する。 一方、2段階のコラボレーティブ分類器は、従来のml xgboostと比較して、特にdos-loic-udpとdos-slowhttptestで検出性能が30.7%、84.3%改善されている。

Network Intrusion Detection Systems (NIDS) have been extensively investigated by monitoring real network traffic and analyzing suspicious activities. However, there are limitations in detecting specific types of attacks with NIDS, such as Advanced Persistent Threats (APT). Additionally, NIDS is restricted in observing complete traffic information due to encrypted traffic or a lack of authority. To address these limitations, a Host-based Intrusion Detection system (HIDS) evaluates resources in the host, including logs, files, and folders, to identify APT attacks that routinely inject malicious files into victimized nodes. In this study, a hybrid network intrusion detection system that combines NIDS and HIDS is proposed to improve intrusion detection performance. The feature flattening technique is applied to flatten two-dimensional host-based features into one-dimensional vectors, which can be directly used by traditional Machine Learning (ML) models. A two-stage collaborative classifier is introduced that deploys two levels of ML algorithms to identify network intrusions. In the first stage, a binary classifier is used to detect benign samples. All detected attack types undergo a multi-class classifier to reduce the complexity of the original problem and improve the overall detection performance. The proposed method is shown to generalize across two well-known datasets, CICIDS 2018 and NDSec-1. Performance of XGBoost, which represents conventional ML, is evaluated. Combining host and network features enhances attack detection performance (macro average F1 score) by 8.1% under the CICIDS 2018 dataset and 3.7% under the NDSec-1 dataset. Meanwhile, the two-stage collaborative classifier improves detection performance for most single classes, especially for DoS-LOIC-UDP and DoS-SlowHTTPTest, with improvements of 30.7% and 84.3%, respectively, when compared with the traditional ML XGBoost.
翻訳日:2023-06-19 16:08:56 公開日:2023-06-15
# AIとビッグデータを用いたCIフレームワークと情報処理プロトコルによるWSNにおけるサイバー攻撃の防止とパケットドロップ

Prevention of cyberattacks in WSN and packet drop by CI framework and information processing protocol using AI and Big Data ( http://arxiv.org/abs/2306.09448v1 )

ライセンス: Link先を確認
Shreyanth S(参考訳) 無線センサネットワーク(WSN)への依存度が増大するにつれて、サイバー攻撃防止とデータ送信の完全性が重要な問題となっている。 この研究は、認知知能(CI)フレームワーク、情報処理プロトコル、高度な人工知能(AI)とビッグデータ分析アプローチを統合することで、これらの問題に対処するための完全なフレームワークを提供する。 CIアーキテクチャは、進化する脅威シナリオに動的に反応することで、WSNセキュリティを改善することを意図している。 人工知能アルゴリズムを使用して、ネットワークの動作を継続的に監視し、分析し、リアルタイムで侵入を識別し緩和する。 異常検出アルゴリズムは、攻撃やネットワークの混雑に起因するパケットドロップインスタンスを識別するフレームワークにも含まれている。 CIアーキテクチャをサポートするために、WSN内の効率的なセキュアなデータ転送に焦点を当てた情報処理プロトコルが導入された。 データ完全性を保護し、不要なアクセスを防止するため、このプロトコルは暗号化と認証技術を含んでいる。 さらに、AIとビッグデータアプローチを使用してルーティングプロセスを強化し、信頼性とタイムリーなパケット配信を提供する。 提案フレームワークの効率を評価するため, 大規模なシミュレーションと試験を行った。 その結果,DoS(DoS)攻撃,ノード妥協,データ改ざんなど,さまざまな種類の攻撃を検出・防止できることがわかった。 さらに、このフレームワークはパケットドロップの発生に対して非常に耐性があり、WSNの全体的な信頼性と性能が向上する。

As the reliance on wireless sensor networks (WSNs) rises in numerous sectors, cyberattack prevention and data transmission integrity become essential problems. This study provides a complete framework to handle these difficulties by integrating a cognitive intelligence (CI) framework, an information processing protocol, and sophisticated artificial intelligence (AI) and big data analytics approaches. The CI architecture is intended to improve WSN security by dynamically reacting to an evolving threat scenario. It employs artificial intelligence algorithms to continuously monitor and analyze network behavior, identifying and mitigating any intrusions in real time. Anomaly detection algorithms are also included in the framework to identify packet drop instances caused by attacks or network congestion. To support the CI architecture, an information processing protocol focusing on efficient and secure data transfer within the WSN is introduced. To protect data integrity and prevent unwanted access, this protocol includes encryption and authentication techniques. Furthermore, it enhances the routing process with the use of AI and big data approaches, providing reliable and timely packet delivery. Extensive simulations and tests are carried out to assess the efficiency of the suggested framework. The findings show that it is capable of detecting and preventing several forms of assaults, including as denial-of-service (DoS) attacks, node compromise, and data tampering. Furthermore, the framework is highly resilient to packet drop occurrences, which improves the WSN's overall reliability and performance
翻訳日:2023-06-19 16:08:23 公開日:2023-06-15
# ロボットと人工知能におけるユーティリティ理論の応用を理解する:調査

Understanding the Application of Utility Theory in Robotics and Artificial Intelligence: A Survey ( http://arxiv.org/abs/2306.09445v1 )

ライセンス: Link先を確認
Qin Yang and Rui Liu(参考訳) 経済学、ゲーム理論、オペレーション研究における統一的な概念として、ロボティクスとAI分野においても、このユーティリティは個人のニーズ、好み、関心のレベルを評価するために使われる。 特にマルチエージェント/ロボットシステム(mas/mrs)における意思決定と学習において、適切な実用モデルは、エージェントが現在のニーズを達成するための合理的な戦略を選択し、システムの有用性を最適化し、安定的で信頼性の高い関係を構築し、人間社会と同様に各グループのメンバーの持続可能な発展を保証するための学習をエージェントに指導することができる。 これらのシステムの複雑で大規模で長期的な行動は、基礎となる関係の基本的な特徴によって強く決定されるが、ロボットやAIにおけるメカニズムの理論的側面や応用分野に関する議論は少ない。 本稿では,エージェントのインタラクション間の相互関係を記述し,評価するためのユーティリティ指向の要求パラダイムを提案する。 そこで本研究では,関連分野の文献を調査し,今後の研究に必要な未解決問題と合わせて,いくつかの有望な研究方向性を提案する。

As a unifying concept in economics, game theory, and operations research, even in the Robotics and AI field, the utility is used to evaluate the level of individual needs, preferences, and interests. Especially for decision-making and learning in multi-agent/robot systems (MAS/MRS), a suitable utility model can guide agents in choosing reasonable strategies to achieve their current needs and learning to cooperate and organize their behaviors, optimizing the system's utility, building stable and reliable relationships, and guaranteeing each group member's sustainable development, similar to the human society. Although these systems' complex, large-scale, and long-term behaviors are strongly determined by the fundamental characteristics of the underlying relationships, there has been less discussion on the theoretical aspects of mechanisms and the fields of applications in Robotics and AI. This paper introduces a utility-orient needs paradigm to describe and evaluate inter and outer relationships among agents' interactions. Then, we survey existing literature in relevant fields to support it and propose several promising research directions along with some open problems deemed necessary for further investigations.
翻訳日:2023-06-19 16:07:37 公開日:2023-06-15
# 再現可能な機械学習レンズによる大規模量子分離性

Large-Scale Quantum Separability Through a Reproducible Machine Learning Lens ( http://arxiv.org/abs/2306.09444v1 )

ライセンス: Link先を確認
Balthazar Casal\'e, Giuseppe Di Molfetta, Sandrine Anthoine, Hachem Kadri(参考訳) 量子分離性問題は、二部密度行列が絡み合っているか分離可能であるかを決定することである。 本研究では,大規模シナリオにおけるNP-hard問題の近似解を求めるための機械学習パイプラインを提案する。 最寄りの分離可能密度行列を近似し、分離可能あるいは絡み合う密度行列を体系的にラベル付けする方法を導出し、量子分離可能性を分類問題として扱うことができる効率的なフランクウルフアルゴリズムを提供する。 我々の方法は任意の2量子混合状態に適用できる。 3次元および7次元キューディットの量子状態による数値実験は提案手法の効率を検証し、高い量子エンタングルメント検出精度で数千の密度行列にスケールすることを示した。 これにより、より強力な絡み合い検出技術の開発を支援するために、量子分離可能性のベンチマークを行う。

The quantum separability problem consists in deciding whether a bipartite density matrix is entangled or separable. In this work, we propose a machine learning pipeline for finding approximate solutions for this NP-hard problem in large-scale scenarios. We provide an efficient Frank-Wolfe-based algorithm to approximately seek the nearest separable density matrix and derive a systematic way for labeling density matrices as separable or entangled, allowing us to treat quantum separability as a classification problem. Our method is applicable to any two-qudit mixed states. Numerical experiments with quantum states of 3- and 7-dimensional qudits validate the efficiency of the proposed procedure, and demonstrate that it scales up to thousands of density matrices with a high quantum entanglement detection accuracy. This takes a step towards benchmarking quantum separability to support the development of more powerful entanglement detection techniques.
翻訳日:2023-06-19 16:06:46 公開日:2023-06-15
# Explore, Establish, Exploit: Scratchのレッドチーム言語モデル

Explore, Establish, Exploit: Red Teaming Language Models from Scratch ( http://arxiv.org/abs/2306.09442v1 )

ライセンス: Link先を確認
Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell(参考訳) 大規模言語モデル(llm)のデプロイは、有害な音声や不正な音声などの有害なアウトプットから危険をもたらす可能性がある。 以前の作業では、これらのリスクを特定し軽減するために有害なアウトプットを引き出すツールが導入されていた。 これは言語モデルを保護するための貴重なステップであるが、これらのアプローチは通常、望ましくない出力に対して既存の分類器に依存している。 これにより、有害な行動の種類が事前に正確に知られている状況に制限される。 しかし、これはred teamingの中心的な課題をスキップする:モデルが示すことのできる振る舞いのコンテキスト理解を開発する。 さらに、そのような分類器がすでに存在する場合、レッド・チーム化は訓練データやモデル出力のフィルタリングに単純に使用できるため、限界値に制限がある。 この研究では、敵が望ましくない行動の高レベルで抽象的な仕様から動いているという仮定の下でレッドチームを考える。 redチームは、この仕様を洗練/拡張し、モデルからこの振る舞いを引き出すメソッドを特定することが期待されている。 当社のred teamingフレームワークは3つのステップで構成されています。 1) 所望の文脈でモデルの振る舞いを探索すること。 2 望ましくない行動の測定(例えば、人間の評価を反映するように訓練された分類器)の確立及び 3) この尺度と確立されたレッドチーム編成手法を用いて,モデルの欠陥を悪用する。 本手法をレッドチーム GPT-2 および GPT-3 モデルに適用し,毒性および不正直な記述を誘発するプロンプトのクラスを系統的に発見する。 その際、人間の被験者がcommon-knowledge-true、common-knowledge-falseとラベル付けした2万文のcommonclaimデータセットを構築して公開します。 コードはhttps://github.com/thestephencasper/explore_establish_exploit_llmsで入手できる。 CommonClaimはhttps://github.com/thestephencasper/common_claim.comから入手できる。

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.
翻訳日:2023-06-19 16:06:14 公開日:2023-06-15
# R2-Diff:画像に基づく動き予測のための検索動作の洗練としての拡散によるデノーミング

R2-Diff: Denoising by diffusion as a refinement of retrieved motion for image-based motion prediction ( http://arxiv.org/abs/2306.09483v1 )

ライセンス: Link先を確認
Takeru Oba and Norimichi Ukita(参考訳) 画像に基づく動き予測はロボット操作に不可欠な技術の一つである。 様々な予測モデルの中で,様々なアプリケーションで最先端の性能を達成したため,拡散モデルに着目する。 画像に基づく動き予測において、拡散モデルは、画像コンテキストに基づいてランダムなガウス雑音を徐々に denoising することにより、文脈的に適切な動きを確率的に予測する。 拡散モデルはランダムノイズを変化させることで様々な動きを予測できるが、画像コンテキストとは独立にランダムノイズをサンプリングするため、画像に基づいて文脈的に適切な動きを予測できない場合もある。 この問題を解決するためにR2-Diffを提案する。 R2-Diffでは、画像類似性に基づいてデータセットから取得した動きをランダムノイズの代わりに拡散モデルに入力する。 そして、拡散モデルの復調過程を通じて、検索した動きを洗練する。 検索された動きは文脈にほぼ適するため、文脈的に適切な動きを予測するのが容易になる。 しかし、従来の拡散モデルは、取得した動きを洗練するために最適化されていない。 そこで本研究では,データセット間の近接移動距離に基づいてハイパーパラメータをチューニングし,拡散モデルを最適化する手法を提案する。 さらに,最も近い近傍動きを推論で検索する画像ベース検索手法を提案する。 提案手法は,運動軌跡に沿った画像特徴に基づく類似度を効率的に計算する。 我々は,ロボット操作における最近の最先端モデルと比較して,R2-Diffが適切な動作を正確に予測し,高いタスク成功率を達成することを示した。

Image-based motion prediction is one of the essential techniques for robot manipulation. Among the various prediction models, we focus on diffusion models because they have achieved state-of-the-art performance in various applications. In image-based motion prediction, diffusion models stochastically predict contextually appropriate motion by gradually denoising random Gaussian noise based on the image context. While diffusion models are able to predict various motions by changing the random noise, they sometimes fail to predict a contextually appropriate motion based on the image because the random noise is sampled independently of the image context. To solve this problem, we propose R2-Diff. In R2-Diff, a motion retrieved from a dataset based on image similarity is fed into a diffusion model instead of random noise. Then, the retrieved motion is refined through the denoising process of the diffusion model. Since the retrieved motion is almost appropriate to the context, it becomes easier to predict contextually appropriate motion. However, traditional diffusion models are not optimized to refine the retrieved motion. Therefore, we propose the method of tuning the hyperparameters based on the distance of the nearest neighbor motion among the dataset to optimize the diffusion model for refinement. Furthermore, we propose an image-based retrieval method to retrieve the nearest neighbor motion in inference. Our proposed retrieval efficiently computes the similarity based on the image features along the motion trajectory. We demonstrate that R2-Diff accurately predicts appropriate motions and achieves high task success rates compared to recent state-of-the-art models in robot manipulation.
翻訳日:2023-06-19 15:59:01 公開日:2023-06-15
# 新規視覚概念のサンプル効率学習

Sample-Efficient Learning of Novel Visual Concepts ( http://arxiv.org/abs/2306.09482v1 )

ライセンス: Link先を確認
Sarthak Bhagat, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) ビジュアルオブジェクト認識の進歩にもかかわらず、最先端のディープラーニングモデルは、限られた数のサンプルしか提供されない数ショット環境で、新しいオブジェクトを効果的に認識するのに苦労している。 このようなタスクに精通する人間とは異なり、これらのモデルはしばしば、そのようなオブジェクトに関する結論を引き出すために、エンティティ間の既知の関係を利用して失敗する。 本稿では,記号的知識グラフを最先端認識モデルに組み込むことにより,実効的少数ショット分類のための新しいアプローチを可能にすることを示す。 提案するニューロシンボリックアーキテクチャとトレーニング手法では,知識グラフには,少数の例から抽出した追加の関係性が付加され,相互接続された実体の存在を考慮して新たな物体を認識する能力が向上する。 既存の少数ショット分類器とは異なり、このモデルではオブジェクトだけでなく抽象概念やアベイランスも組み込むことができる。 知識グラフの存在は、このアプローチを、その内に含まれる関係の分析を通じて解釈しやすくする。 提案手法は,COCOデータセット上で,現在最先端の複数ラベル分類手法よりも優れており,Visual Genomeデータセットに抽象概念と余裕が付加されていることを実証的に示す。

Despite the advances made in visual object recognition, state-of-the-art deep learning models struggle to effectively recognize novel objects in a few-shot setting where only a limited number of examples are provided. Unlike humans who excel at such tasks, these models often fail to leverage known relationships between entities in order to draw conclusions about such objects. In this work, we show that incorporating a symbolic knowledge graph into a state-of-the-art recognition model enables a new approach for effective few-shot classification. In our proposed neuro-symbolic architecture and training methodology, the knowledge graph is augmented with additional relationships extracted from a small set of examples, improving its ability to recognize novel objects by considering the presence of interconnected entities. Unlike existing few-shot classifiers, we show that this enables our model to incorporate not only objects but also abstract concepts and affordances. The existence of the knowledge graph also makes this approach amenable to interpretability through analysis of the relationships contained within it. We empirically show that our approach outperforms current state-of-the-art few-shot multi-label classification methods on the COCO dataset and evaluate the addition of abstract concepts and affordances on the Visual Genome dataset.
翻訳日:2023-06-19 15:58:39 公開日:2023-06-15
# 高精度アナログ深層ニューラルネットワーク加速器の設計における剰余数システムの利用

Leveraging Residue Number System for Designing High-Precision Analog Deep Neural Network Accelerators ( http://arxiv.org/abs/2306.09481v1 )

ライセンス: Link先を確認
Cansu Demirkiran, Rashmi Agrawal, Vijay Janapa Reddi, Darius Bunandar, and Ajay Joshi(参考訳) アナログDNN加速器では、高精度なデータ変換器が高価であるため、高いエネルギー効率を維持しながら高い精度を達成することは困難である。 本稿では、残差数システム(RNS)を用いて複数の高精度演算から高精度演算を構成することで、この問題を克服する。 これにより、ADCの限られた精度による情報損失を解消できる。 本研究は,データコンバータを用いた最先端DNN推論において,RSNが99%のFP32精度を達成できることを示す。 フォールトトレラントなアナログアクセラレータを実現するために冗長RSSを提案する。 さらに、RSSは、通常の固定点法と比較して、アナログ加速器内のデータコンバータのエネルギー消費量を数桁削減できることを示す。

Achieving high accuracy, while maintaining good energy efficiency, in analog DNN accelerators is challenging as high-precision data converters are expensive. In this paper, we overcome this challenge by using the residue number system (RNS) to compose high-precision operations from multiple low-precision operations. This enables us to eliminate the information loss caused by the limited precision of the ADCs. Our study shows that RNS can achieve 99% FP32 accuracy for state-of-the-art DNN inference using data converters with only $6$-bit precision. We propose using redundant RNS to achieve a fault-tolerant analog accelerator. In addition, we show that RNS can reduce the energy consumption of the data converters within an analog accelerator by several orders of magnitude compared to a regular fixed-point approach.
翻訳日:2023-06-19 15:58:19 公開日:2023-06-15
# 逆スケーリング: 大きい方が良くない時

Inverse Scaling: When Bigger Isn't Better ( http://arxiv.org/abs/2306.09479v1 )

ライセンス: Link先を確認
Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller, Ameya Prabhu, Euan McLean, Aaron Kirtland, Alexis Ross, Alisa Liu, Andrew Gritsevskiy, Daniel Wurgaft, Derik Kauffman, Gabriel Recchia, Jiacheng Liu, Joe Cavanagh, Max Weiss, Sicong Huang, The Floating Droid, Tom Tseng, Tomasz Korbak, Xudong Shen, Yuhui Zhang, Zhengping Zhou, Najoung Kim, Samuel R. Bowman, Ethan Perez(参考訳) 大規模言語モデル(LM)は、スケールの増大による全体的な損失(モデルサイズ、トレーニングデータ、計算)に対して予測可能な改善を示す。 ここでは,lmsが逆スケーリングを示す可能性や,トレーニング目標やデータに欠陥があるなど,スケールが大きくなるとタスクパフォーマンスが低下する可能性を示す証拠を示す。 公開コンテストである逆スケーリング賞(inverse scaling prize)の実施によって収集された11のデータセットの逆スケーリングに関する実証的な証拠を示す。 データセットの分析を通じて、文献で見られる他の例とともに、逆スケーリングの潜在的な4つの原因を同定する。 (i)以下のインコンテキスト命令よりも記憶されたシーケンスを繰り返すことを好むこと。 (ii)訓練データにおける望ましくないパターンの模倣 (iii)難しい実際のタスクではなく、lsmが焦点を絞ることのできる、容易に邪魔するタスクを含むタスク (iv)その作業の正しいが誤解を招く少ないデモンストレーション。 優勝したデータセットをhttps://inversescaling.com/dataでリリースし、逆スケーリングのさらなる調査を可能にします。 我々のタスクは、初期の傾向が逆転するU字型および逆U字型のスケーリングトレンドの発見を促進するのに役立ち、スケールトレンドは以前より大規模なモデルの振る舞いを予測する上で信頼性が低いことを示唆している。 全体としては、モデルスケールの増大だけでは進歩に至らないタスクがあり、言語モデルを訓練するためのデータや目的についてより慎重に考える必要があることを示唆している。

Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training data, and compute). Here, we present evidence for the claim that LMs may show inverse scaling, or worse task performance with increased scale, e.g., due to flaws in the training objective and data. We present empirical evidence of inverse scaling on 11 datasets collected by running a public contest, the Inverse Scaling Prize, with a substantial prize pool. Through analysis of the datasets, along with other examples found in the literature, we identify four potential causes of inverse scaling: (i) preference to repeat memorized sequences over following in-context instructions, (ii) imitation of undesirable patterns in the training data, (iii) tasks containing an easy distractor task which LMs could focus on, rather than the harder real task, and (iv) correct but misleading few-shot demonstrations of the task. We release the winning datasets at https://inversescaling.com/data to allow for further investigation of inverse scaling. Our tasks have helped drive the discovery of U-shaped and inverted-U scaling trends, where an initial trend reverses, suggesting that scaling trends are less reliable at predicting the behavior of larger-scale models than previously understood. Overall, our results suggest that there are tasks for which increased model scale alone may not lead to progress, and that more careful thought needs to go into the data and objectives for training language models.
翻訳日:2023-06-19 15:58:09 公開日:2023-06-15
# 物理インフォームドニューラルネットワークにおける外挿故障の理解と緩和

Understanding and Mitigating Extrapolation Failures in Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.09478v1 )

ライセンス: Link先を確認
Lukas Fesser, Richard Qiu, Luca D'Amico-Wong(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークを用いた偏微分方程式(PDE)の効果的な近似により、最近科学界で人気を集めている。 しかし、それらのアプリケーションは一般に補間シナリオに限られており、予測はトレーニングセットのサポート内で入力に依存する。 実世界のアプリケーションでは、外挿がしばしば必要となるが、ピンのドメイン外振舞いは未検討である。 本稿では,ピンズ外挿行動の詳細な調査を行い,先行するいくつかの仮定に対する証拠を提供する。我々は,異なるモデル選択が外挿行動に与える影響について検討し,モデルがゼロ間挿誤差を達成できれば,アーキテクチャサイズやサンプリングされた点数の増加は外挿行動に何の影響も及ぼさないことを見出した。 また、一部のPDEでは、PINNは補間と補間とほぼ同等に機能することを示す。 解関数のフーリエスペクトルを解析することにより、良好な外挿行動をもたらすpdesを特徴付け、解関数の高周波数の存在が外挿行動の悪さの原因ではないことを示す。 最後に,Fourier結果に基づく移動学習型戦略を提案し,PINNにおける外挿誤差を最大8.2 %$に削減する。

Physics-informed Neural Networks (PINNs) have recently gained popularity in the scientific community due to their effective approximation of partial differential equations (PDEs) using deep neural networks. However, their application has been generally limited to interpolation scenarios, where predictions rely on inputs within the support of the training set. In real-world applications, extrapolation is often required, but the out of domain behavior of PINNs is understudied. In this paper, we provide a detailed investigation of PINNs' extrapolation behavior and provide evidence against several previously held assumptions: we study the effects of different model choices on extrapolation and find that once the model can achieve zero interpolation error, further increases in architecture size or in the number of points sampled have no effect on extrapolation behavior. We also show that for some PDEs, PINNs perform nearly as well in extrapolation as in interpolation. By analyzing the Fourier spectra of the solution functions, we characterize the PDEs that yield favorable extrapolation behavior, and show that the presence of high frequencies in the solution function is not to blame for poor extrapolation behavior. Finally, we propose a transfer learning-based strategy based on our Fourier results, which decreases extrapolation errors in PINNs by up to $82 \%$.
翻訳日:2023-06-19 15:57:43 公開日:2023-06-15
# 40万画素の超伝導ナノワイヤ単光子カメラ

A superconducting-nanowire single-photon camera with 400,000 pixels ( http://arxiv.org/abs/2306.09473v1 )

ライセンス: Link先を確認
Bakhrom G. Oripov, Dana S. Rampini, Jason Allmaras, Matthew D. Shaw, Sae Woo Nam, Boris Korzh, Adam N. McCaughan(参考訳) 過去50年間、超伝導検出器は、広範囲の応用においてかすかな電磁信号を検出するための異常な感度と速度を提供してきた。 これらの検出器は非常に低温で動作し、余分なノイズを発生させ、現実の非局所的な性質のテスト、暗黒物質の調査、初期宇宙のマッピング、量子計算と通信に最適である。 しかし、その魅力的な特性にもかかわらず、現在大規模な超伝導カメラは存在せず、最大のデモンストレーションでさえ2万ピクセルを超えていない。 これは最も有望な検出器技術の一つである超伝導ナノワイヤ単光子検出器(SNSPD)に特に当てはまる。 これらの検出器は、98.0%、サブ3-psのタイミングジッタ、紫外線(250nm)から中赤外(10um)への感度、暗黒のカウントレートが毎秒6.2e-6(cps)以下であることが実証されているが、20年以上の開発を経て1キロピクセル以上のアレイサイズを達成したことはない。 本稿では,従来より400倍向上した40万画素snspdカメラの実装と特性について報告する。 アレイは5x5umの解像度で4x2.5mmの範囲に広がり、波長370nmと635nmの単一量子効率に達し、1.1e5 cpsの速度でカウントされ、1検出器あたりの暗カウントレートは1e-4 cps(配列全体の0.13 cpsに相当する)であった。 撮像領域には補助回路がなく、アーキテクチャは現在のデモ以上の拡張性があり、100%の充満係数と、広範囲の電磁スペクトルにおけるほぼ均一検出効率を持つ大型超伝導カメラへの道を開く。

For the last 50 years, superconducting detectors have offered exceptional sensitivity and speed for detecting faint electromagnetic signals in a wide range of applications. These detectors operate at very low temperatures and generate a minimum of excess noise, making them ideal for testing the non-local nature of reality, investigating dark matter, mapping the early universe, and performing quantum computation and communication. Despite their appealing properties, however, there are currently no large-scale superconducting cameras - even the largest demonstrations have never exceeded 20 thousand pixels. This is especially true for one of the most promising detector technologies, the superconducting nanowire single-photon detector (SNSPD). These detectors have been demonstrated with system detection efficiencies of 98.0%, sub-3-ps timing jitter, sensitivity from the ultraviolet (250nm) to the mid-infrared (10um), and dark count rates below 6.2e-6 counts per second (cps), but despite more than two decades of development they have never achieved an array size larger than a kilopixel. Here, we report on the implementation and characterization of a 400,000 pixel SNSPD camera, a factor of 400 improvement over the previous state-of-the-art. The array spanned an area 4x2.5 mm with a 5x5um resolution, reached unity quantum efficiency at wavelengths of 370 nm and 635 nm, counted at a rate of 1.1e5 cps, and had a dark count rate of 1e-4 cps per detector (corresponding to 0.13 cps over the whole array). The imaging area contains no ancillary circuitry and the architecture is scalable well beyond the current demonstration, paving the way for large-format superconducting cameras with 100% fill factors and near-unity detection efficiencies across a vast range of the electromagnetic spectrum.
翻訳日:2023-06-19 15:57:19 公開日:2023-06-15
# 局所的批判を伴うマルチモーダル生成モデルによる経路計画性能の向上

Improving Path Planning Performance through Multimodal Generative Models with Local Critics ( http://arxiv.org/abs/2306.09470v1 )

ライセンス: Link先を確認
Jorge Ocampo Jimenez and Wael Suleiman(参考訳) 本稿では,Wasserstein Generative Adversarial Networks (WGANs) と Gradient Penalty (GP) を併用し,自由条件設定空間の分布を近似することにより,未知シーンにおける経路計画タスクを障害付きで高速化する手法を提案する。 提案手法では,マルチモーダルデータセットを扱うために,変分オートエンコーダを用いたWGAN-GPを連続潜在空間に条件付けする。 しかし、WGAN-GPを用いた変分オートエンコーダのトレーニングは、Kulback-Leibler損失関数がしばしばランダム分布に収束するので、画像と構成空間の問題では困難である。 この問題を克服するために,ガウス分布の集合として構成空間を単純化し,データセットを複数の局所モデルに分割する。 これにより、モデルを学習するだけでなく、収束をスピードアップすることができます。 幾何スコアを持つデータセットに対する多様体のホモロジーランクを用いて再構成された構成空間を評価する。 さらに,衝突のない領域の再構成の精度を計測し,他の階層のホモロジー指標と併用することのできる,ロボットの構成空間の新たな変換を提案する。 実験の結果,WGAN-GPで準最適経路を生成しながら,未知のシーンでの経路計画タスクを高速化する有望な結果が得られた。 ソースコードは公開されている。

This paper presents a novel method for accelerating path planning tasks in unknown scenes with obstacles by utilizing Wasserstein Generative Adversarial Networks (WGANs) with Gradient Penalty (GP) to approximate the distribution of the free conditioned configuration space. Our proposed approach involves conditioning the WGAN-GP with a Variational Auto-Encoder in a continuous latent space to handle multimodal datasets. However, training a Variational Auto-Encoder with WGAN-GP can be challenging for image-to-configuration-space problems, as the Kullback-Leibler loss function often converges to a random distribution. To overcome this issue, we simplify the configuration space as a set of Gaussian distributions and divide the dataset into several local models. This enables us to not only learn the model but also speed up its convergence. We evaluate the reconstructed configuration space using the homology rank of manifolds for datasets with the geometry score. Furthermore, we propose a novel transformation of the robot's configuration space that enables us to measure how well collision-free regions are reconstructed, which could be used with other rank of homology metrics. Our experiments show promising results for accelerating path planning tasks in unknown scenes while generating quasi-optimal paths with our WGAN-GP. The source code is openly available.
翻訳日:2023-06-19 15:56:46 公開日:2023-06-15
# FFB: グループフェアネス法におけるフェアフェアネスベンチマーク

FFB: A Fair Fairness Benchmark for In-Processing Group Fairness Methods ( http://arxiv.org/abs/2306.09468v1 )

ライセンス: Link先を確認
Xiaotian Han, Jianfeng Chi, Yu Chen, Qifan Wang, Han Zhao, Na Zou, Xia Hu(参考訳) 本稿では,グループフェアネス手法のベンチマークフレームワークであるFair Fairness Benchmark(\textsf{FFB})を紹介する。 機械学習における公正性を保証することは、倫理的および法的コンプライアンスに不可欠である。 しかし、実験的な設定の不整合、アクセス可能なアルゴリズムの実装の欠如、現在のフェアネスパッケージやツールの拡張性が限られているため、フェアネスメソッドの比較と開発には課題がある。 これらの問題に対処するため,我々は,グループフェアネス法を評価するためのオープンソース標準ベンチマークを導入し,グループフェアネスの異なる概念を保証するための最先端手法の包括的分析を提供する。 この研究は、柔軟性、拡張性、最小限、研究指向のオープンソースコードの提供、統一された公正メソッドベンチマークパイプラインの確立、そして大規模なベンチマークによって、$\mathbf{45,079}$実験から重要な洞察を得る。 我々は、フェアネス研究コミュニティの成長と発展を著しく促進できると信じている。 コードとログの実行を含むベンチマークは、https://github.com/ahxt/fair_fairness_benchmarkで入手できる。

This paper introduces the Fair Fairness Benchmark (\textsf{FFB}), a benchmarking framework for in-processing group fairness methods. Ensuring fairness in machine learning is critical for ethical and legal compliance. However, there exist challenges in comparing and developing of fairness methods due to inconsistencies in experimental settings, lack of accessible algorithmic implementations, and limited extensibility of current fairness packages and tools. To address these issues, we introduce an open-source, standardized benchmark for evaluating in-processing group fairness methods and provide a comprehensive analysis of state-of-the-art methods to ensure different notions of group fairness. This work offers the following key contributions: the provision of flexible, extensible, minimalistic, and research-oriented open-source code; the establishment of unified fairness method benchmarking pipelines; and extensive benchmarking, which yields key insights from $\mathbf{45,079}$ experiments. We believe our work will significantly facilitate the growth and development of the fairness research community. The benchmark, including code and running logs, is available at https://github.com/ahxt/fair_fairness_benchmark
翻訳日:2023-06-19 15:56:21 公開日:2023-06-15
# AQuA:ラベル品質評価のためのベンチマークツール

AQuA: A Benchmarking Tool for Label Quality Assessment ( http://arxiv.org/abs/2306.09467v1 )

ライセンス: Link先を確認
Mononito Goswami, Vedant Sanil, Arjun Choudhry, Arvind Srinivasan, Chalisa Udompanyawit, Artur Dubrawski(参考訳) 機械学習(ML)モデルは、トレーニングされているデータに匹敵するものではない。 しかし、最近の研究では、例えばImageNetのようなMLモデルのトレーニングと評価に広く使用されているデータセットが、広範囲なラベリングエラーを持つことがわかった。 電車のラベルが誤ってMLモデルの一般化能力が損なわれ、テストセットによる評価とモデル選択に影響を及ぼした。 したがって、ラベリングエラーの存在下での学習は活発な研究領域であるが、この分野にはこれらの手法を評価するための包括的なベンチマークが欠けている。 これらの手法の多くは、実験プロトコルにかなりのばらつきがある少数のコンピュータビジョンデータセットで評価される。 このような大規模なメソッドプールと一貫性のない評価により、ML実践者がデータ内のラベル品質を評価する適切なモデルをどのように選択できるかは明らかでない。 そこで本稿では,ラベルノイズの存在下での機械学習を可能にする手法を厳格に評価するベンチマーク環境AQuAを提案する。 また,ラベル誤り検出モデルの具体的設計選択を記述可能な設計空間を提案する。 提案する設計スペースとベンチマークによって,ラベル品質向上のための適切なツールの選択が可能になり,誤ラベルデータに直面する機械学習ツールの客観的かつ厳格な評価が可能になることを願っています。

Machine learning (ML) models are only as good as the data they are trained on. But recent studies have found datasets widely used to train and evaluate ML models, e.g. ImageNet, to have pervasive labeling errors. Erroneous labels on the train set hurt ML models' ability to generalize, and they impact evaluation and model selection using the test set. Consequently, learning in the presence of labeling errors is an active area of research, yet this field lacks a comprehensive benchmark to evaluate these methods. Most of these methods are evaluated on a few computer vision datasets with significant variance in the experimental protocols. With such a large pool of methods and inconsistent evaluation, it is also unclear how ML practitioners can choose the right models to assess label quality in their data. To this end, we propose a benchmarking environment AQuA to rigorously evaluate methods that enable machine learning in the presence of label noise. We also introduce a design space to delineate concrete design choices of label error detection models. We hope that our proposed design space and benchmark enable practitioners to choose the right tools to improve their label quality and that our benchmark enables objective and rigorous evaluation of machine learning tools facing mislabeled data.
翻訳日:2023-06-19 15:56:02 公開日:2023-06-15
# 簡易な時間一貫性強化学習

Simplified Temporal Consistency Reinforcement Learning ( http://arxiv.org/abs/2306.09466v1 )

ライセンス: Link先を確認
Yi Zhao, Wenshuai Zhao, Rinu Boney, Juho Kannala, Joni Pajarinen(参考訳) 強化学習は複雑なシーケンシャルな意思決定タスクを解決できるが、現在はサンプル効率と必要な計算量によって制限されている。 サンプル効率を向上させるため,最近の研究は,モデル学習と計画との相互関係を持つモデルベースRLに焦点を当てている。 近年の手法では,政策学習,価値推定,自己教師あり学習を補助目的として活用している。 本稿では,潜時整合性によって訓練された潜時力学モデルのみに依存する単純な表現学習手法が,高性能RLには十分であることを示す。 これは、表現に条件付けされた動的モデルによる純粋なプランニングを使用する場合だけでなく、モデルフリーRLにおけるポリシーと値関数として表現を利用する場合にも適用される。 実験では,オンラインプランナーによる高次元移動課題の解決を,アンサンブル法に比べて4.1倍高速に行うため,高精度なダイナミックスモデルを学習した。 計画のないモデルフリーRL,特にDeepMind Control Suite Humanoid や Dog タスクのような高次元タスクにおいて,本手法はモデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速化する。

Reinforcement learning is able to solve complex sequential decision-making tasks but is currently limited by sample efficiency and required computation. To improve sample efficiency, recent work focuses on model-based RL which interleaves model learning with planning. Recent methods further utilize policy learning, value estimation, and, self-supervised learning as auxiliary objectives. In this paper we show that, surprisingly, a simple representation learning approach relying only on a latent dynamics model trained by latent temporal consistency is sufficient for high-performance RL. This applies when using pure planning with a dynamics model conditioned on the representation, but, also when utilizing the representation as policy and value function features in model-free RL. In experiments, our approach learns an accurate dynamics model to solve challenging high-dimensional locomotion tasks with online planners while being 4.1 times faster to train compared to ensemble-based methods. With model-free RL without planning, especially on high-dimensional tasks, such as the DeepMind Control Suite Humanoid and Dog tasks, our approach outperforms model-free methods by a large margin and matches model-based methods' sample efficiency while training 2.4 times faster.
翻訳日:2023-06-19 15:55:42 公開日:2023-06-15
# 拡張大言語モデル(GPT-4)による法的概念の説明

Explaining Legal Concepts with Augmented Large Language Models (GPT-4) ( http://arxiv.org/abs/2306.09525v1 )

ライセンス: Link先を確認
Jaromir Savelka, Kevin D. Ashley, Morgan A. Gray, Hannes Westermann, Huihui Xu(参考訳) 法的なオープンテクスト用語の意味を解釈することは、法律専門家にとって重要な課題である。 この解釈の重要な根拠は、前回の訴訟においてこの用語が適用された方法である。 本稿では,法律における用語の事実的正確・明確・関連的な説明を生成するためのGPT-4の性能を評価する。 本稿では,GPT-4が直接法的用語の説明を依頼されるベースライン・セットアップの性能と,ケース・ローからの文の形式で,モデルに関連するコンテキストを提供するための法的情報検索モジュールを用いた拡張アプローチとの比較を行う。 GPT-4の直接適用により, 表面の非常に高品質な説明が得られることがわかった。 しかし、詳細な分析により、説明の事実的正確性の観点から制限が明らかになった。 さらに, 改良により品質が向上し, モデルが誤った文を発明する幻覚の問題を排除していることが明らかとなった。 これらの発見は、ケースローから関連する文章を自律的に回収し、法律学者や教育者、弁護士などにとって有用な説明に導くことができるシステムの構築への扉を開く。

Interpreting the meaning of legal open-textured terms is a key task of legal professionals. An important source for this interpretation is how the term was applied in previous court cases. In this paper, we evaluate the performance of GPT-4 in generating factually accurate, clear and relevant explanations of terms in legislation. We compare the performance of a baseline setup, where GPT-4 is directly asked to explain a legal term, to an augmented approach, where a legal information retrieval module is used to provide relevant context to the model, in the form of sentences from case law. We found that the direct application of GPT-4 yields explanations that appear to be of very high quality on their surface. However, detailed analysis uncovered limitations in terms of the factual accuracy of the explanations. Further, we found that the augmentation leads to improved quality, and appears to eliminate the issue of hallucination, where models invent incorrect statements. These findings open the door to the building of systems that can autonomously retrieve relevant sentences from case law and condense them into a useful explanation for legal scholars, educators or practicing lawyers alike.
翻訳日:2023-06-19 15:49:38 公開日:2023-06-15
# 隠れたコンバウンディング下における因果関係の予測間隔

Tighter Prediction Intervals for Causal Outcomes Under Hidden Confounding ( http://arxiv.org/abs/2306.09520v1 )

ライセンス: Link先を確認
Myrl G. Marmarelis, Greg Ver Steeg, Aram Galstyan, Fred Morstatter(参考訳) 隠れた共同創設者の存在下での正確な個別治療結果の因果推論はめったに不可能である。 代わりに、最近の研究は結果間隔を生成するために共形予測を適用した。 残念なことに、この手法の族は過度に保守的であり、時には非形式的な間隔を与える傾向がある。 そこで我々は因果関係の間隔を変調アンサンブルによって特徴づけるCaus-Modensというアプローチを提案する。 ベイズ統計とアンサンブルの不確実性定量化に動機付けられ、caus-modensは3つのベンチマークで十分なカバレッジを達成するために必要な間隔サイズで測定し、実際より厳密な結果区間を与える。 最後のベンチマークは、未知であるが観測可能な基底真理を持つ観測実験のためのgpt-4の新しい使用である。

Causal inference of exact individual treatment outcomes in the presence of hidden confounders is rarely possible. Instead, recent work has adapted conformal prediction to produce outcome intervals. Unfortunately this family of methods tends to be overly conservative, sometimes giving uninformative intervals. We introduce an alternative approach termed Caus-Modens, for characterizing causal outcome intervals by modulated ensembles. Motivated from Bayesian statistics and ensembled uncertainty quantification, Caus-Modens gives tighter outcome intervals in practice, measured by the necessary interval size to achieve sufficient coverage on three separate benchmarks. The last benchmark is a novel usage of GPT-4 for observational experiments with unknown but probeable ground truth.
翻訳日:2023-06-19 15:49:21 公開日:2023-06-15
# ナレッジグラフ完成のための注意に基づく損失を伴う関係認識ネットワーク

Relation-Aware Network with Attention-Based Loss for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2306.09519v1 )

ライセンス: Link先を確認
Qiao Qiao, Yuepei Li, Kang Zhou, Qi Li(参考訳) FKGC (Few-shot Knowledge Graph completion) タスクは、少数ショット参照エンティティペアとの関係の未確認事実を予測することを目的としている。 現在のアプローチでは、各参照エンティティペアに対してランダムに1つの負のサンプルを選択してマージンベースのランキング損失を最小限に抑える。 さらに、エンティティは異なるコンテキスト下で異なる表現を持つべきである。 これらの課題に対処するために, RANA(Relation-Aware Network with Attention-Based Loss)フレームワークを提案する。 具体的には, 豊富な負のサンプルを効果的に活用し, ゼロロス問題を軽減するために, 関連する負のサンプルを戦略的に選択し, 各負のサンプルの重要性をさらに区別するために注意に基づく損失関数を設計する。 直感的には、正のサンプルとより類似した負のサンプルがモデルにより多くの寄与する。 さらに、文脈依存のエンティティ表現を学習するための動的関係認識エンティティエンコーダを設計する。 実験により、RANAは2つのベンチマークデータセットで最先端モデルよりも優れていることが示された。

Few-shot knowledge graph completion (FKGC) task aims to predict unseen facts of a relation with few-shot reference entity pairs. Current approaches randomly select one negative sample for each reference entity pair to minimize a margin-based ranking loss, which easily leads to a zero-loss problem if the negative sample is far away from the positive sample and then out of the margin. Moreover, the entity should have a different representation under a different context. To tackle these issues, we propose a novel Relation-Aware Network with Attention-Based Loss (RANA) framework. Specifically, to better utilize the plentiful negative samples and alleviate the zero-loss issue, we strategically select relevant negative samples and design an attention-based loss function to further differentiate the importance of each negative sample. The intuition is that negative samples more similar to positive samples will contribute more to the model. Further, we design a dynamic relation-aware entity encoder for learning a context-dependent entity representation. Experiments demonstrate that RANA outperforms the state-of-the-art models on two benchmark datasets.
翻訳日:2023-06-19 15:49:10 公開日:2023-06-15
# Granger-Causal Hierarchical Skill Discovery

Granger-Causal Hierarchical Skill Discovery ( http://arxiv.org/abs/2306.09509v1 )

ライセンス: Link先を確認
Caleb Chuck, Kevin Black, Aditya Arjun, Yuke Zhu, Scott Niekum(参考訳) 強化学習(Reinforcement Learning, RL)は, 複雑なタスクに対する学習方針を示すが, サンプル効率が低く, 限られた移動に悩まされることが多い。 本研究では,学習型インタラクション検出器を用いて因子操作を行うスキル階層を発見し,学習訓練を行うhintsアルゴリズムを提案する。 Granger因果性(Granger causality)にインスパイアされたこれらの教師なし検出装置は、有用なスキルを効果的に学習し、それらのスキルを他の関連するタスク(多くの強化学習技術が苦労するタスク)に転送する要因間の重要なイベントをキャプチャする。我々は、HIntSを障害のあるロボットプッシュタスク(他のRLとHRLメソッドが不足する困難な領域)で評価する。 学習したスキルは、一般的なRLベンチマークであるBreakoutの変種を用いた転送を実証するだけでなく、サンプル効率と最終性能の両方が、同等のRLベースラインと比較して2~3倍改善されている。 HIntSはGranger-Causal関係をスキル発見に活用するための概念実証を行う。

Reinforcement Learning (RL) has shown promising results learning policies for complex tasks, but can often suffer from low sample efficiency and limited transfer. We introduce the Hierarchy of Interaction Skills (HIntS) algorithm, which uses learned interaction detectors to discover and train a hierarchy of skills that manipulate factors in factored environments. Inspired by Granger causality, these unsupervised detectors capture key events between factors to sample efficiently learn useful skills and transfer those skills to other related tasks -- tasks where many reinforcement learning techniques struggle. We evaluate HIntS on a robotic pushing task with obstacles -- a challenging domain where other RL and HRL methods fall short. The learned skills not only demonstrate transfer using variants of Breakout, a common RL benchmark, but also show 2-3x improvement in both sample efficiency and final performance compared to comparable RL baselines. Together, HIntS demonstrates a proof of concept for using Granger-causal relationships for skill discovery.
翻訳日:2023-06-19 15:48:51 公開日:2023-06-15
# wikibio: 伝記イベントの交叉解析のための意味的資源

Wikibio: a Semantic Resource for the Intersectional Analysis of Biographical Events ( http://arxiv.org/abs/2306.09505v1 )

ライセンス: Link先を確認
Marco Antonio Stranisci, Rossana Damiano, Enrico Mensa, Viviana Patti, Daniele Radicioni, Tommaso Caselli(参考訳) 伝記的事象検出は、人々の生活が語られ、表現される方法を探索し比較するための重要なタスクである。 この意味では、デジタル人文科学や、少数集団に対する偏見を探求する活動において、いくつかの応用をサポートする可能性がある。 それにもかかわらず、このタスク用に特別に設計されたコーパスやモデルはありません。 本稿では,生体イベント検出のための新しいコーパスを提示することで,このギャップを埋める。 ウィキペディアの20の伝記を含むコーパスは、既存の5つのコーパスと比較され、伝記イベント検出タスクのモデルをトレーニングした。 このモデルでは、Fスコア0.808の伝記とFスコア0.859のエンティティ関連事象の全てを検出することができた。 最後に、このモデルはウィキペディアの伝記の中で、女性と非西洋人の偏見の分析に使用された。

Biographical event detection is a relevant task for the exploration and comparison of the ways in which people's lives are told and represented. In this sense, it may support several applications in digital humanities and in works aimed at exploring bias about minoritized groups. Despite that, there are no corpora and models specifically designed for this task. In this paper we fill this gap by presenting a new corpus annotated for biographical event detection. The corpus, which includes 20 Wikipedia biographies, was compared with five existing corpora to train a model for the biographical event detection task. The model was able to detect all mentions of the target-entity in a biography with an F-score of 0.808 and the entity-related events with an F-score of 0.859. Finally, the model was used for performing an analysis of biases about women and non-Western people in Wikipedia biographies.
翻訳日:2023-06-19 15:48:28 公開日:2023-06-15
# 風力タービン発電機の加熱故障検出のためのハイブリッド特徴選択と構築法

A Hybrid Feature Selection and Construction Method for Detection of Wind Turbine Generator Heating Faults ( http://arxiv.org/abs/2306.09491v1 )

ライセンス: Link先を確認
Ayse Gokcen Kavaz, Burak Barutcu(参考訳) 情報の事前処理は、機械学習アプリケーションの効果的な設計に不可欠なステップである。 特徴構築と選択は、この目的のために使用される強力な技術である。 本稿では,風力タービン発電機の加熱故障を検出するための特徴選択と構築手法を提案する。 風力タービンのSCADA(Supervisory Control and Data Acquisition)システムからデータを収集した。 データ収集システムから直接収集された特徴は、風の特性、運用データ、温度測定、ステータス情報から成っている。 これらの機能に加えて、新機能は機能構築ステップで作成され、より強力な障害の兆候となる情報を得ることができた。 新機能の構築後, 分類精度の向上と計算負荷低減のために, 全体において最も関連する特徴を見出すために, ハイブリッド特徴選択手法が実装された。 特徴選択ステップはフィルタとラッパーベースの部品で構成される。 識別不能な特徴を除外するためにフィルタベースの特徴選択を適用し,それらの冗長性と相互関係を考慮した最終特徴をラッパーベースで決定した。 検出フェーズとラッパーに基づく特徴選択部の誘導アルゴリズムの両方に人工ニューラルネットワークが用いられた。 その結果, 提案手法は, 故障検知システムにおいて, 特に誤報の数を減らすことで, 信頼性の向上に寄与することがわかった。

Preprocessing of information is an essential step for the effective design of machine learning applications. Feature construction and selection are powerful techniques used for this aim. In this paper, a feature selection and construction approach is presented for the detection of wind turbine generator heating faults. Data were collected from Supervisory Control and Data Acquisition (SCADA) system of a wind turbine. The original features directly collected from the data collection system consist of wind characteristics, operational data, temperature measurements and status information. In addition to these original features, new features were created in the feature construction step to obtain information that can be more powerful indications of the faults. After the construction of new features, a hybrid feature selection technique was implemented to find out the most relevant features in the overall set to increase the classification accuracy and decrease the computational burden. Feature selection step consists of filter and wrapper-based parts. Filter based feature selection was applied to exclude the features which are non-discriminative and wrapper-based method was used to determine the final features considering the redundancies and mutual relations amongst them. Artificial Neural Networks were used both in the detection phase and as the induction algorithm of the wrapper-based feature selection part. The results show that, the proposed approach contributes to the fault detection system to be more reliable especially in terms of reducing the number of false fault alarms.
翻訳日:2023-06-19 15:48:14 公開日:2023-06-15
# 深層強化学習を用いた注意型オープンRANスライス管理

Attention-based Open RAN Slice Management using Deep Reinforcement Learning ( http://arxiv.org/abs/2306.09490v1 )

ライセンス: Link先を確認
Fatemeh Lotfi, Fatemeh Afghah, Jonathan Ashdown(参考訳) Open Radio Access Networks (O-RAN) や 5G などの新興ネットワークが成長を続けるにつれ,様々な要件のサービスへの需要が高まっている。 ネットワークスライシングは、異なるサービス要件に対処する潜在的なソリューションとして現れました。 しかし、動的環境におけるサービス品質(QoS)を維持しながらネットワークスライスを管理することは難しい課題である。 動的ネットワークの最適制御に機械学習(ML)アプローチを活用することで、SLA(Service Level Agreement)違反を防止することで、ネットワークパフォーマンスを向上させることができる。 これは、信頼性の高い意思決定と新興ネットワークのニーズを満たすために重要である。 RLに基づく制御手法はリアルタイム監視やネットワークQoSの制御に有効であるが,意思決定信頼性の向上には一般化が必要である。 本稿では,O-RAN分散化モジュールと分散エージェント協調を利用して,効果的な情報抽出と一般化による性能向上を実現する,革新的な注目型深部RL(ADRL)技術を提案する。 提案手法は,信頼性と最適な意思決定を可能にする分散エージェント間のバリューアテンションネットワークを提案する。 シミュレーションの結果,他のDRLベースライン法と比較してネットワーク性能が大幅に向上した。

As emerging networks such as Open Radio Access Networks (O-RAN) and 5G continue to grow, the demand for various services with different requirements is increasing. Network slicing has emerged as a potential solution to address the different service requirements. However, managing network slices while maintaining quality of services (QoS) in dynamic environments is a challenging task. Utilizing machine learning (ML) approaches for optimal control of dynamic networks can enhance network performance by preventing Service Level Agreement (SLA) violations. This is critical for dependable decision-making and satisfying the needs of emerging networks. Although RL-based control methods are effective for real-time monitoring and controlling network QoS, generalization is necessary to improve decision-making reliability. This paper introduces an innovative attention-based deep RL (ADRL) technique that leverages the O-RAN disaggregated modules and distributed agent cooperation to achieve better performance through effective information extraction and implementing generalization. The proposed method introduces a value-attention network between distributed agents to enable reliable and optimal decision-making. Simulation results demonstrate significant improvements in network performance compared to other DRL baseline methods.
翻訳日:2023-06-19 15:47:56 公開日:2023-06-15
# 2023年ビデオ類似度データセットと課題

The 2023 Video Similarity Dataset and Challenge ( http://arxiv.org/abs/2306.09489v1 )

ライセンス: Link先を確認
Ed Pizzi and Giorgos Kordopatis-Zilos and Hiral Patel and Gheorghe Postelnicu and Sugosh Nagavara Ravindra and Akshay Gupta and Symeon Papadopoulos and Giorgos Tolias and Matthijs Douze(参考訳) 本研究は,ビデオコピー検出とローカライズの問題に対するデータセット,ベンチマーク,課題を紹介する。 この問題は、クエリビデオが参照ビデオとコンテンツを共有するかどうかを決定する(検出)ことと、各ビデオ内の共有コンテンツを時間的にローカライズする(ローカライズ)という2つのタスクを含む。 このベンチマークは、これら2つのタスクのメソッドを評価するために設計されており、クエリと参照ビデオの両方がコピーされたコンテンツを含まない“ディストラクタ”であるような、現実的なニードル・イン・ヘイスタック設定をシミュレートする。 本研究では,検出精度と位置推定精度の両方を反映する指標を提案する。 関連する課題は、対応する2つのトラックから成り、それぞれが現実世界の設定を反映する制限を持つ。 評価とベースラインのための実装コードを提供する。 また,課題に対する上位提案の結果と方法についても分析した。 データセット、ベースラインメソッド、評価コードは公開されており、CVPR'23専用ワークショップで議論される予定である。

This work introduces a dataset, benchmark, and challenge for the problem of video copy detection and localization. The problem comprises two distinct but related tasks: determining whether a query video shares content with a reference video ("detection"), and additionally temporally localizing the shared content within each video ("localization"). The benchmark is designed to evaluate methods on these two tasks, and simulates a realistic needle-in-haystack setting, where the majority of both query and reference videos are "distractors" containing no copied content. We propose a metric that reflects both detection and localization accuracy. The associated challenge consists of two corresponding tracks, each with restrictions that reflect real-world settings. We provide implementation code for evaluation and baselines. We also analyze the results and methods of the top submissions to the challenge. The dataset, baseline methods and evaluation code is publicly available and will be discussed at a dedicated CVPR'23 workshop.
翻訳日:2023-06-19 15:47:36 公開日:2023-06-15
# FedMultimodal: マルチモーダルなフェデレート学習のためのベンチマーク

FedMultimodal: A Benchmark For Multimodal Federated Learning ( http://arxiv.org/abs/2306.09486v1 )

ライセンス: Link先を確認
Tiantian Feng and Digbalay Bose and Tuo Zhang and Rajat Hebbar and Anil Ramakrishna and Rahul Gupta and Mi Zhang and Salman Avestimehr and Shrikanth Narayanan(参考訳) 過去数年間、フェデレートラーニング(FL)は、コラボレーティブトレーニングを通じてデータプライバシの課題に取り組むための、新たな機械学習技術になりつつある。 フェデレーション学習アルゴリズムでは、クライアントはローカルにトレーニングされたモデルを提出し、サーバは収束するまでこれらのパラメータを集約する。 コンピュータビジョン、オーディオ、自然言語処理などの分野におけるflへの多大な努力にもかかわらず、マルチモーダルデータストリームを利用したflアプリケーションはほとんど未調査のままである。 マルチモーダル学習は、感情認識、医療、マルチメディア、ソーシャルメディアにおいて幅広い現実世界の応用が知られているが、ユーザーのプライバシーは依然として重要な関心事となっている。 具体的には、マルチモーダルアプリケーションや関連するタスクをターゲットにした既存のFLベンチマークはない。 マルチモーダルflの研究を容易にするために,10個のデータセットから5つの代表的マルチモーダルアプリケーションをカバーする,8つのユニークなモダリティを持つマルチモーダル学習のための最初のflベンチマークであるfeed multimodalを導入する。 fedmultimodalは系統的なflパイプラインを提供し、データ分割や特徴抽出からflベンチマークアルゴリズムやモデル評価まで、エンドツーエンドのモデリングフレームワークを可能にする。 既存のflベンチマークとは異なり、feedmultimodalは実生活のマルチモーダルアプリケーションにおける3つの一般的なデータ破損に対するflの堅牢性を評価するための標準化されたアプローチを提供する。 我々はFedMultimodalが、極端なデータ不均一性、頑健性のあるマルチモーダルFL、効率的なマルチモーダルFLに向けた多モーダルFLアルゴリズムを設計するなど、将来多くの研究方向を加速できることを期待している。 データセットとベンチマークの結果は、https://github.com/usc-sail/fed-multimodal.comで参照できる。

Over the past few years, Federated Learning (FL) has become an emerging machine learning technique to tackle data privacy challenges through collaborative training. In the Federated Learning algorithm, the clients submit a locally trained model, and the server aggregates these parameters until convergence. Despite significant efforts that have been made to FL in fields like computer vision, audio, and natural language processing, the FL applications utilizing multimodal data streams remain largely unexplored. It is known that multimodal learning has broad real-world applications in emotion recognition, healthcare, multimedia, and social media, while user privacy persists as a critical concern. Specifically, there are no existing FL benchmarks targeting multimodal applications or related tasks. In order to facilitate the research in multimodal FL, we introduce FedMultimodal, the first FL benchmark for multimodal learning covering five representative multimodal applications from ten commonly used datasets with a total of eight unique modalities. FedMultimodal offers a systematic FL pipeline, enabling end-to-end modeling framework ranging from data partition and feature extraction to FL benchmark algorithms and model evaluation. Unlike existing FL benchmarks, FedMultimodal provides a standardized approach to assess the robustness of FL against three common data corruptions in real-life multimodal applications: missing modalities, missing labels, and erroneous labels. We hope that FedMultimodal can accelerate numerous future research directions, including designing multimodal FL algorithms toward extreme data heterogeneity, robustness multimodal FL, and efficient multimodal FL. The datasets and benchmark results can be accessed at: https://github.com/usc-sail/fed-multimodal.
翻訳日:2023-06-19 15:47:21 公開日:2023-06-15
# ダークウェブ市場におけるキープレーヤーの特定

Identifying key players in dark web marketplaces ( http://arxiv.org/abs/2306.09485v1 )

ライセンス: Link先を確認
Elohim Fonseca dos Reis, Alexander Teytelboym, Abeer ElBahraw, Ignacio De Loizaga, Andrea Baronchelli(参考訳) ダークウェブ市場は違法取引にとって重要な拠点であり、世界中で10年以上にわたって数百万のユーザーにサービスを提供している。 しかし、すべてのユーザーが同じではない。 本稿は、暗黒市場に関連するBitcoin取引ネットワークのキープレーヤーを特定し、2011~2021年の間に31の市場を含む4000万のBitcoin取引のデータセットを分析し、その役割を評価することを目的とする。 まず,利用者を買い手や売り手として分類し,取引量の大部分をエリート市場参加者の少人数グループに集中させるアルゴリズムを提案する。 次に,市場スターグラフとユーザツーユーザネットワークの両方を調査し,複数のマーケットで同時に運用する'マルチホーム'という,新しいタイプのユーザの重要性を強調した。 具体的には、マルチホームと販売者間相互作用のネットワークが、外的ショックに対するダークマーケットエコシステムのレジリエンスにどのように光を当てるかを示す。 ダークウェブ市場におけるキープレーヤーの行動を理解することは、違法行為を効果的に破壊するために重要であることを示唆している。

Dark web marketplaces have been a significant outlet for illicit trade, serving millions of users worldwide for over a decade. However, not all users are the same. This paper aims to identify the key players in Bitcoin transaction networks linked to dark markets and assess their role by analysing a dataset of 40 million Bitcoin transactions involving 31 markets in the period 2011-2021. First, we propose an algorithm that categorizes users either as buyers or sellers and shows that a large fraction of the traded volume is concentrated in a small group of elite market participants. Then, we investigate both market star-graphs and user-to-user networks and highlight the importance of a new class of users, namely `multihomers' who operate on multiple marketplaces concurrently. Specifically, we show how the networks of multihomers and seller-to-seller interactions can shed light on the resilience of the dark market ecosystem against external shocks. Our findings suggest that understanding the behavior of key players in dark web marketplaces is critical to effectively disrupting illegal activities.
翻訳日:2023-06-19 15:46:53 公開日:2023-06-15
# QH9:QM9分子の量子ハミルトン予測ベンチマーク

QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules ( http://arxiv.org/abs/2306.09549v1 )

ライセンス: Link先を確認
Haiyang Yu, Meng Liu, Youzhi Luo, Alex Strasser, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji(参考訳) 教師付き機械学習アプローチは、密度汎関数理論(DFT)のような第一原理計算手法の代用として、電子構造予測の加速にますます利用されている。 多くの量子化学データセットは化学的性質と原子力に焦点を当てているが、物理系と化学特性の量子状態を決定する最も重要かつ基本的な物理量であるため、ハミルトン行列の正確かつ効率的な予測を達成する能力は非常に望ましい。 本研究では、QM9データセットに基づいて、2,399の分子動力学軌道と130,831の安定な分子ジオメトリに対して正確なハミルトン行列を提供するために、QH9と呼ばれる新しい量子ハミルトンデータセットを生成する。 様々な分子を用いてベンチマークタスクを設計することにより、現在の機械学習モデルは任意の分子に対するハミルトン行列を予測する能力を有することを示す。 QH9データセットとベースラインモデルの両方がオープンソースベンチマークを通じてコミュニティに提供されており、機械学習手法の開発や、科学および技術応用のための分子および材料設計の加速に非常に有用である。 私たちのベンチマークはhttps://github.com/divelab/AIRS/tree/main/OpenDFT/QHBenchで公開されています。

Supervised machine learning approaches have been increasingly used in accelerating electronic structure prediction as surrogates of first-principle computational methods, such as density functional theory (DFT). While numerous quantum chemistry datasets focus on chemical properties and atomic forces, the ability to achieve accurate and efficient prediction of the Hamiltonian matrix is highly desired, as it is the most important and fundamental physical quantity that determines the quantum states of physical systems and chemical properties. In this work, we generate a new Quantum Hamiltonian dataset, named as QH9, to provide precise Hamiltonian matrices for 2,399 molecular dynamics trajectories and 130,831 stable molecular geometries, based on the QM9 dataset. By designing benchmark tasks with various molecules, we show that current machine learning models have the capacity to predict Hamiltonian matrices for arbitrary molecules. Both the QH9 dataset and the baseline models are provided to the community through an open-source benchmark, which can be highly valuable for developing machine learning methods and accelerating molecular and materials design for scientific and technological applications. Our benchmark is publicly available at https://github.com/divelab/AIRS/tree/main/OpenDFT/QHBench.
翻訳日:2023-06-19 15:39:00 公開日:2023-06-15
# オンライン重み付き変化点検出

Online Heavy-tailed Change-point detection ( http://arxiv.org/abs/2306.09548v1 )

ライセンス: Link先を確認
Abishek Sankararaman, Balakrishnan (Murali) Narayanaswamy(参考訳) オンライン変更点検出(OCPD)のアルゴリズムについて検討し、重み付けされたサンプルを1回ずつ提示し、基礎となる平均値の変更をできるだけ早く検出する必要がある。 我々は,データ生成過程の第2モーメントが有界であると仮定した場合でも,クリップ型確率勾配降下 (sgd) に基づくアルゴリズムを提案する。 我々は、有界第2モーメントを持つ全ての分布の族に対して、最悪の場合、有限サンプル偽陽性率(FPR)を導出する。 そこで本手法は,データが高次元かつ基礎となる分布が重み付きであっても,有限サンプルFPRを保証する最初のOCPDアルゴリズムである。 本論文の技術的貢献は,クリッピングSGDがランダムなベクトルの平均を推定し,すべての信頼値に信頼境界を同時に提供することを示すことである。 この頑健な推定を結合境界引数と組み合わせ、有限サンプルFPR保証付き逐次変化点アルゴリズムを構築する。 我々は,本アルゴリズムが重み付け,軽量化,高次元化,離散化など,様々な状況において有効であることを示す。 同時に研究するすべての設定に対して理論的あるいは経験的に有界なFPRを達成するアルゴリズムは他にない。

We study algorithms for online change-point detection (OCPD), where samples that are potentially heavy-tailed, are presented one at a time and a change in the underlying mean must be detected as early as possible. We present an algorithm based on clipped Stochastic Gradient Descent (SGD), that works even if we only assume that the second moment of the data generating process is bounded. We derive guarantees on worst-case, finite-sample false-positive rate (FPR) over the family of all distributions with bounded second moment. Thus, our method is the first OCPD algorithm that guarantees finite-sample FPR, even if the data is high dimensional and the underlying distributions are heavy-tailed. The technical contribution of our paper is to show that clipped-SGD can estimate the mean of a random vector and simultaneously provide confidence bounds at all confidence values. We combine this robust estimate with a union bound argument and construct a sequential change-point algorithm with finite-sample FPR guarantees. We show empirically that our algorithm works well in a variety of situations, whether the underlying data are heavy-tailed, light-tailed, high dimensional or discrete. No other algorithm achieves bounded FPR theoretically or empirically, over all settings we study simultaneously.
翻訳日:2023-06-19 15:38:39 公開日:2023-06-15
# 民営化データから生成モデルを訓練する

Training generative models from privatized data ( http://arxiv.org/abs/2306.09547v1 )

ライセンス: Link先を確認
Daria Reshetova, Wei-Ning Chen, Ayfer \"Ozg\"ur(参考訳) ローカルディファレンシャルプライバシ(LDP)は、プライバシ保護データ収集のための強力な方法である。 本稿では,GAN(Generative Adversarial Networks)を差分民営化データに基づいて学習するためのフレームワークを開発する。 本稿では、ワッサーシュタイン距離のエントロピー正則化(計算上の利点のためにしばしば利用されてきた文献における一般的な正則化法)が、ラプラスやガウスのような一般的な付加雑音機構によって、データが民営化されるときにデータ分布を復号化するために用いられることを示す。 この組み合わせにより、正規化バイアスと民営化ノイズの効果の両方の緩和が可能となり、モデル全体の有効性が向上する。 提案手法を解析し,その有効性を支持するためのサンプル複雑性結果と実験的証拠を提供する。

Local differential privacy (LDP) is a powerful method for privacy-preserving data collection. In this paper, we develop a framework for training Generative Adversarial Networks (GAN) on differentially privatized data. We show that entropic regularization of the Wasserstein distance -- a popular regularization method in the literature that has been often leveraged for its computational benefits -- can be used to denoise the data distribution when data is privatized by common additive noise mechanisms, such as Laplace and Gaussian. This combination uniquely enables the mitigation of both the regularization bias and the effects of privatization noise, thereby enhancing the overall efficacy of the model. We analyse the proposed method, provide sample complexity results and experimental evidence to support its efficacy.
翻訳日:2023-06-19 15:38:18 公開日:2023-06-15
# リハビリテーション・エクササイズ評価のためのボディジョイントへのクロスモーダルビデオ

Cross-Modal Video to Body-joints Augmentation for Rehabilitation Exercise Quality Assessment ( http://arxiv.org/abs/2306.09546v1 )

ライセンス: Link先を確認
Ali Abedi, Mobin Malmirian, and Shehroz S. Khan(参考訳) 運動に基づくリハビリテーションプログラムは、生活の質を高め、死亡率と再入院を減らすことが示されている。 aiによるバーチャルリハビリテーションプログラムは、患者を自宅で独立して運動させ、aiアルゴリズムは運動データを分析して患者にフィードバックを与え、臨床医に進捗を報告できる。 本稿では,RGBビデオを用いたリハビリテーション運動の質を評価するための新しいアプローチを提案する。 連続したRGBビデオフレームから骨格関節の配列を抽出し,多対一の逐次ニューラルネットワークを用いて解析し,運動の質を評価する。 運動リハビリテーションのための既存のデータセットには、ディープシーケンシャルニューラルネットワークを効果的に一般化するための十分なサンプルがない。 この問題を解決するために,クロスモーダルデータ拡張手法を提案する。 映像データに視覚増強技術を適用し、その結果の強化ビデオから抽出された体節を用いて、シーケンシャルニューラルネットワークのトレーニングを行う。 身体リハビリテーション(KIMORE)データセットの遠隔監視のための運動のキネマティックな評価と臨床成績に関する広範な実験により,提案手法が従来のベースラインアプローチよりも優れていることを示す。 アブレーション研究は、クロスモーダル増強後の運動品質評価の大幅な向上を強調する。

Exercise-based rehabilitation programs have been shown to enhance quality of life and reduce mortality and rehospitalizations. AI-driven virtual rehabilitation programs enable patients to complete exercises independently at home while AI algorithms can analyze exercise data to provide feedback to patients and report their progress to clinicians. This paper introduces a novel approach to assessing the quality of rehabilitation exercises using RGB video. Sequences of skeletal body joints are extracted from consecutive RGB video frames and analyzed by many-to-one sequential neural networks to evaluate exercise quality. Existing datasets for exercise rehabilitation lack adequate samples for training deep sequential neural networks to generalize effectively. A cross-modal data augmentation approach is proposed to resolve this problem. Visual augmentation techniques are applied to video data, and body joints extracted from the resulting augmented videos are used for training sequential neural networks. Extensive experiments conducted on the KInematic assessment of MOvement and clinical scores for remote monitoring of physical REhabilitation (KIMORE) dataset, demonstrate the superiority of the proposed method over previous baseline approaches. The ablation study highlights a significant enhancement in exercise quality assessment following cross-modal augmentation.
翻訳日:2023-06-19 15:38:04 公開日:2023-06-15
# 複雑なタスクのためのビルディングブロック:ドメインシフト下の放射線レポートに対するロバスト生成イベント抽出

Building blocks for complex tasks: Robust generative event extraction for radiology reports under domain shifts ( http://arxiv.org/abs/2306.09544v1 )

ライセンス: Link先を確認
Sitong Zhou, Meliha Yetisgen, Mari Ostendorf(参考訳) 本稿では,アノテートデータの要求を減らし,試験モダリティにまたがって一般化する放射線学報告から情報を抽出する方法を検討する。 我々は,マルチパスT5ベースのテキスト・テキスト生成モデルにおいて,BERTベースのタスク固有分類層を用いた手法と比較して,試験モード間の一般化が優れていることを示した。 そこで我々は, 大規模コーパス処理を臨床応用に活用し, モデル推論コストを削減する手法を開発した。 具体的には、複雑なタスクを小さなサブタスクブロックに分解する生成手法を導入し、マルチタスクトレーニングと組み合わせてシングルパスモデルを改善する。 さらに、推論中にターゲットドメインコンテキストを活用してドメイン適応性を高め、より小さなモデルの利用を可能にします。 分析は、さまざまなコスト削減戦略のメリットに関する洞察を提供する。

This paper explores methods for extracting information from radiology reports that generalize across exam modalities to reduce requirements for annotated data. We demonstrate that multi-pass T5-based text-to-text generative models exhibit better generalization across exam modalities compared to approaches that employ BERT-based task-specific classification layers. We then develop methods that reduce the inference cost of the model, making large-scale corpus processing more feasible for clinical applications. Specifically, we introduce a generative technique that decomposes complex tasks into smaller subtask blocks, which improves a single-pass model when combined with multitask training. In addition, we leverage target-domain contexts during inference to enhance domain adaptation, enabling use of smaller models. Analyses offer insights into the benefits of different cost reduction strategies.
翻訳日:2023-06-19 15:37:42 公開日:2023-06-15
# ブロック状態変圧器

Block-State Transformer ( http://arxiv.org/abs/2306.09539v1 )

ライセンス: Link先を確認
Mahan Fathi and Jonathan Pilault and Pierre-Luc Bacon and Christopher Pal and Orhan Firat and Ross Goroshin(参考訳) 状態空間モデル(ssm)は、長い範囲の依存関係をモデル化し、その実行時の複雑さのために長いシーケンスに効率的にスケールする必要があるタスクで印象的な結果を示している。 元々は連続的な信号のために設計されていたが、SSMは視覚やオーディオにおいて多くのタスクにおいて優れたパフォーマンスを示してきた。 本研究では,長期コンテキスト化のためのSSMサブレイヤと,シーケンスの短期表現のためのBlock-State Transformerサブレイヤを内部的に組み合わせたBST(Block-State Transformer)というハイブリッド層を提案する。 SSMとブロックワイズを統合した3つの異なる並列化可能な変種について検討する。 我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。 また、ブロック状態変圧器は、モデル並列化を行う際のブロックリカレント変圧器と比較して、層レベルで10倍以上の速度向上を示す。

State space models (SSMs) have shown impressive results on tasks that require modeling long-range dependencies and efficiently scale to long sequences owing to their subquadratic runtime complexity. Originally designed for continuous signals, SSMs have shown superior performance on a plethora of tasks, in vision and audio; however, SSMs still lag Transformer performance in Language Modeling tasks. In this work, we propose a hybrid layer named Block-State Transformer (BST), that internally combines an SSM sublayer for long-range contextualization, and a Block Transformer sublayer for short-term representation of sequences. We study three different, and completely parallelizable, variants that integrate SSMs and block-wise attention. We show that our model outperforms similar Transformer-based architectures on language modeling perplexity and generalizes to longer sequences. In addition, the Block-State Transformer demonstrates more than tenfold increase in speed at the layer level compared to the Block-Recurrent Transformer when model parallelization is employed.
翻訳日:2023-06-19 15:37:27 公開日:2023-06-15
# 衝突シミュレーションデータ解析支援のためのグラフ抽出

Graph Extraction for Assisting Crash Simulation Data Analysis ( http://arxiv.org/abs/2306.09538v1 )

ライセンス: Link先を確認
Anahita Pakiman, Jochen Garcke, Axel Schumacher(参考訳) 本研究では,コンピュータ支援工学(CAE)からグラフへ情報を抽象化する手法を確立する。 CAEデータのグラフ表現は、シミュレーションの比較を可能にし、探索されていない実験設計を強調し、異なる設計を関連付けることで、設計ガイドラインの改善とレコメンデーションシステムのサポートを可能にする。 我々は,車両設計の複雑なサブディシデントであるクラッシュネス解析における負荷経路に着目した。 荷重経路は衝撃によって生じるエネルギーのほとんどを吸収する部分の列である。 負荷経路を検出するために,CAEデータから有向重み付きグラフを生成する。 頂点は車両の部品を表し、エッジは部品の接続性の抽象化である。 エッジ方向は衝突の時間的発生に従っており、エッジウェイトはエネルギー吸収の側面を反映している。 本稿では,グラフ抽出のための3つの手法と,各グラフを吸収列で更新するための追加手法を紹介し,評価する。 最長経路計算に基づいて,負荷経路の自動検出を導入し,異なるグラフ抽出法と重みを解析する。 最後に, 負荷経路検出手法がCAEシミュレーションの分類とラベル付けにどのように役立つかを示す。

In this work, we establish a method for abstracting information from Computer Aided Engineering (CAE) into graphs. Such graph representations of CAE data can improve design guidelines and support recommendation systems by enabling the comparison of simulations, highlighting unexplored experimental designs, and correlating different designs. We focus on the load-path in crashworthiness analysis, a complex sub-discipline in vehicle design. The load-path is the sequence of parts that absorb most of the energy caused by the impact. To detect the load-path, we generate a directed weighted graph from the CAE data. The vertices represent the vehicle's parts, and the edges are an abstraction of the connectivity of the parts. The edge direction follows the temporal occurrence of the collision, where the edge weights reflect aspects of the energy absorption. We introduce and assess three methods for graph extraction and an additional method for further updating each graph with the sequences of absorption. Based on longest-path calculations, we introduce an automated detection of the load-path, which we analyse for the different graph extraction methods and weights. Finally, we show how our method for the detection of load-paths helps in the classification and labelling of CAE simulations.
翻訳日:2023-06-19 15:37:12 公開日:2023-06-15
# QuadSwarm: 直接スラスト制御による深部強化学習のためのモジュール型マルチクアドロータシミュレータ

QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement Learning with Direct Thrust Control ( http://arxiv.org/abs/2306.09537v1 )

ライセンス: Link先を確認
Zhehui Huang, Sumeet Batra, Tao Chen, Rahul Krupani, Tushar Kumar, Artem Molchanov, Aleksei Petrenko, James A. Preiss, Zhaojing Yang, Gaurav S. Sukhatme(参考訳) 強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。 しかし、現代のRLアルゴリズムは、しばしば成功したポリシーを訓練するために何十億もの環境遷移を必要とする。 これは高速で並列性の高いシミュレータの使用を必要とする。 スピードに加えて、ロボットの物理と環境との相互作用をシミュレーションで学んだポリシーを現実に伝達するのに許容できるレベルにモデル化する必要がある。 両問題に対処する単一ロボットRLとマルチロボットRLの高速かつ信頼性の高いシミュレータであるQuadSwarmを提案する。 quadswarmは高速なフォワード・ダイナミックス伝播をレンダリングから切り離し、スループットが線形にスケールするように高度に並列化できるように設計されている。 多様なトレーニングシナリオを含むマルチロボットRLに適した複数のコンポーネントを提供し、マルチクワッドロータ制御ポリシの開発とシミュレートを容易にするためにドメインランダム化を提供する。 最初の実験から、QuadSwarmは1つの4乗子上で48,500以上のシミュレーションサンプルを毎秒達成し、16コアCPU上では8つの4乗子上で62,000以上のSPSを達成することが示唆された。 コードはhttps://github.com/zhehui-huang/quad-swarm-rlにある。

Reinforcement learning (RL) has shown promise in creating robust policies for robotics tasks. However, contemporary RL algorithms are data-hungry, often requiring billions of environment transitions to train successful policies. This necessitates the use of fast and highly-parallelizable simulators. In addition to speed, such simulators need to model the physics of the robots and their interaction with the environment to a level acceptable for transferring policies learned in simulation to reality. We present QuadSwarm, a fast, reliable simulator for research in single and multi-robot RL for quadrotors that addresses both issues. QuadSwarm, with fast forward-dynamics propagation decoupled from rendering, is designed to be highly parallelizable such that throughput scales linearly with additional compute. It provides multiple components tailored toward multi-robot RL, including diverse training scenarios, and provides domain randomization to facilitate the development and sim2real transfer of multi-quadrotor control policies. Initial experiments suggest that QuadSwarm achieves over 48,500 simulation samples per second (SPS) on a single quadrotor and over 62,000 SPS on eight quadrotors on a 16-core CPU. The code can be found in https://github.com/Zhehui-Huang/quad-swarm-rl.
翻訳日:2023-06-19 15:36:53 公開日:2023-06-15
# カロリー推定を改善するための人間のサリエンスを活用する

Leveraging Human Salience to Improve Calorie Estimation ( http://arxiv.org/abs/2306.09527v1 )

ライセンス: Link先を確認
Katherine R. Dearstyne, Alberto D. Rodriguez(参考訳) 本研究は,食品画像からのカロリー予測タスクに人的敬礼を組み込む効果について検討する。 食品の食感を最も強調する画像に塩分マップを取り入れた場合,32.2%の相対的な改善が観察された。 また,質量推定と食品分類の類似タスクにおいて,事前学習した重みを用いたベストモデルの構築により,精度の向上を図る。 しかし、改善は見られません。 驚いたことに、私たちの最高のモデルは、テストデータセットであるNutrition5kと共に公開されたオリジナルのパフォーマンスを上回りませんでした。 私たちは実験のベースモデルとしてResNet50とXceptionを使用しています。

The following paper investigates the effectiveness of incorporating human salience into the task of calorie prediction from images of food. We observe a 32.2% relative improvement when incorporating saliency maps on the images of food highlighting the most calorie regions. We also attempt to further improve the accuracy by starting the best models using pre-trained weights on similar tasks of mass estimation and food classification. However, we observe no improvement. Surprisingly, we also find that our best model was not able to surpass the original performance published alongside the test dataset, Nutrition5k. We use ResNet50 and Xception as the base models for our experiment.
翻訳日:2023-06-19 15:36:31 公開日:2023-06-15
# 残留q-learning: 価値のないオフラインおよびオンラインポリシのカスタマイズ

Residual Q-Learning: Offline and Online Policy Customization without Value ( http://arxiv.org/abs/2306.09526v1 )

ライセンス: Link先を確認
Chenran Li, Chen Tang, Haruki Nishimura, Jean Mercat, Masayoshi Tomizuka, Wei Zhan(参考訳) 模倣学習(il)は、デモンストレーションから模倣行動を学ぶために広く使われているフレームワークである。 特に、手作り報酬関数の難しさや、その目的が人間の専門家の行動の模倣であるような複雑な現実世界のタスクの解決に魅力がある。 しかし、学習した模倣政策は、デモンストレーションの行動のみに従うことができる。 模倣ポリシーを適用する場合、さまざまな下流タスクから来るさまざまな要件を満たすためにポリシーの振る舞いをカスタマイズする必要があるかもしれません。 一方、我々はカスタマイズされたポリシーが模倣性を維持することを望んでいる。 この目的のために、ポリシーカスタマイズと呼ばれる新しい問題設定を定式化する。 学習タスクは、目標下流タスクによって課される追加要件を満たしながら、事前ポリシーの特徴を継承するポリシーを訓練するものとして定義する。 本稿では,2つの課題目標間のトレードオフを解釈・決定するための,新しい原則的アプローチを提案する。 具体的には、カスタマイズ問題をマルコフ決定過程(MDP)と組み合わせた報酬関数として定式化する。 1) 実演の本来の報酬,及び 2) ダウンストリームタスクが指定するアドオン報酬。 本稿では,従来の政策に固有の報酬や価値関数を知らずに事前政策を活用することで,MDPの定式化を図り得る新しい枠組みであるResidual Q-learningを提案する。 オフラインおよびオンラインのポリシーカスタマイズを実現するための残留Q-ラーニングアルゴリズムのファミリーを考案し,提案アルゴリズムが様々な環境におけるポリシーカスタマイズタスクを効果的に実現できることを示す。

Imitation Learning (IL) is a widely used framework for learning imitative behavior from demonstrations. It is especially appealing for solving complex real-world tasks where handcrafting reward function is difficult, or when the goal is to mimic human expert behavior. However, the learned imitative policy can only follow the behavior in the demonstration. When applying the imitative policy, we may need to customize the policy behavior to meet different requirements coming from diverse downstream tasks. Meanwhile, we still want the customized policy to maintain its imitative nature. To this end, we formulate a new problem setting called policy customization. It defines the learning task as training a policy that inherits the characteristics of the prior policy while satisfying some additional requirements imposed by a target downstream task. We propose a novel and principled approach to interpret and determine the trade-off between the two task objectives. Specifically, we formulate the customization problem as a Markov Decision Process (MDP) with a reward function that combines 1) the inherent reward of the demonstration; and 2) the add-on reward specified by the downstream task. We propose a novel framework, Residual Q-learning, which can solve the formulated MDP by leveraging the prior policy without knowing the inherent reward or value function of the prior policy. We derive a family of residual Q-learning algorithms that can realize offline and online policy customization, and show that the proposed algorithms can effectively accomplish policy customization tasks in various environments.
翻訳日:2023-06-19 15:36:19 公開日:2023-06-15
# 複数の独立時系列における変化点検出のための幾何学的プルーニングルール

Geometric-Based Pruning Rules For Change Point Detection in Multiple Independent Time Series ( http://arxiv.org/abs/2306.09555v1 )

ライセンス: Link先を確認
Liudmila Pishchagina, Guillem Rigaill and Vincent Runge(参考訳) 複数の独立時系列における複数の変化を検出する問題を考える。 最適セグメンテーションの探索は、与えられたコスト関数に対する最小化問題として表現できる。 この問題を正確に解決する動的プログラミングアルゴリズムにフォーカスしています。 変更数がデータ長に比例すると、peltアルゴリズムで符号化された不等式に基づく刈り取り規則は線形時間複雑性をもたらす。 関数的プルーニングと呼ばれる別のタイプのプルーニングは、変化の数が何であれ、不定の時系列の分析のためだけに、線形の時間複雑性を与える。 本稿では,単純な幾何学的形状(球と超矩形)を用いて,複数の独立時系列に対する機能的プルーニングの拡張を提案する。 ガウスの場合に焦点を当てるが、我々の規則のいくつかは指数族に容易に拡張できる。 シミュレーション実験では,異なる幾何学的プルーニングルールの計算効率を比較する。 小さい次元(2, 3, 4)では,データ長に比べて変化の基数が小さい場合に,不等式に基づくアプローチよりもはるかに高速に動作することが示されている。

We consider the problem of detecting multiple changes in multiple independent time series. The search for the best segmentation can be expressed as a minimization problem over a given cost function. We focus on dynamic programming algorithms that solve this problem exactly. When the number of changes is proportional to data length, an inequality-based pruning rule encoded in the PELT algorithm leads to a linear time complexity. Another type of pruning, called functional pruning, gives a close-to-linear time complexity whatever the number of changes, but only for the analysis of univariate time series. We propose a few extensions of functional pruning for multiple independent time series based on the use of simple geometric shapes (balls and hyperrectangles). We focus on the Gaussian case, but some of our rules can be easily extended to the exponential family. In a simulation study we compare the computational efficiency of different geometric-based pruning rules. We show that for small dimensions (2, 3, 4) some of them ran significantly faster than inequality-based approaches in particular when the underlying number of changes is small compared to the data length.
翻訳日:2023-06-19 15:28:10 公開日:2023-06-15
# オンライン感度サンプリングによる低スイッチ政策勾配の探索

Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling ( http://arxiv.org/abs/2306.09554v1 )

ライセンス: Link先を確認
Yunfan Li, Yiran Wang, Yu Cheng, Lin Yang(参考訳) ポリシー最適化手法は強化学習(rl)における強力なアルゴリズムであり、ポリシーパラメータ化やモデルの誤特定を扱う能力を扱う柔軟性がある。 しかしながら、これらの手法は通常、緩やかな収束率とサンプルの複雑さに悩まされる。 したがって、政策最適化のための効率の良いアルゴリズムを立案することが重要である。 しかし、この問題の最近の進歩は、非線型パラメータ化ポリシーに良性構造を一般化できないような表や線形設定においてのみ成功した。 本稿では, 一般非線形関数近似を用いた低スイッチングサンプル効率最適化アルゴリズム LPO を設計するために, 有界エレーダ次元とオンライン感度サンプリングを含む近年の値ベースアルゴリズムの進歩を活用して, この問題に対処する。 我々のアルゴリズムは、$\widetilde{o}(\frac{\text{poly}(d)}{\varepsilon^3})$サンプルしか持たない$\varepsilon$-optimalポリシーを得ることができ、ここで$\varepsilon$は準最適ギャップであり、$d$はポリシーを近似する関数クラスの複雑性測度である。 これは、ポリシー最適化アルゴリズムの最もよく知られたサンプルバウンドである$\widetilde{o}(\frac{\text{poly}(d)}{\varepsilon^8})$を大幅に改善する。 さらに,この理論をディープニューラルネットを用いて実験的に検証し,理論的なインスピレーションの利点を示す。

Policy optimization methods are powerful algorithms in Reinforcement Learning (RL) for their flexibility to deal with policy parameterization and ability to handle model misspecification. However, these methods usually suffer from slow convergence rates and poor sample complexity. Hence it is important to design provably sample efficient algorithms for policy optimization. Yet, recent advances for this problems have only been successful in tabular and linear setting, whose benign structures cannot be generalized to non-linearly parameterized policies. In this paper, we address this problem by leveraging recent advances in value-based algorithms, including bounded eluder-dimension and online sensitivity sampling, to design a low-switching sample-efficient policy optimization algorithm, LPO, with general non-linear function approximation. We show that, our algorithm obtains an $\varepsilon$-optimal policy with only $\widetilde{O}(\frac{\text{poly}(d)}{\varepsilon^3})$ samples, where $\varepsilon$ is the suboptimality gap and $d$ is a complexity measure of the function class approximating the policy. This drastically improves previously best-known sample bound for policy optimization algorithms, $\widetilde{O}(\frac{\text{poly}(d)}{\varepsilon^8})$. Moreover, we empirically test our theory with deep neural nets to show the benefits of the theoretical inspiration.
翻訳日:2023-06-19 15:27:53 公開日:2023-06-15
# Edit-DiffNeRF:2次元拡散モデルを用いた3次元ニューラルラジアンスフィールドの編集

Edit-DiffNeRF: Editing 3D Neural Radiance Fields using 2D Diffusion Model ( http://arxiv.org/abs/2306.09551v1 )

ライセンス: Link先を確認
Lu Yu, Wei Xiang, Kang Han(参考訳) 近年の研究では、事前学習された拡散モデルとニューラルレイディアンス場(NeRF)の組み合わせが、テキストから3D生成への有望なアプローチとして現れている。 単純なNeRFと拡散モデルとの結合は、スタイリングされたビュー合成の不整合と劣化をもたらす。 本稿では,この課題に対処するために,凍結拡散モデルと,拡散モデルの潜在意味空間を編集するデルタモジュールと,nerfからなるedit-diffnerfフレームワークを提案する。 本手法は,各シーンの拡散全体をトレーニングする代わりに,デルタモジュールによる凍結事前学習拡散モデルにおける潜時意味空間の編集に重点を置いている。 この標準拡散フレームワークの根本的な変更により、レンダリングされたビューを微調整し、NeRFトレーニングを通じて3Dシーンでこれらの命令を効果的に統合することができる。 その結果,テキストの入力に忠実に整合する3Dシーンを編集できることがわかった。 さらに,異なる視点にまたがる意味的一貫性を確保するために,先述した入力視点から潜在意味的埋め込みを抽出し,異なる視点で再構成することを目的とした,新しい多視点意味的一貫性損失を提案する。 提案手法は実世界の3Dシーンを効果的に編集し, 従来の作業に比べて3D編集とテキスト・インストラクションのアライメントが25%向上した。

Recent research has demonstrated that the combination of pretrained diffusion models with neural radiance fields (NeRFs) has emerged as a promising approach for text-to-3D generation. Simply coupling NeRF with diffusion models will result in cross-view inconsistency and degradation of stylized view syntheses. To address this challenge, we propose the Edit-DiffNeRF framework, which is composed of a frozen diffusion model, a proposed delta module to edit the latent semantic space of the diffusion model, and a NeRF. Instead of training the entire diffusion for each scene, our method focuses on editing the latent semantic space in frozen pretrained diffusion models by the delta module. This fundamental change to the standard diffusion framework enables us to make fine-grained modifications to the rendered views and effectively consolidate these instructions in a 3D scene via NeRF training. As a result, we are able to produce an edited 3D scene that faithfully aligns to input text instructions. Furthermore, to ensure semantic consistency across different viewpoints, we propose a novel multi-view semantic consistency loss that extracts a latent semantic embedding from the input view as a prior, and aim to reconstruct it in different views. Our proposed method has been shown to effectively edit real-world 3D scenes, resulting in 25% improvement in the alignment of the performed 3D edits with text instructions compared to prior work.
翻訳日:2023-06-19 15:27:25 公開日:2023-06-15
# Med-MMHL : 医療領域における人間とLLMの誤情報検出のためのマルチモーダルデータセット

Med-MMHL: A Multi-Modal Dataset for Detecting Human- and LLM-Generated Misinformation in the Medical Domain ( http://arxiv.org/abs/2306.08871v1 )

ライセンス: Link先を確認
Yanshen Sun, Jianfeng He, Shuo Lei, Limeng Cui, Chang-Tien Lu(参考訳) 誤報の広汎な影響は、個人と社会の両方に広範囲に及ぼし、有害な影響を及ぼす。 新型コロナウイルス(COVID-19)のパンデミックでは、医療情報の拡散が急増している。 しかし、誤情報に関連する既存のデータセットは、主にテキスト情報に焦点を合わせ、視覚要素の含意を無視し、他の病気を取り巻く誤情報を見渡すことだけに集中する傾向にある。 さらに2022年末に開発されたchatgptのような大規模言語モデル(llm)の誤情報生成の可能性は、以前の作品では見過ごされている。 これらの制約を克服するため,複数の疾患を包含する一般医療領域において,新しいマルチモーダル誤情報検出データセットであるMed-MMHLを提案する。 Med-MMHLは人為的な誤情報だけでなく、ChatGPTのようなLLMによって生成された誤情報も含んでいる。 このデータセットは,文,文書,マルチモーダルレベルでの人間およびllm生成の誤情報検出を含む,多様な疾患やシナリオにわたる誤情報検出手法の総合的研究と開発を促進することを目的としている。 データセットとコードにアクセスするには、GitHubリポジトリを参照してください。

The pervasive influence of misinformation has far-reaching and detrimental effects on both individuals and society. The COVID-19 pandemic has witnessed an alarming surge in the dissemination of medical misinformation. However, existing datasets pertaining to misinformation predominantly focus on textual information, neglecting the inclusion of visual elements, and tend to center solely on COVID-19-related misinformation, overlooking misinformation surrounding other diseases. Furthermore, the potential of Large Language Models (LLMs), such as the ChatGPT developed in late 2022, in generating misinformation has been overlooked in previous works. To overcome these limitations, we present Med-MMHL, a novel multi-modal misinformation detection dataset in a general medical domain encompassing multiple diseases. Med-MMHL not only incorporates human-generated misinformation but also includes misinformation generated by LLMs like ChatGPT. Our dataset aims to facilitate comprehensive research and development of methodologies for detecting misinformation across diverse diseases and various scenarios, including human and LLM-generated misinformation detection at the sentence, document, and multi-modal levels. To access our dataset and code, visit our GitHub repository: \url{https://github.com/styxsys0927/Med-MMHL}.
翻訳日:2023-06-18 14:57:27 公開日:2023-06-15
# ppaurora: 受信者の動作特性と精度リコール曲線に基づくプライバシー保護領域

ppAURORA: Privacy Preserving Area Under Receiver Operating Characteristic and Precision-Recall Curves ( http://arxiv.org/abs/2102.08788v3 )

ライセンス: Link先を確認
Ali Burak \"Unal, Nico Pfeifer, Mete Akg\"un(参考訳) さまざまな機械学習モデルの品質を比較するためのパフォーマンス指標としてのAUCの計算は多くの研究プロジェクトの最終段階の1つである。 これらのメソッドの多くはプライバシに敏感なデータに基づいてトレーニングされており、データセットが共有できない場合や、トレーニングや/またはテストのために一箇所で一緒に使用できない場合、$\epsilon$-differential privacy、federated machine learning、cryptgraphyのようないくつかの異なるアプローチがある。 この設定では、ラベルにはプライバシーに敏感な情報も含まれているため、グローバルなAUCを計算することも問題となる。 この問題に対処するためには$\epsilon$-differential privacyに基づくアプローチがありましたが、私たちの知る限り、正確なプライバシー保護ソリューションは導入されていません。 本稿では,複数のソースから個別にソートしたリストを個別にマージして,プールした元のテストサンプルで得られる正確な auc を計算するmpc ベースのソリューション ppaurora を提案する。 ppauroraでは、予測信頼度値の相関が存在する場合でも、精度リコールと受信者の特性曲線の正確な領域の計算が可能である。 pAURORAを用いて急性骨髄性白血病治療反応と心疾患の予測モデルについて検討した。 また,合成データ実験によるスケーラビリティの評価を行った。 これらの実験は, 両評価指標を用いて, ほぼ同一のAUCを効率よく, プライベートに計算し, 半真正逆の設定に従って平文でプールした試験サンプルから得られることを示す。

Computing an AUC as a performance measure to compare the quality of different machine learning models is one of the final steps of many research projects. Many of these methods are trained on privacy-sensitive data and there are several different approaches like $\epsilon$-differential privacy, federated machine learning and cryptography if the datasets cannot be shared or used jointly at one place for training and/or testing. In this setting, it can also be a problem to compute the global AUC, since the labels might also contain privacy-sensitive information. There have been approaches based on $\epsilon$-differential privacy to address this problem, but to the best of our knowledge, no exact privacy preserving solution has been introduced. In this paper, we propose an MPC-based solution, called ppAURORA, with private merging of individually sorted lists from multiple sources to compute the exact AUC as one could obtain on the pooled original test samples. With ppAURORA, the computation of the exact area under precision-recall and receiver operating characteristic curves is possible even when ties between prediction confidence values exist. We use ppAURORA to evaluate two different models predicting acute myeloid leukemia therapy response and heart disease, respectively. We also assess its scalability via synthetic data experiments. All these experiments show that we efficiently and privately compute the exact same AUC with both evaluation metrics as one can obtain on the pooled test samples in plaintext according to the semi-honest adversary setting.
翻訳日:2023-06-18 14:57:06 公開日:2023-06-15
# volterraニューラルネットワーク(vnns)

Volterra Neural Networks (VNNs) ( http://arxiv.org/abs/1910.09616v5 )

ライセンス: Link先を確認
Siddharth Roheda, Hamid Krim(参考訳) 機械学習(ML)における推論の重要性は、ML、特にディープラーニングにおいて、爆発的な数の異なる提案につながっている。 畳み込みニューラルネットワークの複雑さを軽減するために,Volterraフィルタに触発されたネットワークアーキテクチャを提案する。 このアーキテクチャは、遅延入力サンプル間の相互作用の形で制御された非線形性を導入する。 本稿では,従来のニューラルネットワークと同じ分類処理を行うために必要なパラメータ数を著しく削減するために,Volterraフィルタのケースケード実装を提案する。 本稿では,このVolterra Neural Network(VNN)の並列実装と,比較的シンプルでよりトラクタブルな構造を維持しつつ,その優れた性能を示す。 さらに,動作認識のためのビデオシーケンスのRGB(空間)情報と光フロー(時間)情報を非線形に融合させる手法として,このネットワークを改良した。 提案手法は,動作認識のためのUCF-101およびHMDB-51データセットを用いて評価し,CNN手法よりも優れていた。

The importance of inference in Machine Learning (ML) has led to an explosive number of different proposals in ML, and particularly in Deep Learning. In an attempt to reduce the complexity of Convolutional Neural Networks, we propose a Volterra filter-inspired Network architecture. This architecture introduces controlled non-linearities in the form of interactions between the delayed input samples of data. We propose a cascaded implementation of Volterra Filtering so as to significantly reduce the number of parameters required to carry out the same classification task as that of a conventional Neural Network. We demonstrate an efficient parallel implementation of this Volterra Neural Network (VNN), along with its remarkable performance while retaining a relatively simpler and potentially more tractable structure. Furthermore, we show a rather sophisticated adaptation of this network to nonlinearly fuse the RGB (spatial) information and the Optical Flow (temporal) information of a video sequence for action recognition. The proposed approach is evaluated on UCF-101 and HMDB-51 datasets for action recognition, and is shown to outperform state of the art CNN approaches.
翻訳日:2023-06-17 04:47:29 公開日:2023-06-15
# ストリーミングビデオから3dアクションの予測を探究する

Delving into 3D Action Anticipation from Streaming Videos ( http://arxiv.org/abs/1906.06521v2 )

ライセンス: Link先を確認
Hongsong Wang and Jiashi Feng(参考訳) 部分的な観察で行動を認識することを目的とした行動予測は、幅広い応用により、ますます人気が高まっている。 本稿では,ストリーミングビデオからの3次元行動予測の問題を,この問題に対するベストプラクティスの理解を目的として検討する。 まず,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。 より良い性能を実現するために,訓練クリップの長さとクリップサンプリング法という2つの重要な要因を調査した。 また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。 総合的な実験により,3次元動作予測のベストプラクティスを明らかにし,マルチタスクロスを用いた新しい手法を提案する。 提案手法は,最近の手法をかなり上回り,標準ベンチマークにおける最先端性能を示す。

Action anticipation, which aims to recognize the action with a partial observation, becomes increasingly popular due to a wide range of applications. In this paper, we investigate the problem of 3D action anticipation from streaming videos with the target of understanding best practices for solving this problem. We first introduce several complementary evaluation metrics and present a basic model based on frame-wise action classification. To achieve better performance, we then investigate two important factors, i.e., the length of the training clip and clip sampling method. We also explore multi-task learning strategies by incorporating auxiliary information from two aspects: the full action representation and the class-agnostic action label. Our comprehensive experiments uncover the best practices for 3D action anticipation, and accordingly we propose a novel method with a multi-task loss. The proposed method considerably outperforms the recent methods and exhibits the state-of-the-art performance on standard benchmarks.
翻訳日:2023-06-17 04:47:10 公開日:2023-06-15
# 正規化制約下での自動エンコーディング

Autoencoding Under Normalization Constraints ( http://arxiv.org/abs/2105.05735v3 )

ライセンス: Link先を確認
Sangwoong Yoon, Yung-Kyun Noh, Frank Chongwoo Park(参考訳) Likelihoodは、外れ値検出の標準的な見積もりである。 正規化制約の具体的役割は、最大確率を用いてサンプルが学習された場合、OOD(out-of-distribution)レジームが小さいことを保証することである。 オートエンコーダはそのような正規化のプロセスを持っていないため、明らかにOODである場合でも、しばしば外れ値を認識することができない。 オートエンコーダから構築した正規化確率モデルである正規化オートエンコーダ(NAE)を提案する。 NAEの確率密度は、従来のエネルギーベースモデルとは異なるオートエンコーダの再構成誤差を用いて定義される。 本モデルでは, 負サンプルの再構成を抑制し, 異常検出性能を大幅に向上させることで正規化を強制する。 実験結果より, アウトリア検出と分布内試料生成におけるNAEの有効性が確認された。

Likelihood is a standard estimate for outlier detection. The specific role of the normalization constraint is to ensure that the out-of-distribution (OOD) regime has a small likelihood when samples are learned using maximum likelihood. Because autoencoders do not possess such a process of normalization, they often fail to recognize outliers even when they are obviously OOD. We propose the Normalized Autoencoder (NAE), a normalized probabilistic model constructed from an autoencoder. The probability density of NAE is defined using the reconstruction error of an autoencoder, which is differently defined in the conventional energy-based model. In our model, normalization is enforced by suppressing the reconstruction of negative samples, significantly improving the outlier detection performance. Our experimental results confirm the efficacy of NAE, both in detecting outliers and in generating in-distribution samples.
翻訳日:2023-06-17 04:42:15 公開日:2023-06-15
# 文脈広い音素クラス情報を活用した音声強調性能の向上

Improving Speech Enhancement Performance by Leveraging Contextual Broad Phonetic Class Information ( http://arxiv.org/abs/2011.07442v4 )

ライセンス: Link先を確認
Yen-Ju Lu, Chia-Yu Chang, Cheng Yu, Ching-Feng Liu, Jeih-weih Hung, Shinji Watanabe, Yu Tsao(参考訳) 従来,音声の音響的特徴を調音的特徴の場所/マンガで増大させることで,音声強調(SE)過程を導出することにより,音声の幅広い音韻特性を考慮し,性能向上を図ることができた。 本稿では,音節属性の文脈情報を付加情報として検討し,SEをさらに活用する。 より具体的には、幅広い音素クラス(bpcs)のシーケンスを予測するエンドツーエンド自動音声認識(e2e-asr)モデルによる損失を利用して、se性能を改善することを提案する。 また,BPCをベースとしたE2E-ASRに基づくSEシステムの学習において,ASRを用いた多目的トレーニングと知覚的損失も開発した。 音声の発声, 発声残響, 音声強調課題による実験結果から, 文脈的bpc情報がse性能を向上できることが確認された。 さらに、BPCベースのE2E-ASRで訓練されたSEモデルは、音素ベースのE2E-ASRよりも優れている。 その結果、ASRシステムによる音素の誤分類による目的が不完全なフィードバックにつながる可能性があり、BPCがよりよい選択である可能性が示唆された。 最後に,重畳可能な音声目標を同一のBPCに組み合わせることで,SE性能を効果的に向上できることに注意する。

Previous studies have confirmed that by augmenting acoustic features with the place/manner of articulatory features, the speech enhancement (SE) process can be guided to consider the broad phonetic properties of the input speech when performing enhancement to attain performance improvements. In this paper, we explore the contextual information of articulatory attributes as additional information to further benefit SE. More specifically, we propose to improve the SE performance by leveraging losses from an end-to-end automatic speech recognition (E2E-ASR) model that predicts the sequence of broad phonetic classes (BPCs). We also developed multi-objective training with ASR and perceptual losses to train the SE system based on a BPC-based E2E-ASR. Experimental results from speech denoising, speech dereverberation, and impaired speech enhancement tasks confirmed that contextual BPC information improves SE performance. Moreover, the SE model trained with the BPC-based E2E-ASR outperforms that with the phoneme-based E2E-ASR. The results suggest that objectives with misclassification of phonemes by the ASR system may lead to imperfect feedback, and BPC could be a potentially better choice. Finally, it is noted that combining the most-confusable phonetic targets into the same BPC when calculating the additional objective can effectively improve the SE performance.
翻訳日:2023-06-17 04:41:19 公開日:2023-06-15
# Cognitive Ledger Project:Cognitive Blockchainによる個人用デジタルツインの構築を目指す

Cognitive Ledger Project: Towards Building Personal Digital Twins Through Cognitive Blockchain ( http://arxiv.org/abs/2201.08163v2 )

ライセンス: Link先を確認
Amir Reza Asadi(参考訳) cognitive ledgerプロジェクトは、ユーザの個人情報をブロックチェーンベースのインフラストラクチャに基づいた構造化情報と機械学習モデルに変換するモジュラーシステムを開発するための取り組みである。 本稿では,認知デジタル双生児のための認知的アーキテクチャを提案する。 提案する設計では、コアにcognitive blockchain(cognitive ledger)を採用する。 このアーキテクチャには、デジタル環境におけるユーザの活動を再利用可能な知識オブジェクトに変換するモジュールや、いつの日か一緒に作業してユーザの認知デジタルツインを形成する人工知能が含まれている。

The Cognitive Ledger Project is an effort to develop a modular system for turning users' personal data into structured information and machine learning models based on a blockchain-based infrastructure. In this work-in-progress paper, we propose a cognitive architecture for cognitive digital twins. The suggested design embraces a cognitive blockchain (Cognitive ledger) at its core. The architecture includes several modules that turn users' activities in the digital environment into reusable knowledge objects and artificial intelligence that one day can work together to form the cognitive digital twin of users.
翻訳日:2023-06-17 04:33:53 公開日:2023-06-15
# 2次元電子ガスの$m^\ast$:ニューラルカノニカル変換の研究

$m^\ast$ of two-dimensional electron gas: a neural canonical transformation study ( http://arxiv.org/abs/2201.03156v2 )

ライセンス: Link先を確認
Hao Xie, Linfeng Zhang, Lei Wang(参考訳) 相互作用電子の準粒子有効質量 $m^\ast$ はフェルミ液体理論の基本量である。 しかし、一様電子ガスの有効質量の正確な値は何十年もの研究を経ていまだに解明されていない。 新たに開発された神経正準変換法(xie et al., j. mach. learn. 1, (2022))は、低温で熱エントロピーを直接計算して電子ガスの有効質量を抽出するための原理的な方法を提供する。 このアプローチは、運動量占有の自己回帰モデルと電子座標の正規化フローの2つの生成ニューラルネットワークを用いて変動多電子密度行列をモデル化する。 低密度強結合領域における2次元スピン偏極電子ガスの有効質量の抑制は, 従来の報告よりも顕著である。 この予測は二次元電子ガス実験の検証を必要とする。

The quasiparticle effective mass $m^\ast$ of interacting electrons is a fundamental quantity in the Fermi liquid theory. However, the precise value of the effective mass of uniform electron gas is still elusive after decades of research. The newly developed neural canonical transformation approach [Xie et al., J. Mach. Learn. 1, (2022)] offers a principled way to extract the effective mass of electron gas by directly calculating the thermal entropy at low temperature. The approach models a variational many-electron density matrix using two generative neural networks: an autoregressive model for momentum occupation and a normalizing flow for electron coordinates. Our calculation reveals a suppression of effective mass in the two-dimensional spin-polarized electron gas, which is more pronounced than previous reports in the low-density strong-coupling region. This prediction calls for verification in two-dimensional electron gas experiments.
翻訳日:2023-06-17 04:33:40 公開日:2023-06-15
# タスク対応メタ学習に基づく難読マルウェア分類のためのシームズニューラルネットワーク

Task-Aware Meta Learning-based Siamese Neural Network for Classifying Obfuscated Malware ( http://arxiv.org/abs/2110.13409v3 )

ライセンス: Link先を確認
Jinting Zhu, Julian Jang-Jaccard, Amardeep Singh, Paul A. Watters, Seyit Camtepe(参考訳) マルウェアの著者は、検出を避けるために新しいマルウェア変種を作成するために、制御フローの難読化の異なる技術を適用する。 既存のシームズニューラルネットワーク(SNN)ベースのマルウェア検出方法は、トレーニングデータセットにそのような難読化されたマルウェアサンプルが存在する場合、異なるマルウェアファミリーを正しく分類できないため、偽陽性率が高い。 この問題に対処するために,このような制御フロー難読化技術によって影響を受けるマルウェアの出現に対して耐性を持つ,タスク対応の少数ショット学習型Siamese Neural Networkを提案する。 本モデルでは,各マルウェア群の平均エントロピー特徴を入力として,画像特徴に加えて特徴層に対するパラメータを生成し,各マルウェア群に対する特徴埋め込みをより正確に調整する。 さらに,本手法では,トレーニングサンプルが1つないし数つしかない場合でも,マルウェアクラスを分類することができる。 我々のモデルは、訓練済みネットワーク(例えばVGG-16)の特徴を抽出した数ショット学習を利用して、限られた数のトレーニングサンプルで訓練されたモデルに典型的なバイアスを避ける。 提案手法は, 難解なマルウェアの変種が存在する場合でも, 同一のマルウェアファミリーに属するマルウェアサンプルを正しく分類し, 独自のマルウェアシグネチャを認識するのに有効である。 N-wayによるN-shot Learningによる実験結果から,本手法は分類精度が高く,他の類似手法と比較して11%以上であることがわかった。

Malware authors apply different techniques of control flow obfuscation, in order to create new malware variants to avoid detection. Existing Siamese neural network (SNN)-based malware detection methods fail to correctly classify different malware families when such obfuscated malware samples are present in the training dataset, resulting in high false-positive rates. To address this issue, we propose a novel task-aware few-shot-learning-based Siamese Neural Network that is resilient against the presence of malware variants affected by such control flow obfuscation techniques. Using the average entropy features of each malware family as inputs, in addition to the image features, our model generates the parameters for the feature layers, to more accurately adjust the feature embedding for different malware families, each of which has obfuscated malware variants. In addition, our proposed method can classify malware classes, even if there are only one or a few training samples available. Our model utilizes few-shot learning with the extracted features of a pre-trained network (e.g., VGG-16), to avoid the bias typically associated with a model trained with a limited number of training samples. Our proposed approach is highly effective in recognizing unique malware signatures, thus correctly classifying malware samples that belong to the same malware family, even in the presence of obfuscated malware variants. Our experimental results, validated by N-way on N-shot learning, show that our model is highly effective in classification accuracy, exceeding a rate \textgreater 91\%, compared to other similar methods.
翻訳日:2023-06-17 04:32:43 公開日:2023-06-15
# 機械学習を用いた救急部トリアージ中の敗血症検出

Detection of sepsis during emergency department triage using machine learning ( http://arxiv.org/abs/2204.07657v6 )

ライセンス: Link先を確認
Oleksandr Ivanov, Karin Molander, Robert Dunne, Stephen Liu, Deena Brecher, Kevin Masek, Erica Lewis, Lisa Wolf, Debbie Travers, Deb Delaney, Kyla Montgomery, Christian Reilly(参考訳) 敗血症は臓器機能不全を伴う生命を脅かす疾患であり、世界でも主要な死因である。 敗血症の治療が数時間遅れても死亡率が上昇する。 緊急部トリアージ中の敗血症の早期発見は、実験室分析、抗生物質投与、その他の敗血症治療プロトコルの早期開始を可能にする。 本研究の目的は、標準敗血症スクリーニングアルゴリズム(感染源を含むsirs)のedトリアージにおける敗血症検出性能と、ehlトリアージデータに基づいて訓練された機械学習アルゴリズムを比較することである。 16病院のトリアージデータを用いた機械学習モデル(KATE Sepsis)を開発した。 KATEシープシスと標準スクリーニングは、成人の医療記録512,949件を振り返って評価した。 KATE Sepsis の AUC は 0.9423 (0.9401 - 0.9441) であり、感度は 71.09% (70.12% - 71.98%)、特異性は94.81% (94.75% - 94.87%) である。 標準スクリーニングは、感度が40.8%(39.71% - 41.86%)、特異性95.72%(95.68% - 95.78%)のauc(0.6774 - 0.6878)を示す。 kate sepsisモデルは、77.67% (75.78% -79.42%) の重症敗血症検出感度、86.95% (84.2% - 88.81%) の敗血症性ショック検出感度を示す。 標準スクリーニングプロトコルは、重症敗血症の検出感度が43.06% (41% - 45.87%)、敗血症性ショック検出感度が40% (36.55% - 43.26%)であることを示している。 今後の研究は、KATE Sepsisの抗生物質、寛容率、致死率、死亡率に対する将来的な影響に焦点を当てるべきである。

Sepsis is a life-threatening condition with organ dysfunction and is a leading cause of death and critical illness worldwide. Even a few hours of delay in the treatment of sepsis results in increased mortality. Early detection of sepsis during emergency department triage would allow early initiation of lab analysis, antibiotic administration, and other sepsis treatment protocols. The purpose of this study was to compare sepsis detection performance at ED triage (prior to the use of laboratory diagnostics) of the standard sepsis screening algorithm (SIRS with source of infection) and a machine learning algorithm trained on EHR triage data. A machine learning model (KATE Sepsis) was developed using patient encounters with triage data from 16participating hospitals. KATE Sepsis and standard screening were retrospectively evaluated on the adult population of 512,949 medical records. KATE Sepsis demonstrates an AUC of 0.9423 (0.9401 - 0.9441) with sensitivity of 71.09% (70.12% - 71.98%) and specificity of 94.81% (94.75% - 94.87%). Standard screening demonstrates an AUC of 0.6826 (0.6774 - 0.6878) with sensitivity of 40.8% (39.71% - 41.86%) and specificity of 95.72% (95.68% - 95.78%). The KATE Sepsis model trained to detect sepsis demonstrates 77.67% (75.78% -79.42%) sensitivity in detecting severe sepsis and 86.95% (84.2% - 88.81%) sensitivity in detecting septic shock. The standard screening protocol demonstrates 43.06% (41% - 45.87%) sensitivity in detecting severe sepsis and40% (36.55% - 43.26%) sensitivity in detecting septic shock. Future research should focus on the prospective impact of KATE Sepsis on administration of antibiotics, readmission rate, morbidity and mortality.
翻訳日:2023-06-17 04:24:30 公開日:2023-06-15
# トポロジカル体験リプレイ

Topological Experience Replay ( http://arxiv.org/abs/2203.15845v2 )

ライセンス: Link先を確認
Zhang-Wei Hong, Tao Chen, Yen-Chen Lin, Joni Pajarinen, Pulkit Agrawal(参考訳) 最先端のディープq-learningメソッドは、experience replayバッファからサンプリングされた状態遷移タプルを使用して、q値を更新する。 この戦略はしばしば、時間差(TD)誤差などの尺度に基づいて、一様かつランダムにデータサンプリングをサンプリングまたは優先順位付けする。 このようなサンプリング戦略は、状態のQ値が後続状態のQ値に依存するため、Q関数の学習において非効率である。 データサンプリング戦略が次の状態のQ値推定の精度を無視している場合、Q値に対する無駄でしばしば誤った更新につながる可能性がある。 この問題を軽減するため、エージェントの経験をグラフに整理し、状態のq値間の依存性を明示的に追跡する。 グラフの各エッジは、単一のアクションを実行することによって、2つの状態間の遷移を表す。 まず,端末状態の集合から始まるグラフの頂点を拡大し,連続的に後方に移動するような,幅優先探索による値バックアップを行う。 本手法は,多種多様な目標達成タスクにおいて,複数のベースラインよりもはるかにデータ効率が高いことを示す。 提案手法は,訓練経験のバッチを多く消費し,画像などの高次元観測データから操作するベースラインよりも優れている。

State-of-the-art deep Q-learning methods update Q-values using state transition tuples sampled from the experience replay buffer. This strategy often uniformly and randomly samples or prioritizes data sampling based on measures such as the temporal difference (TD) error. Such sampling strategies can be inefficient at learning Q-function because a state's Q-value depends on the Q-value of successor states. If the data sampling strategy ignores the precision of the Q-value estimate of the next state, it can lead to useless and often incorrect updates to the Q-values. To mitigate this issue, we organize the agent's experience into a graph that explicitly tracks the dependency between Q-values of states. Each edge in the graph represents a transition between two states by executing a single action. We perform value backups via a breadth-first search starting from that expands vertices in the graph starting from the set of terminal states and successively moving backward. We empirically show that our method is substantially more data-efficient than several baselines on a diverse range of goal-reaching tasks. Notably, the proposed method also outperforms baselines that consume more batches of training experience and operates from high-dimensional observational data such as images.
翻訳日:2023-06-17 04:23:13 公開日:2023-06-15
# SepViT:分離可能な視覚変換器

SepViT: Separable Vision Transformer ( http://arxiv.org/abs/2203.15380v4 )

ライセンス: Link先を確認
Wei Li, Xing Wang, Xin Xia, Jie Wu, Jiashi Li, Xuefeng Xiao, Min Zheng, Shiping Wen(参考訳) 視覚トランスフォーマーは、一連の視覚タスクで成功している。 しかし、これらのトランスフォーマーは高い性能を達成するために膨大な計算コストに依存しており、リソースに制約のあるデバイスにデプロイするのには負担がかかる。 この問題を軽減するため,我々は,奥行き分離可能な畳み込みから教訓を導き,そのイデオロギーを模倣して,効率的なトランスフォーマーバックボーン,すなわち sepvit と略される分離可能な視覚トランスフォーマーを設計した。 SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。 新規なウィンドウトークン埋め込みとグループ自己注意を用いて、窓間の注意関係を無視可能なコストで計算し、複数のウィンドウ間での長距離視覚的相互作用を確立する。 汎用ビジョンベンチマークに関する広範な実験は、sepvitがパフォーマンスとレイテンシの最先端のトレードオフを達成できることを示しています。 中でもSepViTは、ImageNet-1K分類で84.2%の精度で、類似の精度(CSWinなど)と比較して、レイテンシを40%削減している。 さらに、SepViTはADE20Kセマンティックセグメンテーションタスクで51.0% mIoU、RetinaNetベースのCOCO検出タスクで47.9 AP、Mask R-CNNベースのCOCOオブジェクト検出およびインスタンスセグメンテーションタスクで49.4ボックスAPと44.6マスクAPを達成した。

Vision Transformers have witnessed prevailing success in a series of vision tasks. However, these Transformers often rely on extensive computational costs to achieve high performance, which is burdensome to deploy on resource-constrained devices. To alleviate this issue, we draw lessons from depthwise separable convolution and imitate its ideology to design an efficient Transformer backbone, i.e., Separable Vision Transformer, abbreviated as SepViT. SepViT helps to carry out the local-global information interaction within and among the windows in sequential order via a depthwise separable self-attention. The novel window token embedding and grouped self-attention are employed to compute the attention relationship among windows with negligible cost and establish long-range visual interactions across multiple windows, respectively. Extensive experiments on general-purpose vision benchmarks demonstrate that SepViT can achieve a state-of-the-art trade-off between performance and latency. Among them, SepViT achieves 84.2% top-1 accuracy on ImageNet-1K classification while decreasing the latency by 40%, compared to the ones with similar accuracy (e.g., CSWin). Furthermore, SepViT achieves 51.0% mIoU on ADE20K semantic segmentation task, 47.9 AP on the RetinaNet-based COCO detection task, 49.4 box AP and 44.6 mask AP on Mask R-CNN-based COCO object detection and instance segmentation tasks.
翻訳日:2023-06-17 04:22:54 公開日:2023-06-15
# ニューラルネットワークトレーニング問題におけるスプリアス局所ミニマの存在について

On the Omnipresence of Spurious Local Minima in Certain Neural Network Training Problems ( http://arxiv.org/abs/2202.12262v2 )

ライセンス: Link先を確認
Constantin Christof and Julia Kowalczyk(参考訳) 本研究では,アフィンセグメントを含む活性化関数を持つ1次元実出力と,少なくとも2層以上の隠れ層を有する深層ニューラルネットワークの学習問題のロスランドスケープについて検討する。 このような問題は、アフィンでないすべての対象関数に対して、スプリアス局所極小(すなわち、グローバルに最適ではない)の連続体を持つことが示されている。 従来の研究とは対照的に,全てのサンプリングおよびパラメータ化レジーム,一般微分可能損失関数,任意の連続的非多項活性化関数,および有限次元および無限次元の設定について解析を行った。 さらに, 学習問題におけるスプリアス局所極小の出現は, 普遍近似定理の直接的な帰結であり, 基礎となるメカニズムは, 密度の高い画像を持たないすべてのネットワークに対して, ハダマールの意味で不適切であるような, $l^p$-best 近似問題も引き起こすことを示した。 後者の結果は局所アフィン線型性の仮定も無く、隠れた層上の条件も持たない。

We study the loss landscape of training problems for deep artificial neural networks with a one-dimensional real output whose activation functions contain an affine segment and whose hidden layers have width at least two. It is shown that such problems possess a continuum of spurious (i.e., not globally optimal) local minima for all target functions that are not affine. In contrast to previous works, our analysis covers all sampling and parameterization regimes, general differentiable loss functions, arbitrary continuous nonpolynomial activation functions, and both the finite- and infinite-dimensional setting. It is further shown that the appearance of the spurious local minima in the considered training problems is a direct consequence of the universal approximation theorem and that the underlying mechanisms also cause, e.g., $L^p$-best approximation problems to be ill-posed in the sense of Hadamard for all networks that do not have a dense image. The latter result also holds without the assumption of local affine linearity and without any conditions on the hidden layers.
翻訳日:2023-06-17 04:22:03 公開日:2023-06-15
# 分散ロバストなデータ結合

Distributionally Robust Data Join ( http://arxiv.org/abs/2202.05797v2 )

ライセンス: Link先を確認
Pranjal Awasthi, Christopher Jung, Jamie Morgenstern(参考訳) ラベル付きデータセットとラベルなしデータセットの2つのデータセットが与えられているとしよう。 予測器を構築するために、これらのデータセットを一緒に使う最も原則のある方法は何ですか? 答えは、これらのデータセットが相互特徴集合上の同一または異なる分布によって生成されるかどうか、テスト分布がそれらの分布にどの程度似ているかに依存するべきである。 多くのアプリケーションでは、2つのデータセットは異なる分布に従う可能性が高いが、どちらもテスト分布に近い可能性がある。 本稿では,ラベル付きデータセット上の経験的分布からWasserstein距離が$r_1$,ラベル付きデータセットから$r_2$であるような,元の特徴,補助特徴,バイナリラベルに対する確率分布の最大損失を最小限に抑える予測器を構築することを提案する。 これは分散ロバストな最適化(DRO)の一般化であり、2つのデータソースが可能であり、そのうちの1つはラベル付けされておらず、補助的な特徴を含む可能性がある。

Suppose we are given two datasets: a labeled dataset and unlabeled dataset which also has additional auxiliary features not present in the first dataset. What is the most principled way to use these datasets together to construct a predictor? The answer should depend upon whether these datasets are generated by the same or different distributions over their mutual feature sets, and how similar the test distribution will be to either of those distributions. In many applications, the two datasets will likely follow different distributions, but both may be close to the test distribution. We introduce the problem of building a predictor which minimizes the maximum loss over all probability distributions over the original features, auxiliary features, and binary labels, whose Wasserstein distance is $r_1$ away from the empirical distribution over the labeled dataset and $r_2$ away from that of the unlabeled dataset. This can be thought of as a generalization of distributionally robust optimization (DRO), which allows for two data sources, one of which is unlabeled and may contain auxiliary features.
翻訳日:2023-06-17 04:21:26 公開日:2023-06-15
# 局所的弱特徴センシングとgan前処理によるポーズ変化顔の復元品質の向上

Enhancing Quality of Pose-varied Face Restoration with Local Weak Feature Sensing and GAN Prior ( http://arxiv.org/abs/2205.14377v3 )

ライセンス: Link先を確認
Kai Hu, Yu Liu, Renhe Liu, Wei Lu, Gang Yu, Bin Fu(参考訳) 顔の意味的指導(顔のランドマーク、顔のヒートマップ、顔のパースマップを含む)と顔生成逆境ネットワーク(gan)は、近年、ブラインド・フェイス・リバイバル(bfr)で広く使われている。 既存のBFR法は通常のケースでは優れた性能を保っているが、現実のシナリオでは、深刻な劣化とポーズ(例えば、右、左、笑)のある顔画像に適用した場合、レジリエンスは限られている。 そこで本研究では,前向きに顔を生成するブラインドフェイス修復ネットワークを提案する。 提案するネットワークは主に非対称コーデックとスタイルガン2プリエントネットワークで構成される。 非対称コーデックでは、混合マルチパス残差ブロック(MMRB)を用いて、入力画像の弱いテクスチャ特徴を徐々に抽出し、元の顔の特徴をよりよく保存し、過度な空想を避ける。 MMRBは他のネットワークでもプラグアンドプレイできる。 さらに,stylegan2モデルの豊富な多彩な顔前処理により,提案手法における一次生成ネットワークとして採用し,その分布を目標に近づけ,自然および現実的な顔詳細を柔軟に復元する新しい自己教師あり訓練戦略を特別に設計した。 人工および実世界のデータセットに関する広範囲な実験により,本モデルは,顔復元や顔の超解像タスクにおいて,先行技術よりも優れた性能を示す。

Facial semantic guidance (including facial landmarks, facial heatmaps, and facial parsing maps) and facial generative adversarial networks (GAN) prior have been widely used in blind face restoration (BFR) in recent years. Although existing BFR methods have achieved good performance in ordinary cases, these solutions have limited resilience when applied to face images with serious degradation and pose-varied (e.g., looking right, looking left, laughing, etc.) in real-world scenarios. In this work, we propose a well-designed blind face restoration network with generative facial prior. The proposed network is mainly comprised of an asymmetric codec and a StyleGAN2 prior network. In the asymmetric codec, we adopt a mixed multi-path residual block (MMRB) to gradually extract weak texture features of input images, which can better preserve the original facial features and avoid excessive fantasy. The MMRB can also be plug-and-play in other networks. Furthermore, thanks to the affluent and diverse facial priors of the StyleGAN2 model, we adopt it as the primary generator network in our proposed method and specially design a novel self-supervised training strategy to fit the distribution closer to the target and flexibly restore natural and realistic facial details. Extensive experiments on synthetic and real-world datasets demonstrate that our model performs superior to the prior art for face restoration and face super-resolution tasks.
翻訳日:2023-06-17 04:14:23 公開日:2023-06-15
# plate: リストページweb抽出のための大規模データセット

PLAtE: A Large-scale Dataset for List Page Web Extraction ( http://arxiv.org/abs/2205.12386v2 )

ライセンス: Link先を確認
Aidan San, Yuan Zhuang, Jan Bakus, Colin Lockard, David Ciemiewicz, Sandeep Atluri, Yangfeng Ji, Kevin Small, Heba Elfardy(参考訳) 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。 しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。 本稿では,新しいWeb抽出タスクとしてPLAtE(Pages of Lists Attribute extract)ベンチマークデータセットを紹介する。 PLAtEは,商品レビューページから,(1)商品リストのセグメンテーション境界の検索,(2)製品毎の属性の抽出といったタスクを含む複数の項目を抽出したショッピングデータに焦点を当てた。 PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。 データセットの収集とアノテートに多段階のアプローチを採用し,3つの最先端web抽出モデルを用いて,その長所と短所を定量的・質的に比較した。

Recently, neural models have been leveraged to significantly improve the performance of information extraction from semi-structured websites. However, a barrier for continued progress is the small number of datasets large enough to train these models. In this work, we introduce the PLAtE (Pages of Lists Attribute Extraction) benchmark dataset as a challenging new web extraction task. PLAtE focuses on shopping data, specifically extractions from product review pages with multiple items encompassing the tasks of: (1) finding product-list segmentation boundaries and (2) extracting attributes for each product. PLAtE is composed of 52, 898 items collected from 6, 694 pages and 156, 014 attributes, making it the first largescale list page web extraction dataset. We use a multi-stage approach to collect and annotate the dataset and adapt three state-of-the-art web extraction models to the two tasks comparing their strengths and weaknesses both quantitatively and qualitatively.
翻訳日:2023-06-17 04:13:56 公開日:2023-06-15
# In-context BERT チューニングによる読解の自動化

Automated Scoring for Reading Comprehension via In-context BERT Tuning ( http://arxiv.org/abs/2205.09864v2 )

ライセンス: Link先を確認
Nigel Fernandez, Aritra Ghosh, Naiming Liu, Zichao Wang, Beno\^it Choffin, Richard Baraniuk, Andrew Lan(参考訳) オープンエンドの学生反応の自動スコアリングは、人間の成績を著しく低下させる可能性がある。 近年の自動スコアリングの進歩は、BERTやGPTといった事前訓練された言語モデルに基づくテキスト表現をスコアリングモデルへの入力として利用することが多い。 既存のアプローチのほとんどは、アイテム/クエスト毎に別々のモデルをトレーニングしています。 しかし、これらのアプローチには2つの制限がある。 1) 複数の項目が読み出し経路を共有する場合の理解などのシナリオにおいて,項目リンクの活用に失敗する。 2) 多数のパラメータを持つモデルでは,アイテム毎にひとつのモデルを保存することが難しくなるため,スケーラブルではない。 本稿では,全国教育進歩評価(naep)による読解のための自動採点課題に対する(大賞獲得)ソリューションについて報告する。 In-context BERT fine-tuningでは、各項目のコンテキスト情報を提供するために、慎重に設計された入力構造を持つ、すべての項目に対して単一のスコアリングモデルを生成する。 この課題から得られたトレーニングデータセットを用いて,地域評価によるアプローチの有効性を示す。 また,バイアス,一般的なエラータイプ,アプローチの制限についても論じた。

Automated scoring of open-ended student responses has the potential to significantly reduce human grader effort. Recent advances in automated scoring often leverage textual representations based on pre-trained language models such as BERT and GPT as input to scoring models. Most existing approaches train a separate model for each item/question, which is suitable for scenarios such as essay scoring where items can be quite different from one another. However, these approaches have two limitations: 1) they fail to leverage item linkage for scenarios such as reading comprehension where multiple items may share a reading passage; 2) they are not scalable since storing one model per item becomes difficult when models have a large number of parameters. In this paper, we report our (grand prize-winning) solution to the National Assessment of Education Progress (NAEP) automated scoring challenge for reading comprehension. Our approach, in-context BERT fine-tuning, produces a single shared scoring model for all items with a carefully-designed input structure to provide contextual information on each item. We demonstrate the effectiveness of our approach via local evaluations using the training dataset provided by the challenge. We also discuss the biases, common error types, and limitations of our approach.
翻訳日:2023-06-17 04:13:39 公開日:2023-06-15
# bernstein-polynomial normalizing flowを用いた低電圧負荷の短期密度予測

Short-Term Density Forecasting of Low-Voltage Load using Bernstein-Polynomial Normalizing Flows ( http://arxiv.org/abs/2204.13939v3 )

ライセンス: Link先を確認
Marcel Arpogaus, Marcus Voss, Beate Sick, Mark Nigge-Uricher, Oliver D\"urr(参考訳) 完全再生エネルギーグリッドへの移行は、効率を高め、信頼できる制御を確保するために、低電圧レベルでの需要予測の改善を必要とする。 しかし、高い変動と電化の増加は、従来の点推定に反映されない、大きな予測変動を引き起こす。 確率的負荷予測は将来の不確実性を考慮しており、低炭素エネルギーシステムの計画と運用についてより詳細な意思決定を可能にする。 本稿では,ニューラルネットワークが流れのパラメータを制御するbernstein多項式正規化流れに基づく短時間負荷の柔軟な条件密度予測手法を提案する。 363人のスマートメータの顧客を対象に行った実証研究で、我々の密度予測はガウスとガウスの混合密度と比較した。 また、2つの異なるニューラルネットワークアーキテクチャの24hアヘッド負荷予測では、ピンボール損失に基づく非パラメトリックアプローチを上回っている。

The transition to a fully renewable energy grid requires better forecasting of demand at the low-voltage level to increase efficiency and ensure reliable control. However, high fluctuations and increasing electrification cause huge forecast variability, not reflected in traditional point estimates. Probabilistic load forecasts take future uncertainties into account and thus allow more informed decision-making for the planning and operation of low-carbon energy systems. We propose an approach for flexible conditional density forecasting of short-term load based on Bernstein polynomial normalizing flows, where a neural network controls the parameters of the flow. In an empirical study with 363 smart meter customers, our density predictions compare favorably against Gaussian and Gaussian mixture densities. Also, they outperform a non-parametric approach based on the pinball loss for 24h-ahead load forecasting for two different neural network architectures.
翻訳日:2023-06-17 04:12:51 公開日:2023-06-15
# 双線形値ネットワーク

Bilinear value networks ( http://arxiv.org/abs/2204.13695v2 )

ライセンス: Link先を確認
Zhang-Wei Hong, Ge Yang, Pulkit Agrawal(参考訳) オフ・ポリシー・マルチゴール強化学習の主要な枠組みは、目標条件付きq値関数の推定である。 複数の目標を達成するために学習する場合、データ効率は新しい目標へのQ関数の一般化と密接に関連している。 デファクトパラダイムは、モノリシックニューラルネットワークを用いてQ(s, a, g)を近似することである。 Q-関数の一般化を改善するために、2つのベクトル場間のドット積の形で低ランク近似を用いてQ-値を表す双線型分解を提案する。 第1のベクトル場 f(s, a) は状態 s における環境の局所ダイナミクスをキャプチャし、第2の成分 {\phi}(s, g) は現在の状態とゴールの間の大域的な関係をキャプチャする。 両線形分解方式はデータ効率を大幅に向上させ, 従来の方法に比べて分布外目標への移行に優れることを示す。 シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠を提供する。

The dominant framework for off-policy multi-goal reinforcement learning involves estimating goal conditioned Q-value function. When learning to achieve multiple goals, data efficiency is intimately connected with the generalization of the Q-function to new goals. The de-facto paradigm is to approximate Q(s, a, g) using monolithic neural networks. To improve the generalization of the Q-function, we propose a bilinear decomposition that represents the Q-value via a low-rank approximation in the form of a dot product between two vector fields. The first vector field, f(s, a), captures the environment's local dynamics at the state s; whereas the second component, {\phi}(s, g), captures the global relationship between the current state and the goal. We show that our bilinear decomposition scheme substantially improves data efficiency, and has superior transfer to out-of-distribution goals compared to prior methods. Empirical evidence is provided on the simulated Fetch robot task-suite and dexterous manipulation with a Shadow hand.
翻訳日:2023-06-17 04:12:39 公開日:2023-06-15
# 情報スクランブルによる非安定化性の定量化

Quantifying non-stabilizerness efficiently via information scrambling ( http://arxiv.org/abs/2204.11236v3 )

ライセンス: Link先を確認
Arash Ahmadi, Eliska Greplova(参考訳) 量子技術の出現は、それらが提供する計算資源の理論的特徴に多くの注意を向けた。 量子資源を定量化する方法は、マジックモノトーンと呼ばれる関数のクラスを使用することである。 近年,情報スクランブルとマジックモノトンとの基本的な関係が確立されている。 この接続は魔法の単調な計算を単純化したが、この方法のクラスはキュービットの数に関して指数スケーリングに苦しむ。 本研究では,マジックモノトーンを近似する時間外相関器を効率的にサンプリングする方法を確立する。 量子ビット系とクトリット系の両方において,これらのサンプルコリレータと異なる非安定化測度の関係を数値的に示す。 さらに、局所ハミルトンの時間進化のためのマジックの単調な振る舞いを測定するためのプロトコルを前進し、シミュレートした。

The advent of quantum technologies brought forward much attention to the theoretical characterization of the computational resources they provide. A method to quantify quantum resources is to use a class of functions called magic monotones, which are, however, notoriously hard and impractical to evaluate for large system sizes. In recent studies, a fundamental connection between information scrambling and magic monotones was established. This connection simplified magic monotone calculation, but this class of methods still suffers from the exponential scaling with respect to the number of qubits. In this work, we establish an efficient way to sample an out-of-time-order correlators that approximate magic monotones. We numerically show the relation of these sampled correllators to different non-stabilizerness measures for both qubit and qutrit systems. Furthermore, we put forward and simulate a protocol to measure the monotonic behaviour of magic for the time evolution of local Hamiltonians.
翻訳日:2023-06-17 04:12:10 公開日:2023-06-15
# ジェネレーティブ・サリエンシーのためのエネルギーベースの事前

An Energy-Based Prior for Generative Saliency ( http://arxiv.org/abs/2204.08803v2 )

ライセンス: Link先を確認
Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li(参考訳) 本稿では,情報的エネルギーベースモデルを事前分布として採用する,新たな生成性予測フレームワークを提案する。 エネルギーに基づく事前モデルは、連続潜在変数と観測画像に基づいて塩分マップを生成する塩分発生ネットワークの潜在空間上で定義される。 塩分発生器のパラメータとエネルギーに基づくプリアのパラメータは、マルコフ連鎖モンテカルロに基づく最大確率推定によって共に訓練され、潜在変数の難解な後方分布と事前分布からのサンプリングはランジュバンダイナミクスによって行われる。 生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。 従属変数の先行分布を単純な等方的ガウス分布として定義する既存の生成モデルとは異なり、我々のモデルは、従属変数の潜在空間を捉える上でより表現力のあるエネルギーベースの情報伝達先を用いる。 情報的エネルギーベースの先行して、生成モデルのガウス分布仮定を拡張して、潜在空間のより代表的な分布を達成することにより、より信頼性の高い不確実性推定を行う。 提案するフレームワークは、トランスフォーマーと畳み込みニューラルネットワークのバックボーンを用いて、RGBとRGB-Dの両方に適応する。 また,提案手法を学習するための代替として,逆学習アルゴリズムと変分推論アルゴリズムを提案する。 実験の結果, エネルギーベースプリエントを持つ生成的サルマンシーモデルでは, 正確なサルマンシー予測だけでなく, 人間の知覚と一致する信頼性の高い不確実性マップを実現できることがわかった。 結果とコードはhttps://github.com/jingzhang617/ebmgsodで入手できる。

We propose a novel generative saliency prediction framework that adopts an informative energy-based model as a prior distribution. The energy-based prior model is defined on the latent space of a saliency generator network that generates the saliency map based on a continuous latent variables and an observed image. Both the parameters of saliency generator and the energy-based prior are jointly trained via Markov chain Monte Carlo-based maximum likelihood estimation, in which the sampling from the intractable posterior and prior distributions of the latent variables are performed by Langevin dynamics. With the generative saliency model, we can obtain a pixel-wise uncertainty map from an image, indicating model confidence in the saliency prediction. Different from existing generative models, which define the prior distribution of the latent variables as a simple isotropic Gaussian distribution, our model uses an energy-based informative prior which can be more expressive in capturing the latent space of the data. With the informative energy-based prior, we extend the Gaussian distribution assumption of generative models to achieve a more representative distribution of the latent space, leading to more reliable uncertainty estimation. We apply the proposed frameworks to both RGB and RGB-D salient object detection tasks with both transformer and convolutional neural network backbones. We further propose an adversarial learning algorithm and a variational inference algorithm as alternatives to train the proposed generative framework. Experimental results show that our generative saliency model with an energy-based prior can achieve not only accurate saliency predictions but also reliable uncertainty maps that are consistent with human perception. Results and code are available at https://github.com/JingZhang617/EBMGSOD.
翻訳日:2023-06-17 04:11:57 公開日:2023-06-15
# hrfuser: 2次元物体検出のためのマルチレゾリューションセンサ融合アーキテクチャ

HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection ( http://arxiv.org/abs/2206.15157v2 )

ライセンス: Link先を確認
Tim Broedermann (1), Christos Sakaridis (1), Dengxin Dai (2) and Luc Van Gool (1 and 3) ((1) ETH Zurich, (2) MPI for Informatics, (3) KU Leuven)(参考訳) 通常のカメラに加えて、自動運転車にはライダーやレーダーなどの複数のセンサーが含まれており、運転シーンの内容を認識するためによりリッチな情報を取得するのに役立つ。 近年のいくつかの研究は、カメラとライダー、レーダーのような特定のセンサーのペアを、検査された設定に特有のアーキテクチャコンポーネントを使用することに焦点を当てているが、汎用的でモジュラーなセンサー融合アーキテクチャは文献から欠落している。 本研究では,マルチモーダル2次元オブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。 マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。 hrfuserの設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモードの融合を行う手段として、新しいマルチウィンドウクロスアテンションブロックが組み込まれている。 提案手法は,2次元物体検出指標で評価される最先端の3次元および2次元融合法と,カメラのみの性能を著しく向上させ,補足的な特徴を効果的に活用できることを,ヌースセンと有害条件の密集したデータセットに関する広範囲な実験により実証する。 ソースコードは公開されている。

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors - such as camera with lidar or radar - by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we propose HRFuser, a modular architecture for multi-modal 2D object detection. It fuses multiple sensors in a multi-resolution fashion and scales to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. We demonstrate via extensive experiments on nuScenes and the adverse conditions DENSE datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art 3D and 2D fusion methods evaluated on 2D object detection metrics. The source code is publicly available.
翻訳日:2023-06-17 04:05:02 公開日:2023-06-15
# 任意次元における完全可溶性有限格子

Fully Solvable Finite Simplex Lattices in Arbitrary Dimensions ( http://arxiv.org/abs/2206.14779v3 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Adam Miranowicz, Franco Nori, \c{S}ahin K. \"Ozdemir, Fabrizio Minganti(参考訳) 有限単純格子モデルは、物理学の異なる分野、例えば凝縮物質物理学、フラストレーション磁気系や非エルミート局在現象の研究、あるいは化学において、混合物を用いた実験を記述する際に用いられる。 $n$-シプレックスは$n$次元の最も単純なポリトープを表し、例えば1次元、2次元、および3次元の直線セグメント、三角形、四面体である。 本研究では,2次ボソニック系の高次場-モーメント空間(FMS)から,完全可解(非)エルミート$n$-複素格子モデル,すなわち,正確な固有値と固有ベクトルを構築可能であることを示す。 すなわち、このような$n$-simplexな格子は、FMSに自然に現れる$(k>n)$-dimensionsの高退化反復ポリトープ鎖の次元還元によって形成できることを示す。 ボソニックシステムのFMSは,様々な実空間$n$-simplex格子をシミュレートし,類似した複雑性を示す多体系の構造に関する貴重な洞察を得るための汎用的なプラットフォームを提供する。

Finite simplex lattice models are used in different branches of science, e.g., in condensed matter physics, when studying frustrated magnetic systems and non-Hermitian localization phenomena; or in chemistry, when describing experiments with mixtures. An $n$-simplex represents the simplest possible polytope in $n$ dimensions, e.g., a line segment, a triangle, and a tetrahedron in one, two, and three dimensions, respectively. In this work, we show that various fully solvable (non-) Hermitian $n$-simplex lattice models, i.e., with exact eigenvalues and eigenvectors, can be constructed from the high-order field-moments space (FMS) of quadratic bosonic systems. Namely, we demonstrate that such $n$-simplex lattices can be formed by a dimensional reduction of highly-degenerate iterated polytope chains in $(k>n)$-dimensions, which naturally emerge in the FMS. Our findings indicate that the FMS of bosonic systems provides a versatile platform for simulating various real-space $n$-simplex lattices, and yield valuable insights into the structure of many-body systems exhibiting similar complexity.
翻訳日:2023-06-17 04:04:37 公開日:2023-06-15
# ニューラルアーキテクチャ検索と継続学習の相互作用を探る

Exploring the Intersection between Neural Architecture Search and Continual Learning ( http://arxiv.org/abs/2206.05625v2 )

ライセンス: Link先を確認
Mohamed Shahawy, Elhadj Benkhelifa, David White(参考訳) ANN(Artificial Neural Networks)で達成された大きな進歩にもかかわらず、その設計プロセスは、主に直感、経験、試行錯誤に依存することで悪名高い。 この人間依存のプロセスは、しばしば時間がかかり、エラーを起こしやすい。 さらに、モデルは通常、周囲の環境を考慮せずに、トレーニングコンテキストに拘束される。 ニューラルネットワークの継続的な適応性と自動化は、デプロイ後にモデルアクセシビリティが制限されるいくつかの領域(例えば、IoTデバイス、自動運転車など)において、最も重要である。 さらに、アクセス可能なモデルでさえ、概念/データのドリフトのような問題を克服するために、デプロイ後の頻繁なメンテナンスを必要とする。 neural architecture search(nas)とcontinual learning(cl)のアプローチを活用して組み合わせることで、より堅牢で適応的なエージェントが開発できる。 本研究では,NAS と CL の交点を概観し,将来的な連続適応ニューラルネットワーク(CANN)パラダイムを定式化し,生涯にわたる自律型 ANN 研究の方向性を概説する。

Despite the significant advances achieved in Artificial Neural Networks (ANNs), their design process remains notoriously tedious, depending primarily on intuition, experience and trial-and-error. This human-dependent process is often time-consuming and prone to errors. Furthermore, the models are generally bound to their training contexts, with no considerations to their surrounding environments. Continual adaptiveness and automation of neural networks is of paramount importance to several domains where model accessibility is limited after deployment (e.g IoT devices, self-driving vehicles, etc.). Additionally, even accessible models require frequent maintenance post-deployment to overcome issues such as Concept/Data Drift, which can be cumbersome and restrictive. By leveraging and combining approaches from Neural Architecture Search (NAS) and Continual Learning (CL), more robust and adaptive agents can be developed. This study conducts the first extensive review on the intersection between NAS and CL, formalizing the prospective Continually-Adaptive Neural Networks (CANNs) paradigm and outlining research directions for lifelong autonomous ANNs.
翻訳日:2023-06-17 04:03:30 公開日:2023-06-15
# 人間の日から機械秒:機械学習の最終結果の自動回答と生成

From Human Days to Machine Seconds: Automatically Answering and Generating Machine Learning Final Exams ( http://arxiv.org/abs/2206.05442v6 )

ライセンス: Link先を確認
Iddo Drori, Sarah J. Zhang, Reece Shuttleworth, Sarah Zhang, Keith Tyser, Zad Chin, Pedro Lantigua, Saisamrit Surbehera, Gregory Hunter, Derek Austin, Leonard Tang, Yann Hicke, Sage Simhon, Sathwik Karnik, Darnell Granberry, Madeleine Udell(参考訳) mit、ハーバード、コーネルなどの上位機関における機械学習の最終試験は通常、執筆に学部の日を要し、解決には学生の時間を要する。 大規模言語モデルは、mit、ハーバード、コーネルのコーパスで人間のレベルで機械学習のファイナルをパスし、新しい人間品質のファイナルテストの質問を数秒で自動的に生成する。 従来の研究は、数学やSTEMコースにおける大学レベルの問題セットを解くために、プログラム合成と数ショットの学習方法を開発した。 本研究では,問題集合とはいくつかの方法で異なる最終試験を解く手法を開発し,比較する。質問はより長く,複数の部分を持ち,より複雑で,幅広い話題にまたがる。 機械学習の最終試験とこれらの質問に答え、新しい質問を生成するためのコードから、新しいデータセットとベンチマークを提供する。 他の質問やコースノートから新しい質問を生成する方法を示します。 大規模なオープン言語モデルであるmeta's optを評価し、その結果をopenaiのクローズドモデルと比較する。 機械による質問の品質,適切性,難易度を比較した学生調査では,複数の側面において,機械による質問は人為的な質問とは区別がつかず,最終試験に適していることが示された。 GPT-3, OPT, Codex, ChatGPT を用いて, ゼロショット学習と少数ショット学習, チェーン・オブ・シークレットとを比較したアブレーション研究を行い, 少数ショット学習が有効であることを示す。 我々は,大規模評価の文章作成と解法を合理化する言語モデルの変換可能性に注目し,人間の日数からマシン秒までの作業負荷を大幅に削減する。

A final exam in machine learning at a top institution such as MIT, Harvard, or Cornell typically takes faculty days to write, and students hours to solve. We demonstrate that large language models pass machine learning finals at a human level on a corpus drawn from MIT, Harvard, and Cornell and automatically generate new human-quality final exam questions in seconds. Previous work has developed program synthesis and few-shot learning methods to solve university-level problem set questions in mathematics and STEM courses. In this work, we develop and compare methods that solve final exams, which differ from problem sets in several ways: the questions are longer, have multiple parts, are more complicated, and span a broader set of topics. We provide a new dataset and benchmark of questions from machine learning final exams and code for answering these questions and generating new questions. We show how to generate new questions from other questions and course notes. We evaluate a large open language model, Meta's OPT, and compare the results with OpenAI's closed models. A student survey comparing the quality, appropriateness, and difficulty of machine-generated questions with human-written questions shows that across multiple aspects, machine-generated questions are indistinguishable from human-generated questions and are suitable for final exams. We perform ablation studies comparing zero-shot learning with few-shot learning and chain-of-thought prompting using GPT-3, OPT, Codex, and ChatGPT across machine learning topics and find that few-shot learning methods perform best. We highlight the transformative potential of language models to streamline the writing and solution of large-scale assessments, significantly reducing the workload from human days to machine seconds.
翻訳日:2023-06-17 04:03:08 公開日:2023-06-15
# フェデレーション学習における対象粒界差分プライバシー

Subject Granular Differential Privacy in Federated Learning ( http://arxiv.org/abs/2206.03617v2 )

ライセンス: Link先を確認
Virendra J. Marathe and Pallika Kanani and Daniel W. Peterson and Guy Steele Jr(参考訳) 本稿では,個人情報が単一のフェデレーションユーザ内に制限されたり,複数のフェデレーションユーザに分散されたりする複数のデータアイテムによって具現化された個人であるfl設定における主題レベルのプライバシについて考察する。 本稿では,各フェデレーションユーザに対して主題レベルdpを局所的に強制する2つの新しいアルゴリズムを提案する。 我々の最初のアルゴリズムはLocalGroupDPと呼ばれ、人気のあるDP-SGDアルゴリズムにおけるグループ差分プライバシーの簡単な応用である。 第2のアルゴリズムは,訓練ミニバッチに参加する被験者に対する階層的勾配平均化(higradavgdp)という新しいアイデアに基づいている。 また、ユーザレベルのローカル微分プライバシー(LDP)は、対象レベルのDPを自然に保証していることを示す。 FLにおける被写体レベルのプライバシ損失の水平構成の問題 - 個人ユーザがフェデレーション全体で発生した被写体レベルのプライバシ損失 - を観察する。 我々は,アルゴリズムの主観レベルDP保証を正式に証明し,実用性損失に対する効果を示す。 フェムニズムとシェークスピアのデータセットに対する経験的評価から,localgroupdpはアルゴリズムの中で最高のパフォーマンスを示している。 しかし、DP-SGDベースのアルゴリズムでトレーニングされたモデルの実用性は、アイテムレベルのプライバシ保証を弱めるために遅れている。 対象のサンプリング分数と水平合成によるプライバシ損失の増幅は、モデルユーティリティの重要な課題である。

This paper considers subject level privacy in the FL setting, where a subject is an individual whose private information is embodied by several data items either confined within a single federation user or distributed across multiple federation users. We propose two new algorithms that enforce subject level DP at each federation user locally. Our first algorithm, called LocalGroupDP, is a straightforward application of group differential privacy in the popular DP-SGD algorithm. Our second algorithm is based on a novel idea of hierarchical gradient averaging (HiGradAvgDP) for subjects participating in a training mini-batch. We also show that user level Local Differential Privacy (LDP) naturally guarantees subject level DP. We observe the problem of horizontal composition of subject level privacy loss in FL - subject level privacy loss incurred at individual users composes across the federation. We formally prove the subject level DP guarantee for our algorithms, and also show their effect on model utility loss. Our empirical evaluation on FEMNIST and Shakespeare datasets shows that LocalGroupDP delivers the best performance among our algorithms. However, its model utility lags behind that of models trained using a DP-SGD based algorithm that provides a weaker item level privacy guarantee. Privacy loss amplification due to subject sampling fractions and horizontal composition remain key challenges for model utility.
翻訳日:2023-06-17 04:02:12 公開日:2023-06-15
# ハイブリッド量子分類を用いた早期心疾患予測

Early heart disease prediction using hybrid quantum classification ( http://arxiv.org/abs/2208.08882v2 )

ライセンス: Link先を確認
Hanif Heidari and Gerhard Hellstern(参考訳) 心臓死亡率と心臓死亡率は、世界の公衆衛生と世界経済に大きな影響を及ぼす。 心臓病の早期予測は、心臓病死の軽減に不可欠である。 本稿では、心臓疾患早期発見のための2つの量子機械学習手法、すなわちハイブリッド量子ニューラルネットワークとハイブリッドランダムフォレスト量子ニューラルネットワークを提案する。 これらの手法はクリーブランドとスタットログのデータセットに適用される。 その結果,ハイブリッド量子ニューラルネットワークとハイブリッドランダムフォレスト量子ニューラルネットワークは,それぞれ高次元問題と低次元問題に適していることがわかった。 ハイブリッド量子ニューラルネットワークは外れ値データに敏感であり、ハイブリッドランダムフォレストは外れ値データに堅牢である。 異なる機械学習法との比較により、提案法は、クリーブランドデータセットとスタットログデータセットでそれぞれ96.43%と97.78%の曲線下領域が得られた早期心疾患予測に適していることが示された。

The rate of heart morbidity and heart mortality increases significantly which affect the global public health and world economy. Early prediction of heart disease is crucial for reducing heart morbidity and mortality. This paper proposes two quantum machine learning methods i.e. hybrid quantum neural network and hybrid random forest quantum neural network for early detection of heart disease. The methods are applied on the Cleveland and Statlog datasets. The results show that hybrid quantum neural network and hybrid random forest quantum neural network are suitable for high dimensional and low dimensional problems respectively. The hybrid quantum neural network is sensitive to outlier data while hybrid random forest is robust on outlier data. A comparison between different machine learning methods shows that the proposed quantum methods are more appropriate for early heart disease prediction where 96.43% and 97.78% area under curve are obtained for Cleveland and Statlog dataset respectively.
翻訳日:2023-06-17 03:54:55 公開日:2023-06-15
# あなたのフェアモデルはどうロバストか? 多様な公正戦略の堅牢性を探る

How Robust is your Fair Model? Exploring the Robustness of Diverse Fairness Strategies ( http://arxiv.org/abs/2207.04581v3 )

ライセンス: Link先を確認
Edward Small, Wei Shao, Zeliang Zhang, Peihan Liu, Jeffrey Chan, Kacper Sokol and Flora Salim(参考訳) 高度な意思決定における機械学習の導入により、アルゴリズムの公平性を保証することがますます重要になっている。 これに対し、フェアネスの数学的定義が多数提案され、フェアネスの定義を最大化するために様々な最適化技術が開発されている。 しかし、公正なソリューションはトレーニングデータの品質に依存しており、ノイズに非常に敏感である。 近年の研究では、新しい問題にアプローチする際に使用するべき戦略のタイプにおいて、ロバスト性(モデルが不明瞭なデータに対してうまく機能する能力)が重要な役割を果たすことが示されており、そのため、これらの戦略のロバスト性を測定することが根本的な問題となっている。 そこで本研究では,様々な公平性最適化戦略(ロバスト性比)のロバスト性を評価するための新しい基準を提案する。 我々は,5つのベンチマークフェアネスデータセットに対して,最もポピュラーなフェアネス戦略の3つを用いて,最もポピュラーなフェアネス定義の4つについて,広範な実験を行った。 実験の結果,しきい値最適化に依拠する公平性は,他の手法をほとんど上回っているにもかかわらず,評価されたデータセットのノイズに対して非常に敏感であることが示された。 これは他の2つの方法とは対照的で、低ノイズシナリオでは公平ではないが、高ノイズシナリオではより公平である。 私たちの知る限りでは、公平な最適化戦略の堅牢さを定量的に評価するのは、当社が初めてです。 これは、様々なデータセットに最も適したフェアネス戦略を選択する際のガイドラインとなる可能性がある。

With the introduction of machine learning in high-stakes decision making, ensuring algorithmic fairness has become an increasingly important problem to solve. In response to this, many mathematical definitions of fairness have been proposed, and a variety of optimisation techniques have been developed, all designed to maximise a defined notion of fairness. However, fair solutions are reliant on the quality of the training data, and can be highly sensitive to noise. Recent studies have shown that robustness (the ability for a model to perform well on unseen data) plays a significant role in the type of strategy that should be used when approaching a new problem and, hence, measuring the robustness of these strategies has become a fundamental problem. In this work, we therefore propose a new criterion to measure the robustness of various fairness optimisation strategies - the robustness ratio. We conduct multiple extensive experiments on five bench mark fairness data sets using three of the most popular fairness strategies with respect to four of the most popular definitions of fairness. Our experiments empirically show that fairness methods that rely on threshold optimisation are very sensitive to noise in all the evaluated data sets, despite mostly outperforming other methods. This is in contrast to the other two methods, which are less fair for low noise scenarios but fairer for high noise ones. To the best of our knowledge, we are the first to quantitatively evaluate the robustness of fairness optimisation strategies. This can potentially can serve as a guideline in choosing the most suitable fairness strategy for various data sets.
翻訳日:2023-06-17 03:54:01 公開日:2023-06-15
# エネルギーツリー:構造的および混合型共変量による回帰と分類

Energy Trees: Regression and Classification With Structured and Mixed-Type Covariates ( http://arxiv.org/abs/2207.04430v2 )

ライセンス: Link先を確認
Riccardo Giubilei, Tullia Padellini, Pierpaolo Brutti(参考訳) データの複雑さが増すためには、複雑な構造を効果的に処理できる方法やモデルが必要となる。 いくつかの分析ツールは、元の形式で複雑なデータオブジェクトを扱うように開発されているが、これらのツールは典型的にはシングルタイプ変数に限定されている。 本研究では,様々なタイプの構造的共変量に対応する回帰分類モデルとして,エネルギーツリーを提案する。 エネルギー木はエネルギー統計を利用して条件推論木の能力を拡張し、そこから音統計の基礎、解釈可能性、スケール不変性、分布仮定からの自由を継承する。 特に関数型とグラフ構造型の共変量に注目し,他の変数型を統合する際のモデルの柔軟性を強調する。 広範なシミュレーション研究により、モデルの競合性能は、変数の選択と過剰適合に対する堅牢性の観点から示される。 最後に, 生体データを含む2つの実験分析により, モデル予測能力を評価する。 エネルギーツリーは r パッケージ etree に実装されている。

The increasing complexity of data requires methods and models that can effectively handle intricate structures, as simplifying them would result in loss of information. While several analytical tools have been developed to work with complex data objects in their original form, these tools are typically limited to single-type variables. In this work, we propose energy trees as a regression and classification model capable of accommodating structured covariates of various types. Energy trees leverage energy statistics to extend the capabilities of conditional inference trees, from which they inherit sound statistical foundations, interpretability, scale invariance, and freedom from distributional assumptions. We specifically focus on functional and graph-structured covariates, while also highlighting the model's flexibility in integrating other variable types. Extensive simulation studies demonstrate the model's competitive performance in terms of variable selection and robustness to overfitting. Finally, we assess the model's predictive ability through two empirical analyses involving human biological data. Energy trees are implemented in the R package etree.
翻訳日:2023-06-17 03:53:35 公開日:2023-06-15
# PointMCD:3次元形状認識のための多視点クロスモーダル蒸留によるディープポイントクラウドエンコーダの強化

PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition ( http://arxiv.org/abs/2207.03128v4 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yue Qian(参考訳) 3次元オブジェクトの2つの基本的な表現として、3次元点雲と多視点2次元画像は、幾何学的構造と視覚的外観の異なる領域の形状情報を記録する。 現在のディープラーニング時代には、互換性のある3dネットワークアーキテクチャと2dネットワークアーキテクチャをそれぞれカスタマイズすることで、2つのデータモダリティの処理が著しく進歩している。 しかし、複数の一般的な3次元形状認識ベンチマークにおいて主要な性能を示すマルチビュー画像ベース2次元視覚モデリングパラダイムとは異なり、ポイントクラウドベースの幾何学的モデリングパラダイムは、不規則な幾何学的信号から識別的特徴を抽出することが困難であるため、学習能力の不足により依然として非常に制限されている。 本稿では,深部2d画像エンコーダから抽出した視覚知識を標準の教師・学生蒸留ワークフローで伝達することにより,深部3dポイントクラウドエンコーダの促進の可能性を検討する。 一般に,教師として事前訓練された深度画像エンコーダ,学生として深度画像エンコーダを含む多視点クロスモーダル蒸留アーキテクチャであるPointMCDを提案する。 2次元の視覚的領域と3次元の幾何学的領域の間に不均一な特徴アライメントを行うために、視覚的特徴投影(VAFP)について検討する。 多視点の視覚と幾何学的ディスクリプタをペアで整列させることで、より強力なディープポイントエンコーダを得ることができる。 3次元形状分類,部分分割,教師なし学習の実験は,本手法の有効性を強く検証した。 コードとデータはhttps://github.com/keeganhk/PointMCDで公開されている。

As two fundamental representation modalities of 3D objects, 3D point clouds and multi-view 2D images record shape information from different domains of geometric structures and visual appearances. In the current deep learning era, remarkable progress in processing such two data modalities has been achieved through respectively customizing compatible 3D and 2D network architectures. However, unlike multi-view image-based 2D visual modeling paradigms, which have shown leading performance in several common 3D shape recognition benchmarks, point cloud-based 3D geometric modeling paradigms are still highly limited by insufficient learning capacity, due to the difficulty of extracting discriminative features from irregular geometric signals. In this paper, we explore the possibility of boosting deep 3D point cloud encoders by transferring visual knowledge extracted from deep 2D image encoders under a standard teacher-student distillation workflow. Generally, we propose PointMCD, a unified multi-view cross-modal distillation architecture, including a pretrained deep image encoder as the teacher and a deep point encoder as the student. To perform heterogeneous feature alignment between 2D visual and 3D geometric domains, we further investigate visibility-aware feature projection (VAFP), by which point-wise embeddings are reasonably aggregated into view-specific geometric descriptors. By pair-wisely aligning multi-view visual and geometric descriptors, we can obtain more powerful deep point encoders without exhausting and complicated network modification. Experiments on 3D shape classification, part segmentation, and unsupervised learning strongly validate the effectiveness of our method. The code and data will be publicly available at https://github.com/keeganhk/PointMCD.
翻訳日:2023-06-17 03:53:21 公開日:2023-06-15
# 思考に富んだ」ローカルフレンドリーなno-go定理--適合する新しい仮定による予測実験

A "thoughtful" Local Friendliness no-go theorem: a prospective experiment with new assumptions to suit ( http://arxiv.org/abs/2209.08491v2 )

ライセンス: Link先を確認
Howard M. Wiseman and Eric G. Cavalcanti and Eleanor G. Rieffel(参考訳) ウィグナーの友人シナリオを拡張した2人の同僚による最近の論文は、量子論(QT)によって予測されるある種の経験的相関が、我々が「局所親和性」(LF)と呼ぶ一連のメタ物理仮定から導かれる不等式に反することを示した。 これらの仮定はベルの不等式を導いたものよりも厳密に弱い。 この定理の重要さは、可逆進化を持つ量子系が観測者(共生的に「友人」)になるという前提であった。 しかし、この論文は実験目的のオブザーバを構成するものについて、非コミットであった。 ここでは、システムが *thoughts* を持つという考えを、観測者となるのに十分な条件とする新しいlf no-go定理を提案する。 LF不等式の新しい導出は4つのメタ物理的仮定を使用し、そのうち3つは「フレンドリ」と呼ばれるものを含む思考関連である。 これら4つの仮定は、「友好性」が言及するシステムのタイプを含む実験に対してLF不等式を導出することを可能にする。 これら4つのメタフィジカルな仮定に加えて、この新しいno-go定理は、人間レベルの人工知能と、高速で大規模であるユニバーサル量子コンピューティングの2つの前提を必要とする。 後者はしばしば qt が普遍的であるという信念に動機づけられているが、これは *not* 定理の仮定である。 新しい定理の意図は将来の実験主義者に明確な目標を与え、その目標を達成するための明確な動機を与えることである。 定理の観点からQTに対する様々なアプローチを概観する。 量子論は解釈を必要としない」という一般的な主張は、我々の仮定に疑問を呈せず、否定される。 最後に,提案する実験の難易度を定量的に議論し,その進路に関するマイルストーンを簡潔に議論する。

A recent paper by two of us and co-workers, based on an extended Wigner's friend scenario, demonstrated that certain empirical correlations predicted by quantum theory (QT) violate inequalities derived from a set of metaphysical assumptions we called "Local Friendliness" (LF). These assumptions are strictly weaker than those used for deriving Bell inequalities. Crucial to the theorem was the premise that a quantum system with reversible evolution could be an observer (colloquially, a "friend"). However, that paper was noncommittal on what would constitute an observer for the purpose of an experiment. Here, we present a new LF no-go theorem which takes seriously the idea that a system's having *thoughts* is a sufficient condition for it to be an observer. Our new derivation of the LF inequalities uses four metaphysical assumptions, three of which are thought-related, including one that is explicitly called "Friendliness". These four assumptions, in conjunction, allow one to derive LF inequalities for experiments involving the type of system that "Friendliness" refers to. In addition to these four metaphysical assumptions, this new no-go theorem requires two assumptions about what is *technologically* feasible: Human-Level Artificial Intelligence, and Universal Quantum Computing which is fast and large scale. The latter is often motivated by the belief that QT is universal, but this is *not* an assumption of the theorem. The intent of the new theorem is to give a clear goal for future experimentalists, and a clear motivation for trying to achieve that goal. We review various approaches to QT in light of our theorem. The popular stance that "quantum theory needs no interpretation" does not question any of our assumptions and so is ruled out. Finally, we quantitatively discuss how difficult the experiment we envisage would be, and briefly discuss milestones on the paths towards it.
翻訳日:2023-06-17 03:45:35 公開日:2023-06-15
# 治療の順序と成果からの政策介入の因果モデリング

Causal Modeling of Policy Interventions From Sequences of Treatments and Outcomes ( http://arxiv.org/abs/2209.04142v5 )

ライセンス: Link先を確認
\c{C}a\u{g}lar H{\i}zl{\i}, ST John, Anne Juuti, Tuure Saarinen, Kirsi Pietil\"ainen, Pekka Marttinen(参考訳) 治療方針は、いつ、どの治療が関心のある結果に影響を及ぼすかを定義する。 データ駆動意思決定は、ポリシーが変更されたときに何が起こるかを予測する能力を必要とする。 異なるシナリオの下で結果がどのように進化するかを予測する既存の方法は、将来の治療の仮のシーケンスが事前に固定されていると仮定し、実際には、治療はポリシーによって確率的に決定され、例えば、以前の治療の効率に依存する可能性がある。 したがって、治療方針が不明であったり、逆解析が必要な場合、現在の手法は適用されない。 これらの制限に対処するために,ガウス過程と点過程を組み合わせることで,処理と成果を連続的にモデル化する。 本モデルでは, 治療と結果の観察的シーケンスから治療方針を推定し, 治療方針への介入後の結果の介入的・反事実的進展を予測できる(単一治療の因果効果とは対照的に)。 血液グルコースの進行に関する実世界および半合成データを用いて,既存の方法よりも因果関係を正確に解答できることを示す。

A treatment policy defines when and what treatments are applied to affect some outcome of interest. Data-driven decision-making requires the ability to predict what happens if a policy is changed. Existing methods that predict how the outcome evolves under different scenarios assume that the tentative sequences of future treatments are fixed in advance, while in practice the treatments are determined stochastically by a policy and may depend, for example, on the efficiency of previous treatments. Therefore, the current methods are not applicable if the treatment policy is unknown or a counterfactual analysis is needed. To handle these limitations, we model the treatments and outcomes jointly in continuous time, by combining Gaussian processes and point processes. Our model enables the estimation of a treatment policy from observational sequences of treatments and outcomes, and it can predict the interventional and counterfactual progression of the outcome after an intervention on the treatment policy (in contrast with the causal effect of a single treatment). We show with real-world and semi-synthetic data on blood glucose progression that our method can answer causal queries more accurately than existing alternatives.
翻訳日:2023-06-17 03:44:28 公開日:2023-06-15
# 神経進化はスキル発見のための強化学習の競合的代替手段である

Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery ( http://arxiv.org/abs/2210.03516v3 )

ライセンス: Link先を確認
Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot(参考訳) deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。 しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。 最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。 これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。 しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。 本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。 8つの最先端アルゴリズム(各作業ラインの4つのフラッグシップアルゴリズム)を比較した広範な実証評価を通じて (i)スキルの多様性を直接評価する指標。 (ii)適応作業における技能の発揮、及び (iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。 すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term - often derived from information theory - in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the skills' performance on adaptation tasks, and (iii) the skills' performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
翻訳日:2023-06-17 03:35:58 公開日:2023-06-15
# 有色点雲用遠心距離キーポイント検出器

Centroid Distance Keypoint Detector for Colored Point Clouds ( http://arxiv.org/abs/2210.01298v2 )

ライセンス: Link先を確認
Hanzhe Teng, Dimitrios Chatziparaschis, Xinyue Kan, Amit K. Roy-Chowdhury, Konstantinos Karydis(参考訳) キーポイント検出は多くのコンピュータビジョンとロボット工学アプリケーションの基礎となる。 色付き点雲が容易に取得できるという事実にもかかわらず、既存のキーポイント検出器は幾何学的な鍵点のみを抽出し、色情報を利用する(あるいはその可能性を持つ)システム全体の性能を阻害する。 このようなシステムの進歩を促進するために,色点雲中の幾何学的・色彩的キーポイントを抽出できる効率的なマルチモーダルキーポイント検出器を提案する。 提案するセントロイド距離(ced)キーポイント検出器は、3d空間とカラー空間の両方で使用可能な直感的かつ効果的な塩分量測定器と、2つ以上のモダリティで高い塩分率を持つキーポイントを選択できるマルチモーダル非最大抑制アルゴリズムとを含む。 提案手法は局所近傍の点の分布を直接活用し,正規推定や固有値分解は必要としない。 提案手法は,合成データと実世界のデータセットの両方において,最先端のキーポイント検出器に対する再現性と計算効率(すなわち実行時間)の観点から評価する。 その結果,提案するcedキーポイント検出器は,高い再現性を実現するのに最小の計算時間を必要とすることがわかった。 提案手法の潜在的な応用の1つを示すために,カラーポイントクラウド登録の課題をさらに検討する。 その結果,提案するced検出器は,手作り,学習によるキーポイント検出を評価場面で上回っていることが示唆された。 提案手法のC++実装はhttps://github.com/UCR-Robotics/CED_Detectorで公開されている。

Keypoint detection serves as the basis for many computer vision and robotics applications. Despite the fact that colored point clouds can be readily obtained, most existing keypoint detectors extract only geometry-salient keypoints, which can impede the overall performance of systems that intend to (or have the potential to) leverage color information. To promote advances in such systems, we propose an efficient multi-modal keypoint detector that can extract both geometry-salient and color-salient keypoints in colored point clouds. The proposed CEntroid Distance (CED) keypoint detector comprises an intuitive and effective saliency measure, the centroid distance, that can be used in both 3D space and color space, and a multi-modal non-maximum suppression algorithm that can select keypoints with high saliency in two or more modalities. The proposed saliency measure leverages directly the distribution of points in a local neighborhood and does not require normal estimation or eigenvalue decomposition. We evaluate the proposed method in terms of repeatability and computational efficiency (i.e. running time) against state-of-the-art keypoint detectors on both synthetic and real-world datasets. Results demonstrate that our proposed CED keypoint detector requires minimal computational time while attaining high repeatability. To showcase one of the potential applications of the proposed method, we further investigate the task of colored point cloud registration. Results suggest that our proposed CED detector outperforms state-of-the-art handcrafted and learning-based keypoint detectors in the evaluated scenes. The C++ implementation of the proposed method is made publicly available at https://github.com/UCR-Robotics/CED_Detector.
翻訳日:2023-06-17 03:34:54 公開日:2023-06-15
# SpeechLM: テキストデータによる音声事前学習の強化

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data ( http://arxiv.org/abs/2209.15329v3 )

ライセンス: Link先を確認
Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei(参考訳) 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。 本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。 具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。 訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。 事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。 音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を示す。 コードとモデルはhttps://aka.ms/speechlm.com/で入手できる。

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. We evaluate SpeechLM on various spoken language processing tasks including speech recognition, speech translation, and universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Code and models are available at https://aka.ms/SpeechLM.
翻訳日:2023-06-17 03:34:15 公開日:2023-06-15
# 人間ライクなテキストに基づく視覚的質問応答のための3次元空間推論

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering ( http://arxiv.org/abs/2209.10326v2 )

ライセンス: Link先を確認
Hao Li, Jinfa Huang, Peng Jin, Guoli Song, Qi Wu, Jie Chen(参考訳) テキストベースのVisual Question Answering~(TextVQA)は、複数のシーンテキストによる画像に関する所定の質問に対する正しい回答を作成することを目的としている。 ほとんどの場合、テキストは自然にオブジェクトの表面に取り付けられます。 そのため、テキストとオブジェクト間の空間的推論はTextVQAでは不可欠である。 しかし、既存のアプローチは入力画像から学んだ2次元空間情報内に制約があり、融合過程中に暗黙的に推論するためにトランスフォーマーベースのアーキテクチャに依存している。 このような2次元空間推論手法では、同一画像平面上の視覚物体とシーンテキスト間の微細な空間関係を区別できないため、textvqaモデルの解釈性と性能が損なわれる。 本稿では,人間の空間的推論プロセスに3次元幾何学情報を導入して,重要対象の文脈知識を段階的に捉える。 %は,キーオブジェクトの文脈的知識を捉えるために3次元幾何学的情報を導入することにより,人間のような空間的推論過程を定式化する。 モデルによる3次元空間的関係の理解を高めること。 (i)→重要対象の関心領域を正確に特定するための関係予測モジュールを提案する。 (ii)-我々は,ocrトークンの注目度を臨界物体に応じて校正するための深さ対応注意校正モジュールを設計した。 本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。 さらに,本モデルでは,テキストVQAとST-VQAの有効分割における空間的推論に関わる質問に対して,5.7\%と12.1\%の明確なマージンで他より優れている。 また,テキストベースの画像キャプションタスクにおいて,モデルの一般化可能性を検証する。

Text-based Visual Question Answering~(TextVQA) aims to produce correct answers for given questions about the images with multiple scene texts. In most cases, the texts naturally attach to the surface of the objects. Therefore, spatial reasoning between texts and objects is crucial in TextVQA. However, existing approaches are constrained within 2D spatial information learned from the input images and rely on transformer-based architectures to reason implicitly during the fusion process. Under this setting, these 2D spatial reasoning approaches cannot distinguish the fine-grain spatial relations between visual objects and scene texts on the same image plane, thereby impairing the interpretability and performance of TextVQA models. In this paper, we introduce 3D geometric information into a human-like spatial reasoning process to capture the contextual knowledge of key objects step-by-step. %we formulate a human-like spatial reasoning process by introducing 3D geometric information for capturing key objects' contextual knowledge. To enhance the model's understanding of 3D spatial relationships, Specifically, (i)~we propose a relation prediction module for accurately locating the region of interest of critical objects; (ii)~we design a depth-aware attention calibration module for calibrating the OCR tokens' attention according to critical objects. Extensive experiments show that our method achieves state-of-the-art performance on TextVQA and ST-VQA datasets. More encouragingly, our model surpasses others by clear margins of 5.7\% and 12.1\% on questions that involve spatial reasoning in TextVQA and ST-VQA valid split. Besides, we also verify the generalizability of our model on the text-based image captioning task.
翻訳日:2023-06-17 03:32:57 公開日:2023-06-15
# モデルに基づく強化学習によるクロスタスク伝達の可能性について

On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning ( http://arxiv.org/abs/2210.10763v2 )

ライセンス: Link先を確認
Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu(参考訳) 強化学習(RL)アルゴリズムは、画像観察から直接、困難な制御問題を解くことができるが、数百万の環境相互作用を必要とすることが多い。 近年、モデルベースRLアルゴリズムは、世界の内部モデルを同時に学習し、実環境の相互作用を想像上のロールアウトで補うことで、サンプル効率を大幅に改善した。 しかし、スクラッチから世界の効果的なモデルを学ぶことは困難であり、新しいスキルを学ぶために世界の理解と視覚的手がかりに大きく依存する人間とは対照的である。 本研究では,最新のモデルベースRLアルゴリズムで学習した内部モデルを用いて,新しい,明らかに異なるタスクを高速に解くことができるかを検討する。 我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。 オフラインのマルチタスク事前トレーニングとオンラインクロスタスクの微調整により、スクラッチからトレーニングしたベースラインよりも大幅に改善され、モデルベースのアルゴリズムであるEfficientZeroの平均性能が23%向上し、場合によっては71%向上した。

Reinforcement Learning (RL) algorithms can solve challenging control problems directly from image observations, but they often require millions of environment interactions to do so. Recently, model-based RL algorithms have greatly improved sample-efficiency by concurrently learning an internal model of the world, and supplementing real environment interactions with imagined rollouts for policy improvement. However, learning an effective model of the world from scratch is challenging, and in stark contrast to humans that rely heavily on world understanding and visual cues for learning new skills. In this work, we investigate whether internal models learned by modern model-based RL algorithms can be leveraged to solve new, distinctly different tasks faster. We propose Model-Based Cross-Task Transfer (XTRA), a framework for sample-efficient online RL with scalable pretraining and finetuning of learned world models. By offline multi-task pretraining and online cross-task finetuning, we achieve substantial improvements over a baseline trained from scratch; we improve mean performance of model-based algorithm EfficientZero by 23%, and by as much as 71% in some instances.
翻訳日:2023-06-17 03:26:03 公開日:2023-06-15
# 異なる環境条件下での視覚に基づくロバストレーン検出と追跡

Vision-Based Robust Lane Detection and Tracking under Different Challenging Environmental Conditions ( http://arxiv.org/abs/2210.10233v3 )

ライセンス: Link先を確認
Samia Sultana, Boshir Ahmed, Manoranjan Paul, Muhammad Rafiqul Islam and Shamim Ahmad(参考訳) レーンマーキング検出は、どちらも先進運転支援システムの基本である。 しかし,実生活の困難な環境や悪天候のため,道路道路標識の視認性が低い場合,車線検出は極めて困難である。 レーン検出法の大部分は,4種類の課題に苦しむ。 (i)光効果、すなわち影、光の輝き、反射等 ; 二 自然災害及び悪天候による浸食、ぼやけた、彩色し、ひび割れた車線の目立たない視認性 (iii)周辺(妻、車両等)からの異なる物体による車線標識の閉塞 (iv)車線ビュー内、例えばガードレール、舗装マーキング、道路分割などの混乱した車線が存在すること。 本稿では,3つの重要な技術を用いたロバストレーン検出・追跡手法を提案する。 まず,低強度レーンエッジ検出におけるキャニー演算子の性能向上のために,包括的強度閾値範囲(CITR)を導入する。 第2に,2段階のレーン検証手法である角度ベース幾何制約 (AGC) と長さベース幾何制約 (LGC) を提案し,Hough Transform を用いてレーンマーキングの特性を検証し,誤ったレーン検出を防止する。 最後に,従来のフレームの車線位置に対して更新されるx軸に沿った水平車線位置(RHLP)の範囲を定義することにより,新しい車線追跡手法を提案する。 左または右または両レーンのマーキングが部分的に完全に見えない場合、車線位置を追跡することができる。 提案手法の性能評価には, DSDLDE [1] と SLD [2] データセットを用いて, それぞれ 1080x1920 と 480x720 の分解能を 24 と 25 フレーム/秒で比較した。 実験の結果、平均検出率は97.55%であり、平均処理時間は22.33 msec/frameであった。

Lane marking detection is fundamental for both advanced driving assistance systems. However, detecting lane is highly challenging when the visibility of a road lane marking is low due to real-life challenging environment and adverse weather. Most of the lane detection methods suffer from four types of challenges: (i) light effects i.e., shadow, glare of light, reflection etc.; (ii) Obscured visibility of eroded, blurred, colored and cracked lane caused by natural disasters and adverse weather; (iii) lane marking occlusion by different objects from surroundings (wiper, vehicles etc.); and (iv) presence of confusing lane like lines inside the lane view e.g., guardrails, pavement marking, road divider etc. Here, we propose a robust lane detection and tracking method with three key technologies. First, we introduce a comprehensive intensity threshold range (CITR) to improve the performance of the canny operator in detecting low intensity lane edges. Second, we propose a two-step lane verification technique, the angle based geometric constraint (AGC) and length-based geometric constraint (LGC) followed by Hough Transform, to verify the characteristics of lane marking and to prevent incorrect lane detection. Finally, we propose a novel lane tracking technique, by defining a range of horizontal lane position (RHLP) along the x axis which will be updating with respect to the lane position of previous frame. It can keep track of the lane position when either left or right or both lane markings are partially and fully invisible. To evaluate the performance of the proposed method we used the DSDLDE [1] and SLD [2] dataset with 1080x1920 and 480x720 resolutions at 24 and 25 frames/sec respectively. Experimental results show that the average detection rate is 97.55%, and the average processing time is 22.33 msec/frame, which outperform the state of-the-art method.
翻訳日:2023-06-17 03:25:09 公開日:2023-06-15
# 散逸格子における工学的想像上のスタークはしご:パッシブ$\mathcal{PT}$対称性、K対称性、局在減衰

Engineering imaginary stark ladder in a dissipative lattice: passive $\mathcal{PT}$ symmetry, K symmetry and localized damping ( http://arxiv.org/abs/2210.08725v3 )

ライセンス: Link先を確認
Yu Zhang, Shu Chen(参考訳) 仮想スタークラダーモデルについて検討し, サイト依存散逸強度を線形に増加させた散逸連鎖におけるモデルの実現を提案する。 k$対称性とパッシブな $\mathcal{pt}$ 対称性の存在から、このモデルはエルミートとは全く異なる特徴を示す。 散逸強度の増加に伴い、システムはまずパッシブな$\mathcal{pt}$-symmetry breaking 遷移を行い、シフトした固有値が実数から複素数に変化し、その後、同じ間隔の純粋な虚数スペクトルの出現によって特徴づけられる$k$-symmetry 回復遷移を行う。 したがって、固有状態は$\mathcal{PT}$-unbroken拡張状態から$\mathcal{PT}$-broken状態に変化し、最終的に局所化された状態に変化する。 リンドブラッド方程式によって制御される量子オープンシステムの枠組みにおいて, 単一粒子相関関数の動的発展は, 想像上のスターク・ラダーモデルのハミルトニアンによって制御されることを明らかにした。 様々な初期状態における密度分布の動的進化を研究することにより,減衰ダイナミクスが異なる領域で異なる挙動を示すことを証明した。 強い散逸限界には局所減衰が観察される。

We study an imaginary stark ladder model and propose a realization of the model in a dissipative chain with linearly increasing site-dependent dissipation strength. Due to the existence of a $K$-symmetry and passive $\mathcal{PT}$ symmetry, the model exhibits quite different feature from its Hermitian counterpart. With the increase of dissipation strength, the system first undergoes a passive $\mathcal{PT}$-symmetry breaking transition, with the shifted eigenvalues changing from real to complex, and then a $K$-symmetry restoring transition, characterized by the emergence of pure imaginary spectrum with equal spacing. Accordingly, the eigenstates change from $\mathcal{PT}$-unbroken extended states to the $\mathcal{PT}$-broken states, and finally to stark localized states. In the framework of the quantum open system governed by Lindblad equation with linearly increasing site-dependent dissipation, we unveil that the dynamical evolution of single particle correlation function is governed by the Hamiltonian of the imaginary stark ladder model. By studying the dynamical evolution of the density distribution under various initial states, we demonstrate that the damping dynamics displays distinct behaviors in different regions. A localized damping is observed in the strong dissipation limit.
翻訳日:2023-06-17 03:23:49 公開日:2023-06-15
# 擬似ラベルは半スーパービジョンギブズアルゴリズムの一般化誤差にどのように影響するか?

How Does Pseudo-Labeling Affect the Generalization Error of the Semi-Supervised Gibbs Algorithm? ( http://arxiv.org/abs/2210.08188v2 )

ライセンス: Link先を確認
Haiyun He, Gholamali Aminian, Yuheng Bu, Miguel Rodrigues, Vincent Y. F. Tan(参考訳) 擬似ラベル付き半教師付き学習(SSL)における予測一般化誤差(ゲンエラー)をギブスアルゴリズムを用いて正確に評価する。 genエラーは、出力仮説、擬似ラベル付きデータセット、ラベル付きデータセットの間の対称性kl情報を用いて表現される。 ゲンエラーの分布自由な上及び下限も得ることができる。 その結果、擬似ラベル付きsslの一般化性能は、出力仮説と入力トレーニングデータ間の情報だけでなく、"em labeled}と"em pseudo-labeled"データサンプル間の情報「em shared」によっても影響を受けるという新たな知見が得られた。 これは、特定の種類のメソッドから適切な擬似ラベル方法を選択するためのガイドラインとして機能する。 理解を深めるために、平均推定とロジスティック回帰という2つの例をさらに探ります。 特に、ラベルなしデータとラベル付きデータの比率$\lambda$がどちらのシナリオでもgen-errorにどのように影響するかを分析する。 \lambda$が増加すると、平均推定のためのgen-errorは減少し、すべてのサンプルがラベル付けされたときよりも大きな値で飽和し、このギャップは解析によって定量化され、ラベル付きデータと擬似ラベル付きデータサンプルの間の \emph{cross-covariance} に依存する。 ロジスティック回帰では、ゲンエラーと過剰リスクの分散成分も$\lambda$が増加するにつれて減少する。

We provide an exact characterization of the expected generalization error (gen-error) for semi-supervised learning (SSL) with pseudo-labeling via the Gibbs algorithm. The gen-error is expressed in terms of the symmetrized KL information between the output hypothesis, the pseudo-labeled dataset, and the labeled dataset. Distribution-free upper and lower bounds on the gen-error can also be obtained. Our findings offer new insights that the generalization performance of SSL with pseudo-labeling is affected not only by the information between the output hypothesis and input training data but also by the information {\em shared} between the {\em labeled} and {\em pseudo-labeled} data samples. This serves as a guideline to choose an appropriate pseudo-labeling method from a given family of methods. To deepen our understanding, we further explore two examples -- mean estimation and logistic regression. In particular, we analyze how the ratio of the number of unlabeled to labeled data $\lambda$ affects the gen-error under both scenarios. As $\lambda$ increases, the gen-error for mean estimation decreases and then saturates at a value larger than when all the samples are labeled, and the gap can be quantified {\em exactly} with our analysis, and is dependent on the \emph{cross-covariance} between the labeled and pseudo-labeled data samples. For logistic regression, the gen-error and the variance component of the excess risk also decrease as $\lambda$ increases.
翻訳日:2023-06-17 03:23:22 公開日:2023-06-15
# ベイズ型固定予算ベストアーム識別

Bayesian Fixed-Budget Best-Arm Identification ( http://arxiv.org/abs/2211.08572v3 )

ライセンス: Link先を確認
Alexia Atsidakou, Sumeet Katariya, Sujay Sanghavi, Branislav Kveton(参考訳) 固定予算ベストアーム識別(英: fixed-budget best-arm identification、bai)は、エージェントが観測予算内で最適なアームを識別する確率を最大化するバンディット問題である。 本研究では,この問題をベイズ・セッティングで研究する。 ベイズ除去アルゴリズムを提案し,その最適アームを誤認する確率の上界を導出する。 境界は前者の品質を反映し、この設定における最初の分布依存境界である。 私たちは、事前の処理を行い、最後にbanditインスタンスを統合するという、頻繁な議論を使ってそれを証明します。 また、2ドルの武器を持つベイズ・バンディットの誤識別の確率を低くし、上限(ほぼ)がどの予算でも一致していることを示す。 実験の結果,ベイジアン除去は頻繁な手法よりも優れており,保証のない最先端のベイジアンアルゴリズムと競合することがわかった。

Fixed-budget best-arm identification (BAI) is a bandit problem where the agent maximizes the probability of identifying the optimal arm within a fixed budget of observations. In this work, we study this problem in the Bayesian setting. We propose a Bayesian elimination algorithm and derive an upper bound on its probability of misidentifying the optimal arm. The bound reflects the quality of the prior and is the first distribution-dependent bound in this setting. We prove it using a frequentist-like argument, where we carry the prior through, and then integrate out the bandit instance at the end. We also provide a lower bound on the probability of misidentification in a $2$-armed Bayesian bandit and show that our upper bound (almost) matches it for any budget. Our experiments show that Bayesian elimination is superior to frequentist methods and competitive with the state-of-the-art Bayesian algorithms that have no guarantees in our setting.
翻訳日:2023-06-17 03:16:47 公開日:2023-06-15
# ATCO2コーパス:航空交通制御通信の音声認識と自然言語理解に関する研究のための大規模データセット

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications ( http://arxiv.org/abs/2211.04054v2 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Karel Vesel\'y and Igor Sz\"oke and Alexander Blatt and Petr Motlicek and Martin Kocour and Mickael Rigault and Khalid Choukri and Amrutha Prasad and Seyyed Saeed Sarfjoo and Iuliia Nigmatulina and Claudia Cevenini and Pavel Kol\v{c}\'arek and Allan Tart and Jan \v{C}ernock\'y and Dietrich Klakow(参考訳) デジタル世界では,パーソナルアシスタント,自動音声認識,対話理解システムがますます重要になっている。 明確な例として、航空管制(ATC)通信がある。 atcは航空機を誘導し、安全かつ最適な方法で空域を制御することを目的としている。 これらの音声ベースの対話は、atco(air traffic controller)と高周波数の無線チャネルを介してパイロットの間で行われる。 これらの新しい技術をATC(低リソース領域)に組み込むには、データ駆動型AIシステムの開発には大規模なアノテートデータセットが必要である。 2つの例は、自動音声認識(ASR)と自然言語理解(NLU)である。 本稿では,アノテートデータの欠如により遅れを取っているatc分野の研究の促進を目的としたデータセットであるatco2コーパスを提案する。 ATCO2コーパスカバー 1)データ収集及び前処理 2)音声データの擬似注釈,及び 3) atc関連名前付きエンティティの抽出。 ATCO2コーパスは3つのサブセットに分けられる。 1)ATCO2-test-set corpusは、手書き文字によるATC音声の4時間と、名前付き認識(コールサイン、コマンド、値)のための金アノテーションのサブセットを含む。 2)ATCO2-PLセットコーパスは,ドメイン内音声認識器,文脈情報,話者ターン情報,信号対雑音比推定,英単語検出スコアから,5281時間の未ラベルATCデータから成っている。 どちらもELDA経由で http://catalog.elra.info/en-us/repository/browse/ELRA-S0484 で購入することができる。 3) ATCO2-test-set-1hコーパスは、元のテストセットコーパスから1時間のサブセットであり、https://www.atco2.org/data.comで無料で提供しています。 我々はATCO2コーパスが、ATC通信だけでなく、一般研究コミュニティにおいても堅牢なASRとNLUの研究を促進することを期待している。

Personal assistants, automatic speech recognizers and dialogue understanding systems are becoming more critical in our interconnected digital world. A clear example is air traffic control (ATC) communications. ATC aims at guiding aircraft and controlling the airspace in a safe and optimal manner. These voice-based dialogues are carried between an air traffic controller (ATCO) and pilots via very-high frequency radio channels. In order to incorporate these novel technologies into ATC (low-resource domain), large-scale annotated datasets are required to develop the data-driven AI systems. Two examples are automatic speech recognition (ASR) and natural language understanding (NLU). In this paper, we introduce the ATCO2 corpus, a dataset that aims at fostering research on the challenging ATC field, which has lagged behind due to lack of annotated data. The ATCO2 corpus covers 1) data collection and pre-processing, 2) pseudo-annotations of speech data, and 3) extraction of ATC-related named entities. The ATCO2 corpus is split into three subsets. 1) ATCO2-test-set corpus contains 4 hours of ATC speech with manual transcripts and a subset with gold annotations for named-entity recognition (callsign, command, value). 2) The ATCO2-PL-set corpus consists of 5281 hours of unlabeled ATC data enriched with automatic transcripts from an in-domain speech recognizer, contextual information, speaker turn information, signal-to-noise ratio estimate and English language detection score per sample. Both available for purchase through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. 3) The ATCO2-test-set-1h corpus is a one-hour subset from the original test set corpus, that we are offering for free at https://www.atco2.org/data. We expect the ATCO2 corpus will foster research on robust ASR and NLU not only in the field of ATC communications but also in the general research community.
翻訳日:2023-06-17 03:15:18 公開日:2023-06-15
# 生成前兆を用いた安定な深部mri再構成

Stable Deep MRI Reconstruction using Generative Priors ( http://arxiv.org/abs/2210.13834v3 )

ライセンス: Link先を確認
Martin Zach and Florian Knoll and Thomas Pock(参考訳) データ駆動型アプローチは近年MRI(MRI)再建において顕著な成功を収めたが、一般化性や解釈性の欠如により臨床ルーチンへの統合は困難である。 本稿では,これらの課題を生成的画像優先に基づく統一フレームワークで解決する。 本稿では,参照等級画像のみに生成的設定を施した新しい深層ニューラルネットワークに基づく正則化器を提案する。 トレーニング後、正規化器は高レベルの領域統計を符号化し、データなしで画像を合成する。 訓練されたモデルを古典的な変分法に組み込むことは、サブサンプリングパターンに関係なく高品質な再構築をもたらす。 さらに, コントラスト変動の形で分布外データと対向する場合には, 安定な挙動を示す。 さらに、確率論的解釈は再構成の分布を提供し、不確かさの定量化を可能にする。 並列MRIを再構成するために,画像と感度マップを共同で推定する高速アルゴリズムを提案する。 その結果、サブサンプリングパターンに対する柔軟性を保ちながら、最先端のディープラーニング手法と同等の競争性能を示し、不確実な定量化を可能にした。

Data-driven approaches recently achieved remarkable success in magnetic resonance imaging (MRI) reconstruction, but integration into clinical routine remains challenging due to a lack of generalizability and interpretability. In this paper, we address these challenges in a unified framework based on generative image priors. We propose a novel deep neural network based regularizer which is trained in a generative setting on reference magnitude images only. After training, the regularizer encodes higher-level domain statistics which we demonstrate by synthesizing images without data. Embedding the trained model in a classical variational approach yields high-quality reconstructions irrespective of the sub-sampling pattern. In addition, the model shows stable behavior when confronted with out-of-distribution data in the form of contrast variation. Furthermore, a probabilistic interpretation provides a distribution of reconstructions and hence allows uncertainty quantification. To reconstruct parallel MRI, we propose a fast algorithm to jointly estimate the image and the sensitivity maps. The results demonstrate competitive performance, on par with state-of-the-art end-to-end deep learning methods, while preserving the flexibility with respect to sub-sampling patterns and allowing for uncertainty quantification.
翻訳日:2023-06-17 03:13:43 公開日:2023-06-15
# 量子およびハイブリッドアルゴリズムを用いたシミュレーションおよび物理量子処理ユニットのベンチマーク

Benchmarking simulated and physical quantum processing units using quantum and hybrid algorithms ( http://arxiv.org/abs/2211.15631v2 )

ライセンス: Link先を確認
Mohammad Kordzanganeh, Markus Buchberger, Basil Kyriacou, Maxim Povolotskii, Wilhelm Fischer, Andrii Kurkin, Wilfrid Somogyi, Asel Sagingalieva, Markus Pflitsch, Alexey Melnikov(参考訳) 強力なハードウェアサービスとソフトウェアライブラリは、量子アルゴリズムを迅速に設計、テスト、実行するための必須のツールである。 これらのプラットフォームのパフォーマンスがキュービット数でどのようにスケールするかに関する堅牢な大規模研究は、業界問題に対する量子ソリューションを提供する上で鍵となる。 この作業は、特殊な高性能シミュレーションおよび物理量子処理ユニットの代表的なサンプルのランタイムと精度をベンチマークする。 その結果、QMwareシミュレータは、27キュービット未満のアルゴリズムの次の最速オプションと比較して、量子回路の実行ランタイムを最大78%削減できることがわかった。 AWS SV1シミュレータは、SV1で利用可能な最大34キュービットまでの大きな回路に対して、ランタイム上のアドバンテージを提供する。 この限界を超えて、QMwareは40キュービットの回路を実行できる。 リゲッティのAspen-M2のような物理量子デバイスは、30量子ビット以上の回路に対して指数的ランタイムの利点を提供する。 しかし、物理的量子処理ユニットの高コストは、実用化への深刻な障壁となっている。 さらに、IonQのHarmony量子デバイスのみが、4ビット以上の高忠実性を達成する。 この研究は、実用的な量子アルゴリズムを実行するための利用可能なソフトウェアとハードウェアの最適な組み合わせを理解する方法を示している。

Powerful hardware services and software libraries are vital tools for quickly and affordably designing, testing, and executing quantum algorithms. A robust large-scale study of how the performance of these platforms scales with the number of qubits is key to providing quantum solutions to challenging industry problems. This work benchmarks the runtime and accuracy for a representative sample of specialized high-performance simulated and physical quantum processing units. Results show the QMware simulator can reduce the runtime for executing a quantum circuit by up to 78% compared to the next fastest option for algorithms with fewer than 27 qubits. The AWS SV1 simulator offers a runtime advantage for larger circuits, up to the maximum 34 qubits available with SV1. Beyond this limit, QMware can execute circuits as large as 40 qubits. Physical quantum devices, such as Rigetti's Aspen-M2, can provide an exponential runtime advantage for circuits with more than 30 qubits. However, the high financial cost of physical quantum processing units presents a serious barrier to practical use. Moreover, only IonQ's Harmony quantum device achieves high fidelity with more than four qubits. This study paves the way to understanding the optimal combination of available software and hardware for executing practical quantum algorithms.
翻訳日:2023-06-17 03:05:44 公開日:2023-06-15
# BeGin: 大規模なベンチマークシナリオとグラフ連続学習のための使いやすいフレームワーク

BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning ( http://arxiv.org/abs/2211.14568v2 )

ライセンス: Link先を確認
Jihoon Ko, Shinhwan Kang, Taehyung Kwon, Heechan Moon, and Kijung Shin(参考訳) 連続学習(continual learning、cl)は、タスクのシーケンスを無停止に学習するプロセスである。 ほとんどの既存のCLメソッドは独立したデータ(画像やテキストなど)を扱うが、標準の実験環境下で多くのベンチマークフレームワークや結果が利用可能である。 しかし、グラフデータのためのclメソッド(graph cl)は驚くほど未熟である。 (a) 標準の実験的な設定の欠如、特にインスタンス間の依存関係の扱い方について。 b) ベンチマークデータセットとシナリオの欠如 (c)依存性による実装と評価の複雑さが高い。 本稿では, (a) グラフデータのための4つの標準的なインクリメンタル設定(タスク、クラス、ドメイン、タイムインクリメンタル)を定義し、多くのノード、リンク、グラフレベルの問題に対して自然に適用する。 周辺 (b)実世界の15のグラフに基づく25のベンチマークシナリオを提供する。 周辺 (c) グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。 BeGinはデータ処理、アルゴリズム設計、評価のための再利用可能なモジュールでモジュール化されているため、容易に拡張できる。 特に評価モジュールはユーザコードから完全に分離され、潜在的なミスを排除します。 これらすべてを用いて、10のグラフclメソッドの広範なベンチマーク結果を報告する。 BeGinを使ったグラフCLの最新のベンチマークと比較すると、インクリメンタルな設定と問題レベルの組み合わせは3倍になる。 ベンチマークフレームワークの全資産はhttps://github.com/ShinhwanKang/BeGin.comで入手できる。

Continual Learning (CL) is the process of learning ceaselessly a sequence of tasks. Most existing CL methods deal with independent data (e.g., images and text) for which many benchmark frameworks and results under standard experimental settings are available. However, CL methods for graph data (graph CL) are surprisingly underexplored because of (a) the lack of standard experimental settings, especially regarding how to deal with the dependency between instances, (b) the lack of benchmark datasets and scenarios, and (c) high complexity in implementation and evaluation due to the dependency. In this paper, regarding (a), we define four standard incremental settings (task-, class-, domain-, and time-incremental) for graph data, which are naturally applied to many node-, link-, and graph-level problems. Regarding (b), we provide 25 benchmark scenarios based on 15 real-world graphs. Regarding (c), we develop BeGin, an easy and fool-proof framework for graph CL. BeGin is easily extended since it is modularized with reusable modules for data processing, algorithm design, and evaluation. Especially, the evaluation module is completely separated from user code to eliminate potential mistakes. Using all the above, we report extensive benchmark results of 10 graph CL methods. Compared to the latest benchmark for graph CL, using BeGin, we cover 3x more combinations of incremental settings and levels of problems. All assets for the benchmark framework are available at https://github.com/ShinhwanKang/BeGin.
翻訳日:2023-06-17 03:05:27 公開日:2023-06-15
# モナイを用いたオープンソース頭蓋骨再建術

Open-Source Skull Reconstruction with MONAI ( http://arxiv.org/abs/2211.14051v2 )

ライセンス: Link先を確認
Jianning Li, Andr\'e Ferreira, Behrus Puladi, Victor Alves, Michael Kamp, Moon-Sung Kim, Felix Nensa, Jens Kleesiek, Seyed-Ahmad Ahmadi, Jan Egger(参考訳) MUG500+の頭蓋骨データセットを事前訓練したmonAIの深層学習に基づく頭蓋骨再建法を提案する。 実装はmonAIコントリビューションガイドラインに従っているため、monAIユーザが簡単に試し、使用し、拡張することができる。 本論文の主な目的は,monaiフレームワークの下で,オープンソースコードと事前学習されたディープラーニングモデルを調査することである。 現在、オープンソースソフトウェア、特に(トレーニング済みの)ディープラーニングモデルがますます重要になっている。 長年にわたり、医療画像分析は大きな変化を経験してきた。 10年以上前、アルゴリズムはCやC++のような低レベルのプログラミング言語で実装され、最適化されなければならなかった。 今日では、Pythonのようなハイレベルなスクリプト言語や、PyTorchやTensorFlowといったフレームワーク、さらには多くの公開コードリポジトリが手元にある。 結果として、過去に数千行のCやC++コードを持つ実装が、数行でスクリプト化され、また、わずかな時間で実行できるようになった。 これをさらに高レベルにするために、MonAI(Medicical Open Network for Artificial Intelligence)フレームワークは、医療画像研究をより便利なプロセスに調整し、全分野を加速させ、推進する。 monaiフレームワークは、コミュニティがサポートし、オープンソースで、pytorchベースのフレームワークで、事前トレーニングされたモデルによる研究貢献を他の人に提供することができる。 頭蓋骨再建のためのコードとトレーニング済み重量は、https://github.com/Project-MONAI/research-contributions/tree/master/SkullRecで公開されている。

We present a deep learning-based approach for skull reconstruction for MONAI, which has been pre-trained on the MUG500+ skull dataset. The implementation follows the MONAI contribution guidelines, hence, it can be easily tried out and used, and extended by MONAI users. The primary goal of this paper lies in the investigation of open-sourcing codes and pre-trained deep learning models under the MONAI framework. Nowadays, open-sourcing software, especially (pre-trained) deep learning models, has become increasingly important. Over the years, medical image analysis experienced a tremendous transformation. Over a decade ago, algorithms had to be implemented and optimized with low-level programming languages, like C or C++, to run in a reasonable time on a desktop PC, which was not as powerful as today's computers. Nowadays, users have high-level scripting languages like Python, and frameworks like PyTorch and TensorFlow, along with a sea of public code repositories at hand. As a result, implementations that had thousands of lines of C or C++ code in the past, can now be scripted with a few lines and in addition executed in a fraction of the time. To put this even on a higher level, the Medical Open Network for Artificial Intelligence (MONAI) framework tailors medical imaging research to an even more convenient process, which can boost and push the whole field. The MONAI framework is a freely available, community-supported, open-source and PyTorch-based framework, that also enables to provide research contributions with pre-trained models to others. Codes and pre-trained weights for skull reconstruction are publicly available at: https://github.com/Project-MONAI/research-contributions/tree/master/SkullRec
翻訳日:2023-06-17 03:04:53 公開日:2023-06-15
# 敵対的安価トーク

Adversarial Cheap Talk ( http://arxiv.org/abs/2211.11030v2 )

ライセンス: Link先を確認
Chris Lu, Timon Willi, Alistair Letcher, Jakob Foerster(参考訳) 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。 そこで本稿では,Victim の観察に決定論的メッセージを単に付加するだけで,最小限の影響が生じる,Cheap Talk MDP という新たな敵設定を提案する。 Adversaryは、根底にある環境力学や報奨信号の影響、非定常性の導入、確率性の追加、ヴィクティムの行動の確認、パラメータへのアクセスを防げない。 さらに,本手法では,adversarial cheap talk (act) と呼ばれる単純なメタ学習アルゴリズムを提案する。 我々は,行為を訓練した敵が,非常に制約された設定にもかかわらず,被害者の訓練やテスト性能に大きな影響を与えることを実証する。 列車時のパフォーマンスへの影響は、新たな攻撃ベクトルを明らかにし、既存のRLアルゴリズムの成功と失敗モードに関する洞察を提供する。 具体的には、ACT Adversaryは学習者の関数近似に干渉することで性能を損なうことができ、代わりに有用な機能を出力することで、Victimのパフォーマンスを支援することができることを示す。 最後に、ACT Adversaryが列車中のメッセージを操作して、テスト時にVictimを直接任意に制御できることを示す。 プロジェクトビデオとコードはhttps://sites.google.com/view/adversarial-cheap-talkで入手できる。

Adversarial attacks in reinforcement learning (RL) often assume highly-privileged access to the victim's parameters, environment, or data. Instead, this paper proposes a novel adversarial setting called a Cheap Talk MDP in which an Adversary can merely append deterministic messages to the Victim's observation, resulting in a minimal range of influence. The Adversary cannot occlude ground truth, influence underlying environment dynamics or reward signals, introduce non-stationarity, add stochasticity, see the Victim's actions, or access their parameters. Additionally, we present a simple meta-learning algorithm called Adversarial Cheap Talk (ACT) to train Adversaries in this setting. We demonstrate that an Adversary trained with ACT still significantly influences the Victim's training and testing performance, despite the highly constrained setting. Affecting train-time performance reveals a new attack vector and provides insight into the success and failure modes of existing RL algorithms. More specifically, we show that an ACT Adversary is capable of harming performance by interfering with the learner's function approximation, or instead helping the Victim's performance by outputting useful features. Finally, we show that an ACT Adversary can manipulate messages during train-time to directly and arbitrarily control the Victim at test-time. Project video and code are available at https://sites.google.com/view/adversarial-cheap-talk
翻訳日:2023-06-17 03:03:21 公開日:2023-06-15
# HiveNAS:人工蜂コロニー最適化を用いたニューラルネットワーク探索

HiveNAS: Neural Architecture Search using Artificial Bee Colony Optimization ( http://arxiv.org/abs/2211.10250v2 )

ライセンス: Link先を確認
Mohamed Shahawy and Elhadj Benkhelifa(参考訳) 従来のニューラルネットワーク開発プロセスは、かなりの専門知識を必要とし、直観と試行錯誤に大きく依存している。 neural architecture search (nas)フレームワークは、ロバストにネットワークトポロジを検索し、ニューラルネットワークの自動開発を促進するために導入された。 遺伝的アルゴリズムのような最適化手法はNASの文脈で広く研究されているが、他のメタヒューリスティック最適化アルゴリズムはまだ研究されていない。 本研究では,ニューラルネットワーク探索のための人工蜂コロニー最適化の有効性を評価する。 提案するフレームワークであるHiveNASは、最先端のSwarm IntelligenceベースのNASフレームワークを短時間で上回ります。

The traditional Neural Network-development process requires substantial expert knowledge and relies heavily on intuition and trial-and-error. Neural Architecture Search (NAS) frameworks were introduced to robustly search for network topologies, as well as facilitate the automated development of Neural Networks. While some optimization approaches -- such as Genetic Algorithms -- have been extensively explored in the NAS context, other Metaheuristic Optimization algorithms have not yet been investigated. In this study, we evaluate the viability of Artificial Bee Colony optimization for Neural Architecture Search. Our proposed framework, HiveNAS, outperforms existing state-of-the-art Swarm Intelligence-based NAS frameworks in a fraction of the time.
翻訳日:2023-06-17 03:02:57 公開日:2023-06-15
# インジウムイオン注入により生成したZnOのドナー量子ビットの性質

Properties of donor qubits in ZnO formed by indium ion implantation ( http://arxiv.org/abs/2212.05230v4 )

ライセンス: Link先を確認
Xingyi Wang, Christian Zimmermann, Michael Titze, Vasileios Niaouris, Ethan R. Hansen, Samuel H. D'Ambrosia, Lasse Vines, Edward S. Bielejec, Kai-Mei C. Fu(参考訳) ZnOの浅中性ドナー(D$^{0}$)は、固体スピン量子ビットの候補として期待されている。 ZnO中のD$^{0}$の形成はInの注入とその後の焼鈍によるものである。 埋め込みInドナーは、$\textit{in situ}$ doped donorと同等の光学特性とスピン特性を示す。 ドナーバウンド励起子転移の不均質な線幅は10ghz未満であり、光学的線幅である$\textit{in situ}$ inに匹敵する。 経時的スピン緩和時間(T_1$)は、$\textit{in situ}$ Ga ドナーの報告値を超える。 ドナースピン上の2つのレーザーラマン分光は、ドナー電子とスピン-9/2 In核との超微細な相互作用を明らかにする。 この研究は、長寿命の核スピンメモリへの光学的アクセスを持つZnOにおけるInドナー量子ビットの決定論的形成に向けた重要なステップである。

Shallow neutral donors (D$^{0}$) in ZnO have emerged as a promising candidate for solid-state spin qubits. Here, we report on the formation of D$^{0}$ in ZnO via implantation of In and subsequent annealing. The implanted In donors exhibit optical and spin properties on par with $\textit{in situ}$ doped donors. The inhomogeneous linewidth of the donor-bound exciton transition is less than 10 GHz, comparable to the optical linewidth of $\textit{in situ}$ In. Longitudinal spin relaxation times ($T_1$) exceed reported values for $\textit{in situ}$ Ga donors, indicating that residual In implantation damage does not degrade $T_1$. Two laser Raman spectroscopy on the donor spin reveals the hyperfine interaction of the donor electron with the spin-9/2 In nuclei. This work is an important step toward the deterministic formation of In donor qubits in ZnO with optical access to a long-lived nuclear spin memory.
翻訳日:2023-06-17 02:56:31 公開日:2023-06-15
# 健康オントロジーの社会的決定因子(SDoHO)の体系設計と評価

Systematic Design and Evaluation of Social Determinants of Health Ontology (SDoHO) ( http://arxiv.org/abs/2212.01941v2 )

ライセンス: Link先を確認
Yifang Dang, Fang Li, Xinyue Hu, Vipina K. Keloth, Meng Zhang, Sunyang Fu, Jingcheng Du, J. Wilfred Fan, Muhammad F. Amith, Evan Yu, Hongfang Liu, Xiaoqian Jiang, Hua Xu, Cui Tao(参考訳) 健康の社会的決定因子(SDoH)は、健康の結果と幸福に重大な影響を及ぼす。 SDoHに対処することは、医療の不平等を減らし、"シックケア"システムを"ヘルスプロモーション"システムに変える鍵である。 sdohの用語のギャップに対処し、より高度な生体医学情報学に関連要素を組み込むため、sdohoオントロジー(sdoho)を提案し、sdohの基本因子とその関係を標準化され、測定可能な方法で表現する。 オントロジーは、複数のSDoH関連リソースに基づいて、クラス、関係、制約を正式にモデル化する。 臨床ノートデータと全国調査を用いた専門家レビューとカバレッジ評価の結果は良好であった。 SDoHOは、SDoHと健康結果の関係を包括的に理解するための基盤を提供し、人口間の健康的平等への道を開く上で、不可欠な役割を果たす可能性がある。

Social determinants of health (SDoH) have a significant impact on health outcomes and well-being. Addressing SDoH is the key to reducing healthcare inequalities and transforming a "sick care" system into a "health promoting" system. To address the SDOH terminology gap and better embed relevant elements in advanced biomedical informatics, we propose an SDoH ontology (SDoHO), which represents fundamental SDoH factors and their relationships in a standardized and measurable way. The ontology formally models classes, relationships, and constraints based on multiple SDoH-related resources. Expert review and coverage evaluation, using clinical notes data and a national survey, showed satisfactory results. SDoHO could potentially play an essential role in providing a foundation for a comprehensive understanding of the associations between SDoH and health outcomes and providing a path toward health equity across populations.
翻訳日:2023-06-17 02:55:56 公開日:2023-06-15
# 膨張する宇宙の境界におけるフェルミオン生成:冷たい原子の重力類似物

Fermion production at the boundary of an expanding universe: a cold-atom gravitational analogue ( http://arxiv.org/abs/2212.01355v6 )

ライセンス: Link先を確認
Carlos Fulgado-Claudio, Jose M. S\'anchez Vel\'azquez, Alejandro Bermudez(参考訳) フリードマン・ロバートソン・ウォーカー時空におけるディラック・フェルミオンの宇宙論的粒子生成現象を,ジャッキー・テイテルボイム重力の方程式によってスケール因子の進化が設定される(1+1)次元の場合に焦点をあてた。 この現象の量子シミュレーションへの第一歩として、2つの格子正則化を考えることにより、粒子生成の相互作用と境界を持つ時空における位相現象を探索することができる。 特に、ディラック場のウィルソン型離散化では、中間拡大によって連結された漸近的ミンコフスキー空隙は対称性で保護された位相基底状態に対応し、空間境界に指数関数的に局在したゼロモードの形で境界を現示する。 また, 粒子生成は粒子生成を伴わないna\"ive-fermion discretizationの状況と対照的に, 粒子生成がこれらのゼロモードをポピュレートできることを示した。 本稿では、ラマン格子の超低温原子を用いたこの重力アナログの量子シミュレーション手法を提案する。これは、シミュレーション時空のスケール係数に応じてラマンビームデチューニングをリアルタイムに制御することと、バンドマッピングの測定を必要とする。

We study the phenomenon of cosmological particle production of Dirac fermions in a Friedman-Robertson-Walker spacetime, focusing on a (1+1)-dimensional case in which the evolution of the scale factor is set by the equations of Jackiw-Teitelboim gravity. As a first step towards a quantum simulation of this phenomenon, we consider two possible lattice regularizations, which allow us to explore the interplay of particle production and topological phenomena in spacetimes with a boundary. In particular, for a Wilson-type discretization of the Dirac field, the asymptotic Minkowski vacua connected by the intermediate expansion corresponds to symmetry-protected topological groundstates, and have a boundary manifestation in the form of zero-modes exponentially localized to the spatial boundaries. We show that particle production can also populate these zero modes, which contrasts with the situation with a na\"ive-fermion discretization, in which conformal zero-mass fields exhibit no particle production. We present a scheme for the quantum simulation of this gravitational analogue by means of ultra-cold atoms in Raman optical lattices, which requires real-time control of the Raman-beam detuning according to the scale factor of the simulated spacetime, as well as band-mapping measurements.
翻訳日:2023-06-17 02:55:39 公開日:2023-06-15
# 遅延ヘッシアンによる二階最適化

Second-order optimization with lazy Hessians ( http://arxiv.org/abs/2212.00781v3 )

ライセンス: Link先を確認
Nikita Doikov, El Mahdi Chayti, Martin Jaggi(参考訳) 一般の非凸最適化問題を解くために,遅延ヘッセン更新を用いたニュートン法を解析した。 提案手法では,各ステップで新しい勾配を計算しながら,いくつかのイテレーションで既見のヘッシアンを再利用する。 これは二階最適化スキームの全体的な算術的複雑性を大幅に削減する。 立方正則化法を用いて,本手法の高速な大域収束を2次定常点に確立する一方,ヘッセンは反復ごとに更新される必要はない。 凸問題に対して、計算が容易な2次正規化による遅延ニュートンステップのグローバルおよび局所超線形率を正当化する。 ヘシアンを更新する最適な周波数は、1回$d$の繰り返しであり、$d$は問題の次元である。 これは2階アルゴリズムの算術的複雑性を$\sqrt{d}$で証明的に改善する。

We analyze Newton's method with lazy Hessian updates for solving general possibly non-convex optimization problems. We propose to reuse a previously seen Hessian for several iterations while computing new gradients at each step of the method. This significantly reduces the overall arithmetical complexity of second-order optimization schemes. By using the cubic regularization technique, we establish fast global convergence of our method to a second-order stationary point, while the Hessian does not need to be updated each iteration. For convex problems, we justify global and local superlinear rates for lazy Newton steps with quadratic regularization, which is easier to compute. The optimal frequency for updating the Hessian is once every $d$ iterations, where $d$ is the dimension of the problem. This provably improves the total arithmetical complexity of second-order algorithms by a factor $\sqrt{d}$.
翻訳日:2023-06-17 02:54:51 公開日:2023-06-15
# 不整合ランキングに基づく高品質データのノイズラベル検出

Inconsistency Ranking-based Noisy Label Detection for High-quality Data ( http://arxiv.org/abs/2212.00239v2 )

ライセンス: Link先を確認
Ruibin Yuan, Hanzhi Yin, Yi Wang, Yifan He, Yushi Ye, Lei Zhang, Zhizheng Wu(参考訳) ディープラーニングの成功には、高品質な注釈と膨大なデータが必要です。 しかし、データセットのサイズと品質は通常、データ収集とクリーニングが高価で時間がかかるため、トレードオフとなる。 現実世界のアプリケーション、特にクラウドソーシングデータセットを使用するアプリケーションでは、ノイズの多いラベルを除外することが重要です。 そこで本稿では,高品質データに対する不整合ランキングを用いた雑音ラベル検出(nld)手法を提案する。 本稿では,この手法を概念実証として自動話者検証(ASV)タスクに適用する。 クラス間およびクラス内非一貫性のランキングを調査し、異なる雑音環境下でのいくつかのメトリック学習損失関数を比較した。 実験の結果,提案手法は大規模話者認識データセットの効率的かつ効果的にクリーニングできることがわかった。

The success of deep learning requires high-quality annotated and massive data. However, the size and the quality of a dataset are usually a trade-off in practice, as data collection and cleaning are expensive and time-consuming. In real-world applications, especially those using crowdsourcing datasets, it is important to exclude noisy labels. To address this, this paper proposes an automatic noisy label detection (NLD) technique with inconsistency ranking for high-quality data. We apply this technique to the automatic speaker verification (ASV) task as a proof of concept. We investigate both inter-class and intra-class inconsistency ranking and compare several metric learning loss functions under different noise settings. Experimental results confirm that the proposed solution could increase both the efficient and effective cleaning of large-scale speaker recognition datasets.
翻訳日:2023-06-17 02:54:40 公開日:2023-06-15
# 量子イジング鎖における測定誘起遷移のプローブとしてのフルカウント統計

Full counting statistics as probe of measurement-induced transitions in the quantum Ising chain ( http://arxiv.org/abs/2212.09405v3 )

ライセンス: Link先を確認
Emanuele Tirrito, Alessandro Santini, Rosario Fazio and Mario Collura(参考訳) 測定プロトコルの影響下での多体量子システムの非平衡ダイナミクスは、注目を集めている。 近年、測定によって異なる非平衡状態が引き起こされ、二成分の絡み合いエントロピーのスケーリング則が急変することが判明している。 しかし、これらのレジームがどのように出現し、どのように局所的な量の統計に影響を及ぼし、最終的に熱力学の限界で生き残るかという理解はあまり確立されていない。 本稿では,モニタリング環境に結合した量子イジング鎖における測定誘起相転移について検討する。 特に局所射影測定は局所磁化の平衡外確率分布関数を定量的に変化させることを示す。 GHZ状態から始めると、常磁性と強磁性秩序の緩和が解析される。 特に, 前者の確率分布が, 地域法規と容積法則で異なる振る舞いを示すかを説明する。

Non-equilibrium dynamics of many-body quantum systems under the effect of measurement protocols is attracting an increasing amount of attention. It has been recently revealed that measurements may induce different non-equilibrium regimes and an abrupt change in the scaling-law of the bipartite entanglement entropy. However, our understanding of how these regimes appear, how they affect the statistics of local quantities and, finally whether they survive in the thermodynamic limit, is much less established. Here we investigate measurement-induced phase transitions in the Quantum Ising chain coupled to a monitoring environment. In particular we show that local projective measurements induce a quantitative modification of the out-of-equilibrium probability distribution function of the local magnetization. Starting from a GHZ state, the relaxation of the paramagnetic and the ferromagnetic order is analysed. In particular we describe how the probability distribution of the former shows different behaviour in the area-law and volume-law regimes.
翻訳日:2023-06-17 02:44:24 公開日:2023-06-15
# 視覚・音声・言語のための文脈化目標表現を用いた効率的な自己教師付き学習

Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language ( http://arxiv.org/abs/2212.07525v2 )

ライセンス: Link先を確認
Alexei Baevski, Arun Babu, Wei-Ning Hsu, Michael Auli(参考訳) 現在の自己教師付き学習アルゴリズムは、しばしば様相特異的であり、大量の計算リソースを必要とする。 これらの課題に対処するため,複数のモダリティにまたがる学習目標であるData2vecのトレーニング効率を向上する。 マスクされたトークンをエンコードせず、高速畳み込みデコーダを使用し、教師の表現を構築する努力を償却します。 data2vec 2.0は、data2vecで導入された豊富なコンテキスト化されたターゲット表現の恩恵を受ける。 ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍の事前学習時間でMasked Autoencodersの精度、Librispeech音声認識では10.6倍の時間でwav2vec 2.0、GLUE自然言語では再訓練されたRoBERTaモデルと半分の時間で一致している。 ImageNet-1K トップ-1 の精度は 86.8 % となり、ViT-L モデルは150エポックで訓練された。

Current self-supervised learning algorithms are often modality-specific and require large amounts of computational resources. To address these issues, we increase the training efficiency of data2vec, a learning objective that generalizes across several modalities. We do not encode masked tokens, use a fast convolutional decoder and amortize the effort to build teacher representations. data2vec 2.0 benefits from the rich contextualized target representations introduced in data2vec which enable a fast self-supervised learner. Experiments on ImageNet-1K image classification show that data2vec 2.0 matches the accuracy of Masked Autoencoders in 16.4x lower pre-training time, on Librispeech speech recognition it performs as well as wav2vec 2.0 in 10.6x less time, and on GLUE natural language understanding it matches a retrained RoBERTa model in half the time. Trading some speed for accuracy results in ImageNet-1K top-1 accuracy of 86.8\% with a ViT-L model trained for 150 epochs.
翻訳日:2023-06-17 02:43:47 公開日:2023-06-15
# 非エルミート位相:原理と展望

Non-Hermitian Topological Phases: Principles and Prospects ( http://arxiv.org/abs/2212.06478v5 )

ライセンス: Link先を確認
Ayan Banerjee, Ronika Sarkar, Soumi Dey, Awadhesh Narayan(参考訳) 非エルミート的概念と位相的概念の相乗効果は近年非常に実りある活動へと繋がった。 これらの相互作用により、様々な新しい非エルミート位相現象が発見されている。 本稿では,非エルミート位相の位相的特徴を支える重要な原理について述べる。 Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger および non-Hermitian Chern insulator というパラダイムモデルを用いて、例外点、複素エネルギーギャップ、非Hermitian対称性分類を含む非Hermitian topological system の中心的な特徴を説明する。 非エルミート皮膚効果と、バルク境界対応の復元を可能にする一般化ブリルアンゾーンの概念について議論する。 具体例を用いて障害の役割を考察し,線形応答枠組みを示し,非エルミート位相系のホール輸送特性を解析した。 また、この分野の急速な実験的進歩についても調査する。 最後に、近い将来の探査に有望である可能性のある方向を強調することで締めくくります。

The synergy between non-Hermitian concepts and topological ideas have led to very fruitful activity in the recent years. Their interplay has resulted in a wide variety of new non-Hermitian topological phenomena being discovered. In this review, we present the key principles underpinning the topological features of non-Hermitian phases. Using paradigmatic models -- Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger and non-Hermitian Chern insulator -- we illustrate the central features of non-Hermitian topological systems, including exceptional points, complex energy gaps and non-Hermitian symmetry classification. We discuss the non-Hermitian skin effect and the notion of the generalized Brillouin zone, which allows restoring the bulk-boundary correspondence. Using concrete examples, we examine the role of disorder, present the linear response framework, and analyze the Hall transport properties of non-Hermitian topological systems. We also survey the rapidly growing experimental advances in this field. Finally, we end by highlighting possible directions which, in our view, may be promising for explorations in the near future.
翻訳日:2023-06-17 02:43:06 公開日:2023-06-15
# Visuo-Motorコントロールの事前学習について:学習ベースラインの再検討

On Pre-Training for Visuo-Motor Control: Revisiting a Learning-from-Scratch Baseline ( http://arxiv.org/abs/2212.05749v2 )

ライセンス: Link先を確認
Nicklas Hansen and Zhecheng Yuan and Yanjie Ze and Tongzhou Mu and Aravind Rajeswaran and Hao Su and Huazhe Xu and Xiaolong Wang(参考訳) 本稿では,ビジュオモータ制御タスクの事前学習の有効性について検討する。 データ拡張と浅いConvNetを組み込んだシンプルなLearning-from-Scratch(LfS)ベースラインを再検討し、このベースラインが、さまざまなアルゴリズム、タスクドメイン、シミュレーションおよび実際のロボット上でトレーニングされた大規模なビジョンデータセットでトレーニングされた凍結された視覚表現を活用する、最近のアプローチ(PVR、MVP、R3M)と驚くほど競合していることを発見した。 以上の結果から, これらの手法は, 微調整により緩和されるビジュオモータ制御のための, 事前学習データセットと現在のベンチマークとの間に, ドメインギャップを生じさせることが示唆された。 以上より,制御のための事前学習における今後の研究を推奨し,この領域の進捗を正確にベンチマークする上で,単純かつ強力なベースラインが役立つことを期待する。

In this paper, we examine the effectiveness of pre-training for visuo-motor control tasks. We revisit a simple Learning-from-Scratch (LfS) baseline that incorporates data augmentation and a shallow ConvNet, and find that this baseline is surprisingly competitive with recent approaches (PVR, MVP, R3M) that leverage frozen visual representations trained on large-scale vision datasets -- across a variety of algorithms, task domains, and metrics in simulation and on a real robot. Our results demonstrate that these methods are hindered by a significant domain gap between the pre-training datasets and current benchmarks for visuo-motor control, which is alleviated by finetuning. Based on our findings, we provide recommendations for future research in pre-training for control and hope that our simple yet strong baseline will aid in accurately benchmarking progress in this area.
翻訳日:2023-06-17 02:42:44 公開日:2023-06-15
# 構造状態空間モデルを用いた拡散型条件付きECG生成

Diffusion-based Conditional ECG Generation with Structured State Space Models ( http://arxiv.org/abs/2301.08227v2 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz and Nils Strodthoff(参考訳) 合成データ生成は、機密性のある健康データの配布に関するプライバシー問題に対処するための有望なソリューションである。 近年、拡散モデルは異なるデータモダリティのための生成モデルの新しい標準を定めている。 また、非常に最近、構造化状態空間モデルが、時系列における長期的な依存関係を捉える強力なモデリングパラダイムとして登場した。 我々は,SSSD-ECGとこれら2つの技術を組み合わせて,70以上の心電図を条件とした合成12誘導心電図を作成した。 また, 信頼性の高いベースラインの欠如により, 2つの無条件生成モデルの条件付き変種を提案する。 ssd-ecgがganベースの競合相手を明らかに上回る合成データのみを訓練した分類器の性能を評価することにより,生成したサンプルの品質を徹底的に評価する。 本研究では,SSSD-ECG試料の品質を幅広い条件で検証し,条件付きクラス補間と臨床チューリング試験を含むさらなる実験により,アプローチの健全性を示す。

Synthetic data generation is a promising solution to address privacy issues with the distribution of sensitive health data. Recently, diffusion models have set new standards for generative models for different data modalities. Also very recently, structured state space models emerged as a powerful modeling paradigm to capture long-term dependencies in time series. We put forward SSSD-ECG, as the combination of these two technologies, for the generation of synthetic 12-lead electrocardiograms conditioned on more than 70 ECG statements. Due to a lack of reliable baselines, we also propose conditional variants of two state-of-the-art unconditional generative models. We thoroughly evaluate the quality of the generated samples, by evaluating pretrained classifiers on the generated data and by evaluating the performance of a classifier trained only on synthetic data, where SSSD-ECG clearly outperforms its GAN-based competitors. We demonstrate the soundness of our approach through further experiments, including conditional class interpolation and a clinical Turing test demonstrating the high quality of the SSSD-ECG samples across a wide range of conditions.
翻訳日:2023-06-17 02:37:21 公開日:2023-06-15
# ガウス量子環境の量子古典的分解:確率的擬似モードモデル

A quantum-classical decomposition of Gaussian quantum environments: a stochastic pseudomode model ( http://arxiv.org/abs/2301.07554v2 )

ライセンス: Link先を確認
Si Luo, Neill Lambert, Pengfei Liang, Mauro Cirio(参考訳) 量子系に線形に結合したガウスボソニック環境の効果は、0温度および古典的確率場における初期ボソニックモードの集合によって特徴づけられる確率的リンドブラッドマスター方程式によってシミュレートできることを示す。 本研究では, 指数的および多項式的カットオフによるオーミック環境の手法として, 運動の階層的方程式と決定論的擬モードモデルを用いて, 量子自由度を減少させる手法を検証した。 有理スペクトル密度のサブセットの場合、全てのパラメータは適合手順を必要とせずに明示的に指定され、モデリング戦略を簡素化する。 興味深いことに、この分解における古典場は時として虚数値であり、実数値場とは対照的にシステムのエントロピーを減少させることができることを示すことによって、システム特性に直観的な反作用をもたらす。

We show that the effect of a Gaussian Bosonic environment linearly coupled to a quantum system can be simulated by a stochastic Lindblad master equation characterized by a set of ancillary Bosonic modes initially at zero temperature and classical stochastic fields. We test the method for Ohmic environments with exponential and polynomial cut-offs against, respectively, the Hierarchical Equations of Motion and the deterministic pseudomode model with respect to which the number of ancillary quantum degrees of freedom is reduced. For a subset of rational spectral densities, all parameters are explicitly specified without the need of any fitting procedure, thereby simplifying the modeling strategy. Interestingly, the classical fields in this decomposition must sometimes be imaginary-valued, which can have counter-intuitive effects on the system properties which we demonstrate by showing that they can decrease the entropy of the system, in contrast to real-valued fields.
翻訳日:2023-06-17 02:37:05 公開日:2023-06-15
# polypセグメンテーションのためのマルチカーネル位置埋め込みconvnext

Multi Kernel Positional Embedding ConvNeXt for Polyp Segmentation ( http://arxiv.org/abs/2301.06673v2 )

ライセンス: Link先を確認
Trong-Hieu Nguyen Mau, Quoc-Huy Trinh, Nhat-Tan Bui, Minh-Triet Tran, Hai-Dang Nguyen(参考訳) 医用画像分割は、特に大腸癌において、医師の診察を助け、正確な診断を行う技術である。 特に、症例の増加に伴い、多くの患者にとって診断と診断はより迅速かつ正確に行う必要があり、内視鏡画像では、ポリープの位置やシステム内のアッシュを正確に識別するのを助けるために、セグメンテーションタスクが不可欠である。 その結果,ポリプセグメンテーションの自動化に深層学習を適用し,その多くがU字構造の改善に寄与した。 しかし、UNetの単純なスキップ接続方式は、エンコーダとデコーダの機能マップ間のセマンティックギャップやコンテキスト情報の不足につながる。 この問題に対処するために,ConvNeXtバックボーンとマルチカーネル位置埋め込みブロックからなる新しいフレームワークを提案する。 提案したモジュールにより,本手法はポリープ分割タスクにおいて,精度の向上と一般化を実現することができる。 Kvasir-SEG データセット上で,我々のモデルではDice 係数 0.8818 と IOU スコア 0.8163 が得られた。 さらに,様々なデータセットにおいて,従来の最先端手法と競合する結果を得る。

Medical image segmentation is the technique that helps doctor view and has a precise diagnosis, particularly in Colorectal Cancer. Specifically, with the increase in cases, the diagnosis and identification need to be faster and more accurate for many patients; in endoscopic images, the segmentation task has been vital to helping the doctor identify the position of the polyps or the ache in the system correctly. As a result, many efforts have been made to apply deep learning to automate polyp segmentation, mostly to ameliorate the U-shape structure. However, the simple skip connection scheme in UNet leads to deficient context information and the semantic gap between feature maps from the encoder and decoder. To deal with this problem, we propose a novel framework composed of ConvNeXt backbone and Multi Kernel Positional Embedding block. Thanks to the suggested module, our method can attain better accuracy and generalization in the polyps segmentation task. Extensive experiments show that our model achieves the Dice coefficient of 0.8818 and the IOU score of 0.8163 on the Kvasir-SEG dataset. Furthermore, on various datasets, we make competitive achievement results with other previous state-of-the-art methods.
翻訳日:2023-06-17 02:35:49 公開日:2023-06-15
# 巡回グラフ上の量子ウォークによる最大絡み合った単一粒子状態の繰り返し生成

Recurrent generation of maximally entangled single particle states via quantum walks on cyclic graphs ( http://arxiv.org/abs/2301.04501v2 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin(参考訳) 最大絡み合った単一粒子状態(MESPS)は、より多くの情報をエンコードする可能性があり、非局所的な2粒子に比べてデコヒーレンスに強いため、量子技術の新たな可能性を開く。 1つのコインが4ドルと8ドルのサイト巡回グラフ上で離散時間量子ウォークによって(周期的に)繰り返し時間ステップでMESPSを生成できることを初めて示す。 このスキームは資源節約であり、同じコインが各タイミングで適用されるため、おそらく最も単純な実験的な実現である。 また、任意の$k$サイトサイクリックグラフ、$k\in\{3,4,5,8\}$に対して、有効特異コイン(Identity and arbitrary coin)または2つのコイン進化シーケンスを介して繰り返しMESPSを生成することができることを示す。 循環グラフにおける繰り返しMESPS生成の影響は、基礎研究に限らない。 提案されている応用の一つは量子暗号プロトコルである。 セキュアな通信のために暗号鍵として使用できるMESPSを生成するために、循環グラフをどのように利用できるかを示す。 MESPSの固有の絡み合いと堅牢性は、量子通信システムのセキュリティを高めるのに適している。

Maximally entangled single particle states (MESPS) are opening new possibilities in quantum technology as they have the potential to encode more information and are robust to decoherence compared to their nonlocal two-particle counterparts. For the first time, we show that a single coin can generate MESPS at recurrent time steps (periodically) via discrete-time quantum walks on both $4$ and $8$ site cyclic graphs. This scheme is resource-saving with possibly the most straightforward experimental realization since the same coin is applied at each time step. We also show that recurrent MESPS can be generated on any arbitrary $k$ site cyclic graph, $k\in\{3,4,5,8\}$ via effective-single coin (Identity and arbitrary coin) or two coin evolution sequences. The implications of recurrent MESPS generation on cyclic graphs is not limited to fundamental research. One proposed application is in quantum cryptography protocols. We show how cyclic graphs can be utilized to generate MESPS that can be used as cryptographic keys for secure communication. The inherent entanglement and robustness of MESPS make them suitable for enhancing the security of quantum communication systems.
翻訳日:2023-06-17 02:35:27 公開日:2023-06-15
# 量子重ね合わせを脱離するホライズンを殺す

Killing Horizons Decohere Quantum Superpositions ( http://arxiv.org/abs/2301.00026v2 )

ライセンス: Link先を確認
Daine L. Danielson, Gautam Satishchandran, Robert M. Wald(参考訳) 我々は最近、質量の大きい(あるいは荷電された)天体が量子空間上の重ね合わせに置かれる場合、その近傍にブラックホールが存在するだけで、最終的に重ね合わせは解消されることを示した。 本稿では、より一般的に、静止重ね合わせのデコヒーレンスがキリング地平線を持つ任意の時空で起こることを示す。 これは、事実上、天体の長距離場がキリング地平線に登録され、その地平線を通して「ソフト地平線重力子/光子」の束を必要とするためである。 キリング地平線は量子重ね合わせの「どの経路」情報を収集し、有限時間で任意の量子重ね合わせをデコヒートする。 特に、平時時における量子重ね合わせにおける一様加速体の場合を分析することは指導的である。 リンドラーの視点から見ると、重ね合わせはリンドラーの地平線を(リンドラーの)エネルギーで伝播する「ソフト・グラビトン/フォトン」によって解かれている。 このデコヒーレンス効果は、ウンルー放射の存在によって生じるデコヒーレンスと、それより大きいデコヒーレンスとの違いを示す。 さらに、慣性の観点から、デコヒーレンスは、高周波数(慣性)グラビトン/光子からヌル無限遠点への放射によるものであることを示す。 (リンドラー地平線を伝播する重力子/光子の概念は、零無限度に伝播する重力子/光子の概念と同じである。) また,ド・ジッター時空における宇宙地平線の存在による空間的重ね合わせのデコヒーレンスを解析した。 我々は、リンドラーと宇宙論の両方の場合において、そのような量子重ね合わせのデコヒーレンス時間の推定を提供する。 時空次元 $d=4$ の場合を明示的に扱うが、解析は任意の次元 $d \geq 4$ に適用される。

We recently showed that if a massive (or charged) body is put in a quantum spatial superposition, the mere presence of a black hole in its vicinity will eventually decohere the superposition. In this paper we show that, more generally, decoherence of stationary superpositions will occur in any spacetime with a Killing horizon. This occurs because, in effect, the long-range field of the body is registered on the Killing horizon which, we show, necessitates a flux of "soft horizon gravitons/photons" through the horizon. The Killing horizon thereby harvests "which path" information of quantum superpositions and will decohere any quantum superposition in a finite time. It is particularly instructive to analyze the case of a uniformly accelerating body in a quantum superposition in flat spacetime. As we show, from the Rindler perspective the superposition is decohered by "soft gravitons/photons" that propagate through the Rindler horizon with negligible (Rindler) energy. We show that this decoherence effect is distinct from--and larger than--the decoherence resulting from the presence of Unruh radiation. We further show that from the inertial perspective, the decoherence is due to the radiation of high frequency (inertial) gravitons/photons to null infinity. (The notion of gravitons/photons that propagate through the Rindler horizon is the same notion as that of gravitons/photons that propagate to null infinity.) We also analyze the decoherence of a spatial superposition due to the presence of a cosmological horizon in de Sitter spacetime. We provide estimates of the decoherence time for such quantum superpositions in both the Rindler and cosmological cases. Although we explicitly treat the case of spacetime dimension $d=4$, our analysis applies to any dimension $d \geq 4$.
翻訳日:2023-06-17 02:35:04 公開日:2023-06-15
# 大規模言語モデルによる人間の知覚判断の予測

Large language models predict human sensory judgments across six modalities ( http://arxiv.org/abs/2302.01308v2 )

ライセンス: Link先を確認
Raja Marjieh, Ilia Sucholutsky, Pol van Rijn, Nori Jacoby, Thomas L. Griffiths(参考訳) 知覚世界が言語から回復できる範囲を決定することは、哲学と認知科学における長年の問題である。 現状の大規模言語モデルが,言語から抽出可能な知覚情報の量に低いバウンダリを提供することで,この問題に対する新たな洞察を解き放つことができることを示す。 具体的には、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を行う。 その結果,色輪やピッチスパイラルなどのよく知られた表現を復元し,すべての領域における人間のデータと有意な相関が認められた。 驚くべきことに、視覚と言語を併用したモデル(GPT-4)が、必ずしも視覚的モダリティに特有の改善をもたらすとは限らない。 特定の言語が知覚に与える影響を研究するため,多言語カラーナーミングタスクにもモデルを適用した。 GPT-4は言語と知覚の相互作用を示す英語とロシア語の言語間差異を再現する。

Determining the extent to which the perceptual world can be recovered from language is a longstanding problem in philosophy and cognitive science. We show that state-of-the-art large language models can unlock new insights into this problem by providing a lower bound on the amount of perceptual information that can be extracted from language. Specifically, we elicit pairwise similarity judgments from GPT models across six psychophysical datasets. We show that the judgments are significantly correlated with human data across all domains, recovering well-known representations like the color wheel and pitch spiral. Surprisingly, we find that a model (GPT-4) co-trained on vision and language does not necessarily lead to improvements specific to the visual modality. To study the influence of specific languages on perception, we also apply the models to a multilingual color-naming task. We find that GPT-4 replicates cross-linguistic variation in English and Russian illuminating the interaction of language and perception.
翻訳日:2023-06-17 02:25:45 公開日:2023-06-15
# mnemosyne:トランスフォーマーによるトランスフォーマーのトレーニングを学ぶ

Mnemosyne: Learning to Train Transformers with Transformers ( http://arxiv.org/abs/2302.01128v2 )

ライセンス: Link先を確認
Deepali Jain, Krzysztof Marcin Choromanski, Avinava Dubey, Sumeet Singh, Vikas Sindhwani, Tingnan Zhang, Jie Tan(参考訳) 複雑な機械学習(ML)アーキテクチャのトレーニングには、適切なオプティマイザを選択し、ハイパーパラメータをチューニングする計算と時間を要する。 データからオプティマイザを学習する新たなパラダイムが,手作業で設計したMLオプティマイザの代替として登場した。 暗黙の低ランクアテンション変換器であるPerformerを利用するMnemosyneオプティマイザを提案する。 タスク固有のオプティマイザチューニングなしで、他のトランスフォーマーを含むニューラルネットワークアーキテクチャ全体をトレーニングすることを学ぶことができる。 mnemosyneをお見せします (a)一般的なLSTMオプティマイザよりも優れた一般化を行う。 (b)特に標準mlpでメタトレーニングしながら視覚トランスフォーマー(vits)をうまく訓練することができる。 (c)ロボットアプリケーションにおけるより高速な収束のために最適化器を初期化することができる。 これらの結果は,通常のトランスフォーマートレーニングの課題に対処可能な基礎最適化モデルを構築する上で,トランスフォーマーを使用する可能性を開くものだと考えている。 我々は、Mnemosyneが使用するコンパクトな連想記憶の広範な理論的解析でその結果を補完する。

Training complex machine learning (ML) architectures requires a compute and time consuming process of selecting the right optimizer and tuning its hyper-parameters. A new paradigm of learning optimizers from data has emerged as a better alternative to hand-designed ML optimizers. We propose Mnemosyne optimizer, that uses Performers: implicit low-rank attention Transformers. It can learn to train entire neural network architectures including other Transformers without any task-specific optimizer tuning. We show that Mnemosyne: (a) generalizes better than popular LSTM optimizer, (b) in particular can successfully train Vision Transformers (ViTs) while meta--trained on standard MLPs and (c) can initialize optimizers for faster convergence in Robotics applications. We believe that these results open the possibility of using Transformers to build foundational optimization models that can address the challenges of regular Transformer training. We complement our results with an extensive theoretical analysis of the compact associative memory used by Mnemosyne.
翻訳日:2023-06-17 02:25:30 公開日:2023-06-15
# 例外点に対する熱帯幾何学的アプローチ

A Tropical Geometric Approach To Exceptional Points ( http://arxiv.org/abs/2301.13485v2 )

ライセンス: Link先を確認
Ayan Banerjee, Rimika Jaiswal, Madhusudan Manjunath, Awadhesh Narayan(参考訳) 非エルミート系はフォトニクスから電気回路まで幅広く研究されている。 非エルミート系の決定的な特徴は例外点(EP)であり、固有値と固有ベクトルの両方が結合する。 トロピカル幾何学(英: tropical geometry)は、代数幾何学と多面幾何学の間の界面における数学の新しい分野であり、科学への多様な応用である。 本稿では,非エルミート系の異なる面を特徴付ける統一的熱帯幾何学的枠組みを紹介,開発する。 提案手法は,いくつかの例を用いて汎用性を示し,利得・損失モデルにおける高次epのスペクトルから選択し,非エルミートsu-シュリーファー・ヘーガーモデルにおける皮膚効果を予測し,ハザーノ・ネルソンモデルにおける障害の存在下での普遍的特性を抽出するために有効であることを示す。 我々の研究は、非エルミート物理学を研究するための新しい枠組みを定め、この分野への熱帯幾何学の新しい接続を明らかにした。

Non-Hermitian systems have been widely explored in platforms ranging from photonics to electric circuits. A defining feature of non-Hermitian systems is exceptional points (EPs), where both eigenvalues and eigenvectors coalesce. Tropical geometry is an emerging field of mathematics at the interface between algebraic geometry and polyhedral geometry, with diverse applications to science. Here, we introduce and develop a unified tropical geometric framework to characterize different facets of non-Hermitian systems. We illustrate the versatility of our approach using several examples, and demonstrate that it can be used to select from a spectrum of higher-order EPs in gain and loss models, predict the skin effect in the non-Hermitian Su-Schrieffer-Heeger model, and extract universal properties in the presence of disorder in the Hatano-Nelson model. Our work puts forth a new framework for studying non-Hermitian physics and unveils a novel connection of tropical geometry to this field.
翻訳日:2023-06-17 02:24:22 公開日:2023-06-15
# BLIP-2:凍結画像エンコーダと大規模言語モデルを用いたブートストラップ言語画像事前学習

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ( http://arxiv.org/abs/2301.12597v3 )

ライセンス: Link先を確認
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi(参考訳) 大規模モデルのエンドツーエンドトレーニングにより、視覚と言語による事前学習のコストはますます厳しくなっている。 本稿では,市販の凍結済み画像エンコーダと凍結大型言語モデルから視覚言語事前学習をブートストラップする汎用的で効率的な事前学習戦略BLIP-2を提案する。 BLIP-2は2つの段階で事前訓練された軽量クエリ変換器でモダリティギャップを埋める。 第1ステージは、凍結画像エンコーダから視覚言語表現学習をブートストラップする。 第2ステージは、凍結した言語モデルから視覚から言語への生成学習をブートストラップする。 BLIP-2は、既存の手法に比べてトレーニング可能なパラメータが大幅に少ないにもかかわらず、様々な視覚言語タスクにおける最先端のパフォーマンスを実現する。 例えば、Flamingo80BはゼロショットVQAv2で8.7%、トレーニング可能なパラメータは54倍である。 また、自然言語の指示に従うことができるゼロショット画像・テキスト生成の新たな能力を示す。

The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language models. BLIP-2 bridges the modality gap with a lightweight Querying Transformer, which is pre-trained in two stages. The first stage bootstraps vision-language representation learning from a frozen image encoder. The second stage bootstraps vision-to-language generative learning from a frozen language model. BLIP-2 achieves state-of-the-art performance on various vision-language tasks, despite having significantly fewer trainable parameters than existing methods. For example, our model outperforms Flamingo80B by 8.7% on zero-shot VQAv2 with 54x fewer trainable parameters. We also demonstrate the model's emerging capabilities of zero-shot image-to-text generation that can follow natural language instructions.
翻訳日:2023-06-17 02:24:03 公開日:2023-06-15
# B-BACN:ひび割れ評価のためのベイズ境界対応畳み込みネットワーク

B-BACN: Bayesian Boundary-Aware Convolutional Network for Crack Characterization ( http://arxiv.org/abs/2302.06827v3 )

ライセンス: Link先を確認
Rahul Rathnakumar, Yutian Pang, Yongming Liu(参考訳) き裂境界の正確な検出は、構造的健康モニタリング、診断、予後、メンテナンススケジュールなどの構造や材料の信頼性評価とリスク管理に不可欠である。 き裂検出の不確かさの定量化は, 測定ノイズ, 信号処理, モデル単純化など, 様々な確率的要因により困難である。 機械学習に基づくアプローチは、てんかんと失語症の両方を同時に定量化する。 我々は,不確実性を考慮した境界修正を重視したベイズ境界対応畳み込みネットワーク(B-BACN)を導入し,高精度で信頼性の高いき裂境界検出を行う。 提案手法はマルチタスク学習手法を採用しており,モンテカルロドロップアウトを用いて認識の不確かさを学習し,ガウスサンプリング関数を用いて各サンプルの有意不確かさを予測する。 さらに,B-BACNに対する境界微細化損失も含み,欠陥境界の決定性を高める。 提案手法はベンチマーク実験により実証され,既存の手法と比較した。 実験結果は,不確実性を考慮したき裂境界検出,誤分類率の最小化,モデルキャリブレーション能力の向上における提案手法の有効性を示す。

Accurately detecting crack boundaries is crucial for reliability assessment and risk management of structures and materials, such as structural health monitoring, diagnostics, prognostics, and maintenance scheduling. Uncertainty quantification of crack detection is challenging due to various stochastic factors, such as measurement noises, signal processing, and model simplifications. A machine learning-based approach is proposed to quantify both epistemic and aleatoric uncertainties concurrently. We introduce a Bayesian Boundary-Aware Convolutional Network (B-BACN) that emphasizes uncertainty-aware boundary refinement to generate precise and reliable crack boundary detections. The proposed method employs a multi-task learning approach, where we use Monte Carlo Dropout to learn the epistemic uncertainty and a Gaussian sampling function to predict each sample's aleatoric uncertainty. Moreover, we include a boundary refinement loss to B-BACN to enhance the determination of defect boundaries. The proposed method is demonstrated with benchmark experimental results and compared with several existing methods. The experimental results illustrate the effectiveness of our proposed approach in uncertainty-aware crack boundary detection, minimizing misclassification rate, and improving model calibration capabilities.
翻訳日:2023-06-17 02:16:25 公開日:2023-06-15
# 身元不明な共同創設者の学習による脱バイアス推薦

Debiasing Recommendation by Learning Identifiable Latent Confounders ( http://arxiv.org/abs/2302.05052v2 )

ライセンス: Link先を確認
Qing Zhang, Xiaoying Zhang, Yang Liu, Hongning Wang, Min Gao, Jiheng Zhang, Ruocheng Guo(参考訳) レコメンデーションシステムは、公開されていないアイテムに対するユーザのフィードバックを予測することを目的としている。 矛盾するバイアスは、測定されていない変数(例えば、ユーザの社会経済的地位)の存在によって生じ、ユーザーの露出とフィードバックの両方に影響を与える。 既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。 しかし、反事実フィードバックの同定は保証できず、偏りのある予測につながる可能性がある。 そこで本研究では,前述の非識別問題を解決するために,一連のプロキシ変数(例えば,ユーザ特徴)を活用する新しい手法,すなわち識別可能なデコノウ(iDCF)を提案する。 提案したiDCFは,不測な共同創設者を推測し,理論的保証とともに反事実的フィードバックを識別するために,近因性推論を適用した一般的な非定型推薦フレームワークである。 様々な実世界および合成データセットに関する大規模な実験は、提案手法の有効性と堅牢性を検証する。

Recommendation systems aim to predict users' feedback on items not exposed to them. Confounding bias arises due to the presence of unmeasured variables (e.g., the socio-economic status of a user) that can affect both a user's exposure and feedback. Existing methods either (1) make untenable assumptions about these unmeasured variables or (2) directly infer latent confounders from users' exposure. However, they cannot guarantee the identification of counterfactual feedback, which can lead to biased predictions. In this work, we propose a novel method, i.e., identifiable deconfounder (iDCF), which leverages a set of proxy variables (e.g., observed user features) to resolve the aforementioned non-identification issue. The proposed iDCF is a general deconfounded recommendation framework that applies proximal causal inference to infer the unmeasured confounders and identify the counterfactual feedback with theoretical guarantees. Extensive experiments on various real-world and synthetic datasets verify the proposed method's effectiveness and robustness.
翻訳日:2023-06-17 02:16:04 公開日:2023-06-15
# スーパーサンプルからの高次情報理論一般化境界

Tighter Information-Theoretic Generalization Bounds from Supersamples ( http://arxiv.org/abs/2302.02432v3 )

ライセンス: Link先を確認
Ziqiao Wang, Yongyi Mao(参考訳) 本研究では,Steinke & Zakynthinou (2020) のスーパーサンプル設定から「条件付き相互情報」フレームワークの設定まで,学習アルゴリズムのための情報理論の新たな一般化境界について述べる。 当社の開発では、損失ペア(トレーニングインスタンスとテストインスタンスから保持されている)を単一の数にプロジェクションし、損失値をrademacherシーケンス(とそのシフトされた変種)に関連付ける。 提示される境界には平方根境界、分散と鋭さに基づく境界を含む高速レート境界、補間アルゴリズムなどが含まれる。 理論的あるいは経験的に、これらの境界は、同じスーパーサンプル設定で知られているすべての情報理論境界よりも厳密であることを示す。

In this work, we present a variety of novel information-theoretic generalization bounds for learning algorithms, from the supersample setting of Steinke & Zakynthinou (2020)-the setting of the "conditional mutual information" framework. Our development exploits projecting the loss pair (obtained from a training instance and a testing instance) down to a single number and correlating loss values with a Rademacher sequence (and its shifted variants). The presented bounds include square-root bounds, fast-rate bounds, including those based on variance and sharpness, and bounds for interpolating algorithms etc. We show theoretically or empirically that these bounds are tighter than all information-theoretic bounds known to date on the same supersample setting.
翻訳日:2023-06-17 02:14:44 公開日:2023-06-15
# 自己参照蒸留とパリティオフセット補正を用いた自己教師付き単眼深度推定

Self-Supervised Monocular Depth Estimation with Self-Reference Distillation and Disparity Offset Refinement ( http://arxiv.org/abs/2302.09789v2 )

ライセンス: Link先を確認
Zhong Liu, Ran Li, Shuwei Shao, Xingming Wu and Weihai Chen(参考訳) 単眼深度推定はコンピュータビジョンにおいて基本的な役割を果たす。 深層地盤の真理の高コスト取得により、隣接するフレームを活用して監視信号を確立する自己監督手法が最も有望なパラダイムとして登場した。 本研究では, 自己教師付き単眼深度推定を改善するための2つの新しいアイデアを提案する。 1)自己参照蒸留及び 2)格差オフセット改良 具体的には、教師がトレーニング期間に更新したパラメータ最適化モデルを使用して、トレーニングプロセス中に追加の監督を行う。 教師モデルは学生モデルと同じ構造であり、歴史学生モデルから重みが受け継がれている。 さらに,教師モデルが生成する外れ値のフィルタリングを行うために,マルチビューチェックを導入する。 さらに,高次特徴量と低次特徴量との文脈的整合性を利用して,異なるスケールで異性情報を整列させることで,相違出力を漸進的に改善するマルチスケール異性オフセットを得る。 KITTIおよびMake3Dデータセットの実験結果から,本手法が従来の競合相手よりも優れていることが示された。

Monocular depth estimation plays a fundamental role in computer vision. Due to the costly acquisition of depth ground truth, self-supervised methods that leverage adjacent frames to establish a supervisory signal have emerged as the most promising paradigms. In this work, we propose two novel ideas to improve self-supervised monocular depth estimation: 1) self-reference distillation and 2) disparity offset refinement. Specifically, we use a parameter-optimized model as the teacher updated as the training epochs to provide additional supervision during the training process. The teacher model has the same structure as the student model, with weights inherited from the historical student model. In addition, a multiview check is introduced to filter out the outliers produced by the teacher model. Furthermore, we leverage the contextual consistency between high-scale and low-scale features to obtain multiscale disparity offsets, which are used to refine the disparity output incrementally by aligning disparity information at different scales. The experimental results on the KITTI and Make3D datasets show that our method outperforms previous state-of-the-art competitors.
翻訳日:2023-06-17 02:05:27 公開日:2023-06-15
# リコメンダシステムにおけるマルチタスクランキングモデルのトレーニング安定性の向上

Improving Training Stability for Multitask Ranking Models in Recommender Systems ( http://arxiv.org/abs/2302.09178v2 )

ライセンス: Link先を確認
Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi(参考訳) 多くのコンテンツプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。 ほとんどのレコメンデーションリサーチは、ユーザーエクスペリエンスを改善するためのより良いモデルの設計に特化していますが、そのようなモデルのトレーニングの安定化に関する研究は、非常に過小評価されています。 レコメンデーションモデルがより大きく洗練されるにつれて、モデルが使用不能になり、重要なリソースを浪費し、モデル開発をブロックする、不安定なトレーニング問題、すなわち損失発散の影響を受けやすくなります。 本稿では,YouTubeレコメンデーションのための実世界のマルチタスクランキングモデルのトレーニング安定性向上のために学んだ知見とベストプラクティスを紹介する。 不安定なトレーニングと原因の推測につながるモデルのいくつかの特性を示す。 さらに、トレーニング不安定点付近でのトレーニングダイナミクスの観察から、既存のソリューションが失敗する理由を仮説化し、既存のソリューションの限界を緩和する新しいアルゴリズムを提案する。 youtube実運用データセットを用いた実験により,提案手法はコンバージェンスを妥協することなく,トレーニングの安定性を著しく向上できることが示された。

Recommender systems play an important role in many content platforms. While most recommendation research is dedicated to designing better models to improve user experience, we found that research on stabilizing the training for such models is severely under-explored. As recommendation models become larger and more sophisticated, they are more susceptible to training instability issues, i.e., loss divergence, which can make the model unusable, waste significant resources and block model developments. In this paper, we share our findings and best practices we learned for improving the training stability of a real-world multitask ranking model for YouTube recommendations. We show some properties of the model that lead to unstable training and conjecture on the causes. Furthermore, based on our observations of training dynamics near the point of training instability, we hypothesize why existing solutions would fail, and propose a new algorithm to mitigate the limitations of existing solutions. Our experiments on YouTube production dataset show the proposed algorithm can significantly improve training stability while not compromising convergence, comparing with several commonly used baseline methods.
翻訳日:2023-06-17 02:05:09 公開日:2023-06-15
# 離散量子ガウスと中心極限定理

Discrete Quantum Gaussians and Central Limit Theorem ( http://arxiv.org/abs/2302.08423v2 )

ライセンス: Link先を確認
Kaifeng Bu, Weichen Gu, Arthur Jaffe(参考訳) 離散可変(DV)量子系の状態を研究するための量子畳み込みと概念的枠組みを導入する。 以上の結果から,安定化状態は連続変数系においてガウス状態が果たす役割に類似したdv量子系において役割を担っていることが示唆された。 例えば、2つの安定化状態の畳み込みは別の安定化状態であり、安定状態は量子エントロピーとフィッシャーの情報の両方を過小評価する。 我々は「最大エントロピー原理」と「量子畳み込みの熱力学の第二法則」と量子中心極限定理(QCLT)を定めている。 後者はゼロ平均量子状態の畳み込みを繰り返すことに基づいており、安定化状態に収束することが証明されている。 我々は、状態の特性関数の支持によって定義される「マジックギャップ」によって、qcltの指数関数収束率を制限した。 一般的な結果を、いくつかの例の議論や、それらの多くを量子チャネルに拡張して詳しく説明します。

We introduce a quantum convolution and a conceptual framework to study states in discrete-variable (DV) quantum systems. All our results suggest that stabilizer states play a role in DV quantum systems similar to the role Gaussian states play in continuous-variable systems; hence we suggest the name ''discrete quantum Gaussians'' for stabilizer states. For example, we prove that the convolution of two stabilizer states is another stabilizer state, and that stabilizer states extremize both quantum entropy and Fisher information. We establish a ''maximal entropy principle,'' a ''second law of thermodynamics for quantum convolution,'' and a quantum central limit theorem (QCLT). The latter is based on iterating the convolution of a zero-mean quantum state, which we prove converges to a stabilizer state. We bound the exponential rate of convergence of the QCLT by the ''magic gap,'' defined by the support of the characteristic function of the state. We elaborate our general results with a discussion of some examples, as well as extending many of them to quantum channels.
翻訳日:2023-06-17 02:04:00 公開日:2023-06-15
# 短距離FMCWレーダの再構成による分布検出

Reconstruction-based Out-of-Distribution Detection for Short-Range FMCW Radar ( http://arxiv.org/abs/2302.14192v2 )

ライセンス: Link先を確認
Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach(参考訳) オフ・オブ・ディストリビューション(OOD)検出は、現代のニューラルネットワークアーキテクチャを現実世界のアプリケーションに安全に配置する上で重要な役割を担っているため、最近注目を集めている。 OOD検出器は、OODデータ上の機械学習モデルの過度な予測を避けるために、トレーニング分布の外にあるサンプルを識別することを目的としている。 既存の検出器は主にロジット、中間特徴空間、ソフトマックススコア、または再構成損失に依存しており、将来性のある結果を生み出す。 しかし,これらの手法のほとんどは画像領域向けに開発されている。 本研究では,レーダ領域で動作する新しい再構成型OOD検出器を提案する。 本手法はオートエンコーダ(AE)とその潜在表現を利用してOODサンプルを検出する。 パッチベース再構築損失と各パッチの潜在表現から算出したエネルギー値を組み合わせた2つのスコアを提案する。 我々は60GHz短距離FMCWレーダを用いて収集したデータセットに対して90.72%のAUROCを実現する。 実験により,AUROC法とAUPR法は,ベースライン(AE)および他の最先端手法よりも優れた性能を示した。 また,モデルサイズが641kbであるため,本検出器は組込み使用に適している。

Out-of-distribution (OOD) detection recently has drawn attention due to its critical role in the safe deployment of modern neural network architectures in real-world applications. The OOD detectors aim to distinguish samples that lie outside the training distribution in order to avoid the overconfident predictions of machine learning models on OOD data. Existing detectors, which mainly rely on the logit, intermediate feature space, softmax score, or reconstruction loss, manage to produce promising results. However, most of these methods are developed for the image domain. In this study, we propose a novel reconstruction-based OOD detector to operate on the radar domain. Our method exploits an autoencoder (AE) and its latent representation to detect the OOD samples. We propose two scores incorporating the patch-based reconstruction loss and the energy value calculated from the latent representations of each patch. We achieve an AUROC of 90.72% on our dataset collected by using 60 GHz short-range FMCW Radar. The experiments demonstrate that, in terms of AUROC and AUPR, our method outperforms the baseline (AE) and the other state-of-the-art methods. Also, thanks to its model size of 641 kB, our detector is suitable for embedded usage.
翻訳日:2023-06-17 01:56:59 公開日:2023-06-15
# ランダムアンサンブルに対する補間クロスバリデーション

Extrapolated cross-validation for randomized ensembles ( http://arxiv.org/abs/2302.13511v2 )

ライセンス: Link先を確認
Jin-Hong Du, Pratik Patil, Kathryn Roeder, Arun Kumar Kuchibhotla(参考訳) バッジやランダムな森林といったアンサンブルの手法は、財務学からゲノム学まで、様々な分野で広く使われている。 その頻度にもかかわらず、アンサンブルパラメータの効率的なチューニングに関する問題は比較的注目されていない。 本稿では,ランダム化アンサンブルにおけるアンサンブルとサブアンブルサイズを調整するためのクロスバリデーション法ECV(Extrapolated Cross-Validation)を提案する。 提案手法は,小アンサンブルサイズの初期推定器と,予測リスクの分解構造を利用した新しいリスク外挿手法の2つを主成分として構築した。 アンサンブルおよびサブサンプルサイズに対するリスク外挿手法の一様整合性を確立することにより、正方形予測リスクに対してECVが$\delta$-optimal(オラクル調整リスクに関する)アンサンブルを得ることを示す。 この理論は一般的なアンサンブル予測器に対応しており、穏やかなモーメント仮定しか必要とせず、サンプルサイズで特徴次元が大きくなる高次元のレジームを可能にする。 実践的なケーススタディとして、ランダムな森林を用いた単細胞マルチオミクスにおける遺伝子発現から表面タンパク質量の予測にECVを用いる。 サンプル分割クロスバリデーションと$K$-foldクロスバリデーションと比較して、ECVはサンプル分割を避けて高い精度を達成する。 同時に、その計算コストはリスク外挿技術を用いることにより大幅に低下する。 さらに,最大アンサンブルサイズに対する計算制約の下で,複数の共通アンサンブル予測器に対するECVの有限サンプル精度を検証した。

Ensemble methods such as bagging and random forests are ubiquitous in various fields, from finance to genomics. Despite their prevalence, the question of the efficient tuning of ensemble parameters has received relatively little attention. This paper introduces a cross-validation method, ECV (Extrapolated Cross-Validation), for tuning the ensemble and subsample sizes in randomized ensembles. Our method builds on two primary ingredients: initial estimators for small ensemble sizes using out-of-bag errors and a novel risk extrapolation technique that leverages the structure of prediction risk decomposition. By establishing uniform consistency of our risk extrapolation technique over ensemble and subsample sizes, we show that ECV yields $\delta$-optimal (with respect to the oracle-tuned risk) ensembles for squared prediction risk. Our theory accommodates general ensemble predictors, only requires mild moment assumptions, and allows for high-dimensional regimes where the feature dimension grows with the sample size. As a practical case study, we employ ECV to predict surface protein abundances from gene expressions in single-cell multiomics using random forests. In comparison to sample-split cross-validation and $K$-fold cross-validation, ECV achieves higher accuracy avoiding sample splitting. At the same time, its computational cost is considerably lower owing to the use of the risk extrapolation technique. Additional numerical results validate the finite-sample accuracy of ECV for several common ensemble predictors under a computational constraint on the maximum ensemble size.
翻訳日:2023-06-17 01:56:10 公開日:2023-06-15
# 高速解法組合せ最適化問題に対する確率的量子アニーリング

Stochastic Simulated Quantum Annealing for Fast Solving Combinatorial Optimization Problems ( http://arxiv.org/abs/2302.12454v2 )

ライセンス: Link先を確認
Naoya Onizawa and Ryoma Sasaki and Duckgyu Shin and Warren J. Gross and Takahiro Hanyu(参考訳) 本稿では,大規模組合せ最適化問題に対する確率的量子アニール法(SSQA)を提案する。 SSQAは確率計算と量子モンテカルロに基づいて設計されており、古典計算において複数のスピン(確率ビット)のレプリカを使用することで量子アニール(QA)をシミュレートすることができる。 確率計算を用いることで、効率的な並列スピン状態更新アルゴリズムが実現し、世界最小エネルギーに関する解を素早く探索することができる。 したがって、SSQAは大規模な問題に対して量子的アニールを実現し、QAとは異なり、完全に連結されたモデルを組合せ最適化で扱うことができる。 提案手法は,典型的な組合せ最適化問題であるグラフ同型問題に対してMATLABで評価する。 提案手法は,従来の確率的擬似焼鈍法よりもはるかに高速な収束速度を実現する。 さらに、従来のSA法と比較して、QAよりも100倍大きい問題サイズと25倍大きい問題サイズを同様の収束確率で処理することができる。

In this paper, we introduce stochastic simulated quantum annealing (SSQA) for large-scale combinatorial optimization problems. SSQA is designed based on stochastic computing and quantum Monte Carlo, which can simulate quantum annealing (QA) by using multiple replicas of spins (probabilistic bits) in classical computing. The use of stochastic computing leads to an efficient parallel spin-state update algorithm, enabling quick search for a solution around the global minimum energy. Therefore, SSQA realizes quantum-like annealing for large-scale problems and can handle fully connected models in combinatorial optimization, unlike QA. The proposed method is evaluated in MATLAB on graph isomorphism problems, which are typical combinatorial optimization problems. The proposed method achieves a convergence speed an order of magnitude faster than a conventional stochastic simulaated annealing method. Additionally, it can handle a 100-times larger problem size compared to QA and a 25-times larger problem size compared to a traditional SA method, respectively, for similar convergence probabilities.
翻訳日:2023-06-17 01:55:43 公開日:2023-06-15
# DeAR: 細粒オールリデュースパイプライニングによる分散ディープラーニングの高速化

DeAR: Accelerating Distributed Deep Learning with Fine-Grained All-Reduce Pipelining ( http://arxiv.org/abs/2302.12445v2 )

ライセンス: Link先を確認
Lin Zhang, Shaohuai Shi, Xiaowen Chu, Wei Wang, Bo Li, Chengjian Liu(参考訳) 通信スケジューリングは、バックプロパゲーション計算と重複するオールリデュース通信を可能にする分散トレーニングの高速化に有効であることが示されている。 これは一般的な分散ディープラーニングフレームワークで採用されている。 しかし,1)全リデュース操作毎のワーカ数に比例する過度の起動遅延,(2)次回におけるフィードフォワード計算の依存性と同期要求による準最適トレーニング性能の達成,という2つの根本的な問題が存在する。 そこで,提案するスケジューリングアルゴリズムである dear では,全reduceプリミティブを2つの連続演算に分離し,余分な通信を必要とせず,バックプロパゲーションとフィードフォワード演算の両方と重なるスケジューリングアルゴリズムを提案する。 さらに,訓練性能を向上させるために,実用的なテンソル融合アルゴリズムも設計する。 5つの一般的なモデルによる実験結果から、DeARは10Gb/sのイーサネットと100Gb/sのInfiniBand相互接続を持つ64GPUクラスタ上で、最先端のソリューションに対して最大83%と15%のトレーニングスピードアップを達成することが示された。

Communication scheduling has been shown to be effective in accelerating distributed training, which enables all-reduce communications to be overlapped with backpropagation computations. This has been commonly adopted in popular distributed deep learning frameworks. However, there exist two fundamental problems: (1) excessive startup latency proportional to the number of workers for each all-reduce operation; (2) it only achieves sub-optimal training performance due to the dependency and synchronization requirement of the feed-forward computation in the next iteration. We propose a novel scheduling algorithm, DeAR, that decouples the all-reduce primitive into two continuous operations, which overlaps with both backpropagation and feed-forward computations without extra communications. We further design a practical tensor fusion algorithm to improve the training performance. Experimental results with five popular models show that DeAR achieves up to 83% and 15% training speedup over the state-of-the-art solutions on a 64-GPU cluster with 10Gb/s Ethernet and 100Gb/s InfiniBand interconnects, respectively.
翻訳日:2023-06-17 01:55:28 公開日:2023-06-15
# 審美的不確実性のモデル化のための確率論的関係--定理証明による意味論と自動推論

Probabilistic relations for modelling epistemic and aleatoric uncertainty: semantics and automated reasoning with theorem proving ( http://arxiv.org/abs/2303.09692v2 )

ライセンス: Link先を確認
Kangfeng Ye, Jim Woodcock, Simon Foster(参考訳) 確率的プログラミングは、一般的なコンピュータプログラミング、統計的推論、フォーマルセマンティクスを組み合わせて、不確実性に直面した時にシステムが決定を下すのを助ける。 確率的プログラムはユビキタスであり、マシンインテリジェンスに大きな影響を与えている。 多くの確率的アルゴリズムは異なる領域で実際に使われているが、形式的意味論に基づく自動検証は比較的新しい研究領域である。 過去20年間、多くの関心を集めてきた。 しかし、多くの課題が残る。 この論文で提示された研究、確率的関係(probabilistic relations)は、これらの課題に取り組むために私たちのビジョンに向かって一歩前進します。 我々の仕事はヒューナーの予測的確率的プログラミングに基づいているが、彼の作品が広く採用されるにはいくつかの障害がある。 Our contributions here include (1) the formalisation of its syntax and semantics by introducing an Iverson bracket notation to separate relations from arithmetic; (2) the formalisation of relations using Unifying Theories of Programming (UTP) and probabilities outside the brackets using summation over the topological space of the real numbers; (3) the constructive semantics for probabilistic loops using Kleene's fixed-point theorem; (4) the enrichment of its semantics from distributions to subdistributions and superdistributions to deal with the constructive semantics; (5) the unique fixed-point theorem to simplify the reasoning about probabilistic loops; and (6) the mechanisation of our theory in Isabelle/UTP, an implementation of UTP in Isabelle/HOL, for automated reasoning using theorem proving. ロボットのローカライゼーションの問題,機械学習の分類,確率ループの終了など,6つの事例で研究成果を実演する。

Probabilistic programming combines general computer programming, statistical inference, and formal semantics to help systems make decisions when facing uncertainty. Probabilistic programs are ubiquitous, including having a significant impact on machine intelligence. While many probabilistic algorithms have been used in practice in different domains, their automated verification based on formal semantics is still a relatively new research area. In the last two decades, it has attracted much interest. Many challenges, however, remain. The work presented in this paper, probabilistic relations, takes a step towards our vision to tackle these challenges. Our work is based on Hehner's predicative probabilistic programming, but there are several obstacles to the broader adoption of his work. Our contributions here include (1) the formalisation of its syntax and semantics by introducing an Iverson bracket notation to separate relations from arithmetic; (2) the formalisation of relations using Unifying Theories of Programming (UTP) and probabilities outside the brackets using summation over the topological space of the real numbers; (3) the constructive semantics for probabilistic loops using Kleene's fixed-point theorem; (4) the enrichment of its semantics from distributions to subdistributions and superdistributions to deal with the constructive semantics; (5) the unique fixed-point theorem to simplify the reasoning about probabilistic loops; and (6) the mechanisation of our theory in Isabelle/UTP, an implementation of UTP in Isabelle/HOL, for automated reasoning using theorem proving. We demonstrate our work with six examples, including problems in robot localisation, classification in machine learning, and the termination of probabilistic loops.
翻訳日:2023-06-17 01:47:15 公開日:2023-06-15
# RNN Seq2seqモデルによるトランスダクションとアライメントの学習

Learning Transductions and Alignments with RNN Seq2seq Models ( http://arxiv.org/abs/2303.06841v2 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) 本稿では,Recurrent-Neural-Network sequence to sequence (RNN seq2seq) モデルの4つのトランスダクションタスク(アイデンティティ,リバーサル,総複製,二次コピー)の学習能力について検討する。 これらのトランスダクションは伝統的に有限状態トランスデューサの下でよく研究されており、複雑さの増大に起因する。 RNN seq2seqモデルは、基礎となる関数を学習するのではなく、トレーニングデータや配信データに適合するマッピングを近似することができる。 注意は学習をより効率的で堅牢にするが、分散の一般化の限界を克服するものではない。 我々は,RNN seq2seqモデルの4つのタスクを,文字列トランスダクションの代わりに形式言語の複雑性階層で理解することのできる,新しい複雑性階層を構築した。 RNNの変種も結果に重要な役割を果たしている。 特に,単純な RNN seq2seq モデルでは入力長をカウントできないことを示す。

The paper studies the capabilities of Recurrent-Neural-Network sequence to sequence (RNN seq2seq) models in learning four transduction tasks: identity, reversal, total reduplication, and quadratic copying. These transductions are traditionally well studied under finite state transducers and attributed with increasing complexity. We find that RNN seq2seq models are only able to approximate a mapping that fits the training or in-distribution data, instead of learning the underlying functions. Although attention makes learning more efficient and robust, it does not overcome the out-of-distribution generalization limitation. We establish a novel complexity hierarchy for learning the four tasks for attention-less RNN seq2seq models, which may be understood in terms of the complexity hierarchy of formal languages, instead of string transductions. RNN variants also play a role in the results. In particular, we show that Simple RNN seq2seq models cannot count the input length.
翻訳日:2023-06-17 01:45:50 公開日:2023-06-15
# 立体映像における色ミスマッチ:実世界データセットと深部補正法

Color Mismatches in Stereoscopic Video: Real-World Dataset and Deep Correction Method ( http://arxiv.org/abs/2303.06657v2 )

ライセンス: Link先を確認
Egor Chistov, Nikita Alutis, Maxim Velikanov, Dmitriy Vatolin(参考訳) カラーミスマッチ補正のための実世界の立体映像データセットを提案する。 ビームスプリッタを用いて実現される現実世界の歪みを含む。 我々のデータセットは他のどのデータセットよりも大きい。 人工および実世界のデータセットにおける8つの色ミスマッチ補正法を比較し,局所的手法は人工的歪みに最適であり,グローバル手法は実世界の歪みに最適であることを示した。 ステレオ画像における色ミスマッチ補正のための最新の局所ニューラルネットワーク法の改良により,人工的および実世界の歪みに対してより高速かつ優れた処理が可能となった。

We propose a real-world dataset of stereoscopic videos for color-mismatch correction. It includes real-world distortions achieved using a beam splitter. Our dataset is larger than any other for this task. We compared eight color-mismatch-correction methods on artificial and real-world datasets and showed that local methods are best suited to artificial distortions and that global methods are best suited to real-world distortions. Our efforts improved on the latest local neural-network method for color-mismatch correction in stereoscopic images, making it work faster and better on both artificial and real-world distortions.
翻訳日:2023-06-17 01:45:33 公開日:2023-06-15
# 量子エルゴトロピーと量子フィードバック制御

Quantum Ergotropy and Quantum Feedback Control ( http://arxiv.org/abs/2303.04977v2 )

ライセンス: Link先を確認
Kenta Koshihara, Kazuya Yuasa(参考訳) 一般量子演算による有限次元量子系へのエネルギー抽出と充電について検討する。 単位量子演算によるエネルギー変化は、ユニタリ量子演算に対するエルゴトロピー/チャージ境界によって制限されることを示す。 これは、ユニタリ量子演算のエルゴトロピー/チャージ境界を破るために、フィードバック制御を伴う量子演算を実行する必要があることを意味する。 また,初期熱平衡状態に適用した単位的量子演算のエルゴトロピー/チャージ境界は,フィードバック制御を伴わない熱力学の標準第二法則を表す不等式よりも厳密であることを示した。

We study the energy extraction from and charging to a finite-dimensional quantum system by general quantum operations. We prove that the changes in energy induced by unital quantum operations are limited by the ergotropy/charging bound for unitary quantum operations. This implies that, in order to break the ergotropy/charging bound for unitary quantum operations, one needs to perform a quantum operation with feedback control. We also show that the ergotropy/charging bound for unital quantum operations, applied to initial thermal equilibrium states, is tighter than the inequality representing the standard second law of thermodynamics without feedback control.
翻訳日:2023-06-17 01:44:53 公開日:2023-06-15
# 一般知性に対する制約コンプライアンスの計算レベル解析

Computational-level Analysis of Constraint Compliance for General Intelligence ( http://arxiv.org/abs/2303.04352v3 )

ライセンス: Link先を確認
Robert E. Wray, Steven J. Jones, John E. Laird(参考訳) 人間の行動は行動を制限する規範と規範によって規定される。 規則(rules, `manners,' law, and moral imperatives)は、人間の行動を支配する制約のクラスの一例である。 個々の制約は、しばしば不十分に定義され、特定の状況で関係する制約は未知あるいは曖昧であり、制約は互いに相互作用し、対立し、関連する制約のバウンダリ内でどのように振る舞うかを決定することは、特に迅速な決定が必要な場合において重要な課題である。 このような混乱にもかかわらず、人間は決定に制約をしっかりと迅速に組み込む。 一般に、人工知的なエージェントは、予測可能性と確実に振る舞うために、現実世界の制約のシステムの混乱をナビゲートできる必要がある。 本稿では、一般エージェントの制約処理における複雑さの源泉を特徴付け、そのような制約コンプライアンスの計算レベル解析を記述する。 計算レベル解析に基づいて重要なアルゴリズム要件を特定し、制約コンプライアンスに対する一般的なアプローチの初期的探索的実装の概要を示す。

Human behavior is conditioned by codes and norms that constrain action. Rules, ``manners,'' laws, and moral imperatives are examples of classes of constraints that govern human behavior. These systems of constraints are "messy:" individual constraints are often poorly defined, what constraints are relevant in a particular situation may be unknown or ambiguous, constraints interact and conflict with one another, and determining how to act within the bounds of the relevant constraints may be a significant challenge, especially when rapid decisions are needed. Despite such messiness, humans incorporate constraints in their decisions robustly and rapidly. General, artificially-intelligent agents must also be able to navigate the messiness of systems of real-world constraints in order to behave predictability and reliably. In this paper, we characterize sources of complexity in constraint processing for general agents and describe a computational-level analysis for such constraint compliance. We identify key algorithmic requirements based on the computational-level analysis and outline an initial, exploratory implementation of a general approach to constraint compliance.
翻訳日:2023-06-17 01:44:42 公開日:2023-06-15
# 効率的なディープラーニング推論のためのFP8対INT8

FP8 versus INT8 for efficient deep learning inference ( http://arxiv.org/abs/2303.17951v2 )

ライセンス: Link先を確認
Mart van Baalen, Andrey Kuzmin, Suparna S Nair, Yuwei Ren, Eric Mahurin, Chirag Patel, Sundar Subramanian, Sanghyuk Lee, Markus Nagel, Joseph Soriaga, Tijmen Blankevoort(参考訳) 近年、ニューラルネットワークトレーニングの数値形式としてFP8を使用するというアイデアが、ディープラーニングの世界に浮かび上がっている。 現在、ほとんどのトレーニングがFP32のネットワーク全体、あるいは混合精度のFP16で行われていることを考えると、FP8のネットワークの一部に8ビットの重みを持つようにするステップは、ディープラーニングにおける一般的にコストがかかる時間を要するトレーニング手順にとって魅力的なスピードアップである。 この開発がエッジデバイス上での効率的な推論にどのような意味を持つのかという自然問題が発生する。 効率的な推論デバイスの世界では、ワークロードはINT8で頻繁に実行される。 効率が要求されるとき、INT4と同じくらい低い場合もあります。 このホワイトペーパーでは、FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較し、デバイス上の効率的な推論を行う。 理論的には、ニューラルネットワークのINT形式とFP形式の違いを示し、ポストトレーニング量子化と量子化対応学習の結果の多元性を提示し、この理論が実践にどのように変換されるかを示す。 また、FPフォーマットはINTフォーマットよりも専用ハードウェアの計算効率が50~180%低いことを示すハードウェア分析も提供する。 提案したFP8フォーマットは,本研究と研究分野の可読性に基づき,FP8フォーマットがトレーニングに有効であるとしても,推論結果がFP8の専用実装を保証せず,効率の良い推論を行うことができる。 これまでの結果とほぼ一致した結果が得られたが, これまでのところ, フォーマット間の重要な比較は不十分であった。 最後に、FP8をトレーニングしたネットワークがINT8に変換されたときに何が起こるかについて議論し、デバイス上でのデプロイの最も効率的な方法と、多くのモデルに対するINT8結果の広範なスイートについて、簡単な議論で結論づける。

Recently, the idea of using FP8 as a number format for neural network training has been floating around the deep learning world. Given that most training is currently conducted with entire networks in FP32, or sometimes FP16 with mixed-precision, the step to having some parts of a network run in FP8 with 8-bit weights is an appealing potential speed-up for the generally costly and time-intensive training procedures in deep learning. A natural question arises regarding what this development means for efficient inference on edge devices. In the efficient inference device world, workloads are frequently executed in INT8. Sometimes going even as low as INT4 when efficiency calls for it. In this whitepaper, we compare the performance for both the FP8 and INT formats for efficient on-device inference. We theoretically show the difference between the INT and FP formats for neural networks and present a plethora of post-training quantization and quantization-aware-training results to show how this theory translates to practice. We also provide a hardware analysis showing that the FP formats are somewhere between 50-180% less efficient in terms of compute in dedicated hardware than the INT format. Based on our research and a read of the research field, we conclude that although the proposed FP8 format could be good for training, the results for inference do not warrant a dedicated implementation of FP8 in favor of INT8 for efficient inference. We show that our results are mostly consistent with previous findings but that important comparisons between the formats have thus far been lacking. Finally, we discuss what happens when FP8-trained networks are converted to INT8 and conclude with a brief discussion on the most efficient way for on-device deployment and an extensive suite of INT8 results for many models.
翻訳日:2023-06-17 01:39:39 公開日:2023-06-15
# MAP-エリートを用いたRL多剤の集団発生

Evolving Populations of Diverse RL Agents with MAP-Elites ( http://arxiv.org/abs/2303.12803v2 )

ライセンス: Link先を確認
Thomas Pierrot and Arthur Flajolet(参考訳) 品質多様性(qd)は、大規模で多様なソリューションコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場した。 初期のME実装は、いくつかの非構造的な問題に対して非常に効果的であったが、ソリューションの集団を進化させるためにランダム検索にのみ依存しており、ニューラルネットワークの進化など、高次元問題に対するサンプル非効率が悪名高い。 フォローアップは、ブラックボックス最適化(bbo)または強化学習(rl)から借用された技術を通してこれらの欠点に対処するために、勾配情報を利用して探索を導くことを検討する。 高度な探索を必要とするロボット制御問題の解き放たれた状態性能とRLテクニックを混合する一方で、近年のアプローチでは、一部のコンポーネントが人口間で共有されるにつれて、MEが過度なパラメータ感度、高い確率性、およびトレーニング不安定性など、RLアルゴリズムに共通する制限を伴って、これらのME変種を悩ませた。 さらに、MEとRLを混合する既存のアプローチは、特定のRLアルゴリズムと結びつく傾向にあり、対応するRLアルゴリズムが失敗する問題に対するそれらの使用を効果的に防止する。 これらの欠点に対処するために、我々は任意のRLアルゴリズムの使用を可能にするフレキシブルなフレームワークを導入し、単にポリシーではなく、エージェントの個体群(ハイパーパラメータと全ての学習可能なパラメータを含む)を進化させることにより、上記の制限を緩和する。 本研究は,ロボット工学の制御問題に対する広範囲な数値実験を通じて,我々のフレームワークがもたらした利点を実証する。

Quality Diversity (QD) has emerged as a powerful alternative optimization paradigm that aims at generating large and diverse collections of solutions, notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions through mutations and crossovers. While very effective for some unstructured problems, early ME implementations relied exclusively on random search to evolve the population of solutions, rendering them notoriously sample-inefficient for high-dimensional problems, such as when evolving neural networks. Follow-up works considered exploiting gradient information to guide the search in order to address these shortcomings through techniques borrowed from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While mixing RL techniques with ME unlocked state-of-the-art performance for robotics control problems that require a good amount of exploration, it also plagued these ME variants with limitations common among RL algorithms that ME was free of, such as hyperparameter sensitivity, high stochasticity as well as training instability, including when the population size increases as some components are shared across the population in recent approaches. Furthermore, existing approaches mixing ME with RL tend to be tied to a specific RL algorithm, which effectively prevents their use on problems where the corresponding RL algorithm fails. To address these shortcomings, we introduce a flexible framework that allows the use of any RL algorithm and alleviates the aforementioned limitations by evolving populations of agents (whose definition include hyperparameters and all learnable parameters) instead of just policies. We demonstrate the benefits brought about by our framework through extensive numerical experiments on a number of robotics control problems, some of which with deceptive rewards, taken from the QD-RL literature.
翻訳日:2023-06-17 01:36:45 公開日:2023-06-15
# 多部絡みの証人としての超放射能の署名

Signatures of superradiance as a witness to multipartite entanglement ( http://arxiv.org/abs/2303.12515v2 )

ライセンス: Link先を確認
Frederik Lohof, Daniel Schumayer, David A. W. Hutchinson, Christopher Gies(参考訳) 絡み合いの発生と検出は、ほとんどの量子情報技術の最前線にある。 絡み合いの証人を含む、基礎となる量子状態に関する部分的な情報のみに基づいて絡み合いを明らかにする技術は数多く存在する。 スーパーラジオアンス(Superradiance)は、個々の粒子間の相関によって引き起こされ、ディック自身によって多粒子の絡み合った状態の存在に繋がった、量子放出子の集合からの高同期光子放出現象である。 この関係を定量的に検討し,半導体ナノレーザからの超放射能のサインが自然放出時間の変化であることを示すか否かを,エミッタの基底状態における絡みを検出する証人として解釈することができる。

Generation and detection of entanglement is at the forefront of most quantum information technologies. There is a plethora of techniques that reveal entanglement on the basis of only partial information about the underlying quantum state, including entanglement witnesses. Superradiance refers to the phenomenon of highly synchronized photon emission from an ensemble of quantum emitters that is caused by correlations among the individual particles and has been connected by Dicke himself to the presence of multipartite entangled states. We investigate this connection in a quantitative way and discuss, whether or not signatures of superradiance from semiconductor nanolasers, manifesting themselves as a modification of the spontaneous-emission time, can be interpreted as a witness to detect entanglement in the underlying state of the emitters.
翻訳日:2023-06-17 01:36:09 公開日:2023-06-15
# TenCirChem: NISQ時代の効率的な量子計算化学パッケージ

TenCirChem: An Efficient Quantum Computational Chemistry Package for the NISQ Era ( http://arxiv.org/abs/2303.10825v2 )

ライセンス: Link先を確認
Weitang Li, Jonathan Allcock, Lixue Cheng, Shi-Xin Zhang, Yu-Qin Chen, Jonathan P. Mailoa, Zhigang Shuai, Shengyu Zhang(参考訳) TenCirChemは、量子計算化学のための変分量子アルゴリズムをシミュレートするオープンソースのPythonライブラリである。 TenCirChemは、量子状態と励起演算子のコンパクト表現を用いて、ユニタリ結合クラスタ回路のシミュレーションにおいて高い性能を示す。 さらにtencirchemはノイズ回路シミュレーションをサポートし、変分量子力学のアルゴリズムを提供する。 TenCirChemの能力は、34量子ビット量子回路を用いた6-31G(d)基底セットを持つ$\textrm{H}_2\textrm{O}$のポテンシャルエネルギー曲線の計算、$\textrm{H}_2$分子の変動エネルギーに対する量子ゲート誤差の影響の検証、変分量子力学に基づく電荷移動率のマーカス反転領域の探索など、様々な例で示されている。 さらに、tencirchemは実際の量子ハードウェア実験を実行することができ、量子計算化学の分野におけるシミュレーションと実験の両方に汎用的なツールとなる。

TenCirChem is an open-source Python library for simulating variational quantum algorithms for quantum computational chemistry. TenCirChem shows high performance on the simulation of unitary coupled-cluster circuits, using compact representations of quantum states and excitation operators. Additionally, TenCirChem supports noisy circuit simulation and provides algorithms for variational quantum dynamics. TenCirChem's capabilities are demonstrated through various examples, such as the calculation of the potential energy curve of $\textrm{H}_2\textrm{O}$ with a 6-31G(d) basis set using a 34-qubit quantum circuit, the examination of the impact of quantum gate errors on the variational energy of the $\textrm{H}_2$ molecule, and the exploration of the Marcus inverted region for charge transfer rate based on variational quantum dynamics. Furthermore, TenCirChem is capable of running real quantum hardware experiments, making it a versatile tool for both simulation and experimentation in the field of quantum computational chemistry.
翻訳日:2023-06-17 01:35:52 公開日:2023-06-15
# 流線型自由視点映像のための神経残留放射場

Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos ( http://arxiv.org/abs/2304.04452v2 )

ライセンス: Link先を確認
Liao Wang, Qiang Hu, Qihan He, Ziyu Wang, Jingyi Yu, Tinne Tuytelaars, Lan Xu, Minye Wu(参考訳) 静的オブジェクトのモデリングと自由視点レンダリングにおけるNeRF(Neural Radiance Fields)の成功は、動的シーンにおける多くの試みに影響を与えた。 ニューラルレンダリングを利用してフリービュービデオ(FVV)を容易にする現在の技術は、オフラインレンダリングに制限されるか、最小のモーションで短いシーケンスのみを処理することができる。 本稿では,高コンパクトなニューラルネットワーク表現として残差放射場(rerf)という新しい手法を提案し,長波長動画像のリアルタイムfvvレンダリングを実現する。 ReRFは、空間的特徴空間内の隣接するタイムスタンプ間の残余情報を明示的にモデル化し、グローバル座標ベースの小型MPPを特徴デコーダとする。 具体的には、ReRFはフレーム間の特徴的類似性を利用するために、コンパクトなモーショングリッドと残像グリッドを使用する。 このような戦略は品質を犠牲にすることなく大きな動きを扱えることを示す。 さらに,動きグリッドの滑らかさとスパース性を維持するための逐次学習方式を提案する。 ReRFに基づいて3桁の圧縮速度を達成し,ダイナミックシーンの長期FVVのオンラインストリーミングをサポートするReRFプレーヤを提供する,特別なFVVコーデックを設計する。 広汎な実験は、動的放射場をコンパクトに表現するためのReRFの有効性を示し、速度と品質において前例のない自由視点視聴体験を可能にする。

The success of the Neural Radiance Fields (NeRFs) for modeling and free-view rendering static objects has inspired numerous attempts on dynamic scenes. Current techniques that utilize neural rendering for facilitating free-view videos (FVVs) are restricted to either offline rendering or are capable of processing only brief sequences with minimal motion. In this paper, we present a novel technique, Residual Radiance Field or ReRF, as a highly compact neural representation to achieve real-time FVV rendering on long-duration dynamic scenes. ReRF explicitly models the residual information between adjacent timestamps in the spatial-temporal feature space, with a global coordinate-based tiny MLP as the feature decoder. Specifically, ReRF employs a compact motion grid along with a residual feature grid to exploit inter-frame feature similarities. We show such a strategy can handle large motions without sacrificing quality. We further present a sequential training scheme to maintain the smoothness and the sparsity of the motion/residual grids. Based on ReRF, we design a special FVV codec that achieves three orders of magnitudes compression rate and provides a companion ReRF player to support online streaming of long-duration FVVs of dynamic scenes. Extensive experiments demonstrate the effectiveness of ReRF for compactly representing dynamic radiance fields, enabling an unprecedented free-viewpoint viewing experience in speed and quality.
翻訳日:2023-06-17 01:28:40 公開日:2023-06-15
# スパイクカメラシミュレーションによるスパイクストリームの雑音化

Spike Stream Denoising via Spike Camera Simulation ( http://arxiv.org/abs/2304.03129v2 )

ライセンス: Link先を確認
Liwen hu, Lei Ma, Zhaofei Yu, Boxin Shi and Tiejun Huang(参考訳) 時間分解能の高いニューロモルフィックセンサーとして、スパイクカメラは高速な視覚タスクにおいて大きなポテンシャルを示す。 しかし、既存のカメラによる光伝搬過程の高速サンプリングは、避けられないノイズ現象をもたらす。 スパイクストリームにおけるユニークなノイズを取り除くことは、スパイクベースの方法にとって常に重要なポイントである。 スパイクカメラの詳細なノイズ機構に関する以前の研究は行われていない。 そこで本研究では,スパイクカメラのユニークな回路に基づくシステマティックノイズモデルを提案する。 さらに,ノイズ評価方程式と実験シナリオを慎重に構築し,騒音の変数を測定した。 ノイズモデルに基づいて、(ノイズの多い)スパイクストリームを含むスパイクストリームデノイズ化のための最初のベンチマークを提案する。 さらに,推定されたスパイク間間隔をデコードすることにより,デノライズスパイクストリームを求めるためのdnss(tailored spike stream denoising framework)の設計を行う。 実験の結果、DnSSは提案されたベンチマークで有望なパフォーマンスを示している。 最終的に、DnSSは実際のスパイクストリームでうまく一般化できる。

As a neuromorphic sensor with high temporal resolution, the spike camera shows enormous potential in high-speed visual tasks. However, the high-speed sampling of light propagation processes by existing cameras brings unavoidable noise phenomena. Eliminating the unique noise in spike stream is always a key point for spike-based methods. No previous work has addressed the detailed noise mechanism of the spike camera. To this end, we propose a systematic noise model for spike camera based on its unique circuit. In addition, we carefully constructed the noise evaluation equation and experimental scenarios to measure noise variables. Based on our noise model, the first benchmark for spike stream denoising is proposed which includes clear (noisy) spike stream. Further, we design a tailored spike stream denoising framework (DnSS) where denoised spike stream is obtained by decoding inferred inter-spike intervals. Experiments show that DnSS has promising performance on the proposed benchmark. Eventually, DnSS can be generalized well on real spike stream.
翻訳日:2023-06-17 01:26:28 公開日:2023-06-15
# 深層ニューラルネットワークに対するモデル反転攻撃の再考

Re-thinking Model Inversion Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2304.01669v2 )

ライセンス: Link先を確認
Ngoc-Bao Nguyen, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung(参考訳) model inversion (mi)攻撃は、モデルへのアクセスを乱用してプライベートトレーニングデータを推論し、再構築することを目的としている。 MI攻撃は機密情報の漏洩(例えば顔認識システムの訓練に使用されるプライベート・フェイス・イメージ)を懸念している。 近年,miによる攻撃性能向上のためのアルゴリズムが提案されている。 本研究では、MIを再検討し、全てのSOTAMIアルゴリズムに関する2つの基本的な問題について検討し、これらの問題に対する解決策を提案し、SOTAMIの攻撃性能を大幅に向上させる。 特に、私たちの貢献は2倍です。 1) sota miアルゴリズムの最適化目標を分析し,miを達成するのに最適でないと主張するとともに,攻撃性能を著しく向上させる最適化目標を提案する。 2)「mi過剰フィッティング」を分析し,復元画像がトレーニングデータのセマンティクスを学習することを防止し,この問題を克服するための新しい「モデル拡張」アイデアを提案する。 提案手法は単純で,SOTA MI攻撃の精度を大幅に向上させる。 例えば、標準celebaベンチマークでは、我々のソリューションは精度を11.8%向上させ、90%以上の攻撃精度を初めて達成しました。 その結果,深層学習モデルからセンシティブな情報を漏洩するリスクが明らかとなった。 我々はプライバシーに関する重大な配慮を要請する。 私たちのコード、デモ、モデルはhttps://ngoc-nguyen-0.github.io/re-thinking_model_inversion_ attacks/で利用可能です。

Model inversion (MI) attacks aim to infer and reconstruct private training data by abusing access to a model. MI attacks have raised concerns about the leaking of sensitive information (e.g. private face images used in training a face recognition system). Recently, several algorithms for MI have been proposed to improve the attack performance. In this work, we revisit MI, study two fundamental issues pertaining to all state-of-the-art (SOTA) MI algorithms, and propose solutions to these issues which lead to a significant boost in attack performance for all SOTA MI. In particular, our contributions are two-fold: 1) We analyze the optimization objective of SOTA MI algorithms, argue that the objective is sub-optimal for achieving MI, and propose an improved optimization objective that boosts attack performance significantly. 2) We analyze "MI overfitting", show that it would prevent reconstructed images from learning semantics of training data, and propose a novel "model augmentation" idea to overcome this issue. Our proposed solutions are simple and improve all SOTA MI attack accuracy significantly. E.g., in the standard CelebA benchmark, our solutions improve accuracy by 11.8% and achieve for the first time over 90% attack accuracy. Our findings demonstrate that there is a clear risk of leaking sensitive information from deep learning models. We urge serious consideration to be given to the privacy implications. Our code, demo, and models are available at https://ngoc-nguyen-0.github.io/re-thinking_model_inversion_attacks/
翻訳日:2023-06-17 01:26:14 公開日:2023-06-15
# トランスフォーマーを用いた両眼画像からの立体物体検出

Transformer-based stereo-aware 3D object detection from binocular images ( http://arxiv.org/abs/2304.11906v2 )

ライセンス: Link先を確認
Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li(参考訳) 視覚変換器は、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な物体検出タスクにおいて有望な進歩を示している。 しかし、本質的および古典的ステレオ3dオブジェクト検出で使用される場合、これらのサラウンドビュートランスフォーマーを直接採用すると、収束が遅くなり、精度が大幅に低下する。 この欠陥の原因の1つは、サラウンドビュートランスフォーマーがステレオ特有の画像対応情報を考慮していないことである。 サラウンドビューシステムでは、重なり合う領域は小さいため、対応性は主要な問題ではない。 本稿では,ステレオ3次元物体検出における視覚トランスフォーマーのモデル設計について検討し,タスク固有画像対応情報の抽出と符号化に着目した。 この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。 TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モデルを提案する。 対応を正規化不一致として符号化し、正弦波2D位置符号化と併用して、3Dシーンの位置情報を提供する。 拡張された多スケールステレオ特徴を抽出するために,ステレオ保存機能ピラミッドネットワーク (srfpn) を提案する。 SRFPNは、インタースケールとアグリゲートするクロススケールステレオ特徴を融合させながら、対応情報を予約するように設計されている。 提案するts3dは,kittiテストセットにおける中程度の車検出平均精度を41.29%達成し,各双眼鏡画像ペアから物体を検出するのに88msを要した。 精度と推論速度の両面で、高度な競合相手と競合する。

Vision Transformers have shown promising progress in various object detection tasks, including monocular 2D/3D detection and surround-view 3D detection. However, when used in essential and classic stereo 3D object detection, directly adopting those surround-view Transformers leads to slow convergence and significant precision drops. We argue that one of the causes of this defect is that the surround-view Transformers do not consider the stereo-specific image correspondence information. In a surround-view system, the overlapping areas are small, and thus correspondence is not a primary issue. In this paper, we explore the model design of vision Transformers in stereo 3D object detection, focusing particularly on extracting and encoding the task-specific image correspondence information. To achieve this goal, we present TS3D, a Transformer-based Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional Encoding (DAPE) model is proposed to embed the image correspondence information into stereo features. The correspondence is encoded as normalized disparity and is used in conjunction with sinusoidal 2D positional encoding to provide the location information of the 3D scene. To extract enriched multi-scale stereo features, we propose a Stereo Reserving Feature Pyramid Network (SRFPN). The SRFPN is designed to reserve the correspondence information while fusing intra-scale and aggregating cross-scale stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection average precision on the KITTI test set and takes 88 ms to detect objects from each binocular image pair. It is competitive with advanced counterparts in terms of both precision and inference speed.
翻訳日:2023-06-17 01:19:42 公開日:2023-06-15
# 非エルミタン量子センサの基本感度限界

Fundamental Sensitivity Limits for non-Hermitian Quantum Sensors ( http://arxiv.org/abs/2304.08374v2 )

ライセンス: Link先を確認
Wenkui Ding, Xiaoguang Wang, Shu Chen(参考訳) 拡張量子システムを用いて実装された非エルミート系を考えると、量子情報の観点から非エルミートセンサの感度の基本的な限界を決定する。 非エルミート型センサは、パラメータに関する量子情報のばらつきのため、感度性能においてエルミート型センサ(パラメータと直接結合する)を上回らないことが証明される。 フル量子システムを用いて実装された2つの具体的な非エルミートセンシング提案を精査することにより、これらのセンサの感度が我々の予測と一致していることを示す。 この理論は、非エルミート量子センサの基本的な限界を理解するための包括的かつモデルに依存しない枠組みを提供し、非エルミート物理学と量子メソロジーの間の橋渡しを構築する。

Considering non-Hermitian systems implemented by utilizing enlarged quantum systems, we determine the fundamental limits for the sensitivity of non-Hermitian sensors from the perspective of quantum information. We prove that non-Hermitian sensors do not outperform their Hermitian counterparts (directly couples to the parameter) in the performance of sensitivity, due to the invariance of the quantum information about the parameter. By scrutinizing two concrete non-Hermitian sensing proposals, which are implemented using full quantum systems, we demonstrate that the sensitivity of these sensors is in agreement with our predictions. Our theory offers a comprehensive and model-independent framework for understanding the fundamental limits of non-Hermitian quantum sensors and builds the bridge over the gap between non-Hermitian physics and quantum metrology.
翻訳日:2023-06-17 01:18:12 公開日:2023-06-15
# 基礎モデルによるツール学習

Tool Learning with Foundation Models ( http://arxiv.org/abs/2304.08354v2 )

ライセンス: Link先を確認
Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Yufei Huang, Chaojun Xiao, Chi Han, Yi Ren Fung, Yusheng Su, Huadong Wang, Cheng Qian, Runchu Tian, Kunlun Zhu, Shihao Liang, Xingyu Shen, Bokai Xu, Zhen Zhang, Yining Ye, Bowen Li, Ziwei Tang, Jing Yi, Yuzhang Zhu, Zhenning Dai, Lan Yan, Xin Cong, Yaxi Lu, Weilin Zhao, Yuxiang Huang, Junxi Yan, Xu Han, Xian Sun, Dahai Li, Jason Phang, Cheng Yang, Tongshuang Wu, Heng Ji, Zhiyuan Liu, Maosong Sun(参考訳) 人間は、ツールを作成、利用し、物理的な制限を克服し、新たなフロンティアを探索できる特別な能力を持っている。 基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 このパラダイム(つまり、ツール学習と基礎モデル)は、高度な精度、効率、そして問題解決の自動化を達成するために、特殊ツールと基礎モデルの強みを組み合わせる。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解がまだ欠けている。 そこで本稿では,ツール学習の体系的な研究について述べる。 まず,その認知的起源,基礎モデルのパラダイムシフト,ツールやモデルの補完的役割など,ツール学習の背景を紹介する。 そして、ツール指向学習とツール指向学習に、既存のツール学習研究を再結合する。 ユーザインストラクションを理解することから、モデルが複雑なタスクを複数のサブタスクに分解することを学び、推論を通じて計画を動的に調整し、適切なツールを選択することで各サブタスクを効果的に克服する。 また、ツール利用能力向上のためのモデルのトレーニング方法や、ツール学習の一般化の促進についても論じる。 先行研究におけるシステマティック・ツール・ラーニングの評価の欠如を考慮し,18の代表的なツールについて実験を行い,現在の基礎モデルが巧みに活用できる可能性を示す。 最後に、ツール学習のさらなる調査を必要とするいくつかのオープンな問題について論じる。 全体として、この論文は、ツールと基礎モデルの統合に関する将来の研究を刺激することを期待している。

Humans possess an extraordinary ability to create and utilize tools, allowing them to overcome physical limitations and explore new frontiers. With the advent of foundation models, AI systems have the potential to be equally adept in tool use as humans. This paradigm, i.e., tool learning with foundation models, combines the strengths of specialized tools and foundation models to achieve enhanced accuracy, efficiency, and automation in problem-solving. Despite its immense potential, there is still a lack of a comprehensive understanding of key challenges, opportunities, and future endeavors in this field. To this end, we present a systematic investigation of tool learning in this paper. We first introduce the background of tool learning, including its cognitive origins, the paradigm shift of foundation models, and the complementary roles of tools and models. Then we recapitulate existing tool learning research into tool-augmented and tool-oriented learning. We formulate a general tool learning framework: starting from understanding the user instruction, models should learn to decompose a complex task into several subtasks, dynamically adjust their plan through reasoning, and effectively conquer each sub-task by selecting appropriate tools. We also discuss how to train models for improved tool-use capabilities and facilitate the generalization in tool learning. Considering the lack of a systematic tool learning evaluation in prior works, we experiment with 18 representative tools and show the potential of current foundation models in skillfully utilizing tools. Finally, we discuss several open problems that require further investigation for tool learning. Overall, we hope this paper could inspire future research in integrating tools with foundation models.
翻訳日:2023-06-17 01:17:58 公開日:2023-06-15
# 中国語LLaMAとAlpacaの効率的なテキスト符号化

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca ( http://arxiv.org/abs/2304.08177v2 )

ライセンス: Link先を確認
Yiming Cui, Ziqing Yang, Xin Yao(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語処理の研究を劇的に変化させ、人工知能(AGI)への有望な一歩を示した。 それでも、LLMの訓練や展開に伴う高コストは、透明でアクセスしやすい学術研究にかなりの障害をもたらす。 LLaMAのようないくつかの大きな言語モデルはコミュニティによってオープンソース化されているが、これらは主に英語のコーパスに焦点を当てており、他の言語に対する有用性を制限している。 本稿では,中国語テキストの理解・生成能力と指示に従う能力を備えたLLaMAの拡張手法を提案する。 LLaMAの既存の語彙を2万の中国語トークンで拡張することで、中国語のエンコーディング効率と意味理解を向上させることができる。 さらに,中国データを用いた2次事前学習を取り入れ,中国語命令データセットを用いてモデルを微調整することで,モデルの理解と実行能力を大幅に向上させる。 実験結果から,新たに提案したモデルは,中国コンテンツの理解と生成におけるLLaMAの能力を高めることが示唆された。 さらに、C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られる。 トレーニング済みのモデルやトレーニングスクリプト、その他のリソースをgithubを通じて公開し、コミュニティのオープンリサーチを促進しました。 GitHubリポジトリ:https://github.com/ymcui/ Chinese-LLaMA-Alpaca

Large Language Models (LLMs), such as ChatGPT and GPT-4, have dramatically transformed natural language processing research and shown promising strides towards Artificial General Intelligence (AGI). Nonetheless, the high costs associated with training and deploying LLMs present substantial obstacles to transparent, accessible academic research. While several large language models, such as LLaMA, have been open-sourced by the community, these predominantly focus on English corpora, limiting their usefulness for other languages. In this paper, we propose a method to augment LLaMA with capabilities for understanding and generating Chinese text and its ability to follow instructions. We achieve this by extending LLaMA's existing vocabulary with an additional 20,000 Chinese tokens, thereby improving its encoding efficiency and semantic understanding of Chinese. We further incorporate secondary pre-training using Chinese data and fine-tune the model with Chinese instruction datasets, significantly enhancing the model's ability to comprehend and execute instructions. Our experimental results indicate that the newly proposed model markedly enhances the original LLaMA's proficiency in understanding and generating Chinese content. Additionally, the results on the C-Eval dataset yield competitive performance among the models with several times the size of ours. We have made our pre-trained models, training scripts, and other resources available through GitHub, fostering open research for our community. GitHub repository: https://github.com/ymcui/Chinese-LLaMA-Alpaca
翻訳日:2023-06-17 01:17:20 公開日:2023-06-15
# ECGタスク固有特徴抽出のための$\beta$-VAEの合同最適化

Joint optimization of a $\beta$-VAE for ECG task-specific feature extraction ( http://arxiv.org/abs/2304.06476v2 )

ライセンス: Link先を確認
Viktor van der Valk, Douwe Atsma, Roderick Scherptong, and Marius Staring(参考訳) 心電図は、心臓のリズムと電気活動の観察を通して、診断とモニタリングの目的で心臓の状態を調べる最も一般的な方法である。 心電図(ECG)の分析は、訓練医によって視覚的に認識され、心機能障害を反映することが知られている特定のパターンの調査を通じて一般的に行われている。 本研究では,説明可能な特徴抽出器として$\beta$-variational autoencoders (VAEs) を用い,信号再構成と心機能予測を併用することにより,予測能力の向上を図る。 抽出された特徴はロジスティック回帰を用いた心機能予測に使用される。 2010年から2021年にかけてライデン大学医療センターで急性冠症候群の治療を受けた7255人の患者を対象に、この方法の訓練と検査を行った。 その結果,バニラ$\beta$-VAEに比べて予測と説明性が有意に向上し,再現性も良好であった。

Electrocardiography is the most common method to investigate the condition of the heart through the observation of cardiac rhythm and electrical activity, for both diagnosis and monitoring purposes. Analysis of electrocardiograms (ECGs) is commonly performed through the investigation of specific patterns, which are visually recognizable by trained physicians and are known to reflect cardiac (dis)function. In this work we study the use of $\beta$-variational autoencoders (VAEs) as an explainable feature extractor, and improve on its predictive capacities by jointly optimizing signal reconstruction and cardiac function prediction. The extracted features are then used for cardiac function prediction using logistic regression. The method is trained and tested on data from 7255 patients, who were treated for acute coronary syndrome at the Leiden University Medical Center between 2010 and 2021. The results show that our method significantly improved prediction and explainability compared to a vanilla $\beta$-VAE, while still yielding similar reconstruction performance.
翻訳日:2023-06-17 01:16:57 公開日:2023-06-15
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v6 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-06-17 01:16:39 公開日:2023-06-15
# 駆動量子系のクリロフ構成と複雑性

Krylov construction and complexity for driven quantum systems ( http://arxiv.org/abs/2305.00256v2 )

ライセンス: Link先を確認
Amin A. Nizami and Ankit W. Shrestha(参考訳) クリロフ複雑性は作用素の成長と量子カオスの研究と関連する重要な力学量であり、最近では様々な時間に依存しない系で多くの研究がなされている。 時間依存型(駆動型)量子システムにおけるK-複素性の研究を開始する。 周期時間依存(フローク)システムでは、クリロフ構成を行うための自然な方法を開発し、そのようなシステムに対して(状態と演算子)k-複素性を定義する。 キックド系、特にトーラス上の量子キックローターに着目して、弱い結合系と強い結合系の間を補間する系結合定数とのK-複素性とともにアルノルディ係数の時間依存性の詳細な数値的研究を行う。 また,システム結合定数の関数としてのクリロフ部分空間次元の成長についても検討した。

Krylov complexity is an important dynamical quantity with relevance to the study of operator growth and quantum chaos, and has recently been much studied for various time-independent systems. We initiate the study of K-complexity in time-dependent (driven) quantum systems. For periodic time-dependent (Floquet) systems, we develop a natural method for doing the Krylov construction and then define (state and operator) K-complexity for such systems. Focusing on kicked systems, in particular the quantum kicked rotor on a torus, we provide a detailed numerical study of the time dependence of Arnoldi coefficients as well as of the K-complexity with the system coupling constant interpolating between the weak and strong coupling regime. We also study the growth of the Krylov subspace dimension as a function of the system coupling constant.
翻訳日:2023-06-17 01:07:35 公開日:2023-06-15
# Occ3D: 自動運転のための大規模3D作業予測ベンチマーク

Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving ( http://arxiv.org/abs/2304.14365v2 )

ライセンス: Link先を確認
Xiaoyu Tian, Tao Jiang, Longfei Yun, Yucheng Mao, Huitong Yang, Yue Wang, Yilun Wang, Hang Zhao(参考訳) ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。 既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細の無視、一般的な語彙外オブジェクトの扱いに苦慮している。 シーンの詳細な占有状態とセマンティクスを推定する3D占有予測は、これらの制限を克服する新たな課題である。 3D占有率予測を支援するため,任意のシーンに高密度で可視性のあるラベルを生成するラベル生成パイプラインを開発した。 このパイプラインは、ボクセルの密度化、閉塞推論、および画像誘導ボクセル精製の3段階からなる。 Waymo Open DatasetとnuScenes Datasetの2つのベンチマーク、すなわちOcc3D-WaymoとOcc3D-nuScenesベンチマークを構築します。 さらに,提案したデータセットをベースラインモデルを用いて広範囲に解析する。 最後に,occ3dベンチマークにおいて優れた性能を示す,粒度対細占有(ctf-occ)ネットワークと呼ばれる新しいモデルを提案する。 コード、データ、ベンチマークはhttps://tsinghua-mars-lab.github.io/occ3d/でリリースされる。

Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
翻訳日:2023-06-17 01:07:22 公開日:2023-06-15
# 直交分解ガウス過程の球面誘導特性

Spherical Inducing Features for Orthogonally-Decoupled Gaussian Processes ( http://arxiv.org/abs/2304.14034v2 )

ライセンス: Link先を確認
Louis C. Tiao, Vincent Dutordoir, Victor Picheny(参考訳) 多くの望ましい性質にもかかわらず、ガウス過程(GP)は表現を学習する能力がないため、しばしば深層ニューラルネットワーク(NN)と比較される。 GPとディープNNのギャップを埋める最近の試みは、新しいタイプのドメイン間変動型GPを生み出し、誘導変数はフィードフォワードNNの隠れ単位に対応する。 そこで本研究では,GPの直交分解を利用してこれらの制約を緩和する拡張法を提案する。 特に、GP近似の主成分と直交成分の両方に対して、より柔軟なデータ依存基底関数を構築するための球面間機能を導入し、これらの欠点を緩和するだけでなく、代替戦略よりもスケーラブルであることを示す。 複数のベンチマークデータセットの実験は、我々のアプローチの有効性を示す。

Despite their many desirable properties, Gaussian processes (GPs) are often compared unfavorably to deep neural networks (NNs) for lacking the ability to learn representations. Recent efforts to bridge the gap between GPs and deep NNs have yielded a new class of inter-domain variational GPs in which the inducing variables correspond to hidden units of a feedforward NN. In this work, we examine some practical issues associated with this approach and propose an extension that leverages the orthogonal decomposition of GPs to mitigate these limitations. In particular, we introduce spherical inter-domain features to construct more flexible data-dependent basis functions for both the principal and orthogonal components of the GP approximation and show that incorporating NN activation features under this framework not only alleviates these shortcomings but is more scalable than alternative strategies. Experiments on multiple benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2023-06-17 01:07:02 公開日:2023-06-15
# 多様性重みによる生成モデルのモードバランス

Towards Mode Balancing of Generative Models via Diversity Weights ( http://arxiv.org/abs/2304.11961v3 )

ライセンス: Link先を確認
Sebastian Berns, Simon Colton, Christian Guckelsberger(参考訳) 大規模なデータ駆動画像モデルは、創造的および芸術的な作業をサポートするために広く使われている。 現在支配的な分布適合パラダイムの下では、データセットは可能な限り密接に近似される基底真理として扱われる。 しかし、多くのクリエイティブアプリケーションは多様な出力を必要としており、クリエーターは与えられたデータ分布から積極的に分岐しようと努力する。 純モードカバレッジからモードバランスへのモデリング対象の調整は、より高い出力多様性の目標を満たすために必要である、と我々は主張する。 本稿では,トレーニングデータセットのモードのバランスをとることで,モデルの出力多様性を高めるトレーニング手法であるdiversity weightsを提案する。 制御された環境での最初の実験は,本手法の可能性を実証した。 我々は、より一般的に、生成機械学習における多様性、エクイティ、包摂性への我々のアプローチの関連と、特に計算的創造性について論じる。 アルゴリズムの実装はhttps://github.com/sebastianberns/diversity-weightsで利用可能です。

Large data-driven image models are extensively used to support creative and artistic work. Under the currently predominant distribution-fitting paradigm, a dataset is treated as ground truth to be approximated as closely as possible. Yet, many creative applications demand a diverse range of output, and creators often strive to actively diverge from a given data distribution. We argue that an adjustment of modelling objectives, from pure mode coverage towards mode balancing, is necessary to accommodate the goal of higher output diversity. We present diversity weights, a training scheme that increases a model's output diversity by balancing the modes in the training dataset. First experiments in a controlled setting demonstrate the potential of our method. We discuss connections of our approach to diversity, equity, and inclusion in generative machine learning more generally, and computational creativity specifically. An implementation of our algorithm is available at https://github.com/sebastianberns/diversity-weights
翻訳日:2023-06-17 01:06:07 公開日:2023-06-15
# 野生の視覚情報抽出:実用的なデータセットとエンドツーエンドソリューション

Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution ( http://arxiv.org/abs/2305.07498v2 )

ライセンス: Link先を確認
Jianfeng Kuang, Wei Hua, Dingkang Liang, Mingkun Yang, Deqiang Jiang, Bo Ren, and Xiang Bai(参考訳) 統一的な枠組みでocrと情報抽出を同時に行うことを目的とした視覚情報抽出(vie)は,レシートや商品,交通標識の理解など,さまざまなアプリケーションにおいて重要な役割を担っているため,注目を集めている。 しかしながら、vieの既存のベンチマークデータセットは、レイアウト構造、背景障害、エンティティカテゴリの十分な多様性のないドキュメントイメージで構成されているため、実世界のアプリケーションの課題を完全に明らかにすることはできない。 本稿では,レイアウトや背景,フォントのばらつきだけでなく,より多くの種類のエンティティを含むvie用カメラ画像からなる大規模データセットを提案する。 さらに、OCRの段階と情報抽出をエンドツーエンド学習方式で組み合わせた、エンドツーエンドVIEのための新しいフレームワークを提案する。 情報抽出モジュールの入力としてOCR機能を直接採用する従来のエンドツーエンドアプローチとは違って,OCRのタスクと情報抽出の差による意味的ギャップを狭めるために,コントラスト学習を用いることを提案する。 提案したデータセット上で,既存のVIEのエンドツーエンド手法を評価し,これらの手法の性能がSROIE(広く使用されている英語データセット)から提案データセットへの差が大きいことを観察した。 これらの結果は,先進的vieアルゴリズムの推進において,データセットがより実用的であることを示す。 さらに,提案するvie法が,提案およびsroieデータセットの明らかな性能向上を一貫して達成していることを示す実験を行った。

Visual information extraction (VIE), which aims to simultaneously perform OCR and information extraction in a unified framework, has drawn increasing attention due to its essential role in various applications like understanding receipts, goods, and traffic signs. However, as existing benchmark datasets for VIE mainly consist of document images without the adequate diversity of layout structures, background disturbs, and entity categories, they cannot fully reveal the challenges of real-world applications. In this paper, we propose a large-scale dataset consisting of camera images for VIE, which contains not only the larger variance of layout, backgrounds, and fonts but also much more types of entities. Besides, we propose a novel framework for end-to-end VIE that combines the stages of OCR and information extraction in an end-to-end learning fashion. Different from the previous end-to-end approaches that directly adopt OCR features as the input of an information extraction module, we propose to use contrastive learning to narrow the semantic gap caused by the difference between the tasks of OCR and information extraction. We evaluate the existing end-to-end methods for VIE on the proposed dataset and observe that the performance of these methods has a distinguishable drop from SROIE (a widely used English dataset) to our proposed dataset due to the larger variance of layout and entities. These results demonstrate our dataset is more practical for promoting advanced VIE algorithms. In addition, experiments demonstrate that the proposed VIE method consistently achieves the obvious performance gains on the proposed and SROIE datasets.
翻訳日:2023-06-17 01:00:09 公開日:2023-06-15
# InstructBLIP:インストラクションチューニングを用いた汎用視覚言語モデルを目指して

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning ( http://arxiv.org/abs/2305.06500v2 )

ライセンス: Link先を確認
Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi(参考訳) 大規模事前学習と指導訓練は、幅広い能力を持つ汎用言語モデルの作成に成功している。 しかし,視覚入力の追加による豊富な入力分布とタスクの多様性のため,汎用視覚言語モデルの構築は困難である。 視覚言語プレトレーニングは広く研究されているが、視覚言語インストラクションチューニングは未検討のままである。 本稿では,事前学習したBLIP-2モデルに基づく視覚言語指導の体系的・包括的研究を行う。 26の公開データセットを収集し、さまざまなタスクと機能をカバーし、それらをインストラクションチューニング形式に変換する。 さらに,与えられた命令に合わせた情報的特徴を抽出する命令対応クエリ変換器を導入する。 13のホールドインデータセットに基づいてトレーニングされたInstructBLIPは、13のホールドアウトデータセットすべてで最先端のゼロショットパフォーマンスを実現し、BLIP-2とより大きなFlamingoモデルを大幅に上回っている。 私たちのモデルは、個々の下流タスク(例えば、画像コンテキストのScienceQA質問における90.7%の精度)で微調整された場合、最先端のパフォーマンスにもつながります。 さらに,並列マルチモーダルモデルに対する命令BLIPの利点を質的に示す。 すべてのinstructblipモデルは、https://github.com/salesforce/lavis/tree/main/projects/instructblipでオープンソースである。

Large-scale pre-training and instruction tuning have been successful at creating general-purpose language models with broad competence. However, building general-purpose vision-language models is challenging due to the rich input distributions and task diversity resulting from the additional visual input. Although vision-language pretraining has been widely studied, vision-language instruction tuning remains under-explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pretrained BLIP-2 models. We gather 26 publicly available datasets, covering a wide variety of tasks and capabilities, and transform them into instruction tuning format. Additionally, we introduce an instruction-aware Query Transformer, which extracts informative features tailored to the given instruction. Trained on 13 held-in datasets, InstructBLIP attains state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and larger Flamingo models. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA questions with image contexts). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models are open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
翻訳日:2023-06-17 00:59:02 公開日:2023-06-15
# 人間か機械か: チューリングにインスパイアされた毎日のテスト

Human or Machine: Reflections on Turing-Inspired Testing for the Everyday ( http://arxiv.org/abs/2305.04312v2 )

ライセンス: Link先を確認
David Harel and Assaf Marron(参考訳) アラン・チューリングは論文"Computing Machinery and Intelligence"で、機械知性の概念の探求の一環として「シミュレーションゲーム」を紹介した。 チューリングテストはその後、多くの分析、議論、改良、拡張の対象となった。 ここでは、特定のマシンにインテリジェントなラベルを付けることができるのか、あるいは特定のコンテキストにおける人間の能力と一致すると言えるのかという疑問を回避します。 その代わりに、チューリングにインスパイアされた私たちは、日々の生活の中で、人間が人間や機械と相互作用しているかどうかを判断する、一見単純な課題に注意を向けます。 我々は、この人間か機械かという質問の重要性と、それに対する信頼できる答えが生み出すかもしれない使用について振り返ることに興味を持っている。 チューリングの最初のテストは、より思考実験であると広く考えられているが、ここで論じた人間と機械の問題は、明らかに実用的な意味を持っている。 陪審員は、日常的に高い忠実さで人間の行動を模倣できる機械の可能性については議論していないが、ここで提起された問題の短期的な探索は、コンピュータシステムの開発方法に寄与し、人間の行動全般の理解を向上する可能性があると論じている。

In his seminal paper "Computing Machinery and Intelligence", Alan Turing introduced the "imitation game" as part of exploring the concept of machine intelligence. The Turing Test has since been the subject of much analysis, debate, refinement and extension. Here we sidestep the question of whether a particular machine can be labeled intelligent, or can be said to match human capabilities in a given context. Instead, but inspired by Turing, we draw attention to the seemingly simpler challenge of determining whether one is interacting with a human or with a machine, in the context of everyday life. We are interested in reflecting upon the importance of this Human-or-Machine question and the use one may make of a reliable answer thereto. Whereas Turing's original test is widely considered to be more of a thought experiment, the Human-or-Machine question as discussed here has obvious practical significance. And while the jury is still not in regarding the possibility of machines that can mimic human behavior with high fidelity in everyday contexts, we argue that near-term exploration of the issues raised here can contribute to development methods for computerized systems, and may also improve our understanding of human behavior in general.
翻訳日:2023-06-17 00:58:27 公開日:2023-06-15
# lmsの基盤--言語モデルによるフィギュラティブ言語解釈における具体化の効果の検討

LMs stand their Ground: Investigating the Effect of Embodiment in Figurative Language Interpretation by Language Models ( http://arxiv.org/abs/2305.03445v4 )

ライセンス: Link先を確認
Philipp Wicke(参考訳) 表現言語は、その解釈は、従来の順序や意味から逸脱するような言葉の使用に基づいているため、言語モデルの課題である。 しかし、人間がメタファー、シミュレート、イディオムを理解し解釈することは容易にできる。 言語は具体化の代名詞であり、比喩が従来的かつ語彙化された場合、体のないシステムが具体化概念を理解するのが容易になる。 しかし, 言語モデルに関する具体的言語解釈の文脈において, 具体化と具体性や獲得年齢といった特徴との関係は研究されていない。 そこで本研究では,比喩文の動作がより具体化されている場合に,より大きな言語モデルが比喩文の解釈にいかに優れているかを示す。 この分析は、他の特徴(単語の長さや具体性など)と多行性を規定し、より大きな言語モデルが具体的言語理解を促進する程度まで具体的概念を概念化するという最初の証拠を提供する。

Figurative language is a challenge for language models since its interpretation is based on the use of words in a way that deviates from their conventional order and meaning. Yet, humans can easily understand and interpret metaphors, similes or idioms as they can be derived from embodied metaphors. Language is a proxy for embodiment and if a metaphor is conventional and lexicalised, it becomes easier for a system without a body to make sense of embodied concepts. Yet, the intricate relation between embodiment and features such as concreteness or age of acquisition has not been studied in the context of figurative language interpretation concerning language models. Hence, the presented study shows how larger language models perform better at interpreting metaphoric sentences when the action of the metaphorical sentence is more embodied. The analysis rules out multicollinearity with other features (e.g. word length or concreteness) and provides initial evidence that larger language models conceptualise embodied concepts to a degree that facilitates figurative language understanding.
翻訳日:2023-06-17 00:57:44 公開日:2023-06-15
# GPTutor: コード説明のためのChatGPTを利用したプログラミングツール

GPTutor: a ChatGPT-powered programming tool for code explanation ( http://arxiv.org/abs/2305.01863v2 )

ライセンス: Link先を確認
Eason Chen, Ray Huang, Han-Shin Chen, Yuen-Hsien Tseng, and Liang-Yi Li(参考訳) 新しいプログラミングスキルを学ぶには、調整されたガイダンスが必要です。 ChatGPT APIのような先進的な自然言語生成モデルの出現により、コンピュータサイエンス教育のためのAIを使った、便利でパーソナライズされた学習システムを構築することが可能になった。 本稿では,chatgpt api を利用した visual studio コード拡張である chatgpt を活用したプログラミングツール gptutor を提案する。 visual studio code apiを統合することで、gptutorは提供されたコードを関連するソースコードを参照して総合的に分析することができる。 その結果、GPTutorは設計したプロンプトを使用して、選択したコードをポップアップメッセージで説明できる。 gptutorは現在、visual studio code extension marketplaceで公開されており、ソースコードはgithubで公開されている。 予備評価は、GPTutorがバニラChatGPTやGitHub Copilotと比較して、最も簡潔で正確な説明を提供することを示している。 さらに,学生や教師のフィードバックから,GPTutorはユーザフレンドリであり,与えられたコードを十分に説明できることが示唆された。 最後に,GPTutorの今後の研究方針について述べる。 これには、さらなるプロンプトプログラミングによるパフォーマンス向上とパーソナライズ、実際のユーザによるGPTutorの有効性の評価が含まれる。

Learning new programming skills requires tailored guidance. With the emergence of advanced Natural Language Generation models like the ChatGPT API, there is now a possibility of creating a convenient and personalized tutoring system with AI for computer science education. This paper presents GPTutor, a ChatGPT-powered programming tool, which is a Visual Studio Code extension using the ChatGPT API to provide programming code explanations. By integrating Visual Studio Code API, GPTutor can comprehensively analyze the provided code by referencing the relevant source codes. As a result, GPTutor can use designed prompts to explain the selected code with a pop-up message. GPTutor is now published at the Visual Studio Code Extension Marketplace, and its source code is openly accessible on GitHub. Preliminary evaluation indicates that GPTutor delivers the most concise and accurate explanations compared to vanilla ChatGPT and GitHub Copilot. Moreover, the feedback from students and teachers indicated that GPTutor is user-friendly and can explain given codes satisfactorily. Finally, we discuss possible future research directions for GPTutor. This includes enhancing its performance and personalization via further prompt programming, as well as evaluating the effectiveness of GPTutor with real users.
翻訳日:2023-06-17 00:57:12 公開日:2023-06-15
# グラフ表現学習のためのグラフ伝搬トランス

Graph Propagation Transformer for Graph Representation Learning ( http://arxiv.org/abs/2305.11424v2 )

ライセンス: Link先を確認
Zhe Chen, Hao Tan, Tao Wang, Tianrun Shen, Tong Lu, Qiuying Peng, Cheng Cheng, Yue Qi(参考訳) 本稿では,グラフ表現学習のためのトランスフォーマーアーキテクチャを提案する。 本手法の中核となる洞察は,変圧器ブロックにアテンションモジュールを構築する際に,グラフ内のノードとエッジ間の情報伝達を十分に考慮することである。 具体的には,グラフ伝搬注意(GPA)と呼ばれる新しい注意機構を提案する。 ノード間、ノード間、ノード間、ノード間、ノード間、ノード間という3つの方法で、グラフ構造化データの学習に不可欠な情報を明示的に渡します。 本研究では,グラフデータ学習を支援するために,GPTrans (Graph Propagation Transformer) という効果的なトランスアーキテクチャを設計する。 いくつかのベンチマークデータセットにおいて,GPTransの性能を広範囲にわたるグラフ学習実験で検証する。 これらの結果から,本手法は,最先端のトランスフォーマーベースのグラフモデルよりも優れた性能を持つことを示す。 コードはhttps://github.com/czczup/GPTransでリリースされる。

This paper presents a novel transformer architecture for graph representation learning. The core insight of our method is to fully consider the information propagation among nodes and edges in a graph when building the attention module in the transformer blocks. Specifically, we propose a new attention mechanism called Graph Propagation Attention (GPA). It explicitly passes the information among nodes and edges in three ways, i.e. node-to-node, node-to-edge, and edge-to-node, which is essential for learning graph-structured data. On this basis, we design an effective transformer architecture named Graph Propagation Transformer (GPTrans) to further help learn graph data. We verify the performance of GPTrans in a wide range of graph learning experiments on several benchmark datasets. These results show that our method outperforms many state-of-the-art transformer-based graph models with better performance. The code will be released at https://github.com/czczup/GPTrans.
翻訳日:2023-06-17 00:48:58 公開日:2023-06-15
# QAOAアルゴリズムとHHLアルゴリズムを組み合わせることでユニットコミット問題に対する実質量子スピードアップを実現する

Combining the QAOA and HHL Algorithm to achieve a Substantial Quantum Speedup for the Unit Commitment Problem ( http://arxiv.org/abs/2305.08482v2 )

ライセンス: Link先を確認
Jonas Stein, Jezer Jojo, Afrah Farea, David Bucher, Philipp Altmann, M. Serdar \c{C}elebi, Claudia Linnhoff-Popien(参考訳) 本稿では,既存の古典的手法よりも少なくとも立方的に高速に単位コミットメント(uc)問題を解く量子アルゴリズムを提案する。 これは、QAOAルーチン内のHHLアルゴリズムを用いてエネルギー伝達コストを計算することで達成される。 量子回路シミュレータを用いた小ケーススタディにおいて,本研究を実験的に検証した。 さらに, 与えられた解のコスト関数を計算するために, 方程式の線形系を解くことを要求する大規模な最適化問題に対して, このアルゴリズムで開発された概念の適用性を仮定する。

In this paper, we propose a quantum algorithm to solve the unit commitment (UC) problem at least cubically faster than existing classical approaches. This is accomplished by calculating the energy transmission costs using the HHL algorithm inside a QAOA routine. We verify our findings experimentally using quantum circuit simulators in a small case study. Further, we postulate the applicability of the concepts developed for this algorithm to be used for a large class of optimization problems that demand solving a linear system of equations in order to calculate the cost function for a given solution.
翻訳日:2023-06-17 00:48:00 公開日:2023-06-15
# 連成ランダムグラフモデルにおける量子スカー状態

Quantum Scar States in Coupled Random Graph Models ( http://arxiv.org/abs/2305.08123v2 )

ライセンス: Link先を確認
Bhilahari Jeevanesan(参考訳) 我々は,l$site pxp-model のヒルベルト空間接続を,基底状態のグレイ符号によるハミルトニアン行列を構築して解析する。 行列はすべて単一のハミルトニアンパスバックボーンとスキュー対角線上のエントリから成っている。 この観測から、調整可能な制約次数と可変ネットワーク位相を持つランダムグラフに基づいて、関連するハミルトンのアンサンブルを構築する。 エネルギー固有状態の絡み合い構造を研究し、弱絡み状態の2つのクラスを見つける。 最初のクラスは、サブシステムの固有状態の近似積であるスカーを含む。 その起源は高次元空間におけるランダムベクトルのほぼ直交性に遡ることができる。 scarsの2番目のクラスは$\log 2$エンタングルメントエントロピーを持ち、特別なタイプのサブグラフの発生と関連している。 後者の状態は、Lin-Motrunich $\sqrt{2}$-scarsに似ている。

We analyze the Hilbert space connectivity of the $L$ site PXP-model by constructing the Hamiltonian matrices via a Gray code numbering of basis states. The matrices are all formed out of a single Hamiltonian-path backbone and entries on skew-diagonals. Starting from this observation, we construct an ensemble of related Hamiltonians based on random graphs with tunable constraint degree and variable network topology. We study the entanglement structure of their energy eigenstates and find two classes of weakly-entangled mid-spectrum states. The first class contains scars that are approximate products of eigenstates of the subsystems. Their origin can be traced to the near-orthogonality of random vectors in high-dimensional spaces. The second class of scars has $\log 2$ entanglement entropy and is tied to the occurrence of special types of subgraphs. The latter states have some resemblance to the Lin-Motrunich $\sqrt{2}$-scars.
翻訳日:2023-06-17 00:47:22 公開日:2023-06-15
# Meta-Polyp: 効率的なPolypセグメンテーションのためのベースライン

Meta-Polyp: a baseline for efficient Polyp segmentation ( http://arxiv.org/abs/2305.07848v2 )

ライセンス: Link先を確認
Quoc-Huy Trinh(参考訳) 近年,ポリプのセグメンテーションが重要となり,cnn,視覚トランスフォーマー,トランスフォーマー技術を用いた競合的手法が数多く開発されている。 しかし、これらの手法は、分散外データセット、境界の欠如、小さなポリプを扱う際にしばしば困難に直面する。 2022年、メタフォーマーはビジョンの新しいベースラインとして導入され、マルチタスクコンピュータビジョンのパフォーマンスを向上させるだけでなく、ビジョントランスフォーマーとcnnファミリーバックボーンの制限にも対処した。 セグメンテーションをさらに強化するために,UNetとMeta-Formerの融合と,テクスチャを強化するためにデコーダステージにレベルアップを組み合わせたマルチスケールアップサンプリングブロックを提案するとともに,Meta-Formerのアイデアに基づいたConvformerブロックベースを提案し,ローカル特徴の重要な情報を強化する。 これらのブロックは、ポリープの全体形状のようなグローバル情報と、医療区分の決定に不可欠な局所情報と境界情報の組み合わせを可能にする。 提案手法は競争性能を達成し,CVC-300データセット,Kvasir,CVC-ColonDBデータセットにおける最先端の成果を得た。 Kvasir-SEGとは別に、他はアウトオブディストリビューションデータセットである。 実装は以下の通りである。 https://github.com/huyquoctrinh/MetaPolyp-CBMS2023。

In recent years, polyp segmentation has gained significant importance, and many methods have been developed using CNN, Vision Transformer, and Transformer techniques to achieve competitive results. However, these methods often face difficulties when dealing with out-of-distribution datasets, missing boundaries, and small polyps. In 2022, Meta-Former was introduced as a new baseline for vision, which not only improved the performance of multi-task computer vision but also addressed the limitations of the Vision Transformer and CNN family backbones. To further enhance segmentation, we propose a fusion of Meta-Former with UNet, along with the introduction of a Multi-scale Upsampling block with a level-up combination in the decoder stage to enhance the texture, also we propose the Convformer block base on the idea of the Meta-former to enhance the crucial information of the local feature. These blocks enable the combination of global information, such as the overall shape of the polyp, with local information and boundary information, which is crucial for the decision of the medical segmentation. Our proposed approach achieved competitive performance and obtained the top result in the State of the Art on the CVC-300 dataset, Kvasir, and CVC-ColonDB dataset. Apart from Kvasir-SEG, others are out-of-distribution datasets. The implementation can be found at: https://github.com/huyquoctrinh/MetaPolyp-CBMS2023.
翻訳日:2023-06-17 00:47:09 公開日:2023-06-15
# WebIE: Web上の忠実でロバストな情報抽出

WebIE: Faithful and Robust Information Extraction on the Web ( http://arxiv.org/abs/2305.14293v2 )

ライセンス: Link先を確認
Chenxi Whitehouse, Clara Vania, Alham Fikri Aji, Christos Christodoulopoulos, Andrea Pierleoni(参考訳) 原文から構造化事実と接地事実を抽出することは情報抽出(IE)の基本課題である。 既存のIEデータセットは通常ウィキペディアの記事から収集され、ハイパーリンクを使用してエンティティをウィキデータナレッジベースにリンクする。 しかし、wikipediaでのみトレーニングされたモデルは、webドメインに適用すると制限があり、それらは、事実情報を持たないノイズの多いテキストやテキストを含んでいることが多い。 webieは、英語のコモンクロールコーパスから自動的に収集される1.6mの文からなる、最初の大規模なエンティティリンクのクローズドieデータセットである。 WebIEはまた、Web上のデータをよりよく反映するために、事実の3倍の文のような否定的な例も含んでいる。 私たちは、クラウドソーシングを通じてWebIEから約21Kのトリプルを注釈付けし、他の4つの言語(フランス語、スペイン語、ポルトガル語、ヒンディー語)で注釈付けされたセットの翻訳であるmWebIEを紹介します。 生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットのクロスランガル性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。 また,エンティティリンクを補助タスクとして使用する3つのトレーニング戦略を提案する。 実験の結果,Entity-Linkingの目的を付加することで,生成IEモデルの忠実度が向上することがわかった。

Extracting structured and grounded fact triples from raw text is a fundamental task in Information Extraction (IE). Existing IE datasets are typically collected from Wikipedia articles, using hyperlinks to link entities to the Wikidata knowledge base. However, models trained only on Wikipedia have limitations when applied to web domains, which often contain noisy text or text that does not have any factual information. We present WebIE, the first large-scale, entity-linked closed IE dataset consisting of 1.6M sentences automatically collected from the English Common Crawl corpus. WebIE also includes negative examples, i.e. sentences without fact triples, to better reflect the data on the web. We annotate ~21K triples from WebIE through crowdsourcing and introduce mWebIE, a translation of the annotated set in four other languages: French, Spanish, Portuguese, and Hindi. We evaluate the in-domain, out-of-domain, and zero-shot cross-lingual performance of generative IE models and find models trained on WebIE show better generalisability. We also propose three training strategies that use entity linking as an auxiliary task. Our experiments show that adding Entity-Linking objectives improves the faithfulness of our generative IE models.
翻訳日:2023-06-17 00:40:16 公開日:2023-06-15
# トレーニングしない:グラフニューラルネットワークの線形ニューラルネットワーク探索

Do Not Train It: A Linear Neural Architecture Search of Graph Neural Networks ( http://arxiv.org/abs/2305.14065v2 )

ライセンス: Link先を確認
Peng Xu, Lin Zhang, Xuanzhou Liu, Jiaqi Sun, Yue Zhao, Haiqin Yang, Bei Yu(参考訳) グラフニューラルネットワーク(GNN)のためのNAS(Neural Architecture Search)はNAS-GNNと呼ばれ、手作業で設計されたGNNアーキテクチャよりも大きなパフォーマンスを実現している。 しかし、これらの手法は計算コストや最適化の難しさといった従来のNAS法から問題を継承する。 さらに重要なことは、従来のNAS手法はGNNの独自性を無視しており、GNNは訓練なしで表現力を持っている。 ランダムに初期化される重みにより、スパースコーディングの目的によって最適なアーキテクチャパラメータを求め、新しいNAS-GNN法、すなわちニューラルアーキテクチャコーディング(NAC)を導出できる。 その結果、NACはGNNの更新なしスキームを持ち、線形時間で効率的に計算できる。 複数のGNNベンチマークデータセットに対する実証的な評価は、我々のアプローチが最先端のパフォーマンスにつながることを示している。

Neural architecture search (NAS) for Graph neural networks (GNNs), called NAS-GNNs, has achieved significant performance over manually designed GNN architectures. However, these methods inherit issues from the conventional NAS methods, such as high computational cost and optimization difficulty. More importantly, previous NAS methods have ignored the uniqueness of GNNs, where GNNs possess expressive power without training. With the randomly-initialized weights, we can then seek the optimal architecture parameters via the sparse coding objective and derive a novel NAS-GNNs method, namely neural architecture coding (NAC). Consequently, our NAC holds a no-update scheme on GNNs and can efficiently compute in linear time. Empirical evaluations on multiple GNN benchmark datasets demonstrate that our approach leads to state-of-the-art performance, which is up to $200\times$ faster and $18.8\%$ more accurate than the strong baselines.
翻訳日:2023-06-17 00:39:32 公開日:2023-06-15
# 量子電流とホログラフィック圏対称性

Quantum Current and Holographic Categorical Symmetry ( http://arxiv.org/abs/2305.12917v2 )

ライセンス: Link先を確認
Tian Lan and Jing-Ren Zhou(参考訳) 我々は量子電流の定式化を確立する。 対称群 $g$ が与えられたとき、$\mathcal{c}:=\mathrm{rep}\, g$ をその表現圏とする。 物理的には、対称性電荷は $\mathcal{c}$ の対象であり、対称作用素は $\mathcal{c}$ の射である。 電荷の付加は表現のテンソル積によって与えられる。 2つのサブシステムを通過する任意の対称作用素 $o$ に対して、$o$ で転送される正確な対称性電荷を抽出することができる。 量子電流は、任意の長距離にわたって対称性電荷を輸送できる対称作用素として定義される。 量子電流は、ドリンフェルト中心$Z_1(\mathcal{C})$の物体と正確に一致する。 凝縮される量子電流の条件も指定される。 局所保存を表現するために、内部ホムは電荷差を計算するために使われなければならず、濃縮圏の枠組みは避けられない。 これらの概念を説明するために, 1次元格子系における再正規化の厳密なスキームを開発し, 固定点モデルの解析を行う。 固定点モデルでは、凝縮量子電流は$z_1(\mathcal{c})$でラグランジアン代数を形成し、境界-バルク対応は拡張された設定で検証される。 全体として、量子電流はホログラフィック圏対称性の自然な物理的解釈を与える。

We establish the formulation for quantum current. Given a symmetry group $G$, let $\mathcal{C}:=\mathrm{Rep}\, G$ be its representation category. Physically, symmetry charges are objects of $\mathcal{C}$ and symmetric operators are morphisms in $\mathcal{C}$. The addition of charges is given by the tensor product of representations. For any symmetric operator $O$ crossing two subsystems, the exact symmetry charge transported by $O$ can be extracted. The quantum current is defined as symmetric operators that can transport symmetry charges over an arbitrary long distance. A quantum current exactly corresponds to an object in the Drinfeld center $Z_1(\mathcal{C})$. The condition for quantum currents to be condensed is also specified. To express the local conservation, the internal hom must be used to compute the charge difference, and the framework of enriched category is inevitable. To illustrate these ideas, we develop a rigorous scheme of renormalization in one-dimensional lattice systems and analyse the fixed-point models. It is proved that in the fixed-point models, condensed quantum currents form a Lagrangian algebra in $Z_1(\mathcal{C})$ and the boundary-bulk correspondence is verified in the enriched setting. Overall, the quantum current provides a natural physical interpretation to the holographic categorical symmetry.
翻訳日:2023-06-17 00:38:13 公開日:2023-06-15
# 局所非エルミート量子系におけるスクランブルと作用素絡み合い

Scrambling and operator entanglement in local non-Hermitian quantum systems ( http://arxiv.org/abs/2305.12054v2 )

ライセンス: Link先を確認
Brian Barch, Namit Anand, Jeffrey Marshall, Eleanor Rieffel, Paolo Zanardi(参考訳) 局所的非エルミート量子系におけるリーブ・ロビンソン境界の崩壊は、量子多体現象学の豊かな展望の可能性を開く。 我々はこれを、パラダイム的局所量子スピンチェーンモデルの非エルミート変種における情報スクランブルと量子カオスの研究によって解明する。 数値計算には厳密対角化法とテンソルネットワーク法を併用し,3つの動的量に着目した。 (i)オフ・オブ・タイム・コリエータ(otoc) (ii)動力学の演算子絡み合い、及び (iii)製品初期状態からのクエンチ後の絡み合い成長。 OTOCは、単純で局所的でない非エルミート的逆場イジングモデルでは、情報を捕捉できないが、密接に関連する作用素の絡み合いは、興味の動的性質の堅牢な測度である。 さらに,演算子の絡み合いの短期的な成長は,これらの系の'絡み合い相転移'を全般的に検出できる一方で,その長期平均は量子カオスと絡み合い相の信頼性の高い指標であることを示す。 これにより、閉かつオープンな量子システムに関する以前の研究から、監視量子力学の新しい領域まで、演算子絡み合いに基づく診断を拡張できる。 最後に, 連続監視における積分性/カオス検出における動的量の有効性について述べる。

The breakdown of Lieb-Robinson bounds in local, non-Hermitian quantum systems opens up the possibility for a rich landscape of quantum many-body phenomenology. We elucidate this by studying information scrambling and quantum chaos in non-Hermitian variants of paradigmatic local quantum spin-chain models. We utilize a mixture of exact diagonalization and tensor network techniques for our numerical results and focus on three dynamical quantities: (i) out-of-time-ordered correlators (OTOCs), (ii) operator entanglement of the dynamics, and (iii) entanglement growth following a quench from product initial states. We show that while OTOCs fail to capture information scrambling in a simple, local, non-Hermitian transverse-field Ising model, the closely related operator entanglement is a robust measure of dynamical properties of interest. Moreover, we show that the short-time growth of operator entanglement can generically detect ``entanglement phase transitions'' in these systems while its long-time average is shown to be a reliable indicator of quantum chaos and entanglement phases. This allows us to extend operator entanglement based diagnostics from previous works on closed and open quantum systems, to the new arena of monitored quantum dynamics. Finally, we remark on the efficacy of these dynamical quantities in detecting integrability/chaos in the presence of continuous monitoring.
翻訳日:2023-06-17 00:37:56 公開日:2023-06-15
# 概念を学ぶ:視覚的に拡張された自然言語生成

Learning to Imagine: Visually-Augmented Natural Language Generation ( http://arxiv.org/abs/2305.16944v3 )

ライセンス: Link先を確認
Tianyi Tang, Yushuo Chen, Yifan Du, Junyi Li, Wayne Xin Zhao, and Ji-Rong Wen(参考訳) 人々はしばしば、執筆プロセスを支援するために関連するシーンを想像します。 本研究では,人間と同じような構成で視覚情報を活用することを目的とする。 本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習するLIVEを提案する。 まず,テキストに基づくシーンを想像する。我々は拡散モデルを用いて,入力テキストを条件とした高品質な画像を合成する。 次に、CLIPを使用して、テキストが後方方向のイマジネーションを誘発できるかどうかを判断する。 最後に、想像力は動的であり、段落全体に対して1つの画像だけを生成するのではなく、各文の合成を行います。 技術的には、各テキストに対する視覚的に拡張された表現を得るために、新しいプラグアンドプレイ融合層を提案する。 視覚テキスト融合層はトランスフォーマーベースのアーキテクチャと互換性があります。 我々は,BARTとT5を用いた4世代タスクの広範な実験を行い,提案手法の有効性を実証した。 コード、モデル、データをリンクでリリースします。 https://github.com/rucaibox/live。

People often imagine relevant scenes to aid in the writing process. In this work, we aim to utilize visual information for composition in the same manner as humans. We propose a method, LIVE, that makes pre-trained language models (PLMs) Learn to Imagine for Visuallyaugmented natural language gEneration. First, we imagine the scene based on the text: we use a diffusion model to synthesize high-quality images conditioned on the input texts. Second, we use CLIP to determine whether the text can evoke the imagination in a posterior way. Finally, our imagination is dynamic, and we conduct synthesis for each sentence rather than generate only one image for an entire paragraph. Technically, we propose a novel plug-and-play fusion layer to obtain visually-augmented representations for each text. Our vision-text fusion layer is compatible with Transformerbased architecture. We have conducted extensive experiments on four generation tasks using BART and T5, and the automatic results and human evaluation demonstrate the effectiveness of our proposed method. We will release the code, model, and data at the link: https://github.com/RUCAIBox/LIVE.
翻訳日:2023-06-17 00:29:44 公開日:2023-06-15
# 単一ソース領域一般化のためのCNN特徴マップの拡張

CNN Feature Map Augmentation for Single-Source Domain Generalization ( http://arxiv.org/abs/2305.16746v2 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 堅牢で一般化可能な機械学習モデルを探す中で、ドメイン一般化(DG)はここ数年で大きな注目を集めている。 DGの目標は、トレーニング中に利用可能なものと異なるデータ分散を提示した場合、引き続き正常に機能するモデルを作成することだ。 深層畳み込みニューラルネットワーク(CNN)は、下流のコンピュータビジョンタスクで優れたパフォーマンスを達成できたが、これまで見つからなかったデータドメインの一般化に失敗することが多い。 そこで本研究では,データ分散シフト時においても頑健なモデルを作成することに注力し,単一ソースdg画像分類における畳み込みニューラルネットワークアーキテクチャのための代替正規化手法を提案する。 ソースとターゲットデータ間のドメインシフトによる問題を軽減するため、cnnの中間特徴マップの強化を提案する。 具体的には、モデルをトレーニングセットにオーバーフィットさせ、ドメイン間の一般化を改善するために、新しい拡張層を通過させます。 我々の知る限りでは、DG画像分類設定にそのような設定を提案する最初の論文である。 PACS,VLCS,Office-Home,TerraIncognitaのDGベンチマークデータセットを用いた実験により,本手法の有効性が検証された。

In search of robust and generalizable machine learning models, Domain Generalization (DG) has gained significant traction during the past few years. The goal in DG is to produce models which continue to perform well when presented with data distributions different from the ones available during training. While deep convolutional neural networks (CNN) have been able to achieve outstanding performance on downstream computer vision tasks, they still often fail to generalize on previously unseen data Domains. Therefore, in this work we focus on producing a model which is able to remain robust under data distribution shift and propose an alternative regularization technique for convolutional neural network architectures in the single-source DG image classification setting. To mitigate the problem caused by domain shift between source and target data, we propose augmenting intermediate feature maps of CNNs. Specifically, we pass them through a novel Augmentation Layer} to prevent models from overfitting on the training set and improve their cross-domain generalization. To the best of our knowledge, this is the first paper proposing such a setup for the DG image classification setting. Experiments on the DG benchmark datasets of PACS, VLCS, Office-Home and TerraIncognita validate the effectiveness of our method, in which our model surpasses state-of-the-art algorithms in most cases.
翻訳日:2023-06-17 00:29:27 公開日:2023-06-15
# GDA:関係抽出タスクのための生成データ拡張技術

GDA: Generative Data Augmentation Techniques for Relation Extraction Tasks ( http://arxiv.org/abs/2305.16663v2 )

ライセンス: Link先を確認
Xuming Hu, Aiwei Liu, Zeqi Tan, Xin Zhang, Chenwei Zhang, Irwin King, Philip S. Yu(参考訳) 関係抽出(RE)タスクは、トレーニング中に十分なアノテーションが与えられた文で言及された2つのエンティティから関係を抽出する際の有望なパフォーマンスを示す。 このようなアノテーションは実際に入手するのに労力がかかる。 既存の作業では、制限されたアノテーションを超えて擬似注釈文を生成するために、データ拡張技術を採用している。 これらの手法は、規則に基づく拡張が適用された場合の原文の意味的一貫性を保たず、seq2seqモデルを用いて関係を表現する場合の文の構文構造を保たず、より多様な拡張をもたらす。 本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。 我々は生成的定式化を採用し、相乗効果を達成するためにマルチタスクソリューションを設計する。 さらに、GDAは、生成モデルの事前知識としてエンティティヒントを採用し、多様な文を増強する。 低リソース環境下での3つのデータセットによる実験結果から、GDAは拡張テクニックを使わずにF1の改善をもたらすことが示された。 ソースコードとデータは利用可能である。

Relation extraction (RE) tasks show promising performance in extracting relations from two entities mentioned in sentences, given sufficient annotations available during training. Such annotations would be labor-intensive to obtain in practice. Existing work adopts data augmentation techniques to generate pseudo-annotated sentences beyond limited annotations. These techniques neither preserve the semantic consistency of the original sentences when rule-based augmentations are adopted, nor preserve the syntax structure of sentences when expressing relations using seq2seq models, resulting in less diverse augmentations. In this work, we propose a dedicated augmentation technique for relational texts, named GDA, which uses two complementary modules to preserve both semantic consistency and syntax structures. We adopt a generative formulation and design a multi-tasking solution to achieve synergies. Furthermore, GDA adopts entity hints as the prior knowledge of the generative model to augment diverse sentences. Experimental results in three datasets under a low-resource setting showed that GDA could bring {\em 2.0\%} F1 improvements compared with no augmentation technique. Source code and data are available.
翻訳日:2023-06-17 00:29:05 公開日:2023-06-15
# データ制約付き言語モデルのスケーリング

Scaling Data-Constrained Language Models ( http://arxiv.org/abs/2305.16264v3 )

ライセンス: Link先を確認
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel(参考訳) 言語モデルをスケールする現在のトレンドは、パラメータカウントとトレーニングデータセットサイズの両方の増加である。 この傾向を外挿すると、トレーニングデータセットのサイズは、インターネット上で利用可能なテキストデータの量によってすぐに制限される可能性がある。 この制限により,データ制約型システムにおける言語モデルのスケーリングについて検討する。 具体的には、データの繰り返しと計算予算の範囲を多岐にわたる実験を行い、最大9億のトレーニングトークンと90億のパラメータモデルを設定しました。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4エポックのトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 しかし、さらに繰り返すと計算量を追加する値は最終的にゼロになる。 反復トークンと余剰パラメータの値減少を考慮した最適性計算のためのスケーリング則を提案し,実証的に検証する。 最後に、トレーニングデータセットをコードデータで強化したり、よく使われるフィルタを削除したりするなど、データの不足を軽減するアプローチを実験する。 400のトレーニング実行のモデルとデータセットは、https://github.com/huggingface/datablations.comで無償公開されている。

The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.
翻訳日:2023-06-17 00:28:45 公開日:2023-06-15
# Cheap and Quick: 大規模言語モデルのための効率的な視覚言語指導チューニング

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2305.15023v2 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji(参考訳) 近年、人工知能の次のマイルストーンと見なされる視覚言語(vl)学習など、大規模言語モデル(llm)のマルチモーダル能力の拡張への関心が高まっている。 しかし、既存のソリューションは非常に高価であり、過剰なパラメータを最適化するだけでなく、VL命令のチューニングの前にも大規模な事前学習が必要である。 本稿では,Mixture-of-Modality Adaptation (MMA)と呼ばれる,LLMの有効なVL適応のための,新規で安価なソリューションを提案する。 画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAはLLMとVLタスクのギャップを埋めるために、軽量モジュール(アダプタ)を採用する。 一方、MMAは、LLMが自然言語理解能力を損なうことなく、シングルモーダル命令とマルチモーダル命令の自動シフトを実現するためのルーティングアルゴリズムも備えている。 mmaを検証するために、llamaと呼ばれる最近のllmに適用し、これをlavinという大きな視覚言語指示モデルと呼ぶ。 mmaとlavinを検証するために,マルチモーダル科学質問応答とマルチモーダル対話という2つの設定で広範な実験を行った。 実験結果は,既存のマルチモーダルLLMよりもLaVINの競争性能と訓練効率が優れているだけでなく,汎用チャットボットとしての可能性も確認した。 さらに重要なことに、LaVINの実際の支出は極めて安価であり、例えば3.8Mのトレーニング可能なパラメータを持つ訓練時間は1.4時間に過ぎず、MMAの有効性を大きく確認している。 私たちのプロジェクトはhttps://luogen1996.github.io/lavinでリリースしています。

Recently, growing interest has been aroused in extending the multimodal capability of large language models (LLMs), e.g., vision-language (VL) learning, which is regarded as the next milestone of artificial general intelligence. However, existing solutions are prohibitively expensive, which not only need to optimize excessive parameters, but also require another large-scale pre-training before VL instruction tuning. In this paper, we propose a novel and affordable solution for the effective VL adaption of LLMs, called Mixture-of-Modality Adaptation (MMA). Instead of using large neural networks to connect the image encoder and LLM, MMA adopts lightweight modules, i.e., adapters, to bridge the gap between LLMs and VL tasks, which also enables the joint optimization of the image and language models. Meanwhile, MMA is also equipped with a routing algorithm to help LLMs achieve an automatic shift between single- and multi-modal instructions without compromising their ability of natural language understanding. To validate MMA, we apply it to a recent LLM called LLaMA and term this formed large vision-language instructed model as LaVIN. To validate MMA and LaVIN, we conduct extensive experiments under two setups, namely multimodal science question answering and multimodal dialogue. The experimental results not only demonstrate the competitive performance and the superior training efficiency of LaVIN than existing multimodal LLMs, but also confirm its great potential as a general-purpose chatbot. More importantly, the actual expenditure of LaVIN is extremely cheap, e.g., only 1.4 training hours with 3.8M trainable parameters, greatly confirming the effectiveness of MMA. Our project is released at https://luogen1996.github.io/lavin.
翻訳日:2023-06-17 00:27:38 公開日:2023-06-15
# 画像キャプションのための様々なコンテキスト内構成の探索

Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v3 )

ライセンス: Link先を確認
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng(参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。 近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法、すなわちランダムサンプリングを使って、テキスト内画像とテキストのペアを構成している。 様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。 ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。 我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, i.e., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case.
翻訳日:2023-06-17 00:27:09 公開日:2023-06-15
# DiffRoom:拡散型高品位3次元部屋再構成と作業前生成

DiffRoom: Diffusion-based High-Quality 3D Room Reconstruction and Generation with Occupancy Prior ( http://arxiv.org/abs/2306.00519v2 )

ライセンス: Link先を確認
Xiaoliang Ju, Zhaoyang Huang, Yijin Li, Guofeng Zhang, Yu Qiao, Hongsheng Li(参考訳) DiffRoomは,室内形状の複雑さと多様性のために,高品質な3次元室内再現・生成の課題に対処するための新しいフレームワークである。 拡散型生成モデルは画像生成やオブジェクトレベルの3D生成において,これまでは顕著な性能を示してきたが,計算集約コストのため,まだ部屋レベルの3D生成には適用されていない。 本稿では,tsdf(truncated signed distance field)の効率的な生成性能を有する分散3次元拡散ネットワークを提案する。 kinectfusionのインクリメンタルアライメントと局所sdfの融合に触発されて,tsdfを反復的に拡散・融合し,室内環境全体の再構築と生成を容易にする拡散ベースのtsdf融合手法を提案する。 さらに, 学習の容易化を目的として, 学習収束プロセスを高速化し, 高品質な再構築を可能にするカリキュラム拡散学習パラダイムを提案する。 ユーザ調査によると、DiffRoomが生成するメッシュの品質は、ScanNetが提供する地上の真理メッシュよりも優れています。 最新の進捗とデモについては、プロジェクトページを参照してください。

We present DiffRoom, a novel framework for tackling the problem of high-quality 3D indoor room reconstruction and generation, both of which are challenging due to the complexity and diversity of the room geometry. Although diffusion-based generative models have previously demonstrated impressive performance in image generation and object-level 3D generation, they have not yet been applied to room-level 3D generation due to their computationally intensive costs. In DiffRoom, we propose a sparse 3D diffusion network that is efficient and possesses strong generative performance for Truncated Signed Distance Field (TSDF), based on a rough occupancy prior. Inspired by KinectFusion's incremental alignment and fusion of local SDFs, we propose a diffusion-based TSDF fusion approach that iteratively diffuses and fuses TSDFs, facilitating the reconstruction and generation of an entire room environment. Additionally, to ease training, we introduce a curriculum diffusion learning paradigm that speeds up the training convergence process and enables high-quality reconstruction. According to the user study, the mesh quality generated by our DiffRoom can even outperform the ground truth mesh provided by ScanNet. Please visit our project page for the latest progress and demonstrations: https://akirahero.github.io/DiffRoom/.
翻訳日:2023-06-17 00:21:20 公開日:2023-06-15
# Shuffle SGD は常に SGD より優れている: 任意データ順序による SGD の解析の改善

Shuffle SGD is Always Better than SGD: Improved Analysis of SGD with Arbitrary Data Orders ( http://arxiv.org/abs/2305.19259v2 )

ライセンス: Link先を確認
Anastasia Koloskova, Nikita Doikov, Sebastian U. Stich, Martin Jaggi(参考訳) 確率勾配 Descent (SGD) アルゴリズムはニューラルネットワークの最適化に広く用いられ、ランダムリシャッフル (RR) とシングルシャッフル (SS) はトレーニングデータのランダムまたは単一置換によるサイクリングの一般的な選択肢である。 しかし、非凸の場合におけるこれらのアルゴリズムの収束性は完全には理解されていない。 既存の結果から,エポックの数がトレーニングセットサイズよりも小さい現実的なトレーニングシナリオでは,RRはSGDよりも悪いパフォーマンスを示す可能性が示唆された。 本稿では,任意のデータ順序付けが可能な一般SGDアルゴリズムを解析し,非凸関数に対する収束率の向上を示す。 具体的には, ランダムかつ単一シャッフルのSGDは, イテレーション数に関係なく, 従来のSGDよりも常に高速か,少なくとも同等であることを示す。 本研究は,SGDをランダム/単一シャッフルで使用することの利点を強調し,非凸最適化のための収束特性に関する新たな知見を提供する。

Stochastic Gradient Descent (SGD) algorithms are widely used in optimizing neural networks, with Random Reshuffling (RR) and Single Shuffle (SS) being popular choices for cycling through random or single permutations of the training data. However, the convergence properties of these algorithms in the non-convex case are not fully understood. Existing results suggest that, in realistic training scenarios where the number of epochs is smaller than the training set size, RR may perform worse than SGD. In this paper, we analyze a general SGD algorithm that allows for arbitrary data orderings and show improved convergence rates for non-convex functions. Specifically, our analysis reveals that SGD with random and single shuffling is always faster or at least as good as classical SGD with replacement, regardless of the number of iterations. Overall, our study highlights the benefits of using SGD with random/single shuffling and provides new insights into its convergence properties for non-convex optimization.
翻訳日:2023-06-17 00:20:23 公開日:2023-06-15
# 巣から出て行け! TwitterMigration to Mastodonにおける社会的影響の要因

Get Out of the Nest! Drivers of Social Influence in the #TwitterMigration to Mastodon ( http://arxiv.org/abs/2305.19056v2 )

ライセンス: Link先を確認
Lucio La Cava, Luca Maria Aiello, Andrea Tagarelli(参考訳) elon muskが買収された後、twitterユーザーのマストドンへの移行は、集団行動を研究し、オンラインメディアにおける協調行動の原動力となる洞察を得るユニークな機会をもたらす。 我々は,約75,000人の移住者のソーシャル・ネットワークと公的な会話を分析し,情報拡散の包括的流行モデルを用いて,移動の時間的痕跡が社会的影響の現象と相容れないことを観察した。 行動変化に関する以前の研究から、さまざまなTwitterコミュニティの多様性を考慮に入れた要因を、移行への影響力の拡散の有効性について検討した。 影響プロセスが急速に拡大するコミュニティは、社会的つながりの密度の低下、移住へのコミットメントのレベル上昇、コミュニティの議論において共有アイデンティティと事実知識の交換に重点を置いている。 これらの因子は、観測データのばらつきの57%を占める。 本研究は,草の根集団行動の記述における社会的相互作用のネットワーク構造,コミットメント,心理言語学的側面の連立の重要性を強調し,オンライン集団の行動変化の過程の解明に寄与する。

The migration of Twitter users to Mastodon following Elon Musk's acquisition presents a unique opportunity to study collective behavior and gain insights into the drivers of coordinated behavior in online media. We analyzed the social network and the public conversations of about 75,000 migrated users and observed that the temporal trace of their migrations is compatible with a phenomenon of social influence, as described by a compartmental epidemic model of information diffusion. Drawing from prior research on behavioral change, we delved into the factors that account for variations across different Twitter communities in the effectiveness of the spreading of the influence to migrate. Communities in which the influence process unfolded more rapidly exhibit lower density of social connections, higher levels of signaled commitment to migrating, and more emphasis on shared identity and exchange of factual knowledge in the community discussion. These factors account collectively for 57% of the variance in the observed data. Our results highlight the joint importance of network structure, commitment, and psycho-linguistic aspects of social interactions in describing grassroots collective action, and contribute to deepen our understanding of the mechanisms driving processes of behavior change of online groups.
翻訳日:2023-06-17 00:20:02 公開日:2023-06-15
# ソフトウェアプロセス品質の進化的変化を活用する

Leveraging Evolutionary Changes for Software Process Quality ( http://arxiv.org/abs/2305.18061v2 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) 現実世界のソフトウェアアプリケーションは、常に進化し続けなければならない。 この進化は、新しいアプリケーションを開発したり、新しい要求を満たしたり、修正したり、将来の機能を組み込んだりする際に起こります。 従来のソフトウェア品質管理には、ソフトウェア品質モデルと継続的コード検査ツールが含まれる。 これらの尺度は、ソフトウェアの品質を直接評価することに焦点を当てます。 しかし、開発プロセスの品質と結果のソフトウェア製品との間には、強い相関関係と因果関係がある。 したがって、開発プロセスの改善は間接的にソフトウェア製品も改善します。 これを実現するには、過去のプロセスから効果的な学習が必要であり、しばしば死後の組織学習を通じて受け入れられる。 大規模なアーティファクトの質的評価は一般的だが、アプリケーションライフサイクル管理によって得られる小さな量的変化はしばしば見過ごされる。 ソフトウェアメトリクスに加えて、これらの小さな変更は、プロジェクト文化とマネジメントに関連する複雑な現象を明らかにします。 これらの変更を活用することで、このような複雑な問題の検出と対処に役立ちます。 ソフトウェアの進化は以前、変更のサイズによって測定されていたが、信頼性と汎用性の定量化方法に関する合意の欠如は、信頼できるメトリクスとしての使用を妨げている。 異なる大きさの分類は進化の性質を確実に記述することができない。 アプリケーションのライフサイクル管理データは豊富だが、どのアーティファクトが有害な管理プラクティスをモデル化できるかはいまだ不明だ。 シミュレーションモデリング、離散事象シミュレーション、ベイズネットワークのようなアプローチは、そのような現象の連続的なプロセスモデルを利用する能力に限られる。 さらに悪いことに、このようなグレーまたはブラックボックスモデルに対するアクセシビリティと機械的な洞察は、通常非常に低い。 これらの課題に対処するために、客観的に活用することを提案します [...]

Real-world software applications must constantly evolve to remain relevant. This evolution occurs when developing new applications or adapting existing ones to meet new requirements, make corrections, or incorporate future functionality. Traditional methods of software quality control involve software quality models and continuous code inspection tools. These measures focus on directly assessing the quality of the software. However, there is a strong correlation and causation between the quality of the development process and the resulting software product. Therefore, improving the development process indirectly improves the software product, too. To achieve this, effective learning from past processes is necessary, often embraced through post mortem organizational learning. While qualitative evaluation of large artifacts is common, smaller quantitative changes captured by application lifecycle management are often overlooked. In addition to software metrics, these smaller changes can reveal complex phenomena related to project culture and management. Leveraging these changes can help detect and address such complex issues. Software evolution was previously measured by the size of changes, but the lack of consensus on a reliable and versatile quantification method prevents its use as a dependable metric. Different size classifications fail to reliably describe the nature of evolution. While application lifecycle management data is rich, identifying which artifacts can model detrimental managerial practices remains uncertain. Approaches such as simulation modeling, discrete events simulation, or Bayesian networks have only limited ability to exploit continuous-time process models of such phenomena. Even worse, the accessibility and mechanistic insight into such gray- or black-box models are typically very low. To address these challenges, we suggest leveraging objectively [...]
翻訳日:2023-06-17 00:19:42 公開日:2023-06-15
# 単調なMax-Sum GNNとデータログの対応について

On the Correspondence Between Monotonic Max-Sum GNNs and Datalog ( http://arxiv.org/abs/2305.18015v3 )

ライセンス: Link先を確認
David Tena Cucala, Bernardo Cuenca Grau, Boris Motik, Egor V. Kostylev(参考訳) 構造化データに機械学習技術を適用することには大きな関心があるが、これらの技術の表現力(つまり、何を学ぶことができるかの記述)はまだよく分かっていない。 本稿では,グラフニューラルネットワーク(GNN)に基づくデータ変換について検討する。 まず、GNNが処理可能な数値形式にデータセットをエンコードする方法の選択は、モデルの表現性の特徴を曖昧にし、正準符号化が適切な基盤となることを論じる。 第2に,最大および総集合関数を持つGNNのサブクラスをカバーする単調最大GNNの表現性について検討する。 各GNNに対して、任意のデータセットにGNNを適用することで、プログラムのルールをデータセットに単一ラウンドで適用するのと同じ事実を生成するように、Datalogプログラムを計算できることが示される。 モノトニックなmax-sum gnnは、任意に大きな特徴値をもたらすような、無限個の特徴ベクトルをまとめることができるが、ルールアプリケーションでは、定数の有界数のみを必要とする。 その結果,単調max-sum gnnの非有界和は表現力を高めないことがわかった。 第3に、最大集約関数のみを使用するモノトニックマックスGNNのサブクラスに結果をシャープし、対応するDatalogプログラムのクラスを特定する。

Although there has been significant interest in applying machine learning techniques to structured data, the expressivity (i.e., a description of what can be learned) of such techniques is still poorly understood. In this paper, we study data transformations based on graph neural networks (GNNs). First, we note that the choice of how a dataset is encoded into a numeric form processable by a GNN can obscure the characterisation of a model's expressivity, and we argue that a canonical encoding provides an appropriate basis. Second, we study the expressivity of monotonic max-sum GNNs, which cover a subclass of GNNs with max and sum aggregation functions. We show that, for each such GNN, one can compute a Datalog program such that applying the GNN to any dataset produces the same facts as a single round of application of the program's rules to the dataset. Monotonic max-sum GNNs can sum an unbounded number of feature vectors which can result in arbitrarily large feature values, whereas rule application requires only a bounded number of constants. Hence, our result shows that the unbounded summation of monotonic max-sum GNNs does not increase their expressive power. Third, we sharpen our result to the subclass of monotonic max GNNs, which use only the max aggregation function, and identify a corresponding class of Datalog programs.
翻訳日:2023-06-17 00:19:18 公開日:2023-06-15
# 部分注釈データからの学習--言語学習のためのギャップ充足演習の例-

Learning from Partially Annotated Data: Example-aware Creation of Gap-filling Exercises for Language Learning ( http://arxiv.org/abs/2306.01584v2 )

ライセンス: Link先を確認
Semere Kiros Bitew, Johannes Deleu, A. Seza Do\u{g}ru\"oz, Chris Develder, Thomas Demeester(参考訳) エクササイズ(例えば、実践テストを含む)を実施することは学習の重要な要素であり、そのようなエクササイズを作成するには教師の非自明な努力が必要であるため、教育におけるデジタルツールにおける自動エクササイズ生成には大きな価値がある。 本稿では,特に言語学習,特に文法演習のためのギャップ埋め演習の自動作成に焦点を当てる。 この領域にいかなるアノテーションも人的専門家の努力を必要とするため、我々は、意図した文法トピックの明示的な指示や詳細なアノテーションを使わずに、既存のテキストを純粋にサンプルエクササイズに基づいて、新しいギャップを埋めるエクササイズに変換するタスクを、完全に回避することを目的としている。 貢献します (i)上記ギャップ充足運動生成タスク専用に設計された新規ニューラルネットワークアーキテクチャ、及び (ii)フランス語文法のための実世界のベンチマークデータセット。 この文法ギャップを埋めるエクササイズ生成のための我々のモデルは、F1パーセンテージポイントにおいて競合ベースライン分類器を8%上回り、平均F1スコアが82%であることを示す。 我々のモデル実装とデータセットは,今後の研究を促進するために公開され,文法演習作成において提案する部分注釈データ予測タスクの標準化された評価とベースラインソリューションを提供する。

Since performing exercises (including, e.g., practice tests) forms a crucial component of learning, and creating such exercises requires non-trivial effort from the teacher, there is a great value in automatic exercise generation in digital tools in education. In this paper, we particularly focus on automatic creation of gapfilling exercises for language learning, specifically grammar exercises. Since providing any annotation in this domain requires human expert effort, we aim to avoid it entirely and explore the task of converting existing texts into new gap-filling exercises, purely based on an example exercise, without explicit instruction or detailed annotation of the intended grammar topics. We contribute (i) a novel neural network architecture specifically designed for aforementioned gap-filling exercise generation task, and (ii) a real-world benchmark dataset for French grammar. We show that our model for this French grammar gap-filling exercise generation outperforms a competitive baseline classifier by 8% in F1 percentage points, achieving an average F1 score of 82%. Our model implementation and the dataset are made publicly available to foster future research, thus offering a standardized evaluation and baseline solution of the proposed partially annotated data prediction task in grammar exercise creation.
翻訳日:2023-06-17 00:09:15 公開日:2023-06-15
# ヘイトスピーチベンチマークを再考する: データキュレーションからシステム展開へ

Revisiting Hate Speech Benchmarks: From Data Curation to System Deployment ( http://arxiv.org/abs/2306.01105v2 )

ライセンス: Link先を確認
Atharva Kulkarni, Sarah Masud, Vikram Goyal, Tanmoy Chakraborty(参考訳) ソーシャルメディアには憎悪的なコンテンツが溢れており、その多くが言語や話題の多様性に満ちている。 ヘイトスピーチ検出に使用されるベンチマークデータセットは、ヘイトレキシコンを使用して主にコンパイルされるため、そのような拡散を考慮しない。 しかし、中立に封じられた悪意のあるコンテンツでは、ヘイト信号の捕獲が困難になる。 したがって、憎しみの現実的な多様性を模倣するモデルやデータセットを設計することは、さらなる調査となる。 GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソーシングした大規模データセットである。 GOTHateは中立的にシードされ、異なる言語やトピックを含んでいる。 我々は,既存のヘイトスピーチデータセットとgothateの詳細な比較を行い,その新しさを強調する。 最近の10のベースラインでベンチマークします。 実験およびベンチマーク実験により,GOTHateはテキストのみのセットアップでは分類が困難であることが示唆された。 そこで本研究では,内因性信号の付加がヘイトスピーチ検出タスクをいかに強化するかを検討する。 我々はGOTHateをユーザのタイムライン情報とegoネットワークで拡張し、ヘイトフルコンテンツを理解するための実際の設定にデータソースを近づける。 提案するHEN-mBERTは,言語サブスペースを,歴史,トポロジ,先例からの潜在内在的信号で拡張するモジュール型,多言語混在型エキスパートモデルである。 HEN-mBERTは、マクロF1およびヘイトクラスF1において、それぞれ2.5%と5%の最高のベースラインを超越する。 私たちの実験に触発されて、Wipro AIと連携して、オンラインの害に対処するミッションの一環として、ヘイトフルコンテンツを検出する半自動化パイプラインを開発しています。

Social media is awash with hateful content, much of which is often veiled with linguistic and topical diversity. The benchmark datasets used for hate speech detection do not account for such divagation as they are predominantly compiled using hate lexicons. However, capturing hate signals becomes challenging in neutrally-seeded malicious content. Thus, designing models and datasets that mimic the real-world variability of hate warrants further investigation. To this end, we present GOTHate, a large-scale code-mixed crowdsourced dataset of around 51k posts for hate speech detection from Twitter. GOTHate is neutrally seeded, encompassing different languages and topics. We conduct detailed comparisons of GOTHate with the existing hate speech datasets, highlighting its novelty. We benchmark it with 10 recent baselines. Our extensive empirical and benchmarking experiments suggest that GOTHate is hard to classify in a text-only setup. Thus, we investigate how adding endogenous signals enhances the hate speech detection task. We augment GOTHate with the user's timeline information and ego network, bringing the overall data source closer to the real-world setup for understanding hateful content. Our proposed solution HEN-mBERT is a modular, multilingual, mixture-of-experts model that enriches the linguistic subspace with latent endogenous signals from history, topology, and exemplars. HEN-mBERT transcends the best baseline by 2.5% and 5% in overall macro-F1 and hate class F1, respectively. Inspired by our experiments, in partnership with Wipro AI, we are developing a semi-automated pipeline to detect hateful content as a part of their mission to tackle online harm.
翻訳日:2023-06-17 00:08:22 公開日:2023-06-15
# 近代的トラクトグラフィー手法の課題 : 皮質脊髄路の体性頂部組織再構築

Reconstructing the somatotopic organization of the corticospinal tract remains a challenge for modern tractography methods ( http://arxiv.org/abs/2306.05623v2 )

ライセンス: Link先を確認
Jianzhong He, Fan Zhang, Yiang Pan, Yuanjing Feng, Jarrett Rushmore, Erickson Torio, Yogesh Rathi, Nikos Makris, Ron Kikinis, Alexandra J. Golby, Lauren J. O'Donnell(参考訳) CST(Corticospinal tract)は、人間の脳において、身体の自発的な動きを制御できる重要な白質繊維である。 拡散MRIは、ヒトの健康におけるCST経路の解剖学的および変動性の研究を可能にする唯一の方法である。 そこで本研究では,CSTとその体幹組織を再構築するための6種類のトラクトグラフィー法の性能について検討した。 我々はHuman Connectome Projectの拡散MRIデータを用いて実験を行った。 復元率, wm-gm界面被覆率, 流線の解剖学的分布, 皮質体積との相関など4つの定量的測定を行い, それぞれの方法の利点と限界を評価した。 以上の結果から,CSTの側方投射の再建に関する課題は広く知られているが,側方(手・顔領域)および内側部分(手足領域)における臨床的に重要な投射を含む包括的CST再建の課題は,MRIの拡散において依然として重要な課題である,という結論が得られた。

The corticospinal tract (CST) is a critically important white matter fiber tract in the human brain that enables control of voluntary movements of the body. Diffusion MRI tractography is the only method that enables the study of the anatomy and variability of the CST pathway in human health. In this work, we explored the performance of six widely used tractography methods for reconstructing the CST and its somatotopic organization. We perform experiments using diffusion MRI data from the Human Connectome Project. Four quantitative measurements including reconstruction rate, the WM-GM interface coverage, anatomical distribution of streamlines, and correlation with cortical volumes to assess the advantages and limitations of each method. Overall, we conclude that while current tractography methods have made progress toward the well-known challenge of improving the reconstruction of the lateral projections of the CST, the overall problem of performing a comprehensive CST reconstruction, including clinically important projections in the lateral (hand and face area) and medial portions (leg area), remains an important challenge for diffusion MRI tractography.
翻訳日:2023-06-17 00:02:00 公開日:2023-06-15
# IWSLT 2023におけるKITの多言語音声翻訳システム

KIT's Multilingual Speech Translation System for IWSLT 2023 ( http://arxiv.org/abs/2306.05320v2 )

ライセンス: Link先を確認
Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues(参考訳) 多くの既存の音声翻訳ベンチマークは、高品質な録音条件におけるネイティブ英語の音声に焦点を当てている。 本稿では,IWSLT 2023の多言語トラックにおける音声翻訳システムについて述べる。 テスト条件は、アクセント付き入力音声と用語読解内容を特徴とする。 このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。 対象ドメインからのトレーニングデータがない場合、音声翻訳に+0.8BLEUを有効適応するために検索ベースアプローチ(kNN-MT)を用いる。 また、データ拡張からインクリメンタルなトレーニングデータを簡単に統合するためにアダプタを使用し、再トレーニングのパフォーマンスにマッチしていることを示します。 ケースドシステムは、異なるモジュールによって特定のターゲットドメインに対してより容易に適応可能であることを観察する。 提案手法は, TEDトークとよく似ているが, 科学的な音声翻訳において, エンドツーエンドの音声システムよりもかなり優れている。

Many existing speech translation benchmarks focus on native-English speech in high-quality recording conditions, which often do not match the conditions in real-life use-cases. In this paper, we describe our speech translation system for the multilingual track of IWSLT 2023, which evaluates translation quality on scientific conference talks. The test condition features accented input speech and terminology-dense contents. The task requires translation into 10 languages of varying amounts of resources. In absence of training data from the target domain, we use a retrieval-based approach (kNN-MT) for effective adaptation (+0.8 BLEU for speech translation). We also use adapters to easily integrate incremental training data from data augmentation, and show that it matches the performance of re-training. We observe that cascaded systems are more easily adaptable towards specific target domains, due to their separate modules. Our cascaded speech system substantially outperforms its end-to-end counterpart on scientific talk translation, although their performance remains similar on TED talks.
翻訳日:2023-06-17 00:01:41 公開日:2023-06-15
# ニューラルテンプレート正規化による異なる視点からの3次元再構成

DiViNeT: 3D Reconstruction from Disparate Views via Neural Template Regularization ( http://arxiv.org/abs/2306.04699v3 )

ライセンス: Link先を確認
Aditya Vora, Akshay Gadi Patil, Hao Zhang(参考訳) 本稿では3つの異なるRGB画像を入力として用いたボリュームレンダリングに基づくニューラルサーフェス再構成手法を提案する。 私たちの重要なアイデアは、表面プライオリティとして振る舞うニューラルネットワークテンプレートのセットを学習することで、極めて不適切な再構築と、スパースビュー間の大きなギャップを解消することです。 提案手法はDiViNetと呼ばれ,2段階で動作する。 第1段階では、3dのガウス関数の形でテンプレートを学習し、3dの監督なしで異なるシーンを横断する。 リコンストラクション段階では、予測されたテンプレートは、スパース領域上の表面を「固定する」のに役立つアンカーとして機能する。 本手法は, 表面形状を完備するだけでなく, 若干の異なる入力視点から表面細部を合理的に再構成できることを実証する。 dtu と blendedmvs データセットでは,このようなスパースビューが存在する場合において,既存メソッドの最高の再構成品質を達成し,かつ,高精細ビューを入力として使用する場合の競合メソッドと同等に実行する。

We present a volume rendering-based neural surface reconstruction method that takes as few as three disparate RGB images as input. Our key idea is to regularize the reconstruction, which is severely ill-posed and leaving significant gaps between the sparse views, by learning a set of neural templates that act as surface priors. Our method coined DiViNet, operates in two stages. The first stage learns the templates, in the form of 3D Gaussian functions, across different scenes, without 3D supervision. In the reconstruction stage, our predicted templates serve as anchors to help "stitch" the surfaces over sparse regions. We demonstrate that our approach is not only able to complete the surface geometry but also reconstructs surface details to a reasonable extent from few disparate input views. On the DTU and BlendedMVS datasets, our approach achieves the best reconstruction quality among existing methods in the presence of such sparse views, and performs on par, if not better, with competing methods when dense views are employed as inputs.
翻訳日:2023-06-17 00:01:04 公開日:2023-06-15
# 交流場センサとしてのフロッケ時間結晶

Floquet time-crystals as sensors of AC fields ( http://arxiv.org/abs/2306.03927v2 )

ライセンス: Link先を確認
Fernando Iemini, Rosario Fazio, Anna Sanpera(参考訳) 量子センサとしての離散時間結晶(dtc)の性能について考察する。 DTCによって示される長距離空間および時間順序は、指数関数的に遅い加熱をもたらし、DTCを有利なセンサーに変える。 具体的には、acフィールドを推定する性能(量子フィッシャー情報によって決定される)は、長時間のセンシングプロトコルを許容しながら、ショットノイズ制限を克服することができる。 集団間相互作用はノイズに対して動的に安定化するため、これらのセンサはプロトコルの欠陥に対して堅牢になる。 このようなセンサの性能は、多体局所化相の存在の有無を調査するために二重の役割でも使用できる。

We discuss the performance of discrete time crystals (DTC) as quantum sensors. The long-range spatial and time ordering displayed by DTC, leads to an exponentially slow heating, turning DTC into advantageous sensors. Specifically, their performance (determined by the quantum Fisher information) to estimate AC fields, can overcome the shot-noise limit while allowing for long-time sensing protocols. Since the collective interactions stabilize their dynamics against noise, these sensors become robust to imperfections in the protocol. The performance of such a sensor can also be used in a dual role to probe the presence or absence of a many-body localized phase.
翻訳日:2023-06-16 23:59:18 公開日:2023-06-15
# NERFBK: NERFに基づく3次元再構成のための高品質ベンチマーク

NERFBK: A High-Quality Benchmark for NERF-Based 3D Reconstruction ( http://arxiv.org/abs/2306.06300v2 )

ライセンス: Link先を確認
Ali Karami, Simone Rigon, Gabriele Mazzacca, Ziyang Yan, Fabio Remondino(参考訳) 本稿では,NeRFに基づく3次元再構成アルゴリズムのテストと比較を目的とした,NeRFBKと呼ばれる新しい実合成データセットを提案する。 高品質な3D再構成は様々な分野で大きな可能性を秘めており、画像ベースアルゴリズムの進歩は、新しい高度な技術を評価することが不可欠である。 しかし、正確な土台真実で多様なデータを収集することは困難であり、関連するすべてのアプリケーションを含めることはできない。 NeRFBKデータセットは、NeRFベースのアルゴリズムのテストと比較のために、高解像度の画像とビデオとカメラパラメータを備えたマルチスケール、屋内、屋外のデータセットを提供することによって、この問題に対処する。 本稿では,nerfbkベンチマークの設計と作成,様々な例とアプリケーションのシナリオについて述べるとともに,その3次元再構築の可能性について述べる。

This paper introduces a new real and synthetic dataset called NeRFBK specifically designed for testing and comparing NeRF-based 3D reconstruction algorithms. High-quality 3D reconstruction has significant potential in various fields, and advancements in image-based algorithms make it essential to evaluate new advanced techniques. However, gathering diverse data with precise ground truth is challenging and may not encompass all relevant applications. The NeRFBK dataset addresses this issue by providing multi-scale, indoor and outdoor datasets with high-resolution images and videos and camera parameters for testing and comparing NeRF-based algorithms. This paper presents the design and creation of the NeRFBK benchmark, various examples and application scenarios, and highlights its potential for advancing the field of 3D reconstruction.
翻訳日:2023-06-16 23:51:26 公開日:2023-06-15
# Mind2Web: Webのジェネラリストエージェントを目指して

Mind2Web: Towards a Generalist Agent for the Web ( http://arxiv.org/abs/2306.06070v2 )

ライセンス: Link先を確認
Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, Yu Su(参考訳) mind2webは、webサイト上で複雑なタスクを完了するために、言語命令に従うweb用のジェネラリストエージェントを開発し、評価するための最初のデータセットである。 既存のWebエージェントのデータセットは、シミュレートされたWebサイトを使用するか、限られたWebサイトやタスクのみをカバーする。 31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、タスクのためのクラウドソースされたアクションシーケンスによって、Mind2WebはジェネラリストWebエージェントを構築するのに必要な3つの材料を提供します。 1)多様なドメイン、webサイト、タスク。 2)シミュレーションや簡略化ではなく現実世界のウェブサイトの利用, 3) ユーザインタラクションパターンの幅広いスペクトル。 mind2webを基盤として,大規模言語モデル(llms)を用いた汎用webエージェント構築の初期調査を行った。 実世界のWebサイトの生のHTMLはLLMに供給するには大きすぎることが多いが、まず小さなLMでフィルタリングすることでLLMの有効性と効率が著しく向上することを示す。 私たちのソリューションは、モデルがこれまで見たことのないウェブサイトやドメイン全体であっても、十分なレベルのパフォーマンスを示していますが、真に一般化可能なエージェントに改善の余地は依然としてあります。 我々は、データセット、モデル実装、トレーニングされたモデル(https://osu-nlp-group.github.io/Mind2Web)をオープンソース化し、Webのためのジェネラリストエージェントの構築に関するさらなる研究を促進する。

We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
翻訳日:2023-06-16 23:50:22 公開日:2023-06-15
# 実測による自己解釈可能な時系列予測

Self-Interpretable Time Series Prediction with Counterfactual Explanations ( http://arxiv.org/abs/2306.06024v2 )

ライセンス: Link先を確認
Jingquan Yan, Hao Wang(参考訳) 解釈可能な時系列予測は、医療や自動運転のような安全クリティカルな分野に不可欠である。 既存の手法の多くは、重要なスコアを時系列のセグメントに割り当てることで予測を解釈することに集中している。 本稿では,時間列予測のための非現実的かつ実用的な説明を生成する,CounTS(Counfactual Time Series)と呼ばれる自己解釈可能なモデルの開発を目指す。 具体的には,時系列の反事実的説明の問題を定式化し,関連する評価プロトコルを定式化し,時系列推論,行動,予測の反事実的推論能力を備えた変分ベイズ深層学習モデルを提案する。 最先端のベースラインと比較して、我々の自己解釈可能なモデルは、同等の予測精度を維持しながら、より優れた対実的説明を生成することができる。

Interpretable time series prediction is crucial for safety-critical areas such as healthcare and autonomous driving. Most existing methods focus on interpreting predictions by assigning important scores to segments of time series. In this paper, we take a different and more challenging route and aim at developing a self-interpretable model, dubbed Counterfactual Time Series (CounTS), which generates counterfactual and actionable explanations for time series predictions. Specifically, we formalize the problem of time series counterfactual explanations, establish associated evaluation protocols, and propose a variational Bayesian deep learning model equipped with counterfactual inference capability of time series abduction, action, and prediction. Compared with state-of-the-art baselines, our self-interpretable model can generate better counterfactual explanations while maintaining comparable prediction accuracy.
翻訳日:2023-06-16 23:49:54 公開日:2023-06-15
# Xiezhi: ソリスティックなドメイン知識評価のためのベンチマーク

Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation ( http://arxiv.org/abs/2306.05783v2 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Qianyu He, Rui Xu, Wenhao Huang, Zili Wang, Shusen Wang, Weiguo Zheng, Hongwei Feng, Yanghua Xiao(参考訳) 新しいNLP(Natural Langauge Process)ベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。 我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。 Xiezhiは、13の被験者から249,587の質問、Xiezhi-SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問を含んでいる。 我々は, Xiezhi 上で47個の切刃 LLM の評価を行った。 その結果, LLMは, 科学, 工学, 農学, 医学, 芸術において, 人間の平均的業績を上回るが, 経済学, 法学, 教育学, 文学, 歴史, 管理に乏しいことが示唆された。 我々は、XiezhiがLLMの重要な長所と短所を分析するのに役立ち、ベンチマークを~\url{https://github.com/MikeGu721/XiezhiBenchmark}でリリースすることを期待している。

New Natural Langauge Process~(NLP) benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present Xiezhi, the most comprehensive evaluation suite designed to assess holistic domain knowledge. Xiezhi comprises multiple-choice questions across 516 diverse disciplines ranging from 13 different subjects with 249,587 questions and accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results indicate that LLMs exceed average performance of humans in science, engineering, agronomy, medicine, and art, but fall short in economics, jurisprudence, pedagogy, literature, history, and management. We anticipate Xiezhi will help analyze important strengths and shortcomings of LLMs, and the benchmark is released in~\url{https://github.com/MikeGu721/XiezhiBenchmark}.
翻訳日:2023-06-16 23:49:41 公開日:2023-06-15
# 樹木空間を突き抜ける--根と未根の木の連続系統解析

Leaping through tree space: continuous phylogenetic inference for rooted and unrooted trees ( http://arxiv.org/abs/2306.05739v2 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Joseph Penn, Christl A Donnelly, David A Duch\^ene, and Samir Bhatt(参考訳) 現在、系統学は生命科学において基本的存在であり、生命の最も初期の分岐と疫病の起源と拡散に関する洞察を与えている。 しかし、樹木の広大な空間から適切な系統を見つけることは依然として困難である。 この問題に対処するために,勾配の計算が可能な連続空間において,木探索と推論の両方を初めて行う。 この連続緩和により、根付き木と根付き木の両方で木空間を横断する大きな跳躍が可能となり、局所極小への収束の影響を受けにくくなる。 提案手法は, 未開根木に対する推定法や, シミュレーションにおいて, 超測定の場合, 木と根を正確に推定する手法よりも優れている。 本手法は, 下顎脊椎動物の系統学を実証した, 無視可能な量のデータを用いた経験的データに対して有効である。 実際、ウルトラメトリックシグナルを持つ遺伝子は、脊椎動物の主要系統を解決するのに十分であった。 立方体時間複雑性と自動微分による効率的な最適化により,本手法は最も困難でデータ不足な系統的疑問を探索する効果的な方法を示す。

Phylogenetics is now fundamental in life sciences, providing insights into the earliest branches of life and the origins and spread of epidemics. However, finding suitable phylogenies from the vast space of possible trees remains challenging. To address this problem, for the first time, we perform both tree exploration and inference in a continuous space where the computation of gradients is possible. This continuous relaxation allows for major leaps across tree space in both rooted and unrooted trees, and is less susceptible to convergence to local minima. Our approach outperforms the current best methods for inference on unrooted trees and, in simulation, accurately infers the tree and root in ultrametric cases. The approach is effective in cases of empirical data with negligible amounts of data, which we demonstrate on the phylogeny of jawed vertebrates. Indeed, only a few genes with an ultrametric signal were generally sufficient for resolving the major lineages of vertebrate. With cubic-time complexity and efficient optimisation via automatic differentiation, our method presents an effective way forwards for exploring the most difficult, data-deficient phylogenetic questions.
翻訳日:2023-06-16 23:49:19 公開日:2023-06-15
# 重み付き最大カットのための普遍量子アルゴリズムとその問題

A Universal Quantum Algorithm for Weighted Maximum Cut and Ising Problems ( http://arxiv.org/abs/2306.06539v2 )

ライセンス: Link先を確認
Natacha Kuete Meli, Florian Mannel, Jan Lellmann(参考訳) 二元組合せ問題の近似解を計算するためのハイブリッド量子古典アルゴリズムを提案する。 我々は、重み付き最大カットまたはイジングハミルトニアンをブロックエンコードするユニタリかつエルミート作用素を実装するために、浅い深さの量子回路を用いる。 この作用素の変動量子状態への期待を測定すると、量子系の変動エネルギーが得られる。 このシステムは、正規化勾配降下を用いて角度の集合を最適化することにより、問題ハミルトニアンの基底状態に向かって進化するように強制される。 提案アルゴリズムは, ランダムな完全連結グラフ上での最先端量子近似アルゴリズムよりも優れ, 優れた近似解を生成することでD-Wave量子アニールに挑戦する。 ソースコードとデータファイルは公開されている。

We propose a hybrid quantum-classical algorithm to compute approximate solutions of binary combinatorial problems. We employ a shallow-depth quantum circuit to implement a unitary and Hermitian operator that block-encodes the weighted maximum cut or the Ising Hamiltonian. Measuring the expectation of this operator on a variational quantum state yields the variational energy of the quantum system. The system is enforced to evolve towards the ground state of the problem Hamiltonian by optimizing a set of angles using normalized gradient descent. Experimentally, our algorithm outperforms the state-of-the-art quantum approximate optimization algorithm on random fully connected graphs and challenges D-Wave quantum annealers by producing good approximate solutions. Source code and data files are publicly available.
翻訳日:2023-06-16 23:39:54 公開日:2023-06-15
# 対数コミュニケーションを用いたランジェヴィン・トンプソンのサンプリング:バンドと強化学習

Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning ( http://arxiv.org/abs/2306.08803v1 )

ライセンス: Link先を確認
Amin Karbasi, Nikki Lijing Kuang, Yi-An Ma, Siddharth Mitra(参考訳) トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。 しかしながら、tsの既存の分析的および実証的な結果の多くは、現実的なシナリオでの適用性を制限する共役族に属するなど、報酬分布の制限的な仮定に依存している。 さらに, 逐次的意思決定問題は, 問題の性質上, あるいは通信コストと計算コストの削減を目的としたバッチ方式で行われることが多い。 本研究では,これらの問題を,確率的マルチアームバンディット(MAB)と無限水平強化学習(RL)という,未知の報酬分布と遷移ダイナミクスの学習にTSを用いる2つの一般的な環境で共同研究する。 我々は,mcmc法を活用し,対数通信コストのみの近似後段からサンプリングするバッチ$\textit{langevin thompson sampling}$アルゴリズムを提案する。 我々のアルゴリズムは計算効率が高く、確率MABでは$\mathcal{O}(\log T)$、RLでは$\mathcal{O}(\sqrt{T})$と同じオーダー最適後悔保証を維持する。 理論的な結果と実験結果を補完する。

Thompson sampling (TS) is widely used in sequential decision making due to its ease of use and appealing empirical performance. However, many existing analytical and empirical results for TS rely on restrictive assumptions on reward distributions, such as belonging to conjugate families, which limits their applicability in realistic scenarios. Moreover, sequential decision making problems are often carried out in a batched manner, either due to the inherent nature of the problem or to serve the purpose of reducing communication and computation costs. In this work, we jointly study these problems in two popular settings, namely, stochastic multi-armed bandits (MABs) and infinite-horizon reinforcement learning (RL), where TS is used to learn the unknown reward distributions and transition dynamics, respectively. We propose batched $\textit{Langevin Thompson Sampling}$ algorithms that leverage MCMC methods to sample from approximate posteriors with only logarithmic communication costs in terms of batches. Our algorithms are computationally efficient and maintain the same order-optimal regret guarantees of $\mathcal{O}(\log T)$ for stochastic MABs, and $\mathcal{O}(\sqrt{T})$ for RL. We complement our theoretical findings with experimental results.
翻訳日:2023-06-16 17:03:31 公開日:2023-06-15
# MPSA-DenseNet:英語アクセント分類のための新しいディープラーニングモデル

MPSA-DenseNet: A novel deep learning model for English accent classification ( http://arxiv.org/abs/2306.08798v1 )

ライセンス: Link先を確認
Tianyu Song, Linh Thi Hoai Nguyen, Ton Viet Ta(参考訳) 本稿では,英語アクセント分類のための3つの革新的なディープラーニングモデルを提案する。マルチタスク学習とPSAモジュールアテンション機構をDenseNetと組み合わせたマルチセンスネット,PSA-DenseNet,MPSE-DenseNetである。 我々はこれらのモデルを、母国英語圏(イギリス、アメリカ合衆国、スコットランド)と母国英語圏(中国、ドイツ、インド)の6つの方言から収集したデータに適用した。 特にMPSA-DenseNetでは,それまでアクセント識別に用いられていたDenseNetやEPSAモデルなど,他のモデルよりも優れた分類精度が得られた。 以上の結果から,MPSA-DenseNetは英語のアクセントを正確に識別する上で,有望なモデルであることが示唆された。

This paper presents three innovative deep learning models for English accent classification: Multi-DenseNet, PSA-DenseNet, and MPSE-DenseNet, that combine multi-task learning and the PSA module attention mechanism with DenseNet. We applied these models to data collected from six dialects of English across native English speaking regions (Britain, the United States, Scotland) and nonnative English speaking regions (China, Germany, India). Our experimental results show a significant improvement in classification accuracy, particularly with MPSA-DenseNet, which outperforms all other models, including DenseNet and EPSA models previously used for accent identification. Our findings indicate that MPSA-DenseNet is a highly promising model for accurately identifying English accents.
翻訳日:2023-06-16 17:03:09 公開日:2023-06-15
# グラフ畳み込みに基づくビジュアル検索のための効率的な再帰

Graph Convolution Based Efficient Re-Ranking for Visual Retrieval ( http://arxiv.org/abs/2306.08792v1 )

ライセンス: Link先を確認
Yuqi Zhang, Qi Qian, Hongsong Wang, Chong Liu, Weihua Chen, Fan Wang(参考訳) 画像検索や人物再識別(Re-ID)などの視覚的検索タスクは、類似したコンテンツや同一のアイデンティティを持つ画像を効果的かつ徹底的に検索することを目的としている。 検索したサンプルを検索した後、再ランク付けは、セマンティックに隣接するサンプルからコンテキスト情報を利用することで、初期検索結果を再注文し、改善するための広く採用されている後処理ステップである。 一般的な再ランキングアプローチは距離メトリクスを更新し、主に非効率なクロスチェックセット比較操作に依存する一方で、隣人に基づく距離を計算します。 本研究では,特徴を更新して初期検索結果を改良する効率的な再分類手法を提案する。 具体的には,グラフ畳み込みネットワーク(gcn)に基づくリランキングを再構成し,特徴伝達による視覚的検索タスクのための新しいグラフ畳み込みベースリランキング(gcr)を提案する。 大規模検索のための計算を高速化するために,並列または分散コンピューティングをサポートする分散・同期特徴伝播アルゴリズムを導入する。 特に、クロスカメラ検索のためにプレーンgcrを拡張し、異なるカメラ間の親和性関係を利用するために、改良された特徴伝播定式化を示す。 ビデオベース検索にも拡張されており、トラックレットの新しいプロファイルベクトル生成法を数学的に導出することにより、GCRV(Graph Convolution based Re- rank for Video)を提案する。 ベルとホイッスルがなければ,提案手法は画像検索,人物Re-ID,ビデオベースの人物Re-IDという3つのタスクから,7つのベンチマークデータセットに対して最先端のパフォーマンスを実現する。

Visual retrieval tasks such as image retrieval and person re-identification (Re-ID) aim at effectively and thoroughly searching images with similar content or the same identity. After obtaining retrieved examples, re-ranking is a widely adopted post-processing step to reorder and improve the initial retrieval results by making use of the contextual information from semantically neighboring samples. Prevailing re-ranking approaches update distance metrics and mostly rely on inefficient crosscheck set comparison operations while computing expanded neighbors based distances. In this work, we present an efficient re-ranking method which refines initial retrieval results by updating features. Specifically, we reformulate re-ranking based on Graph Convolution Networks (GCN) and propose a novel Graph Convolution based Re-ranking (GCR) for visual retrieval tasks via feature propagation. To accelerate computation for large-scale retrieval, a decentralized and synchronous feature propagation algorithm which supports parallel or distributed computing is introduced. In particular, the plain GCR is extended for cross-camera retrieval and an improved feature propagation formulation is presented to leverage affinity relationships across different cameras. It is also extended for video-based retrieval, and Graph Convolution based Re-ranking for Video (GCRV) is proposed by mathematically deriving a novel profile vector generation method for the tracklet. Without bells and whistles, the proposed approaches achieve state-of-the-art performances on seven benchmark datasets from three different tasks, i.e., image retrieval, person Re-ID and video-based person Re-ID.
翻訳日:2023-06-16 17:02:54 公開日:2023-06-15
# 整合性マルチモーダルコントラスト訓練による効率的なトーケンガイド画像検索

Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training ( http://arxiv.org/abs/2306.08789v1 )

ライセンス: Link先を確認
Chong Liu, Yuqi Zhang, Hongsong Wang, Weihua Chen, Fan Wang, Yan Huang, Yi-Dong Shen, and Liang Wang(参考訳) 画像テキスト検索は視覚と言語間の意味的関係を理解するための中心的な問題であり、様々な視覚および言語タスクの基盤となっている。 以前のほとんどの研究は、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。 しかし,各モダリティに対する粗い表現ときめ細かい表現の密接な関係は画像テキスト検索には重要であるが,ほとんど無視されている。 その結果, 検索精度の低下や計算コストの低下が必然的に生じた。 本稿では,粗粒と細粒度の表現学習を統一フレームワークに組み合わせることにより,新たな視点からの画像テキスト検索を行う。 この枠組みは、人間が同時にサンプル全体と地域的要素に注意を払って意味的内容を理解するため、人間の認知と一致している。 この目的のために、画像とテキストのモダリティのための2つの均質な分岐からなるToken-Guided Dual Transformer (TGDT)アーキテクチャを画像テキスト検索のために提案する。 tgdtは粗粒検索と細粒検索の両方を統一フレームワークに組み込んでおり、両方の検索アプローチの利点を有効活用している。 共通埋め込み空間における画像とテキスト間の意味的結合性を保証するために,cmc(consistent multimodal contrastive)ロスと呼ばれる新しい学習目標を提案する。 提案手法は, 混合グローバルおよび局所モーダル類似性に基づく2段階の推論手法を用いて, 代表的アプローチと比較して, 非常に低い推論時間で, 最先端の検索性能を実現する。

Image-text retrieval is a central problem for understanding the semantic relationship between vision and language, and serves as the basis for various visual and language tasks. Most previous works either simply learn coarse-grained representations of the overall image and text, or elaborately establish the correspondence between image regions or pixels and text words. However, the close relations between coarse- and fine-grained representations for each modality are important for image-text retrieval but almost neglected. As a result, such previous works inevitably suffer from low retrieval accuracy or heavy computational cost. In this work, we address image-text retrieval from a novel perspective by combining coarse- and fine-grained representation learning into a unified framework. This framework is consistent with human cognition, as humans simultaneously pay attention to the entire sample and regional elements to understand the semantic content. To this end, a Token-Guided Dual Transformer (TGDT) architecture which consists of two homogeneous branches for image and text modalities, respectively, is proposed for image-text retrieval. The TGDT incorporates both coarse- and fine-grained retrievals into a unified framework and beneficially leverages the advantages of both retrieval approaches. A novel training objective called Consistent Multimodal Contrastive (CMC) loss is proposed accordingly to ensure the intra- and inter-modal semantic consistencies between images and texts in the common embedding space. Equipped with a two-stage inference method based on the mixed global and local cross-modal similarity, the proposed method achieves state-of-the-art retrieval performances with extremely low inference time when compared with representative recent approaches.
翻訳日:2023-06-16 17:02:28 公開日:2023-06-15
# フェイクスの探索:汎用顔偽造検出のための効率的なニューラルネットワーク探索

Searching for the Fakes: Efficient Neural Architecture Search for General Face Forgery Detection ( http://arxiv.org/abs/2306.08830v1 )

ライセンス: Link先を確認
Xiao Jin, Xin-Yue Mu, Jing Xu(参考訳) その言葉が言うように、「見ることは信じている」。 しかし、デジタル顔編集ツールの開発によって、我々はもはや何が見えるのかを信用できない。 顔偽造検出は有望な進歩を遂げているが、現在の手法のほとんどは人手による手作業で設計されている。 本稿では,人間の介入なしに自動的にネットワークアーキテクチャを設計できるディープフェイク検出のためのニューラルネットワーク探索(NAS)に基づくエンドツーエンドフレームワークを開発する。 まず、このタスクに適した操作を選択するために、偽造指向の検索空間を作成する。 第2に,より一般的なモデルを選択するための探索プロセスを導く新しい性能推定指標を提案する。 クロスデータセット検索は、より一般的なアーキテクチャも開発すると考えられている。 最終的には、最終偽造分類のためにカスケードピラミッドで細胞を接続する。 人工的に設計された最先端のネットワークと比較すると,本手法はデータ内シナリオとクロスデータセットシナリオの両方において競合性能を実現する。

As the saying goes, "seeing is believing". However, with the development of digital face editing tools, we can no longer trust what we can see. Although face forgery detection has made promising progress, most current methods are designed manually by human experts, which is labor-consuming. In this paper, we develop an end-to-end framework based on neural architecture search (NAS) for deepfake detection, which can automatically design network architectures without human intervention. First, a forgery-oriented search space is created to choose appropriate operations for this task. Second, we propose a novel performance estimation metric, which guides the search process to select more general models. The cross-dataset search is also considered to develop more general architectures. Eventually, we connect the cells in a cascaded pyramid way for final forgery classification. Compared with state-of-the-art networks artificially designed, our method achieves competitive performance in both in-dataset and cross-dataset scenarios.
翻訳日:2023-06-16 16:54:50 公開日:2023-06-15
# PINNacle:PDEを解くための物理情報ニューラルネットワークの総合ベンチマーク

PINNacle: A Comprehensive Benchmark of Physics-Informed Neural Networks for Solving PDEs ( http://arxiv.org/abs/2306.08827v1 )

ライセンス: Link先を確認
Zhongkai Hao, Jiachen Yao, Chang Su, Hang Su, Ziao Wang, Fanzhi Lu, Zeyu Xia, Yichi Zhang, Songming Liu, Lu Lu, Jun Zhu(参考訳) 物理インフォームドニューラルネットワーク(PINN)では大きな進歩があったが、これらの手法の幅広い部分微分方程式(PDE)の包括的比較はいまだに不十分である。 このギャップを埋めるために設計されたベンチマークツールであるPINNacleを紹介する。 PINNacleは、熱伝導、流体力学、生物学、電磁学など、20以上の異なるPDEを含む多様なデータセットを提供する。 これらのpdesは、複素幾何学、多スケール現象、非線形性、高次元といった実世界の問題に固有の重要な課題をカプセル化する。 PINNacleはユーザフレンドリーなツールボックスも提供しており、システム評価と比較のために約10の最先端のPINNメソッドが組み込まれている。 我々はこれらの手法による広範な実験を行い、その強みと弱さに関する洞察を提供した。 パフォーマンスを評価するための標準化された手段を提供するだけでなく、pinnacleは将来の研究、特にマルチスケール問題や複雑な幾何学を扱うためのドメイン分割法や損失重み付けといった分野を導くための深い分析も提供している。 PINNacleは現実世界のシナリオでの成功を保証していないが、PINNにおけるさらなる研究と開発を確実に促進する、堅牢で多種多様な包括的なベンチマークスイートを提供することによって、この分野に重要な貢献をしている。

While significant progress has been made on Physics-Informed Neural Networks (PINNs), a comprehensive comparison of these methods across a wide range of Partial Differential Equations (PDEs) is still lacking. This study introduces PINNacle, a benchmarking tool designed to fill this gap. PINNacle provides a diverse dataset, comprising over 20 distinct PDEs from various domains including heat conduction, fluid dynamics, biology, and electromagnetics. These PDEs encapsulate key challenges inherent to real-world problems, such as complex geometry, multi-scale phenomena, nonlinearity, and high dimensionality. PINNacle also offers a user-friendly toolbox, incorporating about 10 state-of-the-art PINN methods for systematic evaluation and comparison. We have conducted extensive experiments with these methods, offering insights into their strengths and weaknesses. In addition to providing a standardized means of assessing performance, PINNacle also offers an in-depth analysis to guide future research, particularly in areas such as domain decomposition methods and loss reweighting for handling multi-scale problems and complex geometry. While PINNacle does not guarantee success in all real-world scenarios, it represents a significant contribution to the field by offering a robust, diverse, and comprehensive benchmark suite that will undoubtedly foster further research and development in PINNs.
翻訳日:2023-06-16 16:54:36 公開日:2023-06-15
# コントラストキャプションのためのCLIPリスナーによる語用推論

Pragmatic Inference with a CLIP Listener for Contrastive Captioning ( http://arxiv.org/abs/2306.08818v1 )

ライセンス: Link先を確認
Jiefu Ou, Benno Krojer and Daniel Fried(参考訳) そこで,本論文では,ターゲット画像と類似の代替画像とを識別する識別キャプションを生成する,シンプルで効果的かつ堅牢なコントラストキャプション手法を提案する。 提案手法は, 対象を記述可能なキャプションを生成する話者と, 与えられたキャプションを選択するリスナーとの間に, 参照ゲームとしてキャプションを定式化する実用的推論手法に基づいている。 単一キャプションモデルから話者分布とリスナー分布を導出する従来の手法とは異なり、既成のCLIPモデルを用いてリスナーのパラメータ化を行う。 提案手法は,キャプタのみの実用モデルと比較した場合,CLIPからのリッチビジョン言語アライメント表現の恩恵を受ける。 従来の識別的キャプション法と同様に,本手法ではハイパーパラメータを用いて情報伝達率のトレードオフを制御している(人間の聴取者が対象画像の識別を行えるようにするためのキャプションの可能性)。 しかし,本手法は過去の手法に比べて,このハイパーパラメータの値に対してかなり堅牢であることが判明し,人間の評価において従来の識別的キャプションの精度を11%から15%向上させた。

We propose a simple yet effective and robust method for contrastive captioning: generating discriminative captions that distinguish target images from very similar alternative distractor images. Our approach is built on a pragmatic inference procedure that formulates captioning as a reference game between a speaker, which produces possible captions describing the target, and a listener, which selects the target given the caption. Unlike previous methods that derive both speaker and listener distributions from a single captioning model, we leverage an off-the-shelf CLIP model to parameterize the listener. Compared with captioner-only pragmatic models, our method benefits from rich vision language alignment representations from CLIP when reasoning over distractors. Like previous methods for discriminative captioning, our method uses a hyperparameter to control the tradeoff between the informativity (how likely captions are to allow a human listener to discriminate the target image) and the fluency of the captions. However, we find that our method is substantially more robust to the value of this hyperparameter than past methods, which allows us to automatically optimize the captions for informativity - outperforming past methods for discriminative captioning by 11% to 15% accuracy in human evaluations
翻訳日:2023-06-16 16:54:12 公開日:2023-06-15
# テキスト分類のための記述強化ラベル埋め込みコントラスト学習

Description-Enhanced Label Embedding Contrastive Learning for Text Classification ( http://arxiv.org/abs/2306.08817v1 )

ライセンス: Link先を確認
Kun Zhang, Le Wu, Guangyi Lv, Enhong Chen, Shulan Ruan, Jing Liu, Zhiqiang Zhang, Jun Zhou, Meng Wang(参考訳) テキスト分類は自然言語処理における基本的なタスクの1つであり、エージェントが入力文の最も適切なカテゴリを決定する必要がある。 近年、深層ニューラルネットワークはこの分野、特にプレトレーニング言語モデル(PLM)において顕著なパフォーマンスを達成している。 通常、これらの手法は入力文と対応するセマンティック埋め込み生成に集中する。 しかし、ラベルにとって重要な要素は、ほとんどの既存の作業は、意味のない1ホットベクトルとして扱うか、モデルトレーニングとともにラベル表現を学習するためにバニラ埋め込みメソッドを使用し、これらのラベルが示す意味情報やガイダンスを過小評価する。 本稿では,この問題を緩和し,ラベル情報をうまく活用するために,モデル学習プロセスにSSL(Self-Supervised Learning)を採用し,一方的な視点からラベル利用のための新たな自己監督関係(R2)分類タスクを設計する。 そこで本研究では,テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)を提案する。 一方,3重項損失はラベル間の差異や接続の分析を高めるために用いられる。 さらに,ラベル情報の活用にはまだ不足しているため,WordNetから外部知識を取り入れてラベル意味学習のためのマルチアスペクト記述を行い,ラベル埋め込みの観点からR2-Netを新しいDescription-Enhanced Label Embedding Network(DELE)に拡張する。 ...

Text Classification is one of the fundamental tasks in natural language processing, which requires an agent to determine the most appropriate category for input sentences. Recently, deep neural networks have achieved impressive performance in this area, especially Pre-trained Language Models (PLMs). Usually, these methods concentrate on input sentences and corresponding semantic embedding generation. However, for another essential component: labels, most existing works either treat them as meaningless one-hot vectors or use vanilla embedding methods to learn label representations along with model training, underestimating the semantic information and guidance that these labels reveal. To alleviate this problem and better exploit label information, in this paper, we employ Self-Supervised Learning (SSL) in model learning process and design a novel self-supervised Relation of Relation (R2) classification task for label utilization from a one-hot manner perspective. Then, we propose a novel Relation of Relation Learning Network (R2-Net) for text classification, in which text classification and R2 classification are treated as optimization targets. Meanwhile, triplet loss is employed to enhance the analysis of differences and connections among labels. Moreover, considering that one-hot usage is still short of exploiting label information, we incorporate external knowledge from WordNet to obtain multi-aspect descriptions for label semantic learning and extend R2-Net to a novel Description-Enhanced Label Embedding network (DELE) from a label embedding perspective. ...
翻訳日:2023-06-16 16:53:50 公開日:2023-06-15
# 量子通信のための極値量子リピータ

Ultimate-rate quantum repeaters for quantum communications ( http://arxiv.org/abs/2306.08816v1 )

ライセンス: Link先を確認
Matthew Winnel(参考訳) 量子通信の分野は、量子情報、量子絡み合い、絶対秘密鍵の忠実な分布を保証している。 しかし、これらのタスクの最高速度は送信距離によって基本的に制限される。 量子リピータは、リピータレス量子通信プロトコルの基本レート依存性限界を設定するリピータレス境界を克服するために必要である。 量子リピータネットワークの究極の終端速度は、最適なエンタングルメント蒸留プロトコルと量子テレポーテーションによって達成できることが知られている。 本論文では,この実現可能性に対する物理リピータ設計について述べる。 また,実世界の実用的応用に短期的可能性を持つ実用的なリピータ設計を提案する。

The field of quantum communications promises the faithful distribution of quantum information, quantum entanglement, and absolutely secret keys. However, the highest rates of these tasks are fundamentally limited by the transmission distances. Quantum repeaters are necessary to overcome the repeaterless bound which sets the fundamental rate-distance limit of any repeaterless quantum communication protocol. The ultimate end-to-end rates of quantum repeater networks are known to be achievable by an optimal entanglement-distillation protocol followed by quantum teleportation. In this thesis, we give physical repeater designs for this achievability. We also propose practical repeater designs with near-term potential for real-world practical applications.
翻訳日:2023-06-16 16:53:22 公開日:2023-06-15
# 双方向最適化による非協調型ロボットによる分散社会ナビゲーション

Decentralized Social Navigation with Non-Cooperative Robots via Bi-Level Optimization ( http://arxiv.org/abs/2306.08815v1 )

ライセンス: Link先を確認
Rohan Chandra, Rahul Menon, Zayne Sprague, Arya Anantula, Joydeep Biswas(参考訳) 本稿では,狭い戸口をナビゲートしたり,廊下交差点で交渉するなど,ソーシャルミニゲームにおけるリアルタイム非協調型マルチロボットナビゲーションのための完全に分散化されたアプローチを提案する。 提案手法は実時間biレベル最適化アルゴリズムであり,最上位レベルの最適化は公平で衝突のない順序を計算し,次は最適軌道を計画するボトムレベル最適化によって構成する。 このような優先順位を前提にすると、ロボットの好みの速度からの逸脱を最小限に抑えながら衝突のない軌道を計画できるだけの単純な運動力学的制約を各ロボットに課すことができる。 我々は,F$1/10のロボット,Clearpath Jackal,Boston Dynamics Spot,およびSocialGym 2.0マルチエージェントソーシャルナビゲーションシミュレータを用いたシミュレーションで,提案アルゴリズムを現実世界に展開することに成功した。 マルチエージェント強化学習,衝突回避アルゴリズム,および群集シミュレーションモデルを用いて,最先端のソーシャルナビゲーション手法と比較した。 私たちはその$を示します。 (i)$ classical navigationは、最先端の学習ベースのソーシャルナビゲーションアルゴリズムよりも4ドル$が良い。 (ii)$ スケジューリングプロトコルなしでは、ソーシャルミニゲームにおける衝突は$となる。 (iii)我々のアプローチは、ドアウェイや交差点のCADRLよりも2\times$と5\times$の速度変化を減らし、最終的に$を得る。 (iv)$ bi-level navigation in doorways at flow rate $2.8 - 3.3$ (ms)$^{-1}$は4$ (ms)$^{-1}$で人間の航行における流量に匹敵する。

This paper presents a fully decentralized approach for realtime non-cooperative multi-robot navigation in social mini-games, such as navigating through a narrow doorway or negotiating right of way at a corridor intersection. Our contribution is a new realtime bi-level optimization algorithm, in which the top-level optimization consists of computing a fair and collision-free ordering followed by the bottom-level optimization which plans optimal trajectories conditioned on the ordering. We show that, given such a priority order, we can impose simple kinodynamic constraints on each robot that are sufficient for it to plan collision-free trajectories with minimal deviation from their preferred velocities, similar to how humans navigate in these scenarios. We successfully deploy the proposed algorithm in the real world using F$1/10$ robots, a Clearpath Jackal, and a Boston Dynamics Spot as well as in simulation using the SocialGym 2.0 multi-agent social navigation simulator, in the doorway and corridor intersection scenarios. We compare with state-of-the-art social navigation methods using multi-agent reinforcement learning, collision avoidance algorithms, and crowd simulation models. We show that $(i)$ classical navigation performs $44\%$ better than the state-of-the-art learning-based social navigation algorithms, $(ii)$ without a scheduling protocol, our approach results in collisions in social mini-games $(iii)$ our approach yields $2\times$ and $5\times$ fewer velocity changes than CADRL in doorways and intersections, and finally $(iv)$ bi-level navigation in doorways at a flow rate of $2.8 - 3.3$ (ms)$^{-1}$ is comparable to flow rate in human navigation at a flow rate of $4$ (ms)$^{-1}$.
翻訳日:2023-06-16 16:53:12 公開日:2023-06-15
# リアルタイムロボットナビゲーションと組込み用セルフ・スーパービジョン小型ワンショットテクスチャ・セグメンテーション(MOSTS)モデル

A Self-Supervised Miniature One-Shot Texture Segmentation (MOSTS) Model for Real-Time Robot Navigation and Embedded Applications ( http://arxiv.org/abs/2306.08814v1 )

ライセンス: Link先を確認
Yu Chen, Chirag Rastogi, Zheyu Zhou, and William R. Norris(参考訳) 自由空間セグメンテーション(free space segmentation、自由空間セグメンテーション)は、移動ロボットが屋内環境を安全に移動するためには重要である。 しかし、屋内空間におけるコヒーレントなマーキングや構造(車線、縁石など)の欠如は、移動ロボットに対するトラバーサビリティ推定の負担が大きい。 本稿では,自己教師付きワンショットテクスチャセグメンテーションフレームワークとrgb-dカメラを用いて,ロバストなドリブル領域セグメンテーションを実現する。 高速な推論速度とコンパクトなサイズを持つMOSTSは、リアルタイムロボットナビゲーションや様々な組込みアプリケーションに最適である。 mostsのパフォーマンスを既存のone-shotテクスチャセグメンテーションモデルと比較し、パフォーマンスを評価するためのベンチマーク研究を行った。 さらに、s mostsが野生でテクスチャセグメンテーションを行う能力を評価するために検証データセットが作られ、これまで深度測定では検出できなかった小さな低レベルオブジェクトを効果的に識別した。 さらに,MOSTSの性能を2つの内的意味的セグメンテーションモデルであるState-Of-The-Art(SOTA)と比較した。 その結果,MOSTSは室内乾燥領域のセグメンテーションにおいて最大8倍高速な推論速度の精度が得られた。

Determining the drivable area, or free space segmentation, is critical for mobile robots to navigate indoor environments safely. However, the lack of coherent markings and structures (e.g., lanes, curbs, etc.) in indoor spaces places the burden of traversability estimation heavily on the mobile robot. This paper explores the use of a self-supervised one-shot texture segmentation framework and an RGB-D camera to achieve robust drivable area segmentation. With a fast inference speed and compact size, the developed model, MOSTS is ideal for real-time robot navigation and various embedded applications. A benchmark study was conducted to compare MOSTS's performance with existing one-shot texture segmentation models to evaluate its performance. Additionally, a validation dataset was built to assess MOSTS's ability to perform texture segmentation in the wild, where it effectively identified small low-lying objects that were previously undetectable by depth measurements. Further, the study also compared MOSTS's performance with two State-Of-The-Art (SOTA) indoor semantic segmentation models, both quantitatively and qualitatively. The results showed that MOSTS offers comparable accuracy with up to eight times faster inference speed in indoor drivable area segmentation.
翻訳日:2023-06-16 16:52:42 公開日:2023-06-15
# 意思決定と制御のための深層生成モデル

Deep Generative Models for Decision-Making and Control ( http://arxiv.org/abs/2306.08810v1 )

ライセンス: Link先を確認
Michael Janner(参考訳) 深層モデルに基づく強化学習法は、意思決定と制御問題に対する概念的に単純なアプローチを提供する: 近似ダイナミクスモデルの推定のために学習を使い、残りの作業を古典的な軌道最適化にオフロードする。 しかし、この組み合わせには多くの経験的欠点があり、実際にモデルベース手法の有用性を制限している。 この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。 その過程で,ビーム探索,分類器誘導サンプリング,画像インパインティングなど,現代生成型モデリングツールボックスからの推論手法を,強化学習問題に対する有効な計画戦略として再解釈できることを強調する。

Deep model-based reinforcement learning methods offer a conceptually simple approach to the decision-making and control problem: use learning for the purpose of estimating an approximate dynamics model, and offload the rest of the work to classical trajectory optimization. However, this combination has a number of empirical shortcomings, limiting the usefulness of model-based methods in practice. The dual purpose of this thesis is to study the reasons for these shortcomings and to propose solutions for the uncovered problems. Along the way, we highlight how inference techniques from the contemporary generative modeling toolbox, including beam search, classifier-guided sampling, and image inpainting, can be reinterpreted as viable planning strategies for reinforcement learning problems.
翻訳日:2023-06-16 16:52:15 公開日:2023-06-15
# relu分類器の境界要素の正確な数:分類の適切な複雑性尺度に向けて

Exact Count of Boundary Pieces of ReLU Classifiers: Towards the Proper Complexity Measure for Classification ( http://arxiv.org/abs/2306.08805v1 )

ライセンス: Link先を確認
Pawe{\l} Piwek, Adam Klukowski, Tianyang Hu(参考訳) 古典的学習理論は、適切な正規化が良い一般化と堅牢性の鍵であることを示唆している。 分類において、現在のトレーニングスキームは分類器自体の複雑さだけを対象としており、誤解を招く可能性があり、非効率である。 代わりに、私たちは決定境界の複雑さを直接測定することを提唱します。 既存の文献はこの領域では限定的であり、境界複雑性の定義は確立されていない。 概念実証として,アフィンの個数によって境界の複雑さを便利に特徴付けることができるReLUニューラルネットワークの解析から始める。 熱帯の幾何学の助けを借りて, 境界要素の正確な数, および副生成物として, 総アフィン成分の正確な数を求める新しい手法を開発した。 数値実験を行い, 境界複雑性の特異な特性を明らかにする。 第一に、境界片数はトレーニング過程において、例えば、総片数、および重量のノルム$l_2$といった他の測度と大きく独立しているように見える。 第二に、境界片数とロバスト性は負の相関関係にあり、例えば、対向訓練やランダムノイズ注入といった一般的なロバストトレーニング技術は、境界片数を減少させる。

Classic learning theory suggests that proper regularization is the key to good generalization and robustness. In classification, current training schemes only target the complexity of the classifier itself, which can be misleading and ineffective. Instead, we advocate directly measuring the complexity of the decision boundary. Existing literature is limited in this area with few well-established definitions of boundary complexity. As a proof of concept, we start by analyzing ReLU neural networks, whose boundary complexity can be conveniently characterized by the number of affine pieces. With the help of tropical geometry, we develop a novel method that can explicitly count the exact number of boundary pieces, and as a by-product, the exact number of total affine pieces. Numerical experiments are conducted and distinctive properties of our boundary complexity are uncovered. First, the boundary piece count appears largely independent of other measures, e.g., total piece count, and $l_2$ norm of weights, during the training process. Second, the boundary piece count is negatively correlated with robustness, where popular robust training techniques, e.g., adversarial training or random noise injection, are found to reduce the number of boundary pieces.
翻訳日:2023-06-16 16:52:02 公開日:2023-06-15
# PEACE:多言語Hate音声検出-因果誘導フレームワーク

PEACE: Cross-Platform Hate Speech Detection- A Causality-guided Framework ( http://arxiv.org/abs/2306.08804v1 )

ライセンス: Link先を確認
Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, and Huan Liu(参考訳) ヘイトスピーチ検出(Hate speech detection)とは、宗教、性別、性的指向、その他の特徴に基づいて個人や集団を軽蔑することを目的とした、憎悪のあるコンテンツを検出するタスクである。 プラットフォームの異なるポリシーのため、さまざまなグループがさまざまな方法で憎しみを表明しています。 さらに,一部のプラットフォームにラベル付きデータがないため,ヘイトスピーチ検出モデルの構築が困難になる。 この目的のために、クロスプラットフォーム設定のための一般化可能なヘイトスピーチ検出モデルを学ぶことができ、そこで、1つの(ソース)プラットフォームからデータ上のモデルをトレーニングし、複数の(ターゲット)プラットフォームにまたがってモデルを一般化する。 既存の一般化モデルは言語的手がかりや補助情報に依存しており、ソースプラットフォーム上の特定のタグや特定の種類の単語(例えば乱用語)に偏り、したがってターゲットプラットフォームには適用されない。 社会的・心理学的理論に着想を得た我々は、これらの分布シフトを通してヘイトスピーチを検出するための一般化された表現を学ぶために活用できる固有の因果的手がかりが存在するかどうかを探求する。 この目的のために我々は,憎悪コンテンツに普遍的に現れる2つの内在的因果的手がかりを識別し,活用する因果関係に基づく枠組み「平和」を提案する。 複数のプラットフォーム(分散シフトを示す)で広範な実験を行い、クロスプラットフォームの一般化に因果的手がかりが役立つかどうかを示します。

Hate speech detection refers to the task of detecting hateful content that aims at denigrating an individual or a group based on their religion, gender, sexual orientation, or other characteristics. Due to the different policies of the platforms, different groups of people express hate in different ways. Furthermore, due to the lack of labeled data in some platforms it becomes challenging to build hate speech detection models. To this end, we revisit if we can learn a generalizable hate speech detection model for the cross platform setting, where we train the model on the data from one (source) platform and generalize the model across multiple (target) platforms. Existing generalization models rely on linguistic cues or auxiliary information, making them biased towards certain tags or certain kinds of words (e.g., abusive words) on the source platform and thus not applicable to the target platforms. Inspired by social and psychological theories, we endeavor to explore if there exist inherent causal cues that can be leveraged to learn generalizable representations for detecting hate speech across these distribution shifts. To this end, we propose a causality-guided framework, PEACE, that identifies and leverages two intrinsic causal cues omnipresent in hateful content: the overall sentiment and the aggression in the text. We conduct extensive experiments across multiple platforms (representing the distribution shift) showing if causal cues can help cross-platform generalization.
翻訳日:2023-06-16 16:51:41 公開日:2023-06-15
# 機械学習センサ用データシート

Datasheets for Machine Learning Sensors ( http://arxiv.org/abs/2306.08848v1 )

ライセンス: Link先を確認
Matthew Stewart, Pete Warden, Yasmine Omri, Shvetank Prakash, Joao Santos, Shawn Hymel, Benjamin Brown, Jim MacArthur, Nat Jeffries, Brian Plancher, Vijay Janapa Reddi(参考訳) 機械学習(ML)センサーは、エッジでのインテリジェンスを可能にするための新たなパラダイムを提供すると同時に、エンドユーザによるデータコントロールの強化を実現している。 これらのMLセンサーはインテリジェントデバイスの開発において重要な役割を果たすため、仕様、機能、制限の明確な文書化が重要である。 本稿では,MLセンサの標準データシートテンプレートを導入し,システムのハードウェア,MLモデルとデータセット属性,エンドツーエンドのパフォーマンス指標,環境への影響など,その重要なコンポーネントについて論じる。 機械学習センサーのサンプルデータシートを提供し、各セクションの詳細を議論する。 我々は、これらのデータシートがmlアプリケーションにおけるセンサデータの理解と利用をいかに促進できるかを強調し、システムの性能を評価し比較できる客観的な尺度を提供する。 MLセンサーとそのデータシートは、ML対応組み込みシステムのプライバシー、セキュリティ、透明性、説明可能性、監査性、ユーザフレンドリ性を提供する。 センサデータの責任と効果的な利用を保証するため、MLコミュニティ全体にわたるデータシートの標準化の必要性を強調した。

Machine learning (ML) sensors offer a new paradigm for sensing that enables intelligence at the edge while empowering end-users with greater control of their data. As these ML sensors play a crucial role in the development of intelligent devices, clear documentation of their specifications, functionalities, and limitations is pivotal. This paper introduces a standard datasheet template for ML sensors and discusses its essential components including: the system's hardware, ML model and dataset attributes, end-to-end performance metrics, and environmental impact. We provide an example datasheet for our own ML sensor and discuss each section in detail. We highlight how these datasheets can facilitate better understanding and utilization of sensor data in ML applications, and we provide objective measures upon which system performance can be evaluated and compared. Together, ML sensors and their datasheets provide greater privacy, security, transparency, explainability, auditability, and user-friendliness for ML-enabled embedded systems. We conclude by emphasizing the need for standardization of datasheets across the broader ML community to ensure the responsible and effective use of sensor data.
翻訳日:2023-06-16 16:44:41 公開日:2023-06-15
# データ拡張と過剰生成による包括的質問生成の改善

Improving Reading Comprehension Question Generation with Data Augmentation and Overgenerate-and-rank ( http://arxiv.org/abs/2306.08847v1 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Nigel Fernandez, Zichao Wang, Andrew Lan(参考訳) 読み理解は、言語学習、認知発達、幼児の初期リテラシースキルの育成など、教育の多くの面で重要なスキルである。 自動解答認識読解質問生成は、教育活動における学習者支援を拡大する大きな可能性を秘めている。 この設定における重要な技術的課題の1つは、複数の質問があり、時には互いに非常に異なる場合があり、同じ回答を持つ可能性があることである。 この課題に対処するために,我々は提案する 1)同じ文脈と回答を与えられた多様な質問による学習データセットを充実させるデータ拡張法 2) 候補のプールから最適な質問を選択するための過剰な生成とランクの方法。 提案手法をFairytaleQAデータセット上で評価したところ, ROUGE-Lは既存手法に比べて5%改善した。 また,本手法の有効性を実証し,テキストスパンとしての文脈に回答を含まない,より困難で「簡単」な質問を生成できることを示した。

Reading comprehension is a crucial skill in many aspects of education, including language learning, cognitive development, and fostering early literacy skills in children. Automated answer-aware reading comprehension question generation has significant potential to scale up learner support in educational activities. One key technical challenge in this setting is that there can be multiple questions, sometimes very different from each other, with the same answer; a trained question generation method may not necessarily know which question human educators would prefer. To address this challenge, we propose 1) a data augmentation method that enriches the training dataset with diverse questions given the same context and answer and 2) an overgenerate-and-rank method to select the best question from a pool of candidates. We evaluate our method on the FairytaleQA dataset, showing a 5% absolute improvement in ROUGE-L over the best existing method. We also demonstrate the effectiveness of our method in generating harder, "implicit" questions, where the answers are not contained in the context as text spans.
翻訳日:2023-06-16 16:44:23 公開日:2023-06-15
# 教師と学習者のWav2Vec-2.0表現間の発話レベルアライメント距離を用いた教師なし音声のインテリジェンス評価

Unsupervised speech intelligibility assessment with utterance level alignment distance between teacher and learner Wav2Vec-2.0 representations ( http://arxiv.org/abs/2306.08845v1 )

ライセンス: Link先を確認
Nayan Anand, Meenakshi Sirigiraju, Chiranjeevi Yarra(参考訳) 音声の知性は、効果的なコミュニケーションのための言語学習において重要である。 したがって、コンピュータ支援言語学習システムの開発には、自動音声認識(SID)が必要である。 ほとんどの作品は、コストと時間を必要とする手動アノテーションを考慮し、監督された方法で知性を評価しているため、スケーラビリティは限られている。 そこで本研究では,SIDに対する教師なしアプローチを提案する。 提案手法では,教師と学習者の表象列間の動的時間ワーピング(dtw)で計算されたアライメント距離を,理解可能音声と非知性音声とを分離する尺度として検討する。 我々は,wav2vec-2.0から最先端の自己教師付き表現を用いた特徴列を得る。 検出精度は90.37\%, 92.57\%, 96.58\%であり, 平均絶対誤差, 平均二乗誤差, コサイン距離の3つのアライメント距離尺度 (1つのマイナスコサイン類似度に等しい) が得られた。

Speech intelligibility is crucial in language learning for effective communication. Thus, to develop computer-assisted language learning systems, automatic speech intelligibility detection (SID) is necessary. Most of the works have assessed the intelligibility in a supervised manner considering manual annotations, which requires cost and time; hence scalability is limited. To overcome these, this work proposes an unsupervised approach for SID. The proposed approach considers alignment distance computed with dynamic-time warping (DTW) between teacher and learner representation sequence as a measure to separate intelligible versus non-intelligible speech. We obtain the feature sequence using current state-of-the-art self-supervised representations from Wav2Vec-2.0. We found the detection accuracies as 90.37\%, 92.57\% and 96.58\%, respectively, with three alignment distance measures -- mean absolute error, mean squared error and cosine distance (equal to one minus cosine similarity).
翻訳日:2023-06-16 16:44:07 公開日:2023-06-15
# リアルタイムネットワークレベル交通信号制御:明示的マルチエージェントコーディネーション法

Real-Time Network-Level Traffic Signal Control: An Explicit Multiagent Coordination Method ( http://arxiv.org/abs/2306.08843v1 )

ライセンス: Link先を確認
Wanyuan Wang, Tianchi Qiao, Jinming Ma, Jiahui Jin, Zhibin Li, Weiwei Wu, and Yichuan Jian(参考訳) 交通信号の効率的な制御 (TSC) は, 都市交通渋滞の低減に最も有用な方法の1つである。 TSCの課題の鍵は 1)リアルタイム信号決定の必須事項 2)交通力学の複雑さ、及び 3)ネットワークレベルの調整。 強化学習(RL)手法を適用した最近の取り組みは、交通状態を信号決定にリアルタイムでマッピングすることでポリシーをクエリすることができるが、予期せぬ交通流には不十分である。 実際の交通情報を観察することにより、オンライン計画手法は応答性のある方法で信号決定を計算できる。 本稿では,適応的,リアルタイム,ネットワークレベルのTSCを満足する,EMCに基づくオンライン計画手法を提案する。 マルチエージェントにより,各交差点を自律エージェントとしてモデル化し,隣接交差点間のコスト(混雑指数)関数によって協調効率をモデル化する。 ネットワークレベルの調整により、各エージェントはコスト関数に関するメッセージを、完全に分散した方法で隣人と交換する。 リアルタイムにメッセージパッシング手順は、リアルタイム限界に達したときいつでも中断することができ、エージェントは現在のメッセージに応じて最適な信号決定を選択する。 さらに,交通分野からアイデアを借用することで,ネットワークの安定性を保証できることを示す。 最後に、EMC法を合成および実道路ネットワークデータセットの両方で検証する。 rlおよび従来の交通基準と比較して、emc法は、リアルタイム交通力学への適応、車両の走行時間および都市規模の道路網へのスケーラビリティを最小化するという点で、合理的に機能する。

Efficient traffic signal control (TSC) has been one of the most useful ways for reducing urban road congestion. Key to the challenge of TSC includes 1) the essential of real-time signal decision, 2) the complexity in traffic dynamics, and 3) the network-level coordination. Recent efforts that applied reinforcement learning (RL) methods can query policies by mapping the traffic state to the signal decision in real-time, however, is inadequate for unexpected traffic flows. By observing real traffic information, online planning methods can compute the signal decisions in a responsive manner. We propose an explicit multiagent coordination (EMC)-based online planning methods that can satisfy adaptive, real-time and network-level TSC. By multiagent, we model each intersection as an autonomous agent, and the coordination efficiency is modeled by a cost (i.e., congestion index) function between neighbor intersections. By network-level coordination, each agent exchanges messages with respect to cost function with its neighbors in a fully decentralized manner. By real-time, the message passing procedure can interrupt at any time when the real time limit is reached and agents select the optimal signal decisions according to the current message. Moreover, we prove our EMC method can guarantee network stability by borrowing ideas from transportation domain. Finally, we test our EMC method in both synthetic and real road network datasets. Experimental results are encouraging: compared to RL and conventional transportation baselines, our EMC method performs reasonably well in terms of adapting to real-time traffic dynamics, minimizing vehicle travel time and scalability to city-scale road networks.
翻訳日:2023-06-16 16:43:48 公開日:2023-06-15
# ViP:コンピュータビジョンのための微分プライベートファンデーションモデル

ViP: A Differentially Private Foundation Model for Computer Vision ( http://arxiv.org/abs/2306.08842v1 )

ライセンス: Link先を確認
Yaodong Yu and Maziar Sanjabi and Yi Ma and Kamalika Chaudhuri and Chuan Guo(参考訳) 人工知能(AI)は、インターネット規模のデータに基づいてトレーニングされた基礎モデルを使用することで、能力の飛躍的な増加を見せている。 逆に、インターネット規模のデータの未処理の性質は、個人情報や著作権のある資料を許可なくトレーニングするべきではないため、重大なプライバシーや法的リスクも伴う。 本研究では,DP(差分プライバシ)を保証した基礎的ビジョンモデルを学習するためのレシピの緩和尺度として提案する。 マスク付きオートエンコーダは、DP-SGDとうまく一致した適切な学習アルゴリズムであり、LAION400Mデータセットの厳格なプライバシー予算として、差分プライバシを備えたビジョントランスフォーマーであるViPをトレーニングする。 我々は、標準の下流視覚タスクを用いて、VPが学習した表現の質を評価する。特に、VPは、ImageNet上で5,5.7 %の(プライベートでない)線形探索精度を達成している。 この結果から,インターネット規模データへのスケーリングは,私的学習に有効であることが示唆された。

Artificial intelligence (AI) has seen a tremendous surge in capabilities thanks to the use of foundation models trained on internet-scale data. On the flip side, the uncurated nature of internet-scale data also poses significant privacy and legal risks, as they often contain personal information or copyrighted material that should not be trained on without permission. In this work, we propose as a mitigation measure a recipe to train foundation vision models with differential privacy (DP) guarantee. We identify masked autoencoders as a suitable learning algorithm that aligns well with DP-SGD, and train ViP -- a Vision transformer with differential Privacy -- under a strict privacy budget of $\epsilon=8$ on the LAION400M dataset. We evaluate the quality of representation learned by ViP using standard downstream vision tasks; in particular, ViP achieves a (non-private) linear probing accuracy of $55.7\%$ on ImageNet, comparable to that of end-to-end trained AlexNet (trained and evaluated on ImageNet). Our result suggests that scaling to internet-scale data can be practical for private learning.
翻訳日:2023-06-16 16:43:22 公開日:2023-06-15
# 知識アセンブリ:解離ラベル付き複数データセットからの半教師付きマルチタスク学習

Knowledge Assembly: Semi-Supervised Multi-Task Learning from Multiple Datasets with Disjoint Labels ( http://arxiv.org/abs/2306.08839v1 )

ライセンス: Link先を確認
Federica Spinola, Philipp Benz, Minhyeong Yu, Tae-hoon Kim(参考訳) 現実世界のシナリオでは、複数のタスクを同時に実行する必要があります。 マルチタスク学習(MTL)は適切な手法であるが、通常はすべてのタスクにラベル付けされたデータセットを必要とする。 mtlフレームワークのタスクの一部のみにラベル付けされたデータセットを活用できる手法を提案する。 我々の研究であるKnowledge Assembly(KA)は、擬似スーパービジョンのためのモデル拡張を用いて、ラベルのないデータを半教師付きで活用することで、解離データセットから複数のタスクを学習する。 既存のMTLネットワーク上ではKAを実装できるが、我々は共同で人物再識別(reID)と歩行者属性認識(PAR)を学習する手法をテストする。 我々は、reIDの4.2\%$ポイントとPARの0.9\%$ポイントを1つのタスクで完全に教師されたパフォーマンスを上回る。

In real-world scenarios we often need to perform multiple tasks simultaneously. Multi-Task Learning (MTL) is an adequate method to do so, but usually requires datasets labeled for all tasks. We propose a method that can leverage datasets labeled for only some of the tasks in the MTL framework. Our work, Knowledge Assembly (KA), learns multiple tasks from disjoint datasets by leveraging the unlabeled data in a semi-supervised manner, using model augmentation for pseudo-supervision. Whilst KA can be implemented on any existing MTL networks, we test our method on jointly learning person re-identification (reID) and pedestrian attribute recognition (PAR). We surpass the single task fully-supervised performance by $4.2\%$ points for reID and $0.9\%$ points for PAR.
翻訳日:2023-06-16 16:43:02 公開日:2023-06-15
# 理論的保証を伴う微分的プライベートドメイン適応

Differentially Private Domain Adaptation with Theoretical Guarantees ( http://arxiv.org/abs/2306.08838v1 )

ライセンス: Link先を確認
Raef Bassily, Corinna Cortes, Anqi Mao, Mehryar Mohri(参考訳) 多くのアプリケーションでは、学習者の自由にラベル付けされたデータはプライバシーの制約を受けており、比較的制限されている。 ターゲットドメインのより正確な予測器を導出するために、ターゲットドメインに近い別のドメインから利用可能なラベル付きデータを活用することがしばしば有益である。 これは、パブリックソースからプライベートターゲットドメインへのドメイン適応を監督する現代の問題である。 我々は,教師付き適応のための2つの$(\epsilon, \delta)$-differentially private adaptation algorithm を提案する。 最初のアルゴリズムは線形予測器を用いて回帰を設計し,凸最適化問題の解法を示した。 第二のアルゴリズムは、非凸であるがリプシッツと滑らかな損失関数に対するより一般的な解である。 我々の主な目的は理論分析であるが、まず、我々のアルゴリズムの非プライベートバージョンが適応ベースラインを上回り、次にターゲットサンプルサイズまたは$\epsilon$のより大きな値に対して、我々のプライベートアルゴリズムの性能が非プライベートな定式化のそれに近いことを示すいくつかの実験の結果を報告する。

In many applications, the labeled data at the learner's disposal is subject to privacy constraints and is relatively limited. To derive a more accurate predictor for the target domain, it is often beneficial to leverage publicly available labeled data from an alternative domain, somewhat close to the target domain. This is the modern problem of supervised domain adaptation from a public source to a private target domain. We present two $(\epsilon, \delta)$-differentially private adaptation algorithms for supervised adaptation, for which we make use of a general optimization problem, recently shown to benefit from favorable theoretical learning guarantees. Our first algorithm is designed for regression with linear predictors and shown to solve a convex optimization problem. Our second algorithm is a more general solution for loss functions that may be non-convex but Lipschitz and smooth. While our main objective is a theoretical analysis, we also report the results of several experiments first demonstrating that the non-private versions of our algorithms outperform adaptation baselines and next showing that, for larger values of the target sample size or $\epsilon$, the performance of our private algorithms remains close to that of the non-private formulation.
翻訳日:2023-06-16 16:42:47 公開日:2023-06-15
# 圧縮画像とノイズ除去のための4次元光野の確率論的特徴埋め込み

Probabilistic-based Feature Embedding of 4-D Light Fields for Compressive Imaging and Denoising ( http://arxiv.org/abs/2306.08836v1 )

ライセンス: Link先を確認
Xianqiang Lyu and Junhui Hou(参考訳) 4次元ライトフィールド(lf)の高次元性は、下流タスクのパフォーマンスに大きな影響を与える効率的かつ効果的な機能埋め込みにおいて大きな課題となる。 この課題に対処するため、経験的設計の既存手法とは対照的に、空間角情報を完全にキャプチャする確率空間に様々な低次元畳み込みパターンを組み込むことで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。 提案したPFEに基づいて,符号化開口カメラの固有線形画像モデルを用いて,周期整合型4次元LF再構成ネットワークを構築する。 さらに,PFEを4次元LF復調のための反復最適化フレームワークに組み込む。 本研究は,実世界および合成4次元lf画像において,最先端手法と比較して定量的,質的にも優れた方法を示す。 ソースコードはhttps://github.com/lyuxianqiang/LFCA-CR-NETで公開されている。

The high-dimensional nature of the 4-D light field (LF) poses great challenges in efficient and effective feature embedding that severely impact the performance of downstream tasks. To tackle this crucial issue, in contrast to existing methods with empirically-designed architectures, we propose probabilistic-based feature embedding (PFE), which learns a feature embedding architecture by assembling various low-dimensional convolution patterns in a probability space for fully capturing spatial-angular information. Building upon the proposed PFE, we then leverage the intrinsic linear imaging model of the coded aperture camera to construct a cycle-consistent 4-D LF reconstruction network from coded measurements. Moreover, we incorporate PFE into an iterative optimization framework for 4-D LF denoising. Our extensive experiments demonstrate the significant superiority of our methods on both real-world and synthetic 4-D LF images, both quantitatively and qualitatively, when compared with state-of-the-art methods. The source code will be publicly available at https://github.com/lyuxianqiang/LFCA-CR-NET.
翻訳日:2023-06-16 16:42:21 公開日:2023-06-15
# スクロールタイム: 絵画が歴史の窓として現れることの追跡

ScrollTimes: Tracing the Provenance of Paintings as a Window into History ( http://arxiv.org/abs/2306.08834v1 )

ライセンス: Link先を確認
Wei Zhang, Jason K. Wong, Yitian Chen, Ailing Jia, Luwei Wang, Jian-Wei Zhang, Lechao Cheng, and Wei Chen(参考訳) デジタル人文科学の研究は、文化遺産データベースで利用できる多様な人工物によって栄えた。 しかしながら、単一のアーティファクトタイプへの過度な依存は、コンテキスト化の貧弱さと、歴史的なコンテキストに対する制約付き理解をもたらす可能性がある。 私たちは美術史家と協力して、歴史分析に豊富なデータを提供し、美術を通して歴史を理解するためのユニークな機会を提供する伝統的な中国絵画の形式であるハンズロールを調べました。 複数のデータソースをリンクすることで、ハンズクロル履歴コンテキストをトレースするビジュアル解析システムであるScrrollTimesを提案する。 具体的には、長尺ハンドクルを効率よく見るためのユニークなレイアウトが開発されている。 画像処理技術と言語モデルを用いて,異なる文化遺産データベースを用いたハンドクロル要素の抽出,検証,補足を行う。 さらに、対話的な伝記は、歴史物語、プロヴァンス跡、芸術的な遺産を明らかにするために、ハンズロールのために構築されている。 ケーススタディと専門家のインタビューを通じて検証され、我々のアプローチは歴史の窓口を提供し、ハンドクロルの出所と歴史的意義の全体的理解を促進する。

Digital humanities research has flourished due to the diverse artifacts available in cultural heritage databases. However, over-reliance on a single artifact type can result in poor contextualization and a constrained understanding of historical context. We collaborated with art historians to examine handscrolls, a form of traditional Chinese painting which offers a wealth of data for historical analysis and provides a unique opportunity for understanding history through artwork. We propose ScrollTimes, a visual analysis system for tracing handscroll historic context by linking multiple data sources. Specifically, a unique layout is developed for efficiently viewing long handscrolls. Using image processing techniques and language models, we extract, verify, and supplement elements in handscrolls with different cultural heritage databases. Furthermore, interactive biographies are constructed for handscrolls to uncover their historical narratives, provenance trajectories, and artistic legacies. Validated through case studies and expert interviews, our approach offers a window into history, fostering a holistic understanding of handscroll provenance and historical significance.
翻訳日:2023-06-16 16:41:53 公開日:2023-06-15
# visio-linguistic の細粒度理解を高めるためのモーダル内およびランキングクロスモーダルハードネガティブの対比

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Fine-grained Understanding ( http://arxiv.org/abs/2306.08832v1 )

ライセンス: Link先を確認
Le Zhang, Rabiul Awal, Aishwarya Agrawal(参考訳) 現在のビジョンと言語モデル(VLM)は、様々な視覚言語タスクにおいて強いパフォーマンスを示すが、細かな理解に苦慮している。 この問題は、事前訓練データセットにおけるイメージキャプチャアライメントの弱さと、関係性、アクション、属性などのニュアンスな基底要素を区別できない単純なコントラスト目的に起因している。 結果として、モデルは言葉の袋の表現を学習する傾向がある。 これらの課題を緩和するため,我々は,自動生成したハードマイナス値を利用してモデルのキャパシティを増強し,カリキュラム学習として機能する適応しきい値を持つ,モーダル内コントラストロスとユニークなクロスモーダルランクロスを導入する。 追加のアノテーションやパラメータを必要としない当社の戦略は、イメージテキストのコントラスト損失でトレーニングされたvlmに組み込むことができます。 提案手法は,CLIPに適用すると,3つのきめ細かいベンチマークに対して大幅な改善がもたらされ,また,微細な推論における最先端のモッセルであるX-VLMの性能も向上する。

Current Vision and Language Models (VLMs) demonstrate strong performance across various vision-language tasks, yet they struggle with fine-grained understanding. This issue stems from weak image-caption alignment in pretraining datasets and a simplified contrastive objective that fails to distinguish nuanced grounding elements such as relations, actions, and attributes. As a result, the models tend to learn bag-of-words representations. To mitigate these challenges, we introduce an intra-modal contrastive loss and a unique cross-modal rank loss with an adaptive threshold that serves as curriculum learning, utilizing our automatically generated hard negatives to augment the model's capacity. Our strategy, which does not necessitate additional annotations or parameters, can be incorporated into any VLM trained with an image-text contrastive loss. Upon application to CLIP, our method leads to significant improvements on three fine-grained benchmarks, and it also enhances the performance of X-VLM, which is the state-of-art moodel on fine-grained reasoning.
翻訳日:2023-06-16 16:41:20 公開日:2023-06-15
# 自動車用視覚経路ナビゲーションのワンショット学習

One-Shot Learning of Visual Path Navigation for Autonomous Vehicles ( http://arxiv.org/abs/2306.08865v1 )

ライセンス: Link先を確認
Zhongying CuiZhu, Francois Charette, Amin Ghafourian, Debo Shi, Matthew Cui, Anjali Krishnamachar, Iman Soltani(参考訳) 自律運転は、自律走行車(AV)が直面する多くのシナリオのために、多くの課題を提起する。 エンドツーエンドのディープラーニングモデルは比較的単純なモデルで、幅広いシナリオを処理できる。 しかし、エンド・ツー・エンドのモデルには大量の多様なデータが必要である。 本稿では,一発学習をシステムに追加することにより,データ問題に対処するための画像対ステアリングパスナビゲーションを行う,新しい深層ニューラルネットワークを提案する。 未発見の経路を提示すると、車両はモデルの再訓練なしに一度だけ経路を見せた後、自律的に経路を走行することができる。 実際、全経路は不要であり、道路の分岐点の画像は十分である。 車内テストとオフラインテストは、提案されたナビゲーションのパフォーマンスの検証と、異なる候補アーキテクチャの比較に使用される。

Autonomous driving presents many challenges due to the large number of scenarios the autonomous vehicle (AV) may encounter. End-to-end deep learning models are comparatively simplistic models that can handle a broad set of scenarios. However, end-to-end models require large amounts of diverse data to perform well. This paper presents a novel deep neural network that performs image-to-steering path navigation that helps with the data problem by adding one-shot learning to the system. Presented with a previously unseen path, the vehicle can drive the path autonomously after being shown the path once and without model retraining. In fact, the full path is not needed and images of the road junctions is sufficient. In-vehicle testing and offline testing are used to verify the performance of the proposed navigation and to compare different candidate architectures.
翻訳日:2023-06-16 16:35:30 公開日:2023-06-15
# 量子シークレット再構成

Quantum Secret Reconstruction ( http://arxiv.org/abs/2306.08863v1 )

ライセンス: Link先を確認
Ruihai Ma, Fei Gao, and Song Lin(参考訳) 秘密の分割に加えて、秘密の再構築も秘密の共有の重要な要素である。 本稿では,クラスタ状態に基づく最初の量子秘密再構成プロトコルを提案する。 プロトコルの前に、古典的な秘密は複数の株式に分割され、秘密の分割を通じて株主間で分配される。 このプロトコルでは、ディーラーは秘密を利用してプライベート量子状態を暗号化し、暗号化された状態を株主から選ばれたコンバインダーに送る。 他の株主の助けを借りて、コンビネータは、プライバシ量子状態を回復するためにクラスタ状態の特性を利用する。 提案プロトコルは外部および内部攻撃を含むいくつかの一般的な攻撃に対して安全であることが示されている。 従来のシークレットリコンストラクションプロトコルと比較して、このプロトコルは全ての共有の理論的セキュリティを実現するだけでなく、分散コストと計算コストの削減により効率が良い。 プロトコルの実現可能性を示すために、IBM Qプラットフォーム上で対応するシミュレーション量子実験を行う。 さらに、量子フィンガープリントと連動して、従来の共有を提案プロトコルで再利用できるため、複数の秘密共有のタスクを実現するために直接適用することができる。

In addition to secret splitting, secret reconstruction is another important component of secret sharing. In this paper, the first quantum secret reconstruction protocol based on cluster states is proposed. Before the protocol, a classical secret is divided into multiple shares, which are distributed among shareholders via secret splitting. In the protocol, the dealer utilizes her secret to encrypt a private quantum state, and sends the encrypted state to a combiner chosen by her from the shareholders. With the help of other shareholders, the combiner utilizes the properties of cluster states to recover the privacy quantum state. It is shown that the proposed protocol is secure against several common attacks, including external and internal attacks. Compared with classical secret reconstruction protocols, this protocol not only achieves theoretical security of all shares, but also is more efficient due to reducing the distribution cost and computation cost. To demonstrate the feasibility of the protocol, a corresponding simulation quantum experiment is conducted on the IBM Q platform. Furthermore, in conjunction with quantum fingerprinting, it can be directly applied to achieve the task of multiple secrets sharing, because the classical shares can be reused in the proposed protocol.
翻訳日:2023-06-16 16:35:19 公開日:2023-06-15
# 核点集約による双曲畳み込み

Hyperbolic Convolution via Kernel Point Aggregation ( http://arxiv.org/abs/2306.08862v1 )

ライセンス: Link先を確認
Eric Qu, Dongmian Zou(参考訳) 基礎となる幾何学に基づく学習表現は、非ユークリッドデータにとって極めて重要である。 双曲空間は階層的あるいは木のようなデータを効果的に埋め込むことができることが研究によって明らかになった。 特にここ数年、双曲型ニューラルネットワークの急速な発展が目撃されている。 しかし、畳み込みのような共通のユークリッド神経操作は双曲空間に拡張されないため、良い双曲表現を学ぶことは困難である。 ほとんどの双曲型ニューラルネットワークは畳み込み操作を受け入れず、局所パターンを無視している。 他のものは非双曲的畳み込みのみを使用するか、置換への同値性のような本質的性質を見逃すかのどちらかである。 まず,学習可能な局所双曲的特徴と双曲空間に固定された固定的な核点を関連付け,その出力特徴を局所近傍に集約した新しい双曲的畳み込みhkconvを提案する。 HKConv は双曲幾何学に従って局所的特徴を表現的に学習するだけでなく、双曲点の置換や局所近傍の平行移動への不変性も享受する。 我々は,HKConv層を有するニューラルネットワークが,様々なタスクにおいて最先端を推し進めていることを示す。

Learning representations according to the underlying geometry is of vital importance for non-Euclidean data. Studies have revealed that the hyperbolic space can effectively embed hierarchical or tree-like data. In particular, the few past years have witnessed a rapid development of hyperbolic neural networks. However, it is challenging to learn good hyperbolic representations since common Euclidean neural operations, such as convolution, do not extend to the hyperbolic space. Most hyperbolic neural networks do not embrace the convolution operation and ignore local patterns. Others either only use non-hyperbolic convolution, or miss essential properties such as equivariance to permutation. We propose HKConv, a novel trainable hyperbolic convolution which first correlates trainable local hyperbolic features with fixed kernel points placed in the hyperbolic space, then aggregates the output features within a local neighborhood. HKConv not only expressively learns local features according to the hyperbolic geometry, but also enjoys equivariance to permutation of hyperbolic points and invariance to parallel transport of a local neighborhood. We show that neural networks with HKConv layers advance state-of-the-art in various tasks.
翻訳日:2023-06-16 16:35:00 公開日:2023-06-15
# AIに基づくモーション編集とスティル化のためのモーションキャプチャデータセット

Motion Capture Dataset for Practical Use of AI-based Motion Editing and Stylization ( http://arxiv.org/abs/2306.08861v1 )

ライセンス: Link先を確認
Makito Kobayashi, Chen-Chieh Liao, Keito Inoue, Sentaro Yojima, Masafumi Takahashi(参考訳) そこで本研究では,動きスタイル伝達領域のための新しいスタイル多様性データセットを提案する。 モーションデータセットは産業標準の人骨構造を用いており、多くのプロジェクトのために3D文字に差し込むことができる。 我々はモーションスタイル転送の課題を主張し,提案するモーションデータセットを一般向けに公開することにより,この領域における今後の作業を促進する。 本研究は,最先端手法を用いた実験において,モーションスタイル転送に関する包括的研究を行い,提案するデータセットがモーションスタイル転送タスクに有効であることを示す。

In this work, we proposed a new style-diverse dataset for the domain of motion style transfer. The motion dataset uses an industrial-standard human bone structure and thus is industry-ready to be plugged into 3D characters for many projects. We claim the challenges in motion style transfer and encourage future work in this domain by releasing the proposed motion dataset to the public. We conduct a comprehensive study on motion style transfer in the experiment using the state-of-the-art method, and the results show the proposed dataset's validity for the motion style transfer task.
翻訳日:2023-06-16 16:34:43 公開日:2023-06-15
# OMS-DPM:拡散確率モデルのためのモデルスケジュールの最適化

OMS-DPM: Optimizing the Model Schedule for Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.08860v1 )

ライセンス: Link先を確認
Enshu Liu, Xuefei Ning, Zinan Lin, Huazhong Yang and Yu Wang(参考訳) diffusion probabilistic models (dpms) は、様々な領域において最先端の生成品質を達成する新しい生成モデルである。 約束にもかかわらず、DPMの大きな欠点の1つは、生成プロセスに必要な多数のニューラルネットワーク評価のため、生成速度が遅いことである。 本稿では,世代品質と速度のトレードオフを最適化するために,見過ごされた次元 -- モデルスケジュール -- を明らかにする。 より具体的には、小さなモデルは、単独で使用する場合の世代品質は低下するが、特定の世代ステップで大きなモデルを上回る可能性があることを観察する。 したがって、単一のモデルを使用する従来の方法とは異なり、慎重に設計された 'emph{model schedule} で異なる生成ステップで異なるモデルを使用すると、生成の品質と速度が向上する可能性がある。 予測型探索アルゴリズムoms-dpmを設計し,任意の生成時間予算と事前学習したモデルセットを最適化する。 我々は,CIFAR-10, CelebA, ImageNet, LSUNデータセットを対象とする従来の最先端手法よりも, 生成品質と速度を向上させるモデルスケジュールをOMS-DPMで見つけることができることを示した。 安定拡散モデルの公開チェックポイントに適用すると、生成品質を維持しながらサンプリングを2$\times$で高速化することができる。

Diffusion probabilistic models (DPMs) are a new class of generative models that have achieved state-of-the-art generation quality in various domains. Despite the promise, one major drawback of DPMs is the slow generation speed due to the large number of neural network evaluations required in the generation process. In this paper, we reveal an overlooked dimension -- model schedule -- for optimizing the trade-off between generation quality and speed. More specifically, we observe that small models, though having worse generation quality when used alone, could outperform large models in certain generation steps. Therefore, unlike the traditional way of using a single model, using different models in different generation steps in a carefully designed \emph{model schedule} could potentially improve generation quality and speed \emph{simultaneously}. We design OMS-DPM, a predictor-based search algorithm, to optimize the model schedule given an arbitrary generation time budget and a set of pre-trained models. We demonstrate that OMS-DPM can find model schedules that improve generation quality and speed than prior state-of-the-art methods across CIFAR-10, CelebA, ImageNet, and LSUN datasets. When applied to the public checkpoints of the Stable Diffusion model, we are able to accelerate the sampling by 2$\times$ while maintaining the generation quality.
翻訳日:2023-06-16 16:34:33 公開日:2023-06-15
# sf-tmn:手術位相認識のための高速時間モデルネットワーク

SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase Recognition ( http://arxiv.org/abs/2306.08859v1 )

ライセンス: Link先を確認
Bokai Zhang, Mohammad Hasan Sarhan, Bharti Goel, Svetlana Petculescu, Amer Ghanem(参考訳) 自動手術位相認識は、外科教育のためのビデオベースアセスメント(VBA)システムをサポートする重要な技術の1つである。 経時的情報の利用は外科的位相認識に不可欠であり,近年ではフレームレベルの特徴抽出法が提案されている。 そこで本研究では,フレームレベルフルビデオ時空間モデリングを実現するだけでなく,セグメントレベルフルビデオ時空間モデリングを実現するために,slowfast temporal modeling network (sf-tmn)を提案する。 SF-TMNのトレーニングデータとして,対象データセット上で事前学習した特徴抽出ネットワークを用いて,映像フレームから特徴抽出を行う。 SF-TMNのスローパスはフレーム時間モデリングに全てのフレーム機能を利用する。 SF-TMNのFast Pathは、フレームの特徴から要約されたセグメントレベルの特徴をセグメント時間モデリングに利用する。 提案されたパラダイムは時間モデリングネットワークの選択に関して柔軟である。 我々は,ms-tcnとasformerモデルを時間モデルネットワークとして検討し,スローパスと高速パスの複数の組み合わせ戦略を実験する。 Cholec80外科的位相認識タスクにおけるSF-TMNの評価を行い、SF-TMNが検討されたすべての指標に対して最先端の結果が得られることを示した。 ASFormerのバックボーンを持つSF-TMNは、最先端のNot End-to-End(TCN)メソッドよりも精度が2.6%、Jaccardスコアが7.4%向上している。 また,50slad,GTEA,Breakfastを含むアクションセグメンテーションデータセット上でSF-TMNを評価し,最先端の結果を得た。 その結果, 手術段階の時間的モデル化には, 出力と時間的改良段階を改良することにより, フレームレベルとセグメントレベルの両方からの時間情報の組み合わせが有効であることがわかった。

Automatic surgical phase recognition is one of the key technologies to support Video-Based Assessment (VBA) systems for surgical education. Utilizing temporal information is crucial for surgical phase recognition, hence various recent approaches extract frame-level features to conduct full video temporal modeling. For better temporal modeling, we propose SlowFast Temporal Modeling Network (SF-TMN) for surgical phase recognition that can not only achieve frame-level full video temporal modeling but also achieve segment-level full video temporal modeling. We employ a feature extraction network, pre-trained on the target dataset, to extract features from video frames as the training data for SF-TMN. The Slow Path in SF-TMN utilizes all frame features for frame temporal modeling. The Fast Path in SF-TMN utilizes segment-level features summarized from frame features for segment temporal modeling. The proposed paradigm is flexible regarding the choice of temporal modeling networks. We explore MS-TCN and ASFormer models as temporal modeling networks and experiment with multiple combination strategies for Slow and Fast Paths. We evaluate SF-TMN on Cholec80 surgical phase recognition task and demonstrate that SF-TMN can achieve state-of-the-art results on all considered metrics. SF-TMN with ASFormer backbone outperforms the state-of-the-art Not End-to-End(TCN) method by 2.6% in accuracy and 7.4% in the Jaccard score. We also evaluate SF-TMN on action segmentation datasets including 50salads, GTEA, and Breakfast, and achieve state-of-the-art results. The improvement in the results shows that combining temporal information from both frame level and segment level by refining outputs with temporal refinement stages is beneficial for the temporal modeling of surgical phases.
翻訳日:2023-06-16 16:34:10 公開日:2023-06-15
# gromov-wassersteinによるスペクトル保存グラフ粗さの幾何学的展望

A Gromov--Wasserstein Geometric View of Spectrum-Preserving Graph Coarsening ( http://arxiv.org/abs/2306.08854v1 )

ライセンス: Link先を確認
Yifan Chen, Rentian Yao, Yun Yang, Jie Chen(参考訳) グラフ粗化(Graph coarsening)は、元のグラフのより小さなバージョンに取り組み、その結果を元のグラフに補間することで、大規模なグラフ問題を解決する手法である。 科学計算において長い歴史があり、最近では機械学習、特にグラフスペクトルを保存する手法で人気を博している。 この研究はグラフの粗化を別の観点から研究し、グラフ距離を保存する理論を開発し、これを実現する方法を提案する。 幾何学的アプローチは、グラフの分類や回帰といったグラフの集合を扱う際に有用である。 本研究では、グラフをGromov-Wasserstein (GW) 距離を備えた距離空間上の要素とみなし、2つのグラフの距離とそれらの粗いバージョンとの差を限定する。 この差を最小限に抑えるには、カーネルの適切な選択で既存のスペクトル保存法を改善するK$-means法が一般的である。 本研究は、gw距離の近似化、グラフスペクトルの保存、スペクトル情報を用いたグラフの分類、グラフ畳み込みネットワークを用いた回帰など、理論と方法をサポートする一連の実験を含む。 コードはhttps://github.com/ychen-stat-ml/gw-graph-coarseningで入手できる。

Graph coarsening is a technique for solving large-scale graph problems by working on a smaller version of the original graph, and possibly interpolating the results back to the original graph. It has a long history in scientific computing and has recently gained popularity in machine learning, particularly in methods that preserve the graph spectrum. This work studies graph coarsening from a different perspective, developing a theory for preserving graph distances and proposing a method to achieve this. The geometric approach is useful when working with a collection of graphs, such as in graph classification and regression. In this study, we consider a graph as an element on a metric space equipped with the Gromov--Wasserstein (GW) distance, and bound the difference between the distance of two graphs and their coarsened versions. Minimizing this difference can be done using the popular weighted kernel $K$-means method, which improves existing spectrum-preserving methods with the proper choice of the kernel. The study includes a set of experiments to support the theory and method, including approximating the GW distance, preserving the graph spectrum, classifying graphs using spectral information, and performing regression using graph convolutional networks. Code is available at https://github.com/ychen-stat-ml/GW-Graph-Coarsening .
翻訳日:2023-06-16 16:33:37 公開日:2023-06-15
# netUnicornの検索:ネットワークセキュリティ問題のための汎用MLモデルを開発するデータ収集プラットフォーム

In Search of netUnicorn: A Data-Collection Platform to Develop Generalizable ML Models for Network Security Problems ( http://arxiv.org/abs/2306.08853v1 )

ライセンス: Link先を確認
Roman Beltiukov, Wenbo Guo, Arpit Gupta, Walter Willinger(参考訳) ネットワークセキュリティ問題に対する機械学習ベースのソリューションの使用による顕著な成功は、異なるネットワーク環境で異なるネットワーク動作を示す場合の有効性を維持できないMLモデルの開発によって妨げられている。 この問題は一般にMLモデルの一般化可能性問題と呼ばれる。 コミュニティはこの文脈でデータセットのトレーニングが果たす重要な役割を認識し、この問題を克服するためにデータセットのキュレーションを改善する様々な技術を開発した。 残念なことに、これらの手法は一般的にネットワークセキュリティ領域では不適当か、あるいは非生産的である。 この問題に対処するために,説明可能なMLツールを活用して,ネットワークデータ収集を反復的にガイドする拡張MLパイプラインを提案する。 データのリアリズムと品質を保証するため、この反復プロセスで新たなデータセットを内在的に収集する必要があるため、モデルの一般化性を改善するために、データ関連の問題を徐々に取り除くことを提唱します。 この能力を実現するために,従来の「時間ガラス」モデルから着想を得たデータ収集プラットフォームであるnetUnicornを開発し,その「薄腰」として実装し,多様なネットワーク環境から異なる学習問題に対するデータ収集を容易にする。 提案システムは,データ収集意図を配置機構から切り離し,高レベルの意図を再利用性,自己完結型タスクに分解する。 我々は、NetUnicornが複数のネットワーク環境から異なる学習問題に対するデータ収集を単純化し、提案した反復データ収集がモデルの一般化可能性をどのように改善するかを示す。

The remarkable success of the use of machine learning-based solutions for network security problems has been impeded by the developed ML models' inability to maintain efficacy when used in different network environments exhibiting different network behaviors. This issue is commonly referred to as the generalizability problem of ML models. The community has recognized the critical role that training datasets play in this context and has developed various techniques to improve dataset curation to overcome this problem. Unfortunately, these methods are generally ill-suited or even counterproductive in the network security domain, where they often result in unrealistic or poor-quality datasets. To address this issue, we propose an augmented ML pipeline that leverages explainable ML tools to guide the network data collection in an iterative fashion. To ensure the data's realism and quality, we require that the new datasets should be endogenously collected in this iterative process, thus advocating for a gradual removal of data-related problems to improve model generalizability. To realize this capability, we develop a data-collection platform, netUnicorn, that takes inspiration from the classic "hourglass" model and is implemented as its "thin waist" to simplify data collection for different learning problems from diverse network environments. The proposed system decouples data-collection intents from the deployment mechanisms and disaggregates these high-level intents into smaller reusable, self-contained tasks. We demonstrate how netUnicorn simplifies collecting data for different learning problems from multiple network environments and how the proposed iterative data collection improves a model's generalizability.
翻訳日:2023-06-16 16:33:12 公開日:2023-06-15
# BED: 分布外検出のためのバイエンコーダベースの検出器

BED: Bi-Encoder-Based Detectors for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.08852v1 )

ライセンス: Link先を確認
Louis Owen, Biddwan Ahmed, Abhay Kumar(参考訳) 本稿では, バイエンコーダ型検出器を用いた新しい手法と, 異なる特徴抽出器を用いたnlpにおける異なるアウト・オブ・ディストリビューション(ood)検出法を比較した包括的研究について述べる。 特徴抽出段階では、Universal Sentence Encoder (USE)、BERT、MPNET、GLOVEといった一般的な手法を用いてテキストデータから情報表現を抽出する。 評価はCLINC150、ROSTD-Coarse、SNIPS、YELLOWなどいくつかのデータセットで行われている。 パフォーマンスは、F1-Score、MCC、FPR@90、FPR@95、AUPR、AUROCなどのメトリクスを使って評価される。 実験の結果,提案するバイエンコーダに基づく検出器は,トレーニングにおいてoodラベルを必要とするものと,nlpにおけるood検出の可能性が大きいものの両方において,他の手法よりも優れていることがわかった。 トレーニングプロセスの単純さと優れた検出性能により、現実のシナリオに適用できる。 提案手法とベンチマーク指標は,OOD検出の今後の研究に有用な資源であり,この分野のさらなる進歩を可能にする。 コードと実装の詳細はGitHubリポジトリで確認できます。

This paper introduces a novel method leveraging bi-encoder-based detectors along with a comprehensive study comparing different out-of-distribution (OOD) detection methods in NLP using different feature extractors. The feature extraction stage employs popular methods such as Universal Sentence Encoder (USE), BERT, MPNET, and GLOVE to extract informative representations from textual data. The evaluation is conducted on several datasets, including CLINC150, ROSTD-Coarse, SNIPS, and YELLOW. Performance is assessed using metrics such as F1-Score, MCC, FPR@90, FPR@95, AUPR, an AUROC. The experimental results demonstrate that the proposed bi-encoder-based detectors outperform other methods, both those that require OOD labels in training and those that do not, across all datasets, showing great potential for OOD detection in NLP. The simplicity of the training process and the superior detection performance make them applicable to real-world scenarios. The presented methods and benchmarking metrics serve as a valuable resource for future research in OOD detection, enabling further advancements in this field. The code and implementation details can be found on our GitHub repository: https://github.com/yellowmessenger/ood-detection.
翻訳日:2023-06-16 16:32:44 公開日:2023-06-15
# 量子誤差補正のための単一ステップパリティチェックゲートセット

Single-Step Parity Check Gate Set for Quantum Error Correction ( http://arxiv.org/abs/2306.08849v1 )

ライセンス: Link先を確認
G\"ozde \"Ust\"un, Andrea Morello and Simon Devitt(参考訳) 有効量子誤り補正(QEC)方式の鍵となる要件は、物理量子ビットが一定の閾値以下の誤差率を持つことである。 このしきい値の値は、特定のqecスキームとそのハードウェアレベルの実装の詳細に依存する。 これはQEC符号の基本構成要素であるパリティチェック回路において特に重要である。 パリティチェック回路を構成する標準的な方法は、一組のゲート、すなわちシーケンシャルなCNOTゲート、シングルキュービット回転と測定を使用する。 我々は、QECコードは普遍論理ゲートを必要としないが、誤り検出と修正の唯一のタスクを実行するために単純化できるという知見を利用する。 QECの基本となるゲートを構築することで、しきい値を高め、物理ハードウェアの実験的な要求を緩和できます。 本稿では, プロセス行列の物理的測定をQEC解析でよく用いられる抽象的誤りモデルにリンクして, これらのゲートの誤り挙動の構築と検証を行う厳密な形式について述べる。 これにより、実験者はシステムで使用されるゲートを直接QEC符号の幅広いクラスから派生した閾値にマッピングすることができる。 電子スピンに結合した2つの核スピンのモデルシステムを用いたこれらの新しい構成の例を示し、単純な単一および2ビットゲートに依存する従来のゲートセットではなく、QECプリミティブを用いて基本ゲートセットを再設計する潜在的な利点を示す。

A key requirement for an effective Quantum Error Correction (QEC) scheme is that the physical qubits have error rates below a certain threshold. The value of this threshold depends on the details of the specific QEC scheme, and its hardware-level implementation. This is especially important with parity-check circuits, which are the fundamental building blocks of QEC codes. The standard way of constructing the parity check circuit is using a universal set of gates, namely sequential CNOT gates, single-qubit rotations and measurements. We exploit the insight that a QEC code does not require universal logic gates, but can be simplified to perform the sole task of error detection and correction. By building gates that are fundamental to QEC, we can boost the threshold and ease the experimental demands on the physical hardware. We present a rigorous formalism for constructing and verifying the error behavior of these gates, linking the physical measurement of a process matrix to the abstract error models commonly used in QEC analysis. This allows experimentalists to directly map the gates used in their systems to thresholds derived for a broad-class of QEC codes. We give an example of these new constructions using the model system of two nuclear spins, coupled to an electron spin, showing the potential benefits of redesigning fundamental gate sets using QEC primitives, rather than traditional gate sets reliant on simple single and two-qubit gates.
翻訳日:2023-06-16 16:32:24 公開日:2023-06-15
# ゼロショットNL2SQL生成のための事前学習言語モデルと大規模言語モデル

Interleaving Pre-Trained Language Models and Large Language Models for Zero-Shot NL2SQL Generation ( http://arxiv.org/abs/2306.08891v1 )

ライセンス: Link先を確認
Zihui Gu, Ju Fan, Nan Tang, Songyue Zhang, Yuxin Zhang, Zui Chen, Lei Cao, Guoliang Li, Sam Madden, Xiaoyong Du(参考訳) ゼロショットNL2SQLは、新しい環境(例えば、新しいデータベース、新しい言語現象またはSQL構造)に適応するSQLへの自然言語の達成に不可欠である。 既存のアプローチは、注釈付きデータに基づいた微調整済み言語モデル(PLM)か、ChatGPTのような固定された大きな言語モデル(LLM)をガイドするプロンプトを使用する。 PLMはスキーマアライメントにおいて良好に機能するが、複雑な推論を行うのに苦労する一方、LCMは複雑な推論タスクでは優れているが、正確なスキーマアライメントは達成できない。 本稿では、ゼロショットNL2SQLをサポートするために、PLMとLMの相補的な利点を組み合わせたZeroNL2SQLフレームワークを提案する。 ZeroNL2SQLはまず、スキーマアライメントを介してSQLスケッチを生成するためにPLMを使用し、続いてLCMを使用して、複雑な推論を通じて不足した情報を埋める。 さらに,生成したSQLクエリと所定のデータベースインスタンスの値との整合性を改善するため,データベースインスタンスに基づいたSQLスケッチの完了を誘導する述語校正法を設計し,実行ベースの戦略で最適なSQLクエリを選択する。 総合的な実験により、ZeroNL2SQLは実世界のベンチマークで最高のゼロショットNL2SQL性能を達成できることが示された。 具体的には、ZeroNL2SQLは最先端のPLMベースのメソッドを3.2%から13%上回り、LCMベースのメソッドを10%から20%上回っている。

Zero-shot NL2SQL is crucial in achieving natural language to SQL that is adaptive to new environments (e.g., new databases, new linguistic phenomena or SQL structures) with zero annotated NL2SQL samples from such environments. Existing approaches either fine-tune pre-trained language models (PLMs) based on annotated data or use prompts to guide fixed large language models (LLMs) such as ChatGPT. PLMs can perform well in schema alignment but struggle to achieve complex reasoning, while LLMs is superior in complex reasoning tasks but cannot achieve precise schema alignment. In this paper, we propose a ZeroNL2SQL framework that combines the complementary advantages of PLMs and LLMs for supporting zero-shot NL2SQL. ZeroNL2SQL first uses PLMs to generate an SQL sketch via schema alignment, then uses LLMs to fill the missing information via complex reasoning. Moreover, in order to better align the generated SQL queries with values in the given database instances, we design a predicate calibration method to guide the LLM in completing the SQL sketches based on the database instances and select the optimal SQL query via an execution-based strategy. Comprehensive experiments show that ZeroNL2SQL can achieve the best zero-shot NL2SQL performance on real-world benchmarks. Specifically, ZeroNL2SQL outperforms the state-of-the-art PLM-based methods by 3.2% to 13% and exceeds LLM-based methods by 10% to 20% on execution accuracy.
翻訳日:2023-06-16 16:25:46 公開日:2023-06-15
# videoqaモデルにおける共同マルチモーダル理解の錯覚の解明

Revealing the Illusion of Joint Multimodal Understanding in VideoQA Models ( http://arxiv.org/abs/2306.08889v1 )

ライセンス: Link先を確認
Ishaan Singh Rawal, Shantanu Jaiswal, Basura Fernando, Cheston Tan(参考訳) VideoQA Transformerモデルは標準ベンチマークで競争力のある性能を示しているが、その成功の理由は未だ不明である。 これらのモデルは、ビデオやテキストからリッチなマルチモーダル構造とダイナミクスを共同で捉えて活用するのでしょうか? それとも、単にショートカットを利用して高いスコアを得るのか? 我々はこれを、推論中にモデルが結合したマルチモーダル理解を体系的に非難する軽量で非パラメトリックなプローブである$\textit{QUAG}$ (QUadrant AveraGe)を用いて分析する。 意外なことに、QUIGは、マルチモーダルなサブ最適化で注入しても、モデルがハイパフォーマンスを維持することを明らかにしている。 さらに、マルチモーダル核融合ブロックの自己アテンションを"quagアテンション"に置き換えた後でも、単純で表現力に乏しい自己アテンションの変種であるモデルが高性能を維持している。 これは、現在のVideoQAベンチマークとそのメトリクスが、共同マルチモーダル理解を減らしたショートカットをペナルティ化しないことを意味する。 そこで本研究では,ビデオQAのマルチモーダル理解を相互に関連付けるための診断データセットである$\textit{CLAVI}$(Counterfactual in LAnguage and VIdeo)ベンチマークを提案する。 CLAVIは、言語とビデオドメインのバランスのとれたカウンターファクトをキュレートするために強化された時間的質問とビデオで構成されている。 したがって、学習したマルチモーダル表現の信頼性を識別し、インセンティブを与える。 我々はCLAVIを評価し,モデルがマルチモーダルショートカットインスタンス上で高い性能を発揮するが,その反ファクトに対しては非常に低い性能を有することを示した。 そこで我々はclaviをlitmusテストとして位置づけ,現在のベンチマークでは評価できないマルチモーダルビデオqa表現の下位最適化性を同定し,診断し,改善する。

While VideoQA Transformer models demonstrate competitive performance on standard benchmarks, the reasons behind their success remain unclear. Do these models jointly capture and leverage the rich multimodal structures and dynamics from video and text? Or are they merely exploiting shortcuts to achieve high scores? We analyze this with $\textit{QUAG}$ (QUadrant AveraGe), a lightweight and non-parametric probe that systematically ablates the model's coupled multimodal understanding during inference. Surprisingly, QUAG reveals that the models manage to maintain high performance even when injected with multimodal sub-optimality. Additionally, even after replacing self-attention in multimodal fusion blocks with "QUAG-attention", a simplistic and less-expressive variant of self-attention, the models maintain high performance. This means that current VideoQA benchmarks and their metrics do not penalize shortcuts that discount joint multimodal understanding. Motivated by this, we propose the $\textit{CLAVI}$ (Counterfactual in LAnguage and VIdeo) benchmark, a diagnostic dataset for benchmarking coupled multimodal understanding in VideoQA through counterfactuals. CLAVI consists of temporal questions and videos that are augmented to curate balanced counterfactuals in language and video domains. Hence, it incentivizes, and identifies the reliability of learnt multimodal representations. We evaluate CLAVI and find that models achieve high performance on multimodal shortcut instances, but have very poor performance on the counterfactuals. Hence, we position CLAVI as a litmus test to identify, diagnose and improve the sub-optimality of learnt multimodal VideoQA representations which the current benchmarks are unable to assess.
翻訳日:2023-06-16 16:25:15 公開日:2023-06-15
# ArchGym: 機械学習支援アーキテクチャ設計のためのオープンソースの体育館

ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design ( http://arxiv.org/abs/2306.08888v1 )

ライセンス: Link先を確認
Srivatsan Krishnan, Amir Yazdanbaksh, Shvetank Prakash, Jason Jabbour, Ikechukwu Uchendu, Susobhan Ghosh, Behzad Boroujerdian, Daniel Richins, Devashree Tripathy, Aleksandra Faust, Vijay Janapa Reddi(参考訳) 機械学習はドメイン固有アーキテクチャの設計空間探索の複雑さを和らげるための一般的なアプローチです。 mlをデザインスペース探索に使用することは課題となる。 まず、MLメソッドのプールの増加から適切なアルゴリズムを識別するのは簡単ではありません。 第二に、これらの手法における性能とサンプル効率のトレードオフを評価することは決定的ではない。 最後に、公平で再現可能で客観的な比較のための全体論的な枠組みが欠如していることは、ML支援アーキテクチャ設計空間探索の導入の進展を妨げ、繰り返し可能なアーティファクトの作成を妨げる。 これらの課題を緩和するために,我々は,さまざまな検索アルゴリズムとアーキテクチャシミュレータを接続する,オープンソースのジムおよび拡張容易フレームワークであるarchgymを紹介する。 汎用性を示すために,カスタムメモリコントローラ,ディープニューラルネットワークアクセラレータ,ar/vrワークロード用のカスタムsocの設計において,複数のバニラおよびドメイン固有検索アルゴリズムにまたがるアーチギムを評価する。 結果は、無制限のサンプルでは、ハイパーパラメータがチューニングされた場合、MLアルゴリズムはユーザー定義のターゲット仕様を満たすのに等しく好ましいことを示唆している。 提案手法は,探索アルゴリズムが精密に選択されたハイパーパラメータを最適に設計する可能性を示すために,ハイパーパラメータ抽選という用語を作成した。 データ収集とアグリゲーションの容易さは、ml支援アーキテクチャ設計スペース探索の研究を促進する。 ケーススタディでは、シミュレーション時間を2000倍に削減するRMSEの0.61%のプロキシコストモデルを開発することにより、この利点を示す。 ArchGymのコードとデータはhttps://bit.ly/ArchGymで入手できる。

Machine learning is a prevalent approach to tame the complexity of design space exploration for domain-specific architectures. Using ML for design space exploration poses challenges. First, it's not straightforward to identify the suitable algorithm from an increasing pool of ML methods. Second, assessing the trade-offs between performance and sample efficiency across these methods is inconclusive. Finally, lack of a holistic framework for fair, reproducible, and objective comparison across these methods hinders progress of adopting ML-aided architecture design space exploration and impedes creating repeatable artifacts. To mitigate these challenges, we introduce ArchGym, an open-source gym and easy-to-extend framework that connects diverse search algorithms to architecture simulators. To demonstrate utility, we evaluate ArchGym across multiple vanilla and domain-specific search algorithms in designing custom memory controller, deep neural network accelerators, and custom SoC for AR/VR workloads, encompassing over 21K experiments. Results suggest that with unlimited samples, ML algorithms are equally favorable to meet user-defined target specification if hyperparameters are tuned; no solution is necessarily better than another (e.g., reinforcement learning vs. Bayesian methods). We coin the term hyperparameter lottery to describe the chance for a search algorithm to find an optimal design provided meticulously selected hyperparameters. The ease of data collection and aggregation in ArchGym facilitates research in ML-aided architecture design space exploration. As a case study, we show this advantage by developing a proxy cost model with an RMSE of 0.61% that offers a 2,000-fold reduction in simulation time. Code and data for ArchGym is available at https://bit.ly/ArchGym.
翻訳日:2023-06-16 16:24:42 公開日:2023-06-15
# SplatFlow: Splattingによる多フレーム光フローの学習

SplatFlow: Learning Multi-frame Optical Flow via Splatting ( http://arxiv.org/abs/2306.08887v1 )

ライセンス: Link先を確認
Bo Wang, Yifan Zhang, Jian Li, Yang Yu, Zhenping Sun, Li Liu, Dewen Hu(参考訳) オクルージョン問題は、この分野におけるディープラーニングによる近年の大きな進歩にもかかわらず、光学フロー推定(OFE)において依然として重要な課題である。 既存のディープラーニングOFE法、特に2つのフレームに基づく手法は、隠蔽領域に有意な特徴的類似性がないため、オクルージョンを適切に扱えない。 マルチフレーム設定はOFEの閉塞問題を緩和する可能性がある。 しかし、マルチフレームofe(mofe)の問題は未検討のままであり、ピラミッドバックボーン用に特別に設計され、時間を要する後方流計算や非微分可能な前方摂動変換によって時空情報を取得する。 これらの欠点に対処するために,時間的情報を調整するための微分可能なスプレーティング変換の導入,現在のフレームの推定を密にガイドする1対1の埋め込み法の設計,既存の2フレームバックボーンのさらなるリモデリングにより実現される,splatflowという効率的なmofeフレームワークを提案する。 提案されているSplatFlowは非常に効率的だが、オクルージョンを適切に処理できるため、より正確である。 我々のSplatFlowは、KITTI2015とSintelベンチマークで公表されたすべてのメソッドよりも大幅に優れています。 特にsintelベンチマークでは、splatflowは1.12(クリーンパス)と2.07(ファイナルパス)のエラーを達成し、それぞれ19.4%と16.2%のエラー削減を達成している。 コードはhttps://github.com/wwsource/splatflowで入手できる。

Occlusion problem remains a key challenge in Optical Flow Estimation (OFE) despite the recent significant progress brought by deep learning in the field. Most existing deep learning OFE methods, especially those based on two frames, cannot properly handle occlusions, in part because there is no significant feature similarity in occluded regions. The multi-frame settings have the potential to mitigate the occlusion issue in OFE. However, the problem of Multi-frame OFE (MOFE) remains underexplored, and the limited works are specially designed for pyramid backbones and obtain the aligned temporal information by time-consuming backward flow calculation or non-differentiable forward warping transformation. To address these shortcomings, we propose an efficient MOFE framework named SplatFlow, which is realized by introducing the differentiable splatting transformation to align the temporal information, designing a One-to-Many embedding method to densely guide the current frame's estimation, and further remodelling the existing two-frame backbones. The proposed SplatFlow is very efficient yet more accurate as it is able to handle occlusions properly. Extensive experimental evaluations show that our SplatFlow substantially outperforms all published methods on KITTI2015 and Sintel benchmarks. Especially on Sintel benchmark, SplatFlow achieves errors of 1.12 (clean pass) and 2.07 (final pass), with surprisingly significant 19.4% and 16.2% error reductions from the previous best results submitted, respectively. Code is available at https://github.com/wwsource/SplatFlow.
翻訳日:2023-06-16 16:24:12 公開日:2023-06-15
# 多次元電子分光における振動応答関数-Duschinsky回転からマルチモード圧縮コヒーレント状態へ

Vibrational response functions for multidimensional electronic spectroscopy: from Duschinsky rotations to multimode squeezed coherent states ( http://arxiv.org/abs/2306.08886v1 )

ライセンス: Link先を確認
Frank Ernesto Quintela Rodriguez and Filippo Troiani(参考訳) 多次元分光法は、様々な分子および固体系の超高速ダイナミクスを特徴付ける原子核と電子力学の相互作用を明らかにする。 このような動力学のシミュレーションに広く使われているモデルでは、電子状態間の場誘起遷移は振動モードの正規座標間の線形変換(ドゥシャンスキー回転)をもたらす。 本稿では,振動状態の明示的な導出に基づく応答関数の計算手法を提案する。 これは、量子光学形式の中で表現される多重モード圧縮コヒーレント状態と一致し、特に回転、変位、収縮作用素の初期状態へのシーケンシャルな応用によって示される。 このアプローチは応答関数の数値的導出を単純化し、シュル=オディンガー方程式やハミルトニアン対角化の時間積分を回避し、無限のビブロン経路の和と組み合わせる。 さらに、考慮されたモデルにおいて、振動波パケットのダイナミクスの観点から、応答関数の直感的な解釈を定量的に定式化する。

Multidimensional spectroscopy unveils the interplay of nuclear and electronic dynamics, which characterizes the ultrafast dynamics of various molecular and solid-state systems. In a widely used class of models used for the simulation of such dynamics, field-induced transitions between electronic states result in linear transformations (Duschinsky rotations) between the normal coordinates of the vibrational modes. Here we present an approach for the calculation of the response functions, based on the explicit derivation of the vibrational state. This can be shown to coincide with a multimode squeezed coherent state, whose expression we derive within a quantum-optical formalism, and specifically by the sequential application to the initial state of rotation, displacement and squeeze operators. This approach potentially simplifies the numerical derivation of the response function, avoiding the time integration of the Schr\"odinger equation or the Hamiltonian diagonalization, combined with the sum over infinite vibronic pathways. Besides, it quantitatively substantiates in the considered models the intuitive interpretation of the response function in terms of the vibrational wave packet dynamics.
翻訳日:2023-06-16 16:23:43 公開日:2023-06-15
# シャドウベース核殻モデルのための量子部分空間アルゴリズム

Shadow-based quantum subspace algorithm for the nuclear shell model ( http://arxiv.org/abs/2306.08885v1 )

ライセンス: Link先を確認
Ruyu Yang, Tianren Wang, Bing-Nan Lu, Ying Li, and Xiaosi Xu(参考訳) 近年,様々な分野におけるノイズの多い中間規模量子(NISQ)計算の応用が研究されている。 量子計算が古典的コンピュータより優れている重要な領域の1つは、核のような多体系の基底状態問題である。 しかし、NISQ時代に量子コンピュータを使って意味のあるスケールのシステムを解くことは依然として困難である。 原子核系の基底エネルギーを計算するために,古典影と部分空間対角化技術を組み合わせた新しいアルゴリズムを提案する。 我々の部分空間は行列で構成され、部分空間の基礎は量子状態の古典的な影である。 我々はCohen-KurathシェルモデルとUSDシェルモデルによって記述された核上で,我々のアルゴリズムをテストする。 ハイゼンベルクのスケーリングにより,ショット数の増加に伴い,結果の精度が向上することが判明した。

In recent years, researchers have been exploring the applications of noisy intermediate-scale quantum (NISQ) computation in various fields. One important area in which quantum computation can outperform classical computers is the ground state problem of a many-body system, e.g., the nucleus. However, using a quantum computer in the NISQ era to solve a meaningful-scale system remains a challenge. To calculate the ground energy of nuclear systems, we propose a new algorithm that combines classical shadow and subspace diagonalization techniques. Our subspace is composed of matrices, with the basis of the subspace being the classical shadow of the quantum state. We test our algorithm on nuclei described by Cohen-Kurath shell model and USD shell model. We find that the accuracy of the results improves as the number of shots increases, following the Heisenberg scaling.
翻訳日:2023-06-16 16:23:22 公開日:2023-06-15
# 分散ディープラーニングのための勾配圧縮の評価と最適化

Evaluation and Optimization of Gradient Compression for Distributed Deep Learning ( http://arxiv.org/abs/2306.08881v1 )

ライセンス: Link先を確認
Lin Zhang, Longteng Zhang, Shaohuai Shi, Xiaowen Chu, Bo Li(参考訳) 分散学習を加速するために、同期確率勾配降下(S-SGD)における通信ボトルネックを軽減するために、多くの勾配圧縮法が提案されている。 本研究では,32GPUクラスタ上での3つの代表圧縮手法(Sign-SGDによる量子化,Top-k SGDによるスパース化,Power-SGDによる低ランク化)の効率性を評価する。 その結果、S-SGDにおける3つの主要な最適化手法(全リデュース、パイプライニング、テンソル融合)と相容れないため、常に最適化されたS-SGDを上回り、さらに悪くなることはないことがわかった。 そこで本研究では,低ランク行列を交互に圧縮・通信する,代替圧縮パワーSGD (ACP-SGD) と呼ばれる新しい勾配圧縮手法を提案する。 ACP-SGDは通信量を大幅に削減するだけでなく、S-SGDのような3つのシステム最適化も享受している。 Power-SGDと比較して、最適化されたACP-SGDは、同様のモデルの精度を達成しつつ、圧縮と通信のオーバーヘッドを大幅に削減することができる。 我々の実験では、ACP-SGDはS-SGDとPower-SGDでそれぞれ平均4.06xと1.43xのスピードアップを達成し、異なるセットアップ(GPU8台から64GPU、1Gb/sイーサネット100Gb/s InfiniBand)で他のベースラインを一貫して上回ります。

To accelerate distributed training, many gradient compression methods have been proposed to alleviate the communication bottleneck in synchronous stochastic gradient descent (S-SGD), but their efficacy in real-world applications still remains unclear. In this work, we first evaluate the efficiency of three representative compression methods (quantization with Sign-SGD, sparsification with Top-k SGD, and low-rank with Power-SGD) on a 32-GPU cluster. The results show that they cannot always outperform well-optimized S-SGD or even worse due to their incompatibility with three key system optimization techniques (all-reduce, pipelining, and tensor fusion) in S-SGD. To this end, we propose a novel gradient compression method, called alternate compressed Power-SGD (ACP-SGD), which alternately compresses and communicates low-rank matrices. ACP-SGD not only significantly reduces the communication volume, but also enjoys the three system optimizations like S-SGD. Compared with Power-SGD, the optimized ACP-SGD can largely reduce the compression and communication overheads, while achieving similar model accuracy. In our experiments, ACP-SGD achieves an average of 4.06x and 1.43x speedups over S-SGD and Power-SGD, respectively, and it consistently outperforms other baselines across different setups (from 8 GPUs to 64 GPUs and from 1Gb/s Ethernet to 100Gb/s InfiniBand).
翻訳日:2023-06-16 16:23:10 公開日:2023-06-15
# 拡散モデルにおける言語結合:注意マップアライメントによる属性対応の強化

Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment ( http://arxiv.org/abs/2306.08877v1 )

ライセンス: Link先を確認
Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik(参考訳) テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。 これは、生成画像中の対応する要素のプロンプトおよび視覚的結合における、エンティティと修飾子の言語的結合の障害マッピングを反映する。 一例として、'a pink sunflower and a yellow flamingo'のようなクエリは、誤って黄色のひまわりとピンクのフラミンゴの画像を生成する可能性がある。 この問題を解決するために、まずエンティティとその修飾子を識別するためのプロンプトを構文解析し、その後、構文に反映される言語結合にクロス・アテンション・マップを推奨する新しい損失関数であるsyngenを提案する。 具体的には、エンティティのアテンションマップとその修飾子間の大きなオーバーラップと、他のエンティティや修飾子ワードとの小さなオーバーラップを推奨する。 損失はモデルの再トレーニングや微調整なしに、推論中に最適化される。 新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。 本研究は,推論中の文構造の利用が,テキスト対画像生成の忠実さを効果的かつ効果的に向上することを示す。

Text-conditioned image generation models often generate incorrect associations between entities and their visual attributes. This reflects an impaired mapping between linguistic binding of entities and modifiers in the prompt and visual binding of the corresponding elements in the generated image. As one notable example, a query like ``a pink sunflower and a yellow flamingo'' may incorrectly produce an image of a yellow sunflower and a pink flamingo. To remedy this issue, we propose SynGen, an approach which first syntactically analyses the prompt to identify entities and their modifiers, and then uses a novel loss function that encourages the cross-attention maps to agree with the linguistic binding reflected by the syntax. Specifically, we encourage large overlap between attention maps of entities and their modifiers, and small overlap with other entities and modifier words. The loss is optimized during inference, without retraining or fine-tuning the model. Human evaluation on three datasets, including one new and challenging set, demonstrate significant improvements of SynGen compared with current state of the art methods. This work highlights how making use of sentence structure during inference can efficiently and substantially improve the faithfulness of text-to-image generation.
翻訳日:2023-06-16 16:22:36 公開日:2023-06-15
# 説明付き実不整合分類のためのニューラルモデル

Neural models for Factual Inconsistency Classification with Explanations ( http://arxiv.org/abs/2306.08872v1 )

ライセンス: Link先を確認
Tathagata Raha, Mukund Choudhary, Abhinav Menon, Harshit Gupta, KV Aditya Srivatsa, Manish Gupta, Vasudeva Varma(参考訳) ファクト一貫性は、高品質なドキュメントを編集する際に最も重要な要件の1つである。 これは要約、質問応答、ダイアログモデリング、言語モデリングのような自動テキスト生成システムにとって非常に重要である。 それでも、自動化された事実整合性検出は、あまり研究されていない。 既存の作業は集中している (a)知識ベースを背景とした偽ニュースの発見、又は b)広い矛盾を検出すること(自然言語推論文献の一部として) しかし、文脈の知識基盤がなくても、テキストにおける事実的矛盾のタイプを検出し説明する作業は行われていない。 本稿では,言語学における既存の研究を活用し,5種類の事実矛盾を正式に定義する。 この分類に基づいて、我々はFICLE(Factual Inconsistency CLassification with Explanation)という新しいデータセットを8Kのサンプルで提供し、各サンプルは2つの文(定義と文脈)をタイプとスパンでアノテートする。 不整合がエンティティタイプに関連する場合、それは2つのレベル(粗くきめ細かい)でラベル付けされる。 さらに、このデータセットを利用して、4つのニューラルモデルのパイプラインを訓練し、(要求、コンテキスト)文ペアが与えられた場合、説明付き不整合タイプを予測する。 説明には、一貫性のないクレーム事実、一貫性のないコンテキストスパン、一貫性のないクレームコンポーネント、粗い、きめ細かいエンティティタイプが含まれる。 提案システムはまず,要求とコンテキストから不整合を予測し,不整合型と不整合型(不整合がエンティティに起因する場合)を予測する。 我々は,複数のトランスフォーマーに基づく自然言語分類と生成モデルを用いて実験を行い,DeBERTaが最適であることを確認した。 提案手法は5つのクラスにまたがる不整合型分類のための重み付きF1の約87%を提供する。

Factual consistency is one of the most important requirements when editing high quality documents. It is extremely important for automatic text generation systems like summarization, question answering, dialog modeling, and language modeling. Still, automated factual inconsistency detection is rather under-studied. Existing work has focused on (a) finding fake news keeping a knowledge base in context, or (b) detecting broad contradiction (as part of natural language inference literature). However, there has been no work on detecting and explaining types of factual inconsistencies in text, without any knowledge base in context. In this paper, we leverage existing work in linguistics to formally define five types of factual inconsistencies. Based on this categorization, we contribute a novel dataset, FICLE (Factual Inconsistency CLassification with Explanation), with ~8K samples where each sample consists of two sentences (claim and context) annotated with type and span of inconsistency. When the inconsistency relates to an entity type, it is labeled as well at two levels (coarse and fine-grained). Further, we leverage this dataset to train a pipeline of four neural models to predict inconsistency type with explanations, given a (claim, context) sentence pair. Explanations include inconsistent claim fact triple, inconsistent context span, inconsistent claim component, coarse and fine-grained inconsistent entity types. The proposed system first predicts inconsistent spans from claim and context; and then uses them to predict inconsistency types and inconsistent entity types (when inconsistency is due to entities). We experiment with multiple Transformer-based natural language classification as well as generative models, and find that DeBERTa performs the best. Our proposed methods provide a weighted F1 of ~87% for inconsistency type classification across the five classes.
翻訳日:2023-06-16 16:22:18 公開日:2023-06-15
# DRLに基づくナビゲーションシステムのための進化的カリキュラムトレーニング

Evolutionary Curriculum Training for DRL-Based Navigation Systems ( http://arxiv.org/abs/2306.08870v1 )

ライセンス: Link先を確認
Max Asselmeier, Zhaoyi Li, Kelin Yu, Danfei Xu(参考訳) 近年,ロボット衝突回避のための有望な手法として,深層強化学習(DRL)が登場している。 しかし、そのようなDRLモデルは、様々な歩行者を含む構造された環境に効果的に適応するなど、しばしば制限が伴う。 この問題を解決するために、従来の研究では、DRLにウェイポイントプランナーを統合することによってエンドツーエンドソリューションのトレーニングや、DRLモデルの欠点を軽減するマルチモーダルソリューションの開発など、いくつかのアプローチが試みられている。 しかしながら、これらのアプローチは、遅いトレーニング時間、スケーラビリティの課題、異なるモデル間の調整不良など、いくつかの問題に直面している。 本稿では,これらの課題に取り組むために,進化的カリキュラムトレーニングと呼ばれる新しいアプローチを提案する。 進化的カリキュラムトレーニングの主な目標は、様々なシナリオにおける衝突回避モデルの能力を評価し、その不十分なスキルを向上させるためのカリキュラムを作成することである。 本稿では,構造化地図のナビゲートと動的障害回避におけるdrlモデルの性能評価手法を提案する。 さらに、進化的学習環境は、以前の評価で検証されたDRLモデルの不十分なスキルを改善するために、すべてのカリキュラムを生成する。 我々は,この進化的学習環境がより高い成功率と低い平均衝突数をもたらすという仮説を検証するために,5つの構造化環境におけるモデルの性能をベンチマークする。 さらなる詳細と成果は、プロジェクトのwebサイトにある。

In recent years, Deep Reinforcement Learning (DRL) has emerged as a promising method for robot collision avoidance. However, such DRL models often come with limitations, such as adapting effectively to structured environments containing various pedestrians. In order to solve this difficulty, previous research has attempted a few approaches, including training an end-to-end solution by integrating a waypoint planner with DRL and developing a multimodal solution to mitigate the drawbacks of the DRL model. However, these approaches have encountered several issues, including slow training times, scalability challenges, and poor coordination among different models. To address these challenges, this paper introduces a novel approach called evolutionary curriculum training to tackle these challenges. The primary goal of evolutionary curriculum training is to evaluate the collision avoidance model's competency in various scenarios and create curricula to enhance its insufficient skills. The paper introduces an innovative evaluation technique to assess the DRL model's performance in navigating structured maps and avoiding dynamic obstacles. Additionally, an evolutionary training environment generates all the curriculum to improve the DRL model's inadequate skills tested in the previous evaluation. We benchmark the performance of our model across five structured environments to validate the hypothesis that this evolutionary training environment leads to a higher success rate and a lower average number of collisions. Further details and results at our project website.
翻訳日:2023-06-16 16:21:46 公開日:2023-06-15
# 複数のアハルノフ-ボームフラックスを持つschr\"{o}dinger演算子

Schr\"{o}dinger operators with multiple Aharonov-Bohm fluxes ( http://arxiv.org/abs/2306.08910v1 )

ライセンス: Link先を確認
Michele Correggi, Davide Fermi(参考訳) n \geqslant 1 $ aharonov-bohm磁束の存在下で動く2次元の量子粒子を記述するschr\"{o}dinger演算子を研究した。 このような演算子のすべての自己随伴実現を分類し、それらのドメインとアクションの明示的な特徴付けを提供する。 さらに,そのスペクトル特性と散乱特性を考察し,特に自由動力学との関係で波動作用素の存在と完全性を証明する。

We study the Schr\"{o}dinger operator describing a two-dimensional quantum particle moving in presence of $ N \geqslant 1 $ Aharonov-Bohm magnetic fluxes. We classify all the self-adjont realizations of such an operator, providing an explicit characterization of their domains and actions. Moreover, we examine their spectral and scattering properties, proving in particular the existence and completeness of wave operators in relation with the free dynamics.
翻訳日:2023-06-16 16:15:18 公開日:2023-06-15
# 事前学習言語モデルにおける決定に基づく知識蒸留における判断と論理のギャップを埋める

Bridging the Gap between Decision and Logits in Decision-based Knowledge Distillation for Pre-trained Language Models ( http://arxiv.org/abs/2306.08909v1 )

ライセンス: Link先を確認
Qinhong Zhou, Zonghan Yang, Peng Li, Yang Liu(参考訳) 従来の知識蒸留法(KD)は、教師の内部情報へのアクセスを必要とする。 しかし、そのような情報は大きな事前訓練された言語モデル(PLM)には必ずしもアクセスできない。 本研究では, PLMのための意思決定に基づくKDに着目し, 教師による意思決定(トップ1ラベル)のみにアクセスできるようにする。 本稿では,ロジットと意思決定の間の情報ギャップを考慮し,ロジットを決定分布から推定する方法を提案する。 具体的には、決定分布は理論的にロジットの関数として導出することができ、試験時間データ拡張を経験的に推定することができる。 決定分布の理論的および経験的推定を組み合わせることで、ロジットの推定を簡単な根のフィニング問題に還元することができる。 大規模な実験により,本手法は自然言語理解と機械読解データセットの両方において,強いベースラインを著しく上回ることがわかった。

Conventional knowledge distillation (KD) methods require access to the internal information of teachers, e.g., logits. However, such information may not always be accessible for large pre-trained language models (PLMs). In this work, we focus on decision-based KD for PLMs, where only teacher decisions (i.e., top-1 labels) are accessible. Considering the information gap between logits and decisions, we propose a novel method to estimate logits from the decision distributions. Specifically, decision distributions can be both derived as a function of logits theoretically and estimated with test-time data augmentation empirically. By combining the theoretical and empirical estimations of the decision distributions together, the estimation of logits can be successfully reduced to a simple root-finding problem. Extensive experiments show that our method significantly outperforms strong baselines on both natural language understanding and machine reading comprehension datasets.
翻訳日:2023-06-16 16:15:10 公開日:2023-06-15
# MCPI:複合タンパク質相互作用予測のためのマルチモーダルデータの統合

MCPI: Integrating Multimodal Data for Enhanced Prediction of Compound Protein Interactions ( http://arxiv.org/abs/2306.08907v1 )

ライセンス: Link先を確認
Li Zhang, Wenhao Li, Haotian Guan, Zhiquan He, Mingjun Cheng, Han Wang(参考訳) 複合タンパク質相互作用(CPI)の同定は、薬物スクリーニング、薬物再精製、併用療法研究において重要な役割を担っている。 CPI予測の有効性は、化合物と標的タンパク質の両方から抽出された特徴に大きく依存している。 様々な予測方法は異なる特徴の組み合わせを用いるが、分子モデルとネットワークモデルの両方は不完全な特徴表現の共通の障害に直面する。 したがって、この問題に対する有望な解決策は、すべての関連するCPI機能を完全に統合することである。 本研究では,PPIネットワーク,CCIネットワーク,CPIの構造的特徴を含む複数の情報ソースを統合することにより,CPIの予測性能を向上させるMCPIという新しいモデルを提案する。 その結果,mcpiモデルは,公開データセット上でcpiを予測する他の手法よりも優れていた。 さらに本研究は,SARS-CoV-2パンデミックに対するFDA承認薬物中の潜在的阻害剤の探索に応用され,医薬品開発に実用的な意味を持つ。 予測結果は文献を通じて検証され、MCPIモデルは潜在的な薬物候補を特定するのに有用なツールである可能性が示唆された。 全体として,本研究はCPIの理解を深め,医薬品開発を指導する可能性を持っている。

The identification of compound-protein interactions (CPI) plays a critical role in drug screening, drug repurposing, and combination therapy studies. The effectiveness of CPI prediction relies heavily on the features extracted from both compounds and target proteins. While various prediction methods employ different feature combinations, both molecular-based and network-based models encounter the common obstacle of incomplete feature representations. Thus, a promising solution to this issue is to fully integrate all relevant CPI features. This study proposed a novel model named MCPI, which is designed to improve the prediction performance of CPI by integrating multiple sources of information, including the PPI network, CCI network, and structural features of CPI. The results of the study indicate that the MCPI model outperformed other existing methods for predicting CPI on public datasets. Furthermore, the study has practical implications for drug development, as the model was applied to search for potential inhibitors among FDA-approved drugs in response to the SARS-CoV-2 pandemic. The prediction results were then validated through the literature, suggesting that the MCPI model could be a useful tool for identifying potential drug candidates. Overall, this study has the potential to advance our understanding of CPI and guide drug development efforts.
翻訳日:2023-06-16 16:14:55 公開日:2023-06-15
# コミュニティインフォームド・ジェンダーフェア機械翻訳への道としての参加研究

Participatory Research as a Path to Community-Informed, Gender-Fair Machine Translation ( http://arxiv.org/abs/2306.08906v1 )

ライセンス: Link先を確認
Dagmar Gromann, Manuel Lardelli, Katta Spiel, Sabrina Burtscher, Lukas Daniel Klausner, Arthur Mettinger, Igor Miladinovic, Sigrid Schefer-Wenzl, Daniela Duh, Katharina B\"uhn(参考訳) 近年、公共の場では非バイナリの人々の視認性が強くなっている。 したがって、ジェンダー・フェア言語の考慮は、男性/女性という二元概念を越えている。 しかし、言語技術、特に機械翻訳(MT)はまだ二分性バイアスに悩まされている。 純粋に技術的観点から、男女平等のMTの解決策をバイナリを超えて提案することは、異なるターゲットのユーザーグループに対応するために不足する可能性がある。 そこで本研究では,mt設計プロセスにおいて,経験的専門家,すなわちクィアと非バイナリの人々,翻訳者,およびmtの専門家を含む参加行動研究の手法と事例スタディを提案する。 ケーススタディでは、識別の無効化を避けるためのコンテキスト依存の重要性と、カスタマイズ可能なMTソリューションへの欲求が注目されている。

Recent years have seen a strongly increased visibility of non-binary people in public discourse. Accordingly, considerations of gender-fair language go beyond a binary conception of male/female. However, language technology, especially machine translation (MT), still suffers from binary gender bias. Proposing a solution for gender-fair MT beyond the binary from a purely technological perspective might fall short to accommodate different target user groups and in the worst case might lead to misgendering. To address this challenge, we propose a method and case study building on participatory action research to include experiential experts, i.e., queer and non-binary people, translators, and MT experts, in the MT design process. The case study focuses on German, where central findings are the importance of context dependency to avoid identity invalidation and a desire for customizable MT solutions.
翻訳日:2023-06-16 16:14:37 公開日:2023-06-15
# 画像拡張によるニューラルレンダリング手法の強化

Enhancing Neural Rendering Methods with Image Augmentations ( http://arxiv.org/abs/2306.08904v1 )

ライセンス: Link先を確認
Juan C. P\'erez and Sara Rojas and Jesus Zarzar and Bernard Ghanem(参考訳) 3次元幾何学を忠実に再構築し、シーンの新しい視点を生成することは、3次元コンピュータビジョンにおいて重要なタスクである。 コンピュータビジョンアプリケーションで画像拡張が広く使われているが、3Dシーンのニューラルレンダリング法(NRM)を学ぶ際には、その可能性はまだ探索されていない。 本稿では,NRMにおける画像拡張の利用に関する包括的分析を行い,様々な拡張戦略について検討する。 トレーニング中に画像拡張を導入することで、画像からNRMを学習する幾何学的および測光的不整合などの課題が生じることがわかった。 特に、幾何学的不整合は、形状、位置、方向の変化から生じ、正確な3次元再構成に必要な空間的手がかりを乱す。 一方で、光測定の不整合は、拡大によって引き起こされるピクセル強度の変化から生じ、シーンの基盤となる3d構造をキャプチャする能力に影響を及ぼす。 我々は、色操作に焦点をあて、NRMが光度変化を説明できる学習可能な外観埋め込みを導入することで、これらの問題を緩和する。 実験では,測光品質の向上や表面再構成,トレーニングデータの削減や画像劣化などのデータ品質問題に対する堅牢性の向上など,nrm学習における強化効果を実証する。

Faithfully reconstructing 3D geometry and generating novel views of scenes are critical tasks in 3D computer vision. Despite the widespread use of image augmentations across computer vision applications, their potential remains underexplored when learning neural rendering methods (NRMs) for 3D scenes. This paper presents a comprehensive analysis of the use of image augmentations in NRMs, where we explore different augmentation strategies. We found that introducing image augmentations during training presents challenges such as geometric and photometric inconsistencies for learning NRMs from images. Specifically, geometric inconsistencies arise from alterations in shapes, positions, and orientations from the augmentations, disrupting spatial cues necessary for accurate 3D reconstruction. On the other hand, photometric inconsistencies arise from changes in pixel intensities introduced by the augmentations, affecting the ability to capture the underlying 3D structures of the scene. We alleviate these issues by focusing on color manipulations and introducing learnable appearance embeddings that allow NRMs to explain away photometric variations. Our experiments demonstrate the benefits of incorporating augmentations when learning NRMs, including improved photometric quality and surface reconstruction, as well as enhanced robustness against data quality issues, such as reduced training data and image degradations.
翻訳日:2023-06-16 16:14:22 公開日:2023-06-15
# 結合値分解を用いたオフラインマルチエージェント強化学習

Offline Multi-Agent Reinforcement Learning with Coupled Value Factorization ( http://arxiv.org/abs/2306.08900v1 )

ライセンス: Link先を確認
Xiangsen Wang, Xianyuan Zhan(参考訳) 近年,環境相互作用のないオフラインデータセットからポリシーを学習するオフライン強化学習(RL)が注目されている。 単一エージェントの場合のリッチな文献と比較すると、オフラインマルチエージェントRLはいまだに未探索領域である。 既存のほとんどの手法は、分解可能な問題構造を完全に活用することなく、オフラインのRL成分を直接マルチエージェント設定に適用する。 OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。 OMACは、グローバル値関数を局所的および共有的コンポーネントに分解する結合値分解スキームを採用し、状態値とQ値関数間のクレジット割り当て一貫性を維持する。 さらに、OMACは分解された局所的状態値関数に対してサンプル内学習を行い、これは分布変化を回避しつつ、局所レベルで最大Q演算を暗黙的に行う。 オフラインマルチエージェントStarCraft IIマイクロマネジメントタスクの総合的な評価に基づいて、最先端のオフラインマルチエージェントRL法よりもOMACの優れた性能を示す。

Offline reinforcement learning (RL) that learns policies from offline datasets without environment interaction has received considerable attention in recent years. Compared with the rich literature in the single-agent case, offline multi-agent RL is still a relatively underexplored area. Most existing methods directly apply offline RL ingredients in the multi-agent setting without fully leveraging the decomposable problem structure, leading to less satisfactory performance in complex tasks. We present OMAC, a new offline multi-agent RL algorithm with coupled value factorization. OMAC adopts a coupled value factorization scheme that decomposes the global value function into local and shared components, and also maintains the credit assignment consistency between the state-value and Q-value functions. Moreover, OMAC performs in-sample learning on the decomposed local state-value functions, which implicitly conducts max-Q operation at the local level while avoiding distributional shift caused by evaluating out-of-distribution actions. Based on the comprehensive evaluations of the offline multi-agent StarCraft II micro-management tasks, we demonstrate the superior performance of OMAC over the state-of-the-art offline multi-agent RL methods.
翻訳日:2023-06-16 16:14:03 公開日:2023-06-15
# マルチ言語によるエンティティリンクの終了

Multilingual End to End Entity Linking ( http://arxiv.org/abs/2306.08896v1 )

ライセンス: Link先を確認
Mikhail Plekhanov, Nora Kassner, Kashyap Popat, Louis Martin, Simone Merello, Borislav Kozlovskii, Fr\'ed\'eric A. Dreyer, Nicola Cancedda(参考訳) Entity Linkingは実用アプリケーションでもっとも一般的な自然言語処理タスクの1つですが、これまでは多言語対応のエンドツーエンドソリューションに欠けており、複雑なモデルスタックにつながっています。 このギャップを埋めるために私たちは,97言語のいずれかのテキストのエンティティを効率的に検出し,リンクする,最初の完全なエンドツーエンドのエンティティリンクモデルであるBELAをオープンソースとして公開しました。 ここでは,モデルの詳細を説明し,高リソース言語と低リソース言語をカバーする4つのエンティティリンクデータセットにおけるbelaのパフォーマンスを報告する。

Entity Linking is one of the most common Natural Language Processing tasks in practical applications, but so far efficient end-to-end solutions with multilingual coverage have been lacking, leading to complex model stacks. To fill this gap, we release and open source BELA, the first fully end-to-end multilingual entity linking model that efficiently detects and links entities in texts in any of 97 languages. We provide here a detailed description of the model and report BELA's performance on four entity linking datasets covering high- and low-resource languages.
翻訳日:2023-06-16 16:13:45 公開日:2023-06-15
# 衛星ベースの動的量子ネットワークにおける絡み合い分布

Entanglement Distribution in Satellite-based Dynamic Quantum Networks ( http://arxiv.org/abs/2306.08894v1 )

ライセンス: Link先を確認
Alena Chang, Yinxin Wan, Guoliang Xue, Arunabha Sen(参考訳) 低地球軌道(LEO)衛星は、グローバルな量子情報ネットワークを確立するための魅力的な機会を提供する。 しかし,ネットワークの観点からの衛星による絡み合い分布は十分に研究されていない。 既存の著作物では、エンタングルメントを配布する場合や、衛星間リンクに沿ったエンタングルメント分布を許可しない場合、衛星移動を時間とともに考慮しないことが多い。 まず、衛星移動と衛星間リンクの両方を考慮したシステムモデルを定義する。 次に、このシステムモデルの下で最適絡み合い分布(OED)問題を定式化し、動的物理ネットワークのOED問題を動的物理ネットワークのOED問題を解決するために使用できる静的論理グラフのOED問題に変換する方法を示す。 次に,衛星支援マルチホップ絡み道計算のための多項式時間欲アルゴリズムを提案する。 また,整数線形計画法(ILP)に基づくアルゴリズムを設計し,最適解をベースラインとして計算し,グリードアルゴリズムの性能について検討する。 本稿では,モデルとアルゴリズムの利点を示す評価結果を提案する。

Low Earth Orbit (LEO) satellites present a compelling opportunity for the establishment of a global quantum information network. However, satellite-based entanglement distribution from a networking perspective has not been fully investigated. Existing works often do not account for satellite movement over time when distributing entanglement and/or often do not permit entanglement distribution along inter-satellite links, which are two shortcomings we address in this paper. We first define a system model which considers both satellite movement over time and inter-satellite links. We next formulate the optimal entanglement distribution (OED) problem under this system model and show how to convert the OED problem in a dynamic physical network to one in a static logical graph which can be used to solve the OED problem in the dynamic physical network. We then propose a polynomial time greedy algorithm for computing satellite-assisted multi-hop entanglement paths. We also design an integer linear programming (ILP)-based algorithm to compute optimal solutions as a baseline to study the performance of our greedy algorithm. We present evaluation results to demonstrate the advantage of our model and algorithms.
翻訳日:2023-06-16 16:13:34 公開日:2023-06-15
# LOVM:言語のみのビジョンモデル選択

LOVM: Language-Only Vision Model Selection ( http://arxiv.org/abs/2306.08893v1 )

ライセンス: Link先を確認
Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung(参考訳) 事前訓練されたマルチモーダル視覚言語モデル(VLM)は、下流の視覚アプリケーション、特に少数およびゼロショット設定における例外的な性能のために人気が高まっている。 しかしながら、いくつかの下流アプリケーションで最高のパフォーマンスのVLMを選択することは、データセットとタスク依存であるため、簡単ではない。 一方、新しいアプリケーション上で利用可能なすべてのVLMの徹底的な評価は、時間と計算的な要求だけでなく、ラベル付きデータセットの収集も必要である。 オープンソースVLMの変種数が増加するにつれて、キュレートされた評価データセットへのアクセスを必要としない効率的なモデル選択戦略が必要である。 本稿では,ダウンストリームタスクデータセットにアクセスせずに,ダウンストリームアプリケーションにおけるvlmsのゼロショット性能を効率的に評価するための新しいタスクとベンチマークを提案する。 具体的には、新しいタスクlovm: language-only vision model selection(言語のみのビジョンモデル選択)を紹介し、メソッドは、望ましい下流アプリケーションのテキスト記述のみに基づいて、モデル選択とパフォーマンス予測の両方を実行することが期待される。 次に,35個の事前学習VLMと23個のデータセットの地中信頼度評価からなるLOVMベンチマークを導入し,事前学習VLMのランク付けとゼロショット性能の予測を行う。

Pre-trained multi-modal vision-language models (VLMs) are becoming increasingly popular due to their exceptional performance on downstream vision applications, particularly in the few- and zero-shot settings. However, selecting the best-performing VLM for some downstream applications is non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive evaluation of all available VLMs on a novel application is not only time and computationally demanding but also necessitates the collection of a labeled dataset for evaluation. As the number of open-source VLM variants increases, there is a need for an efficient model selection strategy that does not require access to a curated evaluation dataset. This paper proposes a novel task and benchmark for efficiently evaluating VLMs' zero-shot performance on downstream applications without access to the downstream task dataset. Specifically, we introduce a new task LOVM: Language-Only Vision Model Selection, where methods are expected to perform both model selection and performance prediction based solely on a text description of the desired downstream application. We then introduced an extensive LOVM benchmark consisting of ground-truth evaluations of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the pre-trained VLMs and predict their zero-shot performance.
翻訳日:2023-06-16 16:13:17 公開日:2023-06-15
# MetricPrompt:Few-shotテキスト分類の関連指標としてのプロンプトモデル

MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification ( http://arxiv.org/abs/2306.08892v1 )

ライセンス: Link先を確認
Hongyuan Dong, Weinan Zhang, Wanxiang Che(参考訳) プロンプティング手法は、様々なテキストマイニングタスクやアプリケーション、特に少数ショットのパフォーマンスを示している。 有望な見通しにもかかわらず、プロンプトモデルの性能はプロンプトテンプレートと動詞化器の設計に大きく依存する。 本研究では,テキストペア関連性評価タスクに数発のテキスト分類タスクを書き換えることで,言語設計の難しさを軽減するMetricPromptを提案する。 MetricPromptは、プロンプトモデルを関連指標として採用し、事前訓練された言語モデル(PLM)の事前学習目標とテキスト分類タスクのギャップを埋め、PLMのスムーズな適応を可能にする。 トレーニングサンプルとクエリを同時に受け取り、MetricPromptは、正確な関連性推定のためのクロスサンプル関連情報をキャプチャする。 広範に使われている3つのテキスト分類データセットを4つのショット設定で実験する。 その結果,MetricPromptは,手動言語器や自動言語器の設計手法よりも優れており,新しいSOTA(State-of-the-art)性能を実現していることがわかった。

Prompting methods have shown impressive performance in a variety of text mining tasks and applications, especially few-shot ones. Despite the promising prospects, the performance of prompting model largely depends on the design of prompt template and verbalizer. In this work, we propose MetricPrompt, which eases verbalizer design difficulty by reformulating few-shot text classification task into text pair relevance estimation task. MetricPrompt adopts prompting model as the relevance metric, further bridging the gap between Pre-trained Language Model's (PLM) pre-training objective and text classification task, making possible PLM's smooth adaption. Taking a training sample and a query one simultaneously, MetricPrompt captures cross-sample relevance information for accurate relevance estimation. We conduct experiments on three widely used text classification datasets across four few-shot settings. Results show that MetricPrompt outperforms manual verbalizer and other automatic verbalizer design methods across all few-shot settings, achieving new state-of-the-art (SOTA) performance.
翻訳日:2023-06-16 16:12:53 公開日:2023-06-15
# 半教師付き学習による文脈認識変化検出

Context-Aware Change Detection With Semi-Supervised Learning ( http://arxiv.org/abs/2306.08935v1 )

ライセンス: Link先を確認
Ritu Yadav, Andrea Nascetti, Yifang Ban(参考訳) 地球観測データを用いた変化検出は、被災地における災害の影響の定量化に重要な役割を果たす。 sentinel-2のようなデータソースは豊富な光学情報を提供するが、しばしばクラウドカバーによって妨げられ、災害シナリオでの使用が制限される。 しかし、災害前の光学データを利用することで、土地被覆型、植生被覆型、土壌型などの貴重な文脈情報を提供し、災害の影響をよりよく理解することができる。 本研究では,災害被害地域に着目し,地震前センチネル2データの変化検出タスクへの寄与を評価するモデルを開発した。 提案したコンテキスト認識変化検出ネットワーク (CACDN) は, プレディザスタセンチネル-2データ, プレディザスタセンチネル-1データ, およびアシラリーディジタル標高モデル(DEM)データの組み合わせを利用する。 このモデルは洪水および地すべり検出に基づいて検証され,AUPRC(Area Under the Precision-Recall Curve),IoU(Intersection over Union),IoU(IoU)の3つの指標を用いて評価された。 予備結果は, 正確な洪水・地すべり検出に文脈情報の利用の有効性を反映した事前災害光学データを用いた場合, モデル変化検出能力に有意な改善(4\%, auprc, 3-7\% iou, 3-6\%平均iou)を示した。

Change detection using earth observation data plays a vital role in quantifying the impact of disasters in affected areas. While data sources like Sentinel-2 provide rich optical information, they are often hindered by cloud cover, limiting their usage in disaster scenarios. However, leveraging pre-disaster optical data can offer valuable contextual information about the area such as landcover type, vegetation cover, soil types, enabling a better understanding of the disaster's impact. In this study, we develop a model to assess the contribution of pre-disaster Sentinel-2 data in change detection tasks, focusing on disaster-affected areas. The proposed Context-Aware Change Detection Network (CACDN) utilizes a combination of pre-disaster Sentinel-2 data, pre and post-disaster Sentinel-1 data and ancillary Digital Elevation Models (DEM) data. The model is validated on flood and landslide detection and evaluated using three metrics: Area Under the Precision-Recall Curve (AUPRC), Intersection over Union (IoU), and mean IoU. The preliminary results show significant improvement (4\%, AUPRC, 3-7\% IoU, 3-6\% mean IoU) in model's change detection capabilities when incorporated with pre-disaster optical data reflecting the effectiveness of using contextual information for accurate flood and landslide detection.
翻訳日:2023-06-16 16:05:13 公開日:2023-06-15
# 音声・視覚影響機械学習における解釈可能性に向けて : レビュー

Towards Interpretability in Audio and Visual Affective Machine Learning: A Review ( http://arxiv.org/abs/2306.08933v1 )

ライセンス: Link先を確認
David S. Johnson, Olya Hakobyan, and Hanna Drimalla(参考訳) 機械学習は感情コンピューティングでよく使用されるが、最先端の機械学習手法が不透明であることによる課題が提示される。 機械学習システムが個人の生活に影響を及ぼす可能性があるため、偏りのある意思決定を検出し軽減するためにモデルを透明にすることが重要である。 この点において、感情的な機械学習は、最近の説明可能な人工知能(XAI)研究の進歩の恩恵を受ける可能性がある。 情緒的機械学習の文脈における解釈可能性の利用を検討するため,構造化文献レビューを行う。 我々は,モデルトレーニングのための音声,視覚,視聴覚データを用いた研究に焦点を当て,29の論文を同定した。 以上の結果から,過去5年間の解釈可能性手法の出現が示唆された。 しかし、現在、使用する方法の範囲、評価の深さ、ユースケースの考慮についての使用は限られている。 本研究の主なギャップを概説し、感情的な機械学習のための解釈可能な手法の実装を目指す研究者に推奨する。

Machine learning is frequently used in affective computing, but presents challenges due the opacity of state-of-the-art machine learning methods. Because of the impact affective machine learning systems may have on an individual's life, it is important that models be made transparent to detect and mitigate biased decision making. In this regard, affective machine learning could benefit from the recent advancements in explainable artificial intelligence (XAI) research. We perform a structured literature review to examine the use of interpretability in the context of affective machine learning. We focus on studies using audio, visual, or audiovisual data for model training and identified 29 research articles. Our findings show an emergence of the use of interpretability methods in the last five years. However, their use is currently limited regarding the range of methods used, the depth of evaluations, and the consideration of use-cases. We outline the main gaps in the research and provide recommendations for researchers that aim to implement interpretable methods for affective machine learning.
翻訳日:2023-06-16 16:04:45 公開日:2023-06-15
# 協調学習型レコメンダシステムに対するコミュニティ検出攻撃

Community Detection Attack against Collaborative Learning-based Recommender Systems ( http://arxiv.org/abs/2306.08929v1 )

ライセンス: Link先を確認
Yacine Belal, Sonia Ben Mokhtar, Mohamed Maouche and Anthony Simonet-Boulogne(参考訳) 協調学習に基づくレコメンダシステムは、連合学習(fl)やゴシップ学習(gl)といった協調学習技術の成功に続いて登場した。 これらのシステムでは、ユーザはデバイス上で消費されたアイテムの履歴を保持しながらレコメンデーションシステムのトレーニングに参加します。 これらのソリューションは、一見すると参加者のプライバシーを守るために魅力的に思えるが、最近の研究では、協調学習はさまざまなプライバシー攻撃に対して脆弱であることが示されている。 本稿では,コミュニティ検出攻撃(Community Detection Attack, CDA)と呼ばれる新たなプライバシ攻撃を提案する。 3つの実際のレコメンデーションデータセットと2つの最先端レコメンデーションモデルを用いた実験を通じて、flベースのレコメンデーションシステムの感度と、cdaへのゴシップ学習に基づくレコメンデーションシステムの2つのフレーバーを評価する。 結果は、すべてのモデルとすべてのデータセットにおいて、FL設定がGossip設定よりもCDAに対して脆弱であることを示している。 さらに、モデルパラメーターのサブセットを共有することで、ディファレンシャルプライバシ(DP)とシェア少ないポリシーの2つのオフザシェルフ緩和戦略を評価した。 その結果、特にGossipの設定では、DPに比べて、シェアのポリシーがより少ないため、プライバシーとユーティリティのトレードオフが改善されている。

Collaborative-learning based recommender systems emerged following the success of collaborative learning techniques such as Federated Learning (FL) and Gossip Learning (GL). In these systems, users participate in the training of a recommender system while keeping their history of consumed items on their devices. While these solutions seemed appealing for preserving the privacy of the participants at a first glance, recent studies have shown that collaborative learning can be vulnerable to a variety of privacy attacks. In this paper we propose a novel privacy attack called Community Detection Attack (CDA), which allows an adversary to discover the members of a community based on a set of items of her choice (e.g., discovering users interested in LGBT content). Through experiments on three real recommendation datasets and by using two state-of-the-art recommendation models, we assess the sensitivity of an FL-based recommender system as well as two flavors of Gossip Learning-based recommender systems to CDA. Results show that on all models and all datasets, the FL setting is more vulnerable to CDA than Gossip settings. We further evaluated two off-the-shelf mitigation strategies, namely differential privacy (DP) and a share less policy, which consists in sharing a subset of model parameters. Results show a better privacy-utility trade-off for the share less policy compared to DP especially in the Gossip setting.
翻訳日:2023-06-16 16:04:31 公開日:2023-06-15
# アスペクトベース感情分析のためのオピニオンツリー解析

Opinion Tree Parsing for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2306.08925v1 )

ライセンス: Link先を確認
Xiaoyi Bao, Xiaotong Jiang, Zhongqing Wang, Yue Zhang, and Guodong Zhou(参考訳) 事前学習された生成モデルを用いた感情要素の抽出は、最近アスペクトベースの感情分析ベンチマークを大きく改善した。 しかし、これらのモデルは常に大規模コンピューティングリソースを必要とし、感情要素間の構造を明示的にモデル化することも無視する。 これらの課題に対処するために、より高速で、より包括的で完全なアスペクトレベルの感情構造を明らかにすることができる、意見木からすべての感情要素を解析することを目的とした意見木解析モデルを提案する。 特に,まず,新しい文脈自由意見文法を導入し,意見木構造を正規化する。 次に、ニューラルチャートに基づく世論木解析装置を用いて、感情要素間の相関関係を網羅し、それらを世論木構造に解析する。 拡張実験により,提案したモデルと,提案した文脈自由な意見文法を用いた意見木解析の能力が向上した。 さらに重要なのは、私たちのモデルが以前のモデルよりもはるかに高速であることを示すことです。

Extracting sentiment elements using pre-trained generative models has recently led to large improvements in aspect-based sentiment analysis benchmarks. However, these models always need large-scale computing resources, and they also ignore explicit modeling of structure between sentiment elements. To address these challenges, we propose an opinion tree parsing model, aiming to parse all the sentiment elements from an opinion tree, which is much faster, and can explicitly reveal a more comprehensive and complete aspect-level sentiment structure. In particular, we first introduce a novel context-free opinion grammar to normalize the opinion tree structure. We then employ a neural chart-based opinion tree parser to fully explore the correlations among sentiment elements and parse them into an opinion tree structure. Extensive experiments show the superiority of our proposed model and the capacity of the opinion tree parser with the proposed context-free opinion grammar. More importantly, the results also prove that our model is much faster than previous models.
翻訳日:2023-06-16 16:04:07 公開日:2023-06-15
# 非対称性強化非エルミート皮膚効果

Nonsymmorphic-Symmetry-Enforced Non-Hermitian Skin Effects ( http://arxiv.org/abs/2306.08923v1 )

ライセンス: Link先を確認
Yutaro Tanaka, Ryo Takahashi, and Ryo OKugawa(参考訳) 結晶対称性は非エルミートハミルトンのバンド構造において重要な役割を果たす。 本稿では,非対称対称性によって強制される非エルミート皮膚効果(NHSE)を提案する。 非対称性強化nhseは、2次元非エルミート系が非対称性によって特徴づけられる特定の条件を満たすと必然的に発生する。 この NHSE は時間反転対称性の存在においても起こる。 非対称対称性強化NHSEは常にゼロエネルギーでの点ギャップの閉包と同時に起こる。 また、このような NHSE は、非同相対称性を持つ特定の3次元空間群で起こりうることを示す。

Crystal symmetries play an essential role in band structures of non-Hermitian Hamiltonian. In this letter, we propose a non-Hermitian skin effect (NHSE) enforced by nonsymmorphic symmetries. We show that the nonsymmorphic-symmetry-enforced NHSE inevitably occurs if a two-dimensional non-Hermitian system satisfies certain conditions characterized by nonsymmorphic symmetries. This NHSE can occur even in the presence of time-reversal symmetry. The nonsymmorphic-symmetry-enforced NHSE always occurs simultaneously with the closing of the point gap at zero energy. We also show that such a NHSE can occur in specific three-dimensional space groups with nonsymmorphic symmetries.
翻訳日:2023-06-16 16:03:52 公開日:2023-06-15
# 都市における多時間関係推論

Multi-Temporal Relationship Inference in Urban Areas ( http://arxiv.org/abs/2306.08921v1 )

ライセンス: Link先を確認
Shuangli Li, Jingbo Zhou, Ji Liu, Tong Xu, Enhong Chen, Hui Xiong(参考訳) ロケーション間の複数の時間的関係を見つけることは、動的オフライン広告やスマート公共交通計画など、多くの都市アプリケーションに役立つ。 場所間の静的な関係を見つけることにはいくつかの努力がなされているが、時間認識的な位置関係の研究にはほとんど注意が払われていない。 実際、豊富な位置に基づく人間活動は時間的変化があり、これらのデータの利用により、接続された場所間の期間における動的関係を理解するための新しいパラダイムが実現される。 そこで本研究では,関係スパーシティ制約の下で動的・地理的影響をどのように統合するかを主な課題として,地域間(略して裁判)における多時間関係推論を提案する。 具体的には,空間的発展型グラフ畳み込みモジュール (seconv) と空間的発展型自己教師付き学習戦略 (se-ssl) の2つの協調コンポーネントからなる空間的発展型グラフニューラルネットワーク (seenet) を含むグラフ学習スキームを用いた試行法を提案する。 SEConvは時間内アグリゲーションと時間間伝搬を行い、位置メッセージパッシングの観点から空間的に変化する複数のコンテキストをキャプチャする。 さらに、SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱うために、グローバルな方法で時間認識型自己教師型学習タスクを設計する。 最後に、4つの実世界のデータセットに対する実験は、いくつかの最先端アプローチよりも、我々の手法が優れていることを示す。

Finding multiple temporal relationships among locations can benefit a bunch of urban applications, such as dynamic offline advertising and smart public transport planning. While some efforts have been made on finding static relationships among locations, little attention is focused on studying time-aware location relationships. Indeed, abundant location-based human activities are time-varying and the availability of these data enables a new paradigm for understanding the dynamic relationships in a period among connective locations. To this end, we propose to study a new problem, namely multi-Temporal relationship inference among locations (Trial for short), where the major challenge is how to integrate dynamic and geographical influence under the relationship sparsity constraint. Specifically, we propose a solution to Trial with a graph learning scheme, which includes a spatially evolving graph neural network (SEENet) with two collaborative components: spatially evolving graph convolution module (SEConv) and spatially evolving self-supervised learning strategy (SE-SSL). SEConv performs the intra-time aggregation and inter-time propagation to capture the multifaceted spatially evolving contexts from the view of location message passing. In addition, SE-SSL designs time-aware self-supervised learning tasks in a global-local manner with additional evolving constraint to enhance the location representation learning and further handle the relationship sparsity. Finally, experiments on four real-world datasets demonstrate the superiority of our method over several state-of-the-art approaches.
翻訳日:2023-06-16 16:03:43 公開日:2023-06-15
# SSL音声表現における教師なし単位探索の限界を押し上げる

Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation ( http://arxiv.org/abs/2306.08920v1 )

ライセンス: Link先を確認
Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen(参考訳) 音声基礎モデルの自己教師型学習(SSL)の優れた一般化能力は注目されている。 HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。 しかし、k-meansのターゲットとして機能をクラスタリングするだけでは、モデルのパフォーマンスを完全には刺激しない。 本研究ではSSLターゲットを改善するための教師なし手法を提案する。 MonoBERTとPolyBERTの2つのモデルが提案されている。 我々のモデルは、反復的な再クラスタリングと再トレーニングを必要とせずに、LibriSpeechベンチマークで他のSSLモデルよりも大幅に優れています。 さらに, 事前学習時にラベル付きデータを用いた目標改善モデルよりも, 文脈依存ユニットが優れている。 実験を通じて、単位発見プロセスの段階的な改善を実証する。

The excellent generalization ability of self-supervised learning (SSL) for speech foundation models has garnered significant attention. HuBERT is a successful example that utilizes offline clustering to convert speech features into discrete units for a masked language modeling pretext task. However, simply clustering features as targets by k-means does not fully inspire the model's performance. In this work, we present an unsupervised method to improve SSL targets. Two models are proposed, MonoBERT and PolyBERT, which leverage context-independent and context-dependent phoneme-based units for pre-training. Our models outperform other SSL models significantly on the LibriSpeech benchmark without the need for iterative re-clustering and re-training. Furthermore, our models equipped with context-dependent units even outperform target-improvement models that use labeled data during pre-training. How we progressively improve the unit discovery process is demonstrated through experiments.
翻訳日:2023-06-16 16:03:15 公開日:2023-06-15
# PUGAN:デュアルディスクリミネーター付きGANを用いた物理モデル誘導水中画像強調

PUGAN: Physical Model-Guided Underwater Image Enhancement Using GAN with Dual-Discriminators ( http://arxiv.org/abs/2306.08918v1 )

ライセンス: Link先を確認
Runmin Cong, Wenyu Yang, Wei Zhang, Chongyi Li, Chun-Le Guo, Qingming Huang, and Sam Kwong(参考訳) 水媒体によって引き起こされる光の吸収と散乱のため、水中画像は通常、低コントラスト、色歪、ぼやけた細部といったいくつかの劣化の問題に悩まされ、水中での理解作業の難しさを悪化させる。 そのため、鮮明で視覚的に快適な画像を得る方法は人々の共通の関心事となり、時間とともに水中画像強調(UIE)の課題も現れた。 既存のuie手法のうち、ジェネレーティブ・アドバーサリアン・ネットワーク(gans)ベースの手法は視覚美学において良好に機能するが、物理モデルに基づく手法はシーン適応性が向上する。 本稿では,上記の2種類のモデルの利点を継承し,uieの物理モデル誘導ganモデルを提案する。 ネットワーク全体がGANアーキテクチャの下にある。 一方、パラメータ推定サブネット(Par-subnet)を設計し、物理モデル逆転のパラメータを学習し、生成した色強調画像を2ストリームインタラクション強化サブネットワーク(TSIE-subnet)の補助情報として利用する。 一方,tsie-subnetにおける劣化量子化(dq)モジュールを設計し,シーン劣化を定量化し,キー領域の強化を図る。 一方,本研究では,文体対向制約に対するデュアル・ディスクリミネータを設計し,結果の真正性や視覚的美学を促進する。 3つのベンチマークデータセットに対する大規模な実験により、PUGANは定性的および定量的な測定値の両方において最先端の手法より優れていることが示された。

Due to the light absorption and scattering induced by the water medium, underwater images usually suffer from some degradation problems, such as low contrast, color distortion, and blurring details, which aggravate the difficulty of downstream underwater understanding tasks. Therefore, how to obtain clear and visually pleasant images has become a common concern of people, and the task of underwater image enhancement (UIE) has also emerged as the times require. Among existing UIE methods, Generative Adversarial Networks (GANs) based methods perform well in visual aesthetics, while the physical model-based methods have better scene adaptability. Inheriting the advantages of the above two types of models, we propose a physical model-guided GAN model for UIE in this paper, referred to as PUGAN. The entire network is under the GAN architecture. On the one hand, we design a Parameters Estimation subnetwork (Par-subnet) to learn the parameters for physical model inversion, and use the generated color enhancement image as auxiliary information for the Two-Stream Interaction Enhancement sub-network (TSIE-subnet). Meanwhile, we design a Degradation Quantization (DQ) module in TSIE-subnet to quantize scene degradation, thereby achieving reinforcing enhancement of key regions. On the other hand, we design the Dual-Discriminators for the style-content adversarial constraint, promoting the authenticity and visual aesthetics of the results. Extensive experiments on three benchmark datasets demonstrate that our PUGAN outperforms state-of-the-art methods in both qualitative and quantitative metrics.
翻訳日:2023-06-16 16:03:01 公開日:2023-06-15
# 反事実と時間論理

Counterfactuals Modulo Temporal Logics ( http://arxiv.org/abs/2306.08916v1 )

ライセンス: Link先を確認
Bernd Finkbeiner and Julian Siber(参考訳) ルイスの反事実論は、因果関係の多くの現代の概念の基礎である。 本稿では,この理論を時間方向に拡張し,モデルチェッカーが持つ反例や強化学習エージェントが生成する軌跡など,無限列に対する記号的反事実推論を可能にする。 特に、この拡張は、世界間の類似性のより緩やかな概念を考え、このより一般的な設定において、前2つの間の意味的ギャップを閉じる2つの追加の反事実演算子を提案する。 さらに, 因果分析において共通の要件である, 目撃する反事実の世界までの距離を最小化する反事実のバージョンを考える。 時間領域における対実的推論を自動化するために、時間的および対実的演算子を組み合わせた論理を導入し、この論理の満足度とトレースチェックに関する決定手順を概説する。

Lewis' theory of counterfactuals is the foundation of many contemporary notions of causality. In this paper, we extend this theory in the temporal direction to enable symbolic counterfactual reasoning on infinite sequences, such as counterexamples found by a model checker and trajectories produced by a reinforcement learning agent. In particular, our extension considers a more relaxed notion of similarity between worlds and proposes two additional counterfactual operators that close a semantic gap between the previous two in this more general setting. Further, we consider versions of counterfactuals that minimize the distance to the witnessing counterfactual worlds, a common requirement in causal analysis. To automate counterfactual reasoning in the temporal domain, we introduce a logic that combines temporal and counterfactual operators, and outline decision procedures for the satisfiability and trace-checking problems of this logic.
翻訳日:2023-06-16 16:02:31 公開日:2023-06-15
# グローバルローカルマスケードオートエンコーダによるボリューム・メディカル・イメージ・セグメンテーションの促進

Advancing Volumetric Medical Image Segmentation via Global-Local Masked Autoencoder ( http://arxiv.org/abs/2306.08913v1 )

ライセンス: Link先を確認
Jia-Xin Zhuang, Luyang Luo, Hao Chen(参考訳) masked autoencoder(mae)は、人間の介入なしにニューラルネットワークの表現学習を強化する、有望な自己教師付き事前学習技術として登場した。 大量医療画像にmaeを適用するには, 既存の手法では, 総括的データの臨床的文脈を理解する上で重要なグローバル情報が欠落していること, ランダムにマスクされた入力から得られた表現を安定化する保証がないこと, の2つの課題がある。 これらの制約に対処するため,我々は,シンプルで効果的な自己教師付き事前学習戦略であるGL-MAE(Global-Local Masked AutoEncoder)を提案した。 GL-MAEは、マスクされたグローバルボリュームとマスクされたローカルボリュームの両方を再構築する。 さらに,マスク付きボリュームの表現学習の強化と安定化を図るため,グローバル-グローバル整合性およびグローバル-グローバル対応をグローバル誘導整合学習を通じて導入した。 複数のデータセットのファインタニングの結果は、アノテーションが不足している場合でも、他の最先端のセルフ教師付きアルゴリズムよりも優れていることを示す。 コードとモデルは受け入れ次第リリースされる。

Masked autoencoder (MAE) has emerged as a promising self-supervised pretraining technique to enhance the representation learning of a neural network without human intervention. To adapt MAE onto volumetric medical images, existing methods exhibit two challenges: first, the global information crucial for understanding the clinical context of the holistic data is lacked; second, there was no guarantee of stabilizing the representations learned from the randomly masked inputs. To tackle these limitations, we proposed Global-Local Masked AutoEncoder (GL-MAE), a simple yet effective self-supervised pre-training strategy. GL-MAE reconstructs both the masked global and masked local volumes, which enables learning the essential local details as well as the global context. We further introduced global-to-global consistency and local-to-global correspondence via global-guided consistency learning to enhance and stabilize the representation learning of the masked volumes. Finetuning results on multiple datasets illustrate the superiority of our method over other state-of-the-art self-supervised algorithms, demonstrating its effectiveness on versatile volumetric medical image segmentation tasks, even when annotations are scarce. Codes and models will be released upon acceptance.
翻訳日:2023-06-16 16:02:16 公開日:2023-06-15
# MLonMCU: 高速リターゲットによるTinyMLベンチマーク

MLonMCU: TinyML Benchmarking with Fast Retargeting ( http://arxiv.org/abs/2306.08951v1 )

ライセンス: Link先を確認
Philipp van Kempen, Rafael Stahl, Daniel Mueller-Gritschneder, Ulf Schlichtmann(参考訳) マイクロコントローラに機械学習モデルをデプロイする方法はたくさんありますが、特定のアプリケーションのためのフレームワークとターゲットの最適な組み合わせを選択するのは簡単ではありません。 したがって、今やエンドツーエンドのベンチマークフローの自動化は、高い関係にある。 MLonMCUと呼ばれるツールを提案し,マイクロコントローラ用TFLiteとTVM用の最先端TinyMLフレームワークのベンチマークを行い,多数の構成を短時間で行うことを実証した。

While there exist many ways to deploy machine learning models on microcontrollers, it is non-trivial to choose the optimal combination of frameworks and targets for a given application. Thus, automating the end-to-end benchmarking flow is of high relevance nowadays. A tool called MLonMCU is proposed in this paper and demonstrated by benchmarking the state-of-the-art TinyML frameworks TFLite for Microcontrollers and TVM effortlessly with a large number of configurations in a low amount of time.
翻訳日:2023-06-16 15:56:26 公開日:2023-06-15
# refusion: 1次元データによる推薦のための二項拡散プロセス

RecFusion: A Binomial Diffusion Process for 1D Data for Recommendation ( http://arxiv.org/abs/2306.08947v1 )

ライセンス: Link先を確認
Gabriel B\'en\'edict, Olivier Jeunen, Samuele Papa, Samarth Bhargav, Daan Odijk, Maarten de Rijke(参考訳) 本稿では,レコメンデーションのための拡散モデルを構成するRecFusionを提案する。 空間相関を含む画像データとは異なり、レコメンデーションで一般的に利用されるユーザ-テーマインタラクションマトリックスは、ユーザとアイテム間の空間的関係を欠いている。 1次元ベクトル上の拡散を定式化し、二項拡散を提案し、ベルヌーイ過程と二項ユーザ・イテム相互作用を明示的にモデル化する。 RecFusionは、コアレコメンデーション設定(バイナリ非シーケンスフィードバックのTop-nレコメンデーション)と最も一般的なデータセット(MovieLensとNetflix)に基づいて、複雑なVAEベースラインのパフォーマンスにアプローチする。 提案する拡散モデルでは,MRIやCTなどの医療領域において,1Dおよび/またはバイナリ設定に特化している。

In this paper we propose RecFusion, which comprise a set of diffusion models for recommendation. Unlike image data which contain spatial correlations, a user-item interaction matrix, commonly utilized in recommendation, lacks spatial relationships between users and items. We formulate diffusion on a 1D vector and propose binomial diffusion, which explicitly models binary user-item interactions with a Bernoulli process. We show that RecFusion approaches the performance of complex VAE baselines on the core recommendation setting (top-n recommendation for binary non-sequential feedback) and the most common datasets (MovieLens and Netflix). Our proposed diffusion models that are specialized for 1D and/or binary setups have implications beyond recommendation systems, such as in the medical domain with MRI and CT scans.
翻訳日:2023-06-16 15:56:19 公開日:2023-06-15
# 時系列因果発見を改善するブートストラップ収集と信頼度対策

Bootstrap aggregation and confidence measures to improve time series causal discovery ( http://arxiv.org/abs/2306.08946v1 )

ライセンス: Link先を確認
Kevin Debeire (1 and 2), Jakob Runge (2 and 3), Andreas Gerhardus (2) and Veronika Eyring (1 and 4) ((1) DLR, Institut f\"ur Physik der Atmosph\"are, Oberpfaffenhofen, Germany, (2) DLR, Institut f\"ur Datenwissenschaften, Jena, Germany, (3) Technische Universit\"at Berlin, Faculty of Computer Science, Berlin, Germany, (4) University of Bremen, Institute of Environmental Physics, Bremen, Germany)(参考訳) 因果探索法は動的システムの因果的時間依存性構造を表す時系列グラフを識別する能力を示した。 しかし、それらは推定されたリンクの信頼性の尺度を含まない。 本稿では,新しいブートストラップアグリゲーション(バッキング)と信頼度測定法を紹介し,時系列因果関係の発見と組み合わせる。 本手法は,因果探索法により計算された時系列グラフのリンクに対する信頼度を測定する。 これは、時間依存を維持しながら元の時系列データセットをブートストラップすることで行われる。 信頼度測定の次に、多数決による自己進行グラフを集約すると、最終的な集計出力グラフが得られる。 そこで本研究では,本手法を条件依存型pcmci+アルゴリズムと組み合わせる。 大規模な数値実験により、Bagged-PCMCI+はリンクに対する信頼度の測定に加えて、ベースアルゴリズムPCMCI+の精度とリコールを改善することが実証された。 具体的には、Bagged-PCMCI+は、隣接性に関する高い検出力と、同時に偽陽性率の低下を示すと同時に、同時エッジの方位検出精度が高い。 これらのパフォーマンス改善は特に、より困難な設定(短い時間サンプルサイズ、多数の変数、高い自己相関)で顕著である。 我々のブートストラップアプローチは他の時系列因果探索アルゴリズムと組み合わせることができ、特にリンクに対する信頼度測定が望まれている場合、多くの実世界のアプリケーションでかなり有効である。

Causal discovery methods have demonstrated the ability to identify the time series graphs representing the causal temporal dependency structure of dynamical systems. However, they do not include a measure of the confidence of the estimated links. Here, we introduce a novel bootstrap aggregation (bagging) and confidence measure method that is combined with time series causal discovery. This new method allows measuring confidence for the links of the time series graphs calculated by causal discovery methods. This is done by bootstrapping the original times series data set while preserving temporal dependencies. Next to confidence measures, aggregating the bootstrapped graphs by majority voting yields a final aggregated output graph. In this work, we combine our approach with the state-of-the-art conditional-independence-based algorithm PCMCI+. With extensive numerical experiments we empirically demonstrate that, in addition to providing confidence measures for links, Bagged-PCMCI+ improves the precision and recall of its base algorithm PCMCI+. Specifically, Bagged-PCMCI+ has a higher detection power regarding adjacencies and a higher precision in orienting contemporaneous edges while at the same time showing a lower rate of false positives. These performance improvements are especially pronounced in the more challenging settings (short time sample size, large number of variables, high autocorrelation). Our bootstrap approach can also be combined with other time series causal discovery algorithms and can be of considerable use in many real-world applications, especially when confidence measures for the links are desired.
翻訳日:2023-06-16 15:56:01 公開日:2023-06-15
# 強光マッターカップリングによる集合化学を目指して

Toward collective chemistry by strong light-matter coupling ( http://arxiv.org/abs/2306.08944v1 )

ライセンス: Link先を確認
Bing Gu(参考訳) 強い光と物質の結合は、化学プロセスを操作するための多用途で新しい手段を提供する。 ここでは,光学キャビティに埋め込まれた分子アンサンブルの分光と動力学を集合強結合状態下で研究するための理論的枠組みを開発する。 この理論は分子ハミルトニアンの擬粒子表現によって構成され、素粒子数制約の下でポラリトニックハミルトニアンを結合フェルミオン・ボーソンモデルにマッピングする。 写像されたモデルは、電力計数によって識別される重要な自己エネルギー図を持つ非平衡グリーン関数理論を用いて解析される。 数値実験は、正確な結果と良好な一致を示す、駆動型Tavis-Cummingsモデルに対して示される。

Strong light-matter coupling provides a versatile and novel means to manipulate chemical processes. Here we develop a theoretical framework to investigate the spectroscopy and dynamics of a molecular ensemble embedded in an optical cavity under the collective strong coupling regime. This theory is constructed by a pseudoparticle representation of the molecular Hamiltonians, mapping the polaritonic Hamiltonian into a coupled fermion-boson model under particle number constraints. The mapped model is then analyzed using the non-equilibrium Green function theory with the important self-energy diagrams identified through power counting. Numerical demonstrations are shown for the driven Tavis-Cummings model, which shows an excellent agreement with exact results.
翻訳日:2023-06-16 15:55:37 公開日:2023-06-15
# 任意微分次数のハード制約を持つニューラルフィールド

Neural Fields with Hard Constraints of Arbitrary Differential Order ( http://arxiv.org/abs/2306.08943v1 )

ライセンス: Link先を確認
Fangcheng Zhong, Kyle Fogarty, Param Hanji, Tianhao Wu, Alejandro Sztrajman, Andrew Spielberg, Andrea Tagliasacchi, Petra Bosilj, Cengiz Oztireli(参考訳) ディープラーニング技術は、幅広い最適化問題を解決するために非常に人気があるが、特にディープニューラルネットワークでは、最適化中に厳しい制約を課す方法が未開発のままである。 メッシュレス補間に関する豊富な文献や、科学計算におけるスペクトルコロケーション法の拡張に触発された我々は、ニューラルネットワークに厳しい制約を課す一連のアプローチを開発し、これを 'emph{Constrained Neural Fields} (CNF) と呼ぶ。 制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。 また,システムの条件付けやメモリ消費,ネットワーク容量の制約など,標準モデルが問題に遭遇する可能性のある問題に対して,特定のモデル表現とトレーニング戦略を設計する。 私たちのアプローチは、幅広い現実世界のアプリケーションで実証されています。 さらに,最適化中に厳密な制約を明示的に満たさなければならないダウンストリームタスクに容易に適用可能な,高効率なモデルと制約仕様を実現するフレームワークを開発する。

While deep learning techniques have become extremely popular for solving a broad range of optimization problems, methods to enforce hard constraints during optimization, particularly on deep neural networks, remain underdeveloped. Inspired by the rich literature on meshless interpolation and its extension to spectral collocation methods in scientific computing, we develop a series of approaches for enforcing hard constraints on neural fields, which we refer to as \emph{Constrained Neural Fields} (CNF). The constraints can be specified as a linear operator applied to the neural field and its derivatives. We also design specific model representations and training strategies for problems where standard models may encounter difficulties, such as conditioning of the system, memory consumption, and capacity of the network when being constrained. Our approaches are demonstrated in a wide range of real-world applications. Additionally, we develop a framework that enables highly efficient model and constraint specification, which can be readily applied to any downstream task where hard constraints need to be explicitly satisfied during optimization.
翻訳日:2023-06-16 15:55:25 公開日:2023-06-15
# 一般タスク空間の能動的表現学習とロボットへの応用

Active Representation Learning for General Task Space with Applications in Robotics ( http://arxiv.org/abs/2306.08942v1 )

ライセンス: Link先を確認
Yifang Chen, Yingbing Huang, Simon S. Du, Kevin Jamieson, Guanya Shi(参考訳) マルチタスク事前学習に基づく表現学習は多くの領域において強力なアプローチとなっている。 特に、タスク認識表現学習は、特定のタスクの集合からデータをサンプリングすることで、特定のタスクに対する最適な表現を学習することを目的としており、タスク認識表現学習はタスクのクラスに対する普遍的な表現を学習することを目指している。 本稿では,学習者がサンプルからどのタスクを最適に選択するかを学習者が選択する,一般的な汎用的・汎用的アルゴリズム・理論的枠組みを提案する。 このフレームワークは、抽出可能なメタアルゴリズムとともに、ほとんどの任意のターゲットとソースのタスクスペース(離散から連続まで)を可能にし、タスク認識とタスク非依存の両方をカバーし、深層表現学習プラクティスと互換性がある。 この枠組みの下で、双線型および特徴に基づく非線形から一般非線形のケースまで、いくつかのインスタンス化を提供する。 双線型の場合、タスク表現の非一様スペクトルと校正されたソース・ターゲット関係を利用して、サンプルの複雑性が目標空間とソース空間の間の接続を表す$ (k^*)^2 \|v^*\|_2^2 \varepsilon^{-2}$ (ここで $k^*$ は目標の有効次元であり、$\|v^*\|_2^2 \in (0,1]$ はソース空間とターゲット空間の間の接続を表す。 受動的に比較すると、これは最大$\frac{1}{d_W}$のサンプル複雑性を節約できる。 最後に、振り子シミュレーションから現実のドローン飛行データセットまで、我々のメタアルゴリズムのさまざまなインスタンス化を合成データセットやロボティクス問題で示す。 平均して、我々のアルゴリズムはベースラインを20-70-%$で上回っている。

Representation learning based on multi-task pretraining has become a powerful approach in many domains. In particular, task-aware representation learning aims to learn an optimal representation for a specific target task by sampling data from a set of source tasks, while task-agnostic representation learning seeks to learn a universal representation for a class of tasks. In this paper, we propose a general and versatile algorithmic and theoretic framework for \textit{active representation learning}, where the learner optimally chooses which source tasks to sample from. This framework, along with a tractable meta algorithm, allows most arbitrary target and source task spaces (from discrete to continuous), covers both task-aware and task-agnostic settings, and is compatible with deep representation learning practices. We provide several instantiations under this framework, from bilinear and feature-based nonlinear to general nonlinear cases. In the bilinear case, by leveraging the non-uniform spectrum of the task representation and the calibrated source-target relevance, we prove that the sample complexity to achieve $\varepsilon$-excess risk on target scales with $ (k^*)^2 \|v^*\|_2^2 \varepsilon^{-2}$ where $k^*$ is the effective dimension of the target and $\|v^*\|_2^2 \in (0,1]$ represents the connection between source and target space. Compared to the passive one, this can save up to $\frac{1}{d_W}$ of sample complexity, where $d_W$ is the task space dimension. Finally, we demonstrate different instantiations of our meta algorithm in synthetic datasets and robotics problems, from pendulum simulations to real-world drone flight datasets. On average, our algorithms outperform baselines by $20\%-70\%$.
翻訳日:2023-06-16 15:55:07 公開日:2023-06-15
# 不確実性指導によるスケーラブル画像圧縮のための解決フィールドの検討

Exploring Resolution Fields for Scalable Image Compression with Uncertainty Guidance ( http://arxiv.org/abs/2306.08941v1 )

ライセンス: Link先を確認
Dongyi Zhang, Feng Li, Man Liu, Runmin Cong, Huihui Bai, Meng Wang and Yao Zhao(参考訳) 近年,従来の符号化基準を超える学習ベース画像圧縮手法が大幅に進歩している。 それらの多くは、複雑な制約のある様々なアプリケーションにおいて、柔軟性と適応性を制限し、特定の圧縮率に対して最高のレート歪み性能を達成することを優先している。 本研究では,スケーラブルな画像圧縮における解像度場の可能性について検討し,より適応的で汎用的な圧縮の必要性を満たす相互ピラミッドネットワーク(rpn)を提案する。 具体的には、RPNはまず圧縮ピラミッドを構築し、各レベルの解像度フィールドをトップダウンで生成する。 重要な設計は、隣接するレベル間のクロスレゾリューションコンテキストマイニングモジュールにあり、機能強化と蒸留を行い、有意義なコンテキスト化された情報をマイニングし、不要な冗長性を取り除く。 拡張性は、異なるレベルで異なるプログレッシブビットストリーム再利用と分解能フィールドの導入によって達成される。 さらに,隣り合う圧縮レベル間では,下位復号表現から有意な不確かさを明示的に定量化し,上位レベルの圧縮パラメータを更新するための不確実性誘導損失を発生させ,より信頼性が高く正確な再構成のために高分散のテクスチャ画素にネットワークを集中させる逆ピラミッドプロセスを形成する。 分解能場探索と不確実性ガイダンスをピラミッド方式で組み合わせることで、RPNは空間的および品質の高いスケーラブルな画像圧縮を効果的に実現できる。 実験は、既存の古典的およびディープラーニングベースのスケーラブルコーデックに対するRPNの優位性を示している。 コードはhttps://github.com/JGIroro/RPNSICで入手できる。

Recently, there are significant advancements in learning-based image compression methods surpassing traditional coding standards. Most of them prioritize achieving the best rate-distortion performance for a particular compression rate, which limits their flexibility and adaptability in various applications with complex and varying constraints. In this work, we explore the potential of resolution fields in scalable image compression and propose the reciprocal pyramid network (RPN) that fulfills the need for more adaptable and versatile compression. Specifically, RPN first builds a compression pyramid and generates the resolution fields at different levels in a top-down manner. The key design lies in the cross-resolution context mining module between adjacent levels, which performs feature enriching and distillation to mine meaningful contextualized information and remove unnecessary redundancy, producing informative resolution fields as residual priors. The scalability is achieved by progressive bitstream reusing and resolution field incorporation varying at different levels. Furthermore, between adjacent compression levels, we explicitly quantify the aleatoric uncertainty from the bottom decoded representations and develop an uncertainty-guided loss to update the upper-level compression parameters, forming a reverse pyramid process that enforces the network to focus on the textured pixels with high variance for more reliable and accurate reconstruction. Combining resolution field exploration and uncertainty guidance in a pyramid manner, RPN can effectively achieve spatial and quality scalable image compression. Experiments show the superiority of RPN against existing classical and deep learning-based scalable codecs. Code will be available at https://github.com/JGIroro/RPNSIC.
翻訳日:2023-06-16 15:54:30 公開日:2023-06-15
# UAV距離推定におけるステレオ三角測量はなぜ機能しないのか

Why does Stereo Triangulation Not Work in UAV Distance Estimation ( http://arxiv.org/abs/2306.08939v1 )

ライセンス: Link先を確認
Jiafan Zhuang, Duan Yuan, Rihong Yan, Xiangyu Dong, Yutao Zhou, Weixin Huang, Zhun Fan(参考訳) UAV距離推定は、群UAVの経路計画と衝突回避に重要な役割を果たしている。 しかし、注釈付きデータの欠如は、関連する研究を著しく妨げている。 本稿では,UAV距離推定のためのUAVDEデータセットを構築し,UWBセンサによりUAV間の距離を求める。 実験中、よく使われるステレオ三角測量はuavシーンでは立たないことを驚くほど観察した。 主な理由は、UAVシーンに共通する長距離射撃距離とカメラの振動によるUAVの位置ずれの問題である。 そこで本研究では,画像位置と実際のuavの位置とのずれを直接予測し,ステレオ三角測量における計算補償を行う新しい位置補正モジュール(pcm)を提案する。 また,ハードサンプルの性能をさらに高めるために,複数のpcmを積み重ねた動的反復補正機構と,データサンプルの難易度に応じてさらなる補正が必要かどうかを適応的に判断するゲーティング機構を提案する。 これにより、位置ずれ問題を有効に軽減することができる。 我々はuavdeを広範囲に実験し,提案手法は38.84%の性能向上を達成し,その効果と優越性を示す。 コードとデータセットがリリースされます。

UAV distance estimation plays an important role for path planning of swarm UAVs and collision avoidance. However, the lack of annotated data seriously hinder the related studies. In this paper, we build and present a UAVDE dataset for UAV distance estimation, in which distance between two UAVs is obtained by UWB sensors. During experiments, we surprisingly observe that the commonly used stereo triangulation can not stand for UAV scenes. The core reason is the position deviation issue of UAVs due to long shooting distance and camera vibration, which is common in UAV scenes. To tackle this issue, we propose a novel position correction module (PCM), which can directly predict the offset between the image positions and the actual ones of UAVs and perform calculation compensation in stereo triangulation. Besides, to further boost performance on hard samples, we propose a dynamic iterative correction mechanism, which is composed of multiple stacked PCMs and a gating mechanism to adaptively determine whether further correction is required according to the difficulty of data samples. Consequently, the position deviation issue can be effectively alleviated. We conduct extensive experiments on UAVDE, and our proposed method can achieve a 38.84% performance improvement, which demonstrates its effectiveness and superiority. The code and dataset would be released.
翻訳日:2023-06-16 15:54:01 公開日:2023-06-15
# 動的MECのためのスケーラブルリソース管理:教師なしリンク出力グラフニューラルネットワークアプローチ

Scalable Resource Management for Dynamic MEC: An Unsupervised Link-Output Graph Neural Network Approach ( http://arxiv.org/abs/2306.08938v1 )

ライセンス: Link先を確認
Xiucheng Wang and Nan Cheng and Lianhao Fu and Wei Quan and Ruijin Sun and Yilong Hui and Tom Luan and Xuemin (Sherman) Shen(参考訳) ディープラーニングは、タスクオフロードとリソース割り当てを最適化するために、モバイルエッジコンピューティング(MEC)でうまく採用されている。 しかしながら、エッジネットワークのダイナミクスは、低スケーラビリティと高トレーニングコストという、ニューラルネットワーク(NN)ベースの最適化方法における2つの課題を提起する。 従来のノード出力グラフニューラルネットワーク(GNN)は、ネットワークがスケールするときにエッジノードの特徴を抽出できるが、ネットワークがスケールするにつれて決定空間の次元が変化するのに対して、新しいスケーラビリティの問題に対処できない。 本稿では,アルゴリズムの推論遅延が非常に低い任意のエッジノードに対して,MECにおけるリソース割り当てを柔軟に最適化する,新しいリンク出力GNN(LOGNN)ベースのリソース管理手法を提案する。 さらに、LOGNNパラメータに対するエッジタスク処理遅延の勾配を明示的に導出する、LOGNNを効率的に訓練するためのラベルフリーな教師なし手法を適用した。 また、ノード出力GNNとリンク出力GNNのスケーラビリティに関する理論的解析を行う。 シミュレーションの結果,提案するLOGNNは,任意の数のサーバとユーザを用いて,MECリソース割り当て問題をスケーラブルな方法で効率的に最適化できることがわかった。 さらに,教師なし学習法では教師付き学習法や強化学習に基づく学習法に比べて,収束性能と速度が向上した。 コードは \url{https://github.com/UNIC-Lab/LOGNN} で公開されている。

Deep learning has been successfully adopted in mobile edge computing (MEC) to optimize task offloading and resource allocation. However, the dynamics of edge networks raise two challenges in neural network (NN)-based optimization methods: low scalability and high training costs. Although conventional node-output graph neural networks (GNN) can extract features of edge nodes when the network scales, they fail to handle a new scalability issue whereas the dimension of the decision space may change as the network scales. To address the issue, in this paper, a novel link-output GNN (LOGNN)-based resource management approach is proposed to flexibly optimize the resource allocation in MEC for an arbitrary number of edge nodes with extremely low algorithm inference delay. Moreover, a label-free unsupervised method is applied to train the LOGNN efficiently, where the gradient of edge tasks processing delay with respect to the LOGNN parameters is derived explicitly. In addition, a theoretical analysis of the scalability of the node-output GNN and link-output GNN is performed. Simulation results show that the proposed LOGNN can efficiently optimize the MEC resource allocation problem in a scalable way, with an arbitrary number of servers and users. In addition, the proposed unsupervised training method has better convergence performance and speed than supervised learning and reinforcement learning-based training methods. The code is available at \url{https://github.com/UNIC-Lab/LOGNN}.
翻訳日:2023-06-16 15:53:39 公開日:2023-06-15
# 重大かつノイズの多い事前学習による文書エンティティ検索

Document Entity Retrieval with Massive and Noisy Pre-training ( http://arxiv.org/abs/2306.08937v1 )

ライセンス: Link先を確認
Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann, Hanjun Dai, Wei Wei(参考訳) Visually-Rich Document Entity Retrieval (VDER)は、問題のエンティティごとにドキュメント内のテキストスパンを復元することを目的とした機械学習タスクの一種である。 VDERは近年、エンタープライズAIの幅広い応用により、大きな注目を集めている。 残念なことに、ドキュメントイメージには個人識別情報(pii)が含まれていることが多いため、プライバシーの制約だけでなく、アノテーション取得のコストも問題視されている。 さらに悪いことに、各データセットは、しばしば独自のエンティティセットを定義し、データセット間の重複しないエンティティ空間は、ドキュメント間の知識の転送を困難にしている。 本稿では,VDERモデルの学習に役立てるために,Webから大規模でノイズの多い,ラベルの弱いデータを収集する手法を提案する。 このような手法は、多くのVDER設定におけるトレーニングデータの欠如を補うために、大量の文書画像データを生成する。 さらに、DocuNetという名前の収集データセットは、特定のドキュメントタイプやエンティティセットに依存する必要はなく、すべてのVDERタスクに普遍的に適用できる。 DocuNetを駆使して、UniFormerという軽量なマルチモーダルアーキテクチャを提案し、テキスト、レイアウト、画像のクロップからの統一表現を、余分な視覚的関連を必要とせずに学習する。 提案手法は,様々な設定で一般的なVDERモデルを用いて実験し,UniFormerに組み込んだ大規模なデータセットを,古典的エンティティ検索と少数ショット学習の両方に組み込んだ場合の改善を示す。

Visually-Rich Document Entity Retrieval (VDER) is a type of machine learning task that aims at recovering text spans in the documents for each of the entities in question. VDER has gained significant attention in recent years thanks to its broad applications in enterprise AI. Unfortunately, as document images often contain personally identifiable information (PII), publicly available data have been scarce, not only because of privacy constraints but also the costs of acquiring annotations. To make things worse, each dataset would often define its own sets of entities, and the non-overlapping entity spaces between datasets make it difficult to transfer knowledge between documents. In this paper, we propose a method to collect massive-scale, noisy, and weakly labeled data from the web to benefit the training of VDER models. Such a method will generate a huge amount of document image data to compensate for the lack of training data in many VDER settings. Moreover, the collected dataset named DocuNet would not need to be dependent on specific document types or entity sets, making it universally applicable to all VDER tasks. Empowered by DocuNet, we present a lightweight multimodal architecture named UniFormer, which can learn a unified representation from text, layout, and image crops without needing extra visual pertaining. We experiment with our methods on popular VDER models in various settings and show the improvements when this massive dataset is incorporated with UniFormer on both classic entity retrieval and few-shot learning settings.
翻訳日:2023-06-16 15:53:17 公開日:2023-06-15
# 1st solution places for cvpr 2023 ug$^{\textbf{2}}$+ challenge track 2.1-text recognition via atmospheric turbulence (英語)

1st Solution Places for CVPR 2023 UG$^{\textbf{2}}$+ Challenge Track 2.1-Text Recognition through Atmospheric Turbulence ( http://arxiv.org/abs/2306.08963v1 )

ライセンス: Link先を確認
Shengqi Xu, Xueyao Xiao, Shuning Cao, Yi Chang, Luxin Yan(参考訳) 本稿では,CVPR 2023 UG$^{2}$+チャレンジのトラック2.1における大気乱流によるテキスト認識のためのVIELab-HUSTの開発したソリューションを提案する。 我々のソリューションは、歪んだフレームから高品質な画像を復元する効率的なマルチステージフレームワークを含む。 具体的には、シャープネスに基づくフレーム選択アルゴリズムを用いて、最もシャープな歪んだフレーム群を選択する。 次に、選択したフレーム内の各フレームをアライメントし、光フローベース画像登録による幾何歪みを抑制する。 そして、DT-CWTを用いた領域ベース画像融合法を用いて、乱流によるぼかしを緩和する。 最後に、融合画像中のアーティファクトを除去するために学習ベースのディアティファクト法を適用し、高品質なアウトプットを生成する。 本フレームワークは最終テスト段階で提供されるホットエアテキストデータセットと乱流テキストデータセットの両方を処理でき,テキスト認識精度で1位となった。 私たちのコードはhttps://github.com/xsqhust/turbulence_removalで利用可能です。

In this technical report, we present the solution developed by our team VIELab-HUST for text recognition through atmospheric turbulence in Track 2.1 of the CVPR 2023 UG$^{2}$+ challenge. Our solution involves an efficient multi-stage framework that restores a high-quality image from distorted frames. Specifically, a frame selection algorithm based on sharpness is first utilized to select the sharpest set of distorted frames. Next, each frame in the selected frames is aligned to suppress geometric distortion through optical-flow-based image registration. Then, a region-based image fusion method with DT-CWT is utilized to mitigate the blur caused by the turbulence. Finally, a learning-based deartifacts method is applied to remove the artifacts in the fused image, generating a high-quality outuput. Our framework can handle both hot-air text dataset and turbulence text dataset provided in the final testing phase and achieved 1st place in text recognition accuracy. Our code will be available at https://github.com/xsqhust/Turbulence_Removal.
翻訳日:2023-06-16 15:45:29 公開日:2023-06-15
# 外科的位相認識のための自己認識蒸留

Self-Knowledge Distillation for Surgical Phase Recognition ( http://arxiv.org/abs/2306.08961v1 )

ライセンス: Link先を確認
Jinglu Zhang, Santiago Barbarisi, Abdolrahim Kadkhodamohammadi, Danail Stoyanov, Imanol Luengo(参考訳) 目的: 手術相認識の進歩は一般的に深層ネットワークの訓練によって導かれる。 より複雑な解決策を追求するよりも、現在のモデルをよりうまく活用できると信じています。 モデルやアノテーションを余分に複雑にすることなく,現行のsota(state-of-the-art)モデルに統合可能な自己認識蒸留フレームワークを提案する。 方法:知識蒸留(英: knowledge distillation)は、教師ネットワークから生徒ネットワークへ知識を蒸留するネットワーク正規化の枠組みである。 自己認識蒸留では、生徒モデルが教師となり、ネットワークが自分自身から学習する。 ほとんどの位相認識モデルはエンコーダ-デコーダフレームワークに従う。 本フレームワークは, 双方の段階で自己知識蒸留を利用する。 教師モデルは,学習者の学習過程を指導し,エンコーダから拡張された特徴表現を抽出し,より頑健な時間的デコーダを構築し,オーバセグメンテーション問題に取り組む。 結果: 提案フレームワークを公開データセットcholec80上で検証した。 我々のフレームワークは4つの一般的なSOTAアプローチの上に埋め込まれており、そのパフォーマンスを継続的に改善しています。 具体的には、GRUモデルでは、同じベースラインモデルに対して、+3.33%の精度と+3.95%のF1スコアで性能が向上する。 結論: 外科的位相認識訓練パイプラインにおいて, 自己知識蒸留の枠組みを初めて組み込んだ。 実験結果から,既存の位相認識モデルの性能向上が期待できることがわかった。 さらに,トレーニングセットの75%でも,フルセットでトレーニングされた同じベースラインモデルと同等のパフォーマンスを達成できることを示す実験を行った。

Purpose: Advances in surgical phase recognition are generally led by training deeper networks. Rather than going further with a more complex solution, we believe that current models can be exploited better. We propose a self-knowledge distillation framework that can be integrated into current state-of-the-art (SOTA) models without requiring any extra complexity to the models or annotations. Methods: Knowledge distillation is a framework for network regularization where knowledge is distilled from a teacher network to a student network. In self-knowledge distillation, the student model becomes the teacher such that the network learns from itself. Most phase recognition models follow an encoder-decoder framework. Our framework utilizes self-knowledge distillation in both stages. The teacher model guides the training process of the student model to extract enhanced feature representations from the encoder and build a more robust temporal decoder to tackle the over-segmentation problem. Results: We validate our proposed framework on the public dataset Cholec80. Our framework is embedded on top of four popular SOTA approaches and consistently improves their performance. Specifically, our best GRU model boosts performance by +3.33% accuracy and +3.95% F1-score over the same baseline model. Conclusion: We embed a self-knowledge distillation framework for the first time in the surgical phase recognition training pipeline. Experimental results demonstrate that our simple yet powerful framework can improve performance of existing phase recognition models. Moreover, our extensive experiments show that even with 75% of the training set we still achieve performance on par with the same baseline model trained on the full set.
翻訳日:2023-06-16 15:45:10 公開日:2023-06-15
# 2値化と重み付けによるニューラルネットワーク圧縮

Neural Network Compression using Binarization and Few Full-Precision Weights ( http://arxiv.org/abs/2306.08960v1 )

ライセンス: Link先を確認
Franco Maria Nardini, Cosimo Rulli, Salvatore Trani, Rossano Venturini(参考訳) 量子化とプルーニングは2つの効果的なディープニューラルネットワークモデル圧縮法として知られている。 本稿では,量子化とプルーニングを組み合わせた新しい圧縮手法であるAutomatic Prune Binarization (APB)を提案する。 APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。 この手法はネットワークの精度を最大化するとともに,各重みが2値化されるべきか,あるいは完全精度で保持すべきかを判断することで,メモリへの影響を最小化する。 APBを用いて圧縮した層を2進数とスパース距離行列乗算に分解して転送パスを効率的に行う方法を示す。 さらに,CPU上での極端に量子化された行列乗算のための2つの新しいアルゴリズムを設計する。 提案アルゴリズムは6.9倍、1.5倍高速である。 我々は、広く採用されている2つのモデル圧縮データセット、cifar10とimagenet上でapbを広範囲に評価する。 APBは最先端の手法と比較して精度/メモリトレードオフを向上する i) 量子化 pruning (複数形 prunings) 三 刈り取りと定量化の組合せ APBは精度/効率のトレードオフでも量子化を上回り、2ビットの量子化モデルよりも最大2倍高速で精度を損なわない。

Quantization and pruning are known to be two effective Deep Neural Networks model compression methods. In this paper, we propose Automatic Prune Binarization (APB), a novel compression technique combining quantization with pruning. APB enhances the representational capability of binary networks using a few full-precision weights. Our technique jointly maximizes the accuracy of the network while minimizing its memory impact by deciding whether each weight should be binarized or kept in full precision. We show how to efficiently perform a forward pass through layers compressed using APB by decomposing it into a binary and a sparse-dense matrix multiplication. Moreover, we design two novel efficient algorithms for extremely quantized matrix multiplication on CPU, leveraging highly efficient bitwise operations. The proposed algorithms are 6.9x and 1.5x faster than available state-of-the-art solutions. We perform an extensive evaluation of APB on two widely adopted model compression datasets, namely CIFAR10 and ImageNet. APB shows to deliver better accuracy/memory trade-off compared to state-of-the-art methods based on i) quantization, ii) pruning, and iii) combination of pruning and quantization. APB outperforms quantization also in the accuracy/efficiency trade-off, being up to 2x faster than the 2-bits quantized model with no loss in accuracy.
翻訳日:2023-06-16 15:44:47 公開日:2023-06-15
# AIガバナンスの統計学と説明可能なAIへの影響

Statutory Professions in AI governance and their consequences for explainable AI ( http://arxiv.org/abs/2306.08959v1 )

ライセンス: Link先を確認
Labhaoise NiFhaolain, Andrew Hines, Vivek Nallur(参考訳) AIの使用による意図的、偶発的な害は個人の健康、安全、権利に影響を及ぼした。 規制フレームワークが開発されている一方で、安全なaiを提供するために必要な方法に関するコンセンサスが不足している。 説明可能なAI(XAI)がAIの規制の有効性に寄与する可能性が高まっている。 規制には、継続的にコンプライアンスを確保するための方法を含める必要があるが、これを達成するための実践的な提案はない。 XAIが規制システムにうまく組み入れられるためには、モデルのステークホルダーへの解釈や説明に携わる個人がその役割に十分な資格を持つ必要がある。 法律専門家は、個人の健康、安全、権利に危害を加えることができる領域で一般的である。 最も明白な例は、医師、エンジニア、弁護士である。 これらの専門家は、スキルと判断を行使し、害が生じた場合に意思決定プロセスを守る必要がある。 我々は、コンプライアンスと監視の目的で、AI規制フレームワークの必須部分として、法定専門職フレームワークを導入することを提案する。 この新しい法律専門家をaiアーキテクト(aia)と呼びます。 このAIAは、危害が発生した場合に、危害のリスクを最小限に抑え、説明責任を負う。 AIAはまた、XAIモデルの適切な解釈/説明を利害関係者に提供するためにも依存する。 さらに、モデルが十分に開発されていることを満足させるためには、AIAはモデルに適切な透明性を持たなければならない。 したがって、AIA制度の導入により、AIAが専門的義務を負うことができるよう、XAIの利用が増加する可能性が高い。

Intentional and accidental harms arising from the use of AI have impacted the health, safety and rights of individuals. While regulatory frameworks are being developed, there remains a lack of consensus on methods necessary to deliver safe AI. The potential for explainable AI (XAI) to contribute to the effectiveness of the regulation of AI is being increasingly examined. Regulation must include methods to ensure compliance on an ongoing basis, though there is an absence of practical proposals on how to achieve this. For XAI to be successfully incorporated into a regulatory system, the individuals who are engaged in interpreting/explaining the model to stakeholders should be sufficiently qualified for the role. Statutory professionals are prevalent in domains in which harm can be done to the health, safety and rights of individuals. The most obvious examples are doctors, engineers and lawyers. Those professionals are required to exercise skill and judgement and to defend their decision making process in the event of harm occurring. We propose that a statutory profession framework be introduced as a necessary part of the AI regulatory framework for compliance and monitoring purposes. We will refer to this new statutory professional as an AI Architect (AIA). This AIA would be responsible to ensure the risk of harm is minimised and accountable in the event that harms occur. The AIA would also be relied on to provide appropriate interpretations/explanations of XAI models to stakeholders. Further, in order to satisfy themselves that the models have been developed in a satisfactory manner, the AIA would require models to have appropriate transparency. Therefore it is likely that the introduction of an AIA system would lead to an increase in the use of XAI to enable AIA to discharge their professional obligations.
翻訳日:2023-06-16 15:44:26 公開日:2023-06-15
# 対話型医用画像分割におけるSAMの時間拡張プロンプト最適化

Temporally-Extended Prompts Optimization for SAM in Interactive Medical Image Segmentation ( http://arxiv.org/abs/2306.08958v1 )

ライセンス: Link先を確認
Chuyun Shen, Wenhao Li, Ya Zhang, Xiangfeng Wang(参考訳) Segmentation Anything Model (SAM)は画像セグメンテーションに対処するための基礎モデルとして最近登場した。 医用画像の本質的な複雑さと高アノテーションコストのため、医療画像セグメンテーション(MIS)コミュニティはSAMのゼロショット能力を調査し、自動アノテーションを促進するよう奨励されている。 対話型医用画像セグメンテーション(IMIS)パラダイムの卓越した成果に触発された本論文は,MIS領域におけるSAMのゼロショット機能の可能性を評価することに焦点を当てた。 IMISでは、SAMがフォーム(例えば点、境界ボックス)をプロンプトする脆弱性が顕著に発音される。 これにより、人間の専門家に適切なプロンプトフォームを提供するフレームワークを開発することができる。 上記のフレームワークを時間拡張プロンプト最適化(tepo)と呼び,強化学習によって解決可能なマルコフ決定プロセスとしてモデル化する。 標準化されたベンチマークBraTS2020の数値実験では、学習されたTEPOエージェントがMISコンテキストにおけるSAMのゼロショット能力をさらに強化できることが示されている。

The Segmentation Anything Model (SAM) has recently emerged as a foundation model for addressing image segmentation. Owing to the intrinsic complexity of medical images and the high annotation cost, the medical image segmentation (MIS) community has been encouraged to investigate SAM's zero-shot capabilities to facilitate automatic annotation. Inspired by the extraordinary accomplishments of interactive medical image segmentation (IMIS) paradigm, this paper focuses on assessing the potential of SAM's zero-shot capabilities within the IMIS paradigm to amplify its benefits in the MIS domain. Regrettably, we observe that SAM's vulnerability to prompt forms (e.g., points, bounding boxes) becomes notably pronounced in IMIS. This leads us to develop a framework that adaptively offers suitable prompt forms for human experts. We refer to the framework above as temporally-extended prompts optimization (TEPO) and model it as a Markov decision process, solvable through reinforcement learning. Numerical experiments on the standardized benchmark BraTS2020 demonstrate that the learned TEPO agent can further enhance SAM's zero-shot capability in the MIS context.
翻訳日:2023-06-16 15:44:02 公開日:2023-06-15
# 音声強調のための時間周波数アテンション付きマルチロス畳み込みネットワーク

Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement ( http://arxiv.org/abs/2306.08956v1 )

ライセンス: Link先を確認
Liang Wan and Hongqing Liu and Yi Zhou and Jie Ji(参考訳) 時間周波数領域情報を有効に活用するためにdpcrn(d-path convolution recurrent network)を提案した。 DPRNNモジュールとCRN(Convolution Recurrent Network)を組み合わせることで、DPCRNは限られたモデルサイズで音声分離において有望な性能を得た。 本稿では、DPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。 我々は, 長期的情報を活用するために自己照準モジュールを用い, チャンク内自己照準を用いてスペクトルパターンをモデル化し, チャンク間自己照準を連続フレーム間の依存性をモデル化する。 DPRNNと比較して、軸方向の自己注意は、長い音声信号列に適したメモリと計算の必要性を大幅に減らす。 さらに,事前学習したWavLMネットワークを用いた多分解能STFT損失とWavLM損失の合同トレーニング手法を提案する。 実験の結果,0.23MパラメータだけでDPCRNよりも優れた性能が得られることがわかった。

The Dual-Path Convolution Recurrent Network (DPCRN) was proposed to effectively exploit time-frequency domain information. By combining the DPRNN module with Convolution Recurrent Network (CRN), the DPCRN obtained a promising performance in speech separation with a limited model size. In this paper, we explore self-attention in the DPCRN module and design a model called Multi-Loss Convolutional Network with Time-Frequency Attention(MNTFA) for speech enhancement. We use self-attention modules to exploit the long-time information, where the intra-chunk self-attentions are used to model the spectrum pattern and the inter-chunk self-attention are used to model the dependence between consecutive frames. Compared to DPRNN, axial self-attention greatly reduces the need for memory and computation, which is more suitable for long sequences of speech signals. In addition, we propose a joint training method of a multi-resolution STFT loss and a WavLM loss using a pre-trained WavLM network. Experiments show that with only 0.23M parameters, the proposed model achieves a better performance than DPCRN.
翻訳日:2023-06-16 15:43:40 公開日:2023-06-15
# 胸部X線写真からの疾患リスク予測のための自己監督型プレトレーニング手法の比較

A Comparison of Self-Supervised Pretraining Approaches for Predicting Disease Risk from Chest Radiograph Images ( http://arxiv.org/abs/2306.08955v1 )

ライセンス: Link先を確認
Yanru Chen, Michael T Lu, Vineet K Raghu(参考訳) ディープラーニングは医療画像タスクの最先端技術だが、大きなラベル付きデータセットを必要とする。 リスク予測では、画像と追跡の両方を必要とするため、大規模なデータセットはまれである(診断符号など)。 しかし、診断ラベル付き公開画像データのリリースは、リスク予測のためのラベル効率を改善するための自己および半教師付きアプローチの機会となる。 自然画像分類、物体検出、医用画像解釈における自己教師ありアプローチを比較した研究がいくつかあるが、リスク予測のためのロバスト表現を学ぶ方法は限られている。 胸部X線画像を用いた半教師付き学習と自己指導型学習を比較し,死亡リスクを予測する。 半教師付きオートエンコーダは,内部および外部の検証において,コントラストや伝達学習よりも優れることがわかった。

Deep learning is the state-of-the-art for medical imaging tasks, but requires large, labeled datasets. For risk prediction, large datasets are rare since they require both imaging and follow-up (e.g., diagnosis codes). However, the release of publicly available imaging data with diagnostic labels presents an opportunity for self and semi-supervised approaches to improve label efficiency for risk prediction. Though several studies have compared self-supervised approaches in natural image classification, object detection, and medical image interpretation, there is limited data on which approaches learn robust representations for risk prediction. We present a comparison of semi- and self-supervised learning to predict mortality risk using chest x-ray images. We find that a semi-supervised autoencoder outperforms contrastive and transfer learning in internal and external validation.
翻訳日:2023-06-16 15:43:20 公開日:2023-06-15
# 二分分類のためのリベンチマーキングプールベースのアクティブラーニング

Re-Benchmarking Pool-Based Active Learning for Binary Classification ( http://arxiv.org/abs/2306.08954v1 )

ライセンス: Link先を確認
Po-Yi Lu, Chun-Liang Li, Hsuan-Tien Lin(参考訳) アクティブラーニング(active learning)は、ラベル付きデータを取得する際の機械学習モデルのパフォーマンスを大幅に向上させるパラダイムである。 アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、その発見はいくつかの誤解を示している。 この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。 我々の取り組みはオープンソース実装(https://github.com/ariapoy/active-learning-benchmark)となり、将来の研究に信頼性と拡張性をもたらします。 徹底的な再ベンチマーク実験を行うことで、既存のベンチマークの誤設定を修正できただけでなく、モデル互換性の未解決問題にも光を当てた。 矛盾を解決することは、アクティブラーニングの不確実性サンプリング戦略が、ほとんどのデータセットにとって有効かつ望ましい選択であることを保証する。 私たちの経験は、既存のベンチマークを再ベンチマークして、より信頼できる結果を生み出し、より深い洞察を得るために研究努力を集中することの重要性を強調しています。

Active learning is a paradigm that significantly enhances the performance of machine learning models when acquiring labeled data is expensive. While several benchmarks exist for evaluating active learning strategies, their findings exhibit some misalignment. This discrepancy motivates us to develop a transparent and reproducible benchmark for the community. Our efforts result in an open-sourced implementation (https://github.com/ariapoy/active-learning-benchmark) that is reliable and extensible for future research. By conducting thorough re-benchmarking experiments, we have not only rectified misconfigurations in existing benchmark but also shed light on the under-explored issue of model compatibility, which directly causes the observed discrepancy. Resolving the discrepancy reassures that the uncertainty sampling strategy of active learning remains an effective and preferred choice for most datasets. Our experience highlights the importance of dedicating research efforts towards re-benchmarking existing benchmarks to produce more credible results and gain deeper insights.
翻訳日:2023-06-16 15:43:08 公開日:2023-06-15
# 文書レベル関係抽出の再考:現実チェック

Rethinking Document-Level Relation Extraction: A Reality Check ( http://arxiv.org/abs/2306.08953v1 )

ライセンス: Link先を確認
Jing Li, Yequan Wang, Shuai Zhang, Min Zhang(参考訳) 近年,文書レベルの関係抽出(DocRE)の性能境界を推し進め,DocREの大幅な進歩を主張している。 本稿では,DocREの新しいモデルを提案することを目的としていない。 代わりに、フィールドを詳しく見て、これらのパフォーマンス向上が実際に真実かどうかを確認します。 総合的な文献レビューと一般的なdocreデータセットの徹底的な検証を行うことで、これらのパフォーマンス向上は、強い、あるいは意図できない仮定で達成されていることが分かりました。 次に,典型的なドクレモデルのロバスト性を調べるために,4種類のエンティティ参照攻撃を構築した。 より現実的な環境では、モデルのユーザビリティについても詳しくチェックしています。 この結果,現在のDocREモデルのほとんどはエンティティ参照攻撃に対して脆弱であり,現実のエンドユーザーNLPアプリケーションにデプロイすることは困難であることが判明した。 本研究は,非現実的なユートピアの世界ではなく,問題設定の単純化を阻止し,野生のDocREをモデル化する今後の研究への注目を喚起する。

Recently, numerous efforts have continued to push up performance boundaries of document-level relation extraction (DocRE) and have claimed significant progress in DocRE. In this paper, we do not aim at proposing a novel model for DocRE. Instead, we take a closer look at the field to see if these performance gains are actually true. By taking a comprehensive literature review and a thorough examination of popular DocRE datasets, we find that these performance gains are achieved upon a strong or even untenable assumption in common: all named entities are perfectly localized, normalized, and typed in advance. Next, we construct four types of entity mention attacks to examine the robustness of typical DocRE models by behavioral probing. We also have a close check on model usability in a more realistic setting. Our findings reveal that most of current DocRE models are vulnerable to entity mention attacks and difficult to be deployed in real-world end-user NLP applications. Our study calls more attentions for future research to stop simplifying problem setups, and to model DocRE in the wild rather than in an unrealistic Utopian world.
翻訳日:2023-06-16 15:42:51 公開日:2023-06-15
# 大規模言語モデルの時間推論能力のベンチマークと改善に向けて

Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models ( http://arxiv.org/abs/2306.08952v1 )

ライセンス: Link先を確認
Qingyu Tan, Hwee Tou Ng, Lidong Bing(参考訳) 時間に関する推論は、基本的に重要です。 多くの事実は時間に依存します。 例えば、選手は時々チームを変え、異なる政府機関が定期的に選出される。 以前の時間依存質問応答(QA)データセットは、時間範囲のカバレッジか質問タイプに偏っている傾向があります。 本稿では,大規模言語モデルの時間的推論能力を評価するために,包括的探索データセット \tempreason を提案する。 我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。 さらに,時空間抽出と時間依存性強化学習に基づいて,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。 我々は,クローズドブックQA,オープンブックQA,およびQA設定の推論実験を行い,本手法の有効性を実証した。 私たちのコードとデータはhttps://github.com/DAMO-NLP-SG/TempReason.comで公開されています。

Reasoning about time is of fundamental importance. Many facts are time-dependent. For example, athletes change teams from time to time, and different government officials are elected periodically. Previous time-dependent question answering (QA) datasets tend to be biased in either their coverage of time spans or question types. In this paper, we introduce a comprehensive probing dataset \tempreason to evaluate the temporal reasoning capability of large language models. Our dataset includes questions of three temporal reasoning levels. In addition, we also propose a novel learning framework to improve the temporal reasoning capability of large language models, based on temporal span extraction and time-sensitive reinforcement learning. We conducted experiments in closed book QA, open book QA, and reasoning QA settings and demonstrated the effectiveness of our approach. Our code and data are released on https://github.com/DAMO-NLP-SG/TempReason.
翻訳日:2023-06-16 15:42:29 公開日:2023-06-15
# content-emotion disentanglement を用いた感情音声駆動アニメーション

Emotional Speech-Driven Animation with Content-Emotion Disentanglement ( http://arxiv.org/abs/2306.08990v1 )

ライセンス: Link先を確認
Radek Dan\v{e}\v{c}ek, Kiran Chhatre, Shashank Tripathi, Yandong Wen, Michael J. Black, Timo Bolkart(参考訳) 広く採用するには、音声信号から容易に、現実的に、直接3D顔アバターをアニメーションする必要がある。 最新の手法では入力音声と同期した3Dアニメーションを生成するが、表情に対する感情の影響は無視される。 その代わり、彼らの焦点は、音声と顔の動きの相関関係をモデル化することであり、その結果、非感情的あるいは入力感情と一致しないアニメーションが生まれる。 顔のアニメーションには2つの要因(音声と感情)が存在することが観察された。 EMOTE(Expressive Model Optimized for Talking with Emotion)におけるこれらの知見を利用して,感情表現の明示的な制御を可能にしつつ,唇のシンクを維持する3D対話ヘッドアバターを生成する。 高品質な3D顔データセットと音声が一致していないため、EMOTEは感情ビデオデータセット(MEAD)から訓練される。 これを実現するために、生成したシーケンスとターゲットビデオの音声内容と感情内容とをマッチングする。 具体的には,EMOTEを唇読取目的の形で訓練し,音声に依存した内容(局所的・高時間的頻度)を保存し,情動の監視をシーケンスレベル(広大・低周波)で行う。 さらに、同じ音声上で異なる感情を監督するために、音声と同期した唇の動きを維持しながらコンテンツ・感情交換機構を用いる。 望ましくない人工物を得ることなく、深い知覚的損失を生かすために、時間的VAEの形で動きを事前に考案する。 広汎な質的、定量的、知覚的評価により、EMOTEは最先端の音声駆動の顔アニメーションを生成し、唇シンクは最高の方法と同等であり、さらに高品質な感情制御を提供する。

To be widely adopted, 3D facial avatars need to be animated easily, realistically, and directly, from speech signals. While the best recent methods generate 3D animations that are synchronized with the input audio, they largely ignore the impact of emotions on facial expressions. Instead, their focus is on modeling the correlations between speech and facial motion, resulting in animations that are unemotional or do not match the input emotion. We observe that there are two contributing factors resulting in facial animation - the speech and the emotion. We exploit these insights in EMOTE (Expressive Model Optimized for Talking with Emotion), which generates 3D talking head avatars that maintain lip sync while enabling explicit control over the expression of emotion. Due to the absence of high-quality aligned emotional 3D face datasets with speech, EMOTE is trained from an emotional video dataset (i.e., MEAD). To achieve this, we match speech-content between generated sequences and target videos differently from emotion content. Specifically, we train EMOTE with additional supervision in the form of a lip-reading objective to preserve the speech-dependent content (spatially local and high temporal frequency), while utilizing emotion supervision on a sequence-level (spatially global and low frequency). Furthermore, we employ a content-emotion exchange mechanism in order to supervise different emotion on the same audio, while maintaining the lip motion synchronized with the speech. To employ deep perceptual losses without getting undesirable artifacts, we devise a motion prior in form of a temporal VAE. Extensive qualitative, quantitative, and perceptual evaluations demonstrate that EMOTE produces state-of-the-art speech-driven facial animations, with lip sync on par with the best methods while offering additional, high-quality emotional control.
翻訳日:2023-06-16 15:37:29 公開日:2023-06-15
# 絡み合いエントロピーの楕円論的解釈

Ergotropic interpretation of entanglement entropy ( http://arxiv.org/abs/2306.08987v1 )

ライセンス: Link先を確認
Dominik \v{S}afr\'anek(参考訳) エンタングルメントエントロピーは量子物理学で最も顕著な測度の一つである。 単体抽出作業の観点からは、興味深いエルゴトロピック解釈を持つことを示す。 これは、この源を特徴付けるために局所的な測定しかできない場合にユニタリ操作を適用することにより、純粋な未知の状態の源からどれだけのエネルギーを抽出できるかを決定する。 さらに、絡み合いエントロピーは、ユニタリ操作のみを使用して、これら部分的に特徴付けられる状態が冷却できる最小温度の限界を設定する。

Entanglement entropy is one of the most prominent measures in quantum physics. We show that it has an interesting ergotropic interpretation in terms of unitarily extracted work. It determines how much energy one can extract from a source of pure unknown states by applying unitary operations when only local measurements can be performed to characterize this source. Additionally, entanglement entropy sets a limit on the minimal temperature to which these partially characterized states can be cooled down, by using only unitary operations.
翻訳日:2023-06-16 15:36:54 公開日:2023-06-15
# 樹木変分オートエンコーダ

Tree Variational Autoencoders ( http://arxiv.org/abs/2306.08984v1 )

ライセンス: Link先を確認
Laura Manduchi, Moritz Vandenhirtz, Alain Ryser, Julia Vogt(参考訳) 本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層クラスタリングモデルを提案する。 提案するツリー変分オートエンコーダ(treevae)は,その固有特性に応じてサンプルを階層的に分割し,データの隠れた構造に光を照射する。 アーキテクチャを適用して、潜伏変数間の依存関係を符号化する最適なツリーを発見する。 提案する木ベースの生成アーキテクチャは軽量な条件付き推論を可能にし,特殊なリーフデコーダを利用することで生成性能を向上させる。 TreeVAEはデータの基盤となるクラスタを明らかにし、実世界の画像データを含むさまざまなデータセット上で異なるグループ間の有意義な階層関係を見出す。 TreeVAEは、シーケンシャルなものよりも、より競争力のあるログライクな低バウンドを提供する。 最後に、その生成的性質から、treevaeは条件付きサンプリングによって検出されたクラスタから新しいサンプルを生成することができる。

We propose a new generative hierarchical clustering model that learns a flexible tree-based posterior distribution over latent variables. The proposed Tree Variational Autoencoder (TreeVAE) hierarchically divides samples according to their intrinsic characteristics, shedding light on hidden structure in the data. It adapts its architecture to discover the optimal tree for encoding dependencies between latent variables. The proposed tree-based generative architecture permits lightweight conditional inference and improves generative performance by utilizing specialized leaf decoders. We show that TreeVAE uncovers underlying clusters in the data and finds meaningful hierarchical relations between the different groups on a variety of datasets, including real-world imaging data. We present empirically that TreeVAE provides a more competitive log-likelihood lower bound than the sequential counterparts. Finally, due to its generative nature, TreeVAE is able to generate new samples from the discovered clusters via conditional sampling.
翻訳日:2023-06-16 15:36:44 公開日:2023-06-15
# 局所的不確かさの限界を克服する:効率的かつ厳密な非線形後処理と校正

Overcoming the Limitations of Localization Uncertainty: Efficient & Exact Non-Linear Post-Processing and Calibration ( http://arxiv.org/abs/2306.08981v1 )

ライセンス: Link先を確認
Moussa Kassem Sbeyti, Michelle Karg, Christian Wirth, Azarm Nowzad and Sahin Albayrak(参考訳) 実環境におけるオブジェクトのロバストで正確なローカライズは、ノイズデータ、ハードウェアの制限、物理システムの固有のランダム性などにより困難である。 これらの要因を考慮し、既存の研究は、その局在化出力をガウス分布 $\mathcal{N}(\mu,\,\sigma^{2})\,$ としてモデル化し、損失減衰を伴う訓練を行うことで、物体検出器のアレター的不確かさを推定する。 本研究は,非線形後処理による$\mathcal{N}(\mu,\,\sigma^{2})\,$の効率的かつ数学的音の伝搬,(2)予測された不確実性の校正,(3)解釈の3つの側面を同定する。 我々は,(1)効率の良いDetにおける損失減衰を実装し,出力分布の正確かつ迅速な伝播のための2つの決定論的手法を提案し,(2)予測された不確実性が誤校正されたことをKITTIおよびBDD100Kデータセット上で実証し,また,2つのキャリブレーション手法をローカライズタスクに適用し,(3)アラート的不確実性とタスク関連エラーソースとの相関を調べた。 その結果,(1)局所化性能を最大1\%向上させながら伝搬速度を最大5倍向上させ,(2)期待校正誤差を最大15倍小さくし,(3)予測の不確かさは咬合,物体距離,検出精度,画質と相関することがわかった。

Robustly and accurately localizing objects in real-world environments can be challenging due to noisy data, hardware limitations, and the inherent randomness of physical systems. To account for these factors, existing works estimate the aleatoric uncertainty of object detectors by modeling their localization output as a Gaussian distribution $\mathcal{N}(\mu,\,\sigma^{2})\,$, and training with loss attenuation. We identify three aspects that are unaddressed in the state of the art, but warrant further exploration: (1) the efficient and mathematically sound propagation of $\mathcal{N}(\mu,\,\sigma^{2})\,$ through non-linear post-processing, (2) the calibration of the predicted uncertainty, and (3) its interpretation. We overcome these limitations by: (1) implementing loss attenuation in EfficientDet, and proposing two deterministic methods for the exact and fast propagation of the output distribution, (2) demonstrating on the KITTI and BDD100K datasets that the predicted uncertainty is miscalibrated, and adapting two calibration methods to the localization task, and (3) investigating the correlation between aleatoric uncertainty and task-relevant error sources. Our contributions are: (1) up to five times faster propagation while increasing localization performance by up to 1\%, (2) up to fifteen times smaller expected calibration error, and (3) the predicted uncertainty is found to correlate with occlusion, object distance, detection accuracy, and image quality.
翻訳日:2023-06-16 15:36:26 公開日:2023-06-15
# 量子問題に対するアルゴリズムクラスタ展開

Algorithmic Cluster Expansions for Quantum Problems ( http://arxiv.org/abs/2306.08974v1 )

ライセンス: Link先を確認
Ryan L. Mann, Romy M. Minko(参考訳) 計算問題のクラスに対して近似アルゴリズムを開発するための一般的な枠組みを確立する。 この枠組みは,koteck\'y と preiss の抽象高分子モデルのクラスター展開に基づいている。 本手法は,(1)恒等級に近い量子回路のクラスの確率振幅を近似する効率的なアルゴリズム,(2)恒等級に近い作用素を持つ量子回路のクラスにおける期待値の近似,(3)高温における量子スピン系のクラス分割関数の近似,(4)正半定義作用素を用いた高温における量子スピン系のクラスの熱期待値の近似を行う。 さらに、量子回路の確率振幅と量子スピン系の分割関数を近似するための近似結果の硬さを求める。 これにより、これらの問題に対する計算複雑性遷移が成立し、我々のアルゴリズム条件が複雑性理論的な仮定の下で最適であることを示す。 最後に, このアルゴリズム条件は期待値にほぼ最適であり, ゼロ自由性という意味での熱的期待値に最適であることを示す。

We establish a general framework for developing approximation algorithms for a class of counting problems. Our framework is based on the cluster expansion of abstract polymer models formalism of Koteck\'y and Preiss. We apply our framework to obtain efficient algorithms for (1) approximating probability amplitudes of a class of quantum circuits close to the identity, (2) approximating expectation values of a class of quantum circuits with operators close to the identity, (3) approximating partition functions of a class of quantum spin systems at high temperature, and (4) approximating thermal expectation values of a class of quantum spin systems at high temperature with positive-semidefinite operators. Further, we obtain hardness of approximation results for approximating probability amplitudes of quantum circuits and partition functions of quantum spin systems. This establishes a computational complexity transition for these problems and shows that our algorithmic conditions are optimal under complexity-theoretic assumptions. Finally, we show that our algorithmic condition is almost optimal for expectation values and optimal for thermal expectation values in the sense of zero freeness.
翻訳日:2023-06-16 15:35:49 公開日:2023-06-15
# フェデレーション学習のための効率的かつマルチプライベート鍵セキュアアグリゲーション

An Efficient and Multi-private Key Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2306.08970v1 )

ライセンス: Link先を確認
Xue Yang, Zifeng Liu, Xiaohu Tang, Rongxing Lu, and Bo Liu(参考訳) フェデレーション学習におけるプライバシリークの発生に伴い,準同型暗号あるいはしきい値秘密共有を主とするセキュアアグリゲーションプロトコルが,各クライアントのローカルトレーニングデータのプライバシを保護するために広く開発されている。 しかし、これらの既存のプロトコルには、信頼できるサードパーティへの依存、クライアントに対する脆弱性の破損、低効率、セキュリティとフォールトトレランスの間のトレードオフなど、多くの欠点がある。 これらの欠点を解決するために,フェデレーション学習のための効率的かつマルチプライベートな鍵セキュアアグリゲーション方式を提案する。 具体的には,準同型付加演算を実現するために,変形型楕円暗号法を巧みに修正する。 1) サーバ及び各クライアントは、信頼できる第三者を導入することなく、公開鍵及びプライベート鍵を自由に選択することができる。 2) 変種ElGamal暗号と比較すると, 平文空間は比較的大きく, 深部モデルに適している。 また,高次元深層モデルパラメータに対して,多次元データを1次元に圧縮するスーパーインクリエーションシーケンスを導入することで,暗号化や復号化時間を大幅に削減し,暗号文伝送のための通信を実現する。 詳細なセキュリティ分析の結果,提案手法は個々の局所勾配と集約結果の両方のセマンティック・セキュリティを実現するとともに,クライアントの共謀とドロップクライアントの許容に最適なロバスト性を実現する。 広範なシミュレーションにより,提案手法の精度は非プライベート手法とほぼ同じであることが示され,その効率は最先端の準同型暗号に基づくセキュアアグリゲーションスキームよりもはるかに優れていることがわかった。 さらに重要なことに、モデルパラメータの数が増加するにつれて、我々のスキームの効率性はますます顕著になる。

With the emergence of privacy leaks in federated learning, secure aggregation protocols that mainly adopt either homomorphic encryption or threshold secret sharing have been widely developed for federated learning to protect the privacy of the local training data of each client. However, these existing protocols suffer from many shortcomings, such as the dependence on a trusted third party, the vulnerability to clients being corrupted, low efficiency, the trade-off between security and fault tolerance, etc. To solve these disadvantages, we propose an efficient and multi-private key secure aggregation scheme for federated learning. Specifically, we skillfully modify the variant ElGamal encryption technique to achieve homomorphic addition operation, which has two important advantages: 1) The server and each client can freely select public and private keys without introducing a trust third party and 2) Compared to the variant ElGamal encryption, the plaintext space is relatively large, which is more suitable for the deep model. Besides, for the high dimensional deep model parameter, we introduce a super-increasing sequence to compress multi-dimensional data into 1-D, which can greatly reduce encryption and decryption times as well as communication for ciphertext transmission. Detailed security analyses show that our proposed scheme achieves the semantic security of both individual local gradients and the aggregated result while achieving optimal robustness in tolerating both client collusion and dropped clients. Extensive simulations demonstrate that the accuracy of our scheme is almost the same as the non-private approach, while the efficiency of our scheme is much better than the state-of-the-art homomorphic encryption-based secure aggregation schemes. More importantly, the efficiency advantages of our scheme will become increasingly prominent as the number of model parameters increases.
翻訳日:2023-06-16 15:35:30 公開日:2023-06-15
# 部分ラベル回帰

Partial-Label Regression ( http://arxiv.org/abs/2306.08968v1 )

ライセンス: Link先を確認
Xin Cheng and Deng-Bao Wang and Lei Feng and Min-Ling Zhang and Bo An(参考訳) 部分ラベル学習(Partial-label learning)は、トレーニングサンプルに候補ラベルのセットをアノテート可能な、弱い教師付き学習環境である。 部分ラベル学習に関する従来の研究は、全ての候補ラベルが離散的であり、実際の値で連続ラベルを扱えない分類設定のみに焦点を当てていた。 本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。 この問題を解決するために,まず,候補ラベルから得られた平均損失を予測損失とする単純なベースライン手法を提案する。 この方法の欠点は、真のラベルによる損失は他の偽ラベルに圧倒される可能性があることである。 この欠点を克服するために,候補ラベルによる最小損失を予測損失とする識別法を提案する。 提案手法は, 劣化の進行的な重み付けを用いて, 候補ラベルを識別するプログレッシブ識別手法を提案することでさらに改善する。 後者の2つの手法がモデル一貫性を示し,収束解析を提供する。 提案手法は理論的に基礎があり,任意のモデル,オプティマイザ,損失と互換性がある。 提案手法の有効性を検証する実験を行った。

Partial-label learning is a popular weakly supervised learning setting that allows each training example to be annotated with a set of candidate labels. Previous studies on partial-label learning only focused on the classification setting where candidate labels are all discrete, which cannot handle continuous labels with real values. In this paper, we provide the first attempt to investigate partial-label regression, where each training example is annotated with a set of real-valued candidate labels. To solve this problem, we first propose a simple baseline method that takes the average loss incurred by candidate labels as the predictive loss. The drawback of this method lies in that the loss incurred by the true label may be overwhelmed by other false labels. To overcome this drawback, we propose an identification method that takes the least loss incurred by candidate labels as the predictive loss. We further improve it by proposing a progressive identification method to differentiate candidate labels using progressively updated weights for incurred losses. We prove that the latter two methods are model-consistent and provide convergence analyses. Our proposed methods are theoretically grounded and can be compatible with any models, optimizers, and losses. Experiments validate the effectiveness of our proposed methods.
翻訳日:2023-06-16 15:34:55 公開日:2023-06-15
# 数十億のパラメータをミリ秒に更新する動的ネットワークの高速化

Accelerating Dynamic Network Embedding with Billions of Parameter Updates to Milliseconds ( http://arxiv.org/abs/2306.08967v1 )

ライセンス: Link先を確認
Haoran Deng, Yang Yang, Jiahe Li, Haoyang Cai, Shiliang Pu, Weihao Jiang(参考訳) ノードを低次元ベクトルにマッピングすることでネットワークトポロジを描写するグラフ表現学習手法であるネットワーク埋め込みは、実際には変化する動的グラフに適応することが困難である。 既存の研究は主にノード単位の埋め込み修正に基づいており、効率的な計算と精度のジレンマに陥っている。 埋め込み次元は通常ノード数よりもずっと小さいことを観察し、ノード単位の更新ではなく埋め込み空間の軸を回転およびスケールする新しい動的ネットワーク埋め込みパラダイムによってこのジレンマを破る。 具体的には、ネットワーク埋め込みがノード埋め込みのエッジ変更の回数に留まらず、座標系を回転させ、スケールさせることにより、効率的かつ正確な動的ネットワーク埋め込みを実現する動的隣接行列分解(DAMF)アルゴリズムを提案する。 さらに、取得したネットワーク埋め込みに動的にパーソナライズされたPageRankを適用し、ノード埋め込みを強化し、高次隣接情報を動的にキャプチャする。 異なるサイズの動的グラフ上でのノード分類、リンク予測、グラフ再構成の実験は、DAMFが動的ネットワーク埋め込みを進めることを示唆している。 さらに、DAMFは10ミリ秒未満で10億レベルのパラメータを更新する。

Network embedding, a graph representation learning method illustrating network topology by mapping nodes into lower-dimension vectors, is challenging to accommodate the ever-changing dynamic graphs in practice. Existing research is mainly based on node-by-node embedding modifications, which falls into the dilemma of efficient calculation and accuracy. Observing that the embedding dimensions are usually much smaller than the number of nodes, we break this dilemma with a novel dynamic network embedding paradigm that rotates and scales the axes of embedding space instead of a node-by-node update. Specifically, we propose the Dynamic Adjacency Matrix Factorization (DAMF) algorithm, which achieves an efficient and accurate dynamic network embedding by rotating and scaling the coordinate system where the network embedding resides with no more than the number of edge modifications changes of node embeddings. Moreover, a dynamic Personalized PageRank is applied to the obtained network embeddings to enhance node embeddings and capture higher-order neighbor information dynamically. Experiments of node classification, link prediction, and graph reconstruction on different-sized dynamic graphs suggest that DAMF advances dynamic network embedding. Further, we unprecedentedly expand dynamic network embedding experiments to billion-edge graphs, where DAMF updates billion-level parameters in less than 10ms.
翻訳日:2023-06-16 15:34:35 公開日:2023-06-15
# 生成画像とキャプションを用いたマルチメディアイベント抽出の訓練

Training Multimedia Event Extraction With Generated Images and Captions ( http://arxiv.org/abs/2306.08966v1 )

ライセンス: Link先を確認
Zilin Du, Yunxin Li, Xu Guo, Yidan Sun, Boyang Li(参考訳) 現代のニュースは、マルチメディアコンテンツがますます多くなり、マルチメディアイベント抽出の研究を動機付けている。 しかしながら、タスクには注釈付きマルチモーダルトレーニングデータや、実世界データからの分散シフトに苦しむ人工的なトレーニングデータが欠落している。 本稿では、人工的に生成されたマルチモーダルトレーニングデータをうまく活用し、最先端のパフォーマンスを実現するクロスモーダル拡張マルチメディアイベント学習(CAMEL)を提案する。 ユニモーダルトレーニングデータに基づいて,安定拡散のような既定画像生成器とblipのような画像キャプションを用いたマルチモーダルトレーニングデータを生成する。 ドメイン間で有効である堅牢な特徴を学習するために、反復的かつ段階的なアニールトレーニング戦略を考案する。 実質的な実験により、CAMELはM2E2ベンチマークの最先端(SOTA)ベースラインを超えている。 特にマルチメディアイベントでは、イベント参照識別では4.2\% F1で、引数識別では9.8\% F1で、CAMELが2つのモードから相乗表現を学習していることを示す。

Contemporary news reporting increasingly features multimedia content, motivating research on multimedia event extraction. However, the task lacks annotated multimodal training data and artificially generated training data suffer from the distribution shift from the real-world data. In this paper, we propose Cross-modality Augmented Multimedia Event Learning (CAMEL), which successfully utilizes artificially generated multimodal training data and achieves state-of-the-art performance. Conditioned on unimodal training data, we generate multimodal training data using off-the-shelf image generators like Stable Diffusion and image captioners like BLIP. In order to learn robust features that are effective across domains, we devise an iterative and gradual annealing training strategy. Substantial experiments show that CAMEL surpasses state-of-the-art (SOTA) baselines on the M2E2 benchmark. On multimedia events in particular, we outperform the prior SOTA by 4.2\% F1 on event mention identification and by 9.8\% F1 on argument identification, which demonstrates that CAMEL learns synergistic representations from the two modalities.
翻訳日:2023-06-16 15:34:12 公開日:2023-06-15
# 超スペクトル画像分類が拡散モデルを満たす場合:教師なし特徴学習フレームワーク

When Hyperspectral Image Classification Meets Diffusion Models: An Unsupervised Feature Learning Framework ( http://arxiv.org/abs/2306.08964v1 )

ライセンス: Link先を確認
Jingyi Zhou, Jiamu Sheng, Jiayuan Fan, Peng Ye, Tong He, Bin Wang, and Tao Chen(参考訳) 有効なスペクトル空間特徴の学習はハイパースペクトル画像(hsi)分類タスクにおいて重要であるが、既存のhsi分類手法の大部分は依然として複雑なスペクトル空間関係をモデル化し、低レベル詳細と高レベル意味論を包括的に特徴付けるのに苦しむ。 新しい記録破り生成モデルのクラスとして、拡散モデルは、入力を理解するための複雑な関係をモデル化し、高レベルと低レベルの両方の視覚的特徴を学習することができる。 一方、拡散モデルは時間ステップ t の余剰次元と一意次元を生かしてより豊富な特徴を捉えることができる。 そこで本研究では,HSI分類のための拡散モデルに基づくスペクトル空間特徴学習フレームワークDiff-HSIを提案する。 具体的には,教師なし特徴学習のためにラベルなしhsiパッチを用いて拡散モデルを事前学習し,分類のために異なる時間ステップの中間階層特徴を活用した。 時間段階的特徴バンクと動的特徴融合モジュールを設計し、時間段階的特徴を設計し、情報的多段階表現を適応的に学習する。 最後に線形分類器のアンサンブルを適用してHSI分類を行う。 Diff-HSIは3つの公開HSIデータセットに対して大規模な実験を行い,その実験結果から,HSI分類における最先端の教師付きおよび教師なしの手法よりも優れた性能を示した。

Learning effective spectral-spatial features is important for the hyperspectral image (HSI) classification task, but the majority of existing HSI classification methods still suffer from modeling complex spectral-spatial relations and characterizing low-level details and high-level semantics comprehensively. As a new class of record-breaking generative models, diffusion models are capable of modeling complex relations for understanding inputs well as learning both high-level and low-level visual features. Meanwhile, diffusion models can capture more abundant features by taking advantage of the extra and unique dimension of timestep t. In view of these, we propose an unsupervised spectral-spatial feature learning framework based on the diffusion model for HSI classification for the first time, named Diff-HSI. Specifically, we first pretrain the diffusion model with unlabeled HSI patches for unsupervised feature learning, and then exploit intermediate hierarchical features from different timesteps for classification. For better using the abundant timestep-wise features, we design a timestep-wise feature bank and a dynamic feature fusion module to construct timestep-wise features, adaptively learning informative multi-timestep representations. Finally, an ensemble of linear classifiers is applied to perform HSI classification. Extensive experiments are conducted on three public HSI datasets, and our results demonstrate that Diff-HSI outperforms state-of-the-art supervised and unsupervised methods for HSI classification.
翻訳日:2023-06-16 15:33:52 公開日:2023-06-15
# DiAReL:ロボット制御におけるロバストシム2リアルポリシー伝達のための外乱認識型強化学習

DiAReL: Reinforcement Learning with Disturbance Awareness for Robust Sim2Real Policy Transfer in Robot Control ( http://arxiv.org/abs/2306.09010v1 )

ライセンス: Link先を確認
Mohammadhossein Malmir (1), Josip Josifovski (1), Noah Klarmann (2), Alois Knoll (1) ((1) Department of Computer Engineering, School of Computation, Information and Technology, Technical University of Munich, (2) Rosenheim University of Applied Sciences)(参考訳) 遅延マルコフ決定プロセスは、最近実行されたアクションの有限時間ウィンドウでエージェントの状態空間を増強することでマルコフ特性を満たす。 これらの状態強化に頼って、遅延解決型強化学習アルゴリズムは、観察や行動遅延を特徴とする環境との最適な相互作用を学ぶためのポリシーを訓練する。 このような方法は実際のロボットで直接訓練できるが、サンプルの非効率性、限られた資源や安全性の制約により、シミュレーションで訓練されたモデルを物理ロボットに転送するのが一般的である。 しかし、ロボットシミュレーションは、シム2リアル移動を妨げる物理系の近似モデルに依存している。 本研究では,ロボットの力学のモデル化における様々な不確実性を,システム入力に適用される未知の内在的障害として考察する。 そこで本研究では,遅延設定における外乱誘導マルコフ決定過程を新しい表現法として導入し,オン・ポリティカル強化学習アルゴリズムの学習に外乱推定を組み込む。 提案手法は,ロボット到達タスクの学習と,外乱を意識しないベースラインとの比較において,いくつかの指標にまたがって検証される。 その結果、外乱応答モデルでは制御応答の安定化とロバスト性が向上し、sim2実数転送が成功する可能性が向上した。

Delayed Markov decision processes fulfill the Markov property by augmenting the state space of agents with a finite time window of recently committed actions. In reliance with these state augmentations, delay-resolved reinforcement learning algorithms train policies to learn optimal interactions with environments featured with observation or action delays. Although such methods can directly be trained on the real robots, due to sample inefficiency, limited resources or safety constraints, a common approach is to transfer models trained in simulation to the physical robot. However, robotic simulations rely on approximated models of the physical systems, which hinders the sim2real transfer. In this work, we consider various uncertainties in the modelling of the robot's dynamics as unknown intrinsic disturbances applied on the system input. We introduce a disturbance-augmented Markov decision process in delayed settings as a novel representation to incorporate disturbance estimation in training on-policy reinforcement learning algorithms. The proposed method is validated across several metrics on learning a robotic reaching task and compared with disturbance-unaware baselines. The results show that the disturbance-augmented models can achieve higher stabilization and robustness in the control response, which in turn improves the prospects of successful sim2real transfer.
翻訳日:2023-06-16 15:27:26 公開日:2023-06-15
# 大規模事前学習モデルの逆気象除去への適用

Exploring the Application of Large-scale Pre-trained Models on Adverse Weather Removal ( http://arxiv.org/abs/2306.09008v1 )

ライセンス: Link先を確認
Zhentao Tan, Yue Wu, Qiankun Liu, Qi Chu, Le Lu, Jieping Ye, Nenghai Yu(参考訳) 悪天候下でのイメージ復元(例えば、雨、雪、ヘイズ)は基本的なコンピュータビジョンの問題であり、下流の様々な応用に重要な兆候がある。 特定の種類の気象のために特別に設計された初期の方法とは異なり、最近の研究は空間的特徴表現学習や意味情報埋め込みを通じて様々な悪天候効果を同時に除去する傾向がある。 本稿では,大規模事前学習モデル(クリップなど)の様々な応用に着想を得て,空間的特徴表現学習と意味情報埋め込みの両面から,これらの課題に対する潜在的メリットについて考察する。 1) 空間的特徴表現学習のために, 劣化領域を適応的に抽出する空間適応型残差(\textbf{SAR})エンコーダを設計する。 トレーニングを容易にするため,CLIPから環境画像と悪天候画像の間で空間知識を伝達するソフト残留蒸留(\textbf{CLIP-SRD})戦略を提案する。 2) セマンティックな情報埋め込みのために,ネットワークが異なる気象条件を適応的に扱えるように,CLIP天気予報モジュール(\textbf{CWP})を提案する。 このモジュールは、CLIPイメージエンコーダによって事前に抽出されたサンプル特定天候と、パラメータセットによって学習された分布特定情報を統合し、それらをクロスアテンション機構を介して埋め込む。 提案手法は, 気象条件の異なる, 困難な状況下で, 最先端の性能を達成できることを示す。 コードは利用可能になる。

Image restoration under adverse weather conditions (e.g., rain, snow and haze) is a fundamental computer vision problem and has important indications for various downstream applications. Different from early methods that are specially designed for specific type of weather, most recent works tend to remove various adverse weather effects simultaneously through either spatial feature representation learning or semantic information embedding. Inspired by the various successful applications of large-scale pre-trained models (e.g, CLIP), in this paper, we explore the potential benefits of them for this task through both spatial feature representation learning and semantic information embedding aspects: 1) for spatial feature representation learning, we design a Spatially-Adaptive Residual (\textbf{SAR}) Encoder to extract degraded areas adaptively. To facilitate its training, we propose a Soft Residual Distillation (\textbf{CLIP-SRD}) strategy to transfer the spatial knowledge from CLIP between clean and adverse weather images; 2) for semantic information embedding, we propose a CLIP Weather Prior (\textbf{CWP}) embedding module to make the network handle different weather conditions adaptively. This module integrates the sample specific weather prior extracted by CLIP image encoder together with the distribution specific information learned by a set of parameters, and embeds them through a cross attention mechanism. Extensive experiments demonstrate that our proposed method can achieve state-of-the-art performance under different and challenging adverse weather conditions. Code will be made available.
翻訳日:2023-06-16 15:27:05 公開日:2023-06-15
# 構成的ロバスト性に対するモジュラリティ・トランプ不変性

Modularity Trumps Invariance for Compositional Robustness ( http://arxiv.org/abs/2306.09005v1 )

ライセンス: Link先を確認
Ian Mason, Anirban Sarkar, Tomotake Sasaki, Xavier Boix(参考訳) デフォルトでは、ニューラルネットワークはデータ分散の変化に対して堅牢ではない。 これは、ぼやけやノイズの追加といった単純な画像破損によって、画像分類のパフォーマンスを低下させることで実証されている。 これらの問題を緩和するために多くの方法が提案されているが、ほとんどのモデルは単一の腐敗で評価されている。 実際には、視覚空間は本質的に構成的であり、要素的腐敗に対する堅牢性と同様に、腐敗の構成に対する堅牢性も必要である。 本研究では,構成画像分類タスクを開発し,いくつかの要素的腐敗を考慮し,これらの破損の合成に一般化するモデルを提案する。 すなわち、構成的堅牢性を達成する。 経験的リスク最小化と一対の対比的損失とを実験的に比較し、ドメイン一般化における一般的な直観と対比して、不変性を促進することによって構成的ロバスト性における限界的改善のみを達成する。 モデルアーキテクチャがデータ構造を反映すべきという先述の帰納的バイアスに従い、不変性を超えて、構造がタスクの構成的性質を再現するモジュラーアーキテクチャを導入する。 そして、このモジュラーアプローチが非モジュラーアプローチよりも優れた構成的堅牢性を達成することを示す。 さらに,「分配内」要素的腐敗の表象間のばらつきの程度は,腐敗の「分配外」構成との強固さと相関しないという実証的な証拠も見いだした。

By default neural networks are not robust to changes in data distribution. This has been demonstrated with simple image corruptions, such as blurring or adding noise, degrading image classification performance. Many methods have been proposed to mitigate these issues but for the most part models are evaluated on single corruptions. In reality, visual space is compositional in nature, that is, that as well as robustness to elemental corruptions, robustness to compositions of corruptions is also needed. In this work we develop a compositional image classification task where, given a few elemental corruptions, models are asked to generalize to compositions of these corruptions. That is, to achieve compositional robustness. We experimentally compare empirical risk minimization with an invariance building pairwise contrastive loss and, counter to common intuitions in domain generalization, achieve only marginal improvements in compositional robustness by encouraging invariance. To move beyond invariance, following previously proposed inductive biases that model architectures should reflect data structure, we introduce a modular architecture whose structure replicates the compositional nature of the task. We then show that this modular approach consistently achieves better compositional robustness than non-modular approaches. We additionally find empirical evidence that the degree of invariance between representations of 'in-distribution' elemental corruptions fails to correlate with robustness to 'out-of-distribution' compositions of corruptions.
翻訳日:2023-06-16 15:26:18 公開日:2023-06-15
# 拡散モデルを用いた医用画像分割のためのアノテータコンセンサス予測

Annotator Consensus Prediction for Medical Image Segmentation with Diffusion Models ( http://arxiv.org/abs/2306.09004v1 )

ライセンス: Link先を確認
Tomer Amit, Shmuel Shichrur, Tal Shaharabany and Lior Wolf(参考訳) 医用画像のセグメンテーションにおける大きな課題は、複数の専門家が提供したアノテーションにおける、サーバ間の大きなばらつきである。 そこで本研究では,拡散モデルを用いたマルチエキスパート予測手法を提案する。 提案手法では,複数のアノテーションから情報を取り込んで,複数の専門家のコンセンサスを反映した統合セグメンテーションマップに融合する。 本手法は,複数の専門家が注釈を付した医療セグメンテーションのデータセット上での性能を評価し,最新手法と比較する。 提案手法の有効性とロバスト性を実証した。 私たちのコードはhttps://github.com/tomeramit/Annotator-Consensus-Predictionで公開されています。

A major challenge in the segmentation of medical images is the large inter- and intra-observer variability in annotations provided by multiple experts. To address this challenge, we propose a novel method for multi-expert prediction using diffusion models. Our method leverages the diffusion-based approach to incorporate information from multiple annotations and fuse it into a unified segmentation map that reflects the consensus of multiple experts. We evaluate the performance of our method on several datasets of medical segmentation annotated by multiple experts and compare it with state-of-the-art methods. Our results demonstrate the effectiveness and robustness of the proposed method. Our code is publicly available at https://github.com/tomeramit/Annotator-Consensus-Prediction.
翻訳日:2023-06-16 15:25:22 公開日:2023-06-15
# ExoMDN:混合密度ネットワークを用いた太陽系外惑星内部構造の迅速評価

ExoMDN: Rapid characterization of exoplanet interior structures with Mixture Density Networks ( http://arxiv.org/abs/2306.09002v1 )

ライセンス: Link先を確認
Philipp Baumeister and Nicola Tosi(参考訳) 太陽系外惑星の内部構造の特徴は、その多様性、形成、進化を理解する上で不可欠である。 太陽系外惑星の内部は観測にはアクセスできないため、質量や半径などの観測可能なパラメータに数値構造モデルが従わなければならない逆問題を解く必要がある。 これは非常に退化的な問題であり、マルコフ・チェイン・モンテカルロのような計算的・時間的推測手法にしばしば依存する。 混合密度ネットワーク(MDN)に基づく太陽系外惑星の内部特性解析のための機械学習モデルであるExoMDNを提案する。 このモデルは、鉄核、ケイ酸塩マントル、水と高圧の氷層、h/he雰囲気からなる25地球質量以下の560万以上の合成惑星の大規模なデータセットで訓練されている。 我々は,内部構造データをmdnが容易に処理できる形式に変換するためにlog-ratio変換を用いる。 質量、半径、平衡温度が与えられた場合、ExoMDNは標準のIntel i5 CPU上で各惑星層の質量分率と厚さの完全な後部分布を1秒以下で実現できることを示す。 観測の不確実性は、不確実性内からの繰り返し予測によって容易に説明できる。 我々は、よく研究されたGJ 1214 b, GJ 486 b, TRAPPIST-1惑星を含む、質量と半径の不確かさが10%以下の22個の太陽系外惑星の内部を特徴付けるためにExoMDNを使用する。 流体のラブ数 $k_2$ を(潜在的に)観測可能な追加として含めることについて議論し、内部構造の縮退を著しく低減できることを示す。 ExoMDNの高速予測を利用して、10%の精度で$k_2$を測定することで、地球アナログのコアとマントルの厚さを、真の値の$\approx13\%$に制限できることを示す。

Characterizing the interior structure of exoplanets is essential for understanding their diversity, formation, and evolution. As the interior of exoplanets is inaccessible to observations, an inverse problem must be solved, where numerical structure models need to conform to observable parameters such as mass and radius. This is a highly degenerate problem whose solution often relies on computationally-expensive and time-consuming inference methods such as Markov Chain Monte Carlo. We present ExoMDN, a machine-learning model for the interior characterization of exoplanets based on Mixture Density Networks (MDN). The model is trained on a large dataset of more than 5.6 million synthetic planets below 25 Earth masses consisting of an iron core, a silicate mantle, a water and high-pressure ice layer, and a H/He atmosphere. We employ log-ratio transformations to convert the interior structure data into a form that the MDN can easily handle. Given mass, radius, and equilibrium temperature, we show that ExoMDN can deliver a full posterior distribution of mass fractions and thicknesses of each planetary layer in under a second on a standard Intel i5 CPU. Observational uncertainties can be easily accounted for through repeated predictions from within the uncertainties. We use ExoMDN to characterize the interior of 22 confirmed exoplanets with mass and radius uncertainties below 10% and 5% respectively, including the well studied GJ 1214 b, GJ 486 b, and the TRAPPIST-1 planets. We discuss the inclusion of the fluid Love number $k_2$ as an additional (potential) observable, showing how it can significantly reduce the degeneracy of interior structures. Utilizing the fast predictions of ExoMDN, we show that measuring $k_2$ with an accuracy of 10% can constrain the thickness of core and mantle of an Earth analog to $\approx13\%$ of the true values.
翻訳日:2023-06-16 15:25:07 公開日:2023-06-15
# SSCBench: 自動運転のための大規模3Dセマンティックシーン補完ベンチマーク

SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving ( http://arxiv.org/abs/2306.09001v1 )

ライセンス: Link先を確認
Yiming Li, Sihang Li, Xinhao Liu, Moonjun Gong, Kenan Li, Nuo Chen, Zijun Wang, Zhiheng Li, Tao Jiang, Fisher Yu, Yue Wang, Hang Zhao, Zhiding Yu, Chen Feng(参考訳) セマンティックシーンコンプリート(SSC)は,スパース観測からセマンティックスと幾何学を共同で推定することにより,総合的な3次元シーン理解に不可欠である。 しかし、特に自動運転シナリオにおけるSCの進歩は、高品質なデータセットの不足によって妨げられている。 この課題を解決するために、私たちは、広く使用されている自動車データセット(KITTI-360、nuScenes、Waymoなど)のシーンを統合する包括的なベンチマークであるSSCBenchを紹介した。 SSCBenchはコミュニティで確立されたセットアップとフォーマットに従っており、様々な現実シナリオにわたるカメラとLiDARベースのSSCの探索を容易にする。 本研究では,SSCBench上での最先端アルゴリズムの定量的,定性的な評価を行い,新しい自動車データセットとSSCアルゴリズムを連続的に組み込んでこの分野のさらなる進歩を推し進めることにコミットする。 私たちのリソースはhttps://github.com/ai4ce/sscbenchでリリースされています。

Semantic scene completion (SSC) is crucial for holistic 3D scene understanding by jointly estimating semantics and geometry from sparse observations. However, progress in SSC, particularly in autonomous driving scenarios, is hindered by the scarcity of high-quality datasets. To overcome this challenge, we introduce SSCBench, a comprehensive benchmark that integrates scenes from widely-used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo). SSCBench follows an established setup and format in the community, facilitating the easy exploration of the camera- and LiDAR-based SSC across various real-world scenarios. We present quantitative and qualitative evaluations of state-of-the-art algorithms on SSCBench and commit to continuously incorporating novel automotive datasets and SSC algorithms to drive further advancements in this field. Our resources are released on https://github.com/ai4ce/SSCBench.
翻訳日:2023-06-16 15:24:32 公開日:2023-06-15
# モーメントムがSGDを加速する時期と理由:実証的研究

When and Why Momentum Accelerates SGD:An Empirical Study ( http://arxiv.org/abs/2306.09000v1 )

ライセンス: Link先を確認
Jingwen Fu, Bohan Wang, Huishuai Zhang, Zhizheng Zhang, Wei Chen, Nanning Zheng(参考訳) モーメントはディープラーニングオプティマイザの重要な要素となり、いつ、なぜそれが確率的勾配降下(sgd)を加速するのかを包括的に理解する必要がある。 when' の問題に対処するために、sgd と運動量(sgdm)のパフォーマンスを \emph{ effective learning rate} $\eta_{ef}$ で検証する有意義な比較フレームワークを構築し、運動量係数 $\mu$ とバッチサイズ $b$ over learning rate $\eta$ の影響を統一する概念である。 SGDMとSGDを、同じ有効学習率と同じバッチサイズで比較すると、$\eta_{ef}$が小さく、SGDMとSGDがほぼ同じ経験を持つ場合、$\eta_{ef}$が一定の閾値を超えた場合、SGDMはSGDよりも優れたパフォーマンスを示し始める。 さらに,SGDに対するSGDMの利点は,より大きなバッチサイズでより顕著になることが観察された。 why'' という問題に対して、運動量加速度は更新方向に沿った方向ヘッシアンの突然のジャンプを記述するために \emph{abrupt sharpening} と密接に関連していることが分かる。 具体的には、SGDとSGDMの相違は、SGDが急激な硬化と収束を経験すると同時に起こる。 モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。 本研究では,運動量,学習速度,バッチサイズ間の相互作用を明らかにし,運動量加速度の理解を深める。

Momentum has become a crucial component in deep learning optimizers, necessitating a comprehensive understanding of when and why it accelerates stochastic gradient descent (SGD). To address the question of ''when'', we establish a meaningful comparison framework that examines the performance of SGD with Momentum (SGDM) under the \emph{effective learning rates} $\eta_{ef}$, a notion unifying the influence of momentum coefficient $\mu$ and batch size $b$ over learning rate $\eta$. In the comparison of SGDM and SGD with the same effective learning rate and the same batch size, we observe a consistent pattern: when $\eta_{ef}$ is small, SGDM and SGD experience almost the same empirical training losses; when $\eta_{ef}$ surpasses a certain threshold, SGDM begins to perform better than SGD. Furthermore, we observe that the advantage of SGDM over SGD becomes more pronounced with a larger batch size. For the question of ``why'', we find that the momentum acceleration is closely related to \emph{abrupt sharpening} which is to describe a sudden jump of the directional Hessian along the update direction. Specifically, the misalignment between SGD and SGDM happens at the same moment that SGD experiences abrupt sharpening and converges slower. Momentum improves the performance of SGDM by preventing or deferring the occurrence of abrupt sharpening. Together, this study unveils the interplay between momentum, learning rates, and batch sizes, thus improving our understanding of momentum acceleration.
翻訳日:2023-06-16 15:24:15 公開日:2023-06-15
# スイス連邦通信委員会:投票用紙のバイアス検出

Voting Booklet Bias: Stance Detection in Swiss Federal Communication ( http://arxiv.org/abs/2306.08999v1 )

ライセンス: Link先を確認
Eric Egli, Noah Mami\'e, Eyal Liron Dolev and Mathias M\"uller(参考訳) 本研究では,有権者のための公式情報ブックレットにおける文のスタンス(反対・中立)を,近年のスタンス検出手法を用いて調査する。 私たちの主な目標は、基本的な質問に答えることです。 この目的のために,我々はまず,スイス政治に関する大規模データセット上で,スタンス検出のためのモデルをいくつかトレーニングし比較した。 M-BERTモデルを微調整すると精度が向上する。 スイス連邦投票簿(swiss federal voting booklet)から抽出された2022年9月のスイス大衆投票に関する発言のスタンスを分析するために、最善のモデルを使用します。 我々は、多言語とドイツ語、フランス語、イタリア語の単言語文脈の両方でモデルを評価した。 我々の分析は、いくつかの問題が強く好まれている一方で、他の問題はよりバランスが取れており、結果が言語間でほぼ一致していることを示している。 本研究は,今後の投票帳簿の編集プロセスと,政治談話分析のためのより良い自動システムの設計に影響を及ぼす。 この論文に付随するデータとコードは、https://github.com/zurichnlp/voting-booklet-biasで入手できる。

In this study, we use recent stance detection methods to study the stance (for, against or neutral) of statements in official information booklets for voters. Our main goal is to answer the fundamental question: are topics to be voted on presented in a neutral way? To this end, we first train and compare several models for stance detection on a large dataset about Swiss politics. We find that fine-tuning an M-BERT model leads to the best accuracy. We then use our best model to analyze the stance of utterances extracted from the Swiss federal voting booklet concerning the Swiss popular votes of September 2022, which is the main goal of this project. We evaluated the models in both a multilingual as well as a monolingual context for German, French, and Italian. Our analysis shows that some issues are heavily favored while others are more balanced, and that the results are largely consistent across languages. Our findings have implications for the editorial process of future voting booklets and the design of better automated systems for analyzing political discourse. The data and code accompanying this paper are available at https://github.com/ZurichNLP/voting-booklet-bias.
翻訳日:2023-06-16 15:23:39 公開日:2023-06-15
# Team AcieLee: EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023のテクニカルレポート

Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023 ( http://arxiv.org/abs/2306.08998v1 )

ライセンス: Link先を確認
Yuqi Li, Yizhi Luo, Xiaoshuai Hao, Chuanguang Yang, Zhulin An, Dantong Song, Wei Yi(参考訳) 本稿では,チーム "AcieLee" (ユーザ名: Yuqi\_Li) によるEPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023への提出の技術的詳細について述べる。 タスクは、オブジェクト間の相互作用やカメラ装着者のイベントによって引き起こされる音声を分類することである。 徹底的な実験を行い,学習速度の段階的崩壊,バックボーン凍結,ラベル平滑化,焦点損失がパフォーマンス向上に大きく寄与することを確認した。 訓練後、異なる段階から複数のモデルを組み合わせ、融合重みを割り当てて単一のモデルに統合した。 提案手法により,EPIC-SOUNDS音声ベースインタラクション認識チャレンジのCVPR 2023ワークショップで3位を獲得できた。

In this report, we describe the technical details of our submission to the EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023, by Team "AcieLee" (username: Yuqi\_Li). The task is to classify the audio caused by interactions between objects, or from events of the camera wearer. We conducted exhaustive experiments and found learning rate step decay, backbone frozen, label smoothing and focal loss contribute most to the performance improvement. After training, we combined multiple models from different stages and integrated them into a single model by assigning fusion weights. This proposed method allowed us to achieve 3rd place in the CVPR 2023 workshop of EPIC-SOUNDS Audio-Based Interaction Recognition Challenge.
翻訳日:2023-06-16 15:23:21 公開日:2023-06-15
# 大規模言語モデルを用いたMIT数学とEECSカリキュラムの探索

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models ( http://arxiv.org/abs/2306.08997v1 )

ライセンス: Link先を確認
Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori(参考訳) 学位取得に必要なmit数学・電気工学・コンピュータサイエンス(eecs)コース全体を対象に,問題集合,中間試験,最終試験から4,550の質問とソリューションの包括的なデータセットを収集した。 我々は,MITの数学・脳科学専攻の卒業要件を満たすために,大規模言語モデルの能力を評価する。 その結果, GPT-3.5はMITのカリキュラム全体の3分の1を解くのに成功し, GPT-4は迅速なエンジニアリングにより, 画像に基づく質問を除いたテストセット上で完璧に解けることがわかった。 このデータセットにオープンソースの大言語モデルを微調整します。 我々は、GPT-4を用いて、モデル応答を自動的に評価し、コース、質問、回答タイプによる詳細なパフォーマンス分解を提供する。 質問を低次元空間に埋め込むことにより,質問,話題,クラス間の関係を探究し,他の質問やクラスを解決するのに必要な質問やクラスを,わずかな学習を通じて発見する。 本分析は,言語モデルが数学とEECS教育を学習し,改善する可能性を強調し,授業の前提条件とカリキュラム設計に関する貴重な知見を提供する。

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.
翻訳日:2023-06-16 15:23:08 公開日:2023-06-15
# ニューラルネットワークを用いたステアリングホイールのハンズオン検出

Hands-on detection for steering wheels with neural networks ( http://arxiv.org/abs/2306.09044v1 )

ライセンス: Link先を確認
Michael Hollmer and Andreas Fischer(参考訳) 本稿では,機械学習に基づくハンズオン検出アルゴリズムの概念を提案する。 手検出は静電容量法を用いてハードウェア側に実装される。 ステアリングホイール内のセンサマットは、運転者の手が近づくとすぐにキャパシティの変化を検出する。 ハンズオンやハンドオフの状況に関する評価と最終決定は、機械学習を用いて行われる。 適切な機械学習モデルを見つけるために、異なるモデルを実装して評価する。 精度、メモリ消費、計算作業に基づいて、最も有望なものが選択され、マイクロコントローラに移植される。 システム全体が信頼性と応答時間の観点から評価される。

In this paper the concept of a machine learning based hands-on detection algorithm is proposed. The hand detection is implemented on the hardware side using a capacitive method. A sensor mat in the steering wheel detects a change in capacity as soon as the driver's hands come closer. The evaluation and final decision about hands-on or hands-off situations is done using machine learning. In order to find a suitable machine learning model, different models are implemented and evaluated. Based on accuracy, memory consumption and computational effort the most promising one is selected and ported on a micro controller. The entire system is then evaluated in terms of reliability and response time.
翻訳日:2023-06-16 15:16:53 公開日:2023-06-15
# レシピによる常識推論のための図形形式主義

A Graphical Formalism for Commonsense Reasoning with Recipes ( http://arxiv.org/abs/2306.09042v1 )

ライセンス: Link先を確認
Antonis Bikakis, Aissatou Diallo, Luke Dickens, Anthony Hunter, and Rob Miller(参考訳) 料理は非常に重要な人間の活動であるが、推論の枠組みでレシピを形式化する方法についてはほとんど考慮されていない。 このニーズに対処するために、コンベチブル(食用、中間食品、最終製品)をキャプチャするグラフィカルな形式化と、ラベル付き二部グラフの形でコンベチブルに対するアクションを提案する。 次に,レシピの比較,サブレシピからのレシピ作成,レシピをサブレシピに分解するための形式的定義を提案する。 また,具材が不足している場合や動作ができない場合,あるいは最終製品を変更する必要があるため,レシピに代入するための2つの形式的な定義を導入し,比較した。

Whilst cooking is a very important human activity, there has been little consideration given to how we can formalize recipes for use in a reasoning framework. We address this need by proposing a graphical formalization that captures the comestibles (ingredients, intermediate food items, and final products), and the actions on comestibles in the form of a labelled bipartite graph. We then propose formal definitions for comparing recipes, for composing recipes from subrecipes, and for deconstructing recipes into subrecipes. We also introduce and compare two formal definitions for substitution into recipes which are required when there are missing ingredients, or some actions are not possible, or because there is a need to change the final product somehow.
翻訳日:2023-06-16 15:16:46 公開日:2023-06-15
# 高パスフィルタ前処理による畳み込みオートエンコーダによる画像追跡の改善

Improving Image Tracing with Convolutional Autoencoders by High-Pass Filter Preprocessing ( http://arxiv.org/abs/2306.09039v1 )

ライセンス: Link先を確認
Zineddine Bettouche and Andreas Fischer(参考訳) ラスター画像をベクトル表現に変換する過程は、イメージトレースとして知られている。 本研究では,画像の抽象表現を抽出するために,ハイパスフィルタリング,自動エンコーディング,ベクトル化などの処理手法を検討する。 結果によると、オートエンコーダで画像を再構築し、ハイパスフィルタリングし、ベクトル化することで、ベクトル化プロセスの有効性を高めながら、より抽象的に画像を表現することができる。

The process of transforming a raster image into a vector representation is known as image tracing. This study looks into several processing methods that include high-pass filtering, autoencoding, and vectorization to extract an abstract representation of an image. According to the findings, rebuilding an image with autoencoders, high-pass filtering it, and then vectorizing it can represent the image more abstractly while increasing the effectiveness of the vectorization process.
翻訳日:2023-06-16 15:16:31 公開日:2023-06-15
# マルチパス属性マッピングによる非交叉表現の説明可能性の向上

Improving Explainability of Disentangled Representations using Multipath-Attribution Mappings ( http://arxiv.org/abs/2306.09035v1 )

ライセンス: Link先を確認
Lukas Klein, Jo\~ao B. S. Carvalho, Mennatallah El-Assady, Paolo Penna, Joachim M. Buhmann, Paul F. Jaeger(参考訳) 説明可能なAIは、人間によって理解可能なモデル行動を記述することを目的としており、相関パターンから因果関係を抽出する中間段階と見なすことができる。 画像ベースの臨床診断における致命的な決定のリスクが高いため、これらの安全クリティカルシステムに説明可能なAIを統合する必要がある。 現在の説明法は通常、入力画像内の画素領域に属性スコアを割り当て、モデル決定の重要性を示す。 しかし、なぜビジュアル機能を使用するのかを説明すると不足する。 下流タスク予測に解釈不能な不整合表現を利用するフレームワークを提案する。 乱れた表現を視覚化することで、専門家はドメインの知識を活用して因果効果について調査できる。 さらに、説明の充実と検証のためのマルチパス属性マッピングをデプロイする。 提案手法の有効性を,総合ベンチマークスイートと2つの医療データセットで実証する。 このフレームワークは因果関係抽出の触媒として機能するだけでなく,分布シフト下でのテストを行うことなく近道検出を可能にし,モデルのロバスト性を高める。

Explainable AI aims to render model behavior understandable by humans, which can be seen as an intermediate step in extracting causal relations from correlative patterns. Due to the high risk of possible fatal decisions in image-based clinical diagnostics, it is necessary to integrate explainable AI into these safety-critical systems. Current explanatory methods typically assign attribution scores to pixel regions in the input image, indicating their importance for a model's decision. However, they fall short when explaining why a visual feature is used. We propose a framework that utilizes interpretable disentangled representations for downstream-task prediction. Through visualizing the disentangled representations, we enable experts to investigate possible causation effects by leveraging their domain knowledge. Additionally, we deploy a multi-path attribution mapping for enriching and validating explanations. We demonstrate the effectiveness of our approach on a synthetic benchmark suite and two medical datasets. We show that the framework not only acts as a catalyst for causal relation extraction but also enhances model robustness by enabling shortcut detection without the need for testing under distribution shifts.
翻訳日:2023-06-16 15:16:22 公開日:2023-06-15
# キックスピン鎖の量子カオス性

Characterizing quantum chaoticity of kicked spin chains ( http://arxiv.org/abs/2306.09034v1 )

ライセンス: Link先を確認
Tabea Herrmann, Maximilian F. I. Kieler, Arnd B\"acker(参考訳) 量子多体系は、レベル間隔分布のようなスペクトル統計がランダム行列理論のものと一致する場合、一般に量子カオスと見なされる。 蹴られたイジングチェインの例を用いて、階層間隔分布と固有ベクトル統計がランダム行列予測とよく一致するとしても、エントロピーは期待されたページ曲線から逸脱することを示した。 この観察を説明するために, 有効スピン相互作用の新しい尺度を提案し, 対応するランダム行列結果を得る。 これにより、エンタングルメントエントロピーの偏差は、RTTと比較して$k$-スピン相互作用の挙動が著しく異なることに起因する。

Quantum many-body systems are commonly considered as quantum chaotic if their spectral statistics, such as the level spacing distribution, agree with those of random matrix theory. Using the example of the kicked Ising chain we demonstrate that even if both level spacing distribution and eigenvector statistics agree well with random matrix predictions, the entanglement entropy deviates from the expected Page curve. To explain this observation we propose a new measure of the effective spin interactions and obtain the corresponding random matrix result. By this the deviations of the entanglement entropy can be attributed to significantly different behavior of the $k$-spin interactions compared to RMT.
翻訳日:2023-06-16 15:16:04 公開日:2023-06-15
# Diplomat: プラグマティック推論のための対話データセット

Diplomat: A Dialogue Dataset for Situated PragMATic Reasoning ( http://arxiv.org/abs/2306.09030v1 )

ライセンス: Link先を確認
Hengli Li, Songchun Zhu, Zilong Zheng(参考訳) 実用的推論は、実生活で一般的に起こる暗黙的な意味を解消することを目的としており、コミュニケーション的社会的エージェントを構築する上で重要である。 実践的推論と位置的会話理解のための統一パラダイムを目的とした,新たなベンチマークであるDiplomatを導入する。 異なる表現(例:メタファー、サルカズム)を個々のタスクとして扱う以前の作品と比較すると、外交官は一般的な実用的理解への統一的な理解を提供する。 我々のデータセットはAmazon Mechanical Turk (AMT) を用いて作成され、4,177のマルチターンダイアログが生成される。 データセットと合わせて,実用的識別と推論,会話的質問応答という2つのタスクを提案する。 State-of-the-art(SOTA)ニューラルアーキテクチャによる実験結果が示す。 1) 大規模言語モデル (LLM) では, 主観的話題では性能が低かった。 2)人間と機械の相互作用を構築する上で,コンテキスト理解は重要な要素である。 3) 実用的推論の適用における現在のモデル欠陥 その結果, 文脈理解, 推論, 含意的意味モデリングの能力向上により多くの注意が向けられるようになった。

Pragmatic reasoning aims at resolving implicit meanings that commonly occur in real-life and is crucial for building communicative social agents. We introduce a new benchmark, Diplomat, aiming at a unified paradigm for pragmatic reasoning and situated conversational understanding. Compared with previous works that treat different figurative expressions (e.g., metaphor, sarcasm) as individual tasks, Diplomat provides a unified understanding towards general pragmatic understanding. Our dataset is created using Amazon Mechanical Turk ( AMT ), resulting in 4, 177 multi-turn dialogues. In company with the dataset, we propose two tasks: Pragmatic Identification and Reasoning and Conversational Question Answering. Experimental results with state-of-the-art (SOTA) neural architectures demonstrate that: 1) large language models ( LLMs) show poor performances in this subjective topic. 2) Context understanding is a crucial factor in building benign human-machine interaction. 3) Current models defect in the application of pragmatic reasoning. As a result, we call on more attention to improve the ability of context understanding, reasoning and implied meaning modeling.
翻訳日:2023-06-16 15:15:52 公開日:2023-06-15
# coverhunter: 注意とアライメントを洗練したカバーソングの識別

CoverHunter: Cover Song Identification with Refined Attention and Alignments ( http://arxiv.org/abs/2306.09025v1 )

ライセンス: Link先を確認
Feng Liu, Deyi Tuo, Yinan Xu, Xintong Han(参考訳) Abstract: Cover song Identification (CSI)は、クエリトラックが与えられた参照アンカーで異なるバージョンで同じ音楽を見つけることに焦点を当てている。 本稿では,注目度とアライメントを改良したリッチな特徴を探索することにより,既存の検出手法の欠点を克服するCoverHunterというシステムを提案する。 coverhunterには3つの重要なモジュールがある。 1) 畳み込みニューラルネットワークを主とする従来の方法と対照的に,局所的及び大域的特徴的相互作用をキャプチャする畳み込み案内トランス(コンフォーメータ)構造 2) 時間次元の注意をさらに活用する注意に基づくタイムプーリングモジュール 3)まず,曲のチャンクを大まかに整えるようにネットワークを訓練し,その後,整列したチャンクを訓練してネットワークを洗練する,新たな粗粒度訓練方式を提案する。 同時に、より優れた結果を得るために、システムで使用される重要なトレーニングトリックを要約します。 いくつかの標準CSIデータセットを用いた実験では,組込みサイズが128(SHS100K-TESTで2.3%,DaTacosで17.7%)の最先端手法よりも大幅に改善されている。

Abstract: Cover song identification (CSI) focuses on finding the same music with different versions in reference anchors given a query track. In this paper, we propose a novel system named CoverHunter that overcomes the shortcomings of existing detection schemes by exploring richer features with refined attention and alignments. CoverHunter contains three key modules: 1) A convolution-augmented transformer (i.e., Conformer) structure that captures both local and global feature interactions in contrast to previous methods mainly relying on convolutional neural networks; 2) An attention-based time pooling module that further exploits the attention in the time dimension; 3) A novel coarse-to-fine training scheme that first trains a network to roughly align the song chunks and then refines the network by training on the aligned chunks. At the same time, we also summarize some important training tricks used in our system that help achieve better results. Experiments on several standard CSI datasets show that our method significantly improves over state-of-the-art methods with an embedding size of 128 (2.3% on SHS100K-TEST and 17.7% on DaTacos).
翻訳日:2023-06-16 15:15:35 公開日:2023-06-15
# 5ドルのlandau-zenerモデルの解法とsu-schrieffer-heeger鎖への応用

Solution of a $5$-state Landau-Zener model and applications to Su-Schrieffer-Heeger chains ( http://arxiv.org/abs/2306.09023v1 )

ライセンス: Link先を確認
Rongyu Hu, Fuxiang Li, and Chen Sun(参考訳) 積分可能性法では解けない5ドルのランダウ・ツェナーモデルについて検討する。 散乱行列上の解析的制約を解析し、Schr\"{o}dinger方程式の数値シミュレーションの結果に適合させることにより、その遷移確率のほぼ正確な解析的表現を求める。 さらに、このモデルを用いて、時間に線形に結合が変化する5ドルのSu-Schrieffer-Heeger鎖を研究する。 本研究は,多状態ランダウ・ツェナーモデルが必ずしも可積分ではなく,散乱行列に対する制約が不足していることを指摘する。

We study a $5$-state Landau-Zener model which cannot be solved by integrability methods. By analyzing analytical constraints on its scattering matrix combined with fitting to results from numerical simulations of the Schr\"{o}dinger equation, we find nearly exact analytical expressions of all its transition probabilities. We further apply this model to study a $5$-site Su-Schrieffer-Heeger chain with couplings changing linearly in time. Our work points out a new possibility to solve multistate Landau-Zener models not necessarily integrable and with insufficient numbers of constraints on their scattering matrices.
翻訳日:2023-06-16 15:15:12 公開日:2023-06-15
# 局所的特徴量に基づく視覚定位のための制約付き近距離近傍

Yes, we CANN: Constrained Approximate Nearest Neighbors for local feature-based visual localization ( http://arxiv.org/abs/2306.09012v1 )

ライセンス: Link先を確認
Dror Aiger, Andr\'e Araujo, Simon Lynen(参考訳) 大規模なビジュアルローカライズシステムは、画像収集から構築された3dポイントクラウドに引き続き依存する。 これらのモデルの3dポイントは局所的な画像特徴を用いて表現されるが、クエリ画像のローカル特徴とポイントクラウドとの直接マッチングは、最寄りの検索問題の規模のため困難である。 視覚的ローカライゼーションに対する最近の多くのアプローチでは、まずグローバルな(画像ごとの)埋め込みを用いてデータベースイメージの小さなサブセットを検索し、クエリの局所的特徴をそれらに対してマッチングするハイブリッド手法が提案されている。 各クエリイメージに2つの特徴型を計算しなければならないという大きな欠点があるにも関わらず、グローバルな埋め込みは、視覚的ローカライゼーションにおいてそのイメージ検索に不可欠である、という一般的な信念になったようだ。 本稿では, この仮定から一歩引いて, 局所特徴のみを用いて, k-アネレスト近傍の連立解法であるConstrained Approximate Nearest Neighbors (CANN)を提案する。 我々はまず,複数のメトリクスをまたいだk-nearest-neighbor検索の理論的基礎を導出し,CANNが視覚的ローカライゼーションをどのように改善するかを示す。 公開ローカライズベンチマークを用いた実験により,本手法が最先端のグローバル特徴量ベース検索と局所特徴集約方式のアプローチを両立することを示した。 さらに、これらのデータセットの特徴集約スキームよりも、インデックスとクエリ時間の両方で桁違いに高速である。 コードはリリースされる。

Large-scale visual localization systems continue to rely on 3D point clouds built from image collections using structure-from-motion. While the 3D points in these models are represented using local image features, directly matching a query image's local features against the point cloud is challenging due to the scale of the nearest-neighbor search problem. Many recent approaches to visual localization have thus proposed a hybrid method, where first a global (per image) embedding is used to retrieve a small subset of database images, and local features of the query are matched only against those. It seems to have become common belief that global embeddings are critical for said image-retrieval in visual localization, despite the significant downside of having to compute two feature types for each query image. In this paper, we take a step back from this assumption and propose Constrained Approximate Nearest Neighbors (CANN), a joint solution of k-nearest-neighbors across both the geometry and appearance space using only local features. We first derive the theoretical foundation for k-nearest-neighbor retrieval across multiple metrics and then showcase how CANN improves visual localization. Our experiments on public localization benchmarks demonstrate that our method significantly outperforms both state-of-the-art global feature-based retrieval and approaches using local feature aggregation schemes. Moreover, it is an order of magnitude faster in both index and query time than feature aggregation schemes for these datasets. Code will be released.
翻訳日:2023-06-16 15:14:59 公開日:2023-06-15
# CAD-Estate:RGBビデオにおける大規模CADモデルアノテーション

CAD-Estate: Large-scale CAD Model Annotation in RGB Videos ( http://arxiv.org/abs/2306.09011v1 )

ライセンス: Link先を確認
Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。 データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。 本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。 多くのステップが自動的に実行され、人間が行うタスクは単純で、よく特定されており、3dでは限定的な推論しか必要ありません。 これにより、クラウドソーシングが実現可能となり、YouTubeから不動産ビデオに注釈を付けることで、大規模なデータセットの構築を可能にしました。 われわれのデータセットCAD-Estateは、21Kビデオの3D表現に配置された12KユニークなCADモデルの108Kインスタンスを提供する。 Scan2CADはCADモデルアノテーションを実シーンで使用する最大規模のデータセットであるのに対し、CAD-Estateには8倍のインスタンスと4倍のユニークなCADモデルがある。 CAD-Estate上でのMask2CADモデルの事前学習による3次元オブジェクトの自動再構成とポーズ推定の利点を示し、それが人気のあるScan2CADベンチマークの改善につながることを示す。 データは2023年7月中旬までに公表します。

We propose a method for annotating videos of complex multi-object scenes with a globally-consistent 3D representation of the objects. We annotate each object with a CAD model from a database, and place it in the 3D coordinate frame of the scene with a 9-DoF pose transformation. Our method is semi-automatic and works on commonly-available RGB videos, without requiring a depth sensor. Many steps are performed automatically, and the tasks performed by humans are simple, well-specified, and require only limited reasoning in 3D. This makes them feasible for crowd-sourcing and has allowed us to construct a large-scale dataset by annotating real-estate videos from YouTube. Our dataset CAD-Estate offers 108K instances of 12K unique CAD models placed in the 3D representations of 21K videos. In comparison to Scan2CAD, the largest existing dataset with CAD model annotations on real scenes, CAD-Estate has 8x more instances and 4x more unique CAD models. We showcase the benefits of pre-training a Mask2CAD model on CAD-Estate for the task of automatic 3D object reconstruction and pose estimation, demonstrating that it leads to improvements on the popular Scan2CAD benchmark. We will release the data by mid July 2023.
翻訳日:2023-06-16 15:14:14 公開日:2023-06-15
# 埋め込みデモデータセットにおける探索による行動クローニング

Behavioral Cloning via Search in Embedded Demonstration Dataset ( http://arxiv.org/abs/2306.09082v1 )

ライセンス: Link先を確認
Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik(参考訳) 振る舞いクローンは、行動ポリシーを学ぶためにデモのデータセットを使用する。 様々な学習と政策適応の問題を克服するために,潜在空間を用いて実演データセットをインデックス化し,類似した体験に即座にアクセスし,これらの状況から行動のコピーを行う。 選択された類似状況からのアクションは、エージェントの現在の状況の表現と選択された経験が潜時空間に分散するまで、エージェントによって実行される。 そこで我々は,専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。 我々は,ビデオPreTrainingモデルの潜在表現におけるBASALT MineRL-datasetに対するアプローチを検証した。 われわれのモデルを最先端のMinecraftエージェントと比較する。 提案手法は,多種多様なシナリオにおいて,有意義なデモンストレーションを効果的に再現し,Minecraft環境におけるエージェントの人間的行動を示す。 実験の結果,提案手法の性能は訓練モデルに匹敵するものの,実演例の変更によるゼロショットタスク適応が可能であった。

Behavioural cloning uses a dataset of demonstrations to learn a behavioural policy. To overcome various learning and policy adaptation problems, we propose to use latent space to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent's current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a search problem over a dataset of experts' demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video PreTraining model. We compare our model to state-of-the-art Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach is comparable to trained models, while allowing zero-shot task adaptation by changing the demonstration examples.
翻訳日:2023-06-16 15:06:26 公開日:2023-06-15
# Web of Things and Trends in Agriculture: A Systematic Literature Review

Web of Things and Trends in Agriculture: A Systematic Literature Review ( http://arxiv.org/abs/2306.09079v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Shamyla Riaz, Atif Alvi(参考訳) ここ数年、Web of Things(WOT)は、そのサービスを提供することで、モノのインターネット(IoT)農業アプリケーション問題に対する革新的で有望なソリューションを導入し、農業領域において有益なゲーム変更技術となった。 WOTは、統合、異種デバイス、インフラストラクチャ、プラットフォーム、および他の様々な技術の出現に対する相互運用性をサポートする。 本研究の主な目的は,WOTを基盤とした農業に関する,成長途上かつ既存の研究内容,課題,方向性の理解と提供である。 そこで,2010年から2020年にかけて発行された論文を,研究タイプ,アプローチ,適用領域に分類することで,研究論文の体系的文献レビュー(SLR)を行う。 農業分野におけるwotソリューションに関する最新の論文のレビューとは別に,wotベースの農業応用ドメインの分類も紹介されている。 WOTベースのスマート農業のイメージを示すモデルも提示されている。 最後に、このSLRの発見とオープンな問題の観点からの研究ギャップが示され、今後の研究に向けた今後の方向性が示唆されている。

In the past few years, the Web of Things (WOT) became a beneficial game-changing technology within the Agriculture domain as it introduces innovative and promising solutions to the Internet of Things (IoT) agricultural applications problems by providing its services. WOT provides the support for integration, interoperability for heterogeneous devices, infrastructures, platforms, and the emergence of various other technologies. The main aim of this study is about understanding and providing a growing and existing research content, issues, and directions for the future regarding WOT-based agriculture. Therefore, a systematic literature review (SLR) of research articles is presented by categorizing the selected studies published between 2010 and 2020 into the following categories: research type, approaches, and their application domains. Apart from reviewing the state-of-the-art articles on WOT solutions for the agriculture field, a taxonomy of WOT-base agriculture application domains has also been presented in this study. A model has also presented to show the picture of WOT based Smart Agriculture. Lastly, the findings of this SLR and the research gaps in terms of open issues have been presented to provide suggestions on possible future directions for the researchers for future research.
翻訳日:2023-06-16 15:06:11 公開日:2023-06-15
# E-Calib: イベントカメラ用の高速でロバストで正確なキャリブレーションツールボックス

E-Calib: A Fast, Robust and Accurate Calibration Toolbox for Event Cameras ( http://arxiv.org/abs/2306.09078v1 )

ライセンス: Link先を確認
Mohammed Salah, Abdulla Ayyad, Muhammad Humais, Daniel Gehrig, Abdelqader Abusafieh, Lakmal Seneviratne, Davide Scaramuzza, and Yahya Zweiri(参考訳) イベントカメラは、その非同期性、低レイテンシ、高ダイナミックレンジによって、コンピュータビジョンコミュニティのパラダイムシフトを引き起こした。 イベントカメラの校正は、センサ固有のパラメータと3D知覚のために必要不可欠である。 しかし,従来のイメージベースキャリブレーション技術は,センサの非同期なバイナリ出力のために適用できない。 イベントカメラのキャリブレーションの現在の標準は、点滅パターンまたはイベントベースの画像再構成アルゴリズムに依存する。 これらのアプローチは工場環境ではデプロイが困難であり、キャリブレーション性能を低下させるノイズやアーティファクトに影響される。 これらの制約を補うために,非対称な円格子を用いたイベントカメラのための,新しい,高速で,堅牢で,正確なキャリブレーションツールボックスであるE-Calibを紹介した。 提案手法は,異なるイベントカメラモデル,異なる幾何学的性質を持つ円格子,および困難な照明条件下での各種厳密な実験で検証された。 その結果,本手法は,検出成功率,再投射誤差,外部パラメータの推定精度において,最先端の手法よりも優れていた。

Event cameras triggered a paradigm shift in the computer vision community delineated by their asynchronous nature, low latency, and high dynamic range. Calibration of event cameras is always essential to account for the sensor intrinsic parameters and for 3D perception. However, conventional image-based calibration techniques are not applicable due to the asynchronous, binary output of the sensor. The current standard for calibrating event cameras relies on either blinking patterns or event-based image reconstruction algorithms. These approaches are difficult to deploy in factory settings and are affected by noise and artifacts degrading the calibration performance. To bridge these limitations, we present E-Calib, a novel, fast, robust, and accurate calibration toolbox for event cameras utilizing the asymmetric circle grid, for its robustness to out-of-focus scenes. The proposed method is tested in a variety of rigorous experiments for different event camera models, on circle grids with different geometric properties, and under challenging illumination conditions. The results show that our approach outperforms the state-of-the-art in detection success rate, reprojection error, and estimation accuracy of extrinsic parameters.
翻訳日:2023-06-16 15:05:51 公開日:2023-06-15
# 2次元アノテーションによる3次元空間構造の推定

Estimating Generic 3D Room Structures from 2D Annotations ( http://arxiv.org/abs/2306.09077v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Stefan Popov, Kevis-Kokitsi Maninis, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 室内の部屋は3Dシーン理解において最も一般的なユースケースである。 このタスクの現在の最先端メソッドは、大きな注釈付きデータセットによって駆動される。 部屋のレイアウトは特に重要で、壁、床、天井などの3d構造要素で構成されている。 しかし、特に純粋なRGBビデオではアノテートが困難である。 そこで本研究では,人間のアノテートが容易な2次元セグメンテーションマスクから,汎用的な3次元部屋レイアウトを生成する手法を提案する。 これらの2次元アノテーションに基づいて,シーン内の構造要素とその空間範囲の3次元平面方程式を自動再構成し,隣接要素を適切な接点で接続する。 我々は、YouTubeビデオを含むRealEstate10kデータセットに2266の3Dルームレイアウトを注釈で公開しています。 我々は,これら3dレイアウトアノテーションの高品質を広範囲な実験で実証する。

Indoor rooms are among the most common use cases in 3D scene understanding. Current state-of-the-art methods for this task are driven by large annotated datasets. Room layouts are especially important, consisting of structural elements in 3D, such as wall, floor, and ceiling. However, they are difficult to annotate, especially on pure RGB video. We propose a novel method to produce generic 3D room layouts just from 2D segmentation masks, which are easy to annotate for humans. Based on these 2D annotations, we automatically reconstruct 3D plane equations for the structural elements and their spatial extent in the scene, and connect adjacent elements at the appropriate contact edges. We annotate and publicly release 2266 3D room layouts on the RealEstate10k dataset, containing YouTube videos. We demonstrate the high quality of these 3D layouts annotations with extensive experiments.
翻訳日:2023-06-16 15:05:31 公開日:2023-06-15
# cvpr2023視覚異常の勝利解と新奇性検出課題 : データ中心異常検出のためのマルチモーダルプロンプト

Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection ( http://arxiv.org/abs/2306.09067v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen(参考訳) この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND) チャレンジに対するチーム \textit{Segment Any Anomaly} の勝利ソリューションを紹介します。 ユニモーダルプロンプト (uni-modal prompt, \textit{e.g}, language prompt) を超えて、新しいフレームワーク \textit{i.e.}, segment any anomaly + (saa$+$), for zero-shot anomaly segmentation with multi-modal prompts for regularization for the regularization of cascaded modern foundation models。 Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。 その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。 提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。 私たちは、cvpr2023 vand challengeの勝利ソリューションのコードを、 \href{segment-any-anomaly}{https://github.com/caoyunkang/segment-any-anomaly} \footnote{ ~\cite{cao2023segment}でリリースします。 }

This technical report introduces the winning solution of the team \textit{Segment Any Anomaly} for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge. Going beyond uni-modal prompt, \textit{e.g.}, language prompt, we present a novel framework, \textit{i.e.}, Segment Any Anomaly + (SAA$+$), for zero-shot anomaly segmentation with multi-modal prompts for the regularization of cascaded modern foundation models. Inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly (SAA) to leverage diverse multi-modal prior knowledge for anomaly localization. Subsequently, we further introduce multimodal prompts (SAA$+$) derived from domain expert knowledge and target image context to enable the non-parameter adaptation of foundation models to anomaly segmentation. The proposed SAA$+$ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will release the code of our winning solution for the CVPR2023 VAND challenge at \href{Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly} \footnote{The extended-version paper with more details is available at ~\cite{cao2023segment}.}
翻訳日:2023-06-16 15:05:18 公開日:2023-06-15
# 単語埋め込みバイアス推定における不確実性に対するベイズ的アプローチ

A Bayesian approach to uncertainty in word embedding bias estimation ( http://arxiv.org/abs/2306.09066v1 )

ライセンス: Link先を確認
Alicja Dobrzeniecka and Rafal Urbaniak(参考訳) WEAT や MAC のような複数の測度は、単語の埋め込みに存在するバイアスの大きさを1つの数字のメートル法で定量化しようとする。 しかし、これらの測定値と関連する統計学的意義計算は、予め平均されたデータを個々のデータポイントとして扱い、サンプルサイズの低いブートストラップ技術を用いる。 このような方法では,データに意図したバイアスを欠いたヌルモデルが生成した場合でも,同様の結果が容易に得られることを示す。 したがって、このアプローチは偽の自信を生み出すと論じる。 この問題に対処するために,様々な粒度で単語埋め込みのバイアスをより不確実性に敏感な検査を可能にする階層ベイズモデリングを提案する。 提案手法を紹介するために,本手法を原研究の宗教,ジェンダー,レースの単語リストに適用し,中立語リストの制御を行う。 Google、Glove、Redditの埋め込みを使ってメソッドをデプロイします。 さらに,redditの単語埋め込みに適用するデバイアス手法を評価するために,提案手法を利用する。 以上の結果から,単数指標の提唱者より複雑な景観が示唆された。 論文のデータセットとソースコードが公開されている。

Multiple measures, such as WEAT or MAC, attempt to quantify the magnitude of bias present in word embeddings in terms of a single-number metric. However, such metrics and the related statistical significance calculations rely on treating pre-averaged data as individual data points and employing bootstrapping techniques with low sample sizes. We show that similar results can be easily obtained using such methods even if the data are generated by a null model lacking the intended bias. Consequently, we argue that this approach generates false confidence. To address this issue, we propose a Bayesian alternative: hierarchical Bayesian modeling, which enables a more uncertainty-sensitive inspection of bias in word embeddings at different levels of granularity. To showcase our method, we apply it to Religion, Gender, and Race word lists from the original research, together with our control neutral word lists. We deploy the method using Google, Glove, and Reddit embeddings. Further, we utilize our approach to evaluate a debiasing technique applied to Reddit word embedding. Our findings reveal a more complex landscape than suggested by the proponents of single-number metrics. The datasets and source code for the paper are publicly available.
翻訳日:2023-06-16 15:04:42 公開日:2023-06-15
# アナロジーによる学習: 数学語問題における多様な質問生成

Learning by Analogy: Diverse Questions Generation in Math Word Problem ( http://arxiv.org/abs/2306.09064v1 )

ライセンス: Link先を確認
Zihao Zhou, Maizhen Ning, Qiufeng Wang, Jie Yao, Wei Wang, Xiaowei Huang, Kaizhu Huang(参考訳) AI技術を用いた数学語問題(MWP)の解法は、最近ディープニューラルネットワーク(DNN)の成功によって大きな進歩を遂げているが、その解決には程遠い。 アナロジーによる学習の能力は、mwpソルバが様々な方法で定式化されるであろう同じ問題をより良く理解するためには不可欠であると主張する。 しかし、既存のほとんどの研究は、単問のサンプルに基づいてMWPソルバを訓練するためにショートカット学習を利用している。 多様な質問の欠如にもかかわらず、これらの方法は単に浅いヒューリスティックを学ぶだけである。 本稿では,MWPを多様だが一貫した問合せ/解法を生成することで,MWPの解法を初めて試みる。 シナリオ記述、質問、方程式(すなわち、答え)を含む典型的なMWPが与えられたとき、ヒューリスティックなルールの群を通じて、まず複数の一貫した方程式を生成する。 次に、シナリオと共に質問生成器に供給し、対応する多様な質問を取得し、様々な質問と方程式を持つ新しいMWPを形成する。 そして最後に、不合理なMWPを取り除き、高品質な拡張機能を維持するために、データフィルタを使う。 MWPソルバのアナロジーによる学習能力を評価するため,現在のベンチマークであるMath23Kを拡張したMWPデータセット(DiverseMath23K)を作成した。 広範な実験結果から,提案手法は対応する方程式を用いて高品質な多様な質問を生成でき,さらにmath23kの性能向上に繋がることが示された。 コードとデータセットは、https://github.com/zhouzihao501/DiverseMWPで公開されている。

Solving math word problem (MWP) with AI techniques has recently made great progress with the success of deep neural networks (DNN), but it is far from being solved. We argue that the ability of learning by analogy is essential for an MWP solver to better understand same problems which may typically be formulated in diverse ways. However most existing works exploit the shortcut learning to train MWP solvers simply based on samples with a single question. In lack of diverse questions, these methods merely learn shallow heuristics. In this paper, we make a first attempt to solve MWPs by generating diverse yet consistent questions/equations. Given a typical MWP including the scenario description, question, and equation (i.e., answer), we first generate multiple consistent equations via a group of heuristic rules. We then feed them to a question generator together with the scenario to obtain the corresponding diverse questions, forming a new MWP with a variety of questions and equations. Finally we engage a data filter to remove those unreasonable MWPs, keeping the high-quality augmented ones. To evaluate the ability of learning by analogy for an MWP solver, we generate a new MWP dataset (called DiverseMath23K) with diverse questions by extending the current benchmark Math23K. Extensive experimental results demonstrate that our proposed method can generate high-quality diverse questions with corresponding equations, further leading to performance improvement on Diverse-Math23K. The code and dataset is available at: https://github.com/zhouzihao501/DiverseMWP
翻訳日:2023-06-16 15:04:21 公開日:2023-06-15
# 快適で安全な自動運転のための深部強化学習(PMP-DRL)による予測型マニキュア計画

Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL) for comfortable and safe autonomous driving ( http://arxiv.org/abs/2306.09055v1 )

ライセンス: Link先を確認
Jayabrata Chowdhury, Vishruth Veerendranath, Suresh Sundaram, Narasimhan Sundararajan(参考訳) 本稿では,深層強化学習(pmp-drl)モデルを用いた予測的操作計画法を提案する。 従来のルールベースのオペレーティングプランニングアプローチは、現実の運転シナリオのバリエーションを扱う能力を改善する必要があることが多い。 その経験から学ぶことで、強化学習(RL)ベースの運転エージェントは、運転条件の変化に適応し、時間とともにその性能を向上させることができる。 提案手法は, 予測モデルとRLエージェントを組み合わせて, 快適で安全な操作を計画する。 予測モデルは、他の周辺車両の将来の位置を予測するために、過去の運転データを用いて訓練される。 周辺車両の過去と予測される将来の位置は、コンテキスト対応グリッドマップに埋め込まれている。 同時に、rlエージェントは、この時空間的コンテキスト情報に基づいて操作することを学ぶ。 NGSIM US101およびI80データセットから生成されたシミュレーション環境を用いて,PMP-DRLの性能評価を行った。 トレーニングシーケンスは、運転経験の継続的な改善を示す。 提案したPMP-DRLは安全性と快適性の間のトレードオフを学習できることを示す。 近年の模倣学習モデルによる決定は、未確認シナリオに対する提案したPMP-DRLと比較される。 その結果、PMP-DRLは複雑な現実世界のシナリオを処理でき、ルールベースや模倣モデルよりも快適で安全な操作判断ができることがわかった。

This paper presents a Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL) model for maneuver planning. Traditional rule-based maneuver planning approaches often have to improve their abilities to handle the variabilities of real-world driving scenarios. By learning from its experience, a Reinforcement Learning (RL)-based driving agent can adapt to changing driving conditions and improve its performance over time. Our proposed approach combines a predictive model and an RL agent to plan for comfortable and safe maneuvers. The predictive model is trained using historical driving data to predict the future positions of other surrounding vehicles. The surrounding vehicles' past and predicted future positions are embedded in context-aware grid maps. At the same time, the RL agent learns to make maneuvers based on this spatio-temporal context information. Performance evaluation of PMP-DRL has been carried out using simulated environments generated from publicly available NGSIM US101 and I80 datasets. The training sequence shows the continuous improvement in the driving experiences. It shows that proposed PMP-DRL can learn the trade-off between safety and comfortability. The decisions generated by the recent imitation learning-based model are compared with the proposed PMP-DRL for unseen scenarios. The results clearly show that PMP-DRL can handle complex real-world scenarios and make better comfortable and safe maneuver decisions than rule-based and imitative models.
翻訳日:2023-06-16 15:03:53 公開日:2023-06-15
# 変圧器による出版データに基づく地図研究者の活動

Mapping Researcher Activity based on Publication Data by means of Transformers ( http://arxiv.org/abs/2306.09049v1 )

ライセンス: Link先を確認
Zineddine Bettouche and Andreas Fischer(参考訳) いくつかの自然言語処理(NLP)タスクのモダンなパフォーマンスは、Transformerベースの事前訓練言語モデルBERTのおかげで向上した。 我々はこの概念を地域出版データベースの調査に用いている。 研究論文はエンコードされ、クラスタ化され、研究が活発な科学トピックのランドスケープビューを形成する。 類似したトピックを扱う著者は、論文間の類似性を計算することで識別することができる。 これに基づいて著者間の類似度指標を定義する。 また,著者の主題的多様性を示すために,自己相似性の概念を導入する。

Modern performance on several natural language processing (NLP) tasks has been enhanced thanks to the Transformer-based pre-trained language model BERT. We employ this concept to investigate a local publication database. Research papers are encoded and clustered to form a landscape view of the scientific topics, in which research is active. Authors working on similar topics can be identified by calculating the similarity between their papers. Based on this, we define a similarity metric between authors. Additionally we introduce the concept of self-similarity to indicate the topical variety of authors.
翻訳日:2023-06-16 15:03:31 公開日:2023-06-15
# オフラインデータにアクセスできるバンディットにおける最適最適腕識別

Optimal Best-Arm Identification in Bandits with Access to Offline Data ( http://arxiv.org/abs/2306.09048v1 )

ライセンス: Link先を確認
Shubhada Agrawal, Sandeep Juneja, Karthikeyan Shanmugam, Arun Sai Suggala(参考訳) オフラインデータに基づく学習パラダイムと、逐次オンライン学習のみに基づく学習パラダイムは、文献でよく研究されている。 本稿では,オフラインデータとオンライン学習を組み合わせることを検討する。 私たちは、確率的なk$-armed bandit問題を考える。私たちの目標は、オフラインデータの存在下でarmを最も高い平均値で識別することであり、信頼度は1-\delta$である。 このような1-\delta$確率的正当性保証を提供するポリシーについて、下限の分析を行う。 我々は$\delta$ が小さい場合、サンプル複雑性の下限に合致するアルゴリズムを開発する。 我々のアルゴリズムは平均的なサンプル当たりの取得コストが$\tilde{O}(K)$で計算的に効率的であり、低い境界問題の最適条件の注意深い評価に頼っている。

Learning paradigms based purely on offline data as well as those based solely on sequential online learning have been well-studied in the literature. In this paper, we consider combining offline data with online learning, an area less studied but of obvious practical importance. We consider the stochastic $K$-armed bandit problem, where our goal is to identify the arm with the highest mean in the presence of relevant offline data, with confidence $1-\delta$. We conduct a lower bound analysis on policies that provide such $1-\delta$ probabilistic correctness guarantees. We develop algorithms that match the lower bound on sample complexity when $\delta$ is small. Our algorithms are computationally efficient with an average per-sample acquisition cost of $\tilde{O}(K)$, and rely on a careful characterization of the optimality conditions of the lower bound problem.
翻訳日:2023-06-16 15:03:25 公開日:2023-06-15
# 非平衡拡散Schr\"オーディンガーブリッジ

Unbalanced Diffusion Schr\"odinger Bridge ( http://arxiv.org/abs/2306.09099v1 )

ライセンス: Link先を確認
Matteo Pariset, Ya-Ping Hsieh, Charlotte Bunne, Andreas Krause, Valentin De Bortoli(参考訳) Schr\"odinger Bridges (SBs) は、物理的、化学的、生物学的システムの個体群の時間的進化をモデル化するためのエレガントな枠組みを提供する。 このような自然の過程は、一般的に、新種の出現や生死の出来事によって、時間とともに人口の大きさが変化する。 しかしながら、拡散Schr\"odinger Bridges (DSBs) のような既存のSBの神経パラメータ化は、確率過程の終端が確率測度であり、質量制約の保存を前提とする設定に制限される。 この制限に対処するために、任意の有限質量を持つ辺の時間的進化をモデル化する不均衡DSBを導入する。 これは、確率微分方程式の時間反転と、殺生項の導出によって達成される。 非バランスなDSBを訓練するためのスケーラブルな目的関数を構成する2つの新しいアルゴリズムスキームを提案し、様々ながん薬物に対する異種分子シングルセル応答の予測と新しいウイルス変異の出現と拡散をシミュレートするための挑戦的な応用と並行して理論的解析を行った。

Schr\"odinger bridges (SBs) provide an elegant framework for modeling the temporal evolution of populations in physical, chemical, or biological systems. Such natural processes are commonly subject to changes in population size over time due to the emergence of new species or birth and death events. However, existing neural parameterizations of SBs such as diffusion Schr\"odinger bridges (DSBs) are restricted to settings in which the endpoints of the stochastic process are both probability measures and assume conservation of mass constraints. To address this limitation, we introduce unbalanced DSBs which model the temporal evolution of marginals with arbitrary finite mass. This is achieved by deriving the time reversal of stochastic differential equations with killing and birth terms. We present two novel algorithmic schemes that comprise a scalable objective function for training unbalanced DSBs and provide a theoretical analysis alongside challenging applications on predicting heterogeneous molecular single-cell responses to various cancer drugs and simulating the emergence and spread of new viral variants.
翻訳日:2023-06-16 14:57:01 公開日:2023-06-15
# Contrast, Stylize and Adapt: ドメイン適応セマンティックセマンティックセグメンテーションのための教師なしコントラスト学習フレームワーク

Contrast, Stylize and Adapt: Unsupervised Contrastive Learning Framework for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2306.09098v1 )

ライセンス: Link先を確認
Tianyu Li, Subhankar Roy, Huayi Zhou, Hongtao Lu, Stephane Lathuiliere(参考訳) 合成データセットと実世界のデータセットのドメインギャップを克服するため、意味的セグメンテーションのための教師なし領域適応法が提案されている。 以前のアプローチの大多数は、2つのコンポーネントが正に相互作用するという事実を無視して、ピクセルレベルでも特徴レベルでもギャップを減らそうとしている。 そこで本研究では,画素と特徴レベルでの領域ギャップを埋めるためのコントラスト的特徴量と画素アライメント(confeti)を提案する。 画素レベルのアライメントは、共同で訓練されたスタイル転送モジュールと原型的セマンティクスの整合性によって達成され、特徴レベルのアライメントは \textbf{pixel-to-prototype contrast} でクロスドメイン機能に適用される。 提案手法はDeepLabV2を用いた既存の最先端手法よりも優れていることを示す。 私たちのコードはhttps://github.com/cxa9264/CONFETIで利用可能です。

To overcome the domain gap between synthetic and real-world datasets, unsupervised domain adaptation methods have been proposed for semantic segmentation. Majority of the previous approaches have attempted to reduce the gap either at the pixel or feature level, disregarding the fact that the two components interact positively. To address this, we present CONtrastive FEaTure and pIxel alignment (CONFETI) for bridging the domain gap at both the pixel and feature levels using a unique contrastive formulation. We introduce well-estimated prototypes by including category-wise cross-domain information to link the two alignments: the pixel-level alignment is achieved using the jointly trained style transfer module with the prototypical semantic consistency, while the feature-level alignment is enforced to cross-domain features with the \textbf{pixel-to-prototype contrast}. Our extensive experiments demonstrate that our method outperforms existing state-of-the-art methods using DeepLabV2. Our code is available at https://github.com/cxa9264/CONFETI
翻訳日:2023-06-16 14:56:40 公開日:2023-06-15
# ハイブリッドデータと物理駆動による電気機械の多目的最適化

Multi-Objective Optimization of Electrical Machines using a Hybrid Data-and Physics-Driven Approach ( http://arxiv.org/abs/2306.09096v1 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops, Peter Theisinger(参考訳) 磁気静電有限要素シミュレーション(FE)は、設計段階で非常に時間がかかり、計算集約的な電気機械の数値最適化を行う。 本稿では,永久磁石同期機(pmsm)の数値最適化におけるハイブリッドデータと物理駆動モデルの適用について述べる。 data-driven supervised trainingに続いて、deep neural network (dnn) は中間fe測定値の予測によってpmsmの電磁的挙動を特徴付けるメタモデルとして機能する。 これらの中間測度は、必要なキーパフォーマンス指標(KPI)、例えばトルク、シャフトパワー、材料コストを計算するために、様々な物理モデルで後処理される。 自然に着想を得た進化的アルゴリズムを用いて,古典的FEとハイブリッドアプローチの両方を用いて多目的最適化を行う。 提案手法は,従来の FE シミュレーションに基づく最適化よりも,計算コストが非常に低く,Pareto の質を向上することを示す。

Magneto-static finite element (FE) simulations make numerical optimization of electrical machines very time-consuming and computationally intensive during the design stage. In this paper, we present the application of a hybrid data-and physics-driven model for numerical optimization of permanent magnet synchronous machines (PMSM). Following the data-driven supervised training, deep neural network (DNN) will act as a meta-model to characterize the electromagnetic behavior of PMSM by predicting intermediate FE measures. These intermediate measures are then post-processed with various physical models to compute the required key performance indicators (KPIs), e.g., torque, shaft power, and material costs. We perform multi-objective optimization with both classical FE and a hybrid approach using a nature-inspired evolutionary algorithm. We show quantitatively that the hybrid approach maintains the quality of Pareto results better or close to conventional FE simulation-based optimization while being computationally very cheap.
翻訳日:2023-06-16 14:56:17 公開日:2023-06-15
# 水波を用いたアナログ・物理貯留層計算

Analogue and Physical Reservoir Computing Using Water Waves ( http://arxiv.org/abs/2306.09095v1 )

ライセンス: Link先を確認
Ivan S. Maksymov(参考訳) 35億人以上が田園部に住んでおり、水と水資源が持続可能な農業経済の維持に重要な役割を果たしている。 本稿では,水波の特異な物理特性とエネルギーによって駆動されるアナログ計算と貯水池計算の最近の進歩をレビューし,批判的に分析する。 また、アナログと貯水池コンピューティングは、大都市外に住む人々に人工知能を近づける可能性を秘めており、これにより、既に大都市で機能するが、地域社会では容易に利用できない新しい技術の恩恵を享受することができる。

More than 3.5 billion people live in rural areas, where water and water energy resources play an important role in ensuring sustainable and productive rural economies. This article reviews and critically analyses the recent advances in the field of analogue and reservoir computing that have been driven by unique physical properties and energy of water waves. It also demonstrates that analogue and reservoir computing hold the potential to bring artificial intelligence closer to people living outside large cities, thus enabling them to enjoy the benefits of novel technologies that already work in large cities but are not readily available and suitable for regional communities.
翻訳日:2023-06-16 14:56:03 公開日:2023-06-15
# Macaw-LLM:画像、オーディオ、ビデオ、テキストの統合によるマルチモーダル言語モデリング

Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration ( http://arxiv.org/abs/2306.09093v1 )

ライセンス: Link先を確認
Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu, Zefeng Du, Shuming Shi, Zhaopeng Tu(参考訳) 命令調整型大規模言語モデル(llm)は様々なnlpタスクにおいて顕著な性能を示したが、テキスト以外のデータモダリティに対する効果は十分に研究されていない。 本研究では,視覚,音声,テキスト情報をシームレスに統合するマルチモーダルLLMであるMacaw-LLMを提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。 我々の新しいアライメントモジュールは、マルチモーダル特徴をテキスト特徴にシームレスにブリッジし、モダリティモジュールから認知モジュールへの適応プロセスを簡素化する。 さらに,69k画像インスタンスと50kビデオインスタンスを含むマルチターン対話の観点から,大規模マルチモーダル命令データセットを構築する。 我々は、データ、コード、モデルを公開し、マルチモーダル LLM における将来の研究の道を開き、多種多様なデータモダリティに対処し、複雑な実世界のシナリオに対処する LLM の機能を拡張することを望んでいます。

Although instruction-tuned large language models (LLMs) have exhibited remarkable capabilities across various NLP tasks, their effectiveness on other data modalities beyond text has not been fully studied. In this work, we propose Macaw-LLM, a novel multi-modal LLM that seamlessly integrates visual, audio, and textual information. Macaw-LLM consists of three main components: a modality module for encoding multi-modal data, a cognitive module for harnessing pretrained LLMs, and an alignment module for harmonizing diverse representations. Our novel alignment module seamlessly bridges multi-modal features to textual features, simplifying the adaptation process from the modality modules to the cognitive module. In addition, we construct a large-scale multi-modal instruction dataset in terms of multi-turn dialogue, including 69K image instances and 50K video instances. We have made our data, code and model publicly available, which we hope can pave the way for future research in multi-modal LLMs and expand the capabilities of LLMs to handle diverse data modalities and address complex real-world scenarios.
翻訳日:2023-06-16 14:55:51 公開日:2023-06-15
# 多目的量子熱力学

Multipurpose Quantum Thermodynamic Operations ( http://arxiv.org/abs/2306.09088v1 )

ライセンス: Link先を確認
Joe Dunlop, Federico Cerisola, Jorge Tabanera-Bravo, and Janet Anders(参考訳) 近年の研究では、単一入力状態に作用する量子演算の熱力学的コストの確立に焦点が当てられている。 しかし、量子的あるいは古典的情報処理は、複数の入力状態を異なる対応する出力に変換するチャネルに依存している。 refで。 [1] 複数の入力に対する作業抽出の限界の存在が証明された。 しかし, 最適多目的操作の構築方法については具体的な規定はなく, 散布作業の上限も与えられなかった。 qubitsの洞察に富んだケースでは、複数の状態に対する作業抽出を実装するための明示的なプロトコルを提供します。 われわれはまず、そのような変換の実行可能性に関する条件を立証する。 さらに,達成可能な作業抽出の定量化を行い,多目的運用に劇的なペナルティがあることを見出した。 本研究は,すべての量子情報処理タスクの熱力学的評価において,量子技術の発展に寄与する。

Much recent research has focused on establishing the thermodynamic cost of quantum operations acting on single input states. However, information processing, quantum or classical, relies on channels transforming multiple input states to different corresponding outputs. In Ref. [1] the existence of a bound on the work extraction for multiple inputs was proven. However, no specifics were provided for how optimal multipurpose operations may be constructed, and no upper limit on the dissipated work was given. For the insightful case of qubits, we here give explicit protocols to implement work extraction on multiple states. We first prove conditions on the feasibility of carrying out such transformations at all. Furthermore, we quantify the achievable work extraction, and find that there is a dramatic penalty for multipurpose operations. Our results will be relevant for the growing field of quantum technologies in the thermodynamic assessment of all quantum information processing tasks.
翻訳日:2023-06-16 14:55:29 公開日:2023-06-15
# 深層学習に基づく電気機械の多目的技術最適化のためのメタモデリング

Deep learning based Meta-modeling for Multi-objective Technology Optimization of Electrical Machines ( http://arxiv.org/abs/2306.09087v1 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops(参考訳) 回転電気機械の最適化は時間的にも計算的にも高価である。 異なるパラメトリゼーションのため、設計最適化は各機械技術ごとに個別に実行される。 本稿では,2つの異なる機械技術,すなわち非同期機械と永久磁石同期機を同時に最適化するための変分自動エンコーダ(VAE)の適用について述べる。 トレーニング後、ディープニューラルネットワークとデコーダをメタモデルとして、グローバルキーパフォーマンスインジケータ(kpi)を予測し、最適化ループ内の統一潜在空間を通じて、関連する新しい設計を生成する。 数値実験により、高次元設計空間における並列パラメトリック多目的技術最適化を示す。 VAEベースのアプローチは、KPI予測のための古典的なディープラーニングベースの直接アプローチと定量的に比較される。

Optimization of rotating electrical machines is both time- and computationally expensive. Because of the different parametrization, design optimization is commonly executed separately for each machine technology. In this paper, we present the application of a variational auto-encoder (VAE) to optimize two different machine technologies simultaneously, namely an asynchronous machine and a permanent magnet synchronous machine. After training, we employ a deep neural network and a decoder as meta-models to predict global key performance indicators (KPIs) and generate associated new designs, respectively, through unified latent space in the optimization loop. Numerical results demonstrate concurrent parametric multi-objective technology optimization in the high-dimensional design space. The VAE-based approach is quantitatively compared to a classical deep learning-based direct approach for KPIs prediction.
翻訳日:2023-06-16 14:55:17 公開日:2023-06-15
# 制御可能なポスターレイアウト生成のための関係認識拡散モデル

Relation-Aware Diffusion Model for Controllable Poster Layout Generation ( http://arxiv.org/abs/2306.09086v1 )

ライセンス: Link先を確認
Fengheng Li, An Liu, Wei Feng, Honghe Zhu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Jingping Shao(参考訳) ポスターレイアウトはポスターデザインの重要な側面である。 従来の手法は主に視覚内容とグラフィック要素の相関に焦点を当てていた。 しかし、快適なレイアウトは、視覚コンテンツとテキストコンテンツの関係と要素間の関係も考慮すべきである。 本研究では,これら2つの関係を生成プロセスに組み込んだポスターレイアウト生成のための関係認識拡散モデルを提案する。 まず,視覚表現とテキスト表現をモダリティ間で整合させ,テキスト情報伝達におけるレイアウトの有効性を高めるビジュアル・テキスト関係認識モジュールを考案する。 次に,文脈情報を包括的に考慮し,要素間の幾何関係を学習する幾何関係認識モジュールを提案する。 さらに,ユーザ制約に基づいて多様なレイアウトを生成する手法を提案する。 この分野の研究を進めるため,我々はcgl-dataset v2というポスターレイアウトデータセットを構築した。 提案手法はcgl-dataset v2の最先端手法よりも優れている。 データとコードはhttps://github.com/liuan0803/RADMで入手できる。

Poster layout is a crucial aspect of poster design. Prior methods primarily focus on the correlation between visual content and graphic elements. However, a pleasant layout should also consider the relationship between visual and textual contents and the relationship between elements. In this study, we introduce a relation-aware diffusion model for poster layout generation that incorporates these two relationships in the generation process. Firstly, we devise a visual-textual relation-aware module that aligns the visual and textual representations across modalities, thereby enhancing the layout's efficacy in conveying textual information. Subsequently, we propose a geometry relation-aware module that learns the geometry relationship between elements by comprehensively considering contextual information. Additionally, the proposed method can generate diverse layouts based on user constraints. To advance research in this field, we have constructed a poster layout dataset named CGL-Dataset V2. Our proposed method outperforms state-of-the-art methods on CGL-Dataset V2. The data and code will be available at https://github.com/liuan0803/RADM.
翻訳日:2023-06-16 14:55:04 公開日:2023-06-15
# COSA: 統合サンプル事前訓練型ビジョンランゲージ財団モデル

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model ( http://arxiv.org/abs/2306.09085v1 )

ライセンス: Link先を確認
Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu(参考訳) ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんどの視覚言語基礎モデルは事前学習に画像テキストデータセットを使用し、時間的意味表現や相関を無視しながら視覚的に意味表現をモデル化することに重点を置いている。 そこで我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。 COSAは、画像テキストコーパスのみを使用して、視覚内容と事象レベルの時間的手がかりを共同でモデル化する。 複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。 この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換し、よりリッチなシーン変換と明示的なイベント記述対応を可能にする。 大規模な実験により、COSAは、長文/短文ビデオテキストタスクや、検索、キャプション、質問応答などの画像テキストタスクなど、幅広い下流タスクのパフォーマンスを一貫して改善することを示した。 特に、COSAは様々な競合ベンチマークで最先端の結果を達成する。 コードとモデルはhttps://github.com/txh-mercury/cosaでリリースされている。

Due to the limited scale and quality of video-text training corpus, most vision-language foundation models employ image-text datasets for pretraining and primarily focus on modeling visually semantic representations while disregarding temporal semantic representations and correlations. To address this issue, we propose COSA, a COncatenated SAmple pretrained vision-language foundation model. COSA jointly models visual contents and event-level temporal cues using only image-text corpora. We achieve this by sequentially concatenating multiple image-text pairs as inputs for pretraining. This transformation effectively converts existing image-text corpora into a pseudo long-form video-paragraph corpus, enabling richer scene transformations and explicit event-description correspondence. Extensive experiments demonstrate that COSA consistently improves performance across a broad range of downstream tasks, including long-form/short-form video-text tasks and image-text tasks such as retrieval, captioning, and question answering. Notably, COSA achieves state-of-the-art results on various competitive benchmarks. Code and model are released at https://github.com/TXH-mercury/COSA.
翻訳日:2023-06-16 14:54:48 公開日:2023-06-15
# 大規模非線形開量子力学の数値シミュレーション

Numerical Simulation of Large-Scale Nonlinear Open Quantum Mechanics ( http://arxiv.org/abs/2306.09083v1 )

ライセンス: Link先を確認
Marc Roda-Llordes, Davide Candoli, Piotr T. Grochowski, Andreu Riera-Campeny, Thomas Agrenius, Juan Jos\'e Garc\'ia-Ripoll, Carlos Gonzalez-Ballestero, Oriol Romero-Isart(参考訳) 粒子の状態が位相空間プランクスケールで小さな量子的特徴を発生させながら位相空間を大きく拡大する状況において,粒子の非線形開量子力学をシミュレートする数値的手法を提案する。 我々のアプローチは、古典軌道の情報を利用して位相空間の量子状態を効率的に表現する時間依存フレームでウィグナー関数をシミュレートすることである。 本手法の可能性を実証するために, 1次元弱い四次ポテンシャルで進化する粒子の開量子力学を, 強い調和ポテンシャルで基底状態が冷却された後に検証する。 この数値的アプローチは、非線形量子力学による質量粒子の巨視的量子重ね合わせ状態の生成をターゲットとした実験の設計、最適化、理解の継続的な取り組みに特に関係している。

We introduce a numerical method to simulate nonlinear open quantum dynamics of a particle in situations where its state undergoes significant expansion in phase space while generating small quantum features at the phase-space Planck scale. Our approach involves simulating the Wigner function in a time-dependent frame that leverages information from the classical trajectory to efficiently represent the quantum state in phase space. To demonstrate the capabilities of our method, we examine the open quantum dynamics of a particle evolving in a one-dimensional weak quartic potential after initially being ground-state cooled in a tight harmonic potential. This numerical approach is particularly relevant to ongoing efforts to design, optimize, and understand experiments targeting the preparation of macroscopic quantum superposition states of massive particles through nonlinear quantum dynamics.
翻訳日:2023-06-16 14:54:30 公開日:2023-06-15
# UniOcc:幾何学的・意味的レンダリングによる視覚中心の3次元活動予測

UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering ( http://arxiv.org/abs/2306.09117v1 )

ライセンス: Link先を確認
Mingjie Pan, Li Liu, Jiaming Liu, Peixiang Huang, Longlong Wang, Shanghang Zhang, Shaoqing Xu, Zhiyi Lai, Kuiyuan Yang(参考訳) 本稿では,CVPR 2023 の nuScenes Open Dataset Challenge において,ビジョン中心の3D占有率予測トラックに UniOCC というソリューションを提案する。 既存の占有予測手法は主に、3次元占有ラベルを用いた3次元体積空間上の投影特徴の最適化に重点を置いている。 しかし、これらのラベルの生成プロセスは複雑で高価であり(3Dセマンティックアノテーションに基づく)、ボクセル分解によって制限されるため、微細な空間意味論は提供できない。 そこで本稿では,空間幾何学的制約を明示的に課し,ボリュームレイレンダリングによる細粒度な意味的監督を補完する,新しいuniocc予測手法を提案する。 提案手法はモデル性能を大幅に向上させ,人間のアノテーションコストを削減できる可能性を示した。 さらに, 3D に注釈を付けることの難しさを踏まえ, 未ラベルデータを用いた予測精度を高めるために, 深層学習者(DTS)フレームワークを導入する。 我々のソリューションは、単一のモデルで公式のリーダーボード上で51.27\% mIoUを達成する。

In this technical report, we present our solution, named UniOCC, for the Vision-Centric 3D occupancy prediction track in the nuScenes Open Dataset Challenge at CVPR 2023. Existing methods for occupancy prediction primarily focus on optimizing projected features on 3D volume space using 3D occupancy labels. However, the generation process of these labels is complex and expensive (relying on 3D semantic annotations), and limited by voxel resolution, they cannot provide fine-grained spatial semantics. To address this limitation, we propose a novel Unifying Occupancy (UniOcc) prediction method, explicitly imposing spatial geometry constraint and complementing fine-grained semantic supervision through volume ray rendering. Our method significantly enhances model performance and demonstrates promising potential in reducing human annotation costs. Given the laborious nature of annotating 3D occupancy, we further introduce a Depth-aware Teacher Student (DTS) framework to enhance prediction accuracy using unlabeled data. Our solution achieves 51.27\% mIoU on the official leaderboard with single model, placing 3rd in this challenge.
翻訳日:2023-06-16 14:46:27 公開日:2023-06-15
# 解剖学的アウェアマルチクラスセグメンテーションとトポロジー誘導反復学習によるctスキャンにおける正確な気道木セグメンテーション

Accurate Airway Tree Segmentation in CT Scans via Anatomy-aware Multi-class Segmentation and Topology-guided Iterative Learning ( http://arxiv.org/abs/2306.09116v1 )

ライセンス: Link先を確認
Puyang Wang, Dazhou Guo, Dandan Zheng, Minghui Zhang, Haogang Yu, Xin Sun, Jia Ge, Yun Gu, Le Lu, Xianghua Ye and Dakai Jin(参考訳) ctにおける胸腔内気道分画は、慢性閉塞性肺疾患(copd)、喘息、肺癌などの様々な呼吸器疾患解析の前提条件である。 より単純な形状やトポロジーを持つ他の器官とは異なり、気道の複雑な木構造は「地上の真実」ラベルを生成するのに耐え難い負担を負う(各ケースのマニュアルまたは半自動アノテーションの最大7時間か3時間)。 既存のairwayデータセットのほとんどが、不完全なラベル付け/注釈付けであり、コンピュータが指定したairwayの完全性を制限する。 本稿では, トポロジ誘導反復型自己学習により強化された, 解剖学的に認識可能なマルチクラスエアウェイセグメンテーション手法を提案する。 自然気道解剖学に基づいて,簡易かつ高効率な解剖学的アウェアマルチクラスセグメンテーションタスクを定式化し,気道の厳しいクラス内不均衡を直感的に処理する。 そこで本研究では,完全気道木に向かってセグメント化するための自動学習方式を提案する。 擬似ラベルを高感度に作成するために,新しい破れ注意マップを導入し,初期擬似ラベルからよく見られる破れ枝を反復的に接続してトポロジー誘導擬似ラベル精錬法を設計する。 2つの公的な課題を含む4つのデータセットで広範な実験が行われた。 提案手法は, 平均スコアとatm'22 チャレンジを重み付け平均スコアで, 完全'09 チャレンジで1位にランクした。 パブリックなBASデータセットとプライベートな肺がんデータセットでは,検出木長が7.5%以上,樹枝が4.0%以上であり,類似の精度を維持しつつ,先行するアプローチを大幅に改善する。

Intrathoracic airway segmentation in computed tomography (CT) is a prerequisite for various respiratory disease analyses such as chronic obstructive pulmonary disease (COPD), asthma and lung cancer. Unlike other organs with simpler shapes or topology, the airway's complex tree structure imposes an unbearable burden to generate the "ground truth" label (up to 7 or 3 hours of manual or semi-automatic annotation on each case). Most of the existing airway datasets are incompletely labeled/annotated, thus limiting the completeness of computer-segmented airway. In this paper, we propose a new anatomy-aware multi-class airway segmentation method enhanced by topology-guided iterative self-learning. Based on the natural airway anatomy, we formulate a simple yet highly effective anatomy-aware multi-class segmentation task to intuitively handle the severe intra-class imbalance of the airway. To solve the incomplete labeling issue, we propose a tailored self-iterative learning scheme to segment toward the complete airway tree. For generating pseudo-labels to achieve higher sensitivity , we introduce a novel breakage attention map and design a topology-guided pseudo-label refinement method by iteratively connecting breaking branches commonly existed from initial pseudo-labels. Extensive experiments have been conducted on four datasets including two public challenges. The proposed method ranked 1st in both EXACT'09 challenge using average score and ATM'22 challenge on weighted average score. In a public BAS dataset and a private lung cancer dataset, our method significantly improves previous leading approaches by extracting at least (absolute) 7.5% more detected tree length and 4.0% more tree branches, while maintaining similar precision.
翻訳日:2023-06-16 14:46:04 公開日:2023-06-15
# デュアルタスク対話言語理解のための関係時間グラフ推論

Relational Temporal Graph Reasoning for Dual-task Dialogue Language Understanding ( http://arxiv.org/abs/2306.09114v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) デュアルタスクダイアログ言語理解は、2つの相関ダイアログ言語理解タスクを同時に行うことを目的としている。 本稿では, 話者認識時空間グラフ (SATG) と二重タスク時空間グラフ (DRTG) を提案し, 対話理解と二重タスク時空間推論における関係時空間モデリングを容易にする。 さらに,暗黙のセマンティクスレベルインタラクションのみを実現する従来の作業とは異なり,予測レベルのインタラクションを統合することによって明示的な依存関係をモデル化することを提案する。 そこで本研究では,まずsatgの時間モデルを用いて,文脈,話者,時間に敏感な発話表現を生成する新しいモデルであるdarerを提案し,その上で,推定されたラベル分布が予測レベル相互作用の重要な手がかりとなるdrtg上で再帰的2タスク関係時間グラフ推論を行う。 DARERの時間関係モデリングはリレーショナル畳み込みネットワーク(RGCN)によって実現される。 さらに,Relational Temporal Transformer (ReTeFormer)を提案する。 そこで本稿では, SATG と DTRG の時間関係モデリングを実現するために, ReTeFormer (DARER2) を2種類採用した DARER を提案する。 さまざまなシナリオに関する広範な実験は、私たちのモデルが最先端のモデルよりも大きなマージンで優れていることを検証します。 注目すべきは、Mastodonデータセットのダイアログ感情分類タスクにおいて、DARERとDARER2はF1の28%と34%の相対的な改善を得たことである。

Dual-task dialog language understanding aims to tackle two correlative dialog language understanding tasks simultaneously via leveraging their inherent correlations. In this paper, we put forward a new framework, whose core is relational temporal graph reasoning.We propose a speaker-aware temporal graph (SATG) and a dual-task relational temporal graph (DRTG) to facilitate relational temporal modeling in dialog understanding and dual-task reasoning. Besides, different from previous works that only achieve implicit semantics-level interactions, we propose to model the explicit dependencies via integrating prediction-level interactions. To implement our framework, we first propose a novel model Dual-tAsk temporal Relational rEcurrent Reasoning network (DARER), which first generates the context-, speaker- and temporal-sensitive utterance representations through relational temporal modeling of SATG, then conducts recurrent dual-task relational temporal graph reasoning on DRTG, in which process the estimated label distributions act as key clues in prediction-level interactions. And the relational temporal modeling in DARER is achieved by relational convolutional networks (RGCNs). Then we further propose Relational Temporal Transformer (ReTeFormer), which achieves fine-grained relational temporal modeling via Relation- and Structure-aware Disentangled Multi-head Attention. Accordingly, we propose DARER with ReTeFormer (DARER2), which adopts two variants of ReTeFormer to achieve the relational temporal modeling of SATG and DTRG, respectively. The extensive experiments on different scenarios verify that our models outperform state-of-the-art models by a large margin. Remarkably, on the dialog sentiment classification task in the Mastodon dataset, DARER and DARER2 gain relative improvements of about 28% and 34% over the previous best model in terms of F1.
翻訳日:2023-06-16 14:45:30 公開日:2023-06-15
# 構造予測における認証一般化について

On Certified Generalization in Structured Prediction ( http://arxiv.org/abs/2306.09112v1 )

ライセンス: Link先を確認
Bastian Boll, Christoph Schn\"orr(参考訳) 構造化予測では、対象オブジェクトは独立成分に分解されず、一般的な仮定に反する豊富な内部構造を持つ。 この課題は、画像分割やシーングラフ生成といったアプリケーションにおける指数関数的に大きな出力空間を通じて明らかになる。 本稿では,構造化予測のための新しいpac-ベイズリスクを提示する。一般化の速度は,構造化例の数だけでなく,その大きさによってもスケールする。 生成モデルに関する現在進行中の研究に従えば、データは因子化基準測度のノッチ・ロセンブラット再配置によって生成されると仮定される。 これにより、ランダム出力変数間の構造をwasserstein依存性行列に明示的に蒸留することができる。 本研究は,構造化予測の難解な設定において,判別下流タスクの一般化境界を確立するために,強力な生成モデルを活用するための予備的なステップである。

In structured prediction, target objects have rich internal structure which does not factorize into independent components and violates common i.i.d. assumptions. This challenge becomes apparent through the exponentially large output space in applications such as image segmentation or scene graph generation. We present a novel PAC-Bayesian risk bound for structured prediction wherein the rate of generalization scales not only with the number of structured examples but also with their size. The underlying assumption, conforming to ongoing research on generative models, is that data are generated by the Knothe-Rosenblatt rearrangement of a factorizing reference measure. This allows to explicitly distill the structure between random output variables into a Wasserstein dependency matrix. Our work makes a preliminary step towards leveraging powerful generative models to establish generalization bounds for discriminative downstream tasks in the challenging setting of structured prediction.
翻訳日:2023-06-16 14:44:54 公開日:2023-06-15
# 機械学習によるサンプリングの強化:レビュー

Enhanced Sampling with Machine Learning: A Review ( http://arxiv.org/abs/2306.09111v1 )

ライセンス: Link先を確認
Shams Mehdi, Zachary Smith, Lukas Herron, Ziyue Zou and Pratyush Tiwary(参考訳) 分子動力学(md)は時空間分解能に優れた物理系の研究を可能にするが、時間スケールの厳しい制限に苦しむ。 これに対処するため、構成空間の探索を改善するために拡張サンプリング法が開発されている。 しかし、これらの実装は困難であり、ドメインの専門知識が必要です。 近年、さまざまなドメインにおける機械学習(ML)技術の統合は、将来性を示し、サンプリングの強化も促進されている。 MLは、主にデータ駆動性のために様々な分野で使用されることが多いが、強化されたサンプリングとの統合は、多くの基礎となるシナジーとより自然なものである。 本稿では,MLの融合とMDの強化について検討する。 この急速に発展するこの分野の包括的な概要を提供しており、更新を続けるのは難しい。 我々は,次元削減,強化学習,フローベース手法などの成功戦略を強調した。 最後に、エキサイティングなML強化MDインタフェースにおけるオープン問題について議論する。

Molecular dynamics (MD) enables the study of physical systems with excellent spatiotemporal resolution but suffers from severe time-scale limitations. To address this, enhanced sampling methods have been developed to improve exploration of configurational space. However, implementing these is challenging and requires domain expertise. In recent years, integration of machine learning (ML) techniques in different domains has shown promise, prompting their adoption in enhanced sampling as well. Although ML is often employed in various fields primarily due to its data-driven nature, its integration with enhanced sampling is more natural with many common underlying synergies. This review explores the merging of ML and enhanced MD by presenting different shared viewpoints. It offers a comprehensive overview of this rapidly evolving field, which can be difficult to stay updated on. We highlight successful strategies like dimensionality reduction, reinforcement learning, and flow-based methods. Finally, we discuss open problems at the exciting ML-enhanced MD interface.
翻訳日:2023-06-16 14:44:40 公開日:2023-06-15
# NAVI: 高品質な3次元形状とポスアノテーションを持つカテゴリ非依存画像コレクション

NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations ( http://arxiv.org/abs/2306.09109v1 )

ライセンス: Link先を確認
Varun Jampani, Kevis-Kokitsi Maninis, Andreas Engelhardt, Arjun Karpur, Karen Truong, Kyle Sargent, Stefan Popov, Andr\'e Araujo, Ricardo Martin-Brualla, Kaushal Patel, Daniel Vlasic, Vittorio Ferrari, Ameesh Makadia, Ce Liu, Yuanzhen Li, Howard Zhou(参考訳) ニューラル再構成の最近の進歩は、カジュアルにキャプチャされた画像コレクションから高品質な3Dオブジェクトの再構築を可能にする。 現在の技術は、比較的単純な画像収集の進捗を分析し、SfM(Structure-from-Motion)技術はGTカメラのポーズを提供することができる。 sfm技術は,背景や照明の異なる画像検索結果など,野生のイメージコレクションでは失敗する傾向がある。 カジュアル・イメージ・キャプチャーからの3D再構成を体系的に研究するために,高品質な3Dスキャンと画像毎の2D-3Dアライメントにより,ほぼ完璧なGTカメラパラメータを提供するNAVIを提案する。 これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。 NAVIイメージコレクションを異なる問題設定で使用し、NAVIが既存のデータセットでは不可能なより詳細な評価を可能にすることを示す。 NAVIは3次元再構成と対応推定の体系的な研究の進展に有用であると考えている。 プロジェクトページ: https://navidataset.github.io

Recent advances in neural reconstruction enable high-quality 3D object reconstruction from casually captured image collections. Current techniques mostly analyze their progress on relatively simple image collections where Structure-from-Motion (SfM) techniques can provide ground-truth (GT) camera poses. We note that SfM techniques tend to fail on in-the-wild image collections such as image search results with varying backgrounds and illuminations. To enable systematic research progress on 3D reconstruction from casual image captures, we propose NAVI: a new dataset of category-agnostic image collections of objects with high-quality 3D scans along with per-image 2D-3D alignments providing near-perfect GT camera parameters. These 2D-3D alignments allow us to extract accurate derivative annotations such as dense pixel correspondences, depth and segmentation maps. We demonstrate the use of NAVI image collections on different problem settings and show that NAVI enables more thorough evaluations that were not possible with existing datasets. We believe NAVI is beneficial for systematic research progress on 3D reconstruction and correspondence estimation. Project page: https://navidataset.github.io
翻訳日:2023-06-16 14:44:27 公開日:2023-06-15
# CheckThat 2023のKUCST: ジェネリックモデルでは,どの程度のメリットがあるのでしょう?

KUCST at CheckThat 2023: How good can we be with a generic model? ( http://arxiv.org/abs/2306.09108v1 )

ライセンス: Link先を確認
Manex Agirrezabal(参考訳) 本稿では,CheckThat2023共有タスクにおけるタスク2と3Aの手法を提案する。 我々は、著者の帰属やプロファイリングに触発された様々なタスクに対処するために、汎用的なアプローチを採用している。 さまざまな機械学習モデルをトレーニングした結果,グラデーションブースティングが両タスクで最高のパフォーマンスを示すことができた。 共有タスクオーガナイザが提供した公式ランキングに基づいて、我々のモデルは、他のチームと比べて平均的なパフォーマンスを示している。

In this paper we present our method for tasks 2 and 3A at the CheckThat2023 shared task. We make use of a generic approach that has been used to tackle a diverse set of tasks, inspired by authorship attribution and profiling. We train a number of Machine Learning models and our results show that Gradient Boosting performs the best for both tasks. Based on the official ranking provided by the shared task organizers, our model shows an average performance compared to other teams.
翻訳日:2023-06-16 14:44:03 公開日:2023-06-15
# 組み込みハードウェアプラットフォームにおけるオーディオタグ付け

Audio Tagging on an Embedded Hardware Platform ( http://arxiv.org/abs/2306.09106v1 )

ライセンス: Link先を確認
Gabriel Bibbo, Arshdeep Singh, Mark D. Plumbley(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々な音声分類タスクで最先端のパフォーマンスを示している。 しかし、リアルタイムデプロイメントは、組み込みシステムのようなリソース制約のあるデバイスでは依然として課題である。 本稿では,raspberry piなどのハードウェア上での音声パターン認識のために設計された大規模事前学習型音声ニューラルネットワークの性能変化について解析する。 我々は,CPU温度,マイクロホン品質,音声信号量が性能に与える影響を実証研究した。 実験の結果,連続CPU使用は温度が上昇し,Raspberry Piの自動減速機構が起動し,推論遅延に影響を及ぼすことがわかった。 マイクの品質、特にGoogle AIY Voice Kitのような安価なデバイスや音声信号のボリュームは、システムのパフォーマンスに影響を与えます。 調査の過程では,ライブラリの互換性やRaspberry Piのユニークなプロセッサアーキテクチャ要件に関連する重大な問題に遭遇し,従来のコンピュータ(PC)に比べてプロセスの単純さが低下した。 我々の観察は、課題を提示しながら、将来の研究者がよりコンパクトな機械学習モデルを開発し、熱散逸性ハードウェアを設計し、AIモデルがエッジデバイス上のリアルタイムアプリケーションにデプロイされたときに適切なマイクを選択するための道を開く。 関連するすべての資産とインタラクティブなデモがgithubで公開されている

Convolutional neural networks (CNNs) have exhibited state-of-the-art performance in various audio classification tasks. However, their real-time deployment remains a challenge on resource-constrained devices like embedded systems. In this paper, we analyze how the performance of large-scale pretrained audio neural networks designed for audio pattern recognition changes when deployed on a hardware such as Raspberry Pi. We empirically study the role of CPU temperature, microphone quality and audio signal volume on performance. Our experiments reveal that the continuous CPU usage results in an increased temperature that can trigger an automated slowdown mechanism in the Raspberry Pi, impacting inference latency. The quality of a microphone, specifically with affordable devices like the Google AIY Voice Kit, and audio signal volume, all affect the system performance. In the course of our investigation, we encounter substantial complications linked to library compatibility and the unique processor architecture requirements of the Raspberry Pi, making the process less straightforward compared to conventional computers (PCs). Our observations, while presenting challenges, pave the way for future researchers to develop more compact machine learning models, design heat-dissipative hardware, and select appropriate microphones when AI models are deployed for real-time applications on edge devices. All related assets and an interactive demo can be found on GitHub
翻訳日:2023-06-16 14:43:54 公開日:2023-06-15
# 新しい回帰アルゴリズムの性能評価と比較

Performance Evaluation and Comparison of a New Regression Algorithm ( http://arxiv.org/abs/2306.09105v1 )

ライセンス: Link先を確認
Sabina Gooljar, Kris Manohar and Patrick Hosein(参考訳) 近年、機械学習アルゴリズム、特に教師付き学習技術は回帰問題を解くのに非常に効果的であることが示されている。 我々は,新たに提案された回帰アルゴリズムの性能を,決定木,ランダムフォレスト,k-Nearest Neighbours,XG Boostの4つの従来の機械学習アルゴリズムと比較した。 提案アルゴリズムは以前の論文で詳細に示されたが、詳細な比較は含まれていない。 提案手法の大きな可能性と堅牢性を示すために,多種多様なデータセットセット上で,平均絶対誤差(MAE)をパフォーマンス指標として,詳細な比較を行う。 データセットが公開されている間、GitHubリポジトリにソースコードを提供したので、読者は結果を自由に複製できます。

In recent years, Machine Learning algorithms, in particular supervised learning techniques, have been shown to be very effective in solving regression problems. We compare the performance of a newly proposed regression algorithm against four conventional machine learning algorithms namely, Decision Trees, Random Forest, k-Nearest Neighbours and XG Boost. The proposed algorithm was presented in detail in a previous paper but detailed comparisons were not included. We do an in-depth comparison, using the Mean Absolute Error (MAE) as the performance metric, on a diverse set of datasets to illustrate the great potential and robustness of the proposed approach. The reader is free to replicate our results since we have provided the source code in a GitHub repository while the datasets are publicly available.
翻訳日:2023-06-16 14:43:36 公開日:2023-06-15
# マルコフ連鎖近似によるグラフ再構成攻撃の強化と防御について

On Strengthening and Defending Graph Reconstruction Attack with Markov Chain Approximation ( http://arxiv.org/abs/2306.09104v1 )

ライセンス: Link先を確認
Zhanke Zhou, Chenyu Zhou, Xuan Li, Jiangchao Yao, Quanming Yao, Bo Han(参考訳) 強力なグラフニューラルネットワーク(GNN)は、多くの現実世界のアプリケーションを強化しているが、潜在的なプライバシーリスクはまだ調査されていない。 このギャップを埋めるために,ノードの隣接性を再構築することを目的としたグラフ再構成攻撃の総合的研究を行った。 GNNにおける様々な要因が、驚くほどのプライベートリンクの漏洩につながる可能性があることを示す。 特に, GNNをマルコフ連鎖とし, フレキシブルチェーン近似を用いてGNNを攻撃することにより, グラフ再構成攻撃の基礎原理を体系的に検討し, よりプライベートな情報を抽出するための適応設計を用いたチェーンベース攻撃法, 2) 攻撃忠実度を適度に減少させるチェーンベース防御法という2つの情報理論誘導機構を提案する。 このような2つの目的は、攻撃においてより良く回復するためには、訓練されたGNNからより多面的な知識を抽出しなければなりません。 実証的に、6つのデータセットと3つの共通gnnで最先端の結果を得る。 コードはhttps://github.com/tmlr-group/MC-GRAで公開されている。

Although powerful graph neural networks (GNNs) have boosted numerous real-world applications, the potential privacy risk is still underexplored. To close this gap, we perform the first comprehensive study of graph reconstruction attack that aims to reconstruct the adjacency of nodes. We show that a range of factors in GNNs can lead to the surprising leakage of private links. Especially by taking GNNs as a Markov chain and attacking GNNs via a flexible chain approximation, we systematically explore the underneath principles of graph reconstruction attack, and propose two information theory-guided mechanisms: (1) the chain-based attack method with adaptive designs for extracting more private information; (2) the chain-based defense method that sharply reduces the attack fidelity with moderate accuracy loss. Such two objectives disclose a critical belief that to recover better in attack, you must extract more multi-aspect knowledge from the trained GNN; while to learn safer for defense, you must forget more link-sensitive information in training GNNs. Empirically, we achieve state-of-the-art results on six datasets and three common GNNs. The code is publicly available at: https://github.com/tmlr-group/MC-GRA.
翻訳日:2023-06-16 14:43:22 公開日:2023-06-15
# 一貫性のない記述論理を問合せするための不確かさの抽出

Exploiting Uncertainty for Querying Inconsistent Description Logics Knowledge Bases ( http://arxiv.org/abs/2306.09138v1 )

ライセンス: Link先を確認
Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi(参考訳) Description Logics Knowledge Bases (KBs) における矛盾を管理する必要性は、セマンティック・ウェブ(Semantic Web)によってもたらされる重要性の高まりに端を発している。 古典的推論アルゴリズムは一貫性のないKBを処理せず、矛盾を取り除くためにKBのデバッグを強制する。 本稿では,disPONTEと呼ばれる既存の確率論的セマンティクスを利用してこの問題を克服し,不整合KBに対してもクエリを許容する。 提案手法をTRILLとBUNDLEで実装し,提案手法の有効性を実証的に検証した。 さらに,提案手法を,DL推論タスクにおいて最も確立された意味論の一つである修復意味論と比較した。

The necessity to manage inconsistency in Description Logics Knowledge Bases (KBs) has come to the fore with the increasing importance gained by the Semantic Web, where information comes from different sources that constantly change their content and may contain contradictory descriptions when considered either alone or together. Classical reasoning algorithms do not handle inconsistent KBs, forcing the debugging of the KB in order to remove the inconsistency. In this paper, we exploit an existing probabilistic semantics called DISPONTE to overcome this problem and allow queries also in case of inconsistent KBs. We implemented our approach in the reasoners TRILL and BUNDLE and empirically tested the validity of our proposal. Moreover, we formally compare the presented approach to that of the repair semantics, one of the most established semantics when considering DL reasoning tasks.
翻訳日:2023-06-16 14:38:08 公開日:2023-06-15
# 対数ベイズレッグ境界

Logarithmic Bayes Regret Bounds ( http://arxiv.org/abs/2306.09136v1 )

ライセンス: Link先を確認
Alexia Atsidakou, Branislav Kveton, Sumeet Katariya, Constantine Caramanis, Sujay Sanghavi(参考訳) ベイズバンドに対する最初の有限時間対数後悔境界を導出する。 ガウスの包帯に対して、$O(c_h \log^2 n)$bound, ここで$c_h$は事前依存定数である。 これは lai (1987) の漸近下限に一致する。 私たちの証明は、以前の仕事から技術的な逸脱を示すものであり、単純で一般的です。 一般性を示すために,本手法を線形バンディットに適用する。 我々の境界は、目的と学習者に与えられる副情報の両方において、ベイズ設定における先行値の値に光を当てた。 それらは、既存の下限にもかかわらず、文献において標準となっている$\tilde{o}(\sqrt{n})$境界を大幅に改善する。

We derive the first finite-time logarithmic regret bounds for Bayesian bandits. For Gaussian bandits, we obtain a $O(c_h \log^2 n)$ bound, where $c_h$ is a prior-dependent constant. This matches the asymptotic lower bound of Lai (1987). Our proofs mark a technical departure from prior works, and are simple and general. To show generality, we apply our technique to linear bandits. Our bounds shed light on the value of the prior in the Bayesian setting, both in the objective and as a side information given to the learner. They significantly improve the $\tilde{O}(\sqrt{n})$ bounds, that despite the existing lower bounds, have become standard in the literature.
翻訳日:2023-06-16 14:37:53 公開日:2023-06-15
# 不均衡分類のための大マルジン損失の拡大

Enlarged Large Margin Loss for Imbalanced Classification ( http://arxiv.org/abs/2306.09132v1 )

ライセンス: Link先を確認
Sota Kato, Kazuhiro Hotta(参考訳) 不均衡分類のための新しい損失関数を提案する。 差分に基づく一般化境界を最小化するLDAM損失は、クラス不均衡画像分類に広く利用されている。 LDAM損失を用いることで,少数層に対する大きなマージンと多数層に対する小さなマージンを得ることができるが,元のソフトマックスクロスエントロピー損失に含まれる大きなマージンとの関連性はまだ明らかになっていない。 本研究では, LDAM損失の計算式をソフトプラス関数に基づく大幅軟マックスクロスエントロピー損失の概念を用いて再変換し, LDAM損失がソフトマックスクロスエントロピー損失よりも広いマージンを含むことを確認した。 さらに,ldam損失の大きなマージンをさらに拡大できる新しい拡大大マージン損失(elm)を提案する。 ELM損失はLDAM損失に使用される基本的なマージンに加えて、不正クラスの最大ロジットに対して大きなマージンを利用する。 非バランスなcifarデータセットとロングテール分布を持つ大規模データセットを用いた実験により、ldam損失と従来の不均衡分類の損失と比較して、分類精度が大幅に向上したことを確認した。

We propose a novel loss function for imbalanced classification. LDAM loss, which minimizes a margin-based generalization bound, is widely utilized for class-imbalanced image classification. Although, by using LDAM loss, it is possible to obtain large margins for the minority classes and small margins for the majority classes, the relevance to a large margin, which is included in the original softmax cross entropy loss, is not be clarified yet. In this study, we reconvert the formula of LDAM loss using the concept of the large margin softmax cross entropy loss based on the softplus function and confirm that LDAM loss includes a wider large margin than softmax cross entropy loss. Furthermore, we propose a novel Enlarged Large Margin (ELM) loss, which can further widen the large margin of LDAM loss. ELM loss utilizes the large margin for the maximum logit of the incorrect class in addition to the basic margin used in LDAM loss. Through experiments conducted on imbalanced CIFAR datasets and large-scale datasets with long-tailed distribution, we confirmed that classification accuracy was much improved compared with LDAM loss and conventional losses for imbalanced classification.
翻訳日:2023-06-16 14:37:41 公開日:2023-06-15
# エネルギー時系列解析と予測のための深層学習

Deep Learning for Energy Time-Series Analysis and Forecasting ( http://arxiv.org/abs/2306.09129v1 )

ライセンス: Link先を確認
Maria Tzelepi, Charalampos Symeonidis, Paraskevi Nousi, Efstratios Kakaletsis, Theodoros Manousis, Pavlos Tosidis, Nikos Nikolaidis and Anastasios Tefas(参考訳) エネルギー時系列分析(Energy time-series analysis)は、過去のエネルギー観測とおそらく外的要因を分析し、未来を予測するプロセスを記述する。 電力需要予測、パーソナライズされたエネルギー消費予測、再生可能エネルギー発生予測など、エネルギー時系列分析と予測の全般的な分野において、さまざまなタスクが関与している。 広範囲の視覚タスクにおけるDeep Learning(DL)の異常なパフォーマンスに続いて、DLモデルは時系列予測タスクでうまく活用されている。 本稿では,エネルギー時系列予測タスクの性能向上を目的とした多種多様なDL手法について,特にギリシャエネルギー市場に注目し,その実践に必要な知識を読者に提供することを目的とする。

Energy time-series analysis describes the process of analyzing past energy observations and possibly external factors so as to predict the future. Different tasks are involved in the general field of energy time-series analysis and forecasting, with electric load demand forecasting, personalized energy consumption forecasting, as well as renewable energy generation forecasting being among the most common ones. Following the exceptional performance of Deep Learning (DL) in a broad area of vision tasks, DL models have successfully been utilized in time-series forecasting tasks. This paper aims to provide insight into various DL methods geared towards improving the performance in energy time-series forecasting tasks, with special emphasis in Greek Energy Market, and equip the reader with the necessary knowledge to apply these methods in practice.
翻訳日:2023-06-16 14:37:19 公開日:2023-06-15
# フローと重み付き固有値を用いたグラフ分割の高速アルゴリズム

Fast Algorithms for Directed Graph Partitioning Using Flows and Reweighted Eigenvalues ( http://arxiv.org/abs/2306.09128v1 )

ライセンス: Link先を確認
Lap Chi Lau, Kam Chuen Tung, Robert Wang(参考訳) 再重み付けされた固有値の定式化に三角不等式を加えることによって得られる有向辺展開に対する新しい半定値プログラミング緩和を考える。 この緩和に行列乗算重み更新法を適用することで、有向エッジ拡張のための$O(\sqrt{\log{n}})$-approximationとCheeger型保証を実現するためのほぼ線形時間アルゴリズムと、有向グラフのためのカットマッチングゲームが導出される。 これは、有向グラフ分割のための最もよく知られたアルゴリズムを得るために、原始的フローベースのフレームワークを提供する。 同じアプローチは頂点展開やハイパーグラフにも有効であり、異なる拡張問題と異なるアルゴリズム技術に対して最もよく知られた結果を得るための単純で統一的なアプローチを提供する。

We consider a new semidefinite programming relaxation for directed edge expansion, which is obtained by adding triangle inequalities to the reweighted eigenvalue formulation. Applying the matrix multiplicative weight update method to this relaxation, we derive almost linear-time algorithms to achieve $O(\sqrt{\log{n}})$-approximation and Cheeger-type guarantee for directed edge expansion, as well as an improved cut-matching game for directed graphs. This provides a primal-dual flow-based framework to obtain the best known algorithms for directed graph partitioning. The same approach also works for vertex expansion and for hypergraphs, providing a simple and unified approach to achieve the best known results for different expansion problems and different algorithmic techniques.
翻訳日:2023-06-16 14:37:06 公開日:2023-06-15
# starss23: 音響イベントの時空間的注釈付き実シーンの空間的記録の視聴覚データセット

STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events ( http://arxiv.org/abs/2306.09126v1 )

ライセンス: Link先を確認
Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji(参考訳) マイクアレイに記録された多チャンネルオーディオデータから音のイベントの到着方向(doa)が推定されるのに対し、音のイベントは通常、視覚的に知覚可能な音源オブジェクト(例えば、歩行者の足元から足跡の音)に由来する。 本稿では,多チャンネル音声と映像情報を用いて対象音声イベントの時間的活性化とdoaを推定するseld(audio-visual sound event localization and detection)タスクを提案する。 音声-視覚suldシステムは、マイクロホンアレイからの信号と音声-視覚対応を使用して音声イベントを検出およびローカライズすることができる。 また、マイクロホンアレイ、ビデオデータ、時空間音の時空間アノテーションで記録されたマルチチャンネルオーディオデータからなる音声-視覚データセット、Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23)を導入する。 STARSS23の音声シーンは、参加者が適切な活動と音のイベントの発生を確実にするための指示と共に記録される。 STARSS23はまた、モーションキャプチャーシステムの追跡結果に基づいて、人間の注釈付き時間活性化ラベルと人間確認DOAラベルも提供する。 評価の結果,音声視覚SELDシステムは,音声のみのシステムよりもローカライゼーション誤差が低いことがわかった。 データはhttps://zenodo.org/record/7880637で入手できる。

While direction of arrival (DOA) of sound events is generally estimated from multichannel audio data recorded in a microphone array, sound events usually derive from visually perceptible source objects, e.g., sounds of footsteps come from the feet of a walker. This paper proposes an audio-visual sound event localization and detection (SELD) task, which uses multichannel audio and video information to estimate the temporal activation and DOA of target sound events. Audio-visual SELD systems can detect and localize sound events using signals from a microphone array and audio-visual correspondence. We also introduce an audio-visual dataset, Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23), which consists of multichannel audio data recorded with a microphone array, video data, and spatiotemporal annotation of sound events. Sound scenes in STARSS23 are recorded with instructions, which guide recording participants to ensure adequate activity and occurrences of sound events. STARSS23 also serves human-annotated temporal activation labels and human-confirmed DOA labels, which are based on tracking results of a motion capture system. Our benchmark results show that the audio-visual SELD system achieves lower localization error than the audio-only system. The data is available at https://zenodo.org/record/7880637.
翻訳日:2023-06-16 14:36:39 公開日:2023-06-15
# DIFFender:物理世界でのパッチ攻撃に対する拡散ベースの敵防衛

DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks in the Physical World ( http://arxiv.org/abs/2306.09124v1 )

ライセンス: Link先を確認
Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Hang Su, Xingxing Wei(参考訳) 物理世界の敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に重大な脅威をもたらす。 パッチアタックに対する信頼性の高い防御を開発することは、現実世界のアプリケーションには不可欠だが、この分野の現在の研究は極めて不足している。 本稿では,事前学習した拡散モデルを利用して,潜在的な敵パッチ攻撃に対する局所化と防御を行う新しい防御手法であるDIFFenderを提案する。 DIFFenderは2つの主要なステージからなるパイプラインとして設計されている。 ローカライゼーション段階では,拡散モデルの興味深い性質を利用して,敵パッチの位置を効果的に同定する。 復元段階では,視覚コンテンツの完全性を維持しつつ,画像内の逆領域を排除するためにテキスト誘導拡散モデルを用いる。 さらに,数発のプロンプトチューニングアルゴリズムを設計して,シンプルで効率的なチューニングを容易にし,学習した表現を下流のタスクに簡単に転送し,2つのステージを共同で最適化する。 画像分類と顔認識に関する広範囲な実験を行い,ディフェンダーが強い適応攻撃下で優れたロバスト性を示し,様々なシナリオ,多様な分類器,複数の攻撃方法にまたがる汎用性を示すことを示す。

Adversarial attacks in the physical world, particularly patch attacks, pose significant threats to the robustness and reliability of deep learning models. Developing reliable defenses against patch attacks is crucial for real-world applications, yet current research in this area is severely lacking. In this paper, we propose DIFFender, a novel defense method that leverages the pre-trained diffusion model to perform both localization and defense against potential adversarial patch attacks. DIFFender is designed as a pipeline consisting of two main stages: patch localization and restoration. In the localization stage, we exploit the intriguing properties of a diffusion model to effectively identify the locations of adversarial patches. In the restoration stage, we employ a text-guided diffusion model to eliminate adversarial regions in the image while preserving the integrity of the visual content. Additionally, we design a few-shot prompt-tuning algorithm to facilitate simple and efficient tuning, enabling the learned representations to easily transfer to downstream tasks, which optimize two stages jointly. We conduct extensive experiments on image classification and face recognition to demonstrate that DIFFender exhibits superior robustness under strong adaptive attacks and generalizes well across various scenarios, diverse classifiers, and multiple attack methods.
翻訳日:2023-06-16 14:35:54 公開日:2023-06-15
# ShorのファクタリングアルゴリズムとModular Exponentiation Operators:Pedagogical Presentation with Examples

Shor's Factoring Algorithm and Modular Exponentiation Operators: A Pedagogical Presentation with Examples ( http://arxiv.org/abs/2306.09122v1 )

ライセンス: Link先を確認
Robert L Singleton Jr(参考訳) これらはショアの分解アルゴリズムに関する教育的ノートであり、多項式時間で非常に大きな数(数百から数千ビット)を分解する量子アルゴリズムである。 対照的に、因数分解問題に対する既知のすべての古典的アルゴリズムは指数関数時間で大量の因数分解を行う。 これらのノートでは、量子コンピューティングの回路モデルに対する基本的な親和性以上のshorのアルゴリズムの事前知識を仮定する。 文学はショアのアルゴリズムの導出と解説で厚くなっているが、それらの多くは本質的な詳細に欠けており、教育的なプレゼンテーションを提供していない。 モジュラー指数(me)作用素の理論を,shorのアルゴリズムの基本成分の1つであり,量子資源のほとんどが展開される場所として,ある程度詳細に展開する。 また,me演算子の近似位相角からモジュラー指数関数の正確な周期を抽出するために,量子後処理と継続分数法についても検討した。 その後、写本は一連の例に移行した。 まず,shor のアルゴリズムでアクセス可能な最小数 n=15 を因子として定式化を検証する。 次に、より大きい数を分解し、任意の半素数$N = p \times q$(ここで$q$と~$p$は素数)の ME 演算子を見つける体系的な手順を開発する。 最後に、Qiskitシミュレータを用いて、N=21, 33, 35, 143, 247 を分解する。 ME演算子は幾分保留であり、切り詰められた近似形式は正確な演算子と同様に因子を抽出することができる。 これは、継続分数法が入力に近似位相値のみを必要とするためであり、これはショアのアルゴリズムの実装が最初に疑ったほど難しくないことを示唆している。

These are pedagogical notes on Shor's factoring algorithm, which is a quantum algorithm for factoring very large numbers (of order of hundreds to thousands of bits) in polynomial time. In contrast, all known classical algorithms for the factoring problem take an exponential time to factor large numbers. In these notes, we assume no prior knowledge of Shor's algorithm beyond a basic familiarity with the circuit model of quantum computing. The literature is thick with derivations and expositions of Shor's algorithm, but most of them seem to be lacking in essential details, and none of them provide a pedagogical presentation. We develop the theory of modular exponentiation (ME) operators in some detail, one of the fundamental components of Shor's algorithm, and the place where most of the quantum resources are deployed. We also discuss the post-quantum processing and the method of continued fractions, which is used to extract the exact period of the modular exponential function from the approximately measured phase angles of the ME operator. The manuscript then moves on to a series of examples. We first verify the formalism by factoring N=15, the smallest number accessible to Shor's algorithm. We then proceed to factor larger numbers, developing a systematic procedure that will find the ME operators for any semi-prime $N = p \times q$ (where $q$ and~$p$ are prime). Finally, we factor the numbers N=21, 33, 35, 143, 247 using the Qiskit simulator. It is observed that the ME operators are somewhat forgiving, and truncated approximate forms are able to extract factors just as well as the exact operators. This is because the method of continued fractions only requires an approximate phase value for its input, which suggests that implementing Shor's algorithm might not be as difficult as first suspected.
翻訳日:2023-06-16 14:35:23 公開日:2023-06-15
# 分割事項:GNNの性能向上のためのフラットミニマ法

The Split Matters: Flat Minima Methods for Improving the Performance of GNNs ( http://arxiv.org/abs/2306.09121v1 )

ライセンス: Link先を確認
Nicolas Lell and Ansgar Scherp(参考訳) ニューラルネットワークをトレーニングする場合、利用可能なトレーニングデータを使用して最適化される。 同じ絶対値では、損失ランドスケープの平坦な最小値は、シャープな最小値よりも良く一般化すると仮定される。 平坦な最小値を決定する手法は,画像などの独立かつ同一に分布するデータに対して研究されている。 グラフは本質的に非iである。 私は... d. 頂点はエッジに接続されている。 グラフニューラルネットワーク(gnns)の学習のためのフラットミニマ手法とそれらの組み合わせについて検討した。 GCNとGATを使用して、より多くのレイヤと大きなグラフを扱うようにGraph-MLPを拡張しています。 トランスダクティブトレーニングとインダクティブトレーニングの両方において,異なる列車間隔で,小規模かつ大規模な引用,共購入,およびタンパク質データセットの実験を行った。 実験結果から, 列車分割がランダム化される場合, 平坦なミニマ法はGNNモデルの性能を2点以上向上できることがわかった。 Shchurらに続いて、ランダム化された分割はGNNの公平な評価に不可欠であり、"Planetoid"のような他の(固定された)分割は偏りがある。 全体として、GNN上でのフラットなミニマメソッドの改良と評価に重要な洞察を提供する。 早期停止を使用する場合、特にewaでは、常に重量平均技術を使うことを推奨する。 ウェイト平均化技術は時として最高の手法であるが、ハイパーパラメータに敏感で、追加のトレーニングを必要とせず、元のモデルを変更しない。 すべてのソースコードはhttps://github.com/Foisunt/FMMs-in-GNNsで入手できる。

When training a Neural Network, it is optimized using the available training data with the hope that it generalizes well to new or unseen testing data. At the same absolute value, a flat minimum in the loss landscape is presumed to generalize better than a sharp minimum. Methods for determining flat minima have been mostly researched for independent and identically distributed (i. i. d.) data such as images. Graphs are inherently non-i. i. d. since the vertices are edge-connected. We investigate flat minima methods and combinations of those methods for training graph neural networks (GNNs). We use GCN and GAT as well as extend Graph-MLP to work with more layers and larger graphs. We conduct experiments on small and large citation, co-purchase, and protein datasets with different train-test splits in both the transductive and inductive training procedure. Results show that flat minima methods can improve the performance of GNN models by over 2 points, if the train-test split is randomized. Following Shchur et al., randomized splits are essential for a fair evaluation of GNNs, as other (fixed) splits like 'Planetoid' are biased. Overall, we provide important insights for improving and fairly evaluating flat minima methods on GNNs. We recommend practitioners to always use weight averaging techniques, in particular EWA when using early stopping. While weight averaging techniques are only sometimes the best performing method, they are less sensitive to hyperparameters, need no additional training, and keep the original model unchanged. All source code is available in https://github.com/Foisunt/FMMs-in-GNNs.
翻訳日:2023-06-16 14:34:53 公開日:2023-06-15
# 双曲表現学習:再考と発展

Hyperbolic Representation Learning: Revisiting and Advancing ( http://arxiv.org/abs/2306.09118v1 )

ライセンス: Link先を確認
Menglin Yang, Min Zhou, Rex Ying, Yankai Chen, Irwin King(参考訳) 双曲空間の非ユークリッド幾何学は近年、表現学習の領域でかなりの注目を集めている。 双曲表現の現在の取り組みは、基盤となる階層が自動的に推論され、適応最適化プロセスを通じて保存できるという仮定がほとんどである。 しかし、この仮定は疑わしいものであり、さらなる検証が必要である。 本研究では,まず,既存の<hlms>を探索する位置追跡機構を導入し,学習された表現が準最適かつ不満足であることを明らかにする。 そこで本研究では,ノードの双曲的距離から起点(すなわち誘導双曲的ノルム)へ誘導されるコストフリーな階層情報を組み込んで,既存の \hlms を前進させることにより,シンプルで効果的な情報埋め込み手法である hyperbolic informed embedded (HIE) を提案する。 提案手法はタスク非依存かつモデル非依存であり,多様なモデルやタスクとのシームレスな統合を実現する。 様々なモデルと異なるタスクにわたる広範囲な実験により,提案手法の汎用性と適応性を示す。 また,提案手法は,競合するベースラインに比べて最大21.4\%の顕著な改善を実現している。

The non-Euclidean geometry of hyperbolic spaces has recently garnered considerable attention in the realm of representation learning. Current endeavors in hyperbolic representation largely presuppose that the underlying hierarchies can be automatically inferred and preserved through the adaptive optimization process. This assumption, however, is questionable and requires further validation. In this work, we first introduce a position-tracking mechanism to scrutinize existing prevalent \hlms, revealing that the learned representations are sub-optimal and unsatisfactory. To address this, we propose a simple yet effective method, hyperbolic informed embedding (HIE), by incorporating cost-free hierarchical information deduced from the hyperbolic distance of the node to origin (i.e., induced hyperbolic norm) to advance existing \hlms. The proposed method HIE is both task-agnostic and model-agnostic, enabling its seamless integration with a broad spectrum of models and tasks. Extensive experiments across various models and different tasks demonstrate the versatility and adaptability of the proposed method. Remarkably, our method achieves a remarkable improvement of up to 21.4\% compared to the competing baselines.
翻訳日:2023-06-16 14:34:26 公開日:2023-06-15
# Ego4D Episodic Memory Challenge 2023における行動感性学習

Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 ( http://arxiv.org/abs/2306.09172v1 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Ruijie Quan and Yi Yang(参考訳) 本稿では,自然言語クエリとモーメントクエリを含むCVPR 2023のEgo4D Episodic Memory Benchmarkの2つのトラックにReLERを提出する。 この手法は提案したASL(Action Sensitivity Learning framework)を継承し,フレームの分散情報をよりよく取得する。 さらに,より強力なビデオ機能と融合戦略が組み込まれている。 提案手法は,モーメントクエリチャレンジでは1位,自然言語クエリチャレンジでは19.79平均r1,29.34の平均マップを達成している。 私たちのコードはリリースされます。

This report presents ReLER submission to two tracks in the Ego4D Episodic Memory Benchmark in CVPR 2023, including Natural Language Queries and Moment Queries. This solution inherits from our proposed Action Sensitivity Learning framework (ASL) to better capture discrepant information of frames. Further, we incorporate a series of stronger video features and fusion strategies. Our method achieves an average mAP of 29.34, ranking 1st in Moment Queries Challenge, and garners 19.79 mean R1, ranking 2nd in Natural Language Queries Challenge. Our code will be released.
翻訳日:2023-06-16 14:26:50 公開日:2023-06-15
# 写真の人々はどのように判断されましたか。 信頼度と魅力度の評価における脳活動の分析

How are the people in the photos judged? Analysis of brain activity when assessing levels of trust and attractiveness ( http://arxiv.org/abs/2306.09171v1 )

ライセンス: Link先を確認
Bernadetta Bartosik, Grzegorz M. Wojcik, Andrzej Kawiak, Aneta Brzezicka(参考訳) 信頼は人生のあらゆる領域の基礎である。 それなしでは、永続的な関係を構築するのは難しい。 残念ながら、近年では偽ニュースや偽情報の拡散によって信頼が著しく損なわれており、これが深刻な社会問題となっている。 信頼に加えて、対人関係に影響を与える要因は、現在デジタルメディアによって広く生み出されている魅力を感じている。 他人を判断する原則を理解することは、偏見と闘い、社会の信頼を取り戻すのに役立つ。 人々の選択について学ぶ一つの方法は、脳の活動を記録して選択することです。 記事は、異なる人の顔が提示された実験を提示し、参加者のタスクは、ある人がどれだけ信頼できるか、どれだけ魅力的かを評価することである。 研究期間中、脳波信号が記録され、ロジスティック回帰分類器のモデルの構築に使用された。 また, 顔の信頼度と魅力度を評価する上で, 脳の最も活発な領域が示唆された。

Trust is the foundation of every area of life. Without it, it is difficult to build lasting relationships. Unfortunately, in recent years, trust has been severely damaged by the spread of fake news and disinformation, which has become a serious social problem. In addition to trust, the factor influencing interpersonal relationships is perceived attractiveness, which is currently created to a large extent by digital media. Understanding the principles of judging others can be helpful in fighting prejudice and rebuilding trust in society. One way to learn about people's choices is to record their brain activity as they make choices. The article presents an experiment in which the faces of different people were presented, and the participants' task was to assess how much they can trust a given person and how attractive they are. During the study, the EEG signal was recorded, which was used to build models of logistic regression classifiers. In addition, the most active areas of the brain that participate in the assessment of trust and attractiveness of the face were indicated.
翻訳日:2023-06-16 14:26:28 公開日:2023-06-15
# ChatGPTはベトナム国立高校卒業試験に合格できるのか?

Can ChatGPT pass the Vietnamese National High School Graduation Examination? ( http://arxiv.org/abs/2306.09170v1 )

ライセンス: Link先を確認
Xuan-Quy Dao and Ngoc-Bich Le and Xuan-Dung Phan and Bac-Bien Ngo(参考訳) 本稿では,教育におけるAIを活用したチャットボットの可能性を強調し,ベトナム国立高校卒業試験(VNHSGE)を修了するために,大規模言語モデルChatGPTを用いた結果を示す。 研究データセットには、文献テストケースの30のエッセイと、他の被験者向けに設計された1,700のマルチチョイス質問が含まれていた。 その結果、chatgptは平均スコア6-7で試験に合格し、教育環境に革命をもたらす技術の可能性を示した。 ChatGPTのパフォーマンスの分析は、数学、英語、物理学、化学、生物学、歴史、地理、市民教育、文学など、様々な分野においてその習熟度を明らかにしており、学習者に効果的な支援を提供する可能性を示唆している。 しかし,より複雑な受験質問に対するchatgptの性能評価や,異なる文脈の学習者を支援する可能性について,さらなる研究が必要である。 テクノロジーが進化し、改善していくにつれ、ChatGPTのようなAIツールが教育現場でますます普及し、最終的には学生と教育者の教育体験が向上することを期待している。

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.
翻訳日:2023-06-16 14:26:11 公開日:2023-06-15
# 工学設計における大規模言語モデルと談話の機会

Opportunities for Large Language Models and Discourse in Engineering Design ( http://arxiv.org/abs/2306.09169v1 )

ライセンス: Link先を確認
Jan G\"opfert, Jann M. Weinand, Patrick Kuckertz, Detlef Stolten(参考訳) 近年、大規模言語モデルは、自然言語処理の幅広いベンチマークにおいてブレークスルーを達成し、パフォーマンスの向上を続けている。 近年,大規模言語モデルの進歩は自然言語処理コミュニティ以外での関心を高め,日常生活に大きな影響を与える可能性がある。 大規模言語モデルや他の基盤モデルは、将来の製品開発プロセスをどのように形作るのか? 我々は,自然言語処理の最近の進歩と工学設計プロセスにおける情報技術の利用の両方を要約し,その主題の概要を読者に提供する。 我々は、談話はエンジニアリングデザインプロセスの中核と見なすべきであり、それゆえデジタルアーティファクトで表現されるべきであると主張する。 そこで本研究では, 大規模言語モデルなどの基礎モデルが, 創造性と推論に関わる部分を自動化することによって, 設計談話にどのように寄与するかを述べる。 シミュレーション,実験,トポロジ最適化,その他のプロセスステップを,機械操作可能な,談話中心の設計プロセスに統合する方法について述べる。 最後に,概念化されたフレームワークの実装に必要な今後の研究について概説する。

In recent years, large language models have achieved breakthroughs on a wide range of benchmarks in natural language processing and continue to increase in performance. Recently, the advances of large language models have raised interest outside the natural language processing community and could have a large impact on daily life. In this paper, we pose the question: How will large language models and other foundation models shape the future product development process? We provide the reader with an overview of the subject by summarizing both recent advances in natural language processing and the use of information technology in the engineering design process. We argue that discourse should be regarded as the core of engineering design processes, and therefore should be represented in a digital artifact. On this basis, we describe how foundation models such as large language models could contribute to the design discourse by automating parts thereof that involve creativity and reasoning, and were previously reserved for humans. We describe how simulations, experiments, topology optimizations, and other process steps can be integrated into a machine-actionable, discourse-centric design process. Finally, we outline the future research that will be necessary for the implementation of the conceptualized framework.
翻訳日:2023-06-16 14:25:51 公開日:2023-06-15
# DEYOv2: エンドツーエンドオブジェクト検出のためのグレディマッチング付きランク機能

DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection ( http://arxiv.org/abs/2306.09165v1 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) 本稿では,第1世代DEYO(DETR with YOLO)モデルの改良版であるDEYOv2を提案する。 DEYOv2は前任のDEYOv2と同様、モデルトレーニングの加速と性能向上のために進歩的な推論手法を採用している。 この研究は、最適化における1対1マッチングの限界を掘り下げ、ランク特徴やグリーディマッチングといった問題に効果的に取り組むソリューションを提案する。 このアプローチにより、DEYOv2の第3段階は、NMSを必要とせずに、第1段階と第2段階からの情報取得を最大化し、エンドツーエンドの最適化を実現することができる。 密度の高いクエリ、スパースクエリ、ワンツーマンマッチング、ワンツーマンマッチングを組み合わせることで、DEYOv2は各メソッドの利点を活用する。 既存のクエリベースのエンドツーエンド検出を、同じ設定ですべて上回る。 COCOデータセットのバックボーンとマルチスケール機能としてResNet-50を使用する場合、DeYOv2はそれぞれ51.1 APと51.8 APを12時間と24時間で達成している。 エンドツーエンドモデルであるDINOと比較して、DEYOv2は2つのエポック設定で2.1 APと1.4 APの大幅なパフォーマンス向上を提供する。 私たちの知る限りでは、DEYOv2は古典的な検出器とクエリベースの検出器のそれぞれの強度を組み合わせた、最初の完全なエンドツーエンドのオブジェクト検出器である。

This paper presents a novel object detector called DEYOv2, an improved version of the first-generation DEYO (DETR with YOLO) model. DEYOv2, similar to its predecessor, DEYOv2 employs a progressive reasoning approach to accelerate model training and enhance performance. The study delves into the limitations of one-to-one matching in optimization and proposes solutions to effectively address the issue, such as Rank Feature and Greedy Matching. This approach enables the third stage of DEYOv2 to maximize information acquisition from the first and second stages without needing NMS, achieving end-to-end optimization. By combining dense queries, sparse queries, one-to-many matching, and one-to-one matching, DEYOv2 leverages the advantages of each method. It outperforms all existing query-based end-to-end detectors under the same settings. When using ResNet-50 as the backbone and multi-scale features on the COCO dataset, DEYOv2 achieves 51.1 AP and 51.8 AP in 12 and 24 epochs, respectively. Compared to the end-to-end model DINO, DEYOv2 provides significant performance gains of 2.1 AP and 1.4 AP in the two epoch settings. To the best of our knowledge, DEYOv2 is the first fully end-to-end object detector that combines the respective strengths of classical detectors and query-based detectors.
翻訳日:2023-06-16 14:25:34 公開日:2023-06-15
# 1羽の巣を持つ2羽の餌:分布外一般化と検出のための野生データの爆発

Feed Two Birds with One Scone: Exploiting Wild Data for Both Out-of-Distribution Generalization and Detection ( http://arxiv.org/abs/2306.09158v1 )

ライセンス: Link先を確認
Haoyue Bai, Gregory Canal, Xuefeng Du, Jeongyeol Kwon, Robert Nowak, Yixuan Li(参考訳) 野生に展開された現代の機械学習モデルは、共変量シフトとセマンティックシフトの両方に遭遇し、それぞれがアウト・オブ・ディストリビューション(OOD)の一般化とOOD検出の問題を引き起こす。 どちらの問題も近年大きな研究の注目を集めているが、それぞれ独立して研究されている。 この2つのタスクには相反する目標があるため、これは驚くことではありません。 本稿では, セマンティックシフトを頑健に検出しつつ, 共変量シフトを同時に一般化できる新しい統一的アプローチを提案する。 本研究では,共変量とセマンティックシフトの両条件下で環境テスト時間OOD分布をキャプチャする,未ラベルデータを野生で自由に利用するためのマージンベースの学習フレームワークを提案する。 我々は,提案した限界制約がOOD一般化と検出の両方を達成する鍵であることを示す。 OODの一般化やOODの検出に特化する競争ベースラインを上回る,我々のフレームワークの優位性を示す大規模な実験を行った。 コードはhttps://github.com/deeplearning-wisc/sconeで公開されている。

Modern machine learning models deployed in the wild can encounter both covariate and semantic shifts, giving rise to the problems of out-of-distribution (OOD) generalization and OOD detection respectively. While both problems have received significant research attention lately, they have been pursued independently. This may not be surprising, since the two tasks have seemingly conflicting goals. This paper provides a new unified approach that is capable of simultaneously generalizing to covariate shifts while robustly detecting semantic shifts. We propose a margin-based learning framework that exploits freely available unlabeled data in the wild that captures the environmental test-time OOD distributions under both covariate and semantic shifts. We show both empirically and theoretically that the proposed margin constraint is the key to achieving both OOD generalization and detection. Extensive experiments show the superiority of our framework, outperforming competitive baselines that specialize in either OOD generalization or OOD detection. Code is publicly available at https://github.com/deeplearning-wisc/scone.
翻訳日:2023-06-16 14:25:10 公開日:2023-06-15
# スピンロック超電導量子ビットを有するロバストゲート

Robust gates with spin-locked superconducting qubits ( http://arxiv.org/abs/2306.09149v1 )

ライセンス: Link先を確認
Ido Zuk, Daniel Cohen, Alexey V. Gorshkov, and Alex Retzker(参考訳) 動的デカップリングは、ほとんどの量子計算プラットフォームにおけるゲートエラーの低減に有効であることが示されており、将来のフォールトトレラント構造において重要な役割を果たすと予測されている。 しかし、超伝導回路では、動的疎結合の利点を利用するのは難しいことが証明されている。 本研究では,スピンロックと呼ばれる動的デカップリングの連続バージョンと,トランスモンのためのカプラ型czゲートを組み込んだ理論的提案を行い,その効果を示す解析的および数値的結果を提供する。

Dynamical decoupling has been shown to be effective in reducing gate errors in most quantum computation platforms and is therefore projected to play an essential role in future fault-tolerant constructions. In superconducting circuits, however, it has proven difficult to utilize the benefits of dynamical decoupling. In this work, we present a theoretical proposal that incorporates a continuous version of dynamical decoupling, namely spin locking, with a coupler-based CZ gate for transmons and provide analytical and numerical results that demonstrate its effectiveness.
翻訳日:2023-06-16 14:24:51 公開日:2023-06-15
# 時間的不規則性を有する多変量時系列の確率論的学習

Probabilistic Learning of Multivariate Time Series with Temporal Irregularity ( http://arxiv.org/abs/2306.09147v1 )

ライセンス: Link先を確認
Yijun Li, Cheuk Hang Leung, Qi Wu(参考訳) 実際に収集された多変量シーケンシャルデータは、不均一な時間間隔やコンポーネントのミスアライメントを含む時間的不規則性を示すことが多い。 しかし、不均一な間隔と非同期性が観測不足の結果ではなくデータの内在的特性である場合、これらの不規則性の情報内容は多変量依存構造を特徴づける決定的な役割を果たす。 確率的予測のための既存のアプローチは、結果の統計的不均一性を見落としているか、インプテーションバイアスの影響を受けやすいか、データ分布にパラメトリックな仮定を課す。 本稿では、時間的不規則性の中核であるモデル構築の中心的な役割を観測の到着時刻に果たすことで、これらの制限を克服するエンドツーエンドソリューションを提案する。 時間的不規則を認めるために、まずコンポーネントのユニークな隠れ状態を有効にし、到着時刻がいつ、どのように、どの隠れ状態が更新されるかを予測できるようにします。 次に,非ガウシアンデータ分布を非パラメトリックに表現するための条件付きフロー表現を開発し,ログ類似目的を慎重に分解し,時間変化や経路依存性の把握を容易にする条件付き情報を選択することにより,この表現を監督する。 提案手法の広範な適用性と優位性は,実世界のデータセットに対するアブレーション研究とテストを通じて,既存のアプローチと比較することによって確認される。

Multivariate sequential data collected in practice often exhibit temporal irregularities, including nonuniform time intervals and component misalignment. However, if uneven spacing and asynchrony are endogenous characteristics of the data rather than a result of insufficient observation, the information content of these irregularities plays a defining role in characterizing the multivariate dependence structure. Existing approaches for probabilistic forecasting either overlook the resulting statistical heterogeneities, are susceptible to imputation biases, or impose parametric assumptions on the data distribution. This paper proposes an end-to-end solution that overcomes these limitations by allowing the observation arrival times to play the central role of model construction, which is at the core of temporal irregularities. To acknowledge temporal irregularities, we first enable unique hidden states for components so that the arrival times can dictate when, how, and which hidden states to update. We then develop a conditional flow representation to non-parametrically represent the data distribution, which is typically non-Gaussian, and supervise this representation by carefully factorizing the log-likelihood objective to select conditional information that facilitates capturing time variation and path dependency. The broad applicability and superiority of the proposed solution are confirmed by comparing it with existing approaches through ablation studies and testing on real-world datasets.
翻訳日:2023-06-16 14:24:42 公開日:2023-06-15
# 物理科学・自然科学・生命科学・社会科学・芸術・人文科学における人工知能の採用:1960-2021年の研究論文の書誌分析

Artificial intelligence adoption in the physical sciences, natural sciences, life sciences, social sciences and the arts and humanities: A bibliometric analysis of research publications from 1960-2021 ( http://arxiv.org/abs/2306.09145v1 )

ライセンス: Link先を確認
Stefan Hajkowicz, Conrad Sanderson, Sarvnaz Karimi, Alexandra Bratanova, Claire Naughtin(参考訳) 人工知能(AI)の採用の歴史的パターンを分析することで、AI能力の向上に関する決定を下すことができるが、これまでの研究は、さまざまな研究分野において、AIの採用に関する限られた見解を提供してきた。 本研究では,1960-2021年における333分野の研究分野におけるAI技術の世界的な普及について検討する。 レンズデータベースに1億3700万の査読付き出版物を収録した書誌分析を用いてこれを行う。 我々は、OECD(Organisation for Economic Cooperation and Development)において、専門家ワーキンググループによって開発された214のフレーズのリストを用いてAIを定義する。 この期間に1億1700万件の査読された研究論文のうち3100万件がAI関連であることが判明し、近年のほぼすべての研究分野(物理科学、自然科学、生命科学、社会科学、芸術と人文科学)でAIの採用が急増している。 コンピュータ科学以外のAIの普及は、早く、迅速かつ広く行われた。 1960年には333の研究分野のうち14%がaiに関連していたが、1972年までには全研究分野の半分以上、1986年には80%、現在では98%以上を占めるようになった。 aiは歴史的に「春」と「勝者」というブーム・バストサイクルを経験してきた。 我々は、現在のサージの文脈は違っており、学際的なaiアプリケーションが継続される可能性が高いと結論づける。

Analysing historical patterns of artificial intelligence (AI) adoption can inform decisions about AI capability uplift, but research to date has provided a limited view of AI adoption across various fields of research. In this study we examine worldwide adoption of AI technology within 333 fields of research during 1960-2021. We do this by using bibliometric analysis with 137 million peer-reviewed publications captured in The Lens database. We define AI using a list of 214 phrases developed by expert working groups at the Organisation for Economic Cooperation and Development (OECD). We found that 3.1 million of the 137 million peer-reviewed research publications during the entire period were AI-related, with a surge in AI adoption across practically all research fields (physical science, natural science, life science, social science and the arts and humanities) in recent years. The diffusion of AI beyond computer science was early, rapid and widespread. In 1960 14% of 333 research fields were related to AI (many in computer science), but this increased to cover over half of all research fields by 1972, over 80% by 1986 and over 98% in current times. We note AI has experienced boom-bust cycles historically: the AI "springs" and "winters". We conclude that the context of the current surge appears different, and that interdisciplinary AI application is likely to be sustained.
翻訳日:2023-06-16 14:24:18 公開日:2023-06-15
# $k$-Hamming と $k$-Edit 距離について

On the $k$-Hamming and $k$-Edit Distances ( http://arxiv.org/abs/2306.09144v1 )

ライセンス: Link先を確認
Chiara Epifanio and Luca Forlizzi and Francesca Marzi and Filippo Mignosi and Giuseppe Placidi and Matteo Spezialetti(参考訳) 本稿では、古典的なハミングと編集距離の自然な一般化である、重量付き$k$ハミングと$k$-Edit距離について考察する。 この論文の主な結果として、任意の$k\geq 2$ the DECIS-$k$-Hamming 問題は $\mathbb{P}$-SPACE-complete であり、DECIS-$k$-Edit 問題は NEXPTIME-complete であることを示す。

In this paper we consider the weighted $k$-Hamming and $k$-Edit distances, that are natural generalizations of the classical Hamming and Edit distances. As main results of this paper we prove that for any $k\geq 2$ the DECIS-$k$-Hamming problem is $\mathbb{P}$-SPACE-complete and the DECIS-$k$-Edit problem is NEXPTIME-complete.
翻訳日:2023-06-16 14:23:53 公開日:2023-06-15
# 実数アクションクラスによる多腕バンディットの組合せ的純粋探索

Combinatorial Pure Exploration of Multi-Armed Bandit with a Real Number Action Class ( http://arxiv.org/abs/2306.09202v1 )

ライセンス: Link先を確認
Shintaro Nakamura and Masashi Sugiyama(参考訳) 確率的多腕バンディット設定(英語版) (mab) におけるコンビネーション純粋探索 (cpe) はよく研究されたオンライン意思決定問題である: プレイヤーは特定のコンビネート構造を持つ腕の部分集合である \emph{action} $\boldsymbol{\pi}^*$ from \emph{action class} $\mathcal{a}$ を求める。 CPEはパス、マッチング、スパンニングツリーなどの多くの組合せ構造を表現できるが、既存の作業の多くは、ある正の整数 $d$ に対して、バイナリアクションクラス $\mathcal{A}\subseteq\{0, 1\}^d$ にのみフォーカスする。 この二項定式化は、最適輸送、ナップサック、生産計画といった重要な問題を排除する。 この制限を克服するために、二項式を real, $\mathcal{a}\subseteq\mathbb{r}^d$ に拡張し、新しいアルゴリズムを提案する。 唯一の仮定は、$\mathcal{A}$のアクションの数は$d$の多項式であるということです。 本稿では,提案アルゴリズムにおけるサンプル複雑性とR-CPE-MABに対する作用クラス依存下界の上限について,Chenらによって導入された概念であるemph{width}の一般化である,問題の難易度を特徴付ける量を導入することにより述べる。 [2014].

The combinatorial pure exploration (CPE) in the stochastic multi-armed bandit setting (MAB) is a well-studied online decision-making problem: A player wants to find the optimal \emph{action} $\boldsymbol{\pi}^*$ from \emph{action class} $\mathcal{A}$, which is a collection of subsets of arms with certain combinatorial structures. Though CPE can represent many combinatorial structures such as paths, matching, and spanning trees, most existing works focus only on binary action class $\mathcal{A}\subseteq\{0, 1\}^d$ for some positive integer $d$. This binary formulation excludes important problems such as the optimal transport, knapsack, and production planning problems. To overcome this limitation, we extend the binary formulation to real, $\mathcal{A}\subseteq\mathbb{R}^d$, and propose a new algorithm. The only assumption we make is that the number of actions in $\mathcal{A}$ is polynomial in $d$. We show an upper bound of the sample complexity for our algorithm and the action class-dependent lower bound for R-CPE-MAB, by introducing a quantity that characterizes the problem's difficulty, which is a generalization of the notion \emph{width} introduced in Chen et al.[2014].
翻訳日:2023-06-16 14:18:23 公開日:2023-06-15
# ChessGPT:ブリッジング政策学習と言語モデリング

ChessGPT: Bridging Policy Learning and Language Modeling ( http://arxiv.org/abs/2306.09200v1 )

ライセンス: Link先を確認
Xidong Feng, Yicheng Luo, Ziyan Wang, Hongrui Tang, Mengyue Yang, Kun Shao, David Mguni, Yali Du, Jun Wang(参考訳) 意思決定課題の解決には,(1) 環境からのインタラクションを再現する歴史的政策データ,(2) 自然言語形態の分析的洞察, 価値ある思考過程や戦略的考察, の2つの主要な情報源からの情報に依存する。 それにもかかわらず、先行研究の大部分は、政策や価値関数を直接学習するためにのみ履歴リプレイを使用するか、単なる言語コーパスを利用した言語モデルのトレーニングに携わる、という1つのソースのみに焦点を当てている。 本稿では、強力な自律エージェントが両方のソースをカバーするべきであると論じる。 そこで我々は,これら2つの情報源からのデータをチェスゲームに組み込むことで,GPTモデルのブリッジングポリシ学習と言語モデリングを行うChessGPTを提案する。 具体的には,チェスに関連する大規模ゲームと言語データセットを構築する。 データセットを活用することで,政策学習と言語モデリングの統合という2つのモデル例を紹介する。 最後に,言語モデルのチェス能力を評価するための完全評価フレームワークを提案する。 実験結果は,モデルとデータセットの有効性を検証する。 コード、モデル、データセットをhttps://github.com/waterhorse1/ChessGPTでオープンソースにしています。

When solving decision-making tasks, humans typically depend on information from two key sources: (1) Historical policy data, which provides interaction replay from the environment, and (2) Analytical insights in natural language form, exposing the invaluable thought process or strategic considerations. Despite this, the majority of preceding research focuses on only one source: they either use historical replay exclusively to directly learn policy or value functions, or engaged in language model training utilizing mere language corpus. In this paper, we argue that a powerful autonomous agent should cover both sources. Thus, we propose ChessGPT, a GPT model bridging policy learning and language modeling by integrating data from these two sources in Chess games. Specifically, we build a large-scale game and language dataset related to chess. Leveraging the dataset, we showcase two model examples ChessCLIP and ChessGPT, integrating policy learning and language modeling. Finally, we propose a full evaluation framework for evaluating language model's chess ability. Experimental results validate our model and dataset's effectiveness. We open source our code, model, and dataset at https://github.com/waterhorse1/ChessGPT.
翻訳日:2023-06-16 14:17:51 公開日:2023-06-15
# 量子近似最適化アルゴリズムとその変数に関する一検討

A Review on Quantum Approximate Optimization Algorithm and its Variants ( http://arxiv.org/abs/2306.09198v1 )

ライセンス: Link先を確認
Kostas Blekos, Dean Brand, Andrea Ceschini, Chiao-Hui Chou, Rui-Hao Li, Komal Pandya, and Alessandro Summer(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、古典的に難解な組合せ最適化問題を解くことを目的とした、非常に有望な変分量子アルゴリズムである。 この総合的なレビューでは、QAOAの現状の概要、さまざまなシナリオにおけるパフォーマンス分析、さまざまな問題インスタンスに適用性、エラーの感受性やノイズレジリエンスといったハードウェア固有の課題について概説する。 さらに,選択したQAOA拡張と変種の比較研究を行い,今後のアルゴリズムの展望と方向性について検討する。 本研究の目的は,従来のアルゴリズムより優れているか,どのような状況で使用するべきかといった,アルゴリズムに関する重要な質問に対する洞察を提供することである。 キーワード:QAOA、変分量子アルゴリズム(VQA)、量子最適化、組合せ最適化問題、NISQアルゴリズム

The Quantum Approximate Optimization Algorithm (QAOA) is a highly promising variational quantum algorithm that aims to solve combinatorial optimization problems that are classically intractable. This comprehensive review offers an overview of the current state of QAOA, encompassing its performance analysis in diverse scenarios, its applicability across various problem instances, and considerations of hardware-specific challenges such as error susceptibility and noise resilience. Additionally, we conduct a comparative study of selected QAOA extensions and variants, while exploring future prospects and directions for the algorithm. We aim to provide insights into key questions about the algorithm, such as whether it can outperform classical algorithms and under what circumstances it should be used. Keywords: QAOA, Variational Quantum Algorithms (VQAs), Quantum Optimization, Combinatorial Optimization Problems, NISQ Algorithms
翻訳日:2023-06-16 14:17:31 公開日:2023-06-15
# インフラストラクチャクラックのセグメンテーション:バウンダリガイダンス方法およびベンチマークデータセット

Infrastructure Crack Segmentation: Boundary Guidance Method and Benchmark Dataset ( http://arxiv.org/abs/2306.09196v1 )

ライセンス: Link先を確認
Zhili He, Wang Chen, Jian Zhang, Yu-Hsing Wang(参考訳) クラックはインフラストラクチャのパフォーマンス低下の重要な指標であり、高精度なピクセルレベルのクラックセグメンテーションを実現することが懸念事項である。 本稿では,新しい人工知能(ai)手法を直接採用する一般的な研究パラダイムとは異なり,ひび割れの識別に境界特徴を導入するために,ひび割れの特徴を考察し,高頻度モジュール,グローバル情報モデリングモジュール,統合最適化モジュールなどを含む対象構造とモジュールを備えた境界誘導き裂セグメンテーションモデル(bgcrack)を構築した。 大規模実験により,提案手法の有効性とエッジ情報の有効性が検証され,セグメンテーションの精度が向上した。 さらに、アクセスが容易なアスファルト舗装の亀裂を主とする著名なオープンソースデータセットを考えると、土木インフラの主要な構造形態の一つである鋼構造物の標準的かつ広く認識されているデータセットはまだ存在しない。 本稿では,鋼き裂の同定のための統一的かつ公正なベンチマークを確立するための鋼き裂データセットを提供する。

Cracks provide an essential indicator of infrastructure performance degradation, and achieving high-precision pixel-level crack segmentation is an issue of concern. Unlike the common research paradigms that adopt novel artificial intelligence (AI) methods directly, this paper examines the inherent characteristics of cracks so as to introduce boundary features into crack identification and then builds a boundary guidance crack segmentation model (BGCrack) with targeted structures and modules, including a high frequency module, global information modeling module, joint optimization module, etc. Extensive experimental results verify the feasibility of the proposed designs and the effectiveness of the edge information in improving segmentation results. In addition, considering that notable open-source datasets mainly consist of asphalt pavement cracks because of ease of access, there is no standard and widely recognized dataset yet for steel structures, one of the primary structural forms in civil infrastructure. This paper provides a steel crack dataset that establishes a unified and fair benchmark for the identification of steel cracks.
翻訳日:2023-06-16 14:17:17 公開日:2023-06-15
# 異化支援による拡散分類の訓練

Training Diffusion Classifiers with Denoising Assistance ( http://arxiv.org/abs/2306.09192v1 )

ライセンス: Link先を確認
Chandramouli Sastry, Sri Harsha Dumpala, Sageev Oore(参考訳) スコアマッチングと拡散モデルは条件付きおよび無条件生成の最先端生成モデルとして登場してきた。 分類器誘導拡散モデルは、前方拡散過程(すなわちデータからノイズまで)から得られたサンプルの分類器を訓練することによって作成される。 本稿では,モデルへの同時入力として,雑音と雑音の両方を用いて拡散分類器を訓練するDA分類器を提案する。 我々は,雑音の例でのみ訓練される拡散分類器である雑音分類器と雑音分類器を区別する。 Cifar10 と Imagenet を用いた実験により,DA-classifier はデータに対する一般化の観点からも,知覚的整合型分類器の勾配や生成的モデリングの指標に関しても,定量的に改善されていることがわかった。 最後に,拡散分類器を訓練するための半教師付きフレームワークと,騒音分類器上でのda分類器の一般化を実証する実験について述べる。

Score-matching and diffusion models have emerged as state-of-the-art generative models for both conditional and unconditional generation. Classifier-guided diffusion models are created by training a classifier on samples obtained from the forward-diffusion process (i.e., from data to noise). In this paper, we propose denoising-assisted (DA) classifiers wherein the diffusion classifier is trained using both noisy and denoised examples as simultaneous inputs to the model. We differentiate between denoising-assisted (DA) classifiers and noisy classifiers, which are diffusion classifiers that are only trained on noisy examples. Our experiments on Cifar10 and Imagenet show that DA-classifiers improve over noisy classifiers both quantitatively in terms of generalization to test data and qualitatively in terms of perceptually-aligned classifier-gradients and generative modeling metrics. Finally, we describe a semi-supervised framework for training diffusion classifiers and our experiments, that also include positive-unlabeled settings, demonstrate improved generalization of DA-classifiers over noisy classifiers.
翻訳日:2023-06-16 14:16:55 公開日:2023-06-15
# 現象型特性の活用による非線形平衡ブール関数の探索

A Search for Nonlinear Balanced Boolean Functions by Leveraging Phenotypic Properties ( http://arxiv.org/abs/2306.09190v1 )

ライセンス: Link先を確認
Bruno Ga\v{s}perov, Marko {\DJ}urasevi\'c, Domagoj Jakobovi\'c(参考訳) 本稿では,高非線形値を持つ完全平衡ブール関数の探索問題について考察する。 このような関数は暗号や誤り訂正符号理論のような領域に広く応用されている。 基礎となる問題の構造を生かした局所探索手法により,このような関数を探索する手法を提案する。 この静脈での以前の試みは、通常、探索を導くためにフィットネス・ランドスケープの特性を使うことに重点を置いていた。 代わりに表現型ランドスケープ(遺伝子型から表現型へのマッピング)を利用する別の経路を選択します。 基礎となる問題の文脈では、表現型は候補解(ブール関数)のウォルシュ・ハダマールスペクトルで表される。 そこで本研究では, 表現型を直接比較する新しい選択基準を提案し, その利用が, 文献における競争適合度関数と比較して収束速度(所要スペクトル数による)を増加させるかどうかを検証した。 その結果,Boolean関数のサイズが$N=6$から$N=9$に向上することを示す。

In this paper, we consider the problem of finding perfectly balanced Boolean functions with high non-linearity values. Such functions have extensive applications in domains such as cryptography and error-correcting coding theory. We provide an approach for finding such functions by a local search method that exploits the structure of the underlying problem. Previous attempts in this vein typically focused on using the properties of the fitness landscape to guide the search. We opt for a different path in which we leverage the phenotype landscape (the mapping from genotypes to phenotypes) instead. In the context of the underlying problem, the phenotypes are represented by Walsh-Hadamard spectra of the candidate solutions (Boolean functions). We propose a novel selection criterion, under which the phenotypes are compared directly, and test whether its use increases the convergence speed (measured by the number of required spectra calculations) when compared to a competitive fitness function used in the literature. The results reveal promising convergence speed improvements for Boolean functions of sizes $N=6$ to $N=9$.
翻訳日:2023-06-16 14:16:34 公開日:2023-06-15
# シャーディング暗号文による同型暗号化データの高分解能畳み込みニューラルネットワーク

High-Resolution Convolutional Neural Networks on Homomorphically Encrypted Data via Sharding Ciphertexts ( http://arxiv.org/abs/2306.09189v1 )

ライセンス: Link先を確認
Vivian Maloney, Richard F. Obrecht, Vikram Saraph, Prathibha Rama, Kate Tallaksen(参考訳) 近年,ResNet-20アーキテクチャを含むDeep Convolutional Neural Networks (DCNN) は,Residue-Number-System Cheon-Kim-Kim-Song (RNS-CKKS) の同型暗号方式を用いて,暗号化された低解像度データに対してプライベートに評価されている。 我々は,単一の暗号文に格納できる範囲を超えて,大きな次元と多くのチャネルを持つ画像のdcnnを評価する手法を拡張した。 さらに、最近導入された多重化画像フォーマットの効率を簡素化し改善し、同型評価が標準の行長行列パッキングで機能し、暗号化された推論時間を4.6-6.5\times$で高速化することを示した。 また,既存のDCNNモデルをトレーニングプロセス中に正規化して,効率と精度をさらに向上させる方法について述べる。 これらの手法を用いて,高解像度のImageNetデータセットに高い精度でDCNNを均一に評価し,80.2\%$ top-1精度を実現した。 また,CIFAR-10データセットにおける同型評価CNNの最高精度は9,8.3 %$である。

Recently, Deep Convolutional Neural Networks (DCNNs) including the ResNet-20 architecture have been privately evaluated on encrypted, low-resolution data with the Residue-Number-System Cheon-Kim-Kim-Song (RNS-CKKS) homomorphic encryption scheme. We extend methods for evaluating DCNNs on images with larger dimensions and many channels, beyond what can be stored in single ciphertexts. Additionally, we simplify and improve the efficiency of the recently introduced multiplexed image format, demonstrating that homomorphic evaluation can work with standard, row-major matrix packing and results in encrypted inference time speedups by $4.6-6.5\times$. We also show how existing DCNN models can be regularized during the training process to further improve efficiency and accuracy. These techniques are applied to homomorphically evaluate a DCNN with high accuracy on the high-resolution ImageNet dataset for the first time, achieving $80.2\%$ top-1 accuracy. We also achieve the highest reported accuracy of homomorphically evaluated CNNs on the CIFAR-10 dataset of $98.3\%$.
翻訳日:2023-06-16 14:16:18 公開日:2023-06-15
# コンピュータビジョンのためのニューラルワールドモデル

Neural World Models for Computer Vision ( http://arxiv.org/abs/2306.09179v1 )

ライセンス: Link先を確認
Anthony Hu(参考訳) 人間は受動的観察と活発な相互作用を通じて世界のメンタルモデルを学ぶことで環境をナビゲートする。 彼らの世界モデルは、次に起こる可能性のあることを予測し、基礎となる目的に対して行動することを可能にする。 このような世界モデルは、自動運転のような複雑な環境での計画に強い約束を持っています。 人間のドライバー(または自動運転システム)は、目またはカメラで周囲を知覚します。 彼らは、次の世界の内部表現を推論する。 (i)空間記憶(例えば、咬合)を有する。 (ii)部分的に観察可能な、または騒がしい入力(例えば、日光で盲目されたとき)を満たし、 (iii)観測不能な事象を確率的に推論することができる(例えば、異なる可能性のある未来を予測する)。 それらは、自身の世界モデルを通じて物理的な世界で予測、計画、行動できる知的エージェントを具現化したものだ。 本論文では,ディープニューラルネットワークによってパラメータ化される世界モデルとポリシーを,カメラ観測や専門家による実証から訓練するための汎用フレームワークを提案する。 我々は、幾何学、セマンティクス、運動といった重要なコンピュータビジョンの概念を利用して、複雑な都市運転シーンに世界モデルをスケールする。 まず,深度,セマンティックセグメンテーション,光学フローといったコンピュータビジョンの重要な量を予測するモデルを提案する。 次に、鳥の目視空間で操作するために誘導バイアスとして3D幾何を用いる。 我々は,360{\deg} がモノクラーカメラのみを取り囲む鳥眼ビューにおける動的エージェントの確率論的将来の軌跡を予測できるモデルを初めて提示する。 最後に,クローズドループ運転における世界モデル学習の利点を示す。 本モデルでは,都市走行環境における静的シーン,動的シーン,エゴ動作を共同で予測できる。

Humans navigate in their environment by learning a mental model of the world through passive observation and active interaction. Their world model allows them to anticipate what might happen next and act accordingly with respect to an underlying objective. Such world models hold strong promises for planning in complex environments like in autonomous driving. A human driver, or a self-driving system, perceives their surroundings with their eyes or their cameras. They infer an internal representation of the world which should: (i) have spatial memory (e.g. occlusions), (ii) fill partially observable or noisy inputs (e.g. when blinded by sunlight), and (iii) be able to reason about unobservable events probabilistically (e.g. predict different possible futures). They are embodied intelligent agents that can predict, plan, and act in the physical world through their world model. In this thesis we present a general framework to train a world model and a policy, parameterised by deep neural networks, from camera observations and expert demonstrations. We leverage important computer vision concepts such as geometry, semantics, and motion to scale world models to complex urban driving scenes. First, we propose a model that predicts important quantities in computer vision: depth, semantic segmentation, and optical flow. We then use 3D geometry as an inductive bias to operate in the bird's-eye view space. We present for the first time a model that can predict probabilistic future trajectories of dynamic agents in bird's-eye view from 360{\deg} surround monocular cameras only. Finally, we demonstrate the benefits of learning a world model in closed-loop driving. Our model can jointly predict static scene, dynamic scene, and ego-behaviour in an urban driving environment.
翻訳日:2023-06-16 14:15:37 公開日:2023-06-15
# dis-ae:実世界臨床データのマルチドメイン・マルチタスク一般化

Dis-AE: Multi-domain & Multi-task Generalisation on Real-World Clinical Data ( http://arxiv.org/abs/2306.09177v1 )

ライセンス: Link先を確認
Daniel Kreuter, Samuel Tull, Julian Gilbey, Jacobus Preller, BloodCounts! Consortium, John A.D. Aston, James H.F. Rudd, Suthesh Sivapalaratnam, Carola-Bibiane Sch\"onlieb, Nicholas Gleadall, Michael Roberts(参考訳) 臨床データは、測定装置間の不一致や部位間の処理方法の相違など、臨床的に無関係な要因によってしばしば影響を受ける。 機械学習(ML)の分野では、これらの要因はドメインと呼ばれ、データに生じる分布の違いはドメインシフトとして知られている。 あるドメインのデータを使用してトレーニングされたMLモデルは、別のドメインのデータに適用した場合、しばしばパフォーマンスが悪く、誤った予測につながる可能性がある。 このように、複数の領域にまたがってうまく一般化できる機械学習モデルを開発することは、臨床実践においてMLを成功させる上で、難しいが必須の課題である。 本稿では,複数の相互作用する領域シフトによってデータが影響を受ける場合でも,医学的測定値のマルチラベル分類のためのドメイン不変データ表現を学習できる,新たなdisentangled autoencoder (dis-ae)ニューラルネットワークアーキテクチャを提案する。 このモデルは、敵の訓練を利用して、ドメインがもはや決定できないデータ表現を生成する。 血液提供者およびプライマリ・セカンダリケア患者からの血液量(FBC)データと合成データセットに対するモデルの領域一般化能力を評価し,臨床関連情報を保存しつつ,複数の領域におけるモデル一般化を同時に改善することを示す。

Clinical data is often affected by clinically irrelevant factors such as discrepancies between measurement devices or differing processing methods between sites. In the field of machine learning (ML), these factors are known as domains and the distribution differences they cause in the data are known as domain shifts. ML models trained using data from one domain often perform poorly when applied to data from another domain, potentially leading to wrong predictions. As such, developing machine learning models that can generalise well across multiple domains is a challenging yet essential task in the successful application of ML in clinical practice. In this paper, we propose a novel disentangled autoencoder (Dis-AE) neural network architecture that can learn domain-invariant data representations for multi-label classification of medical measurements even when the data is influenced by multiple interacting domain shifts at once. The model utilises adversarial training to produce data representations from which the domain can no longer be determined. We evaluate the model's domain generalisation capabilities on synthetic datasets and full blood count (FBC) data from blood donors as well as primary and secondary care patients, showing that Dis-AE improves model generalisation on multiple domains simultaneously while preserving clinically relevant information.
翻訳日:2023-06-16 14:15:14 公開日:2023-06-15
# dcase 2023チャレンジにおける数発バイオ音響イベント検出

Few-shot bioacoustic event detection at the DCASE 2023 challenge ( http://arxiv.org/abs/2306.09223v1 )

ライセンス: Link先を確認
Ines Nolasco, Burooj Ghani, Shubhr Singh, Ester Vida\~na-Vila, Helen Whitehead, Emily Grout, Michael Emmerson, Frants Jensen, Ivan Kiskin, Joe Morford, Ariana Strandburg-Peshkin, Lisa Gill, Hanna Pamu{\l}a, Vincent Lostanlen, Dan Stowell(参考訳) 少数ショットのバイオ音響イベント検出は、特定のタイプの音響イベントを様々なサウンドスケープで検出し、関心のあるクラスのいくつかの例のみにアクセスできる。 この作業は、今年3回目となるDCASEチャレンジの一環として実施され、新たな動物種を含む評価セットが拡大され、新たなルールが導入された。 2023年の少数のショットタスクは、評価セットでfスコアが最大63%に達する6つの異なるチームから応募を受けた。 ここでは,前年と異なる要素を記述することに焦点を当てたタスクについて述べる。 また、過去のエディションを振り返って、タスクがどのように進化したかを説明します。 f-scoreの結果は着実に改善され(40%から60%から63%)、提案されたシステムの種類も複雑になった。 音声イベント検出システムは、提供されたベースラインの単純なバリエーションではない。

Few-shot bioacoustic event detection consists in detecting sound events of specified types, in varying soundscapes, while having access to only a few examples of the class of interest. This task ran as part of the DCASE challenge for the third time this year with an evaluation set expanded to include new animal species, and a new rule: ensemble models were no longer allowed. The 2023 few shot task received submissions from 6 different teams with F-scores reaching as high as 63% on the evaluation set. Here we describe the task, focusing on describing the elements that differed from previous years. We also take a look back at past editions to describe how the task has evolved. Not only have the F-score results steadily improved (40% to 60% to 63%), but the type of systems proposed have also become more complex. Sound event detection systems are no longer simple variations of the baselines provided: multiple few-shot learning methodologies are still strong contenders for the task.
翻訳日:2023-06-16 14:07:54 公開日:2023-06-15
# 分布ロバスト最適化による確率的再重み付け勾配降下

Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization ( http://arxiv.org/abs/2306.09222v1 )

ライセンス: Link先を確認
Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai Suggala(参考訳) 本研究では,深層ニューラルネットワークの性能向上のための勾配勾配降下法を開発した。 アルゴリズムは最適化ステップ毎にデータポイントの重み付けを重要視する。 このアプローチは、一般化保証が改善されたモデルをもたらすことが知られている$f$-divergencesによる分散的ロバストな最適化にインスパイアされています。 我々の再重み付け方式は単純で計算効率が良く、SGDやAdamのような一般的な最適化アルゴリズムと組み合わせることができる。 実験では,バニラ分類,ラベルの不均衡を伴う分類,ノイズラベル,ドメイン適応,表象表現学習など,様々なタスクにおけるアプローチの優位性を実証した。 特に,DomainBedベンチマークとTabularベンチマークでは,SOTAよりも+0.7%,+1.44%向上した。 さらに,本アルゴリズムは,GLUEベンチマーク上でのBERTを+1.94%,ImageNet-1K上でのViTを0.9%向上させる。 これらの結果は,提案手法の有効性を示し,多様な領域における性能向上の可能性を示した。

We develop a re-weighted gradient descent technique for boosting the performance of deep neural networks. Our algorithm involves the importance weighting of data points during each optimization step. Our approach is inspired by distributionally robust optimization with $f$-divergences, which has been known to result in models with improved generalization guarantees. Our re-weighting scheme is simple, computationally efficient, and can be combined with any popular optimization algorithms such as SGD and Adam. Empirically, we demonstrate our approach's superiority on various tasks, including vanilla classification, classification with label imbalance, noisy labels, domain adaptation, and tabular representation learning. Notably, we obtain improvements of +0.7% and +1.44% over SOTA on DomainBed and Tabular benchmarks, respectively. Moreover, our algorithm boosts the performance of BERT on GLUE benchmarks by +1.94%, and ViT on ImageNet-1K by +0.9%. These results demonstrate the effectiveness of the proposed approach, indicating its potential for improving performance in diverse domains.
翻訳日:2023-06-16 14:07:37 公開日:2023-06-15
# 仕立て自由空間ビームフォーミングの格子設計法

Grating design methodology for tailored free-space beam-forming ( http://arxiv.org/abs/2306.09220v1 )

ライセンス: Link先を確認
Gillenhaal J. Beck, Jonathan P. Home, Karan K. Mehta(参考訳) 本稿では,イオントラップ物理の応用による数値最適化の必要を回避するため,グラティングカプラの一般プロファイルを用いた自由空間ビーム形成手法を提案する。 我々は、紫外線や可視波長を含む全ての光学系が完全に統合された新しいイオントラップ用に設計された異なる波長と導波路材料を用いて、様々な格子を通してその能力を実証する。 本研究では,導波路テーパ形状,放射角,集束高さの制限を伴わない回折限定集束の設計と,高次エルミート・ガウシアン・ラゲール・ガウシアンビームの集束について述べる。 ビーム形成における格子長とテーパ角の影響を調べた結果,開口ビームの焦点シフトの重要性が示唆された。 提案した設計手法により,ビームプロファイリンググレーティングの精度,ビームプロファイルの柔軟性,原子システムへの応用による動作波長を効率的に設計することができる。

We present a design methodology for free-space beam-forming with general profiles from grating couplers which avoids the need for numerical optimization, motivated by applications in ion trap physics. We demonstrate its capabilities through a variety of gratings using different wavelengths and waveguide materials, designed for new ion traps with all optics fully integrated, including UV and visible wavelengths. We demonstrate designs for diffraction-limited focusing without restriction on waveguide taper geometry, emission angle, or focus height, as well as focused higher order Hermite-Gaussian and Laguerre-Gaussian beams. Additional investigations examine the influence of grating length and taper angle on beam-forming, indicating the importance of focal shift in apertured beams. The design methodology presented allows for efficient design of beamforming gratings with the accuracy as well as the flexibility of beam profile and operating wavelength demanded by application in atomic systems.
翻訳日:2023-06-16 14:07:20 公開日:2023-06-15
# スケーラブル量子ネットワーク: 誤り訂正による混雑のない階層的絡み合いルーティング

Scalable Quantum Networks: Congestion-Free Hierarchical Entanglement Routing with Error Correction ( http://arxiv.org/abs/2306.09216v1 )

ライセンス: Link先を確認
Hyeongrak Choi, Marc G. Davis, \'Alvaro G. I\~nesta, Dirk R. Englund(参考訳) 階層型マルチフロー絡み合いルーティングのための量子ツリーネットワークを提案する。 木の葉の端ノードは、内部ノードのルーターを介して通信する。 $k$-ary treeネットワークでは、各ノードは下層の$k$ノードに接続され、2つのノードを接続するチャネル長は、葉からルートノードに移動すると$a_k$で増加する。 このアーキテクチャにより、混雑のない、エラー訂正された操作に対するノード当たりのキュービットオーバーヘッドを、エンドノード数でサブリニアにすることができる。 k$-ary treeのオーバーヘッドスケーリングは$O(N^{\log_k a_k} \cdot \log_k N)$である。 具体的には、四次木ルーティングを持つ正方格子分布端ノードは、オーバーヘッド$\sim O(\sqrt{N}\cdot\log_4 N)$となる。 極小曲面被覆木に対して、オーバーヘッド $\sim o(n^{0.25}\cdot\log_4 n)$ は $k=4$ で、すべての $k$ に対して部分線型である。 サイズに依存しないしきい値挙動を示す量子木ネットワークのネットワークシミュレーションを行った。 ツリーネットワークのルーティングは、時間を要するマルチパス探索アルゴリズムを必要としない。 これらの特性はスケーラブルな量子ネットワークに必要な要件を満たす。

We propose quantum tree networks for hierarchical multi-flow entanglement routing. The end nodes on the leaves of the tree communicate through the routers at internal nodes. In a $k$-ary tree network, each node is connected to $k$ nodes in the lower layer, and the channel length connecting two nodes grows with rate $a_k$ as we move from the leaf to the root node. This architecture enables the qubit-per-node overhead for congestion-free and error-corrected operations to be sublinear in the number of end nodes, $N$. The overhead scaling for $k$-ary tree is $O(N^{\log_k a_k} \cdot \log_k N)$. Specifically, the square-lattice distributed end nodes with the quaternary tree routing leads to an overhead $\sim O(\sqrt{N}\cdot\log_4 N)$. For a minimal surface-covering tree, the overhead $\sim O(N^{0.25}\cdot\log_4 N)$ for $k=4$ and is sublinear for all $k$. We performed network simulations of quantum tree networks that exhibits size-independent threshold behavior. The routing in tree network does not require time-consuming multi-path finding algorithms. These properties satisfy the essential requirements for scalable quantum networks.
翻訳日:2023-06-16 14:07:04 公開日:2023-06-15
# CMMLU:中国語における大規模マルチタスク言語理解の測定

CMMLU: Measuring massive multitask language understanding in Chinese ( http://arxiv.org/abs/2306.09212v1 )

ライセンス: Link先を確認
Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin(参考訳) 大きな言語モデル(LLM)の能力が進歩し続けるにつれ、その性能の評価はますます重要で難しいものになりつつある。 本稿は,自然科学,社会科学,工学,人文科学など,さまざまな分野をカバーする総合的な中国のベンチマークであるCMMLUを導入することで,このギャップを埋めることを目的としている。 我々は18の高度多言語および中国語指向LLMの徹底的な評価を行い、その性能を異なる主題や設定で評価する。 その結果、既存のllmのほとんどが、文脈内例と思考の連鎖プロンプトが提供されても、平均精度50%を達成するのに苦労していることが分かり、ランダムベースラインは25%である。 これはLLMの改善のための重要な余地を浮き彫りにする。 さらに,モデルの性能に影響する要因を同定し,llm向上のための方向性を提案する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。

As the capabilities of large language models (LLMs) continue to advance, evaluating their performance becomes increasingly crucial and challenging. This paper aims to bridge this gap by introducing CMMLU, a comprehensive Chinese benchmark that covers various subjects, including natural science, social sciences, engineering, and humanities. We conduct a thorough evaluation of 18 advanced multilingual- and Chinese-oriented LLMs, assessing their performance across different subjects and settings. The results reveal that most existing LLMs struggle to achieve an average accuracy of 50%, even when provided with in-context examples and chain-of-thought prompts, whereas the random baseline stands at 25%. This highlights significant room for improvement in LLMs. Additionally, we conduct extensive experiments to identify factors impacting the models' performance and propose directions for enhancing LLMs. CMMLU fills the gap in evaluating the knowledge and reasoning capabilities of large language models within the Chinese context.
翻訳日:2023-06-16 14:06:45 公開日:2023-06-15
# 最小限の人的努力による実証から学ぶための枠組み

A Framework for Learning from Demonstration with Minimal Human Effort ( http://arxiv.org/abs/2306.09211v1 )

ライセンス: Link先を確認
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) 我々は,ロボット学習を共有自律の文脈で考える。システムの制御は,人間の遠隔操作と自律制御に切り替えることができる。 この環境では、強化学習と、人間の時間に関連するコストがあるデモから学ぶことを取り上げます。 このコストは、ロボットを遠隔操作したり、失敗からロボットを回収するのに要する時間を表す。 各エピソードでは、エージェントは人間の遠隔操作をリクエストするか、自走式コントローラのいずれかを使うかを選ばなければならない。 私たちのアプローチでは、エピソードの初期状態を考えると、各コントローラの成功確率を予測することを学びます。 これは、エピソードのコントローラを選択するために、コンテキスト多重武装バンディットアルゴリズムで使用される。 コントローラはデモや強化学習からオンラインで学習され、自律的なパフォーマンスが向上し、システムはより多くの経験を持つテレオペレータに依存しなくなる。 提案手法は,2つのシミュレーションタスクと1つの実世界のタスクを実行するための人的コストを削減する。

We consider robot learning in the context of shared autonomy, where control of the system can switch between a human teleoperator and autonomous control. In this setting we address reinforcement learning, and learning from demonstration, where there is a cost associated with human time. This cost represents the human time required to teleoperate the robot, or recover the robot from failures. For each episode, the agent must choose between requesting human teleoperation, or using one of its autonomous controllers. In our approach, we learn to predict the success probability for each controller, given the initial state of an episode. This is used in a contextual multi-armed bandit algorithm to choose the controller for the episode. A controller is learnt online from demonstrations and reinforcement learning so that autonomous performance improves, and the system becomes less reliant on the teleoperator with more experience. We show that our approach to controller selection reduces the human cost to perform two simulated tasks and a single real-world task.
翻訳日:2023-06-16 14:06:27 公開日:2023-06-15
# 非線形システムにおけるモデルベースrlの最適探索

Optimal Exploration for Model-Based RL in Nonlinear Systems ( http://arxiv.org/abs/2306.09210v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Guanya Shi, Kevin Jamieson(参考訳) 未知非線形力学系を制御するための学習は強化学習と制御理論の基本的な問題である。 一般的に適用されるアプローチは、まず環境(探索)を探索し、その正確なモデル(システム識別)を学習し、次に、この推定システム上で最小のコストで最適なコントローラを計算することである。 既存の研究から,システム全体の一様良質なモデルを学習できることが示されているが,実際には,実際のシステムに対して低コストで優れたコントローラを学習しようとする場合には,システムパラメータが他のシステムよりも著しく重要になる可能性があるため,そのようなパラメータの学習に焦点を合わせる必要がある。 本研究では,非線形力学系の設定を考察し,そのような設定で公式な定量化を目指す。 (a)優れたコントローラの学習に最も関係のあるパラメータ、 (b)そのようなパラメータの不確実性を最小限に抑えるために、最もよく探索できる方法。 線形系における最近の研究から着想を得て,非線形系における制御器損失の最小化は,特定のタスク依存計量におけるシステムパラメータの推定に繋がることを示した。 そこで本手法は,本手法を効率よく探索し,不確実性を低減できるアルゴリズムを開発し,提案手法が制御器を最適に近い速度で学習することを示す。 提案手法は, 方針最適化から任意のシステムにおける最適実験設計への一般化に依拠し, 独立した関心を持つ。 現実的な非線形ロボットシステムにおいて,本手法の有効性を実証する実験を行った。

Learning to control unknown nonlinear dynamical systems is a fundamental problem in reinforcement learning and control theory. A commonly applied approach is to first explore the environment (exploration), learn an accurate model of it (system identification), and then compute an optimal controller with the minimum cost on this estimated system (policy optimization). While existing work has shown that it is possible to learn a uniformly good model of the system~\citep{mania2020active}, in practice, if we aim to learn a good controller with a low cost on the actual system, certain system parameters may be significantly more critical than others, and we therefore ought to focus our exploration on learning such parameters. In this work, we consider the setting of nonlinear dynamical systems and seek to formally quantify, in such settings, (a) which parameters are most relevant to learning a good controller, and (b) how we can best explore so as to minimize uncertainty in such parameters. Inspired by recent work in linear systems~\citep{wagenmaker2021task}, we show that minimizing the controller loss in nonlinear systems translates to estimating the system parameters in a particular, task-dependent metric. Motivated by this, we develop an algorithm able to efficiently explore the system to reduce uncertainty in this metric, and prove a lower bound showing that our approach learns a controller at a near-instance-optimal rate. Our algorithm relies on a general reduction from policy optimization to optimal experiment design in arbitrary systems, and may be of independent interest. We conclude with experiments demonstrating the effectiveness of our method in realistic nonlinear robotic systems.
翻訳日:2023-06-16 14:06:10 公開日:2023-06-15
# ロバスト世界モデルの学習用リワードフリーカリキュラム

Reward-Free Curricula for Training Robust World Models ( http://arxiv.org/abs/2306.09205v1 )

ライセンス: Link先を確認
Marc Rigter, Minqi Jiang, Ingmar Posner(参考訳) 環境に新たなトレーニングを加えることなく、新しいタスクに適応できる汎用的なエージェントの開発への関心が最近高まっている。 報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。 汎用エージェントを実現するには、異なる環境にまたがる堅牢性が必要である。 しかし、異なる環境は適切な世界モデルを学ぶために異なる量のデータを必要とする。 本研究では,報酬のない環境でロバストな世界モデルを効率的に学習する問題に対処する。 堅牢性の尺度として、ミニマックス後悔の目的を考える。 minimax regretの目標は,環境をまたがる世界モデルにおける最大誤差を最小化することにある。 これは我々のアルゴリズムであるWAKER: Weighted Acquisition of Knowledge across Environments for Robustnessに通知する。 WAKERは、各環境のワールドモデルの推定誤差に基づいて、データ収集のための環境を選択する。 実験の結果、WAKERは単純領域ランダム化よりも優れ、堅牢性、効率、一般化が向上した。

There has been a recent surge of interest in developing generally-capable agents that can adapt to new tasks without additional training in the environment. Learning world models from reward-free exploration is a promising approach, and enables policies to be trained using imagined experience for new tasks. Achieving a general agent requires robustness across different environments. However, different environments may require different amounts of data to learn a suitable world model. In this work, we address the problem of efficiently learning robust world models in the reward-free setting. As a measure of robustness, we consider the minimax regret objective. We show that the minimax regret objective can be connected to minimising the maximum error in the world model across environments. This informs our algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for Robustness. WAKER selects environments for data collection based on the estimated error of the world model for each environment. Our experiments demonstrate that WAKER outperforms naive domain randomisation, resulting in improved robustness, efficiency, and generalisation.
翻訳日:2023-06-16 14:05:18 公開日:2023-06-15
# 持続可能な社会のためのデジタルトランスフォーメーションの形成 -bits & b\"aumeからの帰結-

Shaping digital transformation for a sustainable society -- Contributions from Bits & B\"aume ( http://arxiv.org/abs/2306.09204v1 )

ライセンス: Link先を確認
Patricia Jankowski, Anja H\"ofner, Marja Lena Hoffmann, Friederike Rohde, Rainer Rehak, Johanna Graf (Eds.)(参考訳) 2022年のBits & B\" aume"カンファレンスのコンパニオンブックは、65人以上の著者の洞察、仕事、研究、意見をまとめ、実践者、研究者、活動家を含む"Bits & B\" aume"の背景にまとめている。 この論文は、デジタル化と持続可能性の交差の異なる部分領域に対処することで、2019年の最初の出版以来の「ビット」と「B\」トピックの融合の進展を実証している。 記事は幅広いトピックを扱っているが、デジタルインフラストラクチャ、ai、ブロックチェーン、モバイルアプリ、その他のソフトウェアアプリケーションのリソース消費、電力影響、民主的なガバナンス、さらには持続不可能なプラクティスやプラットフォーム経済といったパラダイムへの対処の必要性といった、差し迫った課題を取り上げている。 透明性だけでなくソリューションも提供し、将来のプログラムのためのコンピュータサイエンスのような、必要な変換に関連する実践的なアプローチと概念を提示している。 また、持続可能性に関するEUの法律やICTデバイスの自由に関する側面など、現在の政治発展についてコメントする記事も掲載されている。 さらに、活動的な市民社会の力と必要性を強調し、行動主義を刺激することを目指している。 Bits & B\"aume.com(リンク)について話題にしているところですか? この分野に長年関わってきたことはありますか、それとも、ここで触れられた分野の専門家ですか? このジャーナルでは、今日のデジタル化社会の課題に関するイラストのような入門トピックと、概念や規制に関する議論のような先進的なトピックの両方を見つけることができます。 背景が何であれ、読書を楽しみ、途中で何か新しいことを学び、インスパイアされると思います。 最終的に私たちは、必要な社会・生態的な変化の一部として、デジタル化を形作るという、包括的な目標に結びついています。

This companion book to the "Bits & B\"aume" conference 2022 compiles the insights, work, research and opinions of more than 65 authors with a "Bits & B\"aume" background, including practitioners, researchers and activists. The articles demonstrate the progress made in merging "Bits" and "B\"aume" (Trees) topics since our first publication in 2019 by addressing different sub-areas of the intersections between digitalisation and sustainability. Encompassing a wide range of topics, the articles delve into pressing challenges such as the resource consumption, power implications and democratic governance of digital infrastructures, AI, blockchains, mobile apps, and other software applications, as well as the need to address the unsustainable practices and paradigms of e.g., the platform economy. Offering not only transparency but also solutions, the journal presents practical approaches and concepts related to the necessary transformation, such as the Computer Science for Future programme. It also contains articles commenting on current political developments, such as the EU legislation on sustainability and freedom-related aspects of ICT devices. Further articles highlight the power of and need for an active civil society, aiming to inspire activism. This journal caters for everyone: Are you just getting into the topics around Bits & B\"aume? Have you been involved in this field for many years, or are you an expert in one of the areas touched on here? In this journal you will find both introductory topics, such as illustrations on the challenges of today's digitalised society, and also advanced topics, such as conceptual and regulatory discussions. Whatever your background, we think you'll enjoy the read, learn something new on the way, and get inspired. Ultimately, we are all united by the overarching goal of shaping digitalisation as part of a necessary socio-ecological change.
翻訳日:2023-06-16 14:05:03 公開日:2023-06-15
# 変圧器と畳み込みを用いた食品画像分割の知識伝達

Transferring Knowledge for Food Image Segmentation using Transformers and Convolutions ( http://arxiv.org/abs/2306.09203v1 )

ライセンス: Link先を確認
Grant Sinha, Krish Parmar, Hilda Azimi, Amy Tai, Yuhao Chen, Alexander Wong, Pengcheng Xi(参考訳) 食品画像のセグメンテーションは、食品のプレートの栄養価を推定するなど、ユビキタスに応用される重要なタスクである。 この領域でのセグメンテーションには機械学習モデルが使用されているが、食品画像にはいくつかの課題がある。 1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。 もう1つの課題はクラス間の類似性とクラス内変異の程度であり、これは食品が提供できる様々な調理方法と料理によって引き起こされる。 さらに、食品データセットにおけるクラス不均衡は避けられない問題である。 これらの問題に対処するために、2つのモデルをトレーニングし比較する。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向エンコーダ表現である。 モデルは、フードイメージセグメンテーションの堅牢なベンチマークとして認識されているFoodSeg103データセットを使用して、トレーニングされ、評価される。 beitモデルは、fooseg103の結合49.4の平均交点を達成することにより、以前の最先端モデルを上回る。 本研究は,食品画像領域における畳み込みとトランスフォーマーを用いた知識伝達に関する知見を提供する。

Food image segmentation is an important task that has ubiquitous applications, such as estimating the nutritional value of a plate of food. Although machine learning models have been used for segmentation in this domain, food images pose several challenges. One challenge is that food items can overlap and mix, making them difficult to distinguish. Another challenge is the degree of inter-class similarity and intra-class variability, which is caused by the varying preparation methods and dishes a food item may be served in. Additionally, class imbalance is an inevitable issue in food datasets. To address these issues, two models are trained and compared, one based on convolutional neural networks and the other on Bidirectional Encoder representation for Image Transformers (BEiT). The models are trained and valuated using the FoodSeg103 dataset, which is identified as a robust benchmark for food image segmentation. The BEiT model outperforms the previous state-of-the-art model by achieving a mean intersection over union of 49.4 on FoodSeg103. This study provides insights into transfering knowledge using convolution and Transformer-based approaches in the food image domain.
翻訳日:2023-06-16 14:04:31 公開日:2023-06-15
# 確率計画のための重り付き代数

A Heavy-Tailed Algebra for Probabilistic Programming ( http://arxiv.org/abs/2306.09262v1 )

ライセンス: Link先を確認
Feynman Liang, Liam Hodgkinson, Michael W. Mahoney(参考訳) ニューラルネットワークによるノイズ通過に基づく確率モデルの成功にもかかわらず、最近の研究では、ベース分布のテールが適切に調整されない限り、そのような手法がテールの挙動を正確に捉えることができないことが判明している。 この不足を克服するために,確率変数の尾部を系統的に解析する手法を提案し,確率的プログラミング言語コンパイラの静的解析(サンプルを描画する前に)パス中にこの手法をどのように利用できるかを示す。 様々な操作で尾がどう変化するかを特徴づけるために、一般化されたガンマ分布に基づく尾漸近系の3パラメータ族に作用する代数を開発する。 我々の代数的演算は加法と乗法の下で閉じており、それらは異なるスケールでガウス以下を区別することができ、それらの定義から直接最も重要な統計分布のテールを再現するのに十分な比率を処理できる。 実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。

Despite the successes of probabilistic models based on passing noise through neural networks, recent work has identified that such methods often fail to capture tail behavior accurately, unless the tails of the base distribution are appropriately calibrated. To overcome this deficiency, we propose a systematic approach for analyzing the tails of random variables, and we illustrate how this approach can be used during the static analysis (before drawing samples) pass of a probabilistic programming language compiler. To characterize how the tails change under various operations, we develop an algebra which acts on a three-parameter family of tail asymptotics and which is based on the generalized Gamma distribution. Our algebraic operations are closed under addition and multiplication; they are capable of distinguishing sub-Gaussians with differing scales; and they handle ratios sufficiently well to reproduce the tails of most important statistical distributions directly from their definitions. Our empirical results confirm that inference algorithms that leverage our heavy-tailed algebra attain superior performance across a number of density modeling and variational inference tasks.
翻訳日:2023-06-16 13:58:50 公開日:2023-06-15
# コールドカソール需要予測モデルによるコールドスタート予測の緩和

Mitigating Cold-start Forecasting using Cold Causal Demand Forecasting Model ( http://arxiv.org/abs/2306.09261v1 )

ライセンス: Link先を確認
Zahra Fatemi, Minh Huynh, Elena Zheleva, Zamir Syed, Xiaojun Di(参考訳) 過去のデータを用いて変数の将来値を予測する多変量時系列データを予測することは、重要な実用的応用をもたらす。 深層学習に基づくモデルはこの分野において有望であるが、従属変数間の因果関係を捉えることができず、精度の低い予測に繋がる。 さらに、これらのモデルは、ある変数が履歴データを欠いている時系列データにおけるコールドスタート問題に対処できず、変数間の依存関係を識別する上での課題を提起する。 これらの制約に対処するために、コールドカウサル需要予測(CDF-cold)フレームワークを導入し、コールドスタート問題に影響を受ける多変量時系列データの予測精度を高めるために、深層学習モデルに因果推論を統合する。 提案手法の有効性を検証するため,Googleデータセンターのネットワークトラフィックを含む15の時系列データセットを収集した。 実験により,cdf-coldフレームワークは,多変量時系列データの予測において最先端予測モデルを上回ることを示した。

Forecasting multivariate time series data, which involves predicting future values of variables over time using historical data, has significant practical applications. Although deep learning-based models have shown promise in this field, they often fail to capture the causal relationship between dependent variables, leading to less accurate forecasts. Additionally, these models cannot handle the cold-start problem in time series data, where certain variables lack historical data, posing challenges in identifying dependencies among variables. To address these limitations, we introduce the Cold Causal Demand Forecasting (CDF-cold) framework that integrates causal inference with deep learning-based models to enhance the forecasting accuracy of multivariate time series data affected by the cold-start problem. To validate the effectiveness of the proposed approach, we collect 15 multivariate time-series datasets containing the network traffic of different Google data centers. Our experiments demonstrate that the CDF-cold framework outperforms state-of-the-art forecasting models in predicting future values of multivariate time series data.
翻訳日:2023-06-16 13:58:33 公開日:2023-06-15
# 密度に基づくクラスタリング手法の検討

A Survey of Some Density Based Clustering Techniques ( http://arxiv.org/abs/2306.09256v1 )

ライセンス: Link先を確認
Rupanka Bhuyan and Samarjeet Borah(参考訳) 密度ベースのクラスタリングは、データセットから未知のパターンを抽出するためにデータマイニングで使用されるクラスタリングの一種である。 DBSCAN、OPTICS、DENCLUE、VDBSCAN、DVBSCAN、DBCLASD、ST-DBSCANなどの密度ベースのクラスタリング手法がある。 本稿では,これらの手法について,その特性,長所,短所,そして最も重要な点として,有用かつ適切なパターンをマイニングするための異なる種類のデータセットへの適用性について検討する。

Density Based Clustering are a type of Clustering methods using in data mining for extracting previously unknown patterns from data sets. There are a number of density based clustering methods such as DBSCAN, OPTICS, DENCLUE, VDBSCAN, DVBSCAN, DBCLASD and ST-DBSCAN. In this paper, a study of these methods is done along with their characteristics, advantages and disadvantages and most importantly, their applicability to different types of data sets to mine useful and appropriate patterns.
翻訳日:2023-06-16 13:58:15 公開日:2023-06-15
# MinMaxネットワーク

MinMax Networks ( http://arxiv.org/abs/2306.09253v1 )

ライセンス: Link先を確認
Winfried Lohmiller, Philipp Gassert, Jean-Jacques Slotine(参考訳) 神経インスパイアされた機械学習では、多くの進歩が過去数十年にわたって達成されてきたが、ニューロンの組み合わせを用いた勾配ベースの学習には基本的な理論的問題がある。 これらの問題、例えばsaddle point やsuboptimal plateaus of the cost functionは、理論と実践を学習の失敗に導く可能性がある。 さらに、大きなステップが不安定になり、小さなステップが学習を遅くする可能性があるため、勾配の離散的なステップサイズ選択が問題となる。 本稿では,連続区間線形関数に対する離散的minmax学習手法について述べる。 アルゴリズムのグローバル指数収束は、連続から離散的なケースへ拡張される不等式制約付き契約理論を用いて確立される: 各線形関数のパラメトリゼーションは、深層学習とは対照的に、提案されたMinMaxネットワークにおいて線形である。 これにより、測定値が1つの線形領域から隣り合う線形領域に遷移しない限り、線形回帰安定性証明が可能になる。 離散勾配勾配のステップサイズは、隣接する2つの線型関数の辺に直交するラグランジアン制限である。 このラグランジアンステップ制限は、勾配方向のステップサイズ制限とは対照的に、拘束されていない系のダイナミクスの収束を減少させるものではないことが示される。 制約付き片次線形関数学習の収束速度は、各局所線型領域の指数収束率と等価であることを示す。

While much progress has been achieved over the last decades in neuro-inspired machine learning, there are still fundamental theoretical problems in gradient-based learning using combinations of neurons. These problems, such as saddle points and suboptimal plateaus of the cost function, can lead in theory and practice to failures of learning. In addition, the discrete step size selection of the gradient is problematic since too large steps can lead to instability and too small steps slow down the learning. This paper describes an alternative discrete MinMax learning approach for continuous piece-wise linear functions. Global exponential convergence of the algorithm is established using Contraction Theory with Inequality Constraints, which is extended from the continuous to the discrete case in this paper: The parametrization of each linear function piece is, in contrast to deep learning, linear in the proposed MinMax network. This allows a linear regression stability proof as long as measurements do not transit from one linear region to its neighbouring linear region. The step size of the discrete gradient descent is Lagrangian limited orthogonal to the edge of two neighbouring linear functions. It will be shown that this Lagrangian step limitation does not decrease the convergence of the unconstrained system dynamics in contrast to a step size limitation in the direction of the gradient. We show that the convergence rate of a constrained piece-wise linear function learning is equivalent to the exponential convergence rates of the individual local linear regions.
翻訳日:2023-06-16 13:58:06 公開日:2023-06-15
# 拡散型生成モデルにおける非漸近収束の高速化に向けて

Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models ( http://arxiv.org/abs/2306.09251v1 )

ライセンス: Link先を確認
Gen Li, Yuting Wei, Yuxin Chen, Yuejie Chi(参考訳) マルコフ拡散過程を逆転するために学習することでノイズを新しいデータインスタンスに変換する拡散モデルは、現代の生成モデリングの基盤となっている。 実用的能力は広く認識されているが、理論的基盤は成熟していない。 本研究では,(スタイン)スコア関数の信頼できる推定へのアクセスを前提として,離散時間における拡散モデルのデータ生成過程を理解するための非漸近的理論の一組を開発する。 一般的な決定論的サンプル(確率フロー ode に基づく)に対して、1/t$ に比例する収束率(ステップの総数 t$ で)を確立し、過去の結果を改善し、また別の主流の確率的サンプル(英語版)(denoising diffusion probabilistic model (ddpm) の一種)に対して、1/\sqrt{t}$ に比例する収束率を導出し、最先端理論に合致する。 本理論は対象データ分布に最小限の仮定(例えば、滑らかさの仮定を課さない)のみを課し、sdesやodeのツールボックスに頼らずに、初等で汎用的な非漸近的アプローチに基づいて開発する。 さらに、2つの加速変種を設計し、その収束性を改善してODE-based samplerに1/T^2$、DDPM-type samplerに1/T$とする。

Diffusion models, which convert noise into new data instances by learning to reverse a Markov diffusion process, have become a cornerstone in contemporary generative modeling. While their practical power has now been widely recognized, the theoretical underpinnings remain far from mature. In this work, we develop a suite of non-asymptotic theory towards understanding the data generation process of diffusion models in discrete time, assuming access to reliable estimates of the (Stein) score functions. For a popular deterministic sampler (based on the probability flow ODE), we establish a convergence rate proportional to $1/T$ (with $T$ the total number of steps), improving upon past results; for another mainstream stochastic sampler (i.e., a type of the denoising diffusion probabilistic model (DDPM)), we derive a convergence rate proportional to $1/\sqrt{T}$, matching the state-of-the-art theory. Our theory imposes only minimal assumptions on the target data distribution (e.g., no smoothness assumption is imposed), and is developed based on an elementary yet versatile non-asymptotic approach without resorting to toolboxes for SDEs and ODEs. Further, we design two accelerated variants, improving the convergence to $1/T^2$ for the ODE-based sampler and $1/T$ for the DDPM-type sampler, which might be of independent theoretical and empirical interest.
翻訳日:2023-06-16 13:57:44 公開日:2023-06-15
# 視覚言語モデルを用いたテキストプロンプタブル手術機器のセグメンテーション

Text Promptable Surgical Instrument Segmentation with Vision-Language Models ( http://arxiv.org/abs/2306.09244v1 )

ライセンス: Link先を確認
Zijian Zhou, Oluwatosin Alabi, Meng Wei, Tom Vercauteren, Miaojing Shi(参考訳) 本稿では,低侵襲手術における手術器具の多様性と分化に関わる課題を克服するために,新しいテキストプロンプト可能な手術器具セグメンテーション手法を提案する。 課題をテキストとして再定義することで,手術器具のよりきめ細やかな理解と,新たな機器タイプへの適応性を実現する。 近年の視覚言語モデルの進歩に触発されて,プリトレーニングされた画像とテキストエンコーダをモデルバックボーンとして活用し,注意と畳み込みに基づくセンセーション予測のためのテキストプロンプト可能なマスクデコーダを設計した。 本モデルでは,手術器具毎に複数のテキストプロンプトを併用し,新たなプロンプト機構によりセグメンテーション性能が向上した。 さらに,画像特徴理解とセグメンテーション精度を向上させるためのハードインスツルメンテーション領域強化モジュールを提案する。 EndoVis2017とEndoVis2018データセットに関する大規模な実験は、我々のモデルの優れたパフォーマンスと有望な一般化能力を示している。 我々の知る限り、これは外科用機器セグメンテーションへの迅速なアプローチの最初の実装であり、ロボットアシスト手術の分野での実用化に有意義な可能性を秘めている。

In this paper, we propose a novel text promptable surgical instrument segmentation approach to overcome challenges associated with diversity and differentiation of surgical instruments in minimally invasive surgeries. We redefine the task as text promptable, thereby enabling a more nuanced comprehension of surgical instruments and adaptability to new instrument types. Inspired by recent advancements in vision-language models, we leverage pretrained image and text encoders as our model backbone and design a text promptable mask decoder consisting of attention- and convolution-based prompting schemes for surgical instrument segmentation prediction. Our model leverages multiple text prompts for each surgical instrument through a new mixture of prompts mechanism, resulting in enhanced segmentation performance. Additionally, we introduce a hard instrument area reinforcement module to improve image feature comprehension and segmentation precision. Extensive experiments on EndoVis2017 and EndoVis2018 datasets demonstrate our model's superior performance and promising generalization capability. To our knowledge, this is the first implementation of a promptable approach to surgical instrument segmentation, offering significant potential for practical application in the field of robotic-assisted surgery.
翻訳日:2023-06-16 13:57:16 公開日:2023-06-15
# ADHD被験者の自動同定のための脳ネットワーク構造の構築

Exploiting the Brain's Network Structure for Automatic Identification of ADHD Subjects ( http://arxiv.org/abs/2306.09239v1 )

ライセンス: Link先を確認
Soumyabrata Dey, Ravishankar Rao, Mubarak Shah(参考訳) 注意欠陥高活動障害(ADHD)は、小児に共通する行動障害である。 本研究では,脳の静止状態機能的磁気共鳴画像(fMRI)を用いたADHD被験者の自動分類について検討する。 その結果,脳は機能的ネットワークとしてモデル化でき,adhdでは制御対象とネットワークの特定の特性が異なることがわかった。 実験プロトコルの時間枠における脳のボクセル活動の相互相関を計算し,脳の機能をネットワークとしてモデル化する。 ネットワークを構成する各ボクセルに対して異なるネットワーク特徴が計算される。 脳内の全てのボクセルのネットワーク特徴の結合は、特徴ベクトルとして機能する。 次に,PCA-LDA (Principal component analysis-linear discriminant analysis) に基づく分類器の訓練を行う。 そこで我々は,ADHD関連性の違いが脳の特定の領域に存在すると仮定し,ADHDとコントロール対象を識別するのに十分な特徴のみを使用することを仮定した。 そこで本研究では,有効な領域のみを含むブレインマスクを作成する手法を提案し,その特徴を用いてテストデータセットの分類精度が向上することを示す。 分類器を776名の被験者に訓練し,adhd-200チャレンジにおいて神経局が提供した171名の被験者をテストした。 グラフモチーフの特徴,特に長さ3のネットワークサイクルにおけるボクセルの参加頻度を表すマップの有用性を実証する。 最高の分類性能(69.59%)はマスキング付き3サイクルマップ機能を用いて達成される。 提案手法は, 疾患を診断し, 理解できることを約束するものである。

Attention Deficit Hyperactive Disorder (ADHD) is a common behavioral problem affecting children. In this work, we investigate the automatic classification of ADHD subjects using the resting state Functional Magnetic Resonance Imaging (fMRI) sequences of the brain. We show that the brain can be modeled as a functional network, and certain properties of the networks differ in ADHD subjects from control subjects. We compute the pairwise correlation of brain voxels' activity over the time frame of the experimental protocol which helps to model the function of a brain as a network. Different network features are computed for each of the voxels constructing the network. The concatenation of the network features of all the voxels in a brain serves as the feature vector. Feature vectors from a set of subjects are then used to train a PCA-LDA (principal component analysis-linear discriminant analysis) based classifier. We hypothesized that ADHD-related differences lie in some specific regions of the brain and using features only from those regions is sufficient to discriminate ADHD and control subjects. We propose a method to create a brain mask that includes the useful regions only and demonstrate that using the feature from the masked regions improves classification accuracy on the test data set. We train our classifier with 776 subjects and test on 171 subjects provided by The Neuro Bureau for the ADHD-200 challenge. We demonstrate the utility of graph-motif features, specifically the maps that represent the frequency of participation of voxels in network cycles of length 3. The best classification performance (69.59%) is achieved using 3-cycle map features with masking. Our proposed approach holds promise in being able to diagnose and understand the disorder.
翻訳日:2023-06-16 13:56:53 公開日:2023-06-15
# SCALE: 高度な言語モデル評価のための複雑さのスケールアップ

SCALE: Scaling up the Complexity for Advanced Language Model Evaluation ( http://arxiv.org/abs/2306.09237v1 )

ライセンス: Link先を確認
Vishvaksenan Rasiah, Ronja Stern, Veton Matoshi, Matthias St\"urmer, Ilias Chalkidis, Daniel E. Ho, Joel Niklaus(参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くのNLPベンチマーク(プロのドメイン固有のベンチマークでさえ)を飽和させ、LLM能力を適切に評価するための新しい、より困難な新しいベンチマークの必要性を強調している。 本稿では,長文(最大50Kトークン)の処理,ドメイン固有知識(法的テキストに具体化されている)の活用,多言語理解(5言語をカバー),マルチタスク(文書化のための法的文書の構成,情報検索,裁判所ビュー生成,決定決定の要約,引用抽出,および8つの困難なテキスト分類タスク)の4つの重要な側面において,現在のLCMに課題をもたらす新しいNLPベンチマークを提案する。 我々のベンチマークはスイスの法体系からの様々な法的NLPデータセットで構成されており、基礎となる非英語、本質的には多言語、連邦法体系の包括的な研究を可能にする。 最近の進歩にもかかわらず、厳格なレビュー/分析タスクのために長いドキュメントを効率的に処理することは、言語モデルにとってオープンな課題である。 また、高度な専門知識を必要とする包括的なドメイン固有のベンチマークは、多言語ベンチマークと同様にまれである。 この不足は、ほとんどのパブリックモデルが主に英語コーパスに基づいて訓練されているのに対して、他の言語、特に実用的なドメイン固有のnlpタスクについて、私たちの貢献の価値を強調する。 我々のベンチマークは最先端のllmのテストと進歩を可能にする。 本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。 データセットの大規模さ(数十万の例に相当)にも関わらず、既存の公開モデルでは、ドメイン内事前トレーニング後も、ほとんどのタスクに苦労しています。 完全に寛容なオープンCC BY-SAライセンスの下で、すべてのリソース(ベンチマークスイート、事前訓練済みモデル、コード)を公開します。

Recent strides in Large Language Models (LLMs) have saturated many NLP benchmarks (even professional domain-specific ones), emphasizing the need for novel, more challenging novel ones to properly assess LLM capabilities. In this paper, we introduce a novel NLP benchmark that poses challenges to current LLMs across four key dimensions: processing long documents (up to 50K tokens), utilizing domain specific knowledge (embodied in legal texts), multilingual understanding (covering five languages), and multitasking (comprising legal document to document Information Retrieval, Court View Generation, Leading Decision Summarization, Citation Extraction, and eight challenging Text Classification tasks). Our benchmark comprises diverse legal NLP datasets from the Swiss legal system, allowing for a comprehensive study of the underlying Non-English, inherently multilingual, federal legal system. Despite recent advances, efficiently processing long documents for intense review/analysis tasks remains an open challenge for language models. Also, comprehensive, domain-specific benchmarks requiring high expertise to develop are rare, as are multilingual benchmarks. This scarcity underscores our contribution's value, considering most public models are trained predominantly on English corpora, while other languages remain understudied, particularly for practical domain-specific NLP tasks. Our benchmark allows for testing and advancing the state-of-the-art LLMs. As part of our study, we evaluate several pre-trained multilingual language models on our benchmark to establish strong baselines as a point of reference. Despite the large size of our datasets (tens to hundreds of thousands of examples), existing publicly available models struggle with most tasks, even after in-domain pretraining. We publish all resources (benchmark suite, pre-trained models, code) under a fully permissive open CC BY-SA license.
翻訳日:2023-06-16 13:56:29 公開日:2023-06-15
# 結合原子衝突チャネルにおけるポテンシャルとフェシュバッハ$s$波共鳴

Potential and Feshbach $s$-wave resonances in coupled atomic collision channels ( http://arxiv.org/abs/2306.09236v1 )

ライセンス: Link先を確認
G. Andrade-Sanchez and V. Romero-Rochin(参考訳) 本稿では、外部磁場で調整可能な2つの結合チャネルと、入射エネルギーを考慮した1つの開水路と、もう1つの閉水路との原子二成分衝突における$s$波散乱について論じる。 解析は正方形ウェルポテンシャルの定式化モデルを用いて行う。 この単純化により、結合チャネルに現れる異なる散乱共鳴の教育学的に徹底的な議論が可能になる。 それらのうちの1つ、消滅するエネルギーでのポテンシャル共鳴は、結合系の束縛状態が現れると、外界の非常に正確な値で調整される。 フェッシュバッハ理論によって記述された他の共鳴は、入射エネルギーが閉チャネルの束縛状態に近いとき、あたかも開チャネルから切り離されたかのように起こる。 これらの共鳴は、特定の閾値を超える外部場の値に対して存在する。 量子力学のコースにおけるこの研究の潜在的本質的価値に加えて、小さな数値計算によって解析を行うことができるので、超低温気体の励起分野における現在の研究の進展を理解する助けとなる。

We discuss $s$-wave scattering in an atomic binary collision with two coupled channels, tunable by an external magnetic field, one channel open and the other closed for the incident energies considered. The analysis is performed with a stylized model of square-well potentials. This simplification allows for a pedagogically thorough discussion of the different scattering resonances that appear in coupled channels. One of the them, the potential resonances at vanishing energy, occur as a bound state of the coupled system emerges, in turned tuned at a very precise value of the external field. The other resonances, described by Feshbach theory, occur when the incident energy is near a bound state of the closed channel, as if it were decoupled from the open channel. These resonances exist for values of the external field above a particular threshold value. Besides the potential intrinsic value of this study in a quantum mechanics course, as the analysis can be performed with minor numerical calculations, it is also an aid for the understanding of current research advances in the exciting field of ultracold gases.
翻訳日:2023-06-16 13:55:54 公開日:2023-06-15
# 百科事典VQA:細粒度カテゴリの詳細な性質に関する視覚的疑問

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories ( http://arxiv.org/abs/2306.09224v1 )

ライセンス: Link先を確認
Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe Cadar, Howard Zhou, Fei Sha, Andr\'e Araujo, Vittorio Ferrari(参考訳) 細かなカテゴリやインスタンスの詳細な特性に関する視覚的質問を含む大規模視覚的質問応答(VQA)データセットであるEncyclopedic-VQAを提案する。 221kの1つのq&aペアと5枚の画像が一致し、合計で1mのvqaサンプルが得られた。 さらに、データセットにはウィキペディアから派生した制御された知識ベースがあり、各回答をサポートする証拠をマークしています。 PaLI [14]はOK-VQA [37]の最先端技術ですが、データセットでは13.0%の精度しか達成できません。 さらに,知識ベースから関連情報を抽出する機構により,大規模モデルの強化により,百科事典的質問への回答の進展が達成できることを実験的に示す。 完全検索によるオラクル実験は、データセットのシングルホップ部分において87.0%の精度を実現し、自動検索拡張プロトタイプは48.8%を得る。 私たちのデータセットは、検索によるビジョン+言語モデルの将来の研究を可能にすると信じています。

We propose Encyclopedic-VQA, a large scale visual question answering (VQA) dataset featuring visual questions about detailed properties of fine-grained categories and instances. It contains 221k unique question+answer pairs each matched with (up to) 5 images, resulting in a total of 1M VQA samples. Moreover, our dataset comes with a controlled knowledge base derived from Wikipedia, marking the evidence to support each answer. Empirically, we show that our dataset poses a hard challenge for large vision+language models as they perform poorly on our dataset: PaLI [14] is state-of-the-art on OK-VQA [37], yet it only achieves 13.0% accuracy on our dataset. Moreover, we experimentally show that progress on answering our encyclopedic questions can be achieved by augmenting large models with a mechanism that retrieves relevant information from the knowledge base. An oracle experiment with perfect retrieval achieves 87.0% accuracy on the single-hop portion of our dataset, and an automatic retrieval-augmented prototype yields 48.8%. We believe that our dataset enables future research on retrieval-augmented vision+language models.
翻訳日:2023-06-16 13:55:34 公開日:2023-06-15
# 自律運転における実世界感覚入力を用いた運動予測の課題

Challenges of Using Real-World Sensory Inputs for Motion Forecasting in Autonomous Driving ( http://arxiv.org/abs/2306.09281v1 )

ライセンス: Link先を確認
Yihong Xu, Lo\"ick Chambon, \'Eloi Zablocki, Micka\"el Chen, Matthieu Cord, Patrick P\'erez(参考訳) 動き予測は、ロボットが周囲のエージェントの将来の軌道や計画を予測するのに重要な役割を果たす。 しかし、既存の予測手法は、現実世界の知覚パイプラインが提供するものに忠実でないキュレートされたデータセットに依存することが多い。 実際には、エージェントの検出と追跡を担当する上流モジュールや、マップを構築するために道路情報を集めるモジュールは、誤検出、追跡エラー、遠くのエージェントや道路要素の正確さの困難など、さまざまなエラーをもたらす可能性がある。 本稿では、知覚モジュールによって入力が提供されるこの現実的な環境に、動き予測モデルを導入する際の課題を明らかにすることを目的とする。 特に、広範囲な評価により、領域ギャップの影響を定量化する。 さらに, 合成摂動を設計し, 結果のキャラクタリゼーションを向上し, 上流認識モジュールの改善を必要とする領域の洞察と, より堅牢な予測手法の開発に向けたガイダンスを提供する。

Motion forecasting plays a critical role in enabling robots to anticipate future trajectories of surrounding agents and plan accordingly. However, existing forecasting methods often rely on curated datasets that are not faithful to what real-world perception pipelines can provide. In reality, upstream modules that are responsible for detecting and tracking agents, and those that gather road information to build the map, can introduce various errors, including misdetections, tracking errors, and difficulties in being accurate for distant agents and road elements. This paper aims to uncover the challenges of bringing motion forecasting models to this more realistic setting where inputs are provided by perception modules. In particular, we quantify the impacts of the domain gap through extensive evaluation. Furthermore, we design synthetic perturbations to better characterize their consequences, thus providing insights into areas that require improvement in upstream perception modules and guidance toward the development of more robust forecasting methods.
翻訳日:2023-06-16 13:48:15 公開日:2023-06-15
# 基礎セグメンテーションモデルのロバスト性解析

Robustness Analysis on Foundational Segmentation Models ( http://arxiv.org/abs/2306.09278v1 )

ライセンス: Link先を確認
Madeline Chantry Schiappa, Sachidanand VS, Yunhao Ge, Ondrej Miksik, Yogesh S. Rawat, Vibhav Vineet(参考訳) 計算資源の増加とデータのアクセシビリティにより、自己教師付きあるいは半教師付き学習を用いた大量のデータに基づいてトレーニングされた大規模ディープラーニングモデルの増加がみられた。 これらの「基礎」モデルは、しばしば分類、オブジェクト検出、セグメンテーションなどの下流の様々なタスクに適応され、ターゲットデータセットでのトレーニングはほとんど行われない。 本研究では,Visual Foundation Models (VFM) のセグメンテーションタスクに対するロバストネス解析を行い,それらを小規模の教師付きモデルと比較する。 我々は,実世界の分散シフト摂動に対するロバスト性に着目し,coco と ade20k の2つの異なるデータセットを用いて4つの最先端セグメンテーションアーキテクチャをベンチマークした。 We find interesting insights that include (1) VFMs are not robust to compression-based corruptions, (2) while the selected VFMs do not significantly outperform or exhibit more robustness compared to non-VFM models, they remain competitively robust in zero-shot evaluations, particularly when non-VFM are under supervision and (3) selected VFMs demonstrate greater resilience to specific categories of objects, likely due to their open-vocabulary training paradigm, a feature that non-VFM models typically lack. 提案するロバスト性評価は,基礎モデルの新たな要件を導入し,その性能向上に向けたさらなる研究を提起する。

Due to the increase in computational resources and accessibility of data, an increase in large, deep learning models trained on copious amounts of data using self-supervised or semi-supervised learning have emerged. These "foundation" models are often adapted to a variety of downstream tasks like classification, object detection, and segmentation with little-to-no training on the target dataset. In this work, we perform a robustness analysis of Visual Foundation Models (VFMs) for segmentation tasks and compare them to supervised models of smaller scale. We focus on robustness against real-world distribution shift perturbations.We benchmark four state-of-the-art segmentation architectures using 2 different datasets, COCO and ADE20K, with 17 different perturbations with 5 severity levels each. We find interesting insights that include (1) VFMs are not robust to compression-based corruptions, (2) while the selected VFMs do not significantly outperform or exhibit more robustness compared to non-VFM models, they remain competitively robust in zero-shot evaluations, particularly when non-VFM are under supervision and (3) selected VFMs demonstrate greater resilience to specific categories of objects, likely due to their open-vocabulary training paradigm, a feature that non-VFM models typically lack. We posit that the suggested robustness evaluation introduces new requirements for foundational models, thus sparking further research to enhance their performance.
翻訳日:2023-06-16 13:47:57 公開日:2023-06-15
# 明示的抽象制御による条件付き人間のスケッチ合成

Conditional Human Sketch Synthesis with Explicit Abstraction Control ( http://arxiv.org/abs/2306.09274v1 )

ライセンス: Link先を確認
Dar-Yen Chen(参考訳) 本稿では,クラス条件とフォト・ツー・スケッチ合成における抽象的制御に対処する,新しい自由手スケッチ合成手法を提案する。 スケッチとイメージの基本的な区別を定義するため、抽象化はスケッチの重要な側面である。 以前の作品は、異なるレベルの抽象化を達成するために暗黙の制御に依存しており、不正確な制御と人間のスケッチから逸脱したスケッチを合成している。 この課題を解決するために, トランスフォーマチック型潜在拡散モデル (ldm) に統合された2つの新しい抽象化制御機構, 状態埋め込みとストロークトークンを提案する。 これらのメカニズムはモデルに必要な点数やストロークを明示的に提供し、認識性を保ちながら合成スケッチにおいて正確な点レベルとストロークレベルの制御を可能にする。 そこで本手法は,多種多様で非剛性で人間らしいスケッチを効果的に生成する。 提案手法は,協調的なスケッチ合成を可能にし,人間の習慣を望ましい抽象レベルで表現し,現実のアプリケーションにおけるスケッチ合成の可能性を強調する。

This paper presents a novel free-hand sketch synthesis approach addressing explicit abstraction control in class-conditional and photo-to-sketch synthesis. Abstraction is a vital aspect of sketches, as it defines the fundamental distinction between a sketch and an image. Previous works relied on implicit control to achieve different levels of abstraction, leading to inaccurate control and synthesized sketches deviating from human sketches. To resolve this challenge, we propose two novel abstraction control mechanisms, state embeddings and the stroke token, integrated into a transformer-based latent diffusion model (LDM). These mechanisms explicitly provide the required amount of points or strokes to the model, enabling accurate point-level and stroke-level control in synthesized sketches while preserving recognizability. Outperforming state-of-the-art approaches, our method effectively generates diverse, non-rigid and human-like sketches. The proposed approach enables coherent sketch synthesis and excels in representing human habits with desired abstraction levels, highlighting the potential of sketch synthesis for real-world applications.
翻訳日:2023-06-16 13:47:37 公開日:2023-06-15
# あなたの部屋はプライベートではない:深層q学習のための勾配反転攻撃

Your Room is not Private: Gradient Inversion Attack for Deep Q-Learning ( http://arxiv.org/abs/2306.09273v1 )

ライセンス: Link先を確認
Miao Li, Wenhao Ding, Ding Zhao(参考訳) ロボットが仮想環境をナビゲートし、知覚し、関与することを可能にするエンボディド・人工知能(AI)の普及は、コンピュータビジョンと大規模言語モデルの顕著な進歩により、大きな注目を集めている。 プライバシーは、ロボットが実質的な個人情報にアクセスするため、具体化されたaiの領域における重要な懸念として現れます。 しかし、具体的AIタスクにおけるプライバシー漏洩の問題、特に意思決定アルゴリズムに関する問題は、研究において十分に考慮されていない。 本稿では,状態,動作,q値の再構成に勾配インバージョンを用いて,ディープq学習アルゴリズムへの攻撃を提案することで,このギャップに対処することを目的とする。 攻撃に勾配を使用するという選択は、一般的に使われているフェデレート学習技術が、プライベートユーザデータに基づいて計算された勾配を、データを公開サーバに保存したり送信したりすることなく、モデル最適化に利用するという事実によって動機づけられる。 それでも、これらの勾配は、潜在的にプライベートデータを公開するための十分な情報を含んでいる。 我々のアプローチを検証するため、我々はAI2THORシミュレータで実験を行い、我々のアルゴリズムを能動的知覚に基づいて評価する。 実験結果は,全120部屋のレイアウトデータから全情報を適切に復元する手法の有効性を実証するものである。

The prominence of embodied Artificial Intelligence (AI), which empowers robots to navigate, perceive, and engage within virtual environments, has attracted significant attention, owing to the remarkable advancements in computer vision and large language models. Privacy emerges as a pivotal concern within the realm of embodied AI, as the robot access substantial personal information. However, the issue of privacy leakage in embodied AI tasks, particularly in relation to decision-making algorithms, has not received adequate consideration in research. This paper aims to address this gap by proposing an attack on the Deep Q-Learning algorithm, utilizing gradient inversion to reconstruct states, actions, and Q-values. The choice of using gradients for the attack is motivated by the fact that commonly employed federated learning techniques solely utilize gradients computed based on private user data to optimize models, without storing or transmitting the data to public servers. Nevertheless, these gradients contain sufficient information to potentially expose private data. To validate our approach, we conduct experiments on the AI2THOR simulator and evaluate our algorithm on active perception, a prevalent task in embodied AI. The experimental results convincingly demonstrate the effectiveness of our method in successfully recovering all information from the data across all 120 room layouts.
翻訳日:2023-06-16 13:47:20 公開日:2023-06-15
# パラメトリック強制光格子におけるチャープブロッホ-ハーモニック振動

Chirped Bloch-Harmonic oscillations in a parametrically forced optical lattice ( http://arxiv.org/abs/2306.09270v1 )

ライセンス: Link先を確認
Usman Ali, Martin Holthaus, Torsten Meier(参考訳) 周期ポテンシャルにおけるウェーブパケット伝播の加速定理は、k空間力学と実空間力学を歪める。 これは位置非依存力の存在下でのブロッホ振動とスーパーブロッホ振動でよく知られ、理解されている。 本稿では,k空間ダイナミクスと実空間ダイナミクスがパラボラトラップによって与えられる位置依存力により不用意に絡み合っているモデルシステムのダイナミクスを分析する。 この結合は、格子が変調放物ポテンシャルによって揺らぎられたときに、著しく変化し、リッチなダイナミクスをもたらすことを示す。 動力学はチャープブロッホ・ハーモニック振動から非対称拡散振動まで幅広い。 これらの知見は,実空間における時空間ダイナミクスを追跡し,得られた現象の正確な説明につながるk空間ダイナミクスの相対位相を可視化することで解析する。 また,この数値結果を局所加速度モデルと比較し,コヒーレント振動の場合と非常によく一致するが,この結果の解釈を完全に裏付ける拡散力学による発振の偏差は大きい。

The acceleration theorem for wavepacket propagation in periodic potentials disentangles the kspace dynamics and real-space dynamics. This is well known and understood for Bloch oscillations and super Bloch oscillations in the presence of position-independent forces. Here, we analyze the dynamics of a model system in which the k-space dynamics and the real-space dynamics are inextricably intertwined due to a position-dependent force which is provided by a parabolic trap. We demonstrate that this coupling gives rise to significantly modified and rich dynamics when the lattice is shaken by a modulated parabolic potential. The dynamics range from chirped Bloch-Harmonic oscillations to the asymmetric spreading oscillations. We analyze these findings by tracing the spatio-temporal dynamics in real space and by visualizing the relative phase in the k-space dynamics which leads to an accurate explanation of the obtained phenomena. We also compare our numerical results to a local acceleration model and obtain very good agreement for the case of coherent oscillations, however, deviations for oscillations with spreading dynamics which altogether supports the interpretations of our findings.
翻訳日:2023-06-16 13:46:55 公開日:2023-06-15
# 事前訓練セグメンテーションモデルによるゼロショット異常検出

Zero-Shot Anomaly Detection with Pre-trained Segmentation Models ( http://arxiv.org/abs/2306.09269v1 )

ライセンス: Link先を確認
Matthew Baugh, James Batten, Johanna P. M\"uller, Bernhard Kainz(参考訳) 本報告では,視覚異常検出(vand)2023チャレンジのゼロショットトラックへの提案について概説する。 WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。 さらに、前景インスタンスのセグメンテーションを行い、モデルが画像の関連部分に集中できるようにし、モデルがより小さく微妙な偏差を識別できるようにする。 パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。 我々のチーム(Variance Vigilance Vanguard)は、VANDチャレンジのゼロショットトラックで3位となり、VisAデータセットのサンプル/ピクセルレベルで平均F1-maxスコア81.5/24.2を達成した。

This technical report outlines our submission to the zero-shot track of the Visual Anomaly and Novelty Detection (VAND) 2023 Challenge. Building on the performance of the WINCLIP framework, we aim to enhance the system's localization capabilities by integrating zero-shot segmentation models. In addition, we perform foreground instance segmentation which enables the model to focus on the relevant parts of the image, thus allowing the models to better identify small or subtle deviations. Our pipeline requires no external data or information, allowing for it to be directly applied to new datasets. Our team (Variance Vigilance Vanguard) ranked third in the zero-shot track of the VAND challenge, and achieve an average F1-max score of 81.5/24.2 at a sample/pixel level on the VisA dataset.
翻訳日:2023-06-16 13:46:36 公開日:2023-06-15
# ChatGPTとその他の類似システムはAIの現代ルネサンスハイドラか?

Are ChatGPT and Other Similar Systems the Modern Lernaean Hydras of AI? ( http://arxiv.org/abs/2306.09267v1 )

ライセンス: Link先を確認
Dimitrios Ioannidis, Jeremy Kepner, Andrew Bowne, Harriet S. Bryant(参考訳) 生成人工知能システム(「AIシステム」)の台頭は、前例のない社会的関与を生み出した。 AIコード生成システムは、数十年にわたって開発者が作成した膨大なオープンソースコードライブラリにアクセスすることで、質問や要求に対する応答(出力)を提供する。 しかし、リポジトリとして知られる仮想ライブラリに格納されているオープンソースコードを盗むことで、そうする。 どのようにしてこのようなことが起こるのか、そして、イノベーションを保護できる数年の訴訟の解決策があるかどうかがこの記事の焦点です。 また、AIと著作権の関係によって引き起こされたさまざまな問題にも触れています。 先を見据えて次のように提案する。 (a) 開発者が作成したオープンソースコードのライセンスを直ちに変更し、人間のみのオープンソースコードへのアクセス及び/又は使用を可能にすること。 b) マサチューセッツ工科大学(MIT')ライセンスの改訂を提案し、AIシステムがオープンソースコード開発者から適切なライセンスを取得できるようにし、標準を調和させ、イノベーションの利益主導の中心ではなく、すべての人類の利益のために社会的コンセンサスを構築すると信じている。 (c)我々は、イノベーションを推進しつつ、AIシステムの将来を守るための緊急立法措置を求める。 (d)難解なケースでは,AIシステムへの証明の負担の増大が示唆されている。

The rise of Generative Artificial Intelligence systems (``AI systems'') has created unprecedented social engagement. AI code generation systems provide responses (output) to questions or requests by accessing the vast library of open-source code created by developers over decades. However, they do so by allegedly stealing the open-source code stored in virtual libraries, known as repositories. How all this happens and whether there is a solution short of years of litigation that can protect innovation is the focus of this article. We also peripherally touch upon the array of issues raised by the relationship between AI and copyright. Looking ahead, we propose the following: (a) immediate changes to the licenses for open-source code created by developers that will allow access and/or use of any open-source code to humans only; (b) we suggest revisions to the Massachusetts Institute of Technology (``MIT'') license so that AI systems procure appropriate licenses from open-source code developers, which we believe will harmonize standards and build social consensus for the benefit of all of humanity rather than profit-driven centers of innovation; (c) We call for urgent legislative action to protect the future of AI systems while also promoting innovation; and (d) we propose that there is a shift in the burden of proof to AI systems in obfuscation cases.
翻訳日:2023-06-16 13:46:19 公開日:2023-06-15
# A9インターセクションのデータセット:都市部の3DカメラとLiDARの道路側面の認識に必要なもの

A9 Intersection Dataset: All You Need for Urban 3D Camera-LiDAR Roadside Perception ( http://arxiv.org/abs/2306.09266v1 )

ライセンス: Link先を確認
Walter Zimmer, Christian Cre{\ss}, Huu Tung Nguyen, Alois C. Knoll(参考訳) インテリジェントトランスポーテーションシステム(ITS)は、視界範囲を大幅に拡大し、自動運転の閉塞を減らす。 正確な検出を得るためには、訓練のための詳細なラベル付きセンサデータが必要である。 残念ながら、交差するインフラストラクチャの観点から見ると、LiDARポイントクラウドの高品質な3Dラベルは依然として稀である。 したがって、ラベル付きlidar点雲と同期カメラ画像からなるa9交差点データセットを提供する。 ここでは,交差点ガントリー橋に設置した2台の道路カメラとLiDARのセンサ出力を記録した。 ポイントクラウドは経験豊富なアノテータによって3Dでラベル付けされた。 さらに,全センサ間のキャリブレーションデータを提供し,カメラ画像への3dラベルの投影と正確なデータ融合を可能にした。 私たちのデータセットは4.8kの画像と57.4k以上の3Dボックスを手動でラベル付けした点雲で構成されています。 10のオブジェクトクラスでは、左折、右折、超越、uターンといった複雑な運転操作において、道路利用者の多様性が高い。 実験では,知覚タスクのベースラインを複数提供した。 全体として、我々のデータセットは複雑な3Dカメラ-LiDAR路面認識タスクを実行するための科学コミュニティにとって貴重な貢献である。 data, code, and more information at https://a9-dataset.com.com を参照。

Intelligent Transportation Systems (ITS) allow a drastic expansion of the visibility range and decrease occlusions for autonomous driving. To obtain accurate detections, detailed labeled sensor data for training is required. Unfortunately, high-quality 3D labels of LiDAR point clouds from the infrastructure perspective of an intersection are still rare. Therefore, we provide the A9 Intersection Dataset, which consists of labeled LiDAR point clouds and synchronized camera images. Here, we recorded the sensor output from two roadside cameras and LiDARs mounted on intersection gantry bridges. The point clouds were labeled in 3D by experienced annotators. Furthermore, we provide calibration data between all sensors, which allow the projection of the 3D labels into the camera images and an accurate data fusion. Our dataset consists of 4.8k images and point clouds with more than 57.4k manually labeled 3D boxes. With ten object classes, it has a high diversity of road users in complex driving maneuvers, such as left and right turns, overtaking, and U-turns. In experiments, we provided multiple baselines for the perception tasks. Overall, our dataset is a valuable contribution to the scientific community to perform complex 3D camera-LiDAR roadside perception tasks. Find data, code, and more information at https://a9-dataset.com.
翻訳日:2023-06-16 13:45:57 公開日:2023-06-15
# LVLM-eHub:大規模視覚言語モデルの総合評価ベンチマーク

LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2306.09265v1 )

ライセンス: Link先を確認
Peng Xu, Wenqi Shao, Kaipeng Zhang, Peng Gao, Shuo Liu, Meng Lei, Fanqing Meng, Siyuan Huang, Yu Qiao, Ping Luo(参考訳) LVLM(Large Vision-Language Models)は近年,マルチモーダル視覚言語学習において重要な役割を担っている。 大きな成功にもかかわらず、その効果の総合的な評価が欠けている。 本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの総合評価を行う。 我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。 前者は47ドルの標準テキスト関連ビジュアルベンチマークで視覚的質問応答や具体的人工知能などのLVLMのマルチモーダル能力のカテゴリを6ドル評価し、後者はオープンワールドの質問回答シナリオにおけるLVLMのユーザレベル評価を提供する。 この研究はいくつかの革新的な発見を示している。 まず、インストラクトBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。 第二に、適度な命令追従データを持つ命令調整LVLMは、オブジェクト幻覚(すなわち、記述中のターゲット画像と矛盾するオブジェクト)を引き起こす可能性がある。 画像キャプションのCIDErのような現在の評価基準は効果がないか、間違った回答を生成する。 第3に、マルチターン推論評価フレームワークを用いることで、オブジェクト幻覚の問題を軽減し、LVLM評価のための効果的なパイプラインの開発に光を当てることができる。 本研究は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを提供する。 LVLM-eHubはhttps://github.com/OpenGVLab/Multi-Modality-Arenaで公開されます。

Large Vision-Language Models (LVLMs) have recently played a dominant role in multimodal vision-language learning. Despite the great success, it lacks a holistic evaluation of their efficacy. This paper presents a comprehensive evaluation of publicly available large multimodal models by building a LVLM evaluation Hub (LVLM-eHub). Our LVLM-eHub consists of $8$ representative LVLMs such as InstructBLIP and MiniGPT-4, which are thoroughly evaluated by a quantitative capability evaluation and an online arena platform. The former evaluates $6$ categories of multimodal capabilities of LVLMs such as visual question answering and embodied artificial intelligence on $47$ standard text-related visual benchmarks, while the latter provides the user-level evaluation of LVLMs in an open-world question-answering scenario. The study reveals several innovative findings. First, instruction-tuned LVLM with massive in-domain data such as InstructBLIP heavily overfits many existing tasks, generalizing poorly in the open-world scenario. Second, instruction-tuned LVLM with moderate instruction-following data may result in object hallucination issues (i.e., generate objects that are inconsistent with target images in the descriptions). It either makes the current evaluation metric such as CIDEr for image captioning ineffective or generates wrong answers. Third, employing a multi-turn reasoning evaluation framework can mitigate the issue of object hallucination, shedding light on developing an effective pipeline for LVLM evaluation. The findings provide a foundational framework for the conception and assessment of innovative strategies aimed at enhancing zero-shot multimodal techniques. Our LVLM-eHub will be available at https://github.com/OpenGVLab/Multi-Modality-Arena
翻訳日:2023-06-16 13:45:37 公開日:2023-06-15
# Harvard Glaucoma Fairness:Fairness LearningとFair Identity Normalizationのための網膜神経疾患データセット

Harvard Glaucoma Fairness: A Retinal Nerve Disease Dataset for Fairness Learning and Fair Identity Normalization ( http://arxiv.org/abs/2306.09264v1 )

ライセンス: Link先を確認
Yan Luo, Yu Tian, Min Shi, Tobias Elze, Mengyu Wang(参考訳) 機械学習の公正性は、社会的幸福のために重要であるが、公開データセットの制限は、その進歩を妨げる。 現在、フェアネス学習のための画像データを持つ公共医療データセットは提供されていないが、少数グループはより多くの健康問題に苦しんでいる。 このギャップに対処するために,2次元および3次元画像データとバランスのとれた人種集団による緑内障検出のための網膜神経疾患データセットであるharvard-gfを紹介する。 緑内障は他の人種よりも2倍の緑内障の有病率を持つ黒人が世界中で不可逆盲目の原因となっている。 また,異なる同一性群間の特徴的重要性を等化するための公平同一性正規化(fin)手法を提案する。 FINの手法は,2次元および3次元画像データを用いた人種的および性別的フェアネスタスクにおいて,さまざまな最先端のフェアネス学習手法と比較し,フェアネス学習のためのデータセットであるHarvard-GFの有用性を実証する。 両モデル間の公正度比較を容易にするため,フェアネスの文脈において,あらゆる種類のパフォーマンス指標を柔軟に比較できるエクイティスケールパフォーマンス尺度を提案する。 データセットとコードは、https://doi.org/10.7910/DVN/A4XMO1とhttps://github.com/luoyan407/Harvard-GFを通じて公開されている。

Fairness in machine learning is important for societal well-being, but limited public datasets hinder its progress. Currently, no dedicated public medical datasets with imaging data for fairness learning are available, though minority groups suffer from more health issues. To address this gap, we introduce Harvard Glaucoma Fairness (Harvard-GF), a retinal nerve disease dataset with both 2D and 3D imaging data and balanced racial groups for glaucoma detection. Glaucoma is the leading cause of irreversible blindness globally with Blacks having doubled glaucoma prevalence than other races. We also propose a fair identity normalization (FIN) approach to equalize the feature importance between different identity groups. Our FIN approach is compared with various the-state-of-the-arts fairness learning methods with superior performance in both racial and gender fairness tasks with 2D and 3D imaging data, which demonstrate the utilities of our dataset Harvard-GF for fairness learning. To facilitate fairness comparisons between different models, we propose an equity-scaled performance measure, which can be flexibly used to compare all kinds of performance metrics in the context of fairness. The dataset and code are publicly accessible via https://doi.org/10.7910/DVN/A4XMO1 and https://github.com/luoyan407/Harvard-GF, respectively.
翻訳日:2023-06-16 13:45:07 公開日:2023-06-15
# 土壌科学における知識誘導表現学習と因果構造学習

Knowledge Guided Representation Learning and Causal Structure Learning in Soil Science ( http://arxiv.org/abs/2306.09302v1 )

ライセンス: Link先を確認
Somya Sharma, Swati Sharma, Licheng Liu, Rishabh Tushir, Andy Neal, Robert Ness, John Crawford, Emre Kiciman, Ranveer Chandra(参考訳) 土壌の理解が向上すれば、より持続可能な土地利用の実践が可能になる。 それでも土壌は、土壌の理解を制限する様々な土壌プロセスの複雑な相互作用のため、複雑で生きた媒質と呼ばれる。 プロセスベースモデルと観測データの解析は,土壌プロセスの理解を深めるための2つの道を提供する。 観察されたデータの収集はコストがかかるが、現実の動作を反映しているのに対し、プロセスベースのモデルは現実を代表しない大量の合成データを生成するのに使うことができる。 我々は,土壌科学における科学的発見を加速する枠組み,知識誘導表現学習,因果構造学習(KGRCL)を提案する。 このフレームワークは, 観測された土壌プロセスと条件分布マッチングにより, シミュレーションされた土壌プロセスの表現学習を改善する。 同時に、観測データとシミュレーションデータの両方を利用して土壌プロセス間の因果構造を学習する。 学習因果グラフは、他の因果発見法から生成される他のグラフよりも根拠真理の表れである。 さらに、学習因果グラフを教師付き学習装置で利用し、肥料の使用と天候の変化が土壌炭素に与える影響を予測する。 そこで本研究では,5つの異なる場所において,サンプル数と数ショット数での予測性能の向上を示す。

An improved understanding of soil can enable more sustainable land-use practices. Nevertheless, soil is called a complex, living medium due to the complex interaction of different soil processes that limit our understanding of soil. Process-based models and analyzing observed data provide two avenues for improving our understanding of soil processes. Collecting observed data is cost-prohibitive but reflects real-world behavior, while process-based models can be used to generate ample synthetic data which may not be representative of reality. We propose a framework, knowledge-guided representation learning, and causal structure learning (KGRCL), to accelerate scientific discoveries in soil science. The framework improves representation learning for simulated soil processes via conditional distribution matching with observed soil processes. Simultaneously, the framework leverages both observed and simulated data to learn a causal structure among the soil processes. The learned causal graph is more representative of ground truth than other graphs generated from other causal discovery methods. Furthermore, the learned causal graph is leveraged in a supervised learning setup to predict the impact of fertilizer use and changing weather on soil carbon. We present the results in five different locations to show the improvement in the prediction performance in out-of-sample and few-shots setting.
翻訳日:2023-06-16 13:38:19 公開日:2023-06-15
# OpenOOD v1.5: 配布外検出のためのベンチマーク強化

OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.09301v1 )

ライセンス: Link先を確認
Jingyang Zhang, Jingkang Yang, Pengyun Wang, Haoqi Wang, Yueqian Lin, Haoran Zhang, Yiyou Sun, Xuefeng Du, Kaiyang Zhou, Wayne Zhang, Yixuan Li, Ziwei Liu, Yiran Chen, Hai Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。 OOD検出手法の出現にもかかわらず、評価の不整合は、この分野の進歩を追跡する上での課題である。 OpenOOD v1はOOD検出評価の統合を開始したが、スケーラビリティとユーザビリティの制限に直面した。 本報告では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。 特に、OpenOOD v1.5は、評価機能をImageNetなどの大規模データセットに拡張し、未調査の重要でないフルスペクトルOOD検出を調査し、オンラインリーダーボードや使いやすい評価器などの新機能を導入している。 この研究は、総合的な実験結果から得られた深い分析と洞察にも貢献し、OOD検出手法の知識プールを強化する。 これらの拡張により、OpenOOD v1.5は、OOD検出研究のためのより堅牢で包括的な評価ベンチマークを提供することを目的としている。

Out-of-Distribution (OOD) detection is critical for the reliable operation of open-world intelligent systems. Despite the emergence of an increasing number of OOD detection methods, the evaluation inconsistencies present challenges for tracking the progress in this field. OpenOOD v1 initiated the unification of the OOD detection evaluation but faced limitations in scalability and usability. In response, this paper presents OpenOOD v1.5, a significant improvement from its predecessor that ensures accurate, standardized, and user-friendly evaluation of OOD detection methodologies. Notably, OpenOOD v1.5 extends its evaluation capabilities to large-scale datasets such as ImageNet, investigates full-spectrum OOD detection which is important yet underexplored, and introduces new features including an online leaderboard and an easy-to-use evaluator. This work also contributes in-depth analysis and insights derived from comprehensive experimental results, thereby enriching the knowledge pool of OOD detection methodologies. With these enhancements, OpenOOD v1.5 aims to drive advancements and offer a more robust and comprehensive evaluation benchmark for OOD detection research.
翻訳日:2023-06-16 13:37:59 公開日:2023-06-15
# 言語モデルは弱いエージェントに教えることができるか? 教師説明は心の理論を通して生徒を改善させる

Can Language Models Teach Weaker Agents? Teacher Explanations Improve Students via Theory of Mind ( http://arxiv.org/abs/2306.09299v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Peter Hase, Mohit Bansal(参考訳) 大規模言語モデル(LLM)は、予測のための説明を生成することで複雑な推論を行う。 しかし、説明の補完的な目標は、より弱いエージェントを改善する有用な知識を伝えることである。 したがって,LSMsが弱いエージェントに良い教師になるかどうかを検討する。 特に,2人のLLMエージェント間の学生-教師の枠組みを考察し,学生のパフォーマンスを向上させるために,教師が自然言語の説明に介入すべき時期と方法について考察する。 コミュニケーションは費用がかかるため、教師がデータの一部についてのみ説明を伝達するように予算を定め、その後、生徒は単独でうまく行動すべきである。 1)教師の試験時間介入が生徒の予測を改善する場合,(2)データポイントを説明する価値がある場合,(3)教師が説明をパーソナライズして生徒により良い指導を行う方法,(4)教師の解説が将来の説明のないデータで生徒のパフォーマンスを向上させる場合の4つの軸に沿って教師の指導問題を分解する。 まず,教師のLLMが生徒の推論に介入して成績を向上できることを示す。 次に,教師が生徒の2つの数発の精神モデルを構築する,心の理論的アプローチを提案する。 最初のモデルは、介入の効用をシミュレートするインターベンション関数を定義し、このユーティリティが最も高いときに教師が介入できるようにし、低予算での生徒のパフォーマンスを向上させる。 第2のモデルは、教師が特定の生徒の説明をパーソナライズし、個人化されていない教師より優れている。 また,マルチターンインタラクションにおいて,教師の説明が一般化し,説明データから学習することで,学生のパフォーマンスが向上することを示す。 また,教師を意図的に誤解させることで,生徒のパフォーマンスをランダムな機会に下げることができることを検証した。

Large Language Models (LLMs) perform complex reasoning by generating explanations for their predictions. However, a complementary goal of explanations is to also communicate useful knowledge that improves weaker agents. Hence, we investigate whether LLMs also make good teachers for weaker agents. In particular, we consider a student-teacher framework between two LLM agents and study if, when, and how the teacher should intervene with natural language explanations to improve the student's performance. Since communication is expensive, we define a budget such that the teacher only communicates explanations for a fraction of the data, after which the student should perform well on its own. We decompose the teaching problem along four axes: (1) if teacher's test time intervention improve student predictions, (2) when it is worth explaining a data point, (3) how the teacher should personalize explanations to better teach the student, and (4) if teacher explanations also improve student performance on future unexplained data. We first show that teacher LLMs can indeed intervene on student reasoning to improve their performance. Next, we propose a Theory of Mind approach, in which the teacher builds two few-shot mental models of the student. The first model defines an Intervention Function that simulates the utility of an intervention, allowing the teacher to intervene when this utility is the highest and improving student performance at lower budgets. The second model enables the teacher to personalize explanations for a particular student and outperform unpersonalized teachers. We also demonstrate that in multi-turn interactions, teacher explanations generalize and learning from explained data improves student performance on future unexplained data. Finally, we also verify that misaligned teachers can lower student performance to random chance by intentionally misleading them.
翻訳日:2023-06-16 13:37:41 公開日:2023-06-15
# フェアネスの修正, ルールの正確さを損なわない: AutoML を用いたパフォーマンスアウェアフェアネスの修復

Fix Fairness, Don't Ruin Accuracy: Performance Aware Fairness Repair using AutoML ( http://arxiv.org/abs/2306.09297v1 )

ライセンス: Link先を確認
Giang Nguyen, Sumon Biswas, Hridesh Rajan(参考訳) 機械学習(ML)は、重要な意思決定ソフトウェアでますます使われているが、インシデントによってML予測の公平性に関する疑問が持ち上がっている。 この問題に対処するには、MLベースのソフトウェアのバイアスを軽減するために、新しいツールとメソッドが必要である。 これまでの研究では、特定の状況でのみ動作し、しばしば精度を失うバイアス軽減アルゴリズムが提案されている。 提案手法は,自動機械学習(automl)技術を用いてバイアスを軽減する新しい手法である。 我々のアプローチには、新しい最適化機能と公正な検索空間の2つの重要な革新が含まれている。 automlのデフォルト最適化関数を改善し、公平性目標を組み込むことで、精度の損なうことなくバイアスを軽減できる。 さらに,計算コストと修理時間を削減するために,automlのフェアネスアウェア探索空間プルーニング手法を提案する。 我々のアプローチは最先端のAuto-Sklearnツールに基づいており、現実のシナリオにおけるバイアスを減らすように設計されています。 提案手法の有効性を実証するため,提案手法を4つの公平性問題と16の異なるMLモデルで評価し,その結果,ベースラインおよび既存バイアス軽減技術に対して有意な改善が得られた。 私たちのアプローチであるfair-automlは,64症例中60例の修復に成功したが,既存のバイアス軽減技術では64例中44例までしか修復できなかった。

Machine learning (ML) is increasingly being used in critical decision-making software, but incidents have raised questions about the fairness of ML predictions. To address this issue, new tools and methods are needed to mitigate bias in ML-based software. Previous studies have proposed bias mitigation algorithms that only work in specific situations and often result in a loss of accuracy. Our proposed solution is a novel approach that utilizes automated machine learning (AutoML) techniques to mitigate bias. Our approach includes two key innovations: a novel optimization function and a fairness-aware search space. By improving the default optimization function of AutoML and incorporating fairness objectives, we are able to mitigate bias with little to no loss of accuracy. Additionally, we propose a fairness-aware search space pruning method for AutoML to reduce computational cost and repair time. Our approach, built on the state-of-the-art Auto-Sklearn tool, is designed to reduce bias in real-world scenarios. In order to demonstrate the effectiveness of our approach, we evaluated our approach on four fairness problems and 16 different ML models, and our results show a significant improvement over the baseline and existing bias mitigation techniques. Our approach, Fair-AutoML, successfully repaired 60 out of 64 buggy cases, while existing bias mitigation techniques only repaired up to 44 out of 64 cases.
翻訳日:2023-06-16 13:37:08 公開日:2023-06-15
# KoLA: 大規模言語モデルのワールドナレッジを慎重にベンチマークする

KoLA: Carefully Benchmarking World Knowledge of Large Language Models ( http://arxiv.org/abs/2306.09296v1 )

ライセンス: Link先を確認
Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li(参考訳) 大規模言語モデル(LLM)の先例のない性能は、評価の改善を必要とする。 単にLLM能力の広さを探求するだけでなく、綿密で思慮深い設計が、徹底的で偏見がなく、適用可能な評価に不可欠であると信じている。 LLMに対する世界的知識の重要性を考慮し、知識指向LLMアセスメントベンチマーク(KoLA)を構築し、(1)能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。 2)データを公平に比較するためには,LLMが事前学習したコーパスであるウィキペディアと,未確認データを扱う能力と知識の進化を評価することを目的とした,新たなコーパスを併用する。 (3) 評価基準には,タスクやモデル間の数値コンパビリティ向上のための総合的な基準スコアと,知識幻覚の自動評価のための独自の自己コントラスト尺度が採用されている。 オープンソースおよび商用LLMを21ドルで評価し,興味深い結果を得た。 KoLAデータセットとオープン参加型リーダボードはhttps://kola.xlore.cnで公開されており、LLMとナレッジ関連のシステムを開発するためのリファレンスを提供するために継続的に更新される。

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering $19$ tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate $21$ open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.
翻訳日:2023-06-16 13:36:43 公開日:2023-06-15
# マイナショット学習のためのニューラルファインチューニング探索

Neural Fine-Tuning Search for Few-Shot Learning ( http://arxiv.org/abs/2306.09295v1 )

ライセンス: Link先を確認
Panagiotis Eustratiadis, {\L}ukasz Dudziak, Da Li, Timothy Hospedales(参考訳) 数発の認識では、一組のクラスで訓練された分類器は、解離した新しいクラスの集合に迅速に適応し一般化するために必要である。 この目的のために、近年の研究では、慎重に製作された適応アーキテクチャによる微調整の有効性が示されている。 最適な適応戦略をどのように設計すればよいのか? 本稿では,この問題をニューラルアーキテクチャサーチ(NAS)のレンズを用いて検討する。 トレーニング済みのニューラルネットワークが与えられた場合、我々のアルゴリズムはアダプタの最適配置を見つけ、どの層が凍結し、どの層が微調整されるかを確認する。 残差ネットワークと視覚変換器の両方に適用することでNAS法の汎用性を実証し,Meta-DatasetとMeta-Albumの最先端性能を報告する。

In few-shot recognition, a classifier that has been trained on one set of classes is required to rapidly adapt and generalize to a disjoint, novel set of classes. To that end, recent studies have shown the efficacy of fine-tuning with carefully crafted adaptation architectures. However this raises the question of: How can one design the optimal adaptation strategy? In this paper, we study this question through the lens of neural architecture search (NAS). Given a pre-trained neural network, our algorithm discovers the optimal arrangement of adapters, which layers to keep frozen and which to fine-tune. We demonstrate the generality of our NAS method by applying it to both residual networks and vision transformers and report state-of-the-art performance on Meta-Dataset and Meta-Album.
翻訳日:2023-06-16 13:36:18 公開日:2023-06-15
# 限られた計算資源でディープニューラルネットワークを訓練するためのサンプリングベース手法:スケーラビリティ評価

Sampling-Based Techniques for Training Deep Neural Networks with Limited Computational Resources: A Scalability Evaluation ( http://arxiv.org/abs/2306.09293v1 )

ライセンス: Link先を確認
Sana Ebrahimi, Rishi Advani, Abolfazl Asudeh(参考訳) ディープニューラルネットワークは、複雑な表現を学ぶ際の浅いネットワークよりも優れている。 そのため、大規模環境での利用への関心は急速に高まっている。 ニューラルネットワークのトレーニングプロセスはすでに時間を要することが知られており、深いアーキテクチャを持つことは問題を悪化させるだけだ。 この過程は行列演算によって構成され、行列乗法がボトルネックとなる。 行列生成物を近似することにより、ディープニューラルネットワークのトレーニング時間を高速化するサンプリングベース手法が提案されている。 これらのテクニックは2つのカテゴリに分類される。 i) すべての隠れたレイヤのノードのサブセットを、イテレーション毎にアクティブにサンプリングし、 (ii)前層からノードのサブセットをサンプリングし、サンプルされたノードのエッジを使用して現在のレイヤのアクティベーションを近似する。 いずれの場合も、選択されたサンプルのみを用いて行列積を算出する。 本稿では,計算資源の少ないcpuマシンにおけるこれらの手法のスケーラビリティを評価する。 ニューラルネットワークの文脈における行列乗法近似の特別な場合として,2つの研究方向を結びつけることにより,feedforward近似がスケーラビリティに対する障害であることを示す負の理論解析を行う。 我々は,本研究のアプローチに係わる最も差し迫った課題と限界を示す総合的な実験評価を行う。 ハッシュに基づくノード選択法は,多数の層に拡張性を持たず,理論解析を裏付けるものである。 最後に,今後の研究の方向性を明らかにする。

Deep neural networks are superior to shallow networks in learning complex representations. As such, there is a fast-growing interest in utilizing them in large-scale settings. The training process of neural networks is already known to be time-consuming, and having a deep architecture only aggravates the issue. This process consists mostly of matrix operations, among which matrix multiplication is the bottleneck. Several sampling-based techniques have been proposed for speeding up the training time of deep neural networks by approximating the matrix products. These techniques fall under two categories: (i) sampling a subset of nodes in every hidden layer as active at every iteration and (ii) sampling a subset of nodes from the previous layer to approximate the current layer's activations using the edges from the sampled nodes. In both cases, the matrix products are computed using only the selected samples. In this paper, we evaluate the scalability of these approaches on CPU machines with limited computational resources. Making a connection between the two research directions as special cases of approximating matrix multiplications in the context of neural networks, we provide a negative theoretical analysis that shows feedforward approximation is an obstacle against scalability. We conduct comprehensive experimental evaluations that demonstrate the most pressing challenges and limitations associated with the studied approaches. We observe that the hashing-based node selection method is not scalable to a large number of layers, confirming our theoretical analysis. Finally, we identify directions for future research.
翻訳日:2023-06-16 13:36:04 公開日:2023-06-15
# 安定剤テストとマジックエントロピー

Stabilizer Testing and Magic Entropy ( http://arxiv.org/abs/2306.09292v1 )

ライセンス: Link先を確認
Kaifeng Bu, Weichen Gu, Arthur Jaffe(参考訳) 量子状態とゲートの安定化テストを行うための体系的プロトコルを導入する。 これらのプロトコルは量子畳み込みとスワップテストに基づいており、量子回路によって量子畳み込みを実装した量子回路によって実現されている。 また,量子状態とゲートの魔法を実験的に測定可能な方法で定量化するために,'マジックエントロピー'を導入する。

We introduce systematic protocols to perform stabilizer testing for quantum states and gates. These protocols are based on quantum convolutions and swap-tests, realized by quantum circuits that implement the quantum convolution for both qubit and qudit systems. We also introduce ''magic entropy'' to quantify magic in quantum states and gates, in a way which may be measurable experimentally.
翻訳日:2023-06-16 13:35:44 公開日:2023-06-15
# 拘束強化学習を用いた5Gスライスの汎用的資源スケーリング

Generalizable Resource Scaling of 5G Slices using Constrained Reinforcement Learning ( http://arxiv.org/abs/2306.09290v1 )

ライセンス: Link先を確認
Muhammad Sulaiman, Mahdieh Ahmadi, Mohammad A. Salahuddin, Raouf Boutaba, Aladdin Saleh(参考訳) ネットワークスライシングは、5gが様々なアプリケーションをサポートするためのキーイネーブラである。 サービスプロバイダ(SP)が要求するスライスには,レイテンシやスループット,ジッタなど,不均一なサービス品質(QoS)要件がある。 5gインフラストラクチャプロバイダ(inp)は、スライスのトラフィックに応じて適切な量のリソースを割り当てることが必須であり、リソース効率を最大化しながら、スライスの寿命の間、指定されたqosレベルが維持される。 しかし、QoSとリソース割り当てとの間には非自明な関係がある。 本稿では,この関係を回帰モデルを用いて学習する。 また,このモデルを用いてオフラインでトレーニングされたリスク対応強化学習エージェントと,所望のqosレベルを維持しながらスライスリソースを動的にスケーリングするためのドメインランダム化を活用する。 提案手法は,モデルフリーであり,トラフィックの観点からqosメトリクスを数学的に定式化する必要がないため,ネットワークモデリングエラーの影響を低減する。 さらに、不確実なネットワーク条件に対して堅牢性を提供し、異なる現実世界のトラフィックパターンに一般化し、様々なQoSメトリクスに対応します。 その結果、最先端のアプローチはqosの劣化を44.5%まで高めることが判明した。 一方,本手法では,割り当てられた資源を最小化しつつ,これらのトラフィックの10%のしきい値以下でQoS劣化を抑える。 さらに,提案手法は様々なネットワーク条件や不正確なトラフィック予測に対して堅牢であることを示す。

Network slicing is a key enabler for 5G to support various applications. Slices requested by service providers (SPs) have heterogeneous quality of service (QoS) requirements, such as latency, throughput, and jitter. It is imperative that the 5G infrastructure provider (InP) allocates the right amount of resources depending on the slice's traffic, such that the specified QoS levels are maintained during the slice's lifetime while maximizing resource efficiency. However, there is a non-trivial relationship between the QoS and resource allocation. In this paper, this relationship is learned using a regression-based model. We also leverage a risk-constrained reinforcement learning agent that is trained offline using this model and domain randomization for dynamically scaling slice resources while maintaining the desired QoS level. Our novel approach reduces the effects of network modeling errors since it is model-free and does not require QoS metrics to be mathematically formulated in terms of traffic. In addition, it provides robustness against uncertain network conditions, generalizes to different real-world traffic patterns, and caters to various QoS metrics. The results show that the state-of-the-art approaches can lead to QoS degradation as high as 44.5% when tested on previously unseen traffic. On the other hand, our approach maintains the QoS degradation below a preset 10% threshold on such traffic, while minimizing the allocated resources. Additionally, we demonstrate that the proposed approach is robust against varying network conditions and inaccurate traffic predictions.
翻訳日:2023-06-16 13:35:36 公開日:2023-06-15
# DaMuEL: エンティティリンクのための大規模多言語データセット

DaMuEL: A Large Multilingual Dataset for Entity Linking ( http://arxiv.org/abs/2306.09288v1 )

ライセンス: Link先を確認
David Kube\v{s}a, Milan Straka(参考訳) 本稿では,53言語にデータを含むエンティティリンクのための大規模多言語データセットDaMuELを提案する。 DaMuELは2つのコンポーネントから構成される: Wikidataの主張や名前付きエンティティタイプ(PER, ORG, LOC, EVENT, BRAND, WORK_OF_ART, ManufacturingED)を含むエンティティに関する言語に依存しない情報を含む知識ベースと、その知識ベースにリンクされたエンティティを参照するWikipediaテキストと、ラベル、エイリアス、記述などのWikidataの言語固有のテキスト。 Wikidata QIDは永続的で言語に依存しない識別子として使用され、知識ベースと言語固有のテキストと各エンティティの情報の組み合わせを可能にする。 ウィキペディア文書は、現在あるすべてのエンティティに対して1つの言及のみを意図的に注釈付けし、各ドキュメントからリンクされた名前付きエンティティのすべての言及を自動で検出する。 データセットには知識ベースに27.9MのエンティティとWikipediaのテキストから12.3Gトークンが含まれている。 データセットはCC BY-SAライセンスでhttps://hdl.handle.net/11234/1-5047で公開されている。

We present DaMuEL, a large Multilingual Dataset for Entity Linking containing data in 53 languages. DaMuEL consists of two components: a knowledge base that contains language-agnostic information about entities, including their claims from Wikidata and named entity types (PER, ORG, LOC, EVENT, BRAND, WORK_OF_ART, MANUFACTURED); and Wikipedia texts with entity mentions linked to the knowledge base, along with language-specific text from Wikidata such as labels, aliases, and descriptions, stored separately for each language. The Wikidata QID is used as a persistent, language-agnostic identifier, enabling the combination of the knowledge base with language-specific texts and information for each entity. Wikipedia documents deliberately annotate only a single mention for every entity present; we further automatically detect all mentions of named entities linked from each document. The dataset contains 27.9M named entities in the knowledge base and 12.3G tokens from Wikipedia texts. The dataset is published under the CC BY-SA license at https://hdl.handle.net/11234/1-5047.
翻訳日:2023-06-16 13:35:10 公開日:2023-06-15
# 語彙的話者誤り訂正:話者ダイアリゼーション誤り訂正のための言語モデル活用

Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction ( http://arxiv.org/abs/2306.09313v1 )

ライセンス: Link先を確認
Rohit Paturi, Sundararajan Srinivasan, Xiang Li(参考訳) 話者ダイアリゼーション (sd) は通常、音声認識 (asr) システムを使って話者ラベルを認識された単語にアサインする。 従来のアプローチでは、独立に最適化されたASRとSDシステムから出力を調整し、SDシステムは通常、オーディオストリーム内の話者を特定するために音響情報のみを使用する。 このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。 本稿では,現代言語モデル(LM)のパワーを活用し,語彙情報を用いた第2パス話者誤り訂正システムを提案する。 複数のテレフォニーデータセットに対する実験は、我々のアプローチが効果的かつ堅牢であることを示している。 この誤り訂正手法は, RT03-CTS, Callhome American English, held-out part of Fisherの3つのテレフォニーデータセットに対して, 単語レベルのダイアリゼーション誤り率(WDER)を15~30%削減する。

Speaker diarization (SD) is typically used with an automatic speech recognition (ASR) system to ascribe speaker labels to recognized words. The conventional approach reconciles outputs from independently optimized ASR and SD systems, where the SD system typically uses only acoustic information to identify the speakers in the audio stream. This approach can lead to speaker errors especially around speaker turns and regions of speaker overlap. In this paper, we propose a novel second-pass speaker error correction system using lexical information, leveraging the power of modern language models (LMs). Our experiments across multiple telephony datasets show that our approach is both effective and robust. Training and tuning only on the Fisher dataset, this error correction approach leads to relative word-level diarization error rate (WDER) reductions of 15-30% on three telephony datasets: RT03-CTS, Callhome American English and held-out portions of Fisher.
翻訳日:2023-06-16 13:26:45 公開日:2023-06-15
# Semantic HELM:強化学習のための解釈可能なメモリ

Semantic HELM: An Interpretable Memory for Reinforcement Learning ( http://arxiv.org/abs/2306.09312v1 )

ライセンス: Link先を確認
Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter(参考訳) 現実世界にデプロイされた強化学習エージェントは、部分的に観察可能な環境に対処する必要がある。 したがって、ほとんどのエージェントは環境の状態の近似にメモリ機構を用いる。 最近、部分的に観察可能な環境をマスターする素晴らしい成功談が生まれており、主にDota 2、StarCraft II、MineCraftといったコンピュータゲームの世界にある。 しかしながら、これらの手法は、エージェントが入力に基づいてどのアクションをとるかを決める方法が人間には理解できないという意味で解釈できない。 しかし、自動運転や医療応用のような高度な分野にそのような手法を展開するためには、人間の理解が必要である。 意思決定過程を照らすために,人間の言語で機能する新しい記憶機構を提案する。 まず、視覚入力と言語トークンを関連付けるためにCLIPを使用します。 次に、これらのトークンを、エージェントをメモリとして機能させる事前訓練された言語モデルに供給し、過去の一貫性と解釈可能な表現を提供する。 我々の記憶機構は,過去の記憶がタスクの解決に不可欠である環境において,最先端のパフォーマンスを実現する。 さらに,新たなアプローチの強みや弱みを示すために,メモリコンポーネントが優れているか失敗したかを示す。

Reinforcement learning agents deployed in the real world often have to cope with partially observable environments. Therefore, most agents employ memory mechanisms to approximate the state of the environment. Recently, there have been impressive success stories in mastering partially observable environments, mostly in the realm of computer games like Dota 2, StarCraft II, or MineCraft. However, none of these methods are interpretable in the sense that it is not comprehensible for humans how the agent decides which actions to take based on its inputs. Yet, human understanding is necessary in order to deploy such methods in high-stake domains like autonomous driving or medical applications. We propose a novel memory mechanism that operates on human language to illuminate the decision-making process. First, we use CLIP to associate visual inputs with language tokens. Then we feed these tokens to a pretrained language model that serves the agent as memory and provides it with a coherent and interpretable representation of the past. Our memory mechanism achieves state-of-the-art performance in environments where memorizing the past is crucial to solve tasks. Further, we present situations where our memory component excels or fails to demonstrate strengths and weaknesses of our new approach.
翻訳日:2023-06-16 13:26:26 公開日:2023-06-15
# 手続き生成を用いた無限フォトリアリスティック世界

Infinite Photorealistic Worlds using Procedural Generation ( http://arxiv.org/abs/2306.09310v1 )

ライセンス: Link先を確認
Alexander Raistrick, Lahav Lipson, Zeyu Ma, Lingjie Mei, Mingzhe Wang, Yiming Zuo, Karhan Kayan, Hongyu Wen, Beining Han, Yihan Wang, Alejandro Newell, Hei Law, Ankit Goyal, Kaiyu Yang, Jia Deng(参考訳) 自然界の光リアルな3Dシーンをプロシージャ生成するInfinigenを紹介する。 形状からテクスチャに至るまで、すべての資産はランダムな数学的規則によってスクラッチから生成され、外部のソースを使用しず、無限のバリエーションと構成が可能である。 infinigenは、植物、動物、地形、および火災、雲、雨、雪などの自然現象を含む、自然界の物や場面を広くカバーする。 Infinigenは、オブジェクト検出、セマンティックセグメンテーション、光学フロー、および3D再構成を含む幅広いコンピュータビジョンタスクのための無制限で多様なトレーニングデータを生成するために使用できる。 infinigenはコンピュータビジョン研究などにとって有用なリソースだと考えています。 ビデオ、コード、プリ生成データについてはhttps://infinigen.orgをご覧ください。

We introduce Infinigen, a procedural generator of photorealistic 3D scenes of the natural world. Infinigen is entirely procedural: every asset, from shape to texture, is generated from scratch via randomized mathematical rules, using no external source and allowing infinite variation and composition. Infinigen offers broad coverage of objects and scenes in the natural world including plants, animals, terrains, and natural phenomena such as fire, cloud, rain, and snow. Infinigen can be used to generate unlimited, diverse training data for a wide range of computer vision tasks including object detection, semantic segmentation, optical flow, and 3D reconstruction. We expect Infinigen to be a useful resource for computer vision research and beyond. Please visit https://infinigen.org for videos, code and pre-generated data.
翻訳日:2023-06-16 13:26:08 公開日:2023-06-15
# 誰が知る必要がある? 最適協調のための最小限の知識

Who Needs to Know? Minimal Knowledge for Optimal Coordination ( http://arxiv.org/abs/2306.09309v1 )

ライセンス: Link先を確認
Niklas Lauffer, Ameesh Shah, Micah Carroll, Michael Dennis, Stuart Russell(参考訳) 協調ゲームにおいて他者と最適にコーディネートするためには、自分自身の協力者に関する情報を持つことが不可欠である。 しかし、コラボレータの全ての特徴は戦略的に関係があるわけではない: ドライバーのきめ細かい加速度は最適調整を維持しながら無視される。 戦略的に関連性のある情報と無関係な情報との間に明確な二分法が存在することを示す。 さらに、動的ゲームでは、この二分法がベルマンバックアップ演算子を介して効率的に計算できるコンパクト表現を持つことを示す。 本アルゴリズムを用いて,Overcooked環境の標準および部分的に観測可能な両方のタスクの戦略的関連情報を解析する。 理論的および実証的な結果は、我々のアルゴリズムがベースラインよりもはるかに効率的であることを示している。 ビデオはhttps://minknowledge.github.ioで閲覧できる。

To optimally coordinate with others in cooperative games, it is often crucial to have information about one's collaborators: successful driving requires understanding which side of the road to drive on. However, not every feature of collaborators is strategically relevant: the fine-grained acceleration of drivers may be ignored while maintaining optimal coordination. We show that there is a well-defined dichotomy between strategically relevant and irrelevant information. Moreover, we show that, in dynamic games, this dichotomy has a compact representation that can be efficiently computed via a Bellman backup operator. We apply this algorithm to analyze the strategically relevant information for tasks in both a standard and a partially observable version of the Overcooked environment. Theoretical and empirical results show that our algorithms are significantly more efficient than baselines. Videos are available at https://minknowledge.github.io.
翻訳日:2023-06-16 13:25:53 公開日:2023-06-15
# マッチングペア: 事前訓練された大規模言語モデルに微調整されたモデルをもたらす

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models ( http://arxiv.org/abs/2306.09308v1 )

ライセンス: Link先を確認
Myles Foley, Ambrish Rawat, Taesung Lee, Yufang Hou, Gabriele Picco, Giulio Zizzo(参考訳) ジェネレーティブ大言語モデル(llm)の幅広い適用性と適応性は、その急速な採用を可能にした。 事前学習されたモデルは多くのタスクを実行することができるが、これらのモデルは様々な下流アプリケーションのパフォーマンスを改善するために微調整されることが多い。 しかし、これはモデルライセンスの侵害、モデル盗難、著作権侵害といった問題につながる。 さらに,近年の進歩により,モデルサプライチェーンにおける説明責任の問題を悪化させる有害なコンテンツが生成可能となった。 したがって、モデルがどのようにトレーニングされたか、あるいはテキストが生成され、事前訓練されたベースモデルが何であったかを調べる方法が必要である。 本稿では、与えられた微調整LDMの起源を対応する事前学習ベースモデルに遡ることにより、このオープンな問題に対処する第一歩を踏み出す。 異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることを見つけます。

The wide applicability and adaptability of generative large language models (LLMs) has enabled their rapid adoption. While the pre-trained models can perform many tasks, such models are often fine-tuned to improve their performance on various downstream applications. However, this leads to issues over violation of model licenses, model theft, and copyright infringement. Moreover, recent advances show that generative technology is capable of producing harmful content which exacerbates the problems of accountability within model supply chains. Thus, we need a method to investigate how a model was trained or a piece of text was generated and what their pre-trained base model was. In this paper we take the first step to address this open problem by tracing back the origin of a given fine-tuned LLM to its corresponding pre-trained base model. We consider different knowledge levels and attribution strategies, and find that we can correctly trace back 8 out of the 10 fine tuned models with our best method.
翻訳日:2023-06-16 13:25:40 公開日:2023-06-15
# 手書きアノテーションの品質と効率性:事前アノテーションバイアス

Quality and Efficiency of Manual Annotation: Pre-annotation Bias ( http://arxiv.org/abs/2306.09307v1 )

ライセンス: Link先を確認
Marie Mikulov\'a, Milan Straka, Jan \v{S}t\v{e}p\'anek, Barbora \v{S}t\v{e}p\'ankov\'a, Jan Haji\v{c}(参考訳) 本稿では,中レベルのアノテーション複雑性タスク -- 依存性構文アノテーションのための自動事前アノテーションを用いたアノテーションの分析を行う。 注釈付きバージョン(高精度パーサ付き)と完全手動アノテーションによるアノテーション処理を比較した。 実験の目的は,前アノテーションを使用する際の最終的なアノテーション品質を判断することである。 さらに, 自動的言語ベース(ルール形式)チェックと, 注釈者が利用可能な同一データに対する他のアノテーションの効果と, それらのアノテーション品質および効率への影響について評価した。 実験の結果,事前アノテーションはより高速な手動構文アノテーションのための効率的なツールであることを確認した。

This paper presents an analysis of annotation using an automatic pre-annotation for a mid-level annotation complexity task -- dependency syntax annotation. It compares the annotation efforts made by annotators using a pre-annotated version (with a high-accuracy parser) and those made by fully manual annotation. The aim of the experiment is to judge the final annotation quality when pre-annotation is used. In addition, it evaluates the effect of automatic linguistically-based (rule-formulated) checks and another annotation on the same data available to the annotators, and their influence on annotation quality and efficiency. The experiment confirmed that the pre-annotation is an efficient tool for faster manual syntactic annotation which increases the consistency of the resulting annotation without reducing its quality.
翻訳日:2023-06-16 13:25:23 公開日:2023-06-15
# 蒸留によるLMの知識更新の促進

Propagating Knowledge Updates to LMs Through Distillation ( http://arxiv.org/abs/2306.09306v1 )

ライセンス: Link先を確認
Shankar Padmanabhan, Yasumasa Onoe, Michael J.Q. Zhang, Greg Durrett, Eunsol Choi(参考訳) 現代の言語モデルは、現実世界のエンティティに関する膨大な知識を蓄積し、使用する能力を持っていますが、暗黙の"知識ベース"を更新する方法はまだ不明です。 LMの知識を更新する以前の方法は事実をインジェクトできたが、更新されたLMはこれらのインジェクトされた事実に基づいて推論を行わなかった。 本研究では, 文脈蒸留に基づくアプローチが, 実体に関する知識を付与し, より広い推論を可能にするためにその知識を伝播させることを実証する。 提案手法は, トランスファーセット生成とトランスファーセットの蒸留の2段階からなる。 まず、言語モデルにエンティティ定義から継続を生成するように促すことで、転送セットを生成します。 次に、モデルパラメータを更新することで、lm(学生)の分布が、転送集合上の定義(教師)に条件付けられたlmの分布と一致するようにする。 実験の結果,最大150個のエンティティの定義を一度に注入しても,他のコンテキストでの性能を損なうことなく,微調整や他の勾配に基づく知識編集手法と比較して,知識更新の伝播に有効であることが示された。

Modern language models have the capacity to store and use immense amounts of knowledge about real-world entities, but it remains unclear how to update their implicit "knowledge bases.'' While prior methods for updating knowledge in LMs successfully inject facts, updated LMs then fail to make inferences based on these injected facts. In this work, we demonstrate that a context distillation-based approach can both impart knowledge about entities and propagate that knowledge to enable broader inferences. Our approach consists of two stages: transfer set generation and distillation on the transfer set. We first generate a transfer set by simply prompting a language model to generate a continuation from the entity definition. Then, we update the model parameters so that the distribution of the LM (the student) matches the distribution of the LM conditioned on the definition (the teacher) on the transfer set. Our experiments demonstrate that this approach is more effective in propagating knowledge updates compared to fine-tuning and other gradient-based knowledge-editing methods without compromising performance in other contexts, even when injecting the definitions of up to 150 entities at once.
翻訳日:2023-06-16 13:25:08 公開日:2023-06-15
# マスク変圧器を用いた拡散モデルの高速学習

Fast Training of Diffusion Models with Masked Transformers ( http://arxiv.org/abs/2306.09305v1 )

ライセンス: Link先を確認
Hongkai Zheng, Weili Nie, Arash Vahdat, Anima Anandkumar(参考訳) マスク変換器を用いた大規模拡散モデルの学習手法を提案する。 マスクトランスフォーマーは表現学習のために広く研究されてきたが、その生成学習への応用は視覚領域ではあまり研究されていない。 我々の研究は、拡散モデルのトレーニングコストを大幅に削減するためにマスク付きトレーニングを利用する最初のものである。 具体的には、トレーニング中に拡散された入力画像のパッチの割合(\emph{e.g.}, 50\%)をランダムにマスクする。 マスク付きトレーニングでは,非マスキングパッチのみで動作するトランスフォーマーエンコーダと,フルパッチ上の軽量トランスフォーマーデコーダからなる非対称エンコーダデコーダアーキテクチャを導入する。 フルパッチの長距離理解を促進するために,マスク付きパッチを再構成する補助タスクを,マスクなしパッチのスコアを学習する復調スコアマッチング目的に加える。 imagenet-256$\times$256の実験では、初期トレーニング時間の31\%のみを使用して、最先端の拡散トランスフォーマー(dit)モデルと同等の性能を達成していることが示された。 これにより,生成性能を犠牲にすることなく,効率的な拡散モデルの訓練が可能となる。

We propose an efficient approach to train large diffusion models with masked transformers. While masked transformers have been extensively explored for representation learning, their application to generative learning is less explored in the vision domain. Our work is the first to exploit masked training to reduce the training cost of diffusion models significantly. Specifically, we randomly mask out a high proportion (\emph{e.g.}, 50\%) of patches in diffused input images during training. For masked training, we introduce an asymmetric encoder-decoder architecture consisting of a transformer encoder that operates only on unmasked patches and a lightweight transformer decoder on full patches. To promote a long-range understanding of full patches, we add an auxiliary task of reconstructing masked patches to the denoising score matching objective that learns the score of unmasked patches. Experiments on ImageNet-256$\times$256 show that our approach achieves the same performance as the state-of-the-art Diffusion Transformer (DiT) model, using only 31\% of its original training time. Thus, our method allows for efficient training of diffusion models without sacrificing the generative performance.
翻訳日:2023-06-16 13:24:49 公開日:2023-06-15
# 自動運転のためのレーダー: ディープラーニング手法と課題のレビュー

Radars for Autonomous Driving: A Review of Deep Learning Methods and Challenges ( http://arxiv.org/abs/2306.09304v1 )

ライセンス: Link先を確認
Arvind Srivastav and Soumyajit Mandal(参考訳) Radarは、自動運転車の安全で信頼性の高いナビゲーションに使用される知覚センサースイートの重要なコンポーネントである。 その特徴は、高分解能の速度イメージング、隠蔽および長距離におけるエージェントの検出、悪天候下での堅牢な性能である。 しかし、レーダーデータの利用には、低解像度、疎度、乱雑、高い不確実性、優れたデータセットの欠如など、いくつかの課題がある。 これらの課題はレーダーディープラーニングの研究に制限がある。 結果として、現在のレーダーモデルは、レーダーデータに比較的弱い光学的特徴に焦点を当てたライダーや視覚モデルの影響を受け、レーダーの能力の過小評価と自律認識への貢献の低下をもたらす。 このレビューは、自律レーダーデータに関するさらなる深層学習研究を促進することを目的としている。 1)重要研究テーマの特定、及び 2)現場における現在の機会と課題を総合的に概観する。 対象とするトピックは、早期および後期の融合、占有フロー推定、不確実性モデリング、マルチパス検出などである。 この論文はまた、レーダーの基礎とデータ表現についても論じ、最近のレーダーデータセットのキュレーションリストを示し、レーダー研究に関連する最先端のlidarとビジョンモデルをレビューする。 論文の概要と結果については、webサイト:autonomous-radars.github.ioをご覧ください。

Radar is a key component of the suite of perception sensors used for safe and reliable navigation of autonomous vehicles. Its unique capabilities include high-resolution velocity imaging, detection of agents in occlusion and over long ranges, and robust performance in adverse weather conditions. However, the usage of radar data presents some challenges: it is characterized by low resolution, sparsity, clutter, high uncertainty, and lack of good datasets. These challenges have limited radar deep learning research. As a result, current radar models are often influenced by lidar and vision models, which are focused on optical features that are relatively weak in radar data, thus resulting in under-utilization of radar's capabilities and diminishing its contribution to autonomous perception. This review seeks to encourage further deep learning research on autonomous radar data by 1) identifying key research themes, and 2) offering a comprehensive overview of current opportunities and challenges in the field. Topics covered include early and late fusion, occupancy flow estimation, uncertainty modeling, and multipath detection. The paper also discusses radar fundamentals and data representation, presents a curated list of recent radar datasets, and reviews state-of-the-art lidar and vision models relevant for radar research. For a summary of the paper and more results, visit the website: autonomous-radars.github.io.
翻訳日:2023-06-16 13:24:28 公開日:2023-06-15
# オフライン安全強化学習のためのデータセットとベンチマーク

Datasets and Benchmarks for Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2306.09303v1 )

ライセンス: Link先を確認
Zuxin Liu, Zijian Guo, Haohong Lin, Yihang Yao, Jiacheng Zhu, Zhepeng Cen, Hanjiang Hu, Wenhao Yu, Tingnan Zhang, Jie Tan, Ding Zhao(参考訳) 本稿では,オフライン型安全強化学習(RL)の課題に合わせた総合的なベンチマークスイートを提案する。 ベンチマークスイートには3つのパッケージがあります。 1)専門家による安全政策 2)D4RLスタイルのデータセットと環境ラッパー 3) 高品質のオフライン安全なRLベースライン実装。 ロボット制御から自律運転に至るまで,38の一般的な安全RLタスクにまたがる多様なデータセットの生成を容易にする,高度な安全RLアルゴリズムを活用した方法論的なデータ収集パイプラインを特徴とする。 さらに、各データセットの多様性を変更し、様々なデータ収集条件をシミュレートできるデータ後処理フィルタの配列を導入する。 さらに、この領域の研究を加速するために、先行するオフライン安全なRLアルゴリズムのエレガントで拡張可能な実装を提供する。 50000 cpu と 800 gpu 時間を超える計算による広範囲な実験を通じて、収集したデータセットにおけるこれらのベースラインアルゴリズムのパフォーマンスを評価し比較し、その長所、限界、改善の潜在的な領域について洞察を提供する。 我々のベンチマークフレームワークは研究者や実践者にとって貴重なリソースであり、安全クリティカルなアプリケーションにおいてより堅牢で信頼性の高いオフライン安全なRLソリューションの開発を促進する。 ベンチマークのウェブサイトは \url{www.offline-saferl.org} で入手できる。

This paper presents a comprehensive benchmarking suite tailored to offline safe reinforcement learning (RL) challenges, aiming to foster progress in the development and evaluation of safe learning algorithms in both the training and deployment phases. Our benchmark suite contains three packages: 1) expertly crafted safe policies, 2) D4RL-styled datasets along with environment wrappers, and 3) high-quality offline safe RL baseline implementations. We feature a methodical data collection pipeline powered by advanced safe RL algorithms, which facilitates the generation of diverse datasets across 38 popular safe RL tasks, from robot control to autonomous driving. We further introduce an array of data post-processing filters, capable of modifying each dataset's diversity, thereby simulating various data collection conditions. Additionally, we provide elegant and extensible implementations of prevalent offline safe RL algorithms to accelerate research in this area. Through extensive experiments with over 50000 CPU and 800 GPU hours of computations, we evaluate and compare the performance of these baseline algorithms on the collected datasets, offering insights into their strengths, limitations, and potential areas of improvement. Our benchmarking framework serves as a valuable resource for researchers and practitioners, facilitating the development of more robust and reliable offline safe RL solutions in safety-critical applications. The benchmark website is available at \url{www.offline-saferl.org}.
翻訳日:2023-06-16 13:24:05 公開日:2023-06-15
# wizmap:大規模機械学習埋め込みを探索するスケーラブルなインタラクティブな可視化

WizMap: Scalable Interactive Visualization for Exploring Large Machine Learning Embeddings ( http://arxiv.org/abs/2306.09328v1 )

ライセンス: Link先を確認
Zijie J. Wang, Fred Hohman, Duen Horng Chau(参考訳) マシンラーニングモデルは、トレーニングデータのドメインセマンティクスをキャプチャする潜在埋め込み表現を学習することが多い。 これらの埋め込み表現は、トレーニングされたモデルの解釈、新しいモデルの構築、新しいデータセットの分析に有用である。 しかし、埋め込みの解釈と利用は、その不透明さ、高次元性、そして現代のデータセットの大きなサイズのために困難である。 このような課題に取り組むために,研究者や実践者が大規模な埋め込みを簡単に探索できるインタラクティブな可視化ツールwizmapを提案する。 WizMapは、新しいマルチ解像度埋め込み要約法と、よく知られたマップのようなインタラクション設計により、ユーザが簡単に埋め込みスペースをナビゲートし、解釈できる。 WebGLやWeb WorkersといったモダンなWebテクノロジを活用して、WizMapは、専用のバックエンドサーバを必要とせずに、ユーザのWebブラウザや計算ノートブックに直接、数百万の埋め込みポイントをスケールする。 wizmapはオープンソースであり、以下の公開デモリンクで利用可能である。

Machine learning models often learn latent embedding representations that capture the domain semantics of their training data. These embedding representations are valuable for interpreting trained models, building new models, and analyzing new datasets. However, interpreting and using embeddings can be challenging due to their opaqueness, high dimensionality, and the large size of modern datasets. To tackle these challenges, we present WizMap, an interactive visualization tool to help researchers and practitioners easily explore large embeddings. With a novel multi-resolution embedding summarization method and a familiar map-like interaction design, WizMap enables users to navigate and interpret embedding spaces with ease. Leveraging modern web technologies such as WebGL and Web Workers, WizMap scales to millions of embedding points directly in users' web browsers and computational notebooks without the need for dedicated backend servers. WizMap is open-source and available at the following public demo link: https://poloclub.github.io/wizmap.
翻訳日:2023-06-16 13:17:48 公開日:2023-06-15
# Prompt Analogiesによるビデオ用言語ガイド音楽レコメンデーション

Language-Guided Music Recommendation for Video via Prompt Analogies ( http://arxiv.org/abs/2306.09327v1 )

ライセンス: Link先を確認
Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell(参考訳) 本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。 この問題設定の重要な課題は、既存の音楽ビデオデータセットが、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述がないことである。 この仕事は、以下の3つのコントリビューションで、この問題に対処する。 まず,事前学習した音楽タグと少数の人間のテキスト記述を与えられた大規模言語モデル(BLOOM-176B)から,類似に基づく音声合成手法を用いて自然言語記述を生成する手法を提案する。 第2に、これらの合成音楽記述を用いて、テキストとビデオの入力表現を融合させて音楽サンプルを問合せする新しいトリモーダルモデルを訓練する。 学習のために,モデル性能にとって重要であることを示すテキストドロップアウト正規化機構を導入する。 モデル設計により,自然言語クエリで表現された音楽ジャンル,ムード,インスツルメンテーションの視覚スタイルを一致させることにより,検索した音楽オーディオを2つの入力モダリティに適合させることができる。 第3に,本手法を評価するために,yt8m-musicvideoデータセットに自然言語音楽記述を付加した4kクリップのサブセットをアノテートすることにより,この問題に対するテストデータセットを収集した。 提案手法は,テキスト指導における検索精度を大幅に向上させつつ,ビデオから音楽への検索における先行手法の性能に適合または超えることを示す。

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.
翻訳日:2023-06-16 13:17:30 公開日:2023-06-15
# 瞬時非局所量子計算と回路深さ低減

Instantaneous nonlocal quantum computation and circuit depth reduction ( http://arxiv.org/abs/2306.09326v1 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) 瞬時二者量子計算は、初期共有の絡み合いがあり、非局所的な相互作用は両方向の同時的古典的通信に制限される計算過程である。 これは即時測定の問題とほぼ同値であり、量子基盤や位置ベースの量子暗号におけるいくつかのトピックと関連している。 本研究では, 瞬時二要素量子計算(あるいは測定)のための効率的なプロトコルを示す。 その絡み合いコストは、量子回路がクリフォードゲートとTゲートに分解されるときのTゲート数に比例する。 量子ホモモルフィック暗号の研究から、ガーデニング・ホース・ガジェットを利用している。 このプロトコルは、量子位置検証スキームのクラスを安全にする。 本結果から, クリフォードゲートとTゲートの層からなる任意のユニタリ回路は, 原回路のT深さに比例した深さ(または単位回路)の回路を用いて実装可能であることを示す。 これは測定に基づく量子計算の結果と一致する。 興味深い量子アルゴリズムは高比のTゲートを必要とすることが多いため、これは限られた用途であるが、それでも第2の結果の拡張や応用について議論する。

Instantaneous two-party quantum computation is a computation process in which there are initial shared entanglement, and the nonlocal interactions are limited to simultaneous classical communication in both directions. It is almost equivalent to the problem of instantaneous measurements, and is related to some topics in quantum foundations and position-based quantum cryptography. In this work we show an efficient protocol for instantaneous two-party quantum computation (or measurement). Its entanglement cost is proportional to the T-gate count when the quantum circuit is decomposed into Clifford gates and T gates. It makes use of a garden-hose gadget from the study of quantum homomorphic encryption. This protocol makes a class of quantum position verification schemes insecure. Independent from the main result, we show that any unitary circuit consisting of layers of Clifford gates and T gates can be implemented using a circuit with measurements (or a unitary circuit) of depth proportional to the T-depth of the original circuit. This matches a corresponding result in measurement-based quantum computation. This is of limited use since interesting quantum algorithms often require a high ratio of T gates, but still we discuss some extensions and applications of the second result.
翻訳日:2023-06-16 13:17:02 公開日:2023-06-15
# エゴセントリックビデオにおけるワンステップビジュアルクエリローカライゼーション

Single-Stage Visual Query Localization in Egocentric Videos ( http://arxiv.org/abs/2306.09324v1 )

ライセンス: Link先を確認
Hanwen Jiang, Santhosh Kumar Ramakrishnan, Kristen Grauman(参考訳) 長方形エゴセントリックビデオにおける視覚的クエリローカライズには時空間探索と視覚特定オブジェクトのローカライズが必要であり,エピソジックメモリシステムの構築に不可欠である。 以前の作業では、確立されたオブジェクト検出とトラッキングメソッドを活用してVQLを実行する、複雑なマルチステージパイプラインが開発されている。 しかしながら、各ステージは独立してトレーニングされ、パイプラインの複雑さは推論速度を遅くする。 エンドツーエンドのトレーニングが可能な新しいシングルステージVQLフレームワークであるVQLoCを提案する。 我々の重要なアイデアは、まずクエリーとビデオの関係を総合的に理解し、次に1つのショットで時空間的ローカライズを行うことです。 具体的には,問合せと各映像フレーム間の問合せと周辺映像フレーム間のフレーム間対応を同時に考慮し,問合せと映像間の関係を確立する。 実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。 VQLoCはまた、Ego4D VQ2Dチャレンジリーダーボードのトップエントリでもある。 プロジェクトページ: https://hwjiang1510.github.io/VQLoC/

Visual Query Localization on long-form egocentric videos requires spatio-temporal search and localization of visually specified objects and is vital to build episodic memory systems. Prior work develops complex multi-stage pipelines that leverage well-established object detection and tracking methods to perform VQL. However, each stage is independently trained and the complexity of the pipeline results in slow inference speeds. We propose VQLoC, a novel single-stage VQL framework that is end-to-end trainable. Our key idea is to first build a holistic understanding of the query-video relationship and then perform spatio-temporal localization in a single shot manner. Specifically, we establish the query-video relationship by jointly considering query-to-frame correspondences between the query and each video frame and frame-to-frame correspondences between nearby video frames. Our experiments demonstrate that our approach outperforms prior VQL methods by 20% accuracy while obtaining a 10x improvement in inference speed. VQLoC is also the top entry on the Ego4D VQ2D challenge leaderboard. Project page: https://hwjiang1510.github.io/VQLoC/
翻訳日:2023-06-16 13:16:42 公開日:2023-06-15
# 量子JPEG

Quantum JPEG ( http://arxiv.org/abs/2306.09323v1 )

ライセンス: Link先を確認
Simone Roncallo, Lorenzo Maccone, Chiara Macchiavello(参考訳) JPEGアルゴリズムは、その高空間周波数成分をフィルタリングすることによりデジタル画像を圧縮する。 同様に、量子フーリエ変換を用いて、画像の高周波量子ビットを破棄する量子プロトコルを導入する。 これにより、出力の解像度を下げるために、ストレージと通信のための限られた量子リソースでも画像をキャプチャ、圧縮、送信することができる。 我々は,このプロトコルが古典的プロトコルに対して有利である条件下で示す。

The JPEG algorithm compresses a digital image by filtering its high spatial-frequency components. Similarly, we introduce a quantum protocol that uses the quantum Fourier transform to discard the high-frequency qubits of the image. This allows to capture, compress and send images even with limited quantum resources for storage and communication, at the cost of reducing the resolution of the output. We show under which conditions this protocol is advantageous with respect to its classical counterpart.
翻訳日:2023-06-16 13:16:20 公開日:2023-06-15
# 放射光伝達勾配の学習による地下散乱による神経リライト

Neural Relighting with Subsurface Scattering by Learning the Radiance Transfer Gradient ( http://arxiv.org/abs/2306.09322v1 )

ライセンス: Link先を確認
Shizhan Zhu, Shunsuke Saito, Aljaz Bozic, Carlos Aliaga, Trevor Darrell, Christop Lassner(参考訳) さまざまな照明条件下でオブジェクトやシーンを再構成し、リライトすることは難しい。既存のニューラルネットワークのレンダリング手法では、材料と光の複雑な相互作用を処理できないことが多い。 事前に計算された放射光伝達技術は、地球規模の照明を可能にするが、地表面散乱効果を持つ物質といまだに苦労している。 本稿では,音量レンダリングによる放射伝達場学習のための新しい枠組みを提案する。 このフレームワークは、リライトとリコンストラクション機能を拡張して、データ駆動方式で幅広い素材を扱う。 得られたモデルは、既存および新規の条件において、妥当なレンダリング結果を生成する。 我々は、我々のコードと、地下散乱効果を持つ新しい光ステージのオブジェクトデータセットを公開します。

Reconstructing and relighting objects and scenes under varying lighting conditions is challenging: existing neural rendering methods often cannot handle the complex interactions between materials and light. Incorporating pre-computed radiance transfer techniques enables global illumination, but still struggles with materials with subsurface scattering effects. We propose a novel framework for learning the radiance transfer field via volume rendering and utilizing various appearance cues to refine geometry end-to-end. This framework extends relighting and reconstruction capabilities to handle a wider range of materials in a data-driven fashion. The resulting models produce plausible rendering results in existing and novel conditions. We will release our code and a novel light stage dataset of objects with subsurface scattering effects publicly available.
翻訳日:2023-06-16 13:16:12 公開日:2023-06-15
# 能動学習に基づく局所フィルタを用いた群集型写真強調

Crowd-Powered Photo Enhancement Featuring an Active Learning Based Local Filter ( http://arxiv.org/abs/2306.09321v1 )

ライセンス: Link先を確認
Satoshi Kosugi, Toshihiko Yamasaki(参考訳) 本研究では,異なる領域に異なる効果を施すことにより,入力画像の美的品質を向上させるための局所光強調について検討する。 既存の写真強調手法は、コンテンツ認識されていないかローカルではないかのいずれかであり、観客に画像編集機能のパラメータを局所的に最適化するよう求めることで実現された、コンテンツ認識ローカル拡張のためのクラウド・パワーのローカル・エンハンスメント手法を提案する。 パラメータの局所最適化を容易にするために,能動的学習に基づく局所フィルタを提案する。 アクティブラーニング法により選択された数個のキー画素でパラメータを決定する必要があり、他の画素におけるパラメータは回帰モデルを用いて自動的に予測される。 選択されたキーピクセルのパラメータは独立に最適化され、最適化問題を単一スライダの一連の調整に分解する。 実験の結果,提案フィルタは既存のフィルタよりも優れており,既存の拡張手法による結果よりも視覚的に満足できることがわかった。 ソースコードと結果はhttps://github.com/satoshi-kosugi/crowd-powered.comで入手できます。

In this study, we address local photo enhancement to improve the aesthetic quality of an input image by applying different effects to different regions. Existing photo enhancement methods are either not content-aware or not local; therefore, we propose a crowd-powered local enhancement method for content-aware local enhancement, which is achieved by asking crowd workers to locally optimize parameters for image editing functions. To make it easier to locally optimize the parameters, we propose an active learning based local filter. The parameters need to be determined at only a few key pixels selected by an active learning method, and the parameters at the other pixels are automatically predicted using a regression model. The parameters at the selected key pixels are independently optimized, breaking down the optimization problem into a sequence of single-slider adjustments. Our experiments show that the proposed filter outperforms existing filters, and our enhanced results are more visually pleasing than the results by the existing enhancement methods. Our source code and results are available at https://github.com/satoshi-kosugi/crowd-powered.
翻訳日:2023-06-16 13:16:01 公開日:2023-06-15
# 体積医用画像分割のための学習可能な重み初期化

Learnable Weight Initialization for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2306.09320v1 )

ライセンス: Link先を確認
Shahina Kunhimon, Abdelrahman Shaker, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan(参考訳) 局所畳み込みとグローバルな注意の利点を組み合わせたハイブリッド容積医用画像セグメンテーションモデルが最近注目されている。 主にアーキテクチャの変更に重点を置いているが、既存のほとんどのハイブリッドアプローチでは、医療データの本質的な容積性を無視して性能を制限する従来のデータ非依存の重み初期化スキームが使用されている。 そこで本研究では, 利用可能な医療訓練データを用いて, 提案する自己監督目標を用いて, 文脈的および構造的手がかりを効果的に学習する, 学習可能な重み初期化手法を提案する。 我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。 多臓器・肺癌セグメンテーションタスクの実験は、我々のアプローチの有効性を示し、最先端セグメンテーション性能をもたらす。

Hybrid volumetric medical image segmentation models, combining the advantages of local convolution and global attention, have recently received considerable attention. While mainly focusing on architectural modifications, most existing hybrid approaches still use conventional data-independent weight initialization schemes which restrict their performance due to ignoring the inherent volumetric nature of the medical data. To address this issue, we propose a learnable weight initialization approach that utilizes the available medical training data to effectively learn the contextual and structural cues via the proposed self-supervised objectives. Our approach is easy to integrate into any hybrid model and requires no external training data. Experiments on multi-organ and lung cancer segmentation tasks demonstrate the effectiveness of our approach, leading to state-of-the-art segmentation performance.
翻訳日:2023-06-16 13:15:40 公開日:2023-06-15
# 説明強化学習を用いた自律ネットワーク防衛への参入

Inroads into Autonomous Network Defence using Explained Reinforcement Learning ( http://arxiv.org/abs/2306.09318v1 )

ライセンス: Link先を確認
Myles Foley, Mia Wang, Zoe M, Chris Hicks, Vasilios Mavroudis(参考訳) コンピュータネットワークの防御は複雑な作業であり、高度な人間の関与を必要としている。 しかし、機械学習の最近の進歩により、完全に自律的なネットワーク防衛はますます実現可能になりつつある。 本稿では,攻撃戦略の研究,防衛エージェントの設計,運用説明のためのエンドツーエンド方法論を提案する。 まず、状態図を用いて敵の行動を可視化し、潜在的な介入点についての洞察を得、防御モデルの設計を知らせる。 私たちは、タスクのさまざまな部分で訓練され、浅い階層で編成された深層強化学習エージェントのセットを使用することを選択しました。 評価の結果, 従来の作業に比べて性能が大幅に向上することがわかった。 最後に, エージェントの意思決定過程をよりよく調査するため, 特徴アブレーションと重要度調査で分析を完了した。

Computer network defence is a complicated task that has necessitated a high degree of human involvement. However, with recent advancements in machine learning, fully autonomous network defence is becoming increasingly plausible. This paper introduces an end-to-end methodology for studying attack strategies, designing defence agents and explaining their operation. First, using state diagrams, we visualise adversarial behaviour to gain insight about potential points of intervention and inform the design of our defensive models. We opt to use a set of deep reinforcement learning agents trained on different parts of the task and organised in a shallow hierarchy. Our evaluation shows that the resulting design achieves a substantial performance improvement compared to prior work. Finally, to better investigate the decision-making process of our agents, we complete our analysis with a feature ablation and importance study.
翻訳日:2023-06-16 13:15:25 公開日:2023-06-15
# ゼロショット開語彙セグメンテーションのための拡散モデル

Diffusion Models for Zero-Shot Open-Vocabulary Segmentation ( http://arxiv.org/abs/2306.09316v1 )

ライセンス: Link先を確認
Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht(参考訳) 現実世界のオブジェクトの多様性はほぼ無限であり、固定されたカテゴリでトレーニングされたモデルを使ってキャプチャすることは不可能である。 その結果,近年,オープン語彙の手法がコミュニティの関心を集めている。 本稿では,ゼロショットオープンボキャブラリーセグメンテーションの新しい手法を提案する。 以前の作業は、画像とテキストのペアを使った対照的なトレーニングに大きく依存しており、グループ化機構を活用して、言語に整合した画像の特徴を学習する。 しかし、類似のキャプションを持つ画像の視覚的外観が異なるため、曖昧さが伴う。 代わりに、大規模テキスト画像拡散モデルの生成特性を利用して、与えられたテキストカテゴリに対するサポート画像の集合をサンプリングする。 これは、曖昧性問題を回避する所定のテキストの外観の分布を提供する。 さらに,サンプル画像のコンテキスト背景を考慮し,オブジェクトのローカライズを向上し,背景を直接分割する機構を提案する。 提案手法は,既存の学習済みの自己教師付き特徴抽出器を自然言語に接地し,サポートセット内の領域にマッピングすることで説明可能な予測を提供する。 提案手法はトレーニング不要で,事前学習されたコンポーネントのみに依存するが,オープン語彙セグメンテーションベンチマークでは高い性能を示し,Pascal VOCベンチマークでは10%以上のリードが得られた。

The variety of objects in the real world is nearly unlimited and is thus impossible to capture using models trained on a fixed set of categories. As a result, in recent years, open-vocabulary methods have attracted the interest of the community. This paper proposes a new method for zero-shot open-vocabulary segmentation. Prior work largely relies on contrastive training using image-text pairs, leveraging grouping mechanisms to learn image features that are both aligned with language and well-localised. This however can introduce ambiguity as the visual appearance of images with similar captions often varies. Instead, we leverage the generative properties of large-scale text-to-image diffusion models to sample a set of support images for a given textual category. This provides a distribution of appearances for a given text circumventing the ambiguity problem. We further propose a mechanism that considers the contextual background of the sampled images to better localise objects and segment the background directly. We show that our method can be used to ground several existing pre-trained self-supervised feature extractors in natural language and provide explainable predictions by mapping back to regions in the support set. Our proposal is training-free, relying on pre-trained components only, yet, shows strong performance on a range of open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on the Pascal VOC benchmark.
翻訳日:2023-06-16 13:15:11 公開日:2023-06-15
# ディープラーニングの最適化を理解する

Understanding Optimization of Deep Learning ( http://arxiv.org/abs/2306.09338v1 )

ライセンス: Link先を確認
Xianbiao Qi, Jianan Wang and Lei Zhang(参考訳) 本稿では、ディープラーニングにおける最適化の包括的理解を提供し、勾配消滅と勾配爆発の課題に主に焦点をあて、モデル表現能力の低下とトレーニング不安定性をそれぞれ引き起こす。 この2つの課題を,勾配流の改善やネットワークのリプシッツ定数に対する制約の付与など,いくつかの戦略的手法を用いて分析する。 現在の最適化手法を理解するために、明示的な最適化と暗黙的な最適化の2つのクラスに分類する。 明示的な最適化手法は、重み、勾配、学習率、体重減少などの最適化パラメータを直接操作する。 対照的に暗黙的最適化手法は、残差ショートカット、正規化方法、注意機構、アクティベーションといったモジュールを拡張して、ネットワーク全体の景観を改善することに焦点を当てている。 本稿では,これら2つの最適化クラスを詳細に分析し,多種多様なディープラーニングモジュールのヤコビ行列とリプシッツ定数の徹底的な検討を行い,既存の問題と潜在的な改善点を強調した。 さらに、理論的な議論を裏付ける一連の分析実験も実施する。 この記事では、新しいオプティマイザやネットワークを提案することを目的としていない。 むしろ、深層学習における最適化の包括的理解を示すことを意図しています。 この記事は読者がこの分野の深い洞察を得ることを支援し、より堅牢で効率的でハイパフォーマンスなモデルの開発を促進することを望んでいる。

This article provides a comprehensive understanding of optimization in deep learning, with a primary focus on the challenges of gradient vanishing and gradient exploding, which normally lead to diminished model representational ability and training instability, respectively. We analyze these two challenges through several strategic measures, including the improvement of gradient flow and the imposition of constraints on a network's Lipschitz constant. To help understand the current optimization methodologies, we categorize them into two classes: explicit optimization and implicit optimization. Explicit optimization methods involve direct manipulation of optimizer parameters, including weight, gradient, learning rate, and weight decay. Implicit optimization methods, by contrast, focus on improving the overall landscape of a network by enhancing its modules, such as residual shortcuts, normalization methods, attention mechanisms, and activations. In this article, we provide an in-depth analysis of these two optimization classes and undertake a thorough examination of the Jacobian matrices and the Lipschitz constants of many widely used deep learning modules, highlighting existing issues as well as potential improvements. Moreover, we also conduct a series of analytical experiments to substantiate our theoretical discussions. This article does not aim to propose a new optimizer or network. Rather, our intention is to present a comprehensive understanding of optimization in deep learning. We hope that this article will assist readers in gaining a deeper insight in this field and encourages the development of more robust, efficient, and high-performing models.
翻訳日:2023-06-16 13:07:22 公開日:2023-06-15
# 生成的プロキシ:画像からの3次元ソーシャルインタラクションの先行

Generative Proxemics: A Prior for 3D Social Interaction from Images ( http://arxiv.org/abs/2306.09337v1 )

ライセンス: Link先を確認
Lea M\"uller, Vickie Ye, Georgios Pavlakos, Michael Black, Angjoo Kanazawa(参考訳) 社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。 個人が他者と結びつく方法(プロキシミクスとしても知られる)は、社会的手がかりを伝達し、社会的相互作用のダイナミクスに影響を与える。 親密な社会的相互作用において,2人の前に3Dプロキセミクスを学習する新しいアプローチを提案する。 対話する人々の大規模な3Dデータセットの収集は難しいため、社会的相互作用が豊富である2D画像収集に頼っている。 既存の接地地図を用いた最適化手法を用いて,画像から対話する人物の疑似接地真理3次元メッシュを再構成し,これを実現する。 次に, SMPL-Xパラメータ空間内での密接な社会的相互作用において, 2人の共同分布を学習するBUDDIという新しい拡散モデルを用いて, プロキシをモデル化する。 生成的proxemicsモデルからのサンプリングは、現実的な3dヒューマンインタラクションを生成し、ユーザスタディを通じて検証します。 さらに,接触アノテーションを使わずに単一の画像から近接して2人の人物を再構成する前に拡散を利用する新しい最適化手法を提案する。 提案手法は,ノイズの多い初期推定値からより正確で確実な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。 コード、データ、およびモデル: muelea.github.io/buddi.org のプロジェクトサイト を参照してください。

Social interaction is a fundamental aspect of human behavior and communication. The way individuals position themselves in relation to others, also known as proxemics, conveys social cues and affects the dynamics of social interaction. We present a novel approach that learns a 3D proxemics prior of two people in close social interaction. Since collecting a large 3D dataset of interacting people is a challenge, we rely on 2D image collections where social interactions are abundant. We achieve this by reconstructing pseudo-ground truth 3D meshes of interacting people from images with an optimization approach using existing ground-truth contact maps. We then model the proxemics using a novel denoising diffusion model called BUDDI that learns the joint distribution of two people in close social interaction directly in the SMPL-X parameter space. Sampling from our generative proxemics model produces realistic 3D human interactions, which we validate through a user study. Additionally, we introduce a new optimization method that uses the diffusion prior to reconstruct two people in close proximity from a single image without any contact annotation. Our approach recovers more accurate and plausible 3D social interactions from noisy initial estimates and outperforms state-of-the-art methods. See our project site for code, data, and model: muelea.github.io/buddi.
翻訳日:2023-06-16 13:06:59 公開日:2023-06-15
# 時空間量子相関の因果分類

Causal classification of spatiotemporal quantum correlations ( http://arxiv.org/abs/2306.09336v1 )

ライセンス: Link先を確認
Minjeong Song, Varun Narasimhachar, Bartosz Regula, Thomas J. Elliott, and Mile Gu(参考訳) 測定結果のみの相関から、他の2つの孤立した関係が一時的な関係であるかどうかを確定できるだろうか? つまり、彼らは2つの異なるタイミングで同じシステムを与えられたと判断できるのだろうか? 古典統計学は否定するが、量子論は反対である。 本稿では、そのような量子相関を時間的に特定できる必要十分条件を紹介する。 時間反転下での時間的非対称性を実証し,空間的量子相関の尺度であることを明らかにした。 以上の結果から,特定の量子相関は時間的固有矢印を持ち,様々な因果構造との整合性に基づいて,時空間における一般量子相関の分類が可能であることが示唆された。

From correlations in measurement outcomes alone, can two otherwise isolated parties establish whether such correlations are atemporal? That is, can they rule out that they have been given the same system at two different times? Classical statistics says no, yet quantum theory disagrees. Here, we introduce the necessary and sufficient conditions by which such quantum correlations can be identified as atemporal. We demonstrate the asymmetry of atemporality under time reversal, and reveal it to be a measure of spatial quantum correlation distinct from entanglement. Our results indicate that certain quantum correlations possess an intrinsic arrow of time, and enable classification of general quantum correlations across space-time based on their (in)compatibility with various underlying causal structures.
翻訳日:2023-06-16 13:06:36 公開日:2023-06-15
# 多くのクラスによるクラス条件共形予測

Class-Conditional Conformal Prediction With Many Classes ( http://arxiv.org/abs/2306.09335v1 )

ライセンス: Link先を確認
Tiffany Ding, Anastasios N. Angelopoulos, Stephen Bates, Michael I. Jordan, Ryan J. Tibshirani(参考訳) 標準共形予測法は限界カバレッジ保証を提供する。つまり、ランダムなテストポイントに対して、共形予測セットは、ユーザ・チョン確率の真のラベルを含むことを意味する。 多くの分類問題において、我々はより強い保証を得たいと思います -- 特定のクラスのテストポイントに対して、予測セットは、同じユーザ・チョン確率の真のラベルを含む。 既存の共形予測手法は、クラス数が多い実際のアプリケーションの場合のように、クラスごとのラベル付きデータの量が限られている場合、うまく動作しない。 そこで我々は「類似」な共形スコアを持つクラスをクラスタ化してクラスタレベルで共形予測を行うクラスタ型共形予測法を提案する。 多数の(最大1000までの)クラスを持つ4つのイメージデータセットにおける経験的評価に基づいて、クラスタ型コンフォーサルは、クラス条件カバレッジとセットサイズメトリクスの点で、既存のメソッドよりも優れています。

Standard conformal prediction methods provide a marginal coverage guarantee, which means that for a random test point, the conformal prediction set contains the true label with a user-chosen probability. In many classification problems, we would like to obtain a stronger guarantee -- that for test points of a specific class, the prediction set contains the true label with the same user-chosen probability. Existing conformal prediction methods do not work well when there is a limited amount of labeled data per class, as is often the case in real applications where the number of classes is large. We propose a method called clustered conformal prediction, which clusters together classes that have "similar" conformal scores and then performs conformal prediction at the cluster level. Based on empirical evaluation across four image data sets with many (up to 1000) classes, we find that clustered conformal typically outperforms existing methods in terms of class-conditional coverage and set size metrics.
翻訳日:2023-06-16 13:06:25 公開日:2023-06-15
# マスクスタイルモデリングによるパーソナライズされた画像強調

Personalized Image Enhancement Featuring Masked Style Modeling ( http://arxiv.org/abs/2306.09334v1 )

ライセンス: Link先を確認
Satoshi Kosugi, Toshihiko Yamasaki(参考訳) 本研究では,ユーザの好みの画像に基づいて,各ユーザの入力画像を強調するパーソナライズされた画像強調について検討する。 従来の手法では,すべての入力画像に対して同じ好みのスタイル(つまり,ユーザ毎に1つのスタイルのみ)を適用するが,これらとは対照的に,コンテンツを考慮したパーソナライズを実現するために,各画像に異なるスタイルを適用する。 コンテンツ対応パーソナライズには2つの貢献があります。 まず、マスク型言語モデリングの枠組みを用いて、コンテンツを考慮した入力画像のスタイルを予測できるマスク型スタイルモデリング法を提案する。 第二に,このモデルで画像の内容を考えるために,Flickrから画像をダウンロードし,デグレーディングモデルを用いて擬似入力と修正画像のペアを作成する,新たなトレーニング手法を提案する。 本手法は, 定量的評価とユーザ調査を行い, 本手法を用いてトレーニングを行った結果, コンテンツ認識パーソナライゼーションが実現できた。 ソースコードはhttps://github.com/satoshi-kosugi/masked-style-modelingから入手できます。

We address personalized image enhancement in this study, where we enhance input images for each user based on the user's preferred images. Previous methods apply the same preferred style to all input images (i.e., only one style for each user); in contrast to these methods, we aim to achieve content-aware personalization by applying different styles to each image considering the contents. For content-aware personalization, we make two contributions. First, we propose a method named masked style modeling, which can predict a style for an input image considering the contents by using the framework of masked language modeling. Second, to allow this model to consider the contents of images, we propose a novel training scheme where we download images from Flickr and create pseudo input and retouched image pairs using a degrading model. We conduct quantitative evaluations and a user study, and our method trained using our training scheme successfully achieves content-aware personalization; moreover, our method outperforms other previous methods in this field. Our source code is available at https://github.com/satoshi-kosugi/masked-style-modeling.
翻訳日:2023-06-16 13:06:07 公開日:2023-06-15
# ハイゼンベルクスピン鎖における無限温度における磁化のダイナミクス

Dynamics of magnetization at infinite temperature in a Heisenberg spin chain ( http://arxiv.org/abs/2306.09333v1 )

ライセンス: Link先を確認
Eliott Rosenberg, Trond Andersen, Rhine Samajdar, Andre Petukhov, Jesse Hoke, Dmitry Abanin, Andreas Bengtsson, Ilya Drozdov, Catherine Erickson, Paul Klimov, Xiao Mi, Alexis Morvan, Matthew Neeley, Charles Neill, Rajeev Acharya, Igor Aleiner, Richard Allen, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Joseph Bardin, A. Bilmes, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Juan Campero, Hung-Shen Chang, Zijun Chen, Benjamin Chiaro, Desmond Chik, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander Crook, Ben Curtin, Dripto Debroy, Alexander Del Toro Barba, Sean Demura, Agustin Di Paolo, Andrew Dunsworth, Clint Earle, E. Farhi, Reza Fatemi, Vinicius Ferreira, Leslie Flores, Ebrahim Forati, Austin Fowler, Brooks Foxen, Gonzalo Garcia, \'Elie Genois, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Jonathan Gross, Steve Habegger, Michael Hamilton, Monica Hansen, Matthew Harrigan, Sean Harrington, Paula Heu, Gordon Hill, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William Huggins, Lev Ioffe, Sergei Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, D. Kafri, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Andrey Klots, Alexander Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim Ming Lau, Lily Laws, Joonho Lee, Kenneth Lee, Yuri Lensky, Brian Lester, Alexander Lill, Wayne Liu, William P. Livingston, A. Locharla, Salvatore Mandr\`a, Orion Martin, Steven Martin, Jarrod McClean, Matthew McEwen, Seneca Meeks, Kevin Miao, Amanda Mieszala, Shirin Montazeri, Ramis Movassagh, Wojciech Mruczkiewicz, Ani Nersisyan, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, M. Niu, Thomas O'Brien, Seun Omonije, Alex Opremcak, Rebecca Potter, Leonid Pryadko, Chris Quintana, David Rhodes, Charles Rocque, N. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin Satzinger, Henry Schurkus, Christopher Schuster, Michael Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Jindra Skruzny, Clarke Smith, Rolando Somma, George Sterling, Doug Strain, Marco Szalay, Douglas Thor, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Bryan Woo, Cheng Xing, Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Ryan Babbush, Dave Bacon, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Vedika Khemani, Sarang Gopalakrishnan, Toma\v{z} Prosen, Pedram Roushan(参考訳) 量子力学の普遍的な側面を理解することは統計力学の未解決問題である。 特に、1Dハイゼンベルクモデルのスピンダイナミクスは、無限温度スピン相関関数のスケーリングに基づいて、KPZ(Kardar-Parisi-Zhang)普遍性クラスに属すると推測された。 46個の超伝導量子ビットの鎖において、チェーンの中心に伝達される磁化の確率分布である$P(\mathcal{M})$について検討する。 $p(\mathcal{m})$の最初の2つのモーメントは超微分的挙動を示し、kpz普遍性の指標である。 しかし、第三モーメントと第四モーメントはKPZ予想を除外し、他の理論を評価することができる。 この結果は、動的普遍性クラスの決定における高次モーメントの研究の重要性を強調し、量子システムにおける普遍的振る舞いに関する重要な洞察を提供する。

Understanding universal aspects of quantum dynamics is an unresolved problem in statistical mechanics. In particular, the spin dynamics of the 1D Heisenberg model were conjectured to belong to the Kardar-Parisi-Zhang (KPZ) universality class based on the scaling of the infinite-temperature spin-spin correlation function. In a chain of 46 superconducting qubits, we study the probability distribution, $P(\mathcal{M})$, of the magnetization transferred across the chain's center. The first two moments of $P(\mathcal{M})$ show superdiffusive behavior, a hallmark of KPZ universality. However, the third and fourth moments rule out the KPZ conjecture and allow for evaluating other theories. Our results highlight the importance of studying higher moments in determining dynamic universality classes and provide key insights into universal behavior in quantum systems.
翻訳日:2023-06-16 13:05:48 公開日:2023-06-15
# Fit Like You Sample: 高速ミキシングマルコフチェインのサンプル効率の良い一般化スコアマッチング

Fit Like You Sample: Sample-Efficient Generalized Score Matching from Fast Mixing Markov Chains ( http://arxiv.org/abs/2306.09332v1 )

ライセンス: Link先を確認
Yilong Qin, Andrej Risteski(参考訳) スコアマッチングは、比例定数(エネルギーベースモデルなど)までパラメータ化された確率分布を学習するアプローチである。 その考え方は、確率ではなく分布のスコアに合わせることであり、比例性の定数を評価する必要性を避けることである。 koehler et al. 2022 による最近の研究は、等角性(大きな poincar\'e や log-sobolev 定数)の悪い分布に対して、スコアマッチングは最大確率よりもかなり統計的に効率が低いことを示した。 しかし、例えば1次元の2つのガウスの混合のように単純であるような多様分布のような多くの自然現実的分布はポアンカルの定数が貧弱である。 本稿では、任意のマルコフ過程とジェネレータ$\mathcal{L}$との混合時間と、$\frac{\mathcal{O} p}{p}$に適合しようとする一般化されたスコアマッチング損失との密接な関係を示す。 もし$\mathcal{L}$が、模擬テンパリングの連続バージョンに対応するマルコフ過程に対応するならば、対応する一般化されたスコアマッチング損失が、Song and Ermon 2019で提案されたスコアマッチング損失であることを示す。 さらに、学習対象の分布が、共有共分散を持つ$d$次元のガウスの有限混合である場合、アニールスコアマッチングのサンプル複雑性は、周囲次元における多項式であり、平均の直径は、共分散の最小かつ最大の固有値である。 SongやErmon 2019といった、より洗練されたスコアベースのアプローチにおいて、スコアマッチングの重要なコンポーネントである、アニールのメリットを特徴付ける最初の結果です。

Score matching is an approach to learning probability distributions parametrized up to a constant of proportionality (e.g. Energy-Based Models). The idea is to fit the score of the distribution, rather than the likelihood, thus avoiding the need to evaluate the constant of proportionality. While there's a clear algorithmic benefit, the statistical "cost'' can be steep: recent work by Koehler et al. 2022 showed that for distributions that have poor isoperimetric properties (a large Poincar\'e or log-Sobolev constant), score matching is substantially statistically less efficient than maximum likelihood. However, many natural realistic distributions, e.g. multimodal distributions as simple as a mixture of two Gaussians in one dimension -- have a poor Poincar\'e constant. In this paper, we show a close connection between the mixing time of an arbitrary Markov process with generator $\mathcal{L}$ and a generalized score matching loss that tries to fit $\frac{\mathcal{O} p}{p}$. If $\mathcal{L}$ corresponds to a Markov process corresponding to a continuous version of simulated tempering, we show the corresponding generalized score matching loss is a Gaussian-convolution annealed score matching loss, akin to the one proposed in Song and Ermon 2019. Moreover, we show that if the distribution being learned is a finite mixture of Gaussians in $d$ dimensions with a shared covariance, the sample complexity of annealed score matching is polynomial in the ambient dimension, the diameter the means, and the smallest and largest eigenvalues of the covariance -- obviating the Poincar\'e constant-based lower bounds of the basic score matching loss shown in Koehler et al. 2022. This is the first result characterizing the benefits of annealing for score matching -- a crucial component in more sophisticated score-based approaches like Song and Ermon 2019.
翻訳日:2023-06-16 13:05:35 公開日:2023-06-15
# ピクセルのポーズを見る:視覚トランスフォーマーにおけるポーズ認識表現の学習

Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers ( http://arxiv.org/abs/2306.09331v1 )

ライセンス: Link先を確認
Dominick Reilly and Aman Chadha and Srijan Das(参考訳) 環境に対する人間の知覚はしばしば環境内に存在する様々なポーズによって導かれる。 人間の行動認識やロボット模倣学習のような多くのコンピュータビジョンタスクは、人間の骨格やロボットアームのようなポーズベースの実体に依存している。 しかし、従来のビジョントランスフォーマー(ViT)モデルはすべてのパッチを均一に処理し、入力ビデオの貴重なポーズを無視する。 rgbデータにポーズを組み込むことは、細部や視点に依存しない表現を学ぶのに有利であると主張する。 その結果,ViTにおけるポーズ認識表現を学習するための2つの戦略が導入された。 Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。 第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。 それらの機能は異なるが、どちらの手法もポーズ認識表現の学習に成功し、複数の下流タスクのパフォーマンスを向上させる。 実験は7つのデータセットにまたがって行われ、PAATがPAABをわずかに上回る3つのビデオ解析タスクにおいて、両方のポーズ認識手法の有効性を明らかにした。 PAATもPAABもそれぞれのバックボーントランスフォーマーを9.8%まで上回り、21.8%のマルチビューロボットビデオアライメントを実現している。 コードはhttps://github.com/dominickrei/poseawarevtで入手できる。

Human perception of surroundings is often guided by the various poses present within the environment. Many computer vision tasks, such as human action recognition and robot imitation learning, rely on pose-based entities like human skeletons or robotic arms. However, conventional Vision Transformer (ViT) models uniformly process all patches, neglecting valuable pose priors in input videos. We argue that incorporating poses into RGB data is advantageous for learning fine-grained and viewpoint-agnostic representations. Consequently, we introduce two strategies for learning pose-aware representations in ViTs. The first method, called Pose-aware Attention Block (PAAB), is a plug-and-play ViT block that performs localized attention on pose regions within videos. The second method, dubbed Pose-Aware Auxiliary Task (PAAT), presents an auxiliary pose prediction task optimized jointly with the primary ViT task. Although their functionalities differ, both methods succeed in learning pose-aware representations, enhancing performance in multiple diverse downstream tasks. Our experiments, conducted across seven datasets, reveal the efficacy of both pose-aware methods on three video analysis tasks, with PAAT holding a slight edge over PAAB. Both PAAT and PAAB surpass their respective backbone Transformers by up to 9.8% in real-world action recognition and 21.8% in multi-view robotic video alignment. Code is available at https://github.com/dominickrei/PoseAwareVT.
翻訳日:2023-06-16 13:04:57 公開日:2023-06-15
# ArtFusion: Dual Conditional Latent Diffusion Modelを用いた任意型転送

ArtFusion: Arbitrary Style Transfer using Dual Conditional Latent Diffusion Models ( http://arxiv.org/abs/2306.09330v1 )

ライセンス: Link先を確認
Dar-Yen Chen(参考訳) Arbitrary Style Transfer (AST)は、任意のアートワークからスタイルを採用することで、イメージを変換することを目的としている。 それでも、多様で主観的なユーザー嗜好に対応する必要性は大きな課題である。 異なるコンテンツ構造を保存したいユーザーもいるが、より分かりやすいスタイライゼーションを好むユーザーもいる。 フィードフォワードAST法の進歩にもかかわらず、その限定されたカスタマイズ性は、実用的応用を妨げる。 我々は、コンテンツとスタイルの柔軟なバランスを提供する新しいアプローチ、ArtFusionを提案する。 バイアス付き類似性損失に依存する従来の手法とは対照的に、artfusionは革新的な双条件拡散確率モデル(dual-cldm)を採用している。 このアプローチは反復パターンを緩和し、ブラシストロークやジャンル特有の特徴のような微妙な芸術的側面を強化する。 様々な生成タスクにおける条件拡散確率モデル (cDM) の有望な結果にもかかわらず, 組合わせ学習データの必要性から, スタイル伝達の導入は困難である。 ArtFusionはこの問題をうまくナビゲートし、より実用的で制御可能なスタイリングを提供する。 私たちのアプローチの重要な要素は、モデルトレーニング中に単一のイメージをコンテンツとスタイルの両方に使用し、推論中に効果的なスタイライゼーションを維持することです。 ArtFusionは、優れた制御性と芸術的詳細の忠実な提示に関する既存のアプローチを上回り、その優れたスタイル転送能力の証拠を提供する。 さらに, artfusionで使用されるデュアルcldmは, 様々な複雑な多条件生成タスクの可能性を秘めており, 研究の影響を大きく広げている。

Arbitrary Style Transfer (AST) aims to transform images by adopting the style from any selected artwork. Nonetheless, the need to accommodate diverse and subjective user preferences poses a significant challenge. While some users wish to preserve distinct content structures, others might favor a more pronounced stylization. Despite advances in feed-forward AST methods, their limited customizability hinders their practical application. We propose a new approach, ArtFusion, which provides a flexible balance between content and style. In contrast to traditional methods reliant on biased similarity losses, ArtFusion utilizes our innovative Dual Conditional Latent Diffusion Probabilistic Models (Dual-cLDM). This approach mitigates repetitive patterns and enhances subtle artistic aspects like brush strokes and genre-specific features. Despite the promising results of conditional diffusion probabilistic models (cDM) in various generative tasks, their introduction to style transfer is challenging due to the requirement for paired training data. ArtFusion successfully navigates this issue, offering more practical and controllable stylization. A key element of our approach involves using a single image for both content and style during model training, all the while maintaining effective stylization during inference. ArtFusion outperforms existing approaches on outstanding controllability and faithful presentation of artistic details, providing evidence of its superior style transfer capabilities. Furthermore, the Dual-cLDM utilized in ArtFusion carries the potential for a variety of complex multi-condition generative tasks, thus greatly broadening the impact of our research.
翻訳日:2023-06-16 13:04:31 公開日:2023-06-15
# DreamHuman:テキストから3Dアバターを作る

DreamHuman: Animatable 3D Avatars from Text ( http://arxiv.org/abs/2306.09329v1 )

ライセンス: Link先を確認
Nikos Kolotouros, Thiemo Alldieck, Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Fieraru, Cristian Sminchisescu(参考訳) 本研究では,テキスト記述のみで現実的な3次元アバターモデルを生成するDreamHumanを提案する。 最近のtext-to-3dメソッドは、世代でかなりの進歩を遂げているが、重要な側面はまだ欠落している。 コントロールとしばしば空間分解能は限られており、既存の手法では3dのモデルではなく固定的なモデルを生成する。 dreamhumanは、新しいモデリングと最適化フレームワークで、大きなテキストから画像への合成モデル、神経放射野、統計人体モデルを結びつける。 これにより、高品質なテクスチャを持つダイナミックな3Dアバターを生成でき、例えば、表面の変形を学習することができる。 本手法は,テキストから多種多様なアニマタブルでリアルな3次元モデルを生成することができることを示す。 私たちの3dモデルは、外観、衣服、肌色、体形が多様で、一般的なテキストから3dへのアプローチと、以前のテキストベースの3dアバタージェネレータの視覚忠実度を大幅に上回っています。 さらなる結果とアニメーションについては、https://dream-human.github.io.comで確認してください。

We present DreamHuman, a method to generate realistic animatable 3D human avatar models solely from textual descriptions. Recent text-to-3D methods have made considerable strides in generation, but are still lacking in important aspects. Control and often spatial resolution remain limited, existing methods produce fixed rather than animated 3D human models, and anthropometric consistency for complex structures like people remains a challenge. DreamHuman connects large text-to-image synthesis models, neural radiance fields, and statistical human body models in a novel modeling and optimization framework. This makes it possible to generate dynamic 3D human avatars with high-quality textures and learned, instance-specific, surface deformations. We demonstrate that our method is capable to generate a wide variety of animatable, realistic 3D human models from text. Our 3D models have diverse appearance, clothing, skin tones and body shapes, and significantly outperform both generic text-to-3D approaches and previous text-based 3D avatar generators in visual fidelity. For more results and animations please check our website at https://dream-human.github.io.
翻訳日:2023-06-16 13:04:07 公開日:2023-06-15
# UrbanIR: ワンビデオによる大規模都市シーンの逆レンダリング

UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video ( http://arxiv.org/abs/2306.09349v1 )

ライセンス: Link先を確認
Zhi-Hao Lin, Bohan Liu, Yi-Ting Chen, David Forsyth, Jia-Bin Huang, Anand Bhattad, Shenlong Wang(参考訳) 映像から新しい照明条件下でのシーンのリアルなフリー視点レンダリングを可能にするモデルの構築方法を示す。 我々の手法 - UrbanIR: Urban Scene Inverse Rendering - はビデオから逆グラフィック表現を計算する。 urbanirは、未公開の屋外シーンの1つの映像から、形状、アルベド、視認性、太陽と空の照明を共同で推測する。 UrbanIRは、車に搭載されたカメラのビデオを使用する(典型的なNeRFスタイルの見積もりでは、同じ点の多くのビューとは対照的に)。 その結果、標準的な手法では幾何的な推定が貧弱であり(例えば屋根)、'floaters' が多数存在する。 逆グラフィックス推論のエラーは強いレンダリングアーティファクトをもたらす可能性がある。 UrbanIRはこれらや他のエラーの原因を制御するために、新しい損失を使用する。 UrbanIRは、オリジナルのシーンにおける影のボリュームを非常によく見積もるために、新しい損失を使用する。 結果として得られる表現は、コントロール可能な編集を容易にし、信頼されたシーンと挿入されたオブジェクトのフォトリアリスティックな自由視点レンダリングを提供する。 質的評価は最先端よりも強力な改善を示している。

We show how to build a model that allows realistic, free-viewpoint renderings of a scene under novel lighting conditions from video. Our method -- UrbanIR: Urban Scene Inverse Rendering -- computes an inverse graphics representation from the video. UrbanIR jointly infers shape, albedo, visibility, and sun and sky illumination from a single video of unbounded outdoor scenes with unknown lighting. UrbanIR uses videos from cameras mounted on cars (in contrast to many views of the same points in typical NeRF-style estimation). As a result, standard methods produce poor geometry estimates (for example, roofs), and there are numerous ''floaters''. Errors in inverse graphics inference can result in strong rendering artifacts. UrbanIR uses novel losses to control these and other sources of error. UrbanIR uses a novel loss to make very good estimates of shadow volumes in the original scene. The resulting representations facilitate controllable editing, delivering photorealistic free-viewpoint renderings of relit scenes and inserted objects. Qualitative evaluation demonstrates strong improvements over the state-of-the-art.
翻訳日:2023-06-16 12:58:57 公開日:2023-06-15
# 目を通して世界を見る

Seeing the World through Your Eyes ( http://arxiv.org/abs/2306.09348v1 )

ライセンス: Link先を確認
Hadi Alzayer, Kevin Zhang, Brandon Feng, Christopher Metzler, Jia-Bin Huang(参考訳) 人間の目の反射的な性質は、私たちの周りの世界がどんなものかという、未熟な情報源です。 動く人の目を撮像することで、眼の反射を通して、カメラの直視線の外のシーンの複数のビューを収集することができる。 本稿では,眼の反射を含むポートレート画像を用いて,カメラの視線を越えて3次元シーンを再構成する。 この仕事は困難です。 1)眼のポーズを正確に推定することの困難さ 2)眼虹彩の絡み合った外観と場面の反射 本手法は,角膜ポーズ,シーンを描写する放射場,観察者の眼の虹彩テクスチャを共同で改善する。 さらに,虹彩テクスチャパターンに先立って簡易な正規化を提案し,再現性を向上させる。 様々な眼色を持つ人物を特徴とする合成および実世界の撮影実験を通じて,眼球反射を用いた3次元シーンの復元の可能性を示す。

The reflective nature of the human eye is an underappreciated source of information about what the world around us looks like. By imaging the eyes of a moving person, we can collect multiple views of a scene outside the camera's direct line of sight through the reflections in the eyes. In this paper, we reconstruct a 3D scene beyond the camera's line of sight using portrait images containing eye reflections. This task is challenging due to 1) the difficulty of accurately estimating eye poses and 2) the entangled appearance of the eye iris and the scene reflections. Our method jointly refines the cornea poses, the radiance field depicting the scene, and the observer's eye iris texture. We further propose a simple regularization prior on the iris texture pattern to improve reconstruction quality. Through various experiments on synthetic and real-world captures featuring people with varied eye colors, we demonstrate the feasibility of our approach to recover 3D scenes using eye reflections.
翻訳日:2023-06-16 12:58:40 公開日:2023-06-15
# ビジョンファウンデーションモデルによる任意のポイントクラウドシーケンスの分割

Segment Any Point Cloud Sequences by Distilling Vision Foundation Models ( http://arxiv.org/abs/2306.09347v1 )

ライセンス: Link先を確認
Youquan Liu and Lingdong Kong and Jun Cen and Runnan Chen and Wenwei Zhang and Liang Pan and Kai Chen and Ziwei Liu(参考訳) 視覚基礎モデル(VFM)の最近の進歩は、多目的かつ効率的な視覚知覚の新しい可能性を開いた。 本稿では,vfmを多種多様な自動車用ポイントクラウドシーケンスのセグメンテーションに利用する新しいフレームワークである seal を紹介する。 sealには3つの魅力がある。 i) スケーラビリティ: VFMはポイントクラウドに直接蒸留され、事前トレーニング中に2Dまたは3Dのアノテーションが不要になる。 二 一貫性:カメラからLiDAR、ポイント・ツー・セグメンテーションの段階において、空間的・時間的関係を強制し、相互表現学習を促進すること。 三 総合可能性:シールは、実際の/合成、低解像度、大規模/小規模、クリーン/破損したデータセットを含む多様なポイントクラウドを含む下流タスクに、オフザシェルフ方式で知識伝達を可能にする。 11の異なるポイントクラウドデータセットで広範な実験が行われ、sealの有効性と優位性が示された。 特筆すべきは、アザラシは線形探索の後、無作為初期化を36.9%、先行芸術を6.1%上回り、無作為初期化を45.0%上回ったことである。 さらに、sealは、テスト済みの11のpoint cloudデータセットすべてにおいて、20の異なるマイナショット微調整タスクにわたる既存のメソッドよりも大きなパフォーマンス向上を示している。

Recent advancements in vision foundation models (VFMs) have opened up new possibilities for versatile and efficient visual perception. In this work, we introduce Seal, a novel framework that harnesses VFMs for segmenting diverse automotive point cloud sequences. Seal exhibits three appealing properties: i) Scalability: VFMs are directly distilled into point clouds, eliminating the need for annotations in either 2D or 3D during pretraining. ii) Consistency: Spatial and temporal relationships are enforced at both the camera-to-LiDAR and point-to-segment stages, facilitating cross-modal representation learning. iii) Generalizability: Seal enables knowledge transfer in an off-the-shelf manner to downstream tasks involving diverse point clouds, including those from real/synthetic, low/high-resolution, large/small-scale, and clean/corrupted datasets. Extensive experiments conducted on eleven different point cloud datasets showcase the effectiveness and superiority of Seal. Notably, Seal achieves a remarkable 45.0% mIoU on nuScenes after linear probing, surpassing random initialization by 36.9% mIoU and outperforming prior arts by 6.1% mIoU. Moreover, Seal demonstrates significant performance gains over existing methods across 20 different few-shot fine-tuning tasks on all eleven tested point cloud datasets.
翻訳日:2023-06-16 12:58:27 公開日:2023-06-15
# ロゼッタニューロン:模型動物園における共通単位のマイニング

Rosetta Neurons: Mining the Common Units in a Model Zoo ( http://arxiv.org/abs/2306.09346v1 )

ライセンス: Link先を確認
Amil Dravid, Yossi Gandelsman, Alexei Efros, Assaf Shocher(参考訳) さまざまなビジョンタスクのためにトレーニングされた異なるニューラルネットワークは、共通の表現を共有しているのだろうか? 本稿では、異なるアーキテクチャ、異なるタスク(生成的および判別的)、異なる種類の監督(クラス教師あり、テキスト教師あり、自己教師あり)を持つモデルにまたがる「ロゼッタニューロン」と呼ばれる共通機能の存在を実証する。 そこで我々は,Rosetta Neuronsの辞書を,クラスSupervised-ResNet50,DINO-ResNet50,DINO-ViT,MAE,CLIP-ResNet50,BigGAN,StyleGAN-2,StyleGAN-XLでマイニングするアルゴリズムを提案する。 本研究は,特定の視覚概念や構造が自然界に固有に埋め込まれており,特定のタスクやアーキテクチャに関わらず,意味ラベルを使わずに,異なるモデルで学習できることを示唆する。 分析に含まれる生成モデルにより,共有概念を直接視覚化することができる。 ロゼッタニューロンは、特殊なトレーニングを必要とせず、クラス間のアライメント、シフト、ズームなど、様々な反転ベースの操作を可能にするモデルからモデルへの翻訳を促進する。

Do different neural networks, trained for various vision tasks, share some common representations? In this paper, we demonstrate the existence of common features we call "Rosetta Neurons" across a range of models with different architectures, different tasks (generative and discriminative), and different types of supervision (class-supervised, text-supervised, self-supervised). We present an algorithm for mining a dictionary of Rosetta Neurons across several popular vision models: Class Supervised-ResNet50, DINO-ResNet50, DINO-ViT, MAE, CLIP-ResNet50, BigGAN, StyleGAN-2, StyleGAN-XL. Our findings suggest that certain visual concepts and structures are inherently embedded in the natural world and can be learned by different models regardless of the specific task or architecture, and without the use of semantic labels. We can visualize shared concepts directly due to generative models included in our analysis. The Rosetta Neurons facilitate model-to-model translation enabling various inversion-based manipulations, including cross-class alignments, shifting, zooming, and more, without the need for specialized training.
翻訳日:2023-06-16 12:58:04 公開日:2023-06-15
# テキストから画像へのデータ帰属の評価

Evaluating Data Attribution for Text-to-Image Models ( http://arxiv.org/abs/2306.09345v1 )

ライセンス: Link先を確認
Sheng-Yu Wang, Alexei A. Efros, Jun-Yan Zhu, Richard Zhang(参考訳) 大きなテキスト・画像モデルでは「ノーベル」なイメージを合成できるが、これらの画像は必ずしもトレーニングデータのリフレクションである。 このようなモデルにおけるデータ帰属の問題 -- トレーニングセット内の画像のどれが、生成された画像の出現に最も責任を持つか -- は、難しいが重要な問題である。 この問題に対する最初のステップとして、既存の大規模モデルを所定の例題オブジェクトやスタイルに向けてチューニングする「カスタマイズ」メソッドによる帰属評価を行う。 私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。 このような画像の新たなデータセットを用いて、様々なデータ属性アルゴリズムと様々な可能な特徴空間を評価することができる。 さらに,データセット上でトレーニングすることで,dino, clip, vitなどの標準モデルを帰属問題に向けてチューニングすることができる。 手順は小さな例集合に向けて調整されるが、より大きい集合への一般化を示す。 最後に,問題の本質的不確実性を考慮することで,一連のトレーニング画像に対してソフト属性スコアを割り当てることができる。

While large text-to-image models are able to synthesize "novel" images, these images are necessarily a reflection of the training data. The problem of data attribution in such models -- which of the images in the training set are most responsible for the appearance of a given generated image -- is a difficult yet important one. As an initial step toward this problem, we evaluate attribution through "customization" methods, which tune an existing large-scale model toward a given exemplar object or style. Our key insight is that this allows us to efficiently create synthetic images that are computationally influenced by the exemplar by construction. With our new dataset of such exemplar-influenced images, we are able to evaluate various data attribution algorithms and different possible feature spaces. Furthermore, by training on our dataset, we can tune standard models, such as DINO, CLIP, and ViT, toward the attribution problem. Even though the procedure is tuned towards small exemplar sets, we show generalization to larger sets. Finally, by taking into account the inherent uncertainty of the problem, we can assign soft attribution scores over a set of training images.
翻訳日:2023-06-16 12:57:42 公開日:2023-06-15
# DreamSim: 合成データを用いた人間の視覚的類似性の新たな次元学習

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data ( http://arxiv.org/abs/2306.09344v1 )

ライセンス: Link先を確認
Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, Phillip Isola(参考訳) 現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作する。 これらのメトリクスは、低レベルの色とテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティックコンテンツの中間レベルの類似性と相違を捉えられていない。 本稿では,画像の全体的評価を行う知覚指標を開発する。 最初のステップは、さまざまな方法で画像ペアよりも人間の類似性判断の新しいデータセットを収集することです。 このデータセットにとって重要なのは、判断はほぼ自動であり、すべてのオブザーバーによって共有されることだ。 これを実現するために、最近のテキスト・ツー・イメージモデルを用いて、様々な次元に沿って摂動する合成ペアを作成する。 私たちは、一般的な知覚指標が新しいデータを説明することの欠如を観察し、人間の知覚に合致するように調整された新しいメトリクスdreamsimを紹介します。 我々は、我々のメトリクスが異なる視覚的属性によってどのように影響を受けるかを分析し、色やレイアウトに敏感でありながら、前景オブジェクトやセマンティックコンテンツに重点を置いていることを発見した。 特に,合成データに基づいて訓練されているにもかかわらず,実画像に一般化し,検索および復元作業において強い結果を与える。 さらに,これらの課題において,従来の学習指標と最近の大規模ビジョンモデルの両方よりも優れていた。

Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.
翻訳日:2023-06-16 12:57:23 公開日:2023-06-15
# SIGHT:高等教育資料から得られた学生の視点に関する注釈付きデータセット

SIGHT: A Large Annotated Dataset on Student Insights Gathered from Higher Education Transcripts ( http://arxiv.org/abs/2306.09343v1 )

ライセンス: Link先を確認
Rose E. Wang, Pawan Wirawarn, Noah Goodman, Dorottya Demszky(参考訳) 講義は学生と教師の双方にとって学習経験である。 生徒は教材について教師から学び、教師は教材を洗練する方法について生徒から学ぶ。 しかし、オンライン学生のフィードバックは構造化されておらず豊富であり、教師が学び、改善することは困難である。 私たちはこの課題に取り組むための一歩を踏み出します。 SIGHTは、マサチューセッツ工科大学 OpenCourseWare (MIT OCW) YouTubeチャンネルから収集された288の数学講義テキストと15,784のコメントからなる大規模なデータセットである。 第2に,定性解析を用いてフィードバックタイプを分類するルーブリックを開発する。 質的分析手法はドメイン固有の洞察を明らかにするのに強力ですが、大規模データソースに適用するにはコストがかかります。 この課題を克服するため,我々は大規模言語モデル(llm)を用いてコメントを大規模に分類するための一連のベストプラクティスを提案する。 一貫性のある人的アノテーション(>0.9$インターラター信頼性、IRR)を持つカテゴリは、より高い人的モデル合意(>0.7$)を示す一方、一貫性の低い人的アノテーション($0.7$-0.8$ IRR)を持つカテゴリは、低い人的モデル合意(0.3$-0.5$)を示す。 これらのテクニックは、何千ものコメントから有用な学生のフィードバックを導き出し、1コメントあたり0.002ドルの費用がかかる。 結論として,オンライン学生のフィードバックと質的研究のための自動アノテーション技術の改善について,今後の課題について考察した。

Lectures are a learning experience for both students and teachers. Students learn from teachers about the subject material, while teachers learn from students about how to refine their instruction. However, online student feedback is unstructured and abundant, making it challenging for teachers to learn and improve. We take a step towards tackling this challenge. First, we contribute a dataset for studying this problem: SIGHT is a large dataset of 288 math lecture transcripts and 15,784 comments collected from the Massachusetts Institute of Technology OpenCourseWare (MIT OCW) YouTube channel. Second, we develop a rubric for categorizing feedback types using qualitative analysis. Qualitative analysis methods are powerful in uncovering domain-specific insights, however they are costly to apply to large data sources. To overcome this challenge, we propose a set of best practices for using large language models (LLMs) to cheaply classify the comments at scale. We observe a striking correlation between the model's and humans' annotation: Categories with consistent human annotations (>$0.9$ inter-rater reliability, IRR) also display higher human-model agreement (>$0.7$), while categories with less consistent human annotations ($0.7$-$0.8$ IRR) correspondingly demonstrate lower human-model agreement ($0.3$-$0.5$). These techniques uncover useful student feedback from thousands of comments, costing around $\$0.002$ per comment. We conclude by discussing exciting future directions on using online student feedback and improving automated annotation techniques for qualitative research.
翻訳日:2023-06-16 12:57:01 公開日:2023-06-15
# pareprop: 高速並列化可逆バックプロパゲーション

PaReprop: Fast Parallelized Reversible Backpropagation ( http://arxiv.org/abs/2306.09342v1 )

ライセンス: Link先を確認
Tyler Zhu and Karttikeya Mangalam(参考訳) データセットとディープラーニングモデルの増大は、高速かつメモリ効率のトレーニングを重要視している。 リバーシブルトランスフォーマは、メモリ効率の高いトレーニングのためのエキサイティングな新しい方法として最近導入されたが、バックプロパゲーションフェーズでのアクティベーション再計算の計算オーバーヘッドが増す。 本研究では,並列化可能な逆プロパゲーションアルゴリズムparepropを提案する。このアルゴリズムは,逆プロパゲーションフェーズにおける勾配計算自体と可逆学習における追加の活性化再計算オーバーヘッドを並列化する。 提案手法は,モデルファミリ (vit, mvit, swin, roberta) ,データモダリティ (vision & nlp) ,モデルサイズ (smallから giant) およびバッチサイズのトレーニングを通じて,parepropアルゴリズムの有効性を示す。 実験の結果,PaRepropはバニラ可逆トレーニングよりも最大20%高いトレーニングスループットを達成でき,可逆トレーニングにおけるアクティベーション再計算から25%低いスループットの理論的オーバーヘッドを軽減できることがわかった。 プロジェクトページ: https://tylerzhu.com/pareprop.com

The growing size of datasets and deep learning models has made faster and memory-efficient training crucial. Reversible transformers have recently been introduced as an exciting new method for extremely memory-efficient training, but they come with an additional computation overhead of activation re-computation in the backpropagation phase. We present PaReprop, a fast Parallelized Reversible Backpropagation algorithm that parallelizes the additional activation re-computation overhead in reversible training with the gradient computation itself in backpropagation phase. We demonstrate the effectiveness of the proposed PaReprop algorithm through extensive benchmarking across model families (ViT, MViT, Swin and RoBERTa), data modalities (Vision & NLP), model sizes (from small to giant), and training batch sizes. Our empirical results show that PaReprop achieves up to 20% higher training throughput than vanilla reversible training, largely mitigating the theoretical overhead of 25% lower throughput from activation recomputation in reversible training. Project page: https://tylerzhu.com/pareprop.
翻訳日:2023-06-16 12:56:27 公開日:2023-06-15
# 人選好スコアv2:テキスト・画像合成の人選好評価のためのソリッドベンチマーク

Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis ( http://arxiv.org/abs/2306.09341v1 )

ライセンス: Link先を確認
Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 近年のテキスト画像生成モデルは,テキスト入力から高忠実度画像を生成することができるが,これらの画像の品質は既存の評価指標では正確に評価できない。 この問題に対処するために,多種多様なソースから画像に対して人間の好みをキャプチャする大規模データセットであるhuman preference dataset v2 (hpd v2) を導入する。 HPD v2は、430,060対のイメージに対して798,090人の好みの選択を含む。 テキストプロンプトとイメージは意図的に収集され、潜在的なバイアスを排除します。 hpd v2を微調整することで、より正確にテキスト生成画像の好みを予測できるスコアモデルであるhuman preference score v2(hps v2)を得る。 実験により,HPS v2は様々な画像分布にまたがる従来の指標よりも優れており,テキストから画像への生成モデルのアルゴリズム的改善に応答し,これらのモデルに好適な評価基準となることが示された。 また,テキストから画像への生成モデルに対する評価プロンプトの設計について検討し,評価を安定し,公平かつ使いやすいものにした。 最後に,近年の学術・コミュニティ・産業のテキスト・ツー・イメージモデルを含むhps v2を用いたテキスト・画像生成モデルのベンチマークを確立した。 コードとデータセットはhttps://github.com/tgxs002/HPSv2で入手できる。

Recent text-to-image generative models can generate high-fidelity images from text inputs, but the quality of these generated images cannot be accurately evaluated by existing evaluation metrics. To address this issue, we introduce Human Preference Dataset v2 (HPD v2), a large-scale dataset that captures human preferences on images from a wide range of sources. HPD v2 comprises 798,090 human preference choices on 430,060 pairs of images, making it the largest dataset of its kind. The text prompts and images are deliberately collected to eliminate potential bias, which is a common issue in previous datasets. By fine-tuning CLIP on HPD v2, we obtain Human Preference Score v2 (HPS v2), a scoring model that can more accurately predict text-generated images' human preferences. Our experiments demonstrate that HPS v2 generalizes better than previous metrics across various image distributions and is responsive to algorithmic improvements of text-to-image generative models, making it a preferable evaluation metric for these models. We also investigate the design of the evaluation prompts for text-to-image generative models, to make the evaluation stable, fair and easy-to-use. Finally, we establish a benchmark for text-to-image generative models using HPS v2, which includes a set of recent text-to-image models from the academia, community and industry. The code and dataset is / will be available at https://github.com/tgxs002/HPSv2.
翻訳日:2023-06-16 12:56:06 公開日:2023-06-15
# 有効でロバストなスキーマ誘導対話状態追跡のためのスパン選択線形注意トランス

Span-Selective Linear Attention Transformers for Effective and Robust Schema-Guided Dialogue State Tracking ( http://arxiv.org/abs/2306.09340v1 )

ライセンス: Link先を確認
Bj\"orn Bebensee, Haejun Lee(参考訳) スキーマ誘導対話状態追跡モデルでは、サービススキーマの自然言語記述を用いて会話の現在の状態を推定し、目に見えないサービスに一般化する。 スロット値を逐次デコードする以前の生成的アプローチは、スキーマのバリエーションに適さないが、識別的アプローチは、履歴とスキーマを別々にエンコードし、スロット間およびインテントスロット間の依存関係を考慮できない。 SPLATは,出力を限られた予測空間に制限することにより,従来の手法よりも一般化と効率の向上を実現する新しいアーキテクチャである。 同時に,線形時間的注意を取り入れることで計算コストの制約を保ちつつ,記述や履歴に強い注意を向けることができる。 本稿では,スキーマ誘導対話(sgd)とマルチウォズデータセットにおけるモデルの有効性を示す。 提案手法は,SGDデータセット上で85.3 JGAを達成する既存モデルを大幅に改善する。 さらに、SGD-Xベンチマークではロバスト性が向上し、我々のモデルは30$\times$より大きなD3ST-XXLモデルよりも5.0ポイント向上した。

In schema-guided dialogue state tracking models estimate the current state of a conversation using natural language descriptions of the service schema for generalization to unseen services. Prior generative approaches which decode slot values sequentially do not generalize well to variations in schema, while discriminative approaches separately encode history and schema and fail to account for inter-slot and intent-slot dependencies. We introduce SPLAT, a novel architecture which achieves better generalization and efficiency than prior approaches by constraining outputs to a limited prediction space. At the same time, our model allows for rich attention among descriptions and history while keeping computation costs constrained by incorporating linear-time attention. We demonstrate the effectiveness of our model on the Schema-Guided Dialogue (SGD) and MultiWOZ datasets. Our approach significantly improves upon existing models achieving 85.3 JGA on the SGD dataset. Further, we show increased robustness on the SGD-X benchmark: our model outperforms the more than 30$\times$ larger D3ST-XXL model by 5.0 points.
翻訳日:2023-06-16 12:55:34 公開日:2023-06-15
# 可変誤り補正量子ビットによるフルスタック量子コンピューティングの実現

Enabling Full-Stack Quantum Computing with Changeable Error-Corrected Qubits ( http://arxiv.org/abs/2305.07072v3 )

ライセンス: Link先を確認
Anbang Wu, Keyi Yin, Andrew W. Cross, Ang Li, Yufei Ding(参考訳) 量子エラー補正(QEC)による量子アプリケーションの実行は、イージン・ニウルの定理によって課されるゲート不等式問題に直面する。 1つのリソース時間効率のソリューションとして、コードスイッチングは論理キュービットのエンコーディングを変更し、普遍論理ゲートを実装する。 残念ながら、変更可能な論理量子ビットに基づいてフルスタックのフォールトトレラント量子コンピューティング(FTQC)を実行する方法はまだ不明である。 特に3つの重要な問題は未解決のままである。 a) 動的論理キュービットをハードウェアに実装する方法 b) 論理キュービットの変化の適切なタイミングを決定する方法 c) 異なる機能を持つプログラムのシステム全体のパフォーマンスを改善する方法。 これらの設計問題を克服するために,変更可能な論理量子ビットに基づくFTQCの大規模設計空間を探索するCECQを提案する。 様々な量子プログラムの実験は、CECQの有効性を示す。

Executing quantum applications with quantum error correction (QEC) faces the gate non-universality problem imposed by the Eastin-Knill theorem. As one resource-time-efficient solution, code switching changes the encoding of logical qubits to implement universal logical gates. Unfortunately, it is still unclear how to perform full-stack fault-tolerant quantum computing (FTQC) based on the changeable logical qubit. Specifically, three critical problems remain unsolved: a) how to implement the dynamic logical qubit on hardware; b) how to determine the appropriate timing for logical qubit varying; c) how to improve the overall system performance for programs of different features. To overcome those design problems, We propose CECQ, to explore the large design space for FTQC based on changeable logical qubits. Experiments on various quantum programs demonstrate the effectiveness of CECQ.
翻訳日:2023-06-16 11:09:00 公開日:2023-06-15
# Strokes2Surface:4Dアーキテクチャ設計から曲線ネットワークを復元

Strokes2Surface: Recovering Curve Networks From 4D Architectural Design Sketches ( http://arxiv.org/abs/2306.07220v2 )

ライセンス: Link先を確認
S. Rasoulzadeh, M. Wimmer, and I. Kovacic(参考訳) Strokes2Surfaceは、4D Sketching Interface(MR.Sketch)上に構築されたオフラインの幾何学的再構成パイプラインである。 パイプラインは設計者が描いたストロークから曲線ネットワークを復元し、設計における概念設計とデジタルモデリングの段階を橋渡しする。 パイプラインへの入力は、3dストロークのポリライン頂点と対応するタイムスタンプ(4次元現在)と、幾何学的およびスタイラスに関連した記録的特性からなる。 スケッチ統合とスケッチベースのモデリング手法にインスパイアされたパイプラインは、そのようなデータを活用し、3つの機械学習(ML)モデル、分類器と2つのクラスタリングモデルを組み合わせる。 特に,設計者が建築設計スケッチに典型的に採用する実践の観察に基づいて,ストロークが境界とエッジを描写しているか,あるいは意図する建築オブジェクトの囲い領域と顔を埋めるために使用されるかという二分分類問題を解く。 2つのクラスタリングモデルに続いて、各タイプのストロークはさらにグループにパースされ、それぞれが1つのエッジまたは1つの顔を表す。 次に、辺を表す群をb-スプライン曲線で近似し、次に、よく連結された曲線ネットワークを形成する曲線間の所望の連結性を同定し固定するトポロジー回復過程を行う。 次に、顔を表す群を用いて曲線ネットワークのパッチ境界の周期を検知し、アーキテクチャ対象の最終的な表面メッシュ形状を導出する。 本研究では,Strokes2Surfaceのユーザビリティをユーザスタディで検証し,代替手法を用いて計算したさまざまな再構成と比較する。 また、コミュニティでさらに使われるように、手動でラベル付けされた4Dアーキテクチャデザインスケッチのデータセットも導入します。

We present Strokes2Surface, an offline geometry-reconstruction pipeline built upon a 4D Sketching Interface, MR.Sketch, targeted at architectural design. The pipeline recovers a curve network from designer-drawn strokes, thus bridging between concept design and digital modeling stages in architectural design. The input to our pipeline consists of 3D strokes' polyline vertices and their corresponding timestamps (as of the fourth dimension), along with additional geometric and stylus-related recorded properties. Inspired by sketch consolidation and sketch-based modeling methods, our pipeline leverages such data and combines three Machine Learning (ML) models; a classifier and two clustering models. In particular, based on observations of practices designers typically employ in architectural design sketches, we solve a binary classification problem to recognize whether a stroke depicts a boundary and edge or is used to fill in the enclosing areas and faces of the intended architectural object. Followed by the two clustering models, strokes of each type are further parsed into groups, each representing either a single edge or a single face. Next, groups representing edges are approximated with B-spline curves, followed by a topology-recovering process identifying and fixing desired connectivities between the curves forming a well-connected curve network. Next, groups representing the faces are employed to detect the cycles bounding patches in the curve network, resulting in the final surface mesh geometry of the architectural object. We confirm the usability of Strokes2Surface via a user study and further validate and compare our results against a range of reconstructions computed using alternative methods. We also introduce our manually labeled dataset of 4D architectural design sketches for further use in the community.
翻訳日:2023-06-16 11:04:43 公開日:2023-06-15
# 局所適応時空間グラフニューラルネットワーク

Localised Adaptive Spatial-Temporal Graph Neural Network ( http://arxiv.org/abs/2306.06930v2 )

ライセンス: Link先を確認
Wenying Duan, Xiaoxi He, Zimu Zhou, Lothar Thiele, Hong Rao(参考訳) 空間時間グラフモデルは、空間的および時間的依存を抽象化しモデル化するために一般的である。 本研究では,空間-時間グラフモデルをローカライズできるかどうか,その程度について質問する。 我々は、現在最先端のモデルアーキテクチャである適応時空間グラフニューラルネットワーク(ASTGNN)に範囲を限定する。 局所化に対する我々のアプローチは、空間グラフ隣接行列のスパース化を伴う。 そこで我々は,ASTGNNの局所化を極端に(完全に)実現するグラフスカラー化アルゴリズムであるAdaptive Graph Sparsification (AGS)を提案する。 AGSを2つの異なるASTGNNアーキテクチャと9つの時空間データセットに適用する。 興味深いことに、ASTGNNの空間グラフは、テスト精度を低下させることなく99.5\%以上縮退することができる。 さらに、ASTGNNが完全にローカライズされ、グラフレスかつ純粋に一時的なものになっても、テスト済みデータセットの大半の精度は低下せず、残りのデータセットでわずかに精度が劣化しているだけである。 しかし、部分的にあるいは完全にローカライズされたASTGNNが再起動され、同じデータで再トレーニングされると、精度は大幅に低下する。 これらの観測に基づいて、 \textit{ (i)} テストデータでは、空間的依存によって提供される情報は、主に時間的依存によって提供される情報に含まれるため、推論のために本質的に無視することができる。 (ii) 空間依存は冗長な情報を提供するが, ASTGNNの効果的な訓練には不可欠であり, 訓練中は無視できない。 さらに、ASTGNNのローカライゼーションは、大規模な時空間データに必要とされる計算オーバーヘッドを低減し、ASTGNNの分散展開を可能にする可能性を秘めている。

Spatial-temporal graph models are prevailing for abstracting and modelling spatial and temporal dependencies. In this work, we ask the following question: whether and to what extent can we localise spatial-temporal graph models? We limit our scope to adaptive spatial-temporal graph neural networks (ASTGNNs), the state-of-the-art model architecture. Our approach to localisation involves sparsifying the spatial graph adjacency matrices. To this end, we propose Adaptive Graph Sparsification (AGS), a graph sparsification algorithm which successfully enables the localisation of ASTGNNs to an extreme extent (fully localisation). We apply AGS to two distinct ASTGNN architectures and nine spatial-temporal datasets. Intriguingly, we observe that spatial graphs in ASTGNNs can be sparsified by over 99.5\% without any decline in test accuracy. Furthermore, even when ASTGNNs are fully localised, becoming graph-less and purely temporal, we record no drop in accuracy for the majority of tested datasets, with only minor accuracy deterioration observed in the remaining datasets. However, when the partially or fully localised ASTGNNs are reinitialised and retrained on the same data, there is a considerable and consistent drop in accuracy. Based on these observations, we reckon that \textit{(i)} in the tested data, the information provided by the spatial dependencies is primarily included in the information provided by the temporal dependencies and, thus, can be essentially ignored for inference; and \textit{(ii)} although the spatial dependencies provide redundant information, it is vital for the effective training of ASTGNNs and thus cannot be ignored during training. Furthermore, the localisation of ASTGNNs holds the potential to reduce the heavy computation overhead required on large-scale spatial-temporal data and further enable the distributed deployment of ASTGNNs.
翻訳日:2023-06-16 11:03:58 公開日:2023-06-15
# 悪魔は細部にある:イベント抽出評価の落とし穴について

The Devil is in the Details: On the Pitfalls of Event Extraction Evaluation ( http://arxiv.org/abs/2306.06918v2 )

ライセンス: Link先を確認
Hao Peng, Xiaozhi Wang, Feng Yao, Kaisheng Zeng, Lei Hou, Juanzi Li, Zhiyuan Liu, Weixing Shen(参考訳) イベント抽出(EE)は、イベント検出(ED)とイベント引数抽出(EAE)という2つのサブタスクを含む、テキストからイベントを抽出するための重要なタスクである。 本稿では,ee評価の信頼性を確認し,(1)データプリプロセッシングの不一致により,同一データセット上での評価結果が直接的に比較されないが,データのプリプロセッシングの詳細は論文に広く記されていない,という3つの大きな落とし穴を特定した。 2) 異なるモデルパラダイムの出力空間の相違は、異なるパラダイムEEモデルに比較の根拠がなく、また予測とアノテーションの間の不明確なマッピング問題を引き起こす。 (3) 多くのEAEのみの作業に対するパイプライン評価の欠如は、EE作業と直接比較することが難しく、実際のパイプラインシナリオにおけるモデルパフォーマンスを十分に反映していない可能性がある。 本稿では,最近の論文の包括的メタアナリシスと実験実験を通じて,これらの落とし穴の影響を実証する。 これらの落とし穴を避けるために、データのプリプロセッシング、アウトプットの標準化、パイプライン評価結果の提供を含む一連の修正を提案する。 これらの改善を実現するために, https://github.com/THU-KEG/OmniEventから得られる一貫した評価フレームワークOMNIEVENTを開発した。

Event extraction (EE) is a crucial task aiming at extracting events from texts, which includes two subtasks: event detection (ED) and event argument extraction (EAE). In this paper, we check the reliability of EE evaluations and identify three major pitfalls: (1) The data preprocessing discrepancy makes the evaluation results on the same dataset not directly comparable, but the data preprocessing details are not widely noted and specified in papers. (2) The output space discrepancy of different model paradigms makes different-paradigm EE models lack grounds for comparison and also leads to unclear mapping issues between predictions and annotations. (3) The absence of pipeline evaluation of many EAE-only works makes them hard to be directly compared with EE works and may not well reflect the model performance in real-world pipeline scenarios. We demonstrate the significant influence of these pitfalls through comprehensive meta-analyses of recent papers and empirical experiments. To avoid these pitfalls, we suggest a series of remedies, including specifying data preprocessing, standardizing outputs, and providing pipeline evaluation results. To help implement these remedies, we develop a consistent evaluation framework OMNIEVENT, which can be obtained from https://github.com/THU-KEG/OmniEvent.
翻訳日:2023-06-16 11:03:10 公開日:2023-06-15
# エージェント分析によるロボットタスク学習のためのLLMからの知識抽出の改善

Improving Knowledge Extraction from LLMs for Robotic Task Learning through Agent Analysis ( http://arxiv.org/abs/2306.06770v2 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, Peter Lindes(参考訳) 大規模言語モデル(LLM)は、ロボットタスク学習の知識源として、大きな約束を提供する。 プロンプトエンジニアリングはllmから知識を引き出すのに有効であることが示されているが、新しいタスクを学習する具体化ロボットエージェントにとって、関連する、状況に応じた知識を得るには不十分である。 本稿では,ロボットがネイティブ言語能力,具体化,環境,ユーザの嗜好にマッチする新しいタスク知識を身につけることを可能にする,プロンプトエンジニアリングを拡張・補完する認知エージェントアプローチについて述べる。 アプローチは,LSMの応答空間を拡大し,自律ロボット内に埋め込まれた一般的な戦略を展開し,LSMが生成する候補の応答を評価し,修復し,選択することである。 本稿では,ロボットが,llmからの応答の多さを検索し,評価することで,一発学習で75%以上のタスク完了を達成できることを示すアプローチと実験について述べる。 このアプローチは、人間の監視(好みの表示など)が提供されるときに100%のタスク完了を達成すると同時に、人間の監視がどれだけ必要かを大幅に削減する。

Large language models (LLMs) offer significant promise as a knowledge source for robotic task learning. Prompt engineering has been shown to be effective for eliciting knowledge from an LLM but alone is insufficient for acquiring relevant, situationally grounded knowledge for an embodied robotic agent learning novel tasks. We describe a cognitive-agent approach that extends and complements prompt engineering, mitigating its limitations, and thus enabling a robot to acquire new task knowledge matched to its native language capabilities, embodiment, environment, and user preferences. The approach is to increase the response space of LLMs and deploy general strategies, embedded within the autonomous robot, to evaluate, repair, and select among candidate responses produced by the LLM. We describe the approach and experiments that show how a robot, by retrieving and evaluating a breadth of responses from the LLM, can achieve >75% task completion in one-shot learning without user oversight. The approach achieves 100% task completion when human oversight (such as indication of preference) is provided, while greatly reducing how much human oversight is needed.
翻訳日:2023-06-16 11:02:18 公開日:2023-06-15
# 近似制約最適化のための自己教師付きEquality Embedded Deep Lagrange Dual

Self-supervised Equality Embedded Deep Lagrange Dual for Approximate Constrained Optimization ( http://arxiv.org/abs/2306.06674v2 )

ライセンス: Link先を確認
Minsoo Kim, Hongseok Kim(参考訳) 従来の解法はしばしば、特に大規模かつ時間クリティカルな問題において、制約付き最適化のために計算コストがかかる。 これにより、ニューラルネットワーク(NN)を高速な最適解近似器として使用することへの関心が高まっているが、NNに制約を組み込むことは難しい。 そこで本研究では,ラベルを使わずに最適解を見つけることを学ぶフレームワークdeep lagrange dual with equal embedded (deeplde)を提案する。 実現可能なソリューションを確保するため、NNに等価性制約を組み込み、未等式制約を課すために原始双対法を用いてNNを訓練する。 さらに,DeepLDEの収束性を証明し,本手法だけでは等式埋め込みの助けなしには等式制約を保証できないことを示す。 コンベックス,非凸,AC最適電力流(AC-OPF)問題に関するシミュレーション結果から,提案したDeepLDEはNNベースの全アプローチの中で最小の最適性ギャップを達成でき,かつ常に実現可能な解を確保できることを示す。 さらに,制約付き凸,非凸最適化,ac-opfの解法において,提案手法の計算時間はdc3および従来の解法に比べて約5~250倍高速である。

Conventional solvers are often computationally expensive for constrained optimization, particularly in large-scale and time-critical problems. While this leads to a growing interest in using neural networks (NNs) as fast optimal solution approximators, incorporating the constraints with NNs is challenging. In this regard, we propose deep Lagrange dual with equality embedding (DeepLDE), a framework that learns to find an optimal solution without using labels. To ensure feasible solutions, we embed equality constraints into the NNs and train the NNs using the primal-dual method to impose inequality constraints. Furthermore, we prove the convergence of DeepLDE and show that the primal-dual learning method alone cannot ensure equality constraints without the help of equality embedding. Simulation results on convex, non-convex, and AC optimal power flow (AC-OPF) problems show that the proposed DeepLDE achieves the smallest optimality gap among all the NN-based approaches while always ensuring feasible solutions. Furthermore, the computation time of the proposed method is about 5 to 250 times faster than DC3 and the conventional solvers in solving constrained convex, non-convex optimization, and/or AC-OPF.
翻訳日:2023-06-16 11:01:31 公開日:2023-06-15
# インストラクテヴァール:大規模言語モデルの体系的評価に向けて

INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2306.04757v3 )

ライセンス: Link先を確認
Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria(参考訳) インストラクションをチューニングした大規模言語モデルは自然言語処理に革命をもたらし、会話エージェントのような応用に大きな可能性を示している。 GPT-4のようなこれらのモデルは、言語を習得するだけでなく、数学、コーディング、医学、法学といった分野で複雑なタスクを解くことができる。 その印象的な能力にもかかわらず、多くのモデルのブラックボックスの性質と全体的評価研究の欠如により、その潜在能力に関する包括的な理解がまだ残っていない。 このような課題に対処するため,我々は,命令調整型大規模言語モデル用に特別に設計された,より包括的な評価スイートinstructevalを提案する。 従来の研究とは異なり、我々の評価は、問題解決、筆記能力、人的価値への適応に基づくモデルの厳密な評価を含む。 我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。 その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。 オープンソースモデルは印象的な書き込み能力を示しているが、問題解決とアライメントの改善の余地は十分にある。 オープンソースコミュニティによるモデルの開発は急速に進んでいるが、これらのモデルに関する主張をサポートするための厳格な評価の必要性も強調している。 InSTRUCTEVAL を通じて,インストラクションチューニングモデルとそれらの能力向上のより深い理解を促進することを目的としている。 INSTRUCTEVALはhttps://github.com/declare-lab/instruct-eval.comで公開されている。

Instruction-tuned large language models have revolutionized natural language processing and have shown great potential in applications such as conversational agents. These models, such as GPT-4, can not only master language but also solve complex tasks in areas like mathematics, coding, medicine, and law. Despite their impressive capabilities, there is still a lack of comprehensive understanding regarding their full potential, primarily due to the black-box nature of many models and the absence of holistic evaluation studies. To address these challenges, we present INSTRUCTEVAL, a more comprehensive evaluation suite designed specifically for instruction-tuned large language models. Unlike previous works, our evaluation involves a rigorous assessment of models based on problem-solving, writing ability, and alignment to human values. We take a holistic approach to analyze various factors affecting model performance, including the pretraining foundation, instruction-tuning data, and training methods. Our findings reveal that the quality of instruction data is the most crucial factor in scaling model performance. While open-source models demonstrate impressive writing abilities, there is substantial room for improvement in problem-solving and alignment. We are encouraged by the rapid development of models by the open-source community, but we also highlight the need for rigorous evaluation to support claims made about these models. Through INSTRUCTEVAL, we aim to foster a deeper understanding of instruction-tuned models and advancements in their capabilities. INSTRUCTEVAL is publicly available at https://github.com/declare-lab/instruct-eval.
翻訳日:2023-06-16 11:01:09 公開日:2023-06-15
# 弱め補正された接地画像キャプションのためのトップダウンビューイング

Top-Down Viewing for Weakly Supervised Grounded Image Captioning ( http://arxiv.org/abs/2306.07490v2 )

ライセンス: Link先を確認
Chen Cai, Suchen Wang, Kim-hui Yap(参考訳) 弱教師付き接地画像キャプション (WSGIC) は, 境界ボックスの監督を使わずに, 入力画像中の字幕と接地予測対象語を生成することを目的としている。 最近の2段階のソリューションはボトムアップパイプラインを主に適用している。(1)まず、入力画像を複数の領域にエンコードするためにオフザシェルフオブジェクト検出器を適用し、(2)キャプションとグラウンドニングにソフトアテンション機構を活用する。 しかし、オブジェクト検出器は主にオブジェクトのセマンティクス(すなわちオブジェクトのカテゴリ)を抽出するように設計されている。 さらに、構造イメージを個々の提案の断片に分解する。 その結果、後続の接地キャプタは、オブジェクト間の関係(例えば、その人が何をしているのか)を見落とし、接地のための互換性のない提案領域を選択する一方で、正しい対象語を見つけるために過度に適合することが多い。 これらの課題に対処するため,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド化を行う一段弱教師付き接地キャプタを提案する。 さらに,関係モジュールを1段階のフレームワークに明示的に注入し,多ラベル分類による関係理解を促進する。 関係セマンティクスは、キャプション内の関係語の予測を支援する。 より正確なキャプションを生成する際に,関係語が接地キャプタを支援するだけでなく,接地性能も向上する。 提案手法の有効性を2つの挑戦的データセット(Flick30k EntitiesキャプションとMSCOCOキャプション)で検証した。 実験により,本手法が最先端の接地性能を実現することを示す。

Weakly supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions mostly apply a bottom-up pipeline: (1) first apply an off-the-shelf object detector to encode the input image into multiple region features; (2) and then leverage a soft-attention mechanism for captioning and grounding. However, object detectors are mainly designed to extract object semantics (i.e., the object category). Besides, they break down the structural images into pieces of individual proposals. As a result, the subsequent grounded captioner is often overfitted to find the correct object words, while overlooking the relation between objects (e.g., what is the person doing?), and selecting incompatible proposal regions for grounding. To address these difficulties, we propose a one-stage weakly supervised grounded captioner that directly takes the RGB image as input to perform captioning and grounding at the top-down image level. In addition, we explicitly inject a relation module into our one-stage framework to encourage the relation understanding through multi-label classification. The relation semantics aid the prediction of relation words in the caption. We observe that the relation words not only assist the grounded captioner in generating a more accurate caption but also improve the grounding performance. We validate the effectiveness of our proposed method on two challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The experimental results demonstrate that our method achieves state-of-the-art grounding performance.
翻訳日:2023-06-16 10:52:43 公開日:2023-06-15
# Compositor: ロバスト部分とオブジェクトセグメンテーションのためのボトムアップクラスタリングとコンポジション

Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation ( http://arxiv.org/abs/2306.07404v2 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Ming-Xian Lin, Qihang Yu, Alan Yuille(参考訳) 本稿では,ジョイント部分とオブジェクトセグメンテーションに対するロバストなアプローチを提案する。 具体的には,オブジェクトと部分のセグメンテーションを最適化問題として再構成し,画素,部分,オブジェクトレベルの埋め込みを含む階層的特徴表現を構築し,ボトムアップクラスタリングによって解決する。 ピクセルは複数のクラスタにグループ化され、部分レベルの埋め込みがクラスタセンターとして機能する。 その後、部品提案を合成してオブジェクトマスクを得る。 このボトムアップ相互作用は、より低いセマンティックレベルからより高いセマンティックレベルへの情報の統合に有効であることが示されている。 これに基づいて,提案手法は,マスク品質を向上しつつ,部品とオブジェクトのセグメンテーションマスクを同時に生成する。 コンストラクタは、PartImageNetとPascal-Partの最先端性能を、PartImageNetで約0.9%、PartImageNetで約1.3%、Pascal-Partで約0.4%、オブジェクトmIoUで約1.7%向上し、オクルージョンに対してそれぞれ約4.4%、オブジェクトで約7.1%向上している。 コードはhttps://github.com/TACJu/Compositor.comから入手できる。

In this work, we present a robust approach for joint part and object segmentation. Specifically, we reformulate object and part segmentation as an optimization problem and build a hierarchical feature representation including pixel, part, and object-level embeddings to solve it in a bottom-up clustering manner. Pixels are grouped into several clusters where the part-level embeddings serve as cluster centers. Afterwards, object masks are obtained by compositing the part proposals. This bottom-up interaction is shown to be effective in integrating information from lower semantic levels to higher semantic levels. Based on that, our novel approach Compositor produces part and object segmentation masks simultaneously while improving the mask quality. Compositor achieves state-of-the-art performance on PartImageNet and Pascal-Part by outperforming previous methods by around 0.9% and 1.3% on PartImageNet, 0.4% and 1.7% on Pascal-Part in terms of part and object mIoU and demonstrates better robustness against occlusion by around 4.4% and 7.1% on part and object respectively. Code will be available at https://github.com/TACJu/Compositor.
翻訳日:2023-06-16 10:50:42 公開日:2023-06-15
# アルゴリズム的公平の7年間の未処理

Unprocessing Seven Years of Algorithmic Fairness ( http://arxiv.org/abs/2306.07261v2 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Moritz Hardt(参考訳) 7年前、研究者は異なる集団間でモデルのエラー率を均等化するポストプロセッシング法を提案した。 作業は後処理のベースラインを改善するために数百の論文を発行した。 いくつかの表付きデータセット上で数千のモデル評価を行うことで,これらの主張を実証的に評価する。 ポストプロセッシングによって達成されたフェアネス精度のParetoフロンティアには、評価可能な他の方法がすべて含まれています。 そこで我々は,これまでの観測結果と合致した方法論的誤りを2つ解決した。 1つは、異なる制約のないベースモデルとのメソッドの比較に関するものである。 他の関心事は、異なるレベルの制約緩和を達成する方法である。 私たちの研究の中心は、ポストプロセッシングの逆に対応するアンプロセッシング(unprocessing)と呼ばれる単純なアイデアです。 アンプロセッシングにより、異なるモデルと緩和レベルを使用するメソッドを直接比較することができる。 現在7年前、我々の観測結果を正確に予測した理論的な議論が、広く見過ごされている。

Seven years ago, researchers proposed a postprocessing method to equalize the error rates of a model across different demographic groups. The work launched hundreds of papers purporting to improve over the postprocessing baseline. We empirically evaluate these claims through thousands of model evaluations on several tabular datasets. We find that the fairness-accuracy Pareto frontier achieved by postprocessing contains all other methods we were feasibly able to evaluate. In doing so, we address two common methodological errors that have confounded previous observations. One relates to the comparison of methods with different unconstrained base models. The other concerns methods achieving different levels of constraint relaxation. At the heart of our study is a simple idea we call unprocessing that roughly corresponds to the inverse of postprocessing. Unprocessing allows for a direct comparison of methods using different underlying models and levels of relaxation. Interpreting our findings, we recall a widely overlooked theoretical argument, present seven years ago, that accurately predicted what we observe.
翻訳日:2023-06-16 10:49:50 公開日:2023-06-15
# 量子ビット準備・測定シナリオにおける半対称情報完全測定の自己テスト

Self-testing of semisymmetric informationally complete measurements in a qubit prepare-and-measure scenario ( http://arxiv.org/abs/2306.07248v2 )

ライセンス: Link先を確認
G\'abor Dr\'otos, K\'aroly F. P\'al, Tam\'as V\'ertesi(参考訳) 自己テストは量子システムを検証する強力な方法である。 当初はデバイス非依存(DI)設定で提案されていたが、その後半デバイス非依存(セミDI)設定に緩和された。 本研究では,セミディ準備・測定 (pm) のシナリオを用いて, 1 パラメータ族に属する特定の非射影量子ビット測定の自己テストに焦点をあてる。 興味深いことに,これまでに発見された最も単純なPMシナリオは,4つの準備と4つの測定のみを含む。 この測定は 4-アウトカムな非射影作用素値測度(POVM)であり、Gengらによって導入された半対称情報完備(半SIC)POVMのクラスに該当する。 [Phys. Rev. Lett. 126, 100401 (2021)] そこで我々は,PMシナリオにおけるセミDI自己検査の分析手法を開発した。 我々の結果は、潜在的に最小限の PM シナリオ内で超極小の qubit POVM を自己テストする方法を開拓する。

Self-testing is a powerful method for certifying quantum systems. Initially proposed in the device-independent (DI) setting, self-testing has since been relaxed to the semi-device-independent (semi-DI) setting. In this study, we focus on the self-testing of a specific type of non-projective qubit measurements belonging to a one-parameter family, using the semi-DI prepare-and-measure (PM) scenario. Remarkably, we identify the simplest PM scenario discovered so far, involving only four preparations and four measurements, for self-testing the fourth measurement. This particular measurement is a four-outcome non-projective positive operator-valued measure (POVM) and falls in the class of semisymmetric informationally complete (semi-SIC) POVMs introduced by Geng et al. [Phys. Rev. Lett. 126, 100401 (2021)]. To achieve this, we develop analytical techniques for semi-DI self-testing in the PM scenario. Our results shall pave the way towards self-testing any extremal qubit POVM within a potentially minimal PM scenario.
翻訳日:2023-06-16 10:49:37 公開日:2023-06-15
# 対称テンソル分解問題の対称性と臨界点

Symmetry & Critical Points for Symmetric Tensor Decomposition Problems ( http://arxiv.org/abs/2306.07886v2 )

ライセンス: Link先を確認
Yossi Arjevani, Gal Vinograd(参考訳) 実対称テンソルの階数 1 項の和への分解に伴う非凸最適化問題を考える。 臨界点の族のプイズ級数表現を導出するために、豊富な対称性構造から作られ、臨界値とヘッセンスペクトルの正確な解析的推定を得る。 シャープな結果は、局所最適化法に対する様々な幾何学的障害物の解析的評価を可能にし、特に、その対称性、構造、解析的性質によって異なる、複雑なサドルと局所ミニマの配列を明らかにする。 考慮された全ての臨界点に対して生じる望ましい現象は、点の指数、すなわち、目的関数の値とともに増加する負のヘッセン固有値の数に関するものである。 最後に、ニュートン・ポリトープの議論は、固定対称性のすべての臨界点の完全な列挙を与えるために使われ、逆にテンソルノルムの異なる選択の下で不変である大域的ミニマの集合に対して、非大域的ミニマの特定の族が出現し、他は消滅する。

We consider the non-convex optimization problem associated with the decomposition of a real symmetric tensor into a sum of rank one terms. Use is made of the rich symmetry structure to derive Puiseux series representations of families of critical points, and so obtain precise analytic estimates on the critical values and the Hessian spectrum. The sharp results make possible an analytic characterization of various geometric obstructions to local optimization methods, revealing in particular a complex array of saddles and local minima which differ by their symmetry, structure and analytic properties. A desirable phenomenon, occurring for all critical points considered, concerns the index of a point, i.e., the number of negative Hessian eigenvalues, increasing with the value of the objective function. Lastly, a Newton polytope argument is used to give a complete enumeration of all critical points of fixed symmetry, and it is shown that contrarily to the set of global minima which remains invariant under different choices of tensor norms, certain families of non-global minima emerge, others disappear.
翻訳日:2023-06-16 10:43:07 公開日:2023-06-15
# LMD:ライダー点雲における物体検出のための軽量予測品質推定

LMD: Light-weight Prediction Quality Estimation for Object Detection in Lidar Point Clouds ( http://arxiv.org/abs/2306.07835v2 )

ライセンス: Link先を確認
Tobias Riedlinger, Marius Schubert, Sarina Penquitt, Jan-Marcel Kezmann, Pascal Colling, Karsten Kahl, Lutz Roese-Koerner, Michael Arnold, Urs Zimmermann, Matthias Rottmann(参考訳) Lidarポイントクラウドデータのオブジェクト検出は、自律運転とロボット工学にとって有望な技術であり、近年、パフォーマンスと精度が著しく上昇している。 特に不確実性推定は下流タスクにとって重要な要素であり、深いニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。 従来提案した予測不確実性の定量化手法は,検出者のトレーニングスキームを変更したり,推測時間を大幅に増加させる予測サンプリングに依存する傾向にあった。 これら2つの問題に対処するため,予測品質推定のための軽量後処理方式LidarMetaDetect (LMD)を提案する。 提案手法は,任意のトレーニング済みLidarオブジェクト検出器に,ベースモデルについて何も変更することなく容易に追加可能であり,処理後処理に基づいているため,計算オーバーヘッドは無視できない。 本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。 本手法はアノテーションエラーの検出に繋がる追加の応用について提案・評価を行う。 明示的なサンプルと保守的なアノテーションエラーのカウントは、kittiやnuscenesのような大規模データセットに対するメソッドの実行可能性を示している。 広く使われているnuScenesテストデータセットでは,提案手法のトップ100のうち43が誤アノテーションを示している。

Object detection on Lidar point cloud data is a promising technology for autonomous driving and robotics which has seen a significant rise in performance and accuracy during recent years. Particularly uncertainty estimation is a crucial component for down-stream tasks and deep neural networks remain error-prone even for predictions with high confidence. Previously proposed methods for quantifying prediction uncertainty tend to alter the training scheme of the detector or rely on prediction sampling which results in vastly increased inference time. In order to address these two issues, we propose LidarMetaDetect (LMD), a light-weight post-processing scheme for prediction quality estimation. Our method can easily be added to any pre-trained Lidar object detector without altering anything about the base model and is purely based on post-processing, therefore, only leading to a negligible computational overhead. Our experiments show a significant increase of statistical reliability in separating true from false predictions. We propose and evaluate an additional application of our method leading to the detection of annotation errors. Explicit samples and a conservative count of annotation error proposals indicates the viability of our method for large-scale datasets like KITTI and nuScenes. On the widely-used nuScenes test dataset, 43 out of the top 100 proposals of our method indicate, in fact, erroneous annotations.
翻訳日:2023-06-16 10:42:20 公開日:2023-06-15
# 分子生成のための双曲グラフ拡散モデル

Hyperbolic Graph Diffusion Model for Molecule Generation ( http://arxiv.org/abs/2306.07618v2 )

ライセンス: Link先を確認
Lingfeng Wen, Xian Wei(参考訳) 近年、拡散モデルは、例えば高品質な画像を生成するなど、データ生成において顕著な性能を達成している。 それでも化学分子は複雑な非ユークリッド空間構造を持ち、振る舞いは動的かつ予測不能に変化する。 既存の拡散モデルの多くは、分子の内部非ユークリッド構造、特に分子によって表される暗黙の多様体面の階層構造を捉えることができないユークリッド空間における確率分布、すなわちガウス分布の計算に大きく依存している。 双曲埋め込み空間の複雑な階層構造がより顕著になり、より容易に捕獲できることが観察されている。 拡散モデルのデータ生成力と、双曲埋め込みの複雑な幾何学的特徴を抽出する強力な能力の両方を活用するために、拡散モデルを分子生成のための双曲多様体、すなわち双曲グラフ拡散モデル(HGDM)に拡張することを提案する。 提案したHGDMは,双曲型変分オートエンコーダを用いてノードの双曲型隠れ表現を生成し,スコアベースの双曲型グラフニューラルネットワークを用いて双曲空間の分布を学習する。 数値実験により,提案したHGDMは,最先端手法と比較して,複数の分子データセット上で高い性能を示すことが示された。

Recently, diffusion models have achieved remarkable performance in data generation, e.g., generating high-quality images. Nevertheless, chemistry molecules often have complex non-Euclidean spatial structures, with the behavior changing dynamically and unpredictably. Most existing diffusion models highly rely on computing the probability distribution, i.e., Gaussian distribution, in Euclidean space, which cannot capture internal non-Euclidean structures of molecules, especially the hierarchical structures of the implicit manifold surface represented by molecules. It has been observed that the complex hierarchical structures in hyperbolic embedding space become more prominent and easier to be captured. In order to leverage both the data generation power of diffusion models and the strong capability to extract complex geometric features of hyperbolic embedding, we propose to extend the diffusion model to hyperbolic manifolds for molecule generation, namely, Hyperbolic Graph Diffusion Model (HGDM). The proposed HGDM employs a hyperbolic variational autoencoder to generate the hyperbolic hidden representation of nodes and then a score-based hyperbolic graph neural network is used to learn the distribution in hyperbolic space. Numerical experimental results show that the proposed HGDM achieves higher performance on several molecular datasets, compared with state-of-the-art methods.
翻訳日:2023-06-16 10:41:19 公開日:2023-06-15