このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231001となっている論文です。

PDF登録状況(公開日: 20231001)

TitleAuthorsAbstract論文公表日・翻訳日
# 侵入検知システムにおける機械学習アルゴリズムの性能評価

Performance evaluation of Machine learning algorithms for Intrusion Detection System ( http://arxiv.org/abs/2310.00594v1 )

ライセンス: Link先を確認
Sudhanshu Sekhar Tripathy, Bichitrananda Behera, (参考訳) デジタルネットワークの安全性とハイジャックに対するハザードのエスカレーションは、現在、対処しなければならない最も危険な問題の一つである。 ネットワークのインフラストラクチャ上での不正な活動を追跡し、認識するために、多数の安全手順が設定された。 IDSは、インターネット接続やデジタル技術に対する侵入に抵抗し、認識するための最良の方法です。 ネットワークトラフィックを正常または異常に分類するために、機械学習(ML)分類器がますます活用されている。 機械学習によるIDSは、セキュリティ攻撃を検出する精度を高める。 本稿では,ML手法を用いた侵入検知システム(IDS)の解析に焦点をあてる。 ML技術を利用したIDSは、ネットワーク攻撃を特定するのに効率的かつ正確である。 しかし、大きな次元空間を持つデータでは、これらのシステムの有効性は低下する。 それに応じて、分類過程にほとんど影響を与えない特徴を除去できる、実現可能な特徴除去技術を実行することが不可欠である。 本稿では,MLモデルのトレーニングと検証に使用されるKDD CUP-'99'侵入検出データセットを解析する。 次に,ロジスティック回帰,決定木,K-Nearest Neighbour,Naive Bayes,Bernolli Naive Bayes,Multinomial Naive Bayes,XG-Boost Classifier,Ada-Boost,Random Forest,SVM,Rocchio Classifier,ridge,Pressive-Aggressive Classifier,ANN Beyond Perceptron (PPN) などのML分類器を実装し,確率的勾配および逆プロパゲーションニューラルネットワーク(IDS),"精度,精度,リコール,f1- measure"などの従来の分類指標を用いて,機械学習アルゴリズムの性能評価を行った。

The escalation of hazards to safety and hijacking of digital networks are among the strongest perilous difficulties that must be addressed in the present day. Numerous safety procedures were set up to track and recognize any illicit activity on the network's infrastructure. IDS are the best way to resist and recognize intrusions on internet connections and digital technologies. To classify network traffic as normal or anomalous, Machine Learning (ML) classifiers are increasingly utilized. An IDS with machine learning increases the accuracy with which security attacks are detected. This paper focuses on intrusion detection systems (IDSs) analysis using ML techniques. IDSs utilizing ML techniques are efficient and precise at identifying network assaults. In data with large dimensional spaces, however, the efficacy of these systems degrades. correspondingly, the case is essential to execute a feasible feature removal technique capable of getting rid of characteristics that have little effect on the classification process. In this paper, we analyze the KDD CUP-'99' intrusion detection dataset used for training and validating ML models. Then, we implement ML classifiers such as Logistic Regression, Decision Tree, K-Nearest Neighbour, Naive Bayes, Bernoulli Naive Bayes, Multinomial Naive Bayes, XG-Boost Classifier, Ada-Boost, Random Forest, SVM, Rocchio classifier, Ridge, Passive-Aggressive classifier, ANN besides Perceptron (PPN), the optimal classifiers are determined by comparing the results of Stochastic Gradient Descent and back-propagation neural networks for IDS, Conventional categorization indicators, such as "accuracy, precision, recall, and the f1-measure, have been used to evaluate the performance of the ML classification algorithms.
翻訳日:2024-03-19 03:31:41 公開日:2023-10-01
# ストリームライニングアタックツリー生成:フラグメントに基づくアプローチ

Streamlining Attack Tree Generation: A Fragment-Based Approach ( http://arxiv.org/abs/2310.00654v1 )

ライセンス: Link先を確認
Irdin Pekaric, Markus Frick, Jubril Gbolahan Adigun, Raffaela Groner, Thomas Witte, Alexander Raschke, Michael Felderer, Matthias Tichy, (参考訳) アタックグラフは、システムに対する異なる将来的な攻撃をキャプチャするセキュリティ脆弱性を分析するツールである。 脅威モデリングツールとして、攻撃者が特定の目標を達成するために活用できる可能性のあるパスを示す。 しかし、毎日発行される多数の脆弱性のため、彼らは急速に規模を拡大する可能性がある。 その結果、攻撃グラフを生成するのにかなりの量のリソースが必要になる。 さらに、自己適応やAIといった複雑なシステムに対する複合攻撃モデルの生成は、その性質が継続的に変化するため、非常に困難である。 本稿では,公開情報セキュリティデータベースの情報を活用した,フラグメントベースのアタックグラフ生成手法を提案する。 また,攻撃グラフ生成手法として,攻撃モデリングのためのドメイン固有言語を提案する。 最後に、以前にセキュリティ専門家が確認したように、攻撃発生器が検証された攻撃チェーンを複製する能力を示すデモレータの例を示す。

Attack graphs are a tool for analyzing security vulnerabilities that capture different and prospective attacks on a system. As a threat modeling tool, it shows possible paths that an attacker can exploit to achieve a particular goal. However, due to the large number of vulnerabilities that are published on a daily basis, they have the potential to rapidly expand in size. Consequently, this necessitates a significant amount of resources to generate attack graphs. In addition, generating composited attack models for complex systems such as self-adaptive or AI is very difficult due to their nature to continuously change. In this paper, we present a novel fragment-based attack graph generation approach that utilizes information from publicly available information security databases. Furthermore, we also propose a domain-specific language for attack modeling, which we employ in the proposed attack graph generation approach. Finally, we present a demonstrator example showcasing the attack generator's capability to replicate a verified attack chain, as previously confirmed by security experts.
翻訳日:2024-03-19 03:31:41 公開日:2023-10-01
# 市民を標的とした戦術・技術・手続き(TTP)の批判的分析と対策 : ペガサスを事例として

Critical Analysis and Countermeasures Tactics, Techniques and Procedures (TTPs) that targeting civilians: A case study On Pegasus ( http://arxiv.org/abs/2310.00769v1 )

ライセンス: Link先を確認
Osama Hussien, Usman Butt, Rejwan Bin Sulaiman, (参考訳) 個人、企業、政府はすべて、高度なサイバー攻撃の台頭により、さらなる困難に直面している。 本稿では,ペガサスウイルスによるジャーナリストや活動家の標的について検討する。 本研究は,サイバー犯罪者が活用する戦術と,そのスコープを促進する脆弱性についてより深く理解するために,多数の発生事例を考察し,採用戦略,方法,実践の繰り返しパターンを同定する。 本稿では、サイバーセキュリティ政策に対するこれらの攻撃の長期的影響を包括的に分析し、脅威情報共有機構の強化の必要性、よりレジリエントなインシデント対応プロトコルの実装、サイバーセキュリティ研究・開発イニシアチブの進展に向けたより大きな資金資源の配分等を包括的に分析する。 この研究はまた、ペガサスがSCADAシステムや重要なインフラにどう影響するかについても論じており、企業がサイバー攻撃の危険性を減らし、21世紀の拡大する脅威から身を守るために使う最も重要な戦術について説明している。 Pegasusのスパイウェアは、iOSとAndroidが動いているモバイルデバイス上のさまざまなデータやコミュニケーションにアクセスでき、世界中のジャーナリスト、活動家、政治指導者の公民権やプライバシーを脅かす可能性がある。

Individuals, businesses, and governments all face additional difficulties because of the rise of sophisticated cyberattack attacks. This paper investigates the targeting of journalists and activists by the malware Pegasus. To gain a deeper understanding of the tactics utilized by cybercriminals and the vulnerabilities that facilitate their scope, this research looks on numerous occurrences and identifies recurring patterns in the strategies, methods, and practices employed. In this paper, a comprehensive analysis is conducted on the far-reaching consequences of these attacks for cybersecurity policy, encompassing the pressing need for enhanced threat intelligence sharing mechanisms, the implementation of more resilient incident response protocols, and the allocation of greater financial resources towards the advancement of cybersecurity research and development initiatives. The research also discusses how Pegasus will affect SCADA systems and critical infrastructure, and it describes some of the most important tactics that businesses may use to reduce the danger of cyberattacks and safeguard themselves against the 21st century's growing threats. The extent of Pegasus spyware, which can access various data and communications on mobile devices running iOS and Android potentially jeopardise the civil rights and privacy of journalists, activists, and political leaders throughout the world, was found to be worrying
翻訳日:2024-03-19 03:31:41 公開日:2023-10-01
# フィッシング対策の設計・実施・評価のためのパーソナライズされたガイドライン

Personalized Guidelines for Design, Implementation and Evaluation of Anti-phishing Interventions ( http://arxiv.org/abs/2311.12827v1 )

ライセンス: Link先を確認
Orvila Sarker, Sherif Haggag, Asangi Jayatilaka, Chelsea Liu, (参考訳) 背景: 現在のアンチフィッシングの介入は、通常、一大のソリューションを含むが、不適切なユーザビリティや実装不足といった制限に悩まされている。 アンチフィッシング技術における人間中心の課題はほとんど理解されていない。 研究は、エンドユーザー選好、精神状態、認知的要求の理解に欠けていることを示しており、開発者や実践者がフィッシング対策の設計、実施、評価に関与している。 Aims: この研究は、開発者や実践者にパーソナライズされたガイドラインを提示することで、現在のアンチフィッシング介入の設計、実装、評価のためのリソースやガイドラインの欠如に対処します。 方法: 53の学術研究と16の灰色文学研究項目を分析した結果, 異なる実践者グループと介入タイプにまたがって, フィッシング介入における課題と勧告を体系的に同定した。 結果: 個人, 技術, 組織レベルにおいて, フィッシング介入の有効性に影響を及ぼす22の要因を同定し, フィッシング介入の結果を改善するために, 研究で提示された提案や勧告に基づいて41のガイドラインを報告した。 結論:私たちの支配的な要因は、開発者や実践者が、アンチフィッシングの介入において、人間中心、技術的、組織的な問題に対する理解を深めるのに役立ちます。 私たちのカスタマイズされたガイドラインは、開発者や実践者がフィッシング攻撃に対処できるようにします。

Background: Current anti-phishing interventions, which typically involve one-size-fits-all solutions, suffer from limitations such as inadequate usability and poor implementation. Human-centric challenges in anti-phishing technologies remain little understood. Research shows a deficiency in the comprehension of end-user preferences, mental states, and cognitive requirements by developers and practitioners involved in the design, implementation, and evaluation of anti-phishing interventions. Aims: This study addresses the current lack of resources and guidelines for the design, implementation and evaluation of anti-phishing interventions, by presenting personalized guidelines to the developers and practitioners. Method: Through an analysis of 53 academic studies and 16 items of grey literature studies, we systematically identified the challenges and recommendations within the anti-phishing interventions, across different practitioner groups and intervention types. Results: We identified 22 dominant factors at the individual, technical, and organizational levels, that affected the effectiveness of anti-phishing interventions and, accordingly, reported 41 guidelines based on the suggestions and recommendations provided in the studies to improve the outcome of anti-phishing interventions. Conclusions: Our dominant factors can help developers and practitioners enhance their understanding of human-centric, technical and organizational issues in anti-phishing interventions. Our customized guidelines can empower developers and practitioners to counteract phishing attacks.
翻訳日:2024-03-18 15:51:52 公開日:2023-10-01
# ハダマールゲートに基づく量子プライベート集合交差プロトコルの改良

An Improved Quantum Private Set Intersection Protocol Based on Hadamard Gates ( http://arxiv.org/abs/2311.11951v1 )

ライセンス: Link先を確認
Wenjie Liu, Wenbo Li, Haibin Wang(参考訳) 近年,liu と yin (int。 j・セオドア Phys 60, 2074-2083 (2021) は量子フーリエ変換に基づく2つのプライベートな集合交叉プロトコルを提案した。 参加者は、プライベートセット計算のセキュリティ要件に違反する相手の個人情報を推測できることがわかった。 この問題を解決するために,アダマールゲートをベースとした改良されたプライベートセット交差点プロトコルを提案する。 まず、より実現可能なアダマールゲートは量子フーリエ変換の代わりに元の n 量子ビット上で実行されるため、実装の困難さを低減できる。 さらに、排他的OR演算により、追加のn量子ビットに参加者のプライベート情報をランダムに選択して符号化することにより、参加者が差分セットS−diffの結果を得るのを防止し、プライベート情報の内部リークを回避する。 最後に,提案プロトコルが計算結果の正しさを保証し,外部攻撃や内部攻撃に抵抗できることを示すため,正しさとセキュリティ解析を行った。

Recently, Liu and Yin (Int. J. Theor. Phys. 60, 2074-2083 (2021)) proposed a two-party private set intersection protocol based on quantum Fourier transform. We find the participant can deduce the other party's private information, which violates the security requirement of private set computation. In order to solve this problem, an improved private set intersection protocol based on Hadamard gate is proposed. Firstly, the more feasible Hadamard gates are used to perform on the original n qubits instead of the quantum Fourier transform, which may reduce the difficulty of implementation. In addition, through the exclusive OR calculation, the participant's private information is randomly chosen and encoded on the additional n qubits, which prevents participants from obtaining the result of the difference set S-diff , and then avoids the internal leakage of private information. Finally, the correctness and security analysis are conducted to show the proposed protocol can guarantee the correctness of computation result as well as resist outside attacks and participant internal attacks.
翻訳日:2024-01-15 15:58:34 公開日:2023-10-01
# LiveChat: オーディオ・ビジュアルマルチモーダルコンテキストによるビデオコメント生成

LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts ( http://arxiv.org/abs/2311.12826v1 )

ライセンス: Link先を確認
Julien Lalanne, Raphael Bournet, Yi Yu(参考訳) ライブストリーミングプラットフォームの人気のある機能であるライブコメントでは、視聴者はビデオやライブストリームを見ながら、コンテンツと関わり、コメント、反応、意見、質問をストリーマーや他の視聴者と共有することができる。 ライブストリームからの音声と視覚のマルチモーダルコンテキストの同時理解と、対話を通じて人間の視聴者と対話する能力を含む、AIエージェントのための挑戦的なテストベッドを提供する。 既存のライブストリーミングベースのコメントデータセットには、限られたカテゴリが含まれ、多様性が欠如しているため、ライブコメント技術の開発を容易にするために、大規模オーディオ・マルチモーダル対話データセットを作成する。 データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。 さらに,ビデオ内の時間的・空間的イベントや現在進行中のマルチモーダル対話コンテキストに合わせて,ライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。 本稿では,提案モデルの有効性を実証し,ライブビデオインタラクションの分野におけるさらなる研究と実用化のための強固な基礎を提供する。

Live commenting on video, a popular feature of live streaming platforms, enables viewers to engage with the content and share their comments, reactions, opinions, or questions with the streamer or other viewers while watching the video or live stream. It presents a challenging testbed for AI agents, which involves the simultaneous understanding of audio-visual multimodal contexts from live streams and the ability to interact with human viewers through dialogue. As existing live streaming-based comments datasets contain limited categories and lack a diversity, we create a large-scale audio-visual multimodal dialogue dataset to facilitate the development of live commenting technologies. The data is collected from Twitch, with 11 different categories and 575 streamers for a total of 438 hours of video and 3.2 million comments. Moreover, we propose a novel multimodal generation model capable of generating live comments that align with the temporal and spatial events within the video, as well as with the ongoing multimodal dialogue context. Our initial results have demonstrated the effectiveness of the proposed model, providing a robust foundation for further research and practical applications in the field of live video interaction.
翻訳日:2024-01-15 15:33:36 公開日:2023-10-01
# ビデオによる心拍数推定のためのバウンディングボックスとランドマーク検出法の比較

A Comparison of Bounding Box and Landmark Detection Methods for Video-Based Heart Rate Estimation ( http://arxiv.org/abs/2401.01032v1 )

ライセンス: Link先を確認
Laurence Liang(参考訳) remote photoplethysmography (rppg) は、人の額の皮膚のトーンを周期的に変化させ、その人の心拍数を推定する。 本稿では, 境界箱法とランドマーク検出法という2つの手法を比較し, 4倍以上の標準偏差(18.720と比較して4.171)でモデル結果のばらつきが小さいことを発見した。

Remote Photoplethysmography (rPPG) uses the cyclic variation of skin tone on a person's forehead region to estimate that person's heart rate. This paper compares two methods: a bounding box-based method and a landmark-detection-based method to estimate heart rate, and discovered that the landmark-based approach has a smaller variance in terms of model results with a standard deviation that is more than 4 times smaller (4.171 compared to 18.720).
翻訳日:2024-01-15 10:07:02 公開日:2023-10-01
# 私のマシンと私:chatgptとアフリカにおけるヒューマンマシンコラボレーションの未来

My Machine and I: ChatGPT and the Future of Human-Machine Collaboration in Africa ( http://arxiv.org/abs/2310.13704v1 )

ライセンス: Link先を確認
Munachimso Blessing Oguine, Chidera Godsfavor Oguine, Kanyifeechukwu Jane Oguine(参考訳) 近年の技術進歩は、人間と機械のコラボレーションという新しい研究分野を必要とする技術を使う人々のパラダイムシフトを必要としている。 人工知能(ai)支援技術であるchatgptは、学界や業界で主流に採用され、実装されているが、この新技術がアフリカにおける人間と機械のコラボレーションにどのように影響するかについては、多くのことが不明である。 私たちの調査論文は、これらの質問に答えることを強調しています。 ヒューマン・マシン・コラボレーションにおけるChatGPTの有効性を理解するために,2019年から2023年にかけての論文(N=51)を分析した。 本研究は,ChatGPTが教育や研究などの学術分野における人間とコンピュータの相互作用に有効であることを示すとともに,人間と機械の協調性向上にChatGPTが比較的有効であることが示唆された。

Recent advancements in technology have necessitated a paradigm shift in the people use technology necessitating a new research field called Human-Machine collaboration. ChatGPT, an Artificial intelligence (AI) assistive technology, has gained mainstream adoption and implementation in academia and industry; however, a lot is left unknown about how this new technology holds for Human-Machine Collaboration in Africa. Our survey paper highlights to answer some of these questions. To understand the effectiveness of ChatGPT on human-machine collaboration we utilized reflexive thematic analysis to analyze (N= 51) articles between 2019 and 2023 obtained from our literature search. Our findings indicate the prevalence of ChatGPT for human-computer interaction within academic sectors such as education, and research; trends also revealed the relatively high effectiveness of ChatGPT in improving human-machine collaboration.
翻訳日:2023-10-29 16:14:45 公開日:2023-10-01
# Kellect: Windowsセキュリティのためのカーネルベースの効率的でロスレスなイベントログコレクタ

Kellect: a Kernel-Based Efficient and Lossless Event Log Collector for Windows Security ( http://arxiv.org/abs/2207.11530v2 )

ライセンス: Link先を確認
Tieming Chen, Qijie Song, Xuebo Qiu, Tiantian Zhu, Zhiling Zhu, Mingqi Lv(参考訳) 近年、APT攻撃が頻繁に発生し、従来のセキュリティ検出モデルではますます複雑で困難になっている。 システムログは,システム動作の効果的な再構築能力のために,サイバーセキュリティ解析に不可欠である。 ETW for Windows上に構築されている既存のログ収集ツールは、データ損失、高いオーバーヘッド、低リアルタイムパフォーマンスなど、作業不足に悩まされている。 したがって、ETWベースのWindowsツールをAPT攻撃シナリオの分析に適用することは依然として困難である。 これらの課題に対処するため、本論文はkellectと呼ばれる効率的でロスレスなカーネルログコレクタを提案する。 マルチレベルキャッシュソリューションを通じてキャッシュ数と処理スレッド数を動的に最適化することで、cpu使用量を2%-3%と約40mbに抑えることができる。 TDHライブラリをスライディングポインタに置き換えることで、Kellectは解析性能を高め、既存のツールの少なくとも9倍の効率を達成する。 さらに、Kellectは異なるOSバージョンとの互換性を改善している。 さらに、Kellectは、イベントマッピングとアプリケーションコールスタックを維持することで、ログセマンティクスの理解を強化し、セキュリティ行動分析のより包括的な特性を提供する。 多くの実験でkellectは、既存のツールの9倍の総合的な効率で、イベントから生成されたカーネルログデータの非破壊的、リアルタイム、完全なコレクションを実現する能力を示している。 KellectがAPTでどのように動作するかを示すキラーイラストとして、最新のATT&CKのTPを実装したデータセットとして、完全なデータログが収集された。 我々の知る限り、ATT&CK技術固有の振る舞いを表す最初のオープンベンチマークデータセットであり、APT研究のより広範な研究を改善することが期待できる。

Recently, APT attacks have frequently happened, which are increasingly complicated and more challenging for traditional security detection models. The system logs are vital for cyber security analysis mainly due to their effective reconstruction ability of system behavior. existing log collection tools built on ETW for Windows suffer from working shortages, including data loss, high overhead, and weak real-time performance. Therefore, It is still very difficult to apply ETW-based Windows tools to analyze APT attack scenarios. To address these challenges, this paper proposes an efficient and lossless kernel log collector called Kellect, which has open sourced with project at www.kellect.org. It takes extra CPU usage with only 2%-3% and about 40MB memory consumption, by dynamically optimizing the number of cache and processing threads through a multi-level cache solution. By replacing the TDH library with a sliding pointer, Kellect enhances analysis performance, achieving at least 9 times the efficiency of existing tools. Furthermore, Kellect improves compatibility with different OS versions. Additionally, Kellect enhances log semantics understanding by maintaining event mappings and application callstacks which provide more comprehensive characteristics for security behavior analysis. With plenty of experiments, Kellect demonstrates its capability to achieve non-destructive, real-time and full collection of kernel log data generated from events with a comprehensive efficiency of 9 times greater than existing tools. As a killer illustration to show how Kellect can work for APT, full data logs have been collected as a dataset Kellect4APT, generated by implementing TTPs from the latest ATT&CK. To our knowledge, it is the first open benchmark dataset representing ATT&CK technique-specific behaviors, which could be highly expected to improve more extensive research on APT study.
翻訳日:2023-10-24 15:18:49 公開日:2023-10-01
# オープンソースソフトウェアコード品質の定量的分析:メトリクス分布からの考察

A Quantitative Analysis of Open Source Software Code Quality: Insights from Metric Distributions ( http://arxiv.org/abs/2307.12082v3 )

ライセンス: Link先を確認
Siyuan Jin, Mianmian Zhang, Yekai Guo, Yuejiang He, Ziyuan Li, Bichao Chen, Bing Zhu, and Yong Xia(参考訳) コード品質は、保守性、信頼性、機能という3次元のオープンソースソフトウェア(oss)の構成物である。 20の異なるメトリクスを特定し、それらを2つのタイプに分類します。 1) コード品質に一貫して影響を及ぼす単調なメトリクス 2) 評価に一貫した関係を持たない非単調な指標。 本稿では,OSSの導入可能性を示す分布型評価手法を提案する。 私たちの実証分析には、36,460のOSSリポジトリと、SonarQubeとCKの生メトリクスが含まれています。 本研究は,コード品質の多次元的構成とその測定に寄与する。

Code quality is a construct in open-source software (OSS) with three dimensions: maintainability, reliability, and functionality. We identify 20 distinct metrics and categorize them into two types: 1) monotonic metrics that consistently influence code quality; and 2) non-monotonic metrics that lack a consistent relationship for evaluation. We propose a distribution-based method to evaluate both types, which demonstrates great explainability of OSS adoption. Our empirical analysis includes more than 36,460 OSS repositories and their raw metrics from SonarQube and CK. Our work contributes to the multi-dimensional construct of code quality and its metric measurements.
翻訳日:2023-10-23 16:44:04 公開日:2023-10-01
# lintq: qiskit量子プログラムのための静的解析フレームワーク

LintQ: A Static Analysis Framework for Qiskit Quantum Programs ( http://arxiv.org/abs/2310.00718v1 )

ライセンス: Link先を確認
Matteo Paltenghi, Michael Pradel(参考訳) 量子コンピューティングの人気が高まるにつれて、量子プログラムの数とそれを書く開発者の数は急速に増加している。 残念なことに、開発者が認識しなければならない微妙なルールのために、正しい量子プログラムを書くことは難しい。 実証研究によれば、量子ソフトウェアにおける全てのバグの40-82%は量子ドメインに固有のものである。 しかし、既存の静的バグ検出フレームワークは、回路、ゲート、キュービットといった量子固有の概念をほとんど知らないため、多くのバグを見逃している。 本稿では,量子プログラムのバグを検出するための静的解析フレームワークLintQを提案する。 我々のアプローチは、基礎となる量子コンピューティングプラットフォームの詳細を言及することなく、量子コンピューティングの共通概念を推論するために設計された一連の抽象化によって実現されている。 これらの抽象化の上に構築されたlintqは、9つの解析からなる拡張可能なセットを提供し、破損した量子状態の操作、冗長な測定、サブサーキットの誤った構成など、潜在的なバグを検出する。 提案手法は,実世界の7,568個のQiskitベースの量子プログラムを新たに収集したデータセットに適用し,LintQが80.5%の精度で様々なプログラミング問題を効果的に同定することを示す。 汎用Linterと2つの既存の量子認識技術と比較して、LintQが評価中に発見したすべての問題は、先行研究で見逃されている。 そのためlintqは、量子コンピューティングの分野における信頼性の高いソフトウェアへの重要な一歩を踏み出している。

As quantum computing is rising in popularity, the amount of quantum programs and the number of developers writing them are increasing rapidly. Unfortunately, writing correct quantum programs is challenging due to various subtle rules developers need to be aware of. Empirical studies show that 40-82% of all bugs in quantum software are specific to the quantum domain. Yet, existing static bug detection frameworks are mostly unaware of quantum-specific concepts, such as circuits, gates, and qubits, and hence miss many bugs. This paper presents LintQ, a comprehensive static analysis framework for detecting bugs in quantum programs. Our approach is enabled by a set of abstractions designed to reason about common concepts in quantum computing without referring to the details of the underlying quantum computing platform. Built on top of these abstractions, LintQ offers an extensible set of nine analyses that detect likely bugs, such as operating on corrupted quantum states, redundant measurements, and incorrect compositions of sub-circuits. We apply the approach to a newly collected dataset of 7,568 real-world Qiskit-based quantum programs, showing that LintQ effectively identifies various programming problems with a precision of 80.5%. Comparing to a general-purpose linter and two existing, quantum-aware techniques shows that all problems found by LintQ during our evaluation are missed by prior work. LintQ hence takes an important step toward reliable software in the growing field of quantum computing.
翻訳日:2023-10-23 05:28:09 公開日:2023-10-01
# 信頼性の高いクラウドコンピューティングシステムのためのインテリジェントオペレーションのロードマップ

A Roadmap towards Intelligent Operations for Reliable Cloud Computing Systems ( http://arxiv.org/abs/2310.00677v1 )

ライセンス: Link先を確認
Yintong Huo, Cheryl Lee, Jinyang Liu, Tianyi Yang, and Michael R. Lyu(参考訳) クラウドシステムの複雑さと使用の増大により、サービスプロバイダは信頼性を確保することが難しくなっている。 本稿では,クラウドマイクロサービスの信頼性に影響を与える2つの主な課題,すなわち内部的および外部的要因について紹介する。 その後、チケット管理、ログ管理、マルチモーダル分析、マイクロサービスレジリエンステストアプローチという4つの重要な側面から、これらの課題を解決するデータ駆動アプローチについて論じる。 実験により,提案するデータ駆動型aiopsソリューションは,複数の角度からシステムの信頼性を著しく向上することが示された。

The increasing complexity and usage of cloud systems have made it challenging for service providers to ensure reliability. This paper highlights two main challenges, namely internal and external factors, that affect the reliability of cloud microservices. Afterward, we discuss the data-driven approach that can resolve these challenges from four key aspects: ticket management, log management, multimodal analysis, and the microservice resilience testing approach. The experiments conducted show that the proposed data-driven AIOps solution significantly enhances system reliability from multiple angles.
翻訳日:2023-10-23 05:27:16 公開日:2023-10-01
# 適応線形モデルの統計的限界:低次元推定と推論

Statistical Limits of Adaptive Linear Models: Low-Dimensional Estimation and Inference ( http://arxiv.org/abs/2310.00532v1 )

ライセンス: Link先を確認
Licong Lin, Mufang Ying, Suvrojit Ghosh, Koulik Khamaru, Cun-Hui Zhang(参考訳) 統計における推定と推論は、データが適応的に収集されるときに重大な課題をもたらす。 線形モデルにおいても、通常の最小方形 (OLS) 推定器は単一の座標推定に対して漸近正規性を示すことができず、膨張誤差を持つ。 この問題は、最近のminimaxlowboundによって強調されている。これは、1つの座標を推定する誤差を、データが任意に適応できる場合に、i.i.dの場合と比較して、$\sqrt{d}$という倍数で拡大できることを示している。 本研究では,データ収集における適応度が,高次元線形モデルにおける低次元パラメータ成分の推定性能に与える影響について検討する。 低次元パラメータ成分の推定誤差がi.i.d.設定のそれと一致するデータ収集機構の条件を,適応度に依存する因子まで同定する。 中心データ上のOLSやOLSは、このマッチングエラーを実現できることを示す。 さらに, 2段階適応線形推定方程式(tale)を解いて, 単一座標推定のための新しい推定器を提案する。 データ収集における適応性の弱い形式の下で,提案する推定器の漸近正規性を確立する。

Estimation and inference in statistics pose significant challenges when data are collected adaptively. Even in linear models, the Ordinary Least Squares (OLS) estimator may fail to exhibit asymptotic normality for single coordinate estimation and have inflated error. This issue is highlighted by a recent minimax lower bound, which shows that the error of estimating a single coordinate can be enlarged by a multiple of $\sqrt{d}$ when data are allowed to be arbitrarily adaptive, compared with the case when they are i.i.d. Our work explores this striking difference in estimation performance between utilizing i.i.d. and adaptive data. We investigate how the degree of adaptivity in data collection impacts the performance of estimating a low-dimensional parameter component in high-dimensional linear models. We identify conditions on the data collection mechanism under which the estimation error for a low-dimensional parameter component matches its counterpart in the i.i.d. setting, up to a factor that depends on the degree of adaptivity. We show that OLS or OLS on centered data can achieve this matching error. In addition, we propose a novel estimator for single coordinate inference via solving a Two-stage Adaptive Linear Estimating equation (TALE). Under a weaker form of adaptivity in data collection, we establish an asymptotic normality property of the proposed estimator.
翻訳日:2023-10-23 05:27:05 公開日:2023-10-01
# 時空間需要予測による貨物トラック用バッテリースワッピングサービス

Facilitating Battery Swapping Services for Freight Trucks with Spatial-Temporal Demand Prediction ( http://arxiv.org/abs/2310.04440v1 )

ライセンス: Link先を確認
Linyu Liu, Zhen Dai, Shiji Song, Xiaocheng Li, Guanting Chen(参考訳) 大型トラックの電動化は、二酸化炭素排出量を削減し、炭素ニュートラルな未来へと進む大きな機会を提供する。 しかし、バッテリエネルギーの制限と重トラックの重み付けによる固有の課題は、走行距離の短縮と充電時間の延長につながる。 その結果、バッテリー交換サービスはこれらのトラックにとって魅力的なソリューションとして出現する。 本稿では,その可能性を調査し,有効性を高めるために2つのアプローチを用いる。 まず, 時空間需要予測モデルを用いて, 交通パターンの予測を行う。 その後、予測は、効率的なバッテリ割り当てとデプロイのための最適化モジュールをガイドする。 2500マイルを超える高速道路ネットワーク上の重トラックデータを分析した結果、われわれのモデルと分析は、将来の意思決定を促進するための予測/機械学習の価値を強調した。 特に,バッテリ交換サービスの導入初期の段階は移動式バッテリ交換ステーションが好まれるが,システムが成熟するにつれて固定配置ステーションが好まれる。

Electrifying heavy-duty trucks offers a substantial opportunity to curtail carbon emissions, advancing toward a carbon-neutral future. However, the inherent challenges of limited battery energy and the sheer weight of heavy-duty trucks lead to reduced mileage and prolonged charging durations. Consequently, battery-swapping services emerge as an attractive solution for these trucks. This paper employs a two-fold approach to investigate the potential and enhance the efficacy of such services. Firstly, spatial-temporal demand prediction models are adopted to predict the traffic patterns for the upcoming hours. Subsequently, the prediction guides an optimization module for efficient battery allocation and deployment. Analyzing the heavy-duty truck data on a highway network spanning over 2,500 miles, our model and analysis underscore the value of prediction/machine learning in facilitating future decision-makings. In particular, we find that the initial phase of implementing battery-swapping services favors mobile battery-swapping stations, but as the system matures, fixed-location stations are preferred.
翻訳日:2023-10-23 04:13:51 公開日:2023-10-01
# AI認知を理解する:人間の記憶メカニズムにインスパイアされた推論のためのニューラルネットワークモジュール

Understanding AI Cognition: A Neural Module for Inference Inspired by Human Memory Mechanisms ( http://arxiv.org/abs/2310.09297v1 )

ライセンス: Link先を確認
Xiangyu Zeng, Jie Lin, Piao Hu, Ruizheng Huang, Zhicheng Zhang(参考訳) 人間と機械が現在の関係推論や質問の入力をどのように理解し、知覚された情報を過去の記憶の文脈に置くかは、認知科学と人工知能の難題だった。 人間の脳の記憶システムと認知アーキテクチャに触発され,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。 特に、メモリモジュールは、作業および長期記憶を含み、後者は、より多くの蓄積された知識と経験を保持する高次構造を付与される。 異なる競合する書き込みアクセスを通じて、現在の知覚はワーキングメモリを更新し、後に外部製品アソシエーションを通じて長期記憶とマージされ、メモリオーバーフローを回避し、情報の衝突を最小限にする。 推論モジュールでは、2つの別々のメモリ起源から関連情報を検索し、連想的に統合して現在の知覚をより包括的かつ正確に解釈する。 我々は、bAbI-20kやSolt-of-CLEVRデータセットなどの質問応答タスク、関係計算や画像分類タスクに対して、PMIを爆発的に適用し、PMIの強化により、元のモデルを大きく上回っている。 可視化解析により、様々なメモリソースからの情報の相互作用と統合とともに、メモリ統合が推論タスクにおけるモデルの有効性に大きく寄与することが明らかとなった。

How humans and machines make sense of current inputs for relation reasoning and question-answering while putting the perceived information into context of our past memories, has been a challenging conundrum in cognitive science and artificial intelligence. Inspired by human brain's memory system and cognitive architectures, we propose a PMI framework that consists of perception, memory and inference components. Notably, the memory module comprises working and long-term memory, with the latter endowed with a higher-order structure to retain more accumulated knowledge and experiences. Through a differentiable competitive write access, current perceptions update working memory, which is later merged with long-term memory via outer product associations, averting memory overflow and minimizing information conflicts. In the inference module, relevant information is retrieved from two separate memory origins and associatively integrated to attain a more comprehensive and precise interpretation of current perceptions. We exploratively apply our PMI to improve prevailing Transformers and CNN models on question-answering tasks like bAbI-20k and Sort-of-CLEVR datasets, as well as relation calculation and image classification tasks, and in each case, our PMI enhancements consistently outshine their original counterparts significantly. Visualization analyses reveal that memory consolidation, along with the interaction and integration of information from diverse memory sources, substantially contributes to the model effectiveness on inference tasks.
翻訳日:2023-10-23 02:40:32 公開日:2023-10-01
# グレースケールビデオのための量子移動目標セグメンテーションアルゴリズム

A quantum moving target segmentation algorithm for grayscale video ( http://arxiv.org/abs/2310.03038v1 )

ライセンス: Link先を確認
Wenjie Liu, Lu Wang, Qingshan Wu(参考訳) 移動対象セグメンテーション(MTS)は動画内の移動対象を分割することを目的としているが、従来のアルゴリズムは現在のビデオ時代のリアルタイム処理において大きな課題に直面している。 一部の研究者は、いくつかのビデオ処理タスクにおいて量子上の利点を実証したが、移動対象セグメンテーションについては示さなかった。 本稿では,grayscale videoのための量子移動目標セグメンテーションアルゴリズムを提案する。量子機構を用いて,隣接するすべてのフレームにおける全画素の差を同時計算し,移動対象を迅速に分割することができる。 さらに、グレースケール値をしきい値と区別するために実現可能な量子コンパレータが設計されている。 次に、3フレーム差分、二項化、および演算を含むいくつかの量子回路ユニットを詳細に設計し、それから組み合わせて、移動対象をセグメント化する完全な量子回路を構築する。 2^m$フレームの量子ビデオ(すべてのフレームは2^n\times 2^n$イメージで$q$グレースケールレベル)では、アルゴリズムの複雑さをO$(n^2 + q)$に減らすことができる。 従来のものと比べれば指数関数的なスピードアップだが、その複雑さは既存の量子アルゴリズムよりも優れている。 最後に、この実験はIBM Qを用いて、ノイズの多い中間スケール量子(NISQ)時代のアルゴリズムの実現可能性を示す。

The moving target segmentation (MTS) aims to segment out moving targets in the video, however, the classical algorithm faces the huge challenge of real-time processing in the current video era. Some scholars have successfully demonstrated the quantum advantages in some video processing tasks, but not concerning moving target segmentation. In this paper, a quantum moving target segmentation algorithm for grayscale video is proposed, which can use quantum mechanism to simultaneously calculate the difference of all pixels in all adjacent frames and then quickly segment out the moving target. In addition, a feasible quantum comparator is designed to distinguish the grayscale values with the threshold. Then several quantum circuit units, including three-frame difference, binarization and AND operation, are designed in detail, and then are combined together to construct the complete quantum circuits for segmenting the moving target. For a quantum video with $2^m$ frames (every frame is a $2^n\times 2^n$ image with $q$ grayscale levels), the complexity of our algorithm can be reduced to O$(n^2 + q)$. Compared with the classic counterpart, it is an exponential speedup, while its complexity is also superior to the existing quantum algorithms. Finally, the experiment is conducted on IBM Q to show the feasibility of our algorithm in the noisy intermediate-scale quantum (NISQ) era.
翻訳日:2023-10-06 21:02:10 公開日:2023-10-01
# NEQR用8方向ソベル演算子を用いた量子画像エッジ検出

Quantum image edge detection based on eight-direction Sobel operator for NEQR ( http://arxiv.org/abs/2310.03037v1 )

ライセンス: Link先を確認
Wenjie Liu, Lu Wang(参考訳) 量子ソベルエッジ検出(Quantum Sobel edge detection、QSED)は、量子機構を用いた画像エッジ検出のアルゴリズムの一種であり、古典的なアルゴリズムが直面するリアルタイム問題を解くことができる。 しかし、既存のQSEDアルゴリズムは2方向または4方向のソベル演算子しか考慮していないため、高精細画像のエッジ詳細情報がある程度失われる。 本稿では, 8方向ソベル演算子に基づく新しいQSEDアルゴリズムを提案し, エッジ情報の損失を低減するだけでなく, 量子画像中の全画素の8方向勾配値を同時に計算する。 さらに、勾配計算、非最大抑制、二重しきい値検出、エッジトラッキングユニットからなる具体的な量子回路を詳細に設計する。 qグレースケールの2^n x 2^n画像の場合、我々のアルゴリズムの複雑さは他の古典的あるいは量子的アルゴリズムよりも低いO(n^2 + q^2)に還元できる。 またシミュレーション実験により,本アルゴリズムは2方向および4方向のqsedアルゴリズムよりも多くのエッジ情報,特に対角エッジを検出できることを示した。

Quantum Sobel edge detection (QSED) is a kind of algorithm for image edge detection using quantum mechanism, which can solve the real-time problem encountered by classical algorithms. However, the existing QSED algorithms only consider two- or four-direction Sobel operator, which leads to a certain loss of edge detail information in some high-definition images. In this paper, a novel QSED algorithm based on eight-direction Sobel operator is proposed, which not only reduces the loss of edge information, but also simultaneously calculates eight directions' gradient values of all pixel in a quantum image. In addition, the concrete quantum circuits, which consist of gradient calculation, non-maximum suppression, double threshold detection and edge tracking units, are designed in details. For a 2^n x 2^n image with q gray scale, the complexity of our algorithm can be reduced to O(n^2 + q^2), which is lower than other existing classical or quantum algorithms. And the simulation experiment demonstrates that our algorithm can detect more edge information, especially diagonal edges, than the two- and four-direction QSED algorithms.
翻訳日:2023-10-06 21:01:46 公開日:2023-10-01
# 反実的制限とベルの定理

Counterfactual restrictions and Bell's theorem ( http://arxiv.org/abs/1909.06608v5 )

ライセンス: Link先を確認
Jonte R. Hance(参考訳) 反実的状況を考える能力はベルの定理の必須仮定であり、ベルの不等式を許すためには、反実的定性を完全に排除するのではなく、特定の測定選択を反実的に制限することが必要であることを示す。 本稿では,統計的独立性仮定から反事実的定性仮定が形式的に生じることを説明する。 したがって、反現実的制限は、通常想定されるものと異なる統計的独立違反を解釈する方法を提供する(すなわち、統計的独立違反は逆因性または超決定論を意味する)。 対実的制約を文脈性に結び付け、そのアプローチと類似性を示す。

We show that the ability to consider counterfactual situations is a necessary assumption of Bell's theorem, and that, to allow Bell inequality violations while maintaining all other assumptions, we just require certain measurement choices be counterfactually restricted, rather than the full removal of counterfactual definiteness. We illustrate how the counterfactual definiteness assumption formally arises from the statistical independence assumption. Counterfactual restriction therefore provides a way to interpret statistical independence violation different to what is typically assumed (i.e. that statistical independence violation means either retrocausality or superdeterminism). We tie counterfactual restriction to contextuality, and show the similarities to that approach.
翻訳日:2023-10-05 23:01:23 公開日:2023-10-01
# 一貫性軌道モデル:拡散の確率フローODE軌道の学習

Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion ( http://arxiv.org/abs/2310.02279v1 )

ライセンス: Link先を確認
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon(参考訳) Consistency Models (CM) (Song et al., 2023) はサンプル品質のコストでスコアベース拡散モデルサンプリングを加速するが、速度のトレードオフには自然な方法がない。 この制限に対処するために,CMモデルとスコアベースモデルを含む一般化であるCTM(Consistency Trajectory Model)を提案する。 CTMは、単一の前方通過 -- 出力スコア(すなわちログ密度の勾配)をトレーニングし、拡散過程における確率フロー正規微分方程式(ODE)に沿って、任意の初期時間と最終時間の間の非制限トラバースを可能にする。 CTM は,CIFAR-10 (FID 1.73) と ImageNet at 64X64 resolution (FID 2.06) 上での単段拡散モデルサンプリングのための新しい最先端FIDを実現する。 CTMはまた、ODEソリューション軌跡に沿って長いジャンプを含む決定論的および確率的な新しいサンプリングスキームのファミリーを可能にする。 計算予算が増加するにつれて、CMで見られる劣化を避けることで、サンプル品質を継続的に改善する。 さらにctmのスコアへのアクセスは、正確な確率計算を含むすべての拡散モデル推論技術に対応している。

Consistency Models (CM) (Song et al., 2023) accelerate score-based diffusion model sampling at the cost of sample quality but lack a natural way to trade-off quality for speed. To address this limitation, we propose Consistency Trajectory Model (CTM), a generalization encompassing CM and score-based models as special cases. CTM trains a single neural network that can -- in a single forward pass -- output scores (i.e., gradients of log-density) and enables unrestricted traversal between any initial and final time along the Probability Flow Ordinary Differential Equation (ODE) in a diffusion process. CTM enables the efficient combination of adversarial training and denoising score matching loss to enhance performance and achieves new state-of-the-art FIDs for single-step diffusion model sampling on CIFAR-10 (FID 1.73) and ImageNet at 64X64 resolution (FID 2.06). CTM also enables a new family of sampling schemes, both deterministic and stochastic, involving long jumps along the ODE solution trajectories. It consistently improves sample quality as computational budgets increase, avoiding the degradation seen in CM. Furthermore, CTM's access to the score accommodates all diffusion model inference techniques, including exact likelihood computation.
翻訳日:2023-10-05 18:22:52 公開日:2023-10-01
# 生存因果効果の安定推定

Stable Estimation of Survival Causal Effects ( http://arxiv.org/abs/2310.02278v1 )

ライセンス: Link先を確認
Khiem Pham, David A. Hirshberg, Phuong-Mai Huynh-Pham, Michele Santacatterina, Ser-Nam Lim, Ramin Zabih(参考訳) 本研究では、生存時間に対する介入の影響を特徴付けることを目的とした生存因果効果の推定問題、すなわちイベントの発生に要する時間について検討する。 アプリケーションは、薬物がicuの退院までの時間を短縮するか、広告キャンペーンが顧客の生活時間を増やすかを判断することを含む。 歴史的に、最も一般的な推定はパラメトリックまたは半パラメトリック(例えば比例ハザード)モデルに基づいているが、これらの手法は問題のあるバイアスレベルである。 近年、特に大規模データセットへのアプリケーションにおいて、偏りのない機械学習アプローチが人気が高まっている。 しかし、その魅力的な理論的性質にもかかわらず、これらの推定器は不安定である傾向があり、これはデバイアスングステップが小さな推定確率の逆数を使用するためであり、推定確率の小さな誤差はそれらの逆数に大きな変化をもたらし、その結果、推定器が生じるためである。 この問題は、確率が治療課題の産物であり、確率を検閲する生存環境において悪化する。 本稿では,これらの逆を直接推定する共変量バランス手法を提案する。 結果は、実際に安定であり、同じ理論的性質の多くを享受する推定器である。 特に、重なり合いや漸近的等連続性条件の下では、我々の推定子は漸近的に正規であり、無視できるバイアスと最適分散である。 合成および半合成データを用いた実験により,本手法は偏りのある機械学習手法よりも競合バイアスとばらつきが小さいことを証明した。

We study the problem of estimating survival causal effects, where the aim is to characterize the impact of an intervention on survival times, i.e., how long it takes for an event to occur. Applications include determining if a drug reduces the time to ICU discharge or if an advertising campaign increases customer dwell time. Historically, the most popular estimates have been based on parametric or semiparametric (e.g. proportional hazards) models; however, these methods suffer from problematic levels of bias. Recently debiased machine learning approaches are becoming increasingly popular, especially in applications to large datasets. However, despite their appealing theoretical properties, these estimators tend to be unstable because the debiasing step involves the use of the inverses of small estimated probabilities -- small errors in the estimated probabilities can result in huge changes in their inverses and therefore the resulting estimator. This problem is exacerbated in survival settings where probabilities are a product of treatment assignment and censoring probabilities. We propose a covariate balancing approach to estimating these inverses directly, sidestepping this problem. The result is an estimator that is stable in practice and enjoys many of the same theoretical properties. In particular, under overlap and asymptotic equicontinuity conditions, our estimator is asymptotically normal with negligible bias and optimal variance. Our experiments on synthetic and semi-synthetic data demonstrate that our method has competitive bias and smaller variance than debiased machine learning approaches.
翻訳日:2023-10-05 18:22:24 公開日:2023-10-01
# Simonのアルゴリズムに基づくOTR構造に対する量子偽造攻撃

Quantum forgery attacks against OTR structures based on Simon's algorithm ( http://arxiv.org/abs/2310.02924v1 )

ライセンス: Link先を確認
Wenjie Liu, Mengting Wang, Zixian Li(参考訳) オフセット2ラウンド(otr)構造に対する古典的な偽造攻撃は、平文と暗号文のペアを知る必要のあるような厳しい条件を必要とし、成功確率は高くない。 これらの問題を解決するために、Simonのアルゴリズムを用いたOTR構造に対する量子偽造攻撃を提案する。 攻撃者は送信側と受信側の間で暗号文タグ対 $(C,T)$ をインターセプトし、Simonのアルゴリズムは OTR のタグ生成関数の周期を見つけるために使用され、インターセプトされたタグ $T$ に対して新たな暗号文 $C'$ (C'\ne C$) をフォージできる。 OTR構造の変種(Pr{/o}st-OTR-Even-Mansour構造)については、攻撃者が1つのブロックを変更することを許された場合、任意のメッセージの正しいタグを簡単に生成できる普遍的な偽造攻撃を提案する。 まずSimonのアルゴリズムを使って秘密パラメータ L を取得し、シークレットパラメータ L を使用してキー $k_1$ と $k_2$ を見つける。 メッセージをフォージするキーを得るためには、平文ブロックがいくつか必要です。 パフォーマンス分析の結果,攻撃時のクエリの複雑さは$o(n)$であり,その成功確率は1。

Classical forgery attacks against Offset Two-round (OTR) structures require some harsh conditions, such as some plaintext and ciphertext pairs need to be known, and the success probability is not too high. To solve these problems, a quantum forgery attack on OTR structure using Simon's algorithm is proposed. The attacker intercept the ciphertext-tag pair $(C,T)$ between the sender and receiver, while Simon's algorithm is used to find the period of the tag generation function in OTR, then we can successfully forge new ciphertext $C'$ ($C'\ne C$) for intercepted tag $T$. For a variant of OTR structure (Pr{/o}st-OTR-Even-Mansour structure), a universal forgery attack, in which it is easy to generate the correct tag of any given message if the attacker is allowed to change a single block in it, is proposed. It first obtains the secret parameter L using Simon's algorithm, then the secret parameter L is used to find the keys $k_1$ and $k_2$, so that an attacker can forge the changed messages. It only needs several plaintext blocks to help obtain the keys to forge any messages. Performance analysis shows that the query complexity of our attack is $O(n)$, and its success probability is very close to 1.
翻訳日:2023-10-05 14:07:44 公開日:2023-10-01
# データ保護制約下でのバイオマーカー選択のための分散多変量回帰モデル

Distributed Multivariate Regression Modeling For Selecting Biomarkers Under Data Protection Constraints ( http://arxiv.org/abs/1803.00422v3 )

ライセンス: Link先を確認
Daniela Z\"oller and Harald Binder(参考訳) 臨床バイオマーカーの発見には大きな患者コホートが必要であり、組織間のデータプールアプローチによって支援されている。 多くの国では、データ保護の制約、特に臨床環境では、異なる研究機関間の個別レベルのデータの交換を禁止し、共同分析の実施を妨げる。 この問題を解決するために、非開示的な集約データのみを交換するが、これは手動で行われ、転送前に明示的な許可を必要とする。 これは、単純な集計された要約統計のみを転送するので、変数選択のようなより複雑なタスクを許可しない。 より複雑な集約データや入力データ摂動を必要とする他の手法が提案されているが、これらの手法は大量のバイオマーカーを扱うことができず、情報を失うこともある。 本稿では,データ保護制約下で実装可能な反復呼び出しにおける集約データに基づく自動変数選択によるバイオマーカー同定のための多変量回帰手法を提案する。 このアプローチは、複数のロケーションに分散したデータを共同分析するために使用できる。 転送データ量と呼び出し数を最小限に抑えるため、このアプローチのヒューリスティックな変形も提供します。 グローバルデータ標準化を行う際、提案手法はプールされた個人レベルのデータ分析と同じ結果が得られる。 シミュレーション研究によれば、局所標準化によってもたらされる情報損失は最小限である。 典型的なシナリオでは、ヒューリスティックはデータ呼び出しの数を10から3に減らし、手動のデータリリースが実現可能になる。 我々のアプローチをアプリケーションで広く利用できるようにするため、私たちはDataSHIELDフレームワークに組み込まれたヒューリスティックバージョンの実装を提供します。 \

The discovery of clinical biomarkers requires large patient cohorts and is aided by a pooled data approach across institutions. In many countries, data protection constraints, especially in the clinical environment, forbid the exchange of individual-level data between different research institutes, impeding the conduct of a joint analyses. To circumvent this problem, only non-disclosive aggregated data is exchanged, which is often done manually and requires explicit permission before transfer, i.e., the number of data calls and the amount of data should be limited. This does not allow for more complex tasks such as variable selection, as only simple aggregated summary statistics are typically transferred. Other methods have been proposed that require more complex aggregated data or use input data perturbation, but these methods can either not deal with a high number of biomarkers or lose information. Here, we propose a multivariable regression approach for identifying biomarkers by automatic variable selection based on aggregated data in iterative calls, which can be implemented under data protection constraints. The approach can be used to jointly analyze data distributed across several locations. To minimize the amount of transferred data and the number of calls, we also provide a heuristic variant of the approach. When performing global data standardization, the proposed method yields the same results as pooled individual-level data analysis. In a simulation study, the information loss introduced by local standardization is seen to be minimal. In a typical scenario, the heuristic decreases the number of data calls from more than 10 to 3, rendering manual data releases feasible. To make our approach widely available for application, we provide an implementation of the heuristic version incorporated in the DataSHIELD framework.\
翻訳日:2023-10-05 11:36:45 公開日:2023-10-01
# グラフニューラルネットワークは最適な近似アルゴリズムか?

Are Graph Neural Networks Optimal Approximation Algorithms? ( http://arxiv.org/abs/2310.00526v1 )

ライセンス: Link先を確認
Morris Yau, Eric Lu, Nikolaos Karalias, Jessica Xu, Stefanie Jegelka(参考訳) 本研究では,半定義型プログラミング(sdp)の強力なアルゴリズムツールを用いて,組合せ最適化問題に対する最適近似アルゴリズムを得るためのグラフニューラルネットワークアーキテクチャを設計する。 具体的には, 多項式サイズのメッセージパッシングアルゴリズムは, ユニクゲーム・コンジェクチャを仮定した最大制約満足度問題に対して, 最も強力な多項式時間アルゴリズムを表現できることを示す。 この結果を利用して効率的なグラフニューラルネットワークアーキテクチャOpsGNNを構築し、マックスカットや最大独立集合のようなランドマーク組合せ最適化問題に対する高品質な近似解を得る。 我々のアプローチは、ニューラルネットワークと古典アルゴリズムの両方に対して、広範囲の現実世界および合成データセットに対して強力な経験的結果を得る。 最後に, コンベックス緩和を捉えた OptGNN の機能を利用して, 学習した OptGNN の埋め込みから最適性(最適解のバウンド)の二重証明を生成するアルゴリズムを設計する。

In this work we design graph neural network architectures that can be used to obtain optimal approximation algorithms for a large class of combinatorial optimization problems using powerful algorithmic tools from semidefinite programming (SDP). Concretely, we prove that polynomial-sized message passing algorithms can represent the most powerful polynomial time algorithms for Max Constraint Satisfaction Problems assuming the Unique Games Conjecture. We leverage this result to construct efficient graph neural network architectures, OptGNN, that obtain high-quality approximate solutions on landmark combinatorial optimization problems such as Max Cut and maximum independent set. Our approach achieves strong empirical results across a wide range of real-world and synthetic datasets against both neural baselines and classical algorithms. Finally, we take advantage of OptGNN's ability to capture convex relaxations to design an algorithm for producing dual certificates of optimality (bounds on the optimal solution) from the learned embeddings of OptGNN.
翻訳日:2023-10-05 03:51:03 公開日:2023-10-01
# マルチドメインノイズシーンにおけるテキストの深さへの拡散

Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes ( http://arxiv.org/abs/2310.00558v1 )

ライセンス: Link先を確認
Alloy Das, Sanket Biswas, Umapada Pal and Josep Llad\'os(参考訳) 実世界の騒々しい環境で使用する場合、複数のドメインに一般化する能力は、任意の自律的なシーンテキストスポッティングシステムに不可欠である。 しかし、既存の最先端手法では、他の複雑なドメイン間での機能相互作用を活用できない自然シーンデータセットの事前訓練と微調整戦略を採用している。 本研究では、特定のドメインやシナリオに特化するのではなく、対象とするドメインに直接一般化できるように、マルチドメインソースデータ上でモデルをトレーニングするという、ドメインに依存しないシーンテキストスポッティングの問題を調査し、検討する。 そこで本稿では,水中の騒々しいシーンに対して,UWT(Under-Water Text)と呼ばれるテキストスポッティング検証ベンチマークを実施し,重要なケーススタディを確立する。 さらに, DA-TextSpotter と呼ばれる高解像度のエンド・ツー・エンド・エンド・トランスフォーマーベースラインを設計し, 精度とモデル効率の両面から, 正規および任意の形状のシーンテキストスポッティングベンチマークにおいて, 既存のテキストスポッティングアーキテクチャと同等あるいは優れた性能を実現する。 データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。

When used in a real-world noisy environment, the capacity to generalize to multiple domains is essential for any autonomous scene text spotting system. However, existing state-of-the-art methods employ pretraining and fine-tuning strategies on natural scene datasets, which do not exploit the feature interaction across other complex domains. In this work, we explore and investigate the problem of domain-agnostic scene text spotting, i.e., training a model on multi-domain source data such that it can directly generalize to target domains rather than being specialized for a specific domain or scenario. In this regard, we present the community a text spotting validation benchmark called Under-Water Text (UWT) for noisy underwater scenes to establish an important case study. Moreover, we also design an efficient super-resolution based end-to-end transformer baseline called DA-TextSpotter which achieves comparable or superior performance over existing text spotting architectures for both regular and arbitrary-shaped scene text spotting benchmarks in terms of both accuracy and model efficiency. The dataset, code and pre-trained models will be released upon acceptance.
翻訳日:2023-10-05 03:41:05 公開日:2023-10-01
# 教師なし関係抽出のためのsiamese表現学習

Siamese Representation Learning for Unsupervised Relation Extraction ( http://arxiv.org/abs/2310.00552v1 )

ライセンス: Link先を確認
Guangxin Zhang, Shu Chen(参考訳) unsupervised relation extraction (ure) は、リレーショナル分布に関する事前情報なしに、オープンドメインプレーンテキストから名前付きエンティティペア間の基礎的な関係を発見することを目的としている。 比較学習を利用した既存のUREモデルは、正のサンプルを惹きつけ、より良い分離を促進するために負のサンプルを反発させる。 しかし、関係性における微粒な関係性は、突発的な負のサンプルを作り、固有の階層構造を傷つけ、性能を阻害する。 本稿では,非教師付き関係抽出のためのsiamese表現学習を提案する。このフレームワークは,インスタンス間の関係表現を効果的に最適化し,リレーショナル特徴空間に階層情報を保持する能力を有する。 実験により,本モデルが2つのベンチマークデータセットの最先端結果を大幅に向上し,非教師なし関係抽出における提案モデルの有効性とロバスト性について詳細な解析を行った。

Unsupervised relation extraction (URE) aims at discovering underlying relations between named entity pairs from open-domain plain text without prior information on relational distribution. Existing URE models utilizing contrastive learning, which attract positive samples and repulse negative samples to promote better separation, have got decent effect. However, fine-grained relational semantic in relationship makes spurious negative samples, damaging the inherent hierarchical structure and hindering performances. To tackle this problem, we propose Siamese Representation Learning for Unsupervised Relation Extraction -- a novel framework to simply leverage positive pairs to representation learning, possessing the capability to effectively optimize relation representation of instances and retain hierarchical information in relational feature space. Experimental results show that our model significantly advances the state-of-the-art results on two benchmark datasets and detailed analyses demonstrate the effectiveness and robustness of our proposed model on unsupervised relation extraction.
翻訳日:2023-10-05 03:40:40 公開日:2023-10-01
# Seal2Real: 教師なし文書シールデータ生成と実現のための拡散モデルによる事前学習

Seal2Real: Prompt Prior Learning on Diffusion Model for Unsupervised Document Seal Data Generation and Realisation ( http://arxiv.org/abs/2310.00546v1 )

ライセンス: Link先を確認
Jiancheng Huang, Yifan Liu, Yi Huang, Shifeng Chen(参考訳) 文書処理において、シール関連タスクは、シール分割、シール認証識別、シール除去、シール下のテキスト認識など、非常に大きな商業用途を有する。 しかしながら、これらのシール関連タスクはラベル付き文書シールデータセットに大きく依存しているため、これらのタスクにはほとんど取り組んでいない。 これらのシール関連課題に対するラベル付きデータセットの欠如に対処するために,大量のラベル付き文書シールデータを生成する生成手法である seal2real を提案し,ラベル付き20k画像を含む seal-db データセットを構築する。 seal2realでは,事前学習済みの安定拡散モデルに基づき,教師なしの学習で先行生成能力をシール生成タスクに移行した,迅速な事前学習アーキテクチャを提案する。 現実的なシール生成能力は、実データ上の下流シール関連タスクの性能を大幅に向上させる。 seal-dbデータセットの実験結果は、 seal2realの有効性を示している。

In document processing, seal-related tasks have very large commercial applications, such as seal segmentation, seal authenticity discrimination, seal removal, and text recognition under seals. However, these seal-related tasks are highly dependent on labelled document seal datasets, resulting in very little work on these tasks. To address the lack of labelled datasets for these seal-related tasks, we propose Seal2Real, a generative method that generates a large amount of labelled document seal data, and construct a Seal-DB dataset containing 20K images with labels. In Seal2Real, we propose a prompt prior learning architecture based on a pre-trained Stable Diffusion Model that migrates the prior generative power of to our seal generation task with unsupervised training. The realistic seal generation capability greatly facilitates the performance of downstream seal-related tasks on real data. Experimental results on the Seal-DB dataset demonstrate the effectiveness of Seal2Real.
翻訳日:2023-10-05 03:40:23 公開日:2023-10-01
# 暗黙的神経表現と複素ウェーブレットの代数

Implicit Neural Representations and the Algebra of Complex Wavelets ( http://arxiv.org/abs/2310.00545v1 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Vishwanath Saragadam, Maarten V. de Hoop, Richard G. Baraniuk(参考訳) Inlicit Neural representations (INRs) はユークリッド領域におけるシグナルの表現法として有用である。 ユークリッド空間上の多層パーセプトロン(MLP)として画像をパラメータ化することにより、INRは、通常の離散表現では明らかでない信号の空間的特徴とスペクトル的特徴を結合する方法で信号を効果的に表現し、これまで不可能だった連続的な信号処理と機械学習アプローチの道を開く。 正弦波の活性化関数を用いたINRはフーリエ理論で研究されているが、近年の研究では、正弦波の代わりにウェーブレットを活性化関数として用いる利点が示されている。 本研究では、これらのINRにアプローチし、MLPの第1層で行う粗い近似から信号の高周波特性をいかに解決するかを示す。 これにより、複雑なウェーブレットの使用、低域および帯域通過近似の分離、および所望の信号の特異性に基づく初期化スキームを含む、INRアーキテクチャの設計のための複数の処方則が導かれる。

Implicit neural representations (INRs) have arisen as useful methods for representing signals on Euclidean domains. By parameterizing an image as a multilayer perceptron (MLP) on Euclidean space, INRs effectively represent signals in a way that couples spatial and spectral features of the signal that is not obvious in the usual discrete representation, paving the way for continuous signal processing and machine learning approaches that were not previously possible. Although INRs using sinusoidal activation functions have been studied in terms of Fourier theory, recent works have shown the advantage of using wavelets instead of sinusoids as activation functions, due to their ability to simultaneously localize in both frequency and space. In this work, we approach such INRs and demonstrate how they resolve high-frequency features of signals from coarse approximations done in the first layer of the MLP. This leads to multiple prescriptions for the design of INR architectures, including the use of complex wavelets, decoupling of low and band-pass approximations, and initialization schemes based on the singularities of the desired signal.
翻訳日:2023-10-05 03:40:07 公開日:2023-10-01
# ディープラーニングへの水平クラスバックドア

Horizontal Class Backdoor to Deep Learning ( http://arxiv.org/abs/2310.00542v1 )

ライセンス: Link先を確認
Hua Ma, Shang Wang, Yansong Gao(参考訳) ディープラーニング(dl)モデルに対する既存のバックドア攻撃はすべて、vertical class backdoor(vcb)に属する。 すなわち、ソースクラスに依存しない、またはソースクラス固有のバックドアに関係なく、クラスからのサンプルがシークレットトリガーの存在下で移植されたバックドアをアクティベートする。 既存の防衛の現在の傾向は、VCB攻撃、特にソースクラスに依存しないバックドアに対して圧倒的に考案されている。 したがって、未知のバックドアタイプを発見することは急務である。 この研究は、新しい、単純で一般的な水平クラスバックドア(HCB)攻撃を明らかにしている。 バックドアは自然界で広く普及している無害な自然特徴と自然に結びつくことができることを示す。 注意すべき点は、無害な特徴(例えば、表現)がモデルのメインタスク(例えば、人同士の認識)とは無関係であることである。 この無意味な特徴はクラスを水平に横切るが、クラスごとの部分的なサンプルによって示され、水平クラス(hc)特性を満たす。 トリガーがHCの無害な特徴と共に同時に提示されるときのみ、バックドアを効果的に活性化できる。 タスクを伴う高攻撃成功率の観点からの攻撃性能に関する大規模実験 1)mnist, 2)顔認識 3)交通標識の認識,及び 4) 物体検出は, HCBが効率的かつ効果的であることを示す。 簡単なトリガーを用いた場合においても, RAID 18', STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), Beatrix (NDSS 23') の9つの有効な対策の1つに対して, HCB回避効果を広範囲に評価した。

All existing backdoor attacks to deep learning (DL) models belong to the vertical class backdoor (VCB). That is, any sample from a class will activate the implanted backdoor in the presence of the secret trigger, regardless of source-class-agnostic or source-class-specific backdoor. Current trends of existing defenses are overwhelmingly devised for VCB attacks especially the source-class-agnostic backdoor, which essentially neglects other potential simple but general backdoor types, thus giving false security implications. It is thus urgent to discover unknown backdoor types. This work reveals a new, simple, and general horizontal class backdoor (HCB) attack. We show that the backdoor can be naturally bounded with innocuous natural features that are common and pervasive in the real world. Note that an innocuous feature (e.g., expression) is irrelevant to the main task of the model (e.g., recognizing a person from one to another). The innocuous feature spans across classes horizontally but is exhibited by partial samples per class -- satisfying the horizontal class (HC) property. Only when the trigger is concurrently presented with the HC innocuous feature, can the backdoor be effectively activated. Extensive experiments on attacking performance in terms of high attack success rates with tasks of 1) MNIST, 2) facial recognition, 3) traffic sign recognition, and 4) object detection demonstrate that the HCB is highly efficient and effective. We extensively evaluate the HCB evasiveness against a (chronologically) series of 9 influential countermeasures of Fine-Pruning (RAID 18'), STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), and Beatrix (NDSS 23'), where none of them can succeed even when a simplest trigger is used.
翻訳日:2023-10-05 03:39:45 公開日:2023-10-01
# ニューラルネットワーク学習における可変性に対するロバスト非パラメトリック仮説の検証

Robust Nonparametric Hypothesis Testing to Understand Variability in Training Neural Networks ( http://arxiv.org/abs/2310.00541v1 )

ライセンス: Link先を確認
Sinjini Banerjee, Reilly Cannon, Tim Marrinan, Tony Chiang, Anand D. Sarwate(参考訳) ディープニューラルネットワーク(DNN)のトレーニングには、確率的最適化が伴うことが多い。 いくつかの研究は、モデルが同じ性能を持つ場合、この変動性は無視できることを示唆している。 しかし、同様のテスト精度のモデルは、同じ関数を計算していないかもしれない。 本稿では,しきい値化前のネットワーク出力に基づく分類モデル間の密接性の新しい尺度を提案する。 我々の測度は頑健な仮説テストフレームワークに基づいており、訓練されたモデルから得られる他の量に適応することができる。

Training a deep neural network (DNN) often involves stochastic optimization, which means each run will produce a different model. Several works suggest this variability is negligible when models have the same performance, which in the case of classification is test accuracy. However, models with similar test accuracy may not be computing the same function. We propose a new measure of closeness between classification models based on the output of the network before thresholding. Our measure is based on a robust hypothesis-testing framework and can be adapted to other quantities derived from trained models.
翻訳日:2023-10-05 03:39:06 公開日:2023-10-01
# ベストアーム識別におけるベストチャレンジャールールを用いたトンプソン探究

Thompson Exploration with Best Challenger Rule in Best Arm Identification ( http://arxiv.org/abs/2310.00539v1 )

ライセンス: Link先を確認
Jongyeong Lee, Junya Honda, Masashi Sugiyama(参考訳) 本稿では,標準単パラメータ指数モデルにおけるバンドイットフレームワークにおける固定信頼度ベストアーム識別(BAI)問題について検討する。 この問題については、多くのポリシーが提案されているが、その多くは各ラウンドの最適化問題を解くことが必要であり、ガウスモデルに制限されているものを除いて少なくとも一定回数はアームを探索せざるを得ない。 これらの制限に対処するために,トンプソンサンプリングと最良挑戦則として知られる計算効率の良いアプローチを組み合わせた新しい方針を提案する。 トンプソンサンプリングはもともと累積報酬の最大化を目的としていたが,BAIの腕を強制せずに自然に探索できることを示した。 我々は,両腕バンディット問題に対して漸近的に最適であり,一般の$K$武器バンディット問題に対して$K\geq 3$に対してほぼ最適であることを示す。 それにもかかわらず,数値実験では,計算コストを削減しつつ,サンプル複雑性の観点からの漸近的最適政策と比較し,競合性能を示す。 さらに,提案手法を含む政策のクラス分析においてよく考慮される漸近的最適性の概念である$\beta$-optimalityの概念と比較することで,我々の政策の利点を強調する。

This paper studies the fixed-confidence best arm identification (BAI) problem in the bandit framework in the canonical single-parameter exponential models. For this problem, many policies have been proposed, but most of them require solving an optimization problem at every round and/or are forced to explore an arm at least a certain number of times except those restricted to the Gaussian model. To address these limitations, we propose a novel policy that combines Thompson sampling with a computationally efficient approach known as the best challenger rule. While Thompson sampling was originally considered for maximizing the cumulative reward, we demonstrate that it can be used to naturally explore arms in BAI without forcing it. We show that our policy is asymptotically optimal for any two-armed bandit problems and achieves near optimality for general $K$-armed bandit problems for $K\geq 3$. Nevertheless, in numerical experiments, our policy shows competitive performance compared to asymptotically optimal policies in terms of sample complexity while requiring less computation cost. In addition, we highlight the advantages of our policy by comparing it to the concept of $\beta$-optimality, a relaxed notion of asymptotic optimality commonly considered in the analysis of a class of policies including the proposed one.
翻訳日:2023-10-05 03:38:57 公開日:2023-10-01
# 自己: 大きな言語モデルのための言語駆動型自己進化

SELF: Language-Driven Self-Evolution for Large Language Model ( http://arxiv.org/abs/2310.00533v1 )

ライセンス: Link先を確認
Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Fei Mi, Baojun Wang, Weichao Wang, Lifeng Shang, Qun Liu(参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な汎用性を示している。 しかし、人間のレベルの学習と進歩する自律AIを実現するための基盤である自律モデル開発への道は、いまだに未完成である。 我々は「SELF(Self-Evolution with Language Feedback)」と呼ばれる革新的なアプローチを導入する。 この方法論はLLMに継続的自己進化の実施を促す。 さらに、SELFは言語に基づくフィードバックを汎用的で包括的な評価ツールとして採用し、応答の洗練と自己進化的トレーニングの安定性を高めるための領域をピンポイントする。 メタスキルの学習を始め、SELFは自己フィードバックと自己抑制に焦点を当てた基礎的なメタスキルを取得する。 これらのメタスキルは、モデルのその後の自己進化を、自己計算データによる永続的なトレーニングのサイクルを通じて導くことで、本質的な能力を高める。 ラベルのない命令を与えられたSELFは、モデルに自律的に生成し、対話的に応答を洗練させる能力を持たせる。 この合成トレーニングデータはその後フィルタリングされ、反復的な微調整に利用され、モデルの能力を高める。 代表ベンチマークによる実験結果では、自己は人間の介入を必要とせず、徐々に本質的な能力を向上し、自律的モデルの進化に有効な経路を示すことが示されている。 さらにselfは、優れた品質の応答を生み出すために、オンラインの自己定義戦略を採用できる。 本質的には、SELFフレームワークは自律LDM開発に向けた進歩的なステップを表しており、LSMは情報の受動的受信者から自身の進化におけるアクティブな参加者へと変換される。

Large Language Models (LLMs) have showcased remarkable versatility across diverse domains. However, the pathway toward autonomous model development, a cornerstone for achieving human-level learning and advancing autonomous AI, remains largely uncharted. We introduce an innovative approach, termed "SELF" (Self-Evolution with Language Feedback). This methodology empowers LLMs to undergo continual self-evolution. Furthermore, SELF employs language-based feedback as a versatile and comprehensive evaluative tool, pinpointing areas for response refinement and bolstering the stability of self-evolutionary training. Initiating with meta-skill learning, SELF acquires foundational meta-skills with a focus on self-feedback and self-refinement. These meta-skills are critical, guiding the model's subsequent self-evolution through a cycle of perpetual training with self-curated data, thereby enhancing its intrinsic abilities. Given unlabeled instructions, SELF equips the model with the capability to autonomously generate and interactively refine responses. This synthesized training data is subsequently filtered and utilized for iterative fine-tuning, enhancing the model's capabilities. Experimental results on representative benchmarks substantiate that SELF can progressively advance its inherent abilities without the requirement of human intervention, thereby indicating a viable pathway for autonomous model evolution. Additionally, SELF can employ online self-refinement strategy to produce responses of superior quality. In essence, the SELF framework signifies a progressive step towards autonomous LLM development, transforming the LLM from a mere passive recipient of information into an active participant in its own evolution.
翻訳日:2023-10-05 03:38:11 公開日:2023-10-01
# 大規模空中画像のためのニューラルラジアンス場(NeRF)の創製 -マルチティリングアプローチとNeRFの幾何学的評価-

Enabling Neural Radiance Fields (NeRF) for Large-scale Aerial Images -- A Multi-tiling Approaching and the Geometry Assessment of NeRF ( http://arxiv.org/abs/2310.00530v1 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, Debao Huang, Fabio Remondino(参考訳) neural radiance fields(nerf)は、航空写真測量を含む3d再構成タスクに役立つ可能性がある。 しかしながら、推定幾何のスケーラビリティと精度は、大規模な航空資産には十分に文書化されていないため、そのようなデータセットは通常、非常に高いメモリ消費と緩やかな収束をもたらす。 . 本稿では,大規模な航空データセット上でのNeRFのスケールアップと,NeRFの詳細な幾何学的評価を提案する。 具体的には,ramの画像読み込み時のメモリ消費を削減するマルチカメラティリング(mct)戦略,gpuメモリの表現トレーニング,タイル内の収束率の向上など,ロケーション固有のサンプリング手法を導入する。 MCTは、大きなフレームイメージを異なるカメラモデルで複数のタイル画像に分解し、これらの小さなフレームイメージを、精度を損なうことなく、特定の場所に必要なトレーニングプロセスに投入する。 提案手法は代表的手法であるMip-NeRFに実装し,その幾何学的性能を2つの典型的な空中データセット上の3フォットグラムのMVSパイプラインとLiDAR参照データと比較する。 定性的かつ定量的な結果から,提案手法は従来のアプローチよりも完全性とオブジェクト詳細性が向上することが示唆されるが,現時点では精度の面では不足している。

Neural Radiance Fields (NeRF) offer the potential to benefit 3D reconstruction tasks, including aerial photogrammetry. However, the scalability and accuracy of the inferred geometry are not well-documented for large-scale aerial assets,since such datasets usually result in very high memory consumption and slow convergence.. In this paper, we aim to scale the NeRF on large-scael aerial datasets and provide a thorough geometry assessment of NeRF. Specifically, we introduce a location-specific sampling technique as well as a multi-camera tiling (MCT) strategy to reduce memory consumption during image loading for RAM, representation training for GPU memory, and increase the convergence rate within tiles. MCT decomposes a large-frame image into multiple tiled images with different camera models, allowing these small-frame images to be fed into the training process as needed for specific locations without a loss of accuracy. We implement our method on a representative approach, Mip-NeRF, and compare its geometry performance with threephotgrammetric MVS pipelines on two typical aerial datasets against LiDAR reference data. Both qualitative and quantitative results suggest that the proposed NeRF approach produces better completeness and object details than traditional approaches, although as of now, it still falls short in terms of accuracy.
翻訳日:2023-10-05 03:37:46 公開日:2023-10-01
# CPU上の効率的なニューラルネットワーク推論のためのSIMDデータフロー協調最適化

SIMD Dataflow Co-optimization for Efficient Neural Networks Inferences on CPUs ( http://arxiv.org/abs/2310.00574v1 )

ライセンス: Link先を確認
Cyrus Zhou, Zack Hassman, Ruize Xu, Dhirpal Shah, Vaugnn Richard, Yanjing Li(参考訳) 我々は、CPU上にニューラルネットワークをデプロイする際の課題に対処し、精度を維持しながら推論時間を最小化することに重点を置いている。 本稿では、ニューラルネットワークのデータフロー(すなわち計算順序)を用いて、ヒューリスティック誘導分析とコード生成フレームワークを用いてデータ再利用の機会を探索し、様々な単一命令や複数のデータ(simd)の実装を探索し、最適化されたニューラルネットワークの実行を実現する。 その結果、入力と重みの再利用の両方を最大化しつつ、simdレジスタに出力を保持するデータフローは、8ビットニューラルネットワークの最大3倍のスピードアップ、バイナリニューラルネットワークの最大4.8倍のスピードアップを実現し、様々な推論ワークロードにおいて一貫して最高のパフォーマンスをもたらすことがわかった。

We address the challenges associated with deploying neural networks on CPUs, with a particular focus on minimizing inference time while maintaining accuracy. Our novel approach is to use the dataflow (i.e., computation order) of a neural network to explore data reuse opportunities using heuristic-guided analysis and a code generation framework, which enables exploration of various Single Instruction, Multiple Data (SIMD) implementations to achieve optimized neural network execution. Our results demonstrate that the dataflow that keeps outputs in SIMD registers while also maximizing both input and weight reuse consistently yields the best performance for a wide variety of inference workloads, achieving up to 3x speedup for 8-bit neural networks, and up to 4.8x speedup for binary neural networks, respectively, over the optimized implementations of neural networks today.
翻訳日:2023-10-05 03:31:56 公開日:2023-10-01
# Colloquial Persian POS (CPPOS: Colloquial Persian POS) Corpus: A novel Corpus for Colloquial Persian part of Speech Tagging (英語)

Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial Persian Part of Speech Tagging ( http://arxiv.org/abs/2310.00572v1 )

ライセンス: Link先を確認
Leyla Rabiei, Farzaneh Rahmani, Mohammad Khansari, Zeinab Rajabi, Moein Salimi(参考訳) 序文: Part-of-Speech (POS) Tagging, 単語をそれぞれの部分(動詞や名詞など)に分類するプロセスは、様々な自然言語処理アプリケーションにおいて不可欠である。 POSタグ付けは、機械翻訳、質問応答、感情分析など、アプリケーションにとって重要な前処理タスクである。 しかし、ペルシアのPOSタグ付けのための既存のコーパスは、主に日刊紙や新聞などの形式的なテキストで構成されている。 その結果、これらのコーパスで訓練されたスマートPOSツール、機械学習モデル、ディープラーニングモデルは、ソーシャルネットワーク分析における口語テキストの処理に最適ではない。 方法:本論文では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。 コーパスには、telegram、twitter、instagramで520k以上のラベル付きトークンで、政治、社会、商業などの様々なドメインから収集された形式的および非公式のテキストが含まれている。 これらのソーシャルプラットフォームからの投稿を1年間収集した後、正規化、文のトークン化、ソーシャルテキストの単語トークン化など、特別な前処理が実施された。 トークンと文は手動で注釈付けされ、言語の専門家チームによって検証された。 本研究は、データの注釈付けとアノテーション処理を行うPOSタグ付けガイドラインも定義している。 結果: CPPOSの品質を評価するため, 構築したコーパスを用いて, RNNファミリーなどの様々なディープラーニングモデルを訓練した。 有名なペルシアのPOSコーパスである"Bijankhan"と、BijankhanでトレーニングされたペルシアのHazm POSツールと比較すると、CPPOSでトレーニングしたモデルの方がパフォーマンスが優れています。 新しいコーパスとBiLSTMディープニューラルモデルにより、以前のデータセットよりも14%改善しました。

Introduction: Part-of-Speech (POS) Tagging, the process of classifying words into their respective parts of speech (e.g., verb or noun), is essential in various natural language processing applications. POS tagging is a crucial preprocessing task for applications like machine translation, question answering, sentiment analysis, etc. However, existing corpora for POS tagging in Persian mainly consist of formal texts, such as daily news and newspapers. As a result, smart POS tools, machine learning models, and deep learning models trained on these corpora may not perform optimally for processing colloquial text in social network analysis. Method: This paper introduces a novel corpus, "Colloquial Persian POS" (CPPOS), specifically designed to support colloquial Persian text. The corpus includes formal and informal text collected from various domains such as political, social, and commercial on Telegram, Twitter, and Instagram more than 520K labeled tokens. After collecting posts from these social platforms for one year, special preprocessing steps were conducted, including normalization, sentence tokenizing, and word tokenizing for social text. The tokens and sentences were then manually annotated and verified by a team of linguistic experts. This study also defines a POS tagging guideline for annotating the data and conducting the annotation process. Results: To evaluate the quality of CPPOS, various deep learning models, such as the RNN family, were trained using the constructed corpus. A comparison with another well-known Persian POS corpus named "Bijankhan" and the Persian Hazm POS tool trained on Bijankhan revealed that our model trained on CPPOS outperforms them. With the new corpus and the BiLSTM deep neural model, we achieved a 14% improvement over the previous dataset.
翻訳日:2023-10-05 03:31:40 公開日:2023-10-01
# laplace: 確率的局所モデル非依存因果説明

LaPLACE: Probabilistic Local Model-Agnostic Causal Explanations ( http://arxiv.org/abs/2310.00570v1 )

ライセンス: Link先を確認
Sein Minn(参考訳) 機械学習モデルは、様々なアプリケーションで素晴らしいパフォーマンスを達成している。 しかし、ブラックボックスの性質や意思決定における透明性の欠如がしばしば認識され、予測を理解することに懸念が持ち上がった。 この課題に対処するため、研究者は機械学習モデルの説明を提供する方法を開発した。 本稿では,表型データで動作する分類器の確率論的原因・効果の説明を,人間に理解可能な方法で提供するLaPLACE-Explainerを紹介する。 LaPLACE-Explainerコンポーネントはマルコフ毛布の概念を利用して、関連する特徴と非関連する特徴の統計的境界を自動で確立する。 このアプローチは、予測のための説明として機能する最適な特徴部分集合を自動生成する。 重要なことは、これによって、トップ機能の固定番号Nを説明として事前決定する必要がなくなり、方法論の柔軟性と適応性を高めます。 条件付き確率を組み込むことにより,LIME と SHAP (よく知られたモデルに依存しない説明器) を局所的精度と整合性で解析し,確率論的因果説明と性能を向上させる。 LaPLACEの音質、一貫性、局所精度、適応性は様々な分類モデルで厳格に検証されている。 さらに,シミュレーションと実世界のデータセットを用いた実験を通じて,これらの説明の実用性を示す。 これは、予測信頼性の評価、モデル選択の促進、信頼性の向上、分類器内の公平性に関する懸念の特定など、信頼関連の問題に対処する。

Machine learning models have undeniably achieved impressive performance across a range of applications. However, their often perceived black-box nature, and lack of transparency in decision-making, have raised concerns about understanding their predictions. To tackle this challenge, researchers have developed methods to provide explanations for machine learning models. In this paper, we introduce LaPLACE-explainer, designed to provide probabilistic cause-and-effect explanations for any classifier operating on tabular data, in a human-understandable manner. The LaPLACE-Explainer component leverages the concept of a Markov blanket to establish statistical boundaries between relevant and non-relevant features automatically. This approach results in the automatic generation of optimal feature subsets, serving as explanations for predictions. Importantly, this eliminates the need to predetermine a fixed number N of top features as explanations, enhancing the flexibility and adaptability of our methodology. Through the incorporation of conditional probabilities, our approach offers probabilistic causal explanations and outperforms LIME and SHAP (well-known model-agnostic explainers) in terms of local accuracy and consistency of explained features. LaPLACE's soundness, consistency, local accuracy, and adaptability are rigorously validated across various classification models. Furthermore, we demonstrate the practical utility of these explanations via experiments with both simulated and real-world datasets. This encompasses addressing trust-related issues, such as evaluating prediction reliability, facilitating model selection, enhancing trustworthiness, and identifying fairness-related concerns within classifiers.
翻訳日:2023-10-05 03:31:06 公開日:2023-10-01
# tdcgl:レコメンデーションのための2レベルデバイアスコントラストグラフ学習

TDCGL: Two-Level Debiased Contrastive Graph Learning for Recommendation ( http://arxiv.org/abs/2310.00569v1 )

ライセンス: Link先を確認
Yubo Gao, Haotian Wu(参考訳) 知識グラフに基づくレコメンデーション手法は,レコメンデーションシステムの分野で大きな成功を収めている。 しかし、高品質の知識グラフへの過剰依存はそのような方法のボトルネックである。 特に、実世界におけるkgの実体の長期的分布とノイズ問題により、アイテム・エンティティ依存関係は真の特性の反映から逸脱し、ユーザの好みのモデリング性能に著しく影響する。 コントラスト学習(Contrastive Learning)は、データ拡張とデノベーションに使用される新しい方法として、この研究ギャップを埋めるためのインスピレーションを提供する。 しかし、メインストリームの作業は、クリックした項目数の長いテール特性のみに焦点を当て、また、ユーザ毎のクリック数全体のロングテール特性がレコメンデーションモデルの性能にも影響を及ぼす可能性があることを無視する。 そこで本研究では,非教師付き文表現のデバイアス付きコントラスト学習(DCLR)をモチベーションとした2レベルデバイアス付きコントラストグラフ学習(TDCGL)モデルを提案する。 具体的には、TDCL(Two-Level Debiased Contrastive Learning)を設計し、KGに展開する。 また,逆学習におけるランダムサンプリングによるバイアスを低減するために,ランダムサンプリングによって得られた負のサンプルを除いて,ノイズに基づく否定生成を加え,空間的均一性を確保する。 オープンソースのデータセットに関する検討実験により,本手法は優れたアンチノイズ能力を有し,最先端のベースラインを大幅に上回ることを示す。 さらに, 各レベルのTDCLの必要性に関するアブレーション研究を行った。

knowledge graph-based recommendation methods have achieved great success in the field of recommender systems. However, over-reliance on high-quality knowledge graphs is a bottleneck for such methods. Specifically, the long-tailed distribution of entities of KG and noise issues in the real world will make item-entity dependent relations deviate from reflecting true characteristics and significantly harm the performance of modeling user preference. Contrastive learning, as a novel method that is employed for data augmentation and denoising, provides inspiration to fill this research gap. However, the mainstream work only focuses on the long-tail properties of the number of items clicked, while ignoring that the long-tail properties of total number of clicks per user may also affect the performance of the recommendation model. Therefore, to tackle these problems, motivated by the Debiased Contrastive Learning of Unsupervised Sentence Representations (DCLR), we propose Two-Level Debiased Contrastive Graph Learning (TDCGL) model. Specifically, we design the Two-Level Debiased Contrastive Learning (TDCL) and deploy it in the KG, which is conducted not only on User-Item pairs but also on User-User pairs for modeling higher-order relations. Also, to reduce the bias caused by random sampling in contrastive learning, with the exception of the negative samples obtained by random sampling, we add a noise-based generation of negation to ensure spatial uniformity. Considerable experiments on open-source datasets demonstrate that our method has excellent anti-noise capability and significantly outperforms state-of-the-art baselines. In addition, ablation studies about the necessity for each level of TDCL are conducted.
翻訳日:2023-10-05 03:30:39 公開日:2023-10-01
# ニューラル圧縮潜在表現における画像データハイディング

Image Data Hiding in Neural Compressed Latent Representations ( http://arxiv.org/abs/2310.00568v1 )

ライセンス: Link先を確認
Chen-Hsiu Huang, Ja-Ling Wu(参考訳) 本稿では,汎用型ニューラルコンプレッサの潜在表現に秘密情報を埋め込み,抽出する,エンドツーエンドの学習画像データ隠蔽フレームワークを提案する。 提案するメッセージエンコーダとデコーダを併用して知覚損失関数を利用することで,高画質と高ビット精度を同時に実現する。 従来の手法と比較して, 圧縮領域における画像の機密性および透かしの堅牢性を向上し, 埋め込み速度を50倍以上高速化する。 これらの結果は、データ隠蔽技術とニューラル圧縮を組み合わせる可能性を示し、ニューラル圧縮技術とその応用に関する新たな洞察を提供する。

We propose an end-to-end learned image data hiding framework that embeds and extracts secrets in the latent representations of a generic neural compressor. By leveraging a perceptual loss function in conjunction with our proposed message encoder and decoder, our approach simultaneously achieves high image quality and high bit accuracy. Compared to existing techniques, our framework offers superior image secrecy and competitive watermarking robustness in the compressed domain while accelerating the embedding speed by over 50 times. These results demonstrate the potential of combining data hiding techniques and neural compression and offer new insights into developing neural compression techniques and their applications.
翻訳日:2023-10-05 03:30:08 公開日:2023-10-01
# クエリに基づく敵攻撃に対するランダム化特徴防御のロバスト性を理解する

Understanding the Robustness of Randomized Feature Defense Against Query-Based Adversarial Attacks ( http://arxiv.org/abs/2310.00567v1 )

ライセンス: Link先を確認
Quang H. Nguyen, Yingjie Lao, Tung Pham, Kok-Seng Wong, Khoa D. Doan(参考訳) 最近の研究では、ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性があることが示されている。 モデル出力のみにアクセスしても、攻撃者はこのような敵の例を生成するためにブラックボックス攻撃を使用することができる。 本研究では,モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御手法を提案する。 理論的解析により,この手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上することを確認した。 重要なことは、我々の防衛は敵の訓練を必要とせず、精度に最小限の影響を与え、事前訓練されたモデルに適用できる。 また,本分析では,攻撃時に変化する対向目的関数の勾配に基づいて,モデルの各部分に選択的に雑音を加えることの重要性も明らかにした。 我々は、多様なアーキテクチャを持つモデルを含む広範な実験実験を通じて、複数のブラックボックス攻撃に対する防御の堅牢性を示す。

Recent works have shown that deep neural networks are vulnerable to adversarial examples that find samples close to the original image but can make the model misclassify. Even with access only to the model's output, an attacker can employ black-box attacks to generate such adversarial examples. In this work, we propose a simple and lightweight defense against black-box attacks by adding random noise to hidden features at intermediate layers of the model at inference time. Our theoretical analysis confirms that this method effectively enhances the model's resilience against both score-based and decision-based black-box attacks. Importantly, our defense does not necessitate adversarial training and has minimal impact on accuracy, rendering it applicable to any pre-trained model. Our analysis also reveals the significance of selectively adding noise to different parts of the model based on the gradient of the adversarial objective function, which can be varied during the attack. We demonstrate the robustness of our defense against multiple black-box attacks through extensive empirical experiments involving diverse models with various architectures.
翻訳日:2023-10-05 03:29:57 公開日:2023-10-01
# 多数の権限を与え、バイアスを負う: 大規模言語モデルによるジェネラリストクレジットスコアリング

Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models ( http://arxiv.org/abs/2310.00566v1 )

ライセンス: Link先を確認
Duanyu Feng, Yongfu Dai, Jimin Huang, Yifang Zhang, Qianqian Xie, Weiguang Han, Alejandro Lopez-Lira, Hao Wang(参考訳) 信用とリスクアセスメントは金融の基盤であり、個々の未来とより広い社会構造の両方に影響を及ぼす。 既存のクレジットスコアリングモデルでは、知識ミオピアとタスク分離に起因する制限がしばしば示される。 そこで本研究では,3つの仮説を定式化し,LLMの信用評価における生存可能性について検討した。 我々の実証研究は、従来のモデルに固有の制限を克服するLLMの能力を明らかにする。 クレジットアセスメントの目的でキュレートされた新しいベンチマークを導入し、特別な信用・リスクアセスメント大言語モデル(CALM)を微調整し、LCMが持つ可能性のあるバイアスを精査する。 本研究は, LLMが信用評価に革命をもたらす可能性を明らかにし, 多様な財務評価に適応可能性を示し, 金融セクターにおける公平な意思決定の重要性を強調した。 私たちのデータセット、モデル、ベンチマークは、他の研究者のためにオープンソース化されています。

Credit and risk assessments are cornerstones of the financial landscape, impacting both individual futures and broader societal constructs. Existing credit scoring models often exhibit limitations stemming from knowledge myopia and task isolation. In response, we formulate three hypotheses and undertake an extensive case study to investigate LLMs' viability in credit assessment. Our empirical investigations unveil LLMs' ability to overcome the limitations inherent in conventional models. We introduce a novel benchmark curated for credit assessment purposes, fine-tune a specialized Credit and Risk Assessment Large Language Model (CALM), and rigorously examine the biases that LLMs may harbor. Our findings underscore LLMs' potential in revolutionizing credit assessment, showcasing their adaptability across diverse financial evaluations, and emphasizing the critical importance of impartial decision-making in the financial sector. Our datasets, models, and benchmarks are open-sourced for other researchers.
翻訳日:2023-10-05 03:29:40 公開日:2023-10-01
# DYNAP-SE2:スケーラブルなマルチコア動的ニューロモルフィック非同期スパイクニューラルネットワークプロセッサ

DYNAP-SE2: a scalable multi-core dynamic neuromorphic asynchronous spiking neural network processor ( http://arxiv.org/abs/2310.00564v1 )

ライセンス: Link先を確認
Ole Richter, Chenxi Wu, Adrian M. Whatley, German K\"ostinger, Carsten Nielsen, Ning Qiao and Giacomo Indiveri(参考訳) 技術が驚くべき進歩を遂げたことにより、エッジのセンサー付近でデータを処理する必要性が劇的に高まった。 これらのアプリケーションで使用される電子システムは、データをリアルタイムで連続的に処理し、最小のエネルギー予算を用いて関連情報を抽出しなければならない。 オンデマンド、スパース、エッジコンピューティングをサポートする知覚信号の常時処理を実装するための有望なアプローチは、生物学的神経系からインスピレーションを得ることである。 このアプローチに従って,リアルタイムイベントベーススパイキングニューラルネットワーク(SNN)をプロトタイピングするための,脳に触発されたプラットフォームを提案する。 提案システムは, 短期可塑性, NMDA ゲーティング, AMPA拡散, ホメオスタシス, スパイク周波数適応, コンダクタンス系デンドライトコンパートメント, スパイク伝達遅延などの動的および現実的なニューラル処理現象の直接エミュレーションを支援する。 このようなプリミティブを実装するアナログ回路は、ルーティングやマッピングイベントのための低遅延非同期デジタル回路とペアリングされる。 この非同期インフラストラクチャは、異なるネットワークアーキテクチャの定義を可能にし、イベントベースおよび連続信号センサからのデータを変換およびエンコードするための直接イベントベースのインターフェースを提供する。 本稿では、システム全体のアーキテクチャを説明し、ニューラルダイナミクスをエミュレートする混合信号アナログデジタル回路を特徴付け、その特徴を実験的に示すとともに、システム構成に使用できる低レベルのソフトウェアエコシステムを提示する。 異なる生物学的に有望なニューラルネットワークをエミュレートする柔軟性と、個体群と単一ニューロンの信号の両方をリアルタイムで監視できるチップの能力により、基礎研究とエッジコンピューティングの両方で複雑なニューラルネットワークモデルを開発し検証することができる。

With the remarkable progress that technology has made, the need for processing data near the sensors at the edge has increased dramatically. The electronic systems used in these applications must process data continuously, in real-time, and extract relevant information using the smallest possible energy budgets. A promising approach for implementing always-on processing of sensory signals that supports on-demand, sparse, and edge-computing is to take inspiration from biological nervous system. Following this approach, we present a brain-inspired platform for prototyping real-time event-based Spiking Neural Networks (SNNs). The system proposed supports the direct emulation of dynamic and realistic neural processing phenomena such as short-term plasticity, NMDA gating, AMPA diffusion, homeostasis, spike frequency adaptation, conductance-based dendritic compartments and spike transmission delays. The analog circuits that implement such primitives are paired with a low latency asynchronous digital circuits for routing and mapping events. This asynchronous infrastructure enables the definition of different network architectures, and provides direct event-based interfaces to convert and encode data from event-based and continuous-signal sensors. Here we describe the overall system architecture, we characterize the mixed signal analog-digital circuits that emulate neural dynamics, demonstrate their features with experimental measurements, and present a low- and high-level software ecosystem that can be used for configuring the system. The flexibility to emulate different biologically plausible neural networks, and the chip's ability to monitor both population and single neuron signals in real-time, allow to develop and validate complex models of neural processing for both basic research and edge-computing applications.
翻訳日:2023-10-05 03:29:25 公開日:2023-10-01
# 離散選択多関節バンド

Discrete Choice Multi-Armed Bandits ( http://arxiv.org/abs/2310.00562v1 )

ライセンス: Link先を確認
Emerson Melo and David M\"uller(参考訳) 本稿では,個別選択モデルのカテゴリとオンライン学習の領域,マルチアーム付きバンディットアルゴリズムの関連について述べる。 私たちの貢献は2つの重要な側面で要約できます。 まず,一例としてExp3アルゴリズムを包含した包括的アルゴリズムのサブ線形後悔境界を提案する。 第2に,先述の \citet{wen:2001} が最初に導入した一般化ネストロジットモデルからインスピレーションを得た,対数多重武装バンディットアルゴリズムの新たなファミリーを導入する。 これらのアルゴリズムは、クローズドフォームサンプリング分布確率によって効率的に実装できるため、モデルを広範囲にわたって微調整する柔軟性を提供する。 提案アルゴリズムの実践的実装を実証するために,確率的バンディットケースに着目した数値実験を行った。

This paper establishes a connection between a category of discrete choice models and the realms of online learning and multiarmed bandit algorithms. Our contributions can be summarized in two key aspects. Firstly, we furnish sublinear regret bounds for a comprehensive family of algorithms, encompassing the Exp3 algorithm as a particular case. Secondly, we introduce a novel family of adversarial multiarmed bandit algorithms, drawing inspiration from the generalized nested logit models initially introduced by \citet{wen:2001}. These algorithms offer users the flexibility to fine-tune the model extensively, as they can be implemented efficiently due to their closed-form sampling distribution probabilities. To demonstrate the practical implementation of our algorithms, we present numerical experiments, focusing on the stochastic bandit case.
翻訳日:2023-10-05 03:28:54 公開日:2023-10-01
# CPIPS:エンド・ツー・エンド画像圧縮における知覚距離の学習

CPIPS: Learning to Preserve Perceptual Distances in End-to-End Image Compression ( http://arxiv.org/abs/2310.00559v1 )

ライセンス: Link先を確認
Chen-Hsiu Huang, Ja-Ling Wu(参考訳) jpegやmpegなどの画像符号化規格は、マルチメディアデータの人間の消費に対して高い圧縮率を達成している。 しかし、IoTデバイスやドローン、自動運転車の普及に伴い、人間ではなく機械が、捕獲された視覚コンテンツの大部分を処理している。 したがって、人間の視覚だけでなく、画像処理やマシンビジョンタスクにも適応する効率的な圧縮表現を追求することが重要である。 生体系における効率的な符号化仮説と神経科学における感覚野のモデル化からインスピレーションを得て,圧縮された潜在表現を用いて,知覚距離を保ちながら意味的関連性を優先する。 提案手法であるCPIPS(Compressed Perceptual Image Patch similarity)は,学習したニューラルコーデックから最小限のコストで抽出することができ,LPIPSやdisTSなどのDNNベースの知覚指標よりも大幅に高速に計算できる。

Lossy image coding standards such as JPEG and MPEG have successfully achieved high compression rates for human consumption of multimedia data. However, with the increasing prevalence of IoT devices, drones, and self-driving cars, machines rather than humans are processing a greater portion of captured visual content. Consequently, it is crucial to pursue an efficient compressed representation that caters not only to human vision but also to image processing and machine vision tasks. Drawing inspiration from the efficient coding hypothesis in biological systems and the modeling of the sensory cortex in neural science, we repurpose the compressed latent representation to prioritize semantic relevance while preserving perceptual distance. Our proposed method, Compressed Perceptual Image Patch Similarity (CPIPS), can be derived at a minimal cost from a learned neural codec and computed significantly faster than DNN-based perceptual metrics such as LPIPS and DISTS.
翻訳日:2023-10-05 03:28:39 公開日:2023-10-01
# タスクプログレッシブ・ポリシー対応事前学習によるタスク指向対話モデル

A Task-oriented Dialog Model with Task-progressive and Policy-aware Pre-training ( http://arxiv.org/abs/2310.00597v1 )

ライセンス: Link先を確認
Lucen Zhong, Hengtong Lu, Caixia Yuan, Xiaojie Wang, Jiashen Sun, Ke Zeng and Guanglu Wan(参考訳) 事前学習型会話モデル(PCM)は近年,有望な進歩を遂げている。 しかし、タスク指向ダイアログ(TOD)のための既存のPCMは、TOD関連タスクのシーケンシャルな性質や、ダイアログポリシー情報の学習には不十分である。 そこで本研究では,2つの政策対応事前学習タスクを備えたタスクプログレッシブPCMを提案する。 モデルは、TOD系のタスクロジックに従って、TOD関連のタスクを段階的に使用する3つの段階を通じて事前訓練される。 グローバルポリシー一貫性タスクはマルチターンダイアログポリシーシーケンシャルな関係をキャプチャするために設計され、actベースのコントラスト学習タスクは、同じダイアログポリシーでサンプル間の類似性をキャプチャするように設計されている。 このモデルは,従来のPCMであるGALAXYと比較して,パラメータが18%,事前学習データが25倍のMultiWOZとIn-Carの双方で優れた結果が得られる。

Pre-trained conversation models (PCMs) have achieved promising progress in recent years. However, existing PCMs for Task-oriented dialog (TOD) are insufficient for capturing the sequential nature of the TOD-related tasks, as well as for learning dialog policy information. To alleviate these problems, this paper proposes a task-progressive PCM with two policy-aware pre-training tasks. The model is pre-trained through three stages where TOD-related tasks are progressively employed according to the task logic of the TOD system. A global policy consistency task is designed to capture the multi-turn dialog policy sequential relation, and an act-based contrastive learning task is designed to capture similarities among samples with the same dialog policy. Our model achieves better results on both MultiWOZ and In-Car end-to-end dialog modeling benchmarks with only 18\% parameters and 25\% pre-training data compared to the previous state-of-the-art PCM, GALAXY.
翻訳日:2023-10-05 03:21:39 公開日:2023-10-01
# スケーラブル量子情報処理のための3Dプリントマイクロリニアポールトラップ

3D-Printed Micro Linear Paul Trap for Scalable Quantum Information Processing ( http://arxiv.org/abs/2310.00595v1 )

ライセンス: Link先を確認
Shuqi Xu, Xiaoxing Xia, Qian Yu, Sumanta Khan, Eli Megidish, Bingran You, Boerge Hemmerling, Andrew Jayich, Juergen Biener, Hartmut H\"affner(参考訳) 量子情報、精密測定、光学時計、質量分析などのトラップイオンの応用は、特殊な高性能イオントラップに依存している。 後者のアプリケーションは通常、マクロな3Dポールトラップをカスタマイズするために伝統的な加工を使用し、量子情報処理の実験は通常、トラップを小型化しスケーラビリティの要求を満たすためにフォトリソグラフィ技術に依存する。 しかし、フォトリソグラフィーを用いて最適な閉じ込めに必要な複雑な3次元電極構造を構築することは困難である。 本稿では,2光子重合による高分解能3d印刷技術を採用し,高性能な小型3dトラップの大量製造を支援する。 3dプリントイオントラップは,従来の3dトラップの利点と,1個のカルシウムイオンを2mhzから24mhzのラジアルトラップ周波数の小さな3dプリントイオントラップに閉じ込めることで,フォトリソグラフィによる小型化を組み合わせる。 この密閉は、イオン冷却要件を緩和し、ドップラー冷却のみで光学量子ビット上での高忠実性コヒーレント操作を示すことができる。 3dプリンティング技術により、設計の自由度はスケーラビリティと精度を犠牲にすることなく大幅に拡大され、イオントラップジオメトリはより高い性能と優れた機能性のために最適化される。

Trapped-ion applications, such as in quantum information, precision measurements, optical clocks, and mass spectrometry, rely on specialized high-performance ion traps. The latter applications typically employ traditional machining to customize macroscopic 3D Paul traps, while quantum information processing experiments usually rely on photo-lithographic techniques to miniaturize the traps and meet scalability requirements. Using photolithography, however, it is challenging to fabricate the complex three-dimensional electrode structures required for optimal confinement. Here we address these limitations by adopting a high-resolution 3D printing technology based on two-photon polymerization supporting fabrication of large arrays of high-performance miniaturized 3D traps. We show that 3D-printed ion traps combine the advantages of traditionally machined 3D traps with the miniaturization provided by photolithography by confining single calcium ions in a small 3D-printed ion trap with radial trap frequencies ranging from 2 MHz to 24 MHz. The tight confinement eases ion cooling requirements and allows us to demonstrate high-fidelity coherent operations on an optical qubit after only Doppler cooling. With 3D printing technology, the design freedom is drastically expanded without sacrificing scalability and precision so that ion trap geometries can be optimized for higher performance and better functionality.
翻訳日:2023-10-05 03:21:21 公開日:2023-10-01
# 一般量子アーキテクチャにおけるcnot回路の近接近傍合成

Nearest neighbor synthesis of CNOT circuits on general quantum architectures ( http://arxiv.org/abs/2310.00592v1 )

ライセンス: Link先を確認
Xinyu Chen, Mingqiang Zhu, Xueyun Cheng, Pengcheng Zhu, Zhijin Guan(参考訳) 近年、量子コンピューティングはNISQ (Noisy Intermediate-Scale Quantum) に組み込まれている。 しかし、NISQデバイスは接続性やハードウェアノイズに固有の制限があり、NISQチップ上での正しい実行には量子論理回路の変換が必要である。 物理制約を考慮したCNOT回路の合成は、量子アルゴリズムを物理チップ上で直接実行できる低レベル量子回路に変換することができる。 現在、ハミルトニアンパスを持たない量子チップアーキテクチャは、スケーラビリティと低ノイズ特性のため、徐々にハミルトニアンパスに置き換えられている。 そこで本稿では,アーキテクチャにおける最寄りのcnot回路をハミルトニアンパスと併用し,実行後の回路の忠実性を高めることを目的としたcnot回路の近接合成について述べる。 まず,ハミルトニアンパスの有無を考慮した一般アーキテクチャのためのキー量子ビット優先マッピングモデルを提案する。 次に,tabu探索を用いて回路合成後のcnotゲート数を削減し,その忠実度を向上させることにより,初期マッピングをさらに改善する。 最後に、キー量子ビット優先マッピングモデルに基づいて、一般アーキテクチャのためのノイズ対応cnot回路近傍合成アルゴリズムを提案する。 実験結果から,提案手法は実量子コンピューティングデバイス上でのCNOT回路の忠実度を約64.7%向上し,大幅な最適化効果が得られた。 さらに、この手法を他の回路に拡張することで、NISQデバイス上での量子コンピューティング全体の性能を向上させることができる。

In recent years, quantum computing has entered the Noisy Intermediate-Scale Quantum (NISQ). However, NISQ devices have inherent limitations in terms of connectivity and hardware noise, necessitating the transformation of quantum logic circuits for correct execution on NISQ chips. The synthesis of CNOT circuits considering physical constraints can transform quantum algorithms into low-level quantum circuits, which can be directly executed on physical chips. In the current trend, quantum chip architectures without Hamiltonian paths are gradually replacing architectures with Hamiltonian paths due to their scalability and low-noise characteristics. To this end, this paper addresses the nearest neighbor synthesis of CNOT circuits in the architecture with and without Hamiltonian paths, aiming to enhance the fidelity of the circuits after execution. Firstly, a key-qubit priority mapping model for the general architecture with and without Hamiltonian paths is proposed. Secondly, the initial mapping is further improved by using tabu search to reduce the number of CNOT gates after circuit synthesis and enhance its fidelity. Finally, the noise-aware CNOT circuit nearest neighbor synthesis algorithm for the general architecture is proposed based on the key-qubit priority mapping model. Experimental results show that the proposed method can enhance the fidelity of the CNOT circuit by about 64.7% on a real quantum computing device, achieving a significant optimization effect. Furthermore, the method can be extended to other circuits, thereby improving the overall performance of quantum computing on NISQ devices.
翻訳日:2023-10-05 03:20:58 公開日:2023-10-01
# コヒーレント冷原子アンサンブルを用いたキラル位相変調と波長可変ブロードバンド完全吸収器

Chiral phase modulation and tunable broadband perfect absorber using the coherent cold atomic ensemble ( http://arxiv.org/abs/2310.00590v1 )

ライセンス: Link先を確認
Yi-Xin Wang, Yan Zhang, Lei Du, Jin-Hui Wu(参考訳) 線形空間的クラマース・クロニッヒ変調の下でのコヒーレント原子アンサンブルの2チャネル非相互散乱について検討し, 従来の連続原子媒体では利用できないキラル位相変調とブロードバンドコヒーレント完全/非対称吸収器への応用の可能性について検討した。 電磁誘導透過の状況下では,光フィルタ,一方向増幅器,コヒーレント非対称吸収器の実装に使用可能な,進行するキラル量子光学を豊かにする方向依存型(キラル)位相変調を観察する。 コヒーレント完全吸収(CPA)の文字列生成条件を単純化することにより、ブロードバンドとシャープエッジの2チャネルCPAを実現する可能性を示す。 本提案は,量子情報処理および光通信ネットワークのための超低消費電力の全光機能デバイスの設計と統合に有用である。

We investigate the two-channel nonreciprocal scattering of a coherent atomic ensemble under the linear spatial Kramers-Kronig modulation, which has potential applications in chiral phase modulation and broadband coherent perfect/asymmetric absorber that yet is typically unavailable in conventional continuous atomic media. In the regime of electromagnetically induced transparency, we observe the direction-dependent (chiral) phase modulation, which may enrich the burgeoning chiral quantum optics and can be used for implementing photonic filters, unidirectional amplifiers, and coherent asymmetric absorbers. By simplifying the stringent generation condition of coherent perfect absorption (CPA), we demonstrate the possibility of realizing two-channel CPA with broadband and sharp edges. Our proposal may be used to design and integrate some all-optical functional devices at extremely low power levels for quantum information processing and optical communication networks.
翻訳日:2023-10-05 03:20:17 公開日:2023-10-01
# フォトニクスにおける量子生成逆数学習

Quantum generative adversarial learning in photonics ( http://arxiv.org/abs/2310.00585v1 )

ライセンス: Link先を確認
Yizhi Wang, Shichuan Xue, Yaxuan Wang, Yong Liu, Jiangfang Ding, Weixu Shi, Dongyang Wang, Yingwen Liu, Xiang Fu, Guangyao Huang, Anqi Huang, Mingtang Deng, Junjie Wu(参考訳) qgans(quantum generative adversarial networks)は、量子コンピューティングと機械学習の交差点であり、古典的アナログよりも潜在的に優れているため、広く注目を集めている。 しかし,現在のNISQ(ノイズ中間スケール量子)コンピューティングでは,QGANが一般的にノイズや欠陥に影響を受ける短期量子デバイス上で学習タスクを実行できるかどうかを検討することが不可欠である。 本稿では、プログラマブルなシリコン量子フォトニクスチップを用いて、初めてフォトニクスにおけるQGANモデルを実験的に実証し、その性能に及ぼすノイズと欠陥の影響について検討する。 以上の結果から, 発電機の位相シフト器の最大半分が損傷を受けた場合や, 発電機および識別器の位相シフト器が最大0.04$\pi$の位相ノイズを受ける場合であっても, QGANは90%以上の忠実度で高品質な量子データを生成することができることがわかった。 我々の研究は、NISQ時代の量子ハードウェア上でQGANを実装する可能性に光を当てている。

Quantum Generative Adversarial Networks (QGANs), an intersection of quantum computing and machine learning, have attracted widespread attention due to their potential advantages over classical analogs. However, in the current era of Noisy Intermediate-Scale Quantum (NISQ) computing, it is essential to investigate whether QGANs can perform learning tasks on near-term quantum devices usually affected by noise and even defects. In this Letter, using a programmable silicon quantum photonic chip, we experimentally demonstrate the QGAN model in photonics for the first time, and investigate the effects of noise and defects on its performance. Our results show that QGANs can generate high-quality quantum data with a fidelity higher than 90\%, even under conditions where up to half of the generator's phase shifters are damaged, or all of the generator and discriminator's phase shifters are subjected to phase noise up to 0.04$\pi$. Our work sheds light on the feasibility of implementing QGANs on NISQ-era quantum hardware.
翻訳日:2023-10-05 03:19:48 公開日:2023-10-01
# cityfm: 都市の課題を解決するための都市基盤モデル

CityFM: City Foundation Models to Solve Urban Challenges ( http://arxiv.org/abs/2310.00583v1 )

ライセンス: Link先を確認
Pasquale Balsebre, Weiming Huang, Gao Cong, Yi Li(参考訳) 事前訓練されたファンデーションモデル(PFM)は、幅広い下流タスクで容易に使用できる汎用表現を学習する能力のために、人工知能のパラダイムシフトに取って代わられている。 PFMは自然言語処理やコンピュータビジョンなど様々な分野で採用されているが、地理空間データを扱う能力や都市部の質問に答える能力は依然として限られている。 これは、点、セグメント、領域を含む様々なデータ型と、空間的位置、視覚特性、テキスト的アノテーションといった複数の情報モダリティを含む地理空間データの固有不均一性に起因する可能性がある。 Volunteered Geographic Informationイニシアチブの急増と、世界中で自由にアクセスできるOpenStreetMapのようなオープンな地理空間データソースの普及は、このギャップを埋める有望な機会を明らかにしている。 そこで本稿では,都市のような地理的地域において基礎モデルを学習するための自己監督型枠組みであるcityfmを提案する。 CityFMはOSMからのオープンデータのみに依存し、空間情報、視覚情報、テキスト情報を組み込んだ異なるタイプのエンティティのマルチモーダル表現を生成する。 基礎モデルを用いて生成したエンティティ表現を定性的な観点から分析し,道路,建物,地域レベルの下流タスクを定量的に実験する。 その結果を各アプリケーション用に特別に調整したアルゴリズムと比較する。 すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。

Pre-trained Foundation Models (PFMs) have ushered in a paradigm-shift in Artificial Intelligence, due to their ability to learn general-purpose representations that can be readily employed in a wide range of downstream tasks. While PFMs have been successfully adopted in various fields such as Natural Language Processing and Computer Vision, their capacity in handling geospatial data and answering urban questions remains limited. This can be attributed to the intrinsic heterogeneity of geospatial data, which encompasses different data types, including points, segments and regions, as well as multiple information modalities, such as a spatial position, visual characteristics and textual annotations. The proliferation of Volunteered Geographic Information initiatives, and the ever-increasing availability of open geospatial data sources, like OpenStreetMap, which is freely accessible globally, unveil a promising opportunity to bridge this gap. In this paper, we present CityFM, a self-supervised framework to train a foundation model within a selected geographical area of interest, such as a city. CityFM relies solely on open data from OSM, and produces multimodal representations of entities of different types, incorporating spatial, visual, and textual information. We analyse the entity representations generated using our foundation models from a qualitative perspective, and conduct quantitative experiments on road, building, and region-level downstream tasks. We compare its results to algorithms tailored specifically for the respective applications. In all the experiments, CityFM achieves performance superior to, or on par with, the baselines.
翻訳日:2023-10-05 03:19:09 公開日:2023-10-01
# Pink:マルチモーダルLLMにおける参照理解のパワーの解放

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs ( http://arxiv.org/abs/2310.00582v1 )

ライセンス: Link先を確認
Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang(参考訳) マルチモーダル大規模言語モデル(mllms)は多くの視覚言語タスクにおいて顕著な能力を示している。 しかしながら、ほとんどのMLLMは画像内の特定の物体や領域を識別する参照理解(Referential Comprehension, RC)能力に欠けており、微粒な知覚タスクでの応用を制限している。 本稿では,MLLMのRC性能向上のための新しい手法を提案する。 本モデルは,画像中の参照対象を境界ボックスの座標を用いて表現し,その座標を特定の形式でテキストに変換する。 これにより、モデルは座標を自然言語として扱うことができる。 さらに、既存のデータセットにおけるアノテーションの可能性を解き放ち、様々な設計されたrcタスクによる命令チューニングデータセットを低コストで構築する。 モデルのRC能力をさらに向上するために,データセットの高密度オブジェクトアノテーションを高品質な参照-表現-バウンディングボックスに拡張する自己一貫性のブートストラップ法を提案する。 このモデルにはパラメータ効率のよいチューニングフレームワークが組み込まれており、マルチモーダル命令チューニングの恩恵を受けることができる。 このフレームワークは、トレーニング可能なパラメータを少なくし、トレーニングデータも少なくする。 従来の視覚言語およびRCタスクの実験結果から,本手法の優れた性能を示す。 例えば、VSR上のインストラクトBLIPよりも12.0%精度が向上し、ゼロショット設定下ではRefCOCO_valでコスモス2を24.7%上回っている。 MMBenchのリーダーボードでもトップの地位を獲得しました。 モデル、データセット、コードはhttps://github.com/SY-Xuan/Pinkで公開されている。

Multi-modal Large Language Models (MLLMs) have shown remarkable capabilities in many vision-language tasks. Nevertheless, most MLLMs still lack the Referential Comprehension (RC) ability to identify a specific object or area in images, limiting their application in fine-grained perception tasks. This paper proposes a novel method to enhance the RC capability for MLLMs. Our model represents the referring object in the image using the coordinates of its bounding box and converts the coordinates into texts in a specific format. This allows the model to treat the coordinates as natural language. Moreover, we construct the instruction tuning dataset with various designed RC tasks at a low cost by unleashing the potential of annotations in existing datasets. To further boost the RC ability of the model, we propose a self-consistent bootstrapping method that extends dense object annotations of a dataset into high-quality referring-expression-bounding-box pairs. The model is trained end-to-end with a parameter-efficient tuning framework that allows both modalities to benefit from multi-modal instruction tuning. This framework requires fewer trainable parameters and less training data. Experimental results on conventional vision-language and RC tasks demonstrate the superior performance of our method. For instance, our model exhibits a 12.0% absolute accuracy improvement over Instruct-BLIP on VSR and surpasses Kosmos-2 by 24.7% on RefCOCO_val under zero-shot settings. We also attain the top position on the leaderboard of MMBench. The models, datasets, and codes are publicly available at https://github.com/SY-Xuan/Pink
翻訳日:2023-10-05 03:18:38 公開日:2023-10-01
# 9歳の子どもたちは感情でChatGPTを上回り-中国語の文章から

Nine-year-old children outperformed ChatGPT in emotion: Evidence from Chinese writing ( http://arxiv.org/abs/2310.00578v1 )

ライセンス: Link先を確認
Siyi Cao, Tongquan Zhou, Siruo Zhou(参考訳) chatgptは複雑で人間のようなテキストを生成する能力を持つことが実証されており、近年の研究により、心の理論におけるその性能は9歳児に匹敵することが分かった。 しかし、ChatGPTが9歳児を超えているかどうかは不明である。 そこで本研究では,ChatGPTと9歳児のナラティブと科学の両面から,ChatGPTの相対的な強みと弱さを明らかにすることを目的として,中国語の筆記能力について検討した。 収集したデータは、流布度、精度、複雑さ、凝集度、感情の5つの言語次元で分析された。 各次元は正確な指標によって評価された。 以上の結果から,9歳児は書字の流布度や結束度においてChatGPT以上に優れていた。 一方,ChatGPTは,子どもに比べて精度が優れていた。 複雑性に関して、子どもたちは科学をテーマとした執筆において優れたスキルを示し、一方でChatGPTは自然をテーマとした執筆において優位に立った。 この研究は、中国の作文において、9歳の子供がChatGPTよりも強い感情を伝えることを明らかにする先駆的な研究である。

ChatGPT has been demonstrated to possess significant capabilities in generating intricate, human-like text, and recent studies have established that its performance in theory of mind tasks is comparable to that of a nine-year-old child. However, it remains uncertain whether ChatGPT surpasses nine-year-old children in Chinese writing proficiency. To explore this, our study juxtaposed the Chinese writing performance of ChatGPT and nine-year-old children on both narrative and scientific topics, aiming to uncover the relative strengths and weaknesses of ChatGPT in writing. The collected data were analyzed across five linguistic dimensions: fluency, accuracy, complexity, cohesion, and emotion. Each dimension underwent assessment through precise indices. The findings revealed that nine-year-old children excelled beyond ChatGPT in terms of fluency and cohesion within their writing. In contrast, ChatGPT manifested a superior performance in accuracy compared to the children. Concerning complexity, children exhibited superior skills in science-themed writing, while ChatGPT prevailed in nature-themed writing. Significantly, this research is pioneering in revealing that nine-year-old children convey stronger emotions than ChatGPT in their Chinese compositions.
翻訳日:2023-10-05 03:17:57 公開日:2023-10-01
# 量子プロセッサによる宇宙源からのミューオンの通過をタグ付けする2層シリコン画素検出器の概念的研究

Conceptual study of a two-layer silicon pixel detector to tag the passage of muons from cosmic sources through quantum processors ( http://arxiv.org/abs/2310.00577v1 )

ライセンス: Link先を確認
Ulascan Sarica(参考訳) 量子コンピューティングの最近の研究により、多くの物理量子ビットを持つ量子誤差補正は高エネルギー粒子からの電離放射線によって制限されていることが示されている。 量子プロセッサの物理的設定により、宇宙源からのミューオンの寄与はこれらの相互作用のかなりの部分を構成することができる。 これらのミューオンのほとんどは停止が難しいため、2層シリコン画素検出器の概念的な研究を行い、代わりに固体量子プロセッサにヒットをタグ付けする。 典型的な希釈冷凍機幾何モデルでは,少なくとも1つの層が冷凍機の深部 ((<1K) フランジで操作されている場合,50%以上の効率が達成される可能性が最も高い。 この発見に続いて、量子誤差補正アルゴリズムの入力を提供するのに十分な速さで、極低温で動作でき、消費電力が非常に少ないシリコン画素検出器の開発を可能にする、新たな研究プログラムを提案する。

Recent studies in quantum computing have shown that quantum error correction with large numbers of physical qubits are limited by ionizing radiation from high-energy particles. Depending on the physical setup of the quantum processor, the contribution of muons from cosmic sources can constitute a significant fraction of these interactions. As most of these muons are difficult to stop, we perform a conceptual study of a two-layer silicon pixel detector to tag their hits on a solid-state quantum processor instead. With a typical dilution refrigerator geometry model, we find that efficiencies greater than 50% are most likely to be achieved if at least one of the layers is operated at the deep-cryogenic (<1 K) flanges of the refrigerator. Following this finding, we further propose a novel research program that could allow the development of silicon pixel detectors that are fast enough to provide input to quantum error correction algorithms, can operate at deep-cryogenic temperatures, and have very low power consumption.
翻訳日:2023-10-05 03:17:35 公開日:2023-10-01
# GrowLength: 徐々に成長するトレーニング長によるLLMの加速

GrowLength: Accelerating LLMs Pretraining by Progressively Growing Training Length ( http://arxiv.org/abs/2310.00576v1 )

ライセンス: Link先を確認
Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Chia-Yuan Chang, Xia Hu(参考訳) LLM(Large Language Models)の高度化と複雑化により、前例のない進歩がもたらされるが、同時に相当な計算資源とかなりのコストが要求される。 これらの課題を解決するために,本論文では,LLMの事前学習プロセスを促進するために,'\growlength' という新しい,シンプルで効果的な手法を提案する。 本手法は,事前学習期間を通じてトレーニング期間を徐々に延長し,計算コストを軽減し,効率を向上する。 例えば、配列の長さは128で始まり、徐々に4096まで伸びる。 このアプローチにより、モデルが限られた時間枠内で多数のトークンを処理することが可能になり、パフォーマンスが向上する可能性がある。 言い換えると、効率の向上はリソースの利用を最適化した短いシーケンスでのトレーニングから得られる。 最先端llmを用いた広範な実験により,本手法を用いてトレーニングしたモデルがより高速に収束するだけでなく,既存の手法でトレーニングしたモデルよりも優れたパフォーマンス指標を示すことが明らかになった。 さらに,加速を事前訓練するLLMの手法は追加のエンジニアリング作業を必要としないため,LLMの領域における現実的な解決策となる。

The evolving sophistication and intricacies of Large Language Models (LLMs) yield unprecedented advancements, yet they simultaneously demand considerable computational resources and incur significant costs. To alleviate these challenges, this paper introduces a novel, simple, and effective method named ``\growlength'' to accelerate the pretraining process of LLMs. Our method progressively increases the training length throughout the pretraining phase, thereby mitigating computational costs and enhancing efficiency. For instance, it begins with a sequence length of 128 and progressively extends to 4096. This approach enables models to process a larger number of tokens within limited time frames, potentially boosting their performance. In other words, the efficiency gain is derived from training with shorter sequences optimizing the utilization of resources. Our extensive experiments with various state-of-the-art LLMs have revealed that models trained using our method not only converge more swiftly but also exhibit superior performance metrics compared to those trained with existing methods. Furthermore, our method for LLMs pretraining acceleration does not require any additional engineering efforts, making it a practical solution in the realm of LLMs.
翻訳日:2023-10-05 03:17:21 公開日:2023-10-01
# 連合学習における逆伝達可能性の理解

Understanding Adversarial Transferability in Federated Learning ( http://arxiv.org/abs/2310.00616v1 )

ライセンス: Link先を確認
Yijiang Li, Ying Gao and Haohan Wang(参考訳) 悪意あるクライアントのグループは、そのIDを解き、良心的なクライアントとして振る舞うことによって、訓練中にモデルに影響を与え、訓練後の相手の立場を、FLシステムで訓練されたデータのサブセットであるデータで、転送可能な敵攻撃を行うためにのみ明らかにしている。 我々の目的は、FLシステムが様々な構成でこの実践的な環境で直面する課題をフルに理解することである。 このような攻撃が可能であることに気付きますが、クリーンイメージの精度が同等であれば、フェデレーションモデルの方が集中型モデルよりも堅牢です。 本研究では,分散データにおける分散トレーニングと平均化操作の2つの要因から,ロバスト性を仮定した。 実証実験と理論的解析の両方の観点から証拠を提供する。 本研究は,フェデレートラーニングシステムの堅牢性を理解し,フェデレーションラーニングアプリケーションに対する実践的な疑問を提起する。

We investigate the robustness and security issues from a novel and practical setting: a group of malicious clients has impacted the model during training by disguising their identities and acting as benign clients, and only revealing their adversary position after the training to conduct transferable adversarial attacks with their data, which is usually a subset of the data that FL system is trained with. Our aim is to offer a full understanding of the challenges the FL system faces in this practical setting across a spectrum of configurations. We notice that such an attack is possible, but the federated model is more robust compared with its centralized counterpart when the accuracy on clean images is comparable. Through our study, we hypothesized the robustness is from two factors: the decentralized training on distributed data and the averaging operation. We provide evidence from both the perspective of empirical experiments and theoretical analysis. Our work has implications for understanding the robustness of federated learning systems and poses a practical question for federated learning applications.
翻訳日:2023-10-05 03:11:08 公開日:2023-10-01
# 相互距離予測によるシーン認識型人間の動き予測

Scene-aware Human Motion Forecasting via Mutual Distance Prediction ( http://arxiv.org/abs/2310.00615v1 )

ライセンス: Link先を確認
Chaoyue Xing and Wei Mao and Miaomiao Liu(参考訳) 本稿では,シーン認識型3次元ヒューマンモーション予測の問題に取り組む。 この課題の重要な課題は、人間とシーンの相互作用をモデル化することで、シーンと一致する未来の人間の動きを予測することである。 近年の研究では、人間とシーンの相互作用に対する明示的な制約がゴーストモーションの発生を妨げていることが示されているが、それらは部分的な人間の動きにのみ制約を与えている。 この制限に対処するため,人体とシーン間の相互距離との人間とシーンの相互作用をモデル化する。 このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。 特に、相互距離制約は、人間のメッシュ上の各頂点からシーン表面への符号付き距離と、基本シーンポイントからヒューマンメッシュへの距離という2つの構成要素から構成されている。 まず,過去の動き系列とシーンとの将来の相互距離を予測し,予測された相互距離に基づいて将来の人間の動き条件付けを予測する2つの予測ステップを備えたパイプラインを開発する。 トレーニング中、予測されたポーズと相互距離の一貫性を明示的に促進する。 提案手法は,合成データと実データの両方において最先端の手法より優れている。

In this paper, we tackle the problem of scene-aware 3D human motion forecasting. A key challenge of this task is to predict future human motions that are consistent with the scene, by modelling the human-scene interactions. While recent works have demonstrated that explicit constraints on human-scene interactions can prevent the occurrence of ghost motion, they only provide constraints on partial human motion e.g., the global motion of the human or a few joints contacting the scene, leaving the rest motion unconstrained. To address this limitation, we propose to model the human-scene interaction with the mutual distance between the human body and the scene. Such mutual distances constrain both the local and global human motion, resulting in a whole-body motion constrained prediction. In particular, mutual distance constraints consist of two components, the signed distance of each vertex on the human mesh to the scene surface, and the distance of basis scene points to the human mesh. We develop a pipeline with two prediction steps that first predicts the future mutual distances from the past human motion sequence and the scene, and then forecasts the future human motion conditioning on the predicted mutual distances. During training, we explicitly encourage consistency between the predicted poses and the mutual distances. Our approach outperforms the state-of-the-art methods on both synthetic and real datasets.
翻訳日:2023-10-05 03:10:48 公開日:2023-10-01
# 分子特性予測のためのハイパーネットワークによる階層的適応

Hierarchical Adaptation with Hypernetworks for Few-shot Molecular Property Prediction ( http://arxiv.org/abs/2310.00614v1 )

ライセンス: Link先を確認
Shiguang Wu, Yaqing Wang, Quanming Yao(参考訳) 分子特性予測(MPP)は生物医学的応用において重要であり、ラベルの欠如に自然に悩まされ、数発の学習問題を形成している。 最先端のアプローチは通常、モデルパラメータと分子の学習困難の違いを無視する勾配に基づくメタ学習戦略に基づいている。 上記の問題に対処するために, 少数ショットMPP (HiMPP) のための新しい階層適応機構を提案する。 モデルはエンコーダ・予測フレームワークに従う。 まず,メッセージ伝達中にノード埋め込みを変調するハイパーネットワークを設計することにより,エンコーダのパラメータを選択的に適応させる。 次に、分子レベルの適応を別のハイパーネットワークを設計し、予測器においてより難しい分子により大きな伝播ステップを割り当てる。 このように、分子表現は、階層的に特性レベルから分子レベルに変換される。 以上の結果から,HMPPはMPP問題において最先端の性能を達成し,階層適応機構が合理的かつ効果的であることが示唆された。

Molecular property prediction (MPP) is important in biomedical applications, which naturally suffers from a lack of labels, thus forming a few-shot learning problem. State-of-the-art approaches are usually based on gradient-based meta learning strategy, which ignore difference in model parameter and molecule's learning difficulty. To address above problems, we propose a novel hierarchical adaptation mechanism for few-shot MPP (HiMPP). The model follows a encoder-predictor framework. First, to make molecular representation property-adaptive, we selectively adapt encoder's parameter by designing a hypernetwork to modulate node embeddings during message propagation. Next, we make molecule-level adaptation by design another hypernetwork, which assigns larger propagating steps for harder molecules in predictor. In this way, molecular representation is transformed by HiMPP hierarchically from property-level to molecular level. Extensive results show that HiMPP obtains the state-of-the-art performance in few-shot MPP problems, and our proposed hierarchical adaptation mechanism is rational and effective.
翻訳日:2023-10-05 03:10:25 公開日:2023-10-01
# 状態多項式最適化の不確かさ関係

Uncertainty relations from state polynomial optimization ( http://arxiv.org/abs/2310.00612v1 )

ライセンス: Link先を確認
Mois\'es Bermejo Mor\'an, Felix Huber(参考訳) 不確実性関係は量子力学の基本的な特徴である。 これらの関係はどのように体系的に見つけることができるのか? ここでは Klep らによる状態多項式最適化フレームワークを利用する。 [arXiv:2301.12513] 所定の通勤関係にある演算子の2乗期待値の和を束縛する。 これにより、厳密な不確実性関係に収束する完全半定値プログラミング階層が得られる。 我々の階層は、パウリ、ハイゼンベルク-ワイル、フェルミオン作用素のテンソル積や高次モーメントを含む幅広いシナリオに適用できる。

Uncertainty relations are a fundamental feature of quantum mechanics. How can these relations be found systematically? Here we make use of the state polynomial optimization framework from Klep et al. [arXiv:2301.12513] to bound the sum of squared expectation values of operators, that are subject to prescribed commutation relations. This yields a complete semidefinite programming hierarchy that converges to tight uncertainty relations. Our hierarchy applies to a wide range of scenarios including tensor-products of Pauli, Heisenberg-Weyl, and fermionic operators, as well as higher order moments.
翻訳日:2023-10-05 03:10:07 公開日:2023-10-01
# Skip-Plan:Condensed Action Space Learningによる教育ビデオの手順計画

Skip-Plan: Procedure Planning in Instructional Videos via Condensed Action Space Learning ( http://arxiv.org/abs/2310.00608v1 )

ライセンス: Link先を確認
Zhiheng Li, Wenjia Geng, Muheng Li, Lei Chen, Yansong Tang, Jiwen Lu, Jie Zhou(参考訳) 本稿では,授業ビデオにおける手続き計画のための複合的行動空間学習手法であるskip-planを提案する。 現在の手順計画手法はすべて、各時点における状態-作用対予測に固執し、隣接する動作を生成する。 人間の直観と一致するが、そのような方法論は一貫して高次元の状態監視と行動シーケンスにおけるエラーの蓄積に苦しむ。 本研究では,手続き計画問題を数学的連鎖モデルとして抽象化する。 アクションチェーン内の不確定なノードとエッジをスキップすることで、長い複雑なシーケンス関数を2つの方法で短くて信頼性の高い関数に転送する。 まず、中間状態の監視をすべて省略し、アクション予測のみに焦点を当てます。 第二に、信頼できない中間作用をスキップすることで、比較的長い鎖を複数の短い鎖に分解する。 この意味により、我々のモデルは、凝縮された作用空間内のアクションシーケンス内のあらゆる種類の信頼できる部分関係を探索する。 大規模な実験により、Skip-PlanはCrossTaskとCOINベンチマークで最先端のパフォーマンスを達成している。

In this paper, we propose Skip-Plan, a condensed action space learning method for procedure planning in instructional videos. Current procedure planning methods all stick to the state-action pair prediction at every timestep and generate actions adjacently. Although it coincides with human intuition, such a methodology consistently struggles with high-dimensional state supervision and error accumulation on action sequences. In this work, we abstract the procedure planning problem as a mathematical chain model. By skipping uncertain nodes and edges in action chains, we transfer long and complex sequence functions into short but reliable ones in two ways. First, we skip all the intermediate state supervision and only focus on action predictions. Second, we decompose relatively long chains into multiple short sub-chains by skipping unreliable intermediate actions. By this means, our model explores all sorts of reliable sub-relations within an action sequence in the condensed action space. Extensive experiments show Skip-Plan achieves state-of-the-art performance on the CrossTask and COIN benchmarks for procedure planning.
翻訳日:2023-10-05 03:09:58 公開日:2023-10-01
# 対向訓練におけるロバストオーバーフィッティングの発症について

On the Onset of Robust Overfitting in Adversarial Training ( http://arxiv.org/abs/2310.00607v1 )

ライセンス: Link先を確認
Chaojian Yu, Xiaolong Shi, Jun Yu, Bo Han, Tongliang Liu(参考訳) Adversarial Training (AT)は、堅牢なニューラルネットワークを構築するために広く使われているアルゴリズムであるが、堅牢なオーバーフィッティングの問題に悩まされている。 本研究では, 正規データと逆摂動を分離した要因と考え, 強固な過剰フィッティングの原因がatにおける因子アブレーションによる正常データから生じることを同定する。 さらに、ロバストな一般化を欠いたモデル学習機能の結果として、ロバストな過剰フィッティングが始まっていることを説明し、これを非効率的な機能と呼ぶ。 具体的には、非効率的な機能の生成と、それらがいかに堅牢な過剰フィッティングにつながるかに関する詳細な分析を提供する。 さらに, 強靭な過フィット現象を包括的に理解し, 強靭な過フィットを非効率な特徴の観点から緩和するために, 様々なテクニックを再検討する。 この理解は、ニューラルネットワークによる非効率な特徴の学習を妨げるために、攻撃強度とデータ拡張という2つの尺度を提案するきっかけとなる。 ベンチマークデータセットを用いた広範囲な実験により,提案手法の有効性が実証された。

Adversarial Training (AT) is a widely-used algorithm for building robust neural networks, but it suffers from the issue of robust overfitting, the fundamental mechanism of which remains unclear. In this work, we consider normal data and adversarial perturbation as separate factors, and identify that the underlying causes of robust overfitting stem from the normal data through factor ablation in AT. Furthermore, we explain the onset of robust overfitting as a result of the model learning features that lack robust generalization, which we refer to as non-effective features. Specifically, we provide a detailed analysis of the generation of non-effective features and how they lead to robust overfitting. Additionally, we explain various empirical behaviors observed in robust overfitting and revisit different techniques to mitigate robust overfitting from the perspective of non-effective features, providing a comprehensive understanding of the robust overfitting phenomenon. This understanding inspires us to propose two measures, attack strength and data augmentation, to hinder the learning of non-effective features by the neural network, thereby alleviating robust overfitting. Extensive experiments conducted on benchmark datasets demonstrate the effectiveness of the proposed methods in mitigating robust overfitting and enhancing adversarial robustness.
翻訳日:2023-10-05 03:09:45 公開日:2023-10-01
# LLM生成反事実を用いたブラックボックスNLPモデルの忠実説明

Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals ( http://arxiv.org/abs/2310.00603v1 )

ライセンス: Link先を確認
Yair Gat, Nitay Calderon, Amir Feder, Alexander Chapanin, Amit Sharma, Roi Reichart(参考訳) NLPシステムの予測に関する因果的説明は、安全性を確保し信頼を確立するために不可欠である。 しかし、既存の手法はモデル予測を効果的または効率的に説明できないことが多く、しばしばモデル固有である。 本稿では,モデル非依存な説明に対処し,反事実的(cf)近似の2つのアプローチを提案する。 最初のアプローチはCF生成であり、大きな言語モデル(LLM)は、相反する概念を維持しつつ、特定のテキスト概念を変更するよう促される。 このアプローチは非常に効果的であることが示されているが、推論時にLSMを適用するのはコストがかかる。 そこで我々は,マッチングに基づく第2のアプローチを提案し,LLMが学習時に指導し,専用の埋め込み空間を学習する手法を提案する。 この空間は与えられた因果グラフに忠実であり、CFを近似するマッチを効果的に識別するのに役立つ。 忠実な説明を構築するためにはCFの近似が必要であることを理論的に証明した後、我々のアプローチをベンチマークし、数十億のパラメータを持つLLMを含むいくつかのモデルを説明する。 実験の結果,cf生成モデルのモデル非依存な説明器としての優れた性能を示す。 さらに、テスト時間リソースをはるかに少なくするマッチングアプローチは、多くのベースラインを超える効果的な説明を提供する。 また,Top-K手法は全試験手法を普遍的に改善することがわかった。 最後に,モデル説明のための新しいベンチマークの構築におけるllmの可能性を示し,その結果を検証した。 我々の研究は、NLPシステムに対する効率的かつ正確なアプローチのために新しい経路を照らす。

Causal explanations of the predictions of NLP systems are essential to ensure safety and establish trust. Yet, existing methods often fall short of explaining model predictions effectively or efficiently and are often model-specific. In this paper, we address model-agnostic explanations, proposing two approaches for counterfactual (CF) approximation. The first approach is CF generation, where a large language model (LLM) is prompted to change a specific text concept while keeping confounding concepts unchanged. While this approach is demonstrated to be very effective, applying LLM at inference-time is costly. We hence present a second approach based on matching, and propose a method that is guided by an LLM at training-time and learns a dedicated embedding space. This space is faithful to a given causal graph and effectively serves to identify matches that approximate CFs. After showing theoretically that approximating CFs is required in order to construct faithful explanations, we benchmark our approaches and explain several models, including LLMs with billions of parameters. Our empirical results demonstrate the excellent performance of CF generation models as model-agnostic explainers. Moreover, our matching approach, which requires far less test-time resources, also provides effective explanations, surpassing many baselines. We also find that Top-K techniques universally improve every tested method. Finally, we showcase the potential of LLMs in constructing new benchmarks for model explanation and subsequently validate our conclusions. Our work illuminates new pathways for efficient and accurate approaches to interpreting NLP systems.
翻訳日:2023-10-05 03:09:10 公開日:2023-10-01
# 自動コヒーレンス評価のための新しい計算・モデリング基盤

A Novel Computational and Modeling Foundation for Automatic Coherence Assessment ( http://arxiv.org/abs/2310.00598v1 )

ライセンス: Link先を確認
Aviya Maimon and Reut Tsarfaty(参考訳) コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。 生成aiの時代において、コヒーレンス評価は多くのnlpタスク(要約、生成、ロングフォーム質問応答など)に不可欠である。 しかし、nlp {coherence} は形式的定義や評価指標を持たない不明確な概念であり、大規模な自動的および体系的コヒーレンス評価を可能にする。 このギャップを埋めるため、本研究では、3つの条件----------------------------からなる言論を一貫性のあるものにする形式的言語的定義(英語版)(the formal language definition of \citet{reinhart:1980})を採用し、これらの条件を各計算タスクとして定式化する。 私たちはそれを仮定する (i)これらすべてのタスクで訓練されたモデルがコヒーレンス検出に必要な特徴を学習し、それ (二)各タスクのジョイントモデルが各タスクで個別に訓練されたモデルの性能を上回っていること。 被験者が評価したコヒーレンススコアの2つのベンチマークにおいて,500の短文と4kの実世界テキストを含む2つの短文を比較検討した結果,提案課題の協調学習により,タスク固有のモデルと比較して各タスクのパフォーマンスが向上し,コヒーレンス全体の評価性能が,強いベースラインと比較して向上することが確認された。 ここでは,コヒーレンスの形式的および計算的設定が,コヒーレンスの大規模自動評価の高度な手法の基礎となることを結論する。

Coherence is an essential property of well-written texts, that refers to the way textual units relate to one another. In the era of generative AI, coherence assessment is essential for many NLP tasks; summarization, generation, long-form question-answering, and more. However, in NLP {coherence} is an ill-defined notion, not having a formal definition or evaluation metrics, that would allow for large-scale automatic and systematic coherence assessment. To bridge this gap, in this work we employ the formal linguistic definition of \citet{Reinhart:1980} of what makes a discourse coherent, consisting of three conditions -- {\em cohesion, consistency} and {\em relevance} -- and formalize these conditions as respective computational tasks. We hypothesize that (i) a model trained on all of these tasks will learn the features required for coherence detection, and that (ii) a joint model for all tasks will exceed the performance of models trained on each task individually. On two benchmarks for coherence scoring rated by humans, one containing 500 automatically-generated short stories and another containing 4k real-world texts, our experiments confirm that jointly training on the proposed tasks leads to better performance on each task compared with task-specific models, and to better performance on assessing coherence overall, compared with strong baselines. We conclude that the formal and computational setup of coherence as proposed here provides a solid foundation for advanced methods of large-scale automatic assessment of coherence.
翻訳日:2023-10-05 03:08:34 公開日:2023-10-01
# RegBN: 正規化を伴うマルチモーダルデータのバッチ正規化

RegBN: Batch Normalization of Multimodal Data with Regularization ( http://arxiv.org/abs/2310.00641v1 )

ライセンス: Link先を確認
Morteza Ghahremani and Christian Wachinger(参考訳) 近年、マルチモーダルデータの統合におけるニューラルネットワークの成功によって、マルチソースセンサーが捉えた高次元データを統合することへの関心が高まっている。 しかし、不均一なマルチモーダルデータの統合は、不均一なデータソース間の結合効果と依存関係が望ましくない変数とバイアスを導入し、マルチモーダルモデルの準最適性能をもたらすなど、大きな課題となる。 そのため、融合前にデータモダリティから抽出した低レベル・高レベルの特徴を正規化することが重要となる。 本稿では,正規化を組み込んだマルチモーダルデータの正規化のための新しい手法,reginbnを提案する。 RegBNはFrobeniusのノルムを正規化用語として使用して、共同創設者の副作用と、異なるデータソース間の基盤となる依存関係に対処している。 提案手法は複数のモードにまたがってうまく一般化し,学習可能なパラメータの必要性を排除し,トレーニングや推論を簡素化する。 言語, 音声, 画像, ビデオ, 深度, 表層, 三次元MRIなどの多彩なモーダル性を含む5つの研究領域の8つのデータベース上でRegBNの有効性を検証する。 提案手法は多層パーセプトロン,畳み込みニューラルネットワーク,視覚トランスフォーマーなどの異なるアーキテクチャに適用可能であり,マルチモーダルニューラルネットワークにおいて低レベルと高レベルの両方の機能を効果的に正規化できることを示す。 RegBN は \url{https://github.com/mogvision/regbn} で利用可能である。

Recent years have witnessed a surge of interest in integrating high-dimensional data captured by multisource sensors, driven by the impressive success of neural networks in the integration of multimodal data. However, the integration of heterogeneous multimodal data poses a significant challenge, as confounding effects and dependencies among such heterogeneous data sources introduce unwanted variability and bias, leading to suboptimal performance of multimodal models. Therefore, it becomes crucial to normalize the low- or high-level features extracted from data modalities before their fusion takes place. This paper introduces a novel approach for the normalization of multimodal data, called RegBN, that incorporates regularization. RegBN uses the Frobenius norm as a regularizer term to address the side effects of confounders and underlying dependencies among different data sources. The proposed method generalizes well across multiple modalities and eliminates the need for learnable parameters, simplifying training and inference. We validate the effectiveness of RegBN on eight databases from five research areas, encompassing diverse modalities such as language, audio, image, video, depth, tabular, and 3D MRI. The proposed method demonstrates broad applicability across different architectures such as multilayer perceptrons, convolutional neural networks, and vision transformers, enabling effective normalization of both low- and high-level features in multimodal neural networks. RegBN is available at \url{https://github.com/mogvision/regbn}.
翻訳日:2023-10-05 02:59:57 公開日:2023-10-01
# 膵管腺癌の外科的切除性予測における腫瘍血管病変の分節的評価

Segmentation-based Assessment of Tumor-Vessel Involvement for Surgical Resectability Prediction of Pancreatic Ductal Adenocarcinoma ( http://arxiv.org/abs/2310.00639v1 )

ライセンス: Link先を確認
Christiaan Viviers, Mark Ramaekers, Amaan Valiuddin, Terese Hellstr\"om, Nick Tasios, John van der Ven, Igor Jacobs, Lotte Ewals, Joost Nederend, Peter de With, Misha Luyer, Fons van der Sommen(参考訳) 膵管腺癌 (PDAC) は, 治療の選択肢が限られる進行癌である。 本研究では,腫瘍の発見可能性を決定する重要な因子である腫瘍血管の関与を自動的に評価するワークフローと深層学習に基づくセグメンテーションモデルを提案する。 再感染性の正しい評価は、治療の選択肢を決定するのに不可欠である。 提案されたワークフローは、CTスキャンを処理して腫瘍と血管構造を分類し、空間的関係と血管の関与の程度を分析し、PDACアセスメントで専門家の放射線学者として働くのと同様の方法に従う。 3つのセグメンテーションアーキテクチャ(nnU-Net, 3D U-Net, Probabilistic 3D U-Net)は静脈,動脈,腫瘍のセグメンテーションにおいて高い精度を達成する。 これらのセグメンテーションは、高い精度(0.88感度と0.98特異性)で腫瘍の関与を自動検出し、腫瘍-血管接触の程度を自動計算することができる。 さらに,これらの重要な構造において,オブザーバ間の大きな変動があるため,各モデルが捉えた不確実性を提示し,予測した関与に関する洞察をさらに高める。 この結果、臨床医は腫瘍-血管の関与を明確に示し、外科的介入のよりインフォームドな意思決定を容易にするのに使用できる。 提案手法は,膵癌患者の予後,パーソナライズされた治療戦略,生存率を改善する上で有用なツールである。

Pancreatic ductal adenocarcinoma (PDAC) is a highly aggressive cancer with limited treatment options. This research proposes a workflow and deep learning-based segmentation models to automatically assess tumor-vessel involvement, a key factor in determining tumor resectability. Correct assessment of resectability is vital to determine treatment options. The proposed workflow involves processing CT scans to segment the tumor and vascular structures, analyzing spatial relationships and the extent of vascular involvement, which follows a similar way of working as expert radiologists in PDAC assessment. Three segmentation architectures (nnU-Net, 3D U-Net, and Probabilistic 3D U-Net) achieve a high accuracy in segmenting veins, arteries, and the tumor. The segmentations enable automated detection of tumor involvement with high accuracy (0.88 sensitivity and 0.86 specificity) and automated computation of the degree of tumor-vessel contact. Additionally, due to significant inter-observer variability in these important structures, we present the uncertainty captured by each of the models to further increase insights into the predicted involvement. This result provides clinicians with a clear indication of tumor-vessel involvement and may be used to facilitate more informed decision-making for surgical interventions. The proposed method offers a valuable tool for improving patient outcomes, personalized treatment strategies and survival rates in pancreatic cancer.
翻訳日:2023-10-05 02:59:31 公開日:2023-10-01
# 分散td学習における初歩的視点

A primal-dual perspective for distributed TD-learning ( http://arxiv.org/abs/2310.00638v1 )

ライセンス: Link先を確認
Han-Dong Lim, Donghwan Lee(参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討する。 提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)力学と解釈できる。 零空間制約を受ける原始-双対ODEダイナミクスの指数収束挙動に基づいて、各分散TD学習シナリオにおける最終繰り返しの挙動を、定数と減少するステップサイズの両方を考慮して検討し、i.d.とマルコフ観測モデルの両方を取り入れた。 既存の手法とは異なり、提案アルゴリズムは、基礎となる通信ネットワーク構造が二重確率行列によって特徴づけられるという仮定を必要としない。

The goal of this paper is to investigate distributed temporal difference (TD) learning for a networked multi-agent Markov decision process. The proposed approach is based on distributed optimization algorithms, which can be interpreted as primal-dual Ordinary differential equation (ODE) dynamics subject to null-space constraints. Based on the exponential convergence behavior of the primal-dual ODE dynamics subject to null-space constraints, we examine the behavior of the final iterate in various distributed TD-learning scenarios, considering both constant and diminishing step-sizes and incorporating both i.i.d. and Markovian observation models. Unlike existing methods, the proposed algorithm does not require the assumption that the underlying communication network structure is characterized by a doubly stochastic matrix.
翻訳日:2023-10-05 02:59:06 公開日:2023-10-01
# 大規模言語モデルを用いた知識工学

Knowledge Engineering using Large Language Models ( http://arxiv.org/abs/2310.00637v1 )

ライセンス: Link先を確認
Bradley P. Allen and Lise Stork and Paul Groth(参考訳) 知識工学は、知識を生成し、適用するプロセスの作成と保守に焦点を当てた分野である。 伝統的に、知識工学のアプローチは形式言語で表現される知識に焦点を当ててきた。 大規模言語モデルの出現とその自然言語で効果的に機能する能力は、最も広い意味では、知識工学の基礎と実践に関する疑問を提起する。 本稿では,知識工学におけるLLMの役割について概説する。 1)ハイブリッドニューロシンボリック知識システムの作成,及び 2)自然言語の知識工学を可能にする。 さらに、これらの方向性に取り組むための重要なオープンリサーチの質問を定式化します。

Knowledge engineering is a discipline that focuses on the creation and maintenance of processes that generate and apply knowledge. Traditionally, knowledge engineering approaches have focused on knowledge expressed in formal languages. The emergence of large language models and their capabilities to effectively work with natural language, in its broadest sense, raises questions about the foundations and practice of knowledge engineering. Here, we outline the potential role of LLMs in knowledge engineering, identifying two central directions: 1) creating hybrid neuro-symbolic knowledge systems; and 2) enabling knowledge engineering in natural language. Additionally, we formulate key open research questions to tackle these directions.
翻訳日:2023-10-05 02:58:51 公開日:2023-10-01
# 敵対的攻撃に対する2次元・3次元深層学習モデルのロバスト性と安全性に関する調査

A Survey of Robustness and Safety of 2D and 3D Deep Learning Models Against Adversarial Attacks ( http://arxiv.org/abs/2310.00633v1 )

ライセンス: Link先を確認
Yanjie Li, Bin Xie, Songtao Guo, Yuanyuan Yang, Bin Xiao(参考訳) ディープラーニングの急速な発展により、2Dおよび3Dコンピュータビジョンアプリケーションは、オートパイロットやID認証など、多くの安全なシステムにデプロイされる。 しかし、ディープラーニングモデルは敵攻撃に対する堅牢性に制限があるため、十分に信頼できない。 物理的に実現可能な敵攻撃は、応用と人間の安全にさらに致命的な脅威をもたらす。 敵対的攻撃に対するディープラーニングモデルの堅牢性と安全性を調査する論文が数多く出ている。 信頼できるaiを実現するために、我々はまず異なる視点から一般的な脅威モデルを構築し、2dおよび3d攻撃の最新の進歩を包括的にレビューする。 我々は,敵対的事例の概念を知覚的摂動を超えて拡張し,170以上の論文を照合し,様々な敵対的攻撃に対する深層学習モデルの堅牢性について概説する。 我々の知る限りでは、我々は3Dモデルに対する敵攻撃を体系的に研究した最初の人物である。 さらに,安全性侵害につながる物理的敵攻撃についても検討する。 最後に、私たちは現在人気のトピックを要約し、課題に関する洞察を与え、信頼できるaiに関する今後の研究に光を当てます。

Benefiting from the rapid development of deep learning, 2D and 3D computer vision applications are deployed in many safe-critical systems, such as autopilot and identity authentication. However, deep learning models are not trustworthy enough because of their limited robustness against adversarial attacks. The physically realizable adversarial attacks further pose fatal threats to the application and human safety. Lots of papers have emerged to investigate the robustness and safety of deep learning models against adversarial attacks. To lead to trustworthy AI, we first construct a general threat model from different perspectives and then comprehensively review the latest progress of both 2D and 3D adversarial attacks. We extend the concept of adversarial examples beyond imperceptive perturbations and collate over 170 papers to give an overview of deep learning model robustness against various adversarial attacks. To the best of our knowledge, we are the first to systematically investigate adversarial attacks for 3D models, a flourishing field applied to many real-world applications. In addition, we examine physical adversarial attacks that lead to safety violations. Last but not least, we summarize present popular topics, give insights on challenges, and shed light on future research on trustworthy AI.
翻訳日:2023-10-05 02:58:42 公開日:2023-10-01
# Win-Win: 2つのWindowsから高解像度ビジョントランスをトレーニング

Win-Win: Training High-Resolution Vision Transformers from Two Windows ( http://arxiv.org/abs/2310.00632v1 )

ライセンス: Link先を確認
Vincent Leroy, Jerome Revaud, Thomas Lucas, Philippe Weinzaepfel(参考訳) トランスフォーマーは最先端のビジョンアーキテクチャの標準となり、画像レベルと高密度のピクセルワイズタスクの両方で印象的なパフォーマンスを達成している。 しかし,高分解能画素ワイドタスクのためのトレーニング用視覚変換器は,コストを抑えることができる。 典型的なソリューションは階層的なアーキテクチャ、高速で近似的な注意、低解像度の作物の訓練に沸騰する。 この後者のソリューションはアーキテクチャ上の選択を制約しないが、トレーニングで使用されるものよりもはるかに高い解像度でテストすると、明らかにパフォーマンスが低下する。 本稿では,高分解能な視覚変換器の効率的なトレーニングと推論のための新しい手法を提案する。 これにより、各ウィンドウ内のトークン間のローカルインタラクションと、異なるウィンドウからのトークン間のグローバルインタラクションを学習することができる。 その結果、モデルは特別なトリックを伴わずに、テスト時に高解像度入力を直接処理できる。 回転埋め込みなどの相対的位置埋め込みを用いた場合,この戦略が有効であることを示す。 フルレゾリューションネットワークよりもトレーニングが4倍高速であり、既存のアプローチと比較してテスト時に使用するのが簡単である。 この戦略を意味的セグメンテーション(セグメンテーション)の高密度な単分子的タスクに適用し、2つのウィンドウを持つ単純な設定が最適であることを示す。 コントリビューションの一般性を示すため,我々はこれを光フローの双眼鏡タスクに拡張し,最高の競合相手よりも桁違いに高速な推測時間を持つフルHD画像を含むSpringベンチマークの最先端性能に到達した。

Transformers have become the standard in state-of-the-art vision architectures, achieving impressive performance on both image-level and dense pixelwise tasks. However, training vision transformers for high-resolution pixelwise tasks has a prohibitive cost. Typical solutions boil down to hierarchical architectures, fast and approximate attention, or training on low-resolution crops. This latter solution does not constrain architectural choices, but it leads to a clear performance drop when testing at resolutions significantly higher than that used for training, thus requiring ad-hoc and slow post-processing schemes. In this paper, we propose a novel strategy for efficient training and inference of high-resolution vision transformers: the key principle is to mask out most of the high-resolution inputs during training, keeping only N random windows. This allows the model to learn local interactions between tokens inside each window, and global interactions between tokens from different windows. As a result, the model can directly process the high-resolution input at test time without any special trick. We show that this strategy is effective when using relative positional embedding such as rotary embeddings. It is 4 times faster to train than a full-resolution network, and it is straightforward to use at test time compared to existing approaches. We apply this strategy to the dense monocular task of semantic segmentation, and find that a simple setting with 2 windows performs best, hence the name of our method: Win-Win. To demonstrate the generality of our contribution, we further extend it to the binocular task of optical flow, reaching state-of-the-art performance on the Spring benchmark that contains Full-HD images with an inference time an order of magnitude faster than the best competitor.
翻訳日:2023-10-05 02:58:22 公開日:2023-10-01
# Finger-UNet: 深部指紋強調のためのU-Netベースのマルチタスクアーキテクチャ

Finger-UNet: A U-Net based Multi-Task Architecture for Deep Fingerprint Enhancement ( http://arxiv.org/abs/2310.00629v1 )

ライセンス: Link先を確認
Ekta Gavas and Anoop Namboodiri(参考訳) 何十年もの間、指紋認証はセキュリティ、法医学、その他の生体認証用途に広く使われてきた。 しかし、良質な指紋の入手は困難であり、認識が困難である。 指紋画像は、リッジ構造が貧弱で、ノイズやコントラストの少ない背景で劣化する可能性がある。 したがって、指紋強調は、指紋認識/検証パイプラインの初期段階において重要な役割を果たす。 本稿では,エンコーダ・デコーダ方式のアーキテクチャについて検討し,低品質指紋を効果的に改善するためにU-Netの直感的な修正を提案する。 指紋強調のための離散ウェーブレット変換(dwt)の使用を調査し,maxプーリングの代わりにウェーブレットアテンションモジュールを用いた。 さらに,正規畳み込みを奥行き分離可能な畳み込みに置き換えることで,性能を低下させることなく,モデルのメモリフットプリントを大幅に削減する。 また,指紋最小予測タスクにドメイン知識を組み込むことで,マルチタスク学習による指紋の再現性が向上することを示す。 さらに,方向推定タスクを統合し,リッジ方向の知識を伝播させ,さらなる性能向上を図る。 そこで本研究では,fvc 2002 および nist sd302 データベース上で実験を行い,本手法の有効性を示す。

For decades, fingerprint recognition has been prevalent for security, forensics, and other biometric applications. However, the availability of good-quality fingerprints is challenging, making recognition difficult. Fingerprint images might be degraded with a poor ridge structure and noisy or less contrasting backgrounds. Hence, fingerprint enhancement plays a vital role in the early stages of the fingerprint recognition/verification pipeline. In this paper, we investigate and improvise the encoder-decoder style architecture and suggest intuitive modifications to U-Net to enhance low-quality fingerprints effectively. We investigate the use of Discrete Wavelet Transform (DWT) for fingerprint enhancement and use a wavelet attention module instead of max pooling which proves advantageous for our task. Moreover, we replace regular convolutions with depthwise separable convolutions, which significantly reduces the memory footprint of the model without degrading the performance. We also demonstrate that incorporating domain knowledge with fingerprint minutiae prediction task can improve fingerprint reconstruction through multi-task learning. Furthermore, we also integrate the orientation estimation task to propagate the knowledge of ridge orientations to enhance the performance further. We present the experimental results and evaluate our model on FVC 2002 and NIST SD302 databases to show the effectiveness of our approach compared to previous works.
翻訳日:2023-10-05 02:57:54 公開日:2023-10-01
# セルオートマトンを用いた連合学習のための知的クライアント選択

Intelligent Client Selection for Federated Learning using Cellular Automata ( http://arxiv.org/abs/2310.00627v1 )

ライセンス: Link先を確認
Nikolaos Pavlidis, Vasileios Perifanis, Theodoros Panagiotis Chatzinikolaou, Georgios Ch. Sirakoulis, Pavlos S. Efraimidis(参考訳) Federated Learning(FL)は、輸送、通信、医療など、さまざまな現実のアプリケーションにおいて、プライバシの強化とレイテンシの最小化のための有望なソリューションとして登場した。 FLは、数百万のデバイスとIoTセンサからのデータを活用することで、マシンラーニング(ML)をエッジに持ち込もうとしているため、動的環境への迅速な応答と、高度にパーソナライズされた結果が得られる。 しかし、多様なアプリケーションにまたがるセンサの増加は、コミュニケーションやリソース割り当ての面での課題を招き、すべてのデバイスがフェデレーションプロセスに参加するのを妨げ、効果的なFLクライアント選択の必要性を喚起する。 本稿では, 高速進化環境における時空間変化を効果的に捉えるモデルとして, セルラーオートマタ(CA)を利用した新しいクライアント選択アルゴリズムであるCellular Automaton-based Client Selection (CA-CS)を提案する。 ca-csは、各クライアントの計算資源と通信能力を考慮しつつ、クライアント選択プロセス中のクライアント間インタラクションを考慮し、実世界のシナリオに非常に近いデータストリーム上のオンラインflプロセスに対するインテリジェントなクライアント選択を可能にする。 本稿では,mnistとcifar-10のデータセットを用いたca-csアルゴリズムの徹底的な評価を行い,ランダムなクライアント選択方式と直接比較する。 その結果,CA-CSは高遅延クライアントを効果的に回避しつつ,ランダム選択手法に匹敵する精度を達成できることを示した。

Federated Learning (FL) has emerged as a promising solution for privacy-enhancement and latency minimization in various real-world applications, such as transportation, communications, and healthcare. FL endeavors to bring Machine Learning (ML) down to the edge by harnessing data from million of devices and IoT sensors, thus enabling rapid responses to dynamic environments and yielding highly personalized results. However, the increased amount of sensors across diverse applications poses challenges in terms of communication and resource allocation, hindering the participation of all devices in the federated process and prompting the need for effective FL client selection. To address this issue, we propose Cellular Automaton-based Client Selection (CA-CS), a novel client selection algorithm, which leverages Cellular Automata (CA) as models to effectively capture spatio-temporal changes in a fast-evolving environment. CA-CS considers the computational resources and communication capacity of each participating client, while also accounting for inter-client interactions between neighbors during the client selection process, enabling intelligent client selection for online FL processes on data streams that closely resemble real-world scenarios. In this paper, we present a thorough evaluation of the proposed CA-CS algorithm using MNIST and CIFAR-10 datasets, while making a direct comparison against a uniformly random client selection scheme. Our results demonstrate that CA-CS achieves comparable accuracy to the random selection approach, while effectively avoiding high-latency clients.
翻訳日:2023-10-05 02:57:34 公開日:2023-10-01
# GhostEncoder: 自己教師型学習におけるトレーニング済みエンコーダに対する動的トリガー付きステルスバックドアアタック

GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to Pre-trained Encoders in Self-supervised Learning ( http://arxiv.org/abs/2310.00626v1 )

ライセンス: Link先を確認
Qiannan Wang, Changchun Yin, Zhe Liu, Liming Fang, Run Wang, Chenhao Lin(参考訳) コンピュータビジョンの領域では、自己教師付き学習(ssl)は、大量のラベルなし画像を利用して事前学習された画像エンコーダを訓練することに関連する。 事前訓練された画像エンコーダは特徴抽出器として機能し、様々なタスクのための下流分類器の構築を容易にする。 しかし、SSLの使用は、様々なバックドア攻撃に関連するセキュリティ研究の増加につながっている。 現在、sslのバックドアアタックで使用されるトリガーパターンは、主に可視または静的(サンプル非依存)であり、バックドアを隠ぺいなくし、攻撃性能に著しく影響を及ぼす。 本研究では,SSLに対する初のダイナミックなバックドア攻撃であるGhostEncoderを提案する。 SSLの既存のバックドア攻撃とは異なり、GhostEncoderは画像ステガノグラフィー技術を使用して、隠された情報を良質な画像にエンコードし、バックドアサンプルを生成する。 次に、操作データセット上にトレーニング済みの画像エンコーダを微調整してバックドアを注入し、バックドアエンコーダ上に構築された下流分類器がターゲット下流タスクのバックドア動作を継承できるようにする。 我々は,3つの下流タスクにおいてghostencoderを評価し,ghostencoderが画像に対して実用的なステルス性を提供し,その有用性を損なうことなく,高い攻撃成功率で被害者モデルを欺くことを実証する。 さらに、GhostEncoderはSTRIP、STRIP-Cl、SSL-Cleanseといった最先端の防御に耐える。

Within the realm of computer vision, self-supervised learning (SSL) pertains to training pre-trained image encoders utilizing a substantial quantity of unlabeled images. Pre-trained image encoders can serve as feature extractors, facilitating the construction of downstream classifiers for various tasks. However, the use of SSL has led to an increase in security research related to various backdoor attacks. Currently, the trigger patterns used in backdoor attacks on SSL are mostly visible or static (sample-agnostic), making backdoors less covert and significantly affecting the attack performance. In this work, we propose GhostEncoder, the first dynamic invisible backdoor attack on SSL. Unlike existing backdoor attacks on SSL, which use visible or static trigger patterns, GhostEncoder utilizes image steganography techniques to encode hidden information into benign images and generate backdoor samples. We then fine-tune the pre-trained image encoder on a manipulation dataset to inject the backdoor, enabling downstream classifiers built upon the backdoored encoder to inherit the backdoor behavior for target downstream tasks. We evaluate GhostEncoder on three downstream tasks and results demonstrate that GhostEncoder provides practical stealthiness on images and deceives the victim model with a high attack success rate without compromising its utility. Furthermore, GhostEncoder withstands state-of-the-art defenses, including STRIP, STRIP-Cl, and SSL-Cleanse.
翻訳日:2023-10-05 02:57:06 公開日:2023-10-01
# GNRK-Graph Neural Runge-Kutta法による偏微分方程式の解法

GNRK: Graph Neural Runge-Kutta method for solving partial differential equations ( http://arxiv.org/abs/2310.00618v1 )

ライセンス: Link先を確認
Hoyun Choi, Sungyeop Lee, B. Kahng, Junghyo Jo(参考訳) ニューラルネットワークは偏微分方程式(PDE)を扱うための効率的な代理モデルであることが証明されている。 しかしながら、それらの適用性はしばしば特定の制約の下で特定のPDEに制限される。 効率と汎用性のバランスを保ちつつ、従来の解法に触発された再帰構造とグラフニューラルネットワークモジュールを統合する、graph neural runge-kutta(gnrk)と呼ばれる新しいアプローチを導入する。 GNRKはグラフ構造で動作し、領域の離散化中の空間的および時間的解像度の変化に対するレジリエンスを保証する。 さらに、初期条件やPDE係数に関係なく、一般的なPDEに対処する能力を示す。 その性能を評価するため、GNRKを既存のニューラルネットワークベースのPDEソルバに対して2次元バーガー方程式を用いてベンチマークし、モデルサイズと精度の点でGNRKの優位性を明らかにする。 さらに、このグラフベースの方法論は結合微分方程式を解くための簡単な拡張を提供し、通常はより複雑なモデルを必要とする。

Neural networks have proven to be efficient surrogate models for tackling partial differential equations (PDEs). However, their applicability is often confined to specific PDEs under certain constraints, in contrast to classical PDE solvers that rely on numerical differentiation. Striking a balance between efficiency and versatility, this study introduces a novel approach called Graph Neural Runge-Kutta (GNRK), which integrates graph neural network modules with a recurrent structure inspired by the classical solvers. The GNRK operates on graph structures, ensuring its resilience to changes in spatial and temporal resolutions during domain discretization. Moreover, it demonstrates the capability to address general PDEs, irrespective of initial conditions or PDE coefficients. To assess its performance, we benchmark the GNRK against existing neural network based PDE solvers using the 2-dimensional Burgers' equation, revealing the GNRK's superiority in terms of model size and accuracy. Additionally, this graph-based methodology offers a straightforward extension for solving coupled differential equations, typically necessitating more intricate models.
翻訳日:2023-10-05 02:56:41 公開日:2023-10-01
# 生体検出競争 --非接触指紋アルゴリズムとシステム(livdet-2023非接触指紋)

Liveness Detection Competition -- Noncontact-based Fingerprint Algorithms and Systems (LivDet-2023 Noncontact Fingerprint) ( http://arxiv.org/abs/2310.00659v1 )

ライセンス: Link先を確認
Sandip Purnapatra, Humaira Rezaie, Bhavin Jawade, Yu Liu, Yue Pan, Luke Brosell, Mst Rumana Sumi, Lambert Igene, Alden Dimarco, Srirangaraj Setlur, Soumyabrata Dey, Stephanie Schuckers, Marco Huber, Jan Niklas Kolf, Meiling Fang, Naser Damer, Banafsheh Adami, Raul Chitic, Karsten Seelert, Vishesh Mistry, Rahul Parthe, Umit Kacar(参考訳) ライブネス検出(liveness detection、livdet)は、学界や業界に開放された国際コンペティションシリーズで、プレゼンテーションアタック検出(pad)における最先端の評価と報告を行う。 LivDet-2023 非接触フィンガープリントは、アルゴリズムとシステムのための非接触指紋ベースのPADコンペティションの最初の版である。 このコンペティションは、非接触型指紋パッドの重要なベンチマークとして機能する (a)アルゴリズム及びシステムのための非接触型指紋PADにおける最先端の独立評価 (b)各種提示攻撃機器(PAI)の指写真と生体計測研究コミュニティへのライブ指を含む共通評価プロトコル (c) は標準的なアルゴリズムとシステム評価プロトコルを提供し、学術および産業の最先端のアルゴリズムを、古いスマートフォンと新しいAndroidスマートフォンの両方で比較分析する。 勝利したアルゴリズムはAPCERが11.35%、BPCERが0.62%に達した。 勝利したシステムは13.0.4%のAPCERを達成し、全スマートフォンでテストされたすべてのPAIに対して平均1.68%のBPCERを達成した。 指によるPAD決定を個別に行う4本の指システムもテストされた。 コンペに使用するデータセットは、データ共有プロトコルに従って、すべての研究者に1つ提供される

Liveness Detection (LivDet) is an international competition series open to academia and industry with the objec-tive to assess and report state-of-the-art in Presentation Attack Detection (PAD). LivDet-2023 Noncontact Fingerprint is the first edition of the noncontact fingerprint-based PAD competition for algorithms and systems. The competition serves as an important benchmark in noncontact-based fingerprint PAD, offering (a) independent assessment of the state-of-the-art in noncontact-based fingerprint PAD for algorithms and systems, and (b) common evaluation protocol, which includes finger photos of a variety of Presentation Attack Instruments (PAIs) and live fingers to the biometric research community (c) provides standard algorithm and system evaluation protocols, along with the comparative analysis of state-of-the-art algorithms from academia and industry with both old and new android smartphones. The winning algorithm achieved an APCER of 11.35% averaged overall PAIs and a BPCER of 0.62%. The winning system achieved an APCER of 13.0.4%, averaged over all PAIs tested over all the smartphones, and a BPCER of 1.68% over all smartphones tested. Four-finger systems that make individual finger-based PAD decisions were also tested. The dataset used for competition will be available 1 to all researchers as per data share protocol
翻訳日:2023-10-05 02:52:12 公開日:2023-10-01
# コンピューター教育におけるaiのジェネレーティブ革命をナビゲートするロボットが登場

The Robots are Here: Navigating the Generative AI Revolution in Computing Education ( http://arxiv.org/abs/2310.00658v1 )

ライセンス: Link先を確認
James Prather, Paul Denny, Juho Leinonen, Brett A. Becker, Ibrahim Albluwi, Michelle Craig, Hieke Keuning, Natalie Kiesler, Tobias Kohn, Andrew Luxton-Reilly, Stephen MacNeil, Andrew Peterson, Raymond Pettit, Brent N. Reeves, Jaromir Savelka(参考訳) 人工知能(AI)の最近の進歩は、コンピュータを根本的に再構築し、大規模言語モデル(LLM)は、ソースコードと自然言語命令を効果的に生成、解釈できるようになっている。 これらの創発的な能力は、教育者がこれらの課題にどう対応し、この新しい技術によってもたらされる機会を活用するべきかという、コンピュータ教育コミュニティの緊急の疑問を引き起こした。 本報告では,コンピュータ教育におけるllmの包括的探索を行い,5つの重要な貢献を行った。 まず、コンピュータ教育におけるLLMに関する文献の詳細なレビューと71の主記事からの合成結果について述べる。 第2に,20か国にまたがるコンピュータ学生とインストラクターを対象に,llmに対する一般的な態度とコンピュータ教育の文脈における利用について調査を行った。 第三に、教育がどう変化しているかを理解するために、すでにカリキュラムと評価を取り入れた5大陸の22のコンピューティング教育者との詳細なインタビューから得られた洞察を提供する。 第4に,acm倫理規範(acm code of ethics)を用いて,大規模言語モデルを用いた計算機教育における倫理的課題の議論を行い,政策立案者,教育者,学生に対して具体的アドバイスを行った。 最後に,様々な計算教育データセットにおけるllmsの性能をベンチマークし,現在のモデルの能力が急速に向上していることを示す。 本報告は, LLM と LLM ベースのツールをコンピュータ教室で探索, 適用, 使用, 評価している研究者と実践者の双方にとって, 焦点となるものとなる。

Recent advancements in artificial intelligence (AI) are fundamentally reshaping computing, with large language models (LLMs) now effectively being able to generate and interpret source code and natural language instructions. These emergent capabilities have sparked urgent questions in the computing education community around how educators should adapt their pedagogy to address the challenges and to leverage the opportunities presented by this new technology. In this working group report, we undertake a comprehensive exploration of LLMs in the context of computing education and make five significant contributions. First, we provide a detailed review of the literature on LLMs in computing education and synthesise findings from 71 primary articles. Second, we report the findings of a survey of computing students and instructors from across 20 countries, capturing prevailing attitudes towards LLMs and their use in computing education contexts. Third, to understand how pedagogy is already changing, we offer insights collected from in-depth interviews with 22 computing educators from five continents who have already adapted their curricula and assessments. Fourth, we use the ACM Code of Ethics to frame a discussion of ethical issues raised by the use of large language models in computing education, and we provide concrete advice for policy makers, educators, and students. Finally, we benchmark the performance of LLMs on various computing education datasets, and highlight the extent to which the capabilities of current models are rapidly improving. Our aim is that this report will serve as a focal point for both researchers and practitioners who are exploring, adapting, using, and evaluating LLMs and LLM-based tools in computing classrooms.
翻訳日:2023-10-05 02:51:49 公開日:2023-10-01
# LEGO-Prover: ライブラリを成長させるニューラルネットワーク理論

LEGO-Prover: Neural Theorem Proving with Growing Libraries ( http://arxiv.org/abs/2310.00656v1 )

ライセンス: Link先を確認
Huajian Xin, Haiming Wang, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang(参考訳) 大規模言語モデル(llm)の成功にもかかわらず、定理証明のタスクは、まだ完全には解決されていない最も難しい推論タスクの1つである。 言語モデルを用いた以前の手法は有望な結果を示しているが、中学レベルの定理を証明するのに苦労している。 これらの方法の一般的な制限の1つは、定理証明過程全体において固定定理ライブラリを仮定することである。 しかし、誰もが知っているように、新しい有用な定理や新しい理論を作ることは、数学を進歩させ、より強くより深い結果を証明するのに有用であるだけでなく、必要不可欠である。 本稿では,証明された補題を含むスキルライブラリを,定理証明に使用されるLLMの能力を高めるためのスキルとして活用するLEGO-Proverを提案する。 LEGO-Proverは、証明をモジュール的に構築することにより、ライブラリから取得した既存のスキルを活用し、証明プロセス中に新しいスキルを作成することができる。 これらのスキルはさらに進化し(llmを促すことによって)、別のスケールでライブラリを豊かにします。 モジュール性と再利用可能なスキルがライブラリに絶えず追加され、複雑な数学的問題に取り組むことができる。 さらに、学習ライブラリは、人間の証明と形式的証明のギャップをさらに橋渡しし、欠落したステップを挿入しやすくする。 LEGO-Proverは、MiniF2F-valid(48.0%から57.0%)とMiniF2F-test(45.5%から47.1%)の最先端パスレートを推し進めている。 証明プロセスの間、lego-proverは20,000以上のスキル(理論/補題)を生成し、成長中のライブラリに追加する。 我々のアブレーション研究は、これらの新たなスキルが定理の証明に役立つことを示唆し、47.1%から50.4%に改善した。 コードと生成されたすべてのスキルもリリースします。

Despite the success of large language models (LLMs), the task of theorem proving still remains one of the hardest reasoning tasks that is far from being fully solved. Prior methods using language models have demonstrated promising results, but they still struggle to prove even middle school level theorems. One common limitation of these methods is that they assume a fixed theorem library during the whole theorem proving process. However, as we all know, creating new useful theorems or even new theories is not only helpful but crucial and necessary for advancing mathematics and proving harder and deeper results. In this work, we present LEGO-Prover, which employs a growing skill library containing verified lemmas as skills to augment the capability of LLMs used in theorem proving. By constructing the proof modularly, LEGO-Prover enables LLMs to utilize existing skills retrieved from the library and to create new skills during the proving process. These skills are further evolved (by prompting an LLM) to enrich the library on another scale. Modular and reusable skills are constantly added to the library to enable tackling increasingly intricate mathematical problems. Moreover, the learned library further bridges the gap between human proofs and formal proofs by making it easier to impute missing steps. LEGO-Prover advances the state-of-the-art pass rate on miniF2F-valid (48.0% to 57.0%) and miniF2F-test (45.5% to 47.1%). During the proving process, LEGO-Prover also manages to generate over 20,000 skills (theorems/lemmas) and adds them to the growing library. Our ablation study indicates that these newly added skills are indeed helpful for proving theorems, resulting in an improvement from a success rate of 47.1% to 50.4%. We also release our code and all the generated skills.
翻訳日:2023-10-05 02:51:22 公開日:2023-10-01
# patchmixer:長期時系列予測のためのパッチ混合アーキテクチャ

PatchMixer: A Patch-Mixing Architecture for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2310.00655v1 )

ライセンス: Link先を確認
Zeying Gong, Yujin Tang, Junwei Liang(参考訳) 近年、トランスフォーマーは時系列予測タスクにおいて支配的なアーキテクチャとなっているが、基本的な課題が残っている。 これらの課題に対処するため,新しいCNNモデルであるPatchMixerを提案する。 時間的情報を保存するために置換不変畳み込み構造を導入する。 従来のcnnとは異なっており,複数のスケールや枝を多用することが多いため,この手法は奥行き分離可能な畳み込みにのみ依存する。 これにより、単一スケールアーキテクチャを用いて局所的な特徴とグローバルな相関を抽出できる。 さらに, 線形成分と非線形成分の両方を包含する2重予測ヘッドを用いて, 将来の曲線傾向と詳細をモデル化する。 7つの時系列予測ベンチマークによる実験結果は、最先端のcnn法と比べ、patchmixerはそれぞれ3.9\%$と21.2\%$の相対的な改善が得られ、最も先進的な方法よりも2~3倍高速であることを示している。 コードとモデルをリリースします。

Although the Transformer has been the dominant architecture for time series forecasting tasks in recent years, a fundamental challenge remains: the permutation-invariant self-attention mechanism within Transformers leads to a loss of temporal information. To tackle these challenges, we propose PatchMixer, a novel CNN-based model. It introduces a permutation-variant convolutional structure to preserve temporal information. Diverging from conventional CNNs in this field, which often employ multiple scales or numerous branches, our method relies exclusively on depthwise separable convolutions. This allows us to extract both local features and global correlations using a single-scale architecture. Furthermore, we employ dual forecasting heads that encompass both linear and nonlinear components to better model future curve trends and details. Our experimental results on seven time-series forecasting benchmarks indicate that compared with the state-of-the-art method and the best-performing CNN, PatchMixer yields $3.9\%$ and $21.2\%$ relative improvements, respectively, while being 2-3x faster than the most advanced method. We will release our code and model.
翻訳日:2023-10-05 02:50:47 公開日:2023-10-01
# 汎用マルチモーダルアシスタントに向けた視覚言語基礎モデルとデータセットの再構成

Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants ( http://arxiv.org/abs/2310.00653v1 )

ライセンス: Link先を確認
Tianyu Yu, Jinyi Hu, Yuan Yao, Haoye Zhang, Yue Zhao, Chongyi Wang, Shan Wang, Yinxv Pan, Jiao Xue, Dahai Li, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun(参考訳) 最近のMLLM(Multimodal Large Language Models)は、画像を認識し、オープンエンドの指示に従うという印象的な能力を示している。 MLLMの能力は、視覚モジュールと大規模言語モデルの機能アライメントを容易にするモデルアーキテクチャと、人間の指示に従うためのマルチモーダル命令チューニングデータセットの2つの重要な要素に依存している。 (i)モデルアーキテクチャでは、既存のほとんどのモデルでは、視覚エンコーダと言語モデルとを接続するための外部ブリッジモジュールが導入されている。 本研究では,視覚と言語の間の'out-of-the-box'ブリッジとして,コンパクトな事前学習型視覚言語モデルが本質的に機能することを明らかにする。 そこで本研究では,視覚言語モデルを用いて視覚信号の供給を行うmuffinフレームワークを提案する。 (ii)マルチモーダルなチューニングチューニングデータセットの場合、既存のメソッドは異なるデータセット間の補完関係を省略し、異なるタスクからデータセットを単純に混合する。 代わりに、データセットの相補性を探索し、1.1mの高品質で多様なマルチモーダル命令を生成するunimm-chatデータセットを提案する。 多様なデータセットから同じ画像を記述する情報をマージし、より知識集約的な会話データに変換する。 実験結果は,muffinフレームワークとunimm-chatデータセットの有効性を示す。 Muffinは様々な視覚言語タスクで最先端のパフォーマンスを実現し、LLaVAやInstructBLIPのような最先端モデルを大幅に上回っている。 私たちのモデルとデータセットは、すべてhttps://github.com/thunlp/muffinからアクセスできます。

Recent Multimodal Large Language Models (MLLMs) exhibit impressive abilities to perceive images and follow open-ended instructions. The capabilities of MLLMs depend on two crucial factors: the model architecture to facilitate the feature alignment of visual modules and large language models; the multimodal instruction tuning datasets for human instruction following. (i) For the model architecture, most existing models introduce an external bridge module to connect vision encoders with language models, which needs an additional feature-alignment pre-training. In this work, we discover that compact pre-trained vision language models can inherently serve as ``out-of-the-box'' bridges between vision and language. Based on this, we propose Muffin framework, which directly employs pre-trained vision-language models to act as providers of visual signals. (ii) For the multimodal instruction tuning datasets, existing methods omit the complementary relationship between different datasets and simply mix datasets from different tasks. Instead, we propose UniMM-Chat dataset which explores the complementarities of datasets to generate 1.1M high-quality and diverse multimodal instructions. We merge information describing the same image from diverse datasets and transforms it into more knowledge-intensive conversation data. Experimental results demonstrate the effectiveness of the Muffin framework and UniMM-Chat dataset. Muffin achieves state-of-the-art performance on a wide range of vision-language tasks, significantly surpassing state-of-the-art models like LLaVA and InstructBLIP. Our model and dataset are all accessible at https://github.com/thunlp/muffin.
翻訳日:2023-10-05 02:50:27 公開日:2023-10-01
# パラメータ効率の良い微調整でトロイの木馬を攻撃

Fewer is More: Trojan Attacks on Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2310.00648v1 )

ライセンス: Link先を確認
Lauren Hong (1), Ting Wang (1) ((1) Stony Brook University)(参考訳) パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。 PEFTは最小限のパラメータのみをチューニングすることで、完全な微調整に匹敵するパフォーマンスを達成する。 しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。 本稿では,PEFTがトロイの木馬攻撃に特有の脆弱性を示すことを示すパイロット実験を行った。 具体的には,両レベル最適化による下流適応を考慮した新たな攻撃である PETA について述べる。上層目標がバックドアを PLM に埋め込む一方で,下層目標が PEFT をシミュレートして PLM のタスク固有性能を維持する。 様々なダウンストリームタスクやトリガ設計において,攻撃成功率と影響を受けないクリーンさの両方の観点から,PETAの有効性を実証する。 両レベル最適化は本質的にはバックドアとPEFTモジュールを「直交」し、PEFT全体を通してバックドアを保持する。 この知見に基づいて,PEFT をバックドア PLM の選択層で省略し,これらの層のパラメータのサブセットを解凍する簡単な防御法を探索し,PETA を効果的に中和することを示した。

Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance comparable to full fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we conduct a pilot study revealing that PEFT exhibits unique vulnerability to trojan attacks. Specifically, we present PETA, a novel attack that accounts for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a PLM while the lower-level objective simulates PEFT to retain the PLM's task-specific performance. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in terms of both attack success rate and unaffected clean accuracy, even after the victim user performs PEFT over the backdoored PLM using untainted data. Moreover, we empirically provide possible explanations for PETA's efficacy: the bilevel optimization inherently 'orthogonalizes' the backdoor and PEFT modules, thereby retaining the backdoor throughout PEFT. Based on this insight, we explore a simple defense that omits PEFT in selected layers of the backdoored PLM and unfreezes a subset of these layers' parameters, which is shown to effectively neutralize PETA.
翻訳日:2023-10-05 02:50:00 公開日:2023-10-01
# タスクパフォーマンスを超えて:インコンテキスト学習による大規模マルチモーダルモデルの欠陥の評価と低減

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning ( http://arxiv.org/abs/2310.00647v1 )

ライセンス: Link先を確認
Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord(参考訳) 大規模言語モデル(llms)の成功に続いて、フラミンゴモデルやそれに続く競合といった大規模なマルチモーダルモデル(lmm)が、ジェネラリストエージェントへの自然なステップとして現れ始めている。 しかし、最近のlmmsとの相互作用は、現在の評価ベンチマークでは捉えられない大きな制限を明らかにする。 実際、タスクパフォーマンス(例えば、VQAの精度)だけでは、実際の能力、限界、そしてそのようなモデルがどの程度人間の期待に合致しているかを理解するための十分な手がかりを提供していない。 これらの欠陥の理解を深めるために、我々は現在の評価パラダイムから逸脱し、(1)5つの異なる軸上の8つの最近のオープンソースLMM(OpenFlamingoやIDEFICSのようなフラミンゴアーキテクチャに基づく)を評価するEvalign-ICLフレームワークを提案する。 これらの軸に対する評価はLMMの重大な欠陥を明らかにする。 これらの問題に効果的に対処し,LLMにおける文脈内学習(ICL)の成功に触発され,(2)ICLを解法として探求し,その限界にどのように影響するかを考察する。 ICL研究に基づき、ICLをさらに推進し、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しいマルチモーダルICLアプローチを提案する。 1) LMM の成功にもかかわらず, スケーリング単独では未解決の欠陥がある。 2) LMM の欠陥に対する ICL の効果は曖昧であり, 説明性, 棄却, 指示に対する効果は高いものの, 構成能力は向上せず, 幻覚も増幅する。 3) 提案するicl変種は,これらの欠陥を効率的に解決するためのポストホックなアプローチとして有望である。 コードはここで入手できる。 https://evalign-icl.github.io/

Following the success of Large Language Models (LLMs), Large Multimodal Models (LMMs), such as the Flamingo model and its subsequent competitors, have started to emerge as natural steps towards generalist agents. However, interacting with recent LMMs reveals major limitations that are hardly captured by the current evaluation benchmarks. Indeed, task performances (e.g., VQA accuracy) alone do not provide enough clues to understand their real capabilities, limitations, and to which extent such models are aligned to human expectations. To refine our understanding of those flaws, we deviate from the current evaluation paradigm and propose the EvALign-ICL framework, in which we (1) evaluate 8 recent open-source LMMs (based on the Flamingo architecture such as OpenFlamingo and IDEFICS) on 5 different axes; hallucinations, abstention, compositionality, explainability and instruction following. Our evaluation on these axes reveals major flaws in LMMs. To efficiently address these problems, and inspired by the success of in-context learning (ICL) in LLMs, (2) we explore ICL as a solution and study how it affects these limitations. Based on our ICL study, (3) we push ICL further and propose new multimodal ICL approaches such as; Multitask-ICL, Chain-of-Hindsight-ICL, and Self-Correcting-ICL. Our findings are as follows; (1) Despite their success, LMMs have flaws that remain unsolved with scaling alone. (2) The effect of ICL on LMMs flaws is nuanced; despite its effectiveness for improved explainability, abstention, and instruction following, ICL does not improve compositional abilities, and actually even amplifies hallucinations. (3) The proposed ICL variants are promising as post-hoc approaches to efficiently tackle some of those flaws. The code is available here: https://evalign-icl.github.io/
翻訳日:2023-10-05 02:49:36 公開日:2023-10-01
# WASA:大規模言語モデル生成データに対するWAtermarkベースのソース属性

WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data ( http://arxiv.org/abs/2310.00646v1 )

ライセンス: Link先を確認
Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low(参考訳) 大規模言語モデル(LLM)の印象的なパフォーマンスと商業化の可能性は、トレーニングデータの知的財産権(IP)に対する深刻な懸念を引き起こしている。 特に、LLMによって生成された合成テキストは、LLMのトレーニングに使用されるデータのIPを侵害する可能性がある。 この目的のためには、できることは必須である。 (a)llm(source attribution)によって合成テキストの生成に寄与したデータ提供者を特定し b) LLM(data provenance)のトレーニングにデータプロバイダからのテキストデータが使用されているかどうかを検証する。 本稿では, llm を用いて, ソース情報を含む埋め込み透かしを含む合成テキストを生成できるようにすることにより, 透かしによって両問題を解決できることを示す。 このようなウォーターマーキングフレームワーク(例えば、ソース属性の正確性、敵に対する堅牢性)の鍵となる特性を特定し、アルゴリズム設計によりこれらの重要な特性を満たすWAtermarking for Source Attribution(WASA)フレームワークを提案する。 私たちのwasaフレームワークは、llmが異なるデータプロバイダのテキストから対応するユニークなウォーターマークへの正確なマッピングを学習することを可能にします。 大規模な実証実験により,我々の WASA フレームワークが有効な情報源属性とデータ証明を実現することを示す。

The impressive performances of large language models (LLMs) and their immense potential for commercialization have given rise to serious concerns over the intellectual property (IP) of their training data. In particular, the synthetic texts generated by LLMs may infringe the IP of the data being used to train the LLMs. To this end, it is imperative to be able to (a) identify the data provider who contributed to the generation of a synthetic text by an LLM (source attribution) and (b) verify whether the text data from a data provider has been used to train an LLM (data provenance). In this paper, we show that both problems can be solved by watermarking, i.e., by enabling an LLM to generate synthetic texts with embedded watermarks that contain information about their source(s). We identify the key properties of such watermarking frameworks (e.g., source attribution accuracy, robustness against adversaries), and propose a WAtermarking for Source Attribution (WASA) framework that satisfies these key properties due to our algorithmic designs. Our WASA framework enables an LLM to learn an accurate mapping from the texts of different data providers to their corresponding unique watermarks, which sets the foundation for effective source attribution (and hence data provenance). Extensive empirical evaluations show that our WASA framework achieves effective source attribution and data provenance.
翻訳日:2023-10-05 02:48:57 公開日:2023-10-01
# ガウスおよびその他の振幅を持つ$\sf{S|LWE\rangle}$の硬さについて

On the Hardness of $\sf{S|LWE\rangle}$ with Gaussian and Other Amplitudes ( http://arxiv.org/abs/2310.00644v1 )

ライセンス: Link先を確認
Yilei Chen, Zihan Hu, Qipeng Liu, Han Luo and Yaxin Tu(参考訳) LWE(Learning with error problem)は、量子後暗号における最も重要なビルディングブロックの1つである。 LWEの量子硬度をよりよく理解するためには、LWEの量子変種を探索し、それらの変種に対する量子アルゴリズムを示し、標準LWEと同じくらい難しいことを証明することが重要である。 この目的のために、Chen, Liu, and Zhandry [Eurocrypt 2022] は$\sf{S|LWE\rangle}$問題を定義し、LWEサンプルの誤差を量子振幅にエンコードする。 そして、いくつかの興味深い振幅を持つ$\sf{s|lwe\rangle}$の効率的な量子アルゴリズムを示す。 しかし、最も興味深い振幅の硬さは、Chenらによって解決されなかったり、制限された設定でのみ知られている(例えば、$\sf{S|LWE\rangle}$サンプルの数が非常に小さい場合、$\sf{S|LWE\rangle}$が標準LWEと同じくらい硬いことが知られている)。 本稿では,ガウスおよび他の振幅を持つ$\sf{S|LWE\rangle}$に対する新しい硬さとアルゴリズムを示す。 主な結果は、標準LWEまたは最悪のGapSVPから未知位相を持つガウス振幅を持つ$\sf{S|LWE\rangle}$への量子還元が存在し、任意の数の$\sf{S|LWE\rangle}$サンプルが存在する。 2. 既知の位相を持つガウス振幅を持つ$\sf{s|lwe\rangle}$に対する2^{\widetilde{o}(\sqrt{n})}$-timeアルゴリズムがあり、2^{\widetilde{o}(\sqrt{n})}$多くの量子サンプルが与えられる。 このアルゴリズムはクパーベルクのシーブから修正され、振幅と位相が完全に知られている限り、より一般的な振幅で機能する。 我々の結果を解釈する1つの方法は、標準LWEのサブ指数時間量子アルゴリズムを示すためには、$\sf{S|LWE\rangle}$の振幅の位相をアルゴリズムまたは還元のいずれにおいてもより良く扱う必要がある。

The learning with errors problem (LWE) is one of the most important building blocks for post-quantum cryptography. To better understand the quantum hardness of LWE, it is crucial to explore quantum variants of LWE, show quantum algorithms for those variants, or prove they are as hard as standard LWE. To this end, Chen, Liu, and Zhandry [Eurocrypt 2022] define the $\sf{S|LWE\rangle}$ problem, which encodes the error of LWE samples into quantum amplitudes. They then show efficient quantum algorithms for $\sf{S|LWE\rangle}$ with a few interesting amplitudes. However, the hardness of the most interesting amplitude, Gaussian, was not addressed by Chen et al., or only known for some restricted settings (for example, when the number of $\sf{S|LWE\rangle}$ samples is very small, it is well known that $\sf{S|LWE\rangle}$ is as hard as standard LWE). In this paper, we show new hardness and algorithms for $\sf{S|LWE\rangle}$ with Gaussian and other amplitudes. Our main results are 1. There exist quantum reductions from standard LWE or worst-case GapSVP to $\sf{S|LWE\rangle}$ with Gaussian amplitude with unknown phase, and arbitrarily many $\sf{S|LWE\rangle}$ samples. 2. There is a $2^{\widetilde{O}(\sqrt{n})}$-time algorithm for $\sf{S|LWE\rangle}$ with Gaussian amplitude with known phase, given $2^{\widetilde{O}(\sqrt{n})}$ many quantum samples. The algorithm is modified from Kuperberg's sieve, and in fact works for more general amplitudes as long as the amplitudes and phases are completely known. One way of interpreting our result is: to show a sub-exponential time quantum algorithm for standard LWE, all we need is to handle phases in $\sf{S|LWE\rangle}$ amplitudes better, either in the algorithm or the reduction.
翻訳日:2023-10-05 02:48:34 公開日:2023-10-01
# バンディットモデルから深い決定論的政策勾配、文脈情報を用いた強化学習へ

From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information ( http://arxiv.org/abs/2310.00642v1 )

ライセンス: Link先を確認
Zhendong Shi, Xiaoli Wei and Ercan E. Kuruoglu(参考訳) シーケンシャルなプロセスで利益を得るための適切なアクションの取り方に関する問題は、多くのアプリケーションシナリオにおける迅速なダイナミクスとかなりの不確実性のために、依然として困難である。 このような複雑な環境下では, 最適制御のための報酬指向戦略である強化学習(rl)が, この戦略的意思決定問題に対処する潜在的な手法として浮上している。 しかし、強化学習には、多くの金融問題、過剰な資源消費、最適な解決策を迅速に得ることができないという欠点があり、量的取引市場には不適当である。 本研究では,文脈情報による問題の解決に2つの手法を用いる:文脈的トンプソンサンプリングと,最適解を求める際の反復を高速化する監視下の強化学習である。 量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。 実験の結果,両手法とも強化学習の進展を加速し,最適解を得ることができた。

The problem of how to take the right actions to make profits in sequential process continues to be difficult due to the quick dynamics and a significant amount of uncertainty in many application scenarios. In such complicated environments, reinforcement learning (RL), a reward-oriented strategy for optimum control, has emerged as a potential technique to address this strategic decision-making issue. However, reinforcement learning also has some shortcomings that make it unsuitable for solving many financial problems, excessive resource consumption, and inability to quickly obtain optimal solutions, making it unsuitable for quantitative trading markets. In this study, we use two methods to overcome the issue with contextual information: contextual Thompson sampling and reinforcement learning under supervision which can accelerate the iterations in search of the best answer. In order to investigate strategic trading in quantitative markets, we merged the earlier financial trading strategy known as constant proportion portfolio insurance (CPPI) into deep deterministic policy gradient (DDPG). The experimental results show that both methods can accelerate the progress of reinforcement learning to obtain the optimal solution.
翻訳日:2023-10-05 02:47:48 公開日:2023-10-01
# Exchange means change: 画像内および画像間パッチ交換に基づく教師なし単一時間変化検出フレームワーク

Exchange means change: an unsupervised single-temporal change detection framework based on intra- and inter-image patch exchange ( http://arxiv.org/abs/2310.00689v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Jian Song and Chen Wu and Bo Du and Naoto Yokoya(参考訳) 変化検出(CD)は,マルチ時間リモートセンシング画像を用いて生態系や人間の活動のダイナミクスを研究する上で重要な課題である。 ディープラーニングはcdタスクで有望な結果を示しているが、高いパフォーマンスを達成するには多数のラベル付きおよびペアのマルチテンポラル画像が必要である。 大規模マルチ時間リモートセンシング画像のペアリングと注釈付けは高価かつ時間を要する。 深層学習に基づくCD技術をより実用的で低コストにするために,画像内および画像間パッチ交換(I3PE)に基づく教師なし単一時間CDフレームワークを提案する。 I3PEフレームワークは、現実世界のアプリケーションで容易に利用できる、ペアなし、ラベルなしの単一時間リモートセンシングイメージ上で、深い変更検出をトレーニングすることができる。 I3PEフレームワークには4つのステップがある。 1)画像内パッチ交換方法は,画像内のパッチを交換することにより,擬似バイモーダル画像対と対応する変更ラベルを生成するオブジェクトベース画像解析法と適応クラスタリングアルゴリズムに基づいている。 2) 画像間のパッチ交換により、画像間のパッチ交換により、より多くの種類の土地被覆変化を発生させることができる。 3) 実環境での撮像条件の違いによる撮影前と撮影後の違いをシミュレートするために,複数の画像強調法からなるシミュレーションパイプラインを提案する。 4)疑似ラベルに基づく自己教師付き学習を適用し,教師なしと半教師なしの両方において変化検出器の性能をさらに向上させる。 2つの大規模データセットに関する広範な実験により、i3peは教師なしのアプローチよりも優れており、10.65%と6.99%のf1値の改善を達成した。 さらに、I3PE は ... のパフォーマンスを向上させることができる(詳細はオリジナルの記事を参照)。

Change detection (CD) is a critical task in studying the dynamics of ecosystems and human activities using multi-temporal remote sensing images. While deep learning has shown promising results in CD tasks, it requires a large number of labeled and paired multi-temporal images to achieve high performance. Pairing and annotating large-scale multi-temporal remote sensing images is both expensive and time-consuming. To make deep learning-based CD techniques more practical and cost-effective, we propose an unsupervised single-temporal CD framework based on intra- and inter-image patch exchange (I3PE). The I3PE framework allows for training deep change detectors on unpaired and unlabeled single-temporal remote sensing images that are readily available in real-world applications. The I3PE framework comprises four steps: 1) intra-image patch exchange method is based on an object-based image analysis method and adaptive clustering algorithm, which generates pseudo-bi-temporal image pairs and corresponding change labels from single-temporal images by exchanging patches within the image; 2) inter-image patch exchange method can generate more types of land-cover changes by exchanging patches between images; 3) a simulation pipeline consisting of several image enhancement methods is proposed to simulate the radiometric difference between pre- and post-event images caused by different imaging conditions in real situations; 4) self-supervised learning based on pseudo-labels is applied to further improve the performance of the change detectors in both unsupervised and semi-supervised cases. Extensive experiments on two large-scale datasets demonstrate that I3PE outperforms representative unsupervised approaches and achieves F1 value improvements of 10.65% and 6.99% to the SOTA method. Moreover, I3PE can improve the performance of the ... (see the original article for full abstract)
翻訳日:2023-10-05 02:39:37 公開日:2023-10-01
# PharmacoNet: ファーマフォアモデリングによる構造ベース仮想スクリーニングの高速化

PharmacoNet: Accelerating Structure-based Virtual Screening by Pharmacophore Modeling ( http://arxiv.org/abs/2310.00681v1 )

ライセンス: Link先を確認
Seonghwan Seo and Woo Youn Kim(参考訳) アクセス可能な複合ライブラリのサイズが100億を超えるにつれて、より効率的な構造ベースの仮想スクリーニング方法の必要性が高まっている。 ヒット候補を維持しながら、ライブラリを迅速にスクリーニングする様々な事前スクリーニング方法が開発されているが、一般的なタンパク質に適用可能な構造に基づく手法はいまだに欠けており、タンパク質とリガンドの結合のポーズを予測し、極めて短時間でスコアを付けることが課題である。 PharmacoNetは、リガンドが結合部位からの安定した結合のために持つべき最適な3次元薬局配置を識別するディープラーニングフレームワークである。 リガンドと生成する薬理泳動配列間の粗いグラフマッチングにより、既存の方法の高価な結合ポーズサンプリングとスコアリング手順を1ステップで解決する。 PharmacoNetは最先端の構造に基づくアプローチよりもはるかに高速だが、単純なスコアリング機能でも合理的に正確である。 さらに,PharmacoNetは,厳密な事前スクリーニングしきい値の下でも,ヒット候補を効果的に保持することを示す。 本研究は総合的に,深層学習に基づく薬物発見における薬局モデリングアプローチの可能性を明らかにする。

As the size of accessible compound libraries expands to over 10 billion, the need for more efficient structure-based virtual screening methods is emerging. Different pre-screening methods have been developed to rapidly screen the library while retaining the hit candidates, but the structure-based methods applicable to general proteins are still lacking: the challenge is to predict the binding pose between proteins and ligands and perform scoring in an extremely short time. We introduce PharmacoNet, a deep learning framework that identifies optimal 3D pharmacophore arrangements which a ligand should have for stable binding from binding sites. By coarse-grained graph matching between ligands and generated pharmacophore arrangements, we solve the expensive binding pose sampling and scoring procedures of existing methods in a single step. PharmacoNet is significantly faster than state-of-the-art structure-based approaches, yet reasonably accurate even with a simple scoring function. Furthermore, we show the promising result that PharmacoNet effectively retains hit candidates even under the rigorous pre-screening threshold. Overall, our study uncovers the hitherto untapped potential of a pharmacophore modeling approach in deep learning-based drug discovery.
翻訳日:2023-10-05 02:39:08 公開日:2023-10-01
# CebuaNER: エンティティ認識モデルによる新しいベースラインCebuano

CebuaNER: A New Baseline Cebuano Named Entity Recognition Model ( http://arxiv.org/abs/2310.00679v1 )

ライセンス: Link先を確認
Ma. Beatrice Emanuela Pilar, Ellyza Mari Papas, Mary Loise Buenaventura, Dane Dedoroy, Myron Darrel Montefalcon, Jay Rhald Padilla, Lany Maceda, Mideth Abisado, Joseph Marvin Imperial(参考訳) 東南アジアにおける計算言語学と言語処理の研究は、最も言語学的に多様な国の1つでありながら、グローバル・ノースの国々のレベルに合わせるのに苦労してきた。 したがって、コーパスのオープンソース化や基本言語処理タスクのベースラインモデルの開発といったイニシアティブは、この分野の研究活動の成長を促進する上で重要な一歩となる。 このコールに答えるために、CebuaNERは、Cebuano言語で名前付きエンティティ認識(NER)のための新しいベースラインモデルである。 セブアーノ語はフィリピンで2番目に使われている母語であり、2000万人以上の話者がいる。 このモデルを構築するために、我々は、オンラインのCebuanoプラットフォームから取得した4000以上のニュース記事を収集し、注釈付けし、条件付きランダムフィールドや双方向LSTMなどのアルゴリズムをトレーニングした。 本研究は,新しいベースラインモデルとして有望な結果を示し,すべてのエンティティタグに対する精度,リコール,F1の70%以上の性能,およびタガログを用いたクロスリンガル設定の有効性を示した。

Despite being one of the most linguistically diverse groups of countries, computational linguistics and language processing research in Southeast Asia has struggled to match the level of countries from the Global North. Thus, initiatives such as open-sourcing corpora and the development of baseline models for basic language processing tasks are important stepping stones to encourage the growth of research efforts in the field. To answer this call, we introduce CebuaNER, a new baseline model for named entity recognition (NER) in the Cebuano language. Cebuano is the second most-used native language in the Philippines, with over 20 million speakers. To build the model, we collected and annotated over 4,000 news articles, the largest of any work in the language, retrieved from online local Cebuano platforms to train algorithms such as Conditional Random Field and Bidirectional LSTM. Our findings show promising results as a new baseline model, achieving over 70% performance on precision, recall, and F1 across all entity tags, as well as potential efficacy in a crosslingual setup with Tagalog.
翻訳日:2023-10-05 02:38:48 公開日:2023-10-01
# 対話型推薦のためのオフライン強化学習フレームワーク

A General Offline Reinforcement Learning Framework for Interactive Recommendation ( http://arxiv.org/abs/2310.00678v1 )

ライセンス: Link先を確認
Teng Xiao, Donglin Wang(参考訳) 本稿では,オンライン環境を探索することなく,ログフィードバックからインタラクティブレコメンダシステムを学習することの問題点について検討する。 オンライン探索なしで累積ユーザ報酬を最大化できる一般的なオフライン強化学習フレームワークを提案することで、この問題に対処する。 具体的には,まず,対話型推薦のための確率的生成モデルを導入し,ログ付きフィードバックに基づく離散的・確率的政策学習のための効果的な推論アルゴリズムを提案する。 オフライン学習をより効果的に行うために,ログポリシとレコメンデーションポリシの分散ミスマッチを最小限に抑えるための5つのアプローチを提案する。 提案手法が既存の教師付き学習や強化学習手法よりも優れた性能が得られることを実証し,2つの実世界のデータセットについて広範な実験を行った。

This paper studies the problem of learning interactive recommender systems from logged feedbacks without any exploration in online environments. We address the problem by proposing a general offline reinforcement learning framework for recommendation, which enables maximizing cumulative user rewards without online exploration. Specifically, we first introduce a probabilistic generative model for interactive recommendation, and then propose an effective inference algorithm for discrete and stochastic policy learning based on logged feedbacks. In order to perform offline learning more effectively, we propose five approaches to minimize the distribution mismatch between the logging policy and recommendation policy: support constraints, supervised regularization, policy constraints, dual constraints and reward extrapolation. We conduct extensive experiments on two public real-world datasets, demonstrating that the proposed methods can achieve superior performance over existing supervised learning and reinforcement learning methods for recommendation.
翻訳日:2023-10-05 02:38:28 公開日:2023-10-01
# 最適化やアーキテクチャ - Kalmanフィルタのハック方法

Optimization or Architecture: How to Hack Kalman Filtering ( http://arxiv.org/abs/2310.00675v1 )

ライセンス: Link先を確認
Ido Greenberg, Netanel Yannay, Shie Mannor(参考訳) 非線形フィルタリングでは、ニューラルネットワークのような非線形アーキテクチャと標準線形カルマンフィルタ(KF)を比較するのが伝統的である。 これは非線形アーキテクチャとパラメータ最適化法という2つの異なるコンポーネントの評価を混合するものである。 特に非線形モデルはしばしば最適化されるが、参照KFモデルは最適化されない。 どちらも同じように最適化されるべきであり、最終的には最適化KF(OKF)を提示する。 KFは、OKFを使用して最適化された場合、ニューラルモデルと競合する可能性があることを実証する。 これは、ある先行研究の実験的な結論が欠陥のある過程に由来することを示唆している。 標準KFに対するOKFの利点は、様々な問題において理論的および経験的にさらに研究されている。 同様に、OKFはパラメータを単に更新するだけで現実世界のシステムでKFを置き換えることができる。

In non-linear filtering, it is traditional to compare non-linear architectures such as neural networks to the standard linear Kalman Filter (KF). We observe that this mixes the evaluation of two separate components: the non-linear architecture, and the parameters optimization method. In particular, the non-linear model is often optimized, whereas the reference KF model is not. We argue that both should be optimized similarly, and to that end present the Optimized KF (OKF). We demonstrate that the KF may become competitive to neural models - if optimized using OKF. This implies that experimental conclusions of certain previous studies were derived from a flawed process. The advantage of OKF over the standard KF is further studied theoretically and empirically, in a variety of problems. Conveniently, OKF can replace the KF in real-world systems by merely updating the parameters.
翻訳日:2023-10-05 02:38:13 公開日:2023-10-01
# 強化データフロー解析のための学習型推論

Learning Type Inference for Enhanced Dataflow Analysis ( http://arxiv.org/abs/2310.00673v1 )

ライセンス: Link先を確認
Lukas Seidel, Sedick David Baker Effendi , Xavier Pinho, Konrad Rieck, Brink van der Merwe, and Fabian Yamaguch(参考訳) 動的型付けされたコードの静的解析は、コンパイル時にオブジェクトの型を知ることなく、プロシージャ呼び出しのターゲットを決定するといった、一見自明なタスクでさえ、難しい作業である。 この課題に対処するため、動的型付け言語に段階的な型付けが追加されている。 グラデーショナル型付けは、プログラムの動作を検証する開発者の能力を改善し、堅牢でセキュアでデバッグ可能なプログラムに寄与する。 しかし実際には、ユーザは直接型にアノテートするだけです。 同時に、従来の型推論は、プログラムのサイズが大きくなるにつれてパフォーマンス関連の課題に直面する。 機械学習に基づく統計的手法は推論を高速化するが、最近の手法では全体的な精度が向上しているが、最も一般的な組込み型よりもユーザ定義型の方が大幅に低下している。 現実世界の利便性をさらに制限するため、ユーザ向けアプリケーションと統合されることはめったにない。 型アノテーションを確実に予測するようにトレーニングされたトランスフォーマティブベースのモデルであるcodetidal5を提案する。 有効な結果検索と再統合のために,プログラムのコードプロパティグラフから使用率スライスを抽出する。 最近のニューラルタイプ推論システムに対するアプローチを比較すると、このモデルは manytypes4typescriptベンチマークで現在の最先端の7.85%を上回り、全体の71.27%の精度を達成している。 さらに、オープンソースの静的解析ツールであるJoernへの我々のアプローチの統合であるJoernTIを紹介し、分析が追加の型情報から恩恵を受けることを実証する。 当社のモデルでは,コモディティCPUでも高速な推論が可能であるため,Joernによるシステム利用はアクセシビリティの向上とセキュリティ研究の促進につながる。

Statically analyzing dynamically-typed code is a challenging endeavor, as even seemingly trivial tasks such as determining the targets of procedure calls are non-trivial without knowing the types of objects at compile time. Addressing this challenge, gradual typing is increasingly added to dynamically-typed languages, a prominent example being TypeScript that introduces static typing to JavaScript. Gradual typing improves the developer's ability to verify program behavior, contributing to robust, secure and debuggable programs. In practice, however, users only sparsely annotate types directly. At the same time, conventional type inference faces performance-related challenges as program size grows. Statistical techniques based on machine learning offer faster inference, but although recent approaches demonstrate overall improved accuracy, they still perform significantly worse on user-defined types than on the most common built-in types. Limiting their real-world usefulness even more, they rarely integrate with user-facing applications. We propose CodeTIDAL5, a Transformer-based model trained to reliably predict type annotations. For effective result retrieval and re-integration, we extract usage slices from a program's code property graph. Comparing our approach against recent neural type inference systems, our model outperforms the current state-of-the-art by 7.85% on the ManyTypes4TypeScript benchmark, achieving 71.27% accuracy overall. Furthermore, we present JoernTI, an integration of our approach into Joern, an open source static analysis tool, and demonstrate that the analysis benefits from the additional type information. As our model allows for fast inference times even on commodity CPUs, making our system available through Joern leads to high accessibility and facilitates security research.
翻訳日:2023-10-05 02:38:01 公開日:2023-10-01
# GeRA: ラベル効率の良い幾何学的正規化アライメント

GeRA: Label-Efficient Geometrically Regularized Alignment ( http://arxiv.org/abs/2310.00672v1 )

ライセンス: Link先を確認
Dustin Klebe, Tal Shnitzer, Mikhail Yurochkin, Leonid Karlinsky, Justin Solomon(参考訳) 事前訓練されたユニモーダルエンコーダは、豊富な意味情報を埋め込み空間構造に組み込む。 同様に、マルチモーダルエンコーダはアライメントとトレーニングのために大量のペアデータを必要とする。 本稿では,事前学習した単調エンコーダの埋め込み空間をラベル効率よく整列する半教師付き幾何正規化アライメント(GeRA)手法を提案する。 本手法は,アライメント性能を向上させるために,非ペア(ラベルなし)データの多様体幾何学を利用する。 また,アライメント過程における局所幾何学の歪みを防止し,セマンティックな近傍構造を乱し,観測されていないペアの不整合を引き起こすため,幾何損失項を導入する。 この用語は拡散作用素の上に構築され、単調事前訓練エンコーダの局所多様体幾何学を捉える。 GeRAはモダリティに依存しないため、任意のデータモダリティから事前訓練されたエンコーダを調整できる。 音声・テキスト・画像のアライメント領域において,提案手法の有効性を示す実証的な証拠を提供する。 提案する幾何正規化法を用いて,リードベースラインの変動,特に少量のペアデータと比較して,アライメント品質が著しく向上することを示した。

Pretrained unimodal encoders incorporate rich semantic information into embedding space structures. To be similarly informative, multi-modal encoders typically require massive amounts of paired data for alignment and training. We introduce a semi-supervised Geometrically Regularized Alignment (GeRA) method to align the embedding spaces of pretrained unimodal encoders in a label-efficient way. Our method leverages the manifold geometry of unpaired (unlabeled) data to improve alignment performance. To prevent distortions to local geometry during the alignment process, potentially disrupting semantic neighborhood structures and causing misalignment of unobserved pairs, we introduce a geometric loss term. This term is built upon a diffusion operator that captures the local manifold geometry of the unimodal pretrained encoders. GeRA is modality-agnostic and thus can be used to align pretrained encoders from any data modalities. We provide empirical evidence to the effectiveness of our method in the domains of speech-text and image-text alignment. Our experiments demonstrate significant improvement in alignment quality compared to a variaty of leading baselines, especially with a small amount of paired data, using our proposed geometric regularization.
翻訳日:2023-10-05 02:37:36 公開日:2023-10-01
# 階層グラフによるビデオにおけるバイマニラル動作の認識と記述生成

A Hierarchical Graph-based Approach for Recognition and Description Generation of Bimanual Actions in Videos ( http://arxiv.org/abs/2310.00670v1 )

ライセンス: Link先を確認
Fatemeh Ziaeetabar, Reza Safabakhsh, Saeedeh Momtazi, Minija Tamosiunaite, Florentin W\"org\"otter(参考訳) ロボット工学、人-コンピュータインタラクション、ビデオコンテンツ分析などの分野において、ビデオにおける(生体)操作動作に対する詳細な理解と説明コンテンツの生成が重要である。 本研究では,グラフベースモデリングと階層的注意機構の統合により,映像記述の精度と包括性が向上した新しい手法を提案する。 これを実現するため、まずオブジェクトとアクションの間の時空間的相互依存関係をシーングラフと符号化し、第2のステップとして、グラフアテンションネットワーク(gats)を用いた階層的アテンションメカニズムを構築する新しい3レベルアーキテクチャと組み合わせる。 3段階のGATアーキテクチャは、ローカルだがグローバルなコンテキスト要素の認識を可能にする。 これにより、同じビデオクリップに対して異なる意味複雑性を持つ複数の記述が並列に生成され、アクション認識とアクション記述の識別精度が向上する。 提案手法の性能は,複数の2次元および3次元データセットを用いて実験的に検証した。 本手法を技術状況と比較することにより,動作認識の評価や記述生成における精度,精度,文脈的関連性に関する優れた性能が得られる。 また, 多くのアブレーション実験において, モデルにおける異なる成分の役割についても検討した。 マルチレベルアプローチでは,システムによって異なる意味的記述の深さが得られます。 さらに,本モデルが達成した2次元の物体間相互作用に対するより良い洞察はロボット工学の進歩を後押しする可能性があり,精度を高めた複雑な人間の行動のエミュレーションを可能にする。

Nuanced understanding and the generation of detailed descriptive content for (bimanual) manipulation actions in videos is important for disciplines such as robotics, human-computer interaction, and video content analysis. This study describes a novel method, integrating graph based modeling with layered hierarchical attention mechanisms, resulting in higher precision and better comprehensiveness of video descriptions. To achieve this, we encode, first, the spatio-temporal inter dependencies between objects and actions with scene graphs and we combine this, in a second step, with a novel 3-level architecture creating a hierarchical attention mechanism using Graph Attention Networks (GATs). The 3-level GAT architecture allows recognizing local, but also global contextual elements. This way several descriptions with different semantic complexity can be generated in parallel for the same video clip, enhancing the discriminative accuracy of action recognition and action description. The performance of our approach is empirically tested using several 2D and 3D datasets. By comparing our method to the state of the art we consistently obtain better performance concerning accuracy, precision, and contextual relevance when evaluating action recognition as well as description generation. In a large set of ablation experiments we also assess the role of the different components of our model. With our multi-level approach the system obtains different semantic description depths, often observed in descriptions made by different people, too. Furthermore, better insight into bimanual hand-object interactions as achieved by our model may portend advancements in the field of robotics, enabling the emulation of intricate human actions with heightened precision.
翻訳日:2023-10-05 02:37:17 公開日:2023-10-01
# マルチラベルストリーム分類におけるバランシング効率と有効性と欠落ラベルロバスト性

Balancing Efficiency vs. Effectiveness and Providing Missing Label Robustness in Multi-Label Stream Classification ( http://arxiv.org/abs/2310.00665v1 )

ライセンス: Link先を確認
Sepehr Bakhshi and Fazli Can(参考訳) データストリーム環境におけるマルチラベル分類に対処する作業は、正確なモデルの提案に重点を置いているが、これらのモデルは効率が悪く、効率と効率のバランスが取れないことが多い。 本研究では,この問題に対処し,高次元多ラベル分類に適したニューラルネットワークに基づくアプローチを提案する。 本モデルは,非定常環境に適した選択的概念ドリフト適応機構を用いる。 さらに、単純な効果的な計算手法を用いてラベルの欠如した環境に適応し、最先端の教師付きモデルの大部分を上回り、その性能を実証する。 そこで本稿では,Broad Ensemble Learning System (BELS) をベース分類器として,ML-BELSという重み付きバイナリ関連性に基づくアプローチを提案する。 重み付き分類器の連鎖の代わりに、我々のモデルは独立重み付きアンサンブルを用いており、重みはBELS分類器の予測によって生成される。 ラベルの濃度が低いデータセットの重み付け戦略を用いることはモデルの精度に悪影響を及ぼすことを示し、このことを念頭において、重み付けのトリガとしてラベルの濃度を用いる。 我々は,11の最先端ベースライン,5つの合成データ,13の現実世界のデータセットを用いて,それぞれ異なる特徴を持つモデルを評価する。 提案手法は,有効性と効率のバランスをとる上で有効であり,ラベルやコンセプトドリフトの欠如に対して堅牢であることを示す。

Available works addressing multi-label classification in a data stream environment focus on proposing accurate models; however, these models often exhibit inefficiency and cannot balance effectiveness and efficiency. In this work, we propose a neural network-based approach that tackles this issue and is suitable for high-dimensional multi-label classification. Our model uses a selective concept drift adaptation mechanism that makes it suitable for a non-stationary environment. Additionally, we adapt our model to an environment with missing labels using a simple yet effective imputation strategy and demonstrate that it outperforms a vast majority of the state-of-the-art supervised models. To achieve our purposes, we introduce a weighted binary relevance-based approach named ML-BELS using the Broad Ensemble Learning System (BELS) as its base classifier. Instead of a chain of stacked classifiers, our model employs independent weighted ensembles, with the weights generated by the predictions of a BELS classifier. We show that using the weighting strategy on datasets with low label cardinality negatively impacts the accuracy of the model; with this in mind, we use the label cardinality as a trigger for applying the weights. We present an extensive assessment of our model using 11 state-of-the-art baselines, five synthetics, and 13 real-world datasets, all with different characteristics. Our results demonstrate that the proposed approach ML-BELS is successful in balancing effectiveness and efficiency, and is robust to missing labels and concept drift.
翻訳日:2023-10-05 02:36:49 公開日:2023-10-01
# ツインニューラルネットワークによるkネアレスト近傍回帰の改善

Twin Neural Network Improved k-Nearest Neighbor Regression ( http://arxiv.org/abs/2310.00664v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel(参考訳) ツインニューラルネットワーク回帰は、ターゲット自体よりも回帰目標の違いを予測するために訓練される。 未知のデータポイントのターゲットと既知の複数のアンカーデータポイントとの予測差をアンカーに組み込むことで、元の回帰問題の解を得ることができる。 未知のデータポイントの最も近い隣人となるアンカーを選択すると、k-ネアレスト近傍回帰がニューラルネットワークベースで改善される。 このアルゴリズムは、小~中規模のデータセット上で、ニューラルネットワークとk-アネレスの近接回帰の両方より優れている。

Twin neural network regression is trained to predict differences between regression targets rather than the targets themselves. A solution to the original regression problem can be obtained by ensembling predicted differences between the targets of an unknown data point and multiple known anchor data points. Choosing the anchors to be the nearest neighbors of the unknown data point leads to a neural network-based improvement of k-nearest neighbor regression. This algorithm is shown to outperform both neural networks and k-nearest neighbor regression on small to medium-sized data sets.
翻訳日:2023-10-05 02:36:23 公開日:2023-10-01
# hoh: 大きなオブジェクト数を持つマーカーレスマルチモーダル人間-オブジェクト-ヒューマンハンドオーバデータセット

HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v1 )

ライセンス: Link先を確認
Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 本研究では,136個のオブジェクトからなる大規模オブジェクトカウントデータセットであるhoh(human-object-human)ハンドオーバデータセットを提案し,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,ハンドオーバパラメータ推定におけるai(artificial intelligence)のデータ駆動研究を,人インタラクションの2dおよび3dデータから加速する。 HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。 また,hohを用いて学習したニューラルネットワークを用いて,把握,方向,軌道予測を行う実験結果を示す。 唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカー付きデータセットによる課題を克服し、高解像度の手追跡を欠いている。 これまでのところ、hohはオブジェクト数、参加者数、役割反転を持つペア数、総相互作用において最大のハンドオーバデータセットである。

We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured.
翻訳日:2023-10-05 02:31:09 公開日:2023-10-01
# オブジェクト関係予測のための論理バイアス学習

Logical Bias Learning for Object Relation Prediction ( http://arxiv.org/abs/2310.00712v1 )

ライセンス: Link先を確認
Xinyu Zhou, Zihan Ji, Anna Zhu(参考訳) シーングラフ生成(SGG)は、画像を自動的に意味構造グラフにマッピングし、シーン理解を改善することを目的としている。 オブジェクトと関係情報を提供する能力に注目が集まっており、下流タスクのグラフ推論を可能にしている。 しかし、偏りのあるデータとトレーニング方法により、実際には厳しい制限に直面している。 本稿では,目的関係予測のための因果推論に基づくより合理的で効果的な戦略を提案する。 この戦略の優位性をさらに評価するために,アブレーション研究を行うための物体強化モジュールを提案する。 visual gnome 150 (vg-150) データセットの実験結果は,提案手法の有効性を示している。 これらの貢献は意思決定の基礎モデルに大きな可能性をもたらす。

Scene graph generation (SGG) aims to automatically map an image into a semantic structural graph for better scene understanding. It has attracted significant attention for its ability to provide object and relation information, enabling graph reasoning for downstream tasks. However, it faces severe limitations in practice due to the biased data and training method. In this paper, we present a more rational and effective strategy based on causal inference for object relation prediction. To further evaluate the superiority of our strategy, we propose an object enhancement module to conduct ablation studies. Experimental results on the Visual Gnome 150 (VG-150) dataset demonstrate the effectiveness of our proposed method. These contributions can provide great potential for foundation models for decision-making.
翻訳日:2023-10-05 02:30:22 公開日:2023-10-01
# メタ学習パラダイムを堅牢化するシンプルかつ効果的な戦略

A Simple Yet Effective Strategy to Robustify the Meta Learning Paradigm ( http://arxiv.org/abs/2310.00708v1 )

ライセンス: Link先を確認
Qi Wang, Yiqin Lv, Yanghe Feng, Zheng Xie, Jincai Huang(参考訳) メタ学習は、タスク間のスキル転送を可能にする、有望なパラダイムである。 従来の手法のほとんどは、最適化において経験的リスク最小化原理を採用している。 しかし、結果として生じる最悪の迅速なタスクへの適応は、リスクに敏感なシナリオにおいて破滅的なものになる可能性がある。 高速適応を強固にするために,分布的ロバストな視点からメタ学習パイプラインを最適化し,予測されたテールリスクの測定値を用いてモデルトレーニングを行う。 この2段階の戦略をヒューリスティックスとして捉え,ある確率レベルで最悪の適応ケースを制御し,頑健なメタ学習問題を解決する。 実験結果から,メタ学習の課題分散に対する堅牢性を向上し,最悪の適応リスクの条件付き期待を低減できることが示された。

Meta learning is a promising paradigm to enable skill transfer across tasks. Most previous methods employ the empirical risk minimization principle in optimization. However, the resulting worst fast adaptation to a subset of tasks can be catastrophic in risk-sensitive scenarios. To robustify fast adaptation, this paper optimizes meta learning pipelines from a distributionally robust perspective and meta trains models with the measure of expected tail risk. We take the two-stage strategy as heuristics to solve the robust meta learning problem, controlling the worst fast adaptation cases at a certain probabilistic level. Experimental results show that our simple method can improve the robustness of meta learning to task distributions and reduce the conditional expectation of the worst fast adaptation risk.
翻訳日:2023-10-05 02:30:11 公開日:2023-10-01
# 合成音声の学習者による音声合成の評価

Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech ( http://arxiv.org/abs/2310.00706v1 )

ライセンス: Link先を確認
Dareen Alharthi, Roshan Sharma, Hira Dhamyal, Soumi Maiti, Bhiksha Raj, Rita Singh(参考訳) 現代の音声合成システムは大幅に改善されており、合成音声は実際の音声と区別できない。 しかし,合成音声の効率的かつ総合的な評価は依然として重要な課題である。 平均オピニオンスコア(MOS)を用いた人的評価は理想的であるが、高コストのため非効率である。 そこで,研究者らは,単語誤り率(wer)などの補助的自動指標を開発した。 先行研究は、事前学習された音声認識モデルに基づく合成音声の評価に焦点を当てているが、このアプローチは主に音声の理解度を測定するため、これは制限される可能性がある。 本稿では,合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。 我々の主な前提は、asrモデルを合成音声に訓練することで、実際の音声のwerは分布間の類似性を反映し、理解性を超えた合成音声品質の広範な評価を行うというものである。 提案手法は,最近のテキスト音声(TTS)システムであるMQTTS,StyleTTS,YourTTSにおけるSpeechLMScoreとMOSNetと比較して,MOSの自然性とMOSの知性との間に強い相関関係を示す。

Modern speech synthesis systems have improved significantly, with synthetic speech being indistinguishable from real speech. However, efficient and holistic evaluation of synthetic speech still remains a significant challenge. Human evaluation using Mean Opinion Score (MOS) is ideal, but inefficient due to high costs. Therefore, researchers have developed auxiliary automatic metrics like Word Error Rate (WER) to measure intelligibility. Prior works focus on evaluating synthetic speech based on pre-trained speech recognition models, however, this can be limiting since this approach primarily measures speech intelligibility. In this paper, we propose an evaluation technique involving the training of an ASR model on synthetic speech and assessing its performance on real speech. Our main assumption is that by training the ASR model on the synthetic speech, the WER on real speech reflects the similarity between distributions, a broader assessment of synthetic speech quality beyond intelligibility. Our proposed metric demonstrates a strong correlation with both MOS naturalness and MOS intelligibility when compared to SpeechLMScore and MOSNet on three recent Text-to-Speech (TTS) systems: MQTTS, StyleTTS, and YourTTS.
翻訳日:2023-10-05 02:29:58 公開日:2023-10-01
# カモフラージュのオブジェクト検出には、追加の優先順位は必要ない

You Do Not Need Additional Priors in Camouflage Object Detection ( http://arxiv.org/abs/2310.00702v1 )

ライセンス: Link先を確認
Yuchen Dong, Heng Zhou, Chengyang Li, Junjie Xie, Yongqiang Xie, Zhongbo Li(参考訳) カモフラージュ物体検出(camouflage object detection, cod)は、カモフラージュ物体とその周囲との類似度が高いため、重要な課題である。 現在のディープラーニング手法は、カモフラージュされた物体の検出に大きな進歩をもたらしたが、その多くは追加の事前情報に大きく依存している。 しかし、そのような事前情報を取得することは、現実のシナリオでは高価で実用的ではない。 したがって、追加の優先順位に依存しないカモフラージュオブジェクト検出のためのネットワークを開発する必要がある。 本稿では,多層特徴情報を効果的に組み合わせて誘導情報を生成する適応的特徴集約手法を提案する。 エッジやランキングに先行する従来のアプローチとは対照的に,画像特徴から抽出した情報を直接利用してモデルトレーニングを指導する。 実験結果から,提案手法は最先端手法と比較して,同等あるいは優れた性能が得られることを示した。

Camouflage object detection (COD) poses a significant challenge due to the high resemblance between camouflaged objects and their surroundings. Although current deep learning methods have made significant progress in detecting camouflaged objects, many of them heavily rely on additional prior information. However, acquiring such additional prior information is both expensive and impractical in real-world scenarios. Therefore, there is a need to develop a network for camouflage object detection that does not depend on additional priors. In this paper, we propose a novel adaptive feature aggregation method that effectively combines multi-layer feature information to generate guidance information. In contrast to previous approaches that rely on edge or ranking priors, our method directly leverages information extracted from image features to guide model training. Through extensive experimental results, we demonstrate that our proposed method achieves comparable or superior performance when compared to state-of-the-art approaches.
翻訳日:2023-10-05 02:29:39 公開日:2023-10-01
# コミック・フォー・ユビキタス:コミック・ストリップのアクセス可能なテキスト記述の生成

Comics for Everyone: Generating Accessible Text Descriptions for Comic Strips ( http://arxiv.org/abs/2310.00698v1 )

ライセンス: Link先を確認
Reshma Ramaprasad(参考訳) コミックストリップ(Comic strips)は、ユーモア、感情、情報を伝える視覚的なストーリーテリングの人気のある表現形式である。 しかし、BLV(Blind or Low Vision)コミュニティにはアクセスできないため、コミックのイメージ、レイアウト、テキストを認識できない。 本研究の目的は,視覚障害者のコミュニティに手軽にアクセス可能な漫画の自然言語記述を作ることである。 まず,マンガ画像のパネル,キャラクタ,テキストに関する情報をコンピュータビジョン技術で抽出し,その情報を追加コンテキストとして,マルチモーダル大言語モデル(mllm)を用いて記述を生成する。 我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を測定する。 私たちの実験の結果は励まされ、有望です。

Comic strips are a popular and expressive form of visual storytelling that can convey humor, emotion, and information. However, they are inaccessible to the BLV (Blind or Low Vision) community, who cannot perceive the images, layouts, and text of comics. Our goal in this paper is to create natural language descriptions of comic strips that are accessible to the visually impaired community. Our method consists of two steps: first, we use computer vision techniques to extract information about the panels, characters, and text of the comic images; second, we use this information as additional context to prompt a multimodal large language model (MLLM) to produce the descriptions. We test our method on a collection of comics that have been annotated by human experts and measure its performance using both quantitative and qualitative metrics. The outcomes of our experiments are encouraging and promising.
翻訳日:2023-10-05 02:29:14 公開日:2023-10-01
# グラフニューラルネットワークにおけるメッセージ伝達の学習

Learning How to Propagate Messages in Graph Neural Networks ( http://arxiv.org/abs/2310.00697v1 )

ライセンス: Link先を確認
Teng Xiao, Zhengyu Chen, Donglin Wang, and Suhang Wang(参考訳) 本稿では,グラフニューラルネットワーク(gnns)におけるメッセージ伝達戦略の学習問題について述べる。 グラフニューラルネットワークの課題のひとつは、伝播戦略を定義することだ。 例えば、伝搬ステップの選択は単一のグラフに特化され、異なるノードにパーソナライズされないことが多い。 そこで本稿では,予測のためのGNNパラメータを学習するだけでなく,さまざまなノードやグラフに対して,解釈可能な,パーソナライズされた伝搬戦略を明示的に学習する一般学習フレームワークである伝搬学習を提案する。 本稿では,可変期待最大化(vem)フレームワークにおけるgnnパラメータの最大類似度推定を求めるために,潜在変数として最適伝播ステップを導入する。 各種グラフベンチマークの大規模な実験により,提案するフレームワークは最先端の手法と比較して性能が著しく向上し,GNNにおけるメッセージのパーソナライズおよび解釈可能な伝達戦略を効果的に学習できることを示した。

This paper studies the problem of learning message propagation strategies for graph neural networks (GNNs). One of the challenges for graph neural networks is that of defining the propagation strategy. For instance, the choices of propagation steps are often specialized to a single graph and are not personalized to different nodes. To compensate for this, in this paper, we present learning to propagate, a general learning framework that not only learns the GNN parameters for prediction but more importantly, can explicitly learn the interpretable and personalized propagate strategies for different nodes and various types of graphs. We introduce the optimal propagation steps as latent variables to help find the maximum-likelihood estimation of the GNN parameters in a variational Expectation-Maximization (VEM) framework. Extensive experiments on various types of graph benchmarks demonstrate that our proposed framework can significantly achieve better performance compared with the state-of-the-art methods, and can effectively learn personalized and interpretable propagate strategies of messages in GNNs.
翻訳日:2023-10-05 02:28:46 公開日:2023-10-01
# 関係抽出のためのジョイントモデルの利点はドキュメントレベルのタスクに拡張されるか?

Do the Benefits of Joint Models for Relation Extraction Extend to Document-level Tasks? ( http://arxiv.org/abs/2310.00696v1 )

ライセンス: Link先を確認
Pratik Saini and Tapas Nayak and Indrajit Bhattacharya(参考訳) リレーショナルトリプル抽出管とジョイントに2つの異なるアプローチが提案されている。 三重項間の相互作用をキャプチャするジョイントモデルは、より最近の開発であり、文レベルの抽出タスクにおいてパイプラインモデルよりも優れていることが示されている。 文書レベルの抽出は、トリプル間の相互作用が長距離化され、個々のトリプルが文間でまたがる、より困難な設定である。 ドキュメントレベルのタスクにはまだジョイントモデルが適用されていない。 本稿では,文レベルおよび文書レベルのデータセットに基づいて,最先端パイプラインと共同抽出モデルをベンチマークする。 実験により,共同モデルは文レベルの抽出においてパイプラインモデルを大幅に上回るが,その性能は文書レベルのデータセットのパイプラインモデルよりも著しく低下することが示された。

Two distinct approaches have been proposed for relational triple extraction - pipeline and joint. Joint models, which capture interactions across triples, are the more recent development, and have been shown to outperform pipeline models for sentence-level extraction tasks. Document-level extraction is a more challenging setting where interactions across triples can be long-range, and individual triples can also span across sentences. Joint models have not been applied for document-level tasks so far. In this paper, we benchmark state-of-the-art pipeline and joint extraction models on sentence-level as well as document-level datasets. Our experiments show that while joint models outperform pipeline models significantly for sentence-level extraction, their performance drops sharply below that of pipeline models for the document-level dataset.
翻訳日:2023-10-05 02:27:59 公開日:2023-10-01
# 確率的グラディエントDescenceのノイズ幾何学:定量的および解析的解析

The Noise Geometry of Stochastic Gradient Descent: A Quantitative and Analytical Characterization ( http://arxiv.org/abs/2310.00692v1 )

ライセンス: Link先を確認
Mingze Wang, Lei Wu(参考訳) 確率勾配降下(SGD)の雑音は、損失景観の局所的幾何学と良好に一致していることを示す実証的研究がある。 しかし、この現象の理論的、定量的な説明はいまだに少ない。 本稿では、超パラメータ線形(olms)モデルと2層ニューラルネットワークに対する上述の「emノイズ幾何」に関する包括的理論的検討を行う。 平均的および方向的アライメントを精査し,サンプルサイズや入力データ縮退がアライメント強度に及ぼす影響に特に注意した。 特定の応用として、SGDがいかに鋭い最小値から脱出するかを研究するためにノイズ幾何学的特徴を活用し、逃走方向が平坦な方向に沿って重要な成分を持つことを明らかにする。 これは、最も鋭い方向に沿ってのみ逃げるGDとは対照的である。 理論的知見を裏付けるために, 合成実験と実世界の実験の両方が提供される。

Empirical studies have demonstrated that the noise in stochastic gradient descent (SGD) aligns favorably with the local geometry of loss landscape. However, theoretical and quantitative explanations for this phenomenon remain sparse. In this paper, we offer a comprehensive theoretical investigation into the aforementioned {\em noise geometry} for over-parameterized linear (OLMs) models and two-layer neural networks. We scrutinize both average and directional alignments, paying special attention to how factors like sample size and input data degeneracy affect the alignment strength. As a specific application, we leverage our noise geometry characterizations to study how SGD escapes from sharp minima, revealing that the escape direction has significant components along flat directions. This is in stark contrast to GD, which escapes only along the sharpest directions. To substantiate our theoretical findings, both synthetic and real-world experiments are provided.
翻訳日:2023-10-05 02:27:44 公開日:2023-10-01
# 正規化フローを用いた決定論的ランゲヴィン非拘束最適化

Deterministic Langevin Unconstrained Optimization with Normalizing Flows ( http://arxiv.org/abs/2310.00745v1 )

ライセンス: Link先を確認
James M. Sullivan, Uros Seljak(参考訳) 我々は,fokker-planck方程式とlangevin方程式にインスパイアされた高価なブラックボックス関数に対する大域的,勾配なしのサロゲート最適化戦略を提案する。 これらは、評価されたサンプルの現在の密度の対数の最大化を目標関数とする最適化問題として記述できる。 この目的は、目標の活用と低密度領域の探索のバランスをとる。 この手法である決定論的ランゲヴィン最適化(DLO)は,正規化フロー密度推定を用いて能動的学習を行い,評価のための提案点を選択する。 この戦略はベイズ最適化法で広く用いられている獲得関数と定性的に異なり、様々なサロゲート選択に対応できる。 中等次元の非凸・多モード後部と同様に、標準合成試験関数に対する客観的最適性に対する優越的あるいは競争的な進歩を示す。 科学とニューラルネットワークのハイパーパラメータ最適化のような現実世界の目的において、DLOは最先端のベースラインと競合する。

We introduce a global, gradient-free surrogate optimization strategy for expensive black-box functions inspired by the Fokker-Planck and Langevin equations. These can be written as an optimization problem where the objective is the target function to maximize minus the logarithm of the current density of evaluated samples. This objective balances exploitation of the target objective with exploration of low-density regions. The method, Deterministic Langevin Optimization (DLO), relies on a Normalizing Flow density estimate to perform active learning and select proposal points for evaluation. This strategy differs qualitatively from the widely-used acquisition functions employed by Bayesian Optimization methods, and can accommodate a range of surrogate choices. We demonstrate superior or competitive progress toward objective optima on standard synthetic test functions, as well as on non-convex and multi-modal posteriors of moderate dimension. On real-world objectives, such as scientific and neural network hyperparameter optimization, DLO is competitive with state-of-the-art baselines.
翻訳日:2023-10-05 02:18:35 公開日:2023-10-01
# FELM:大規模言語モデルの品質評価のベンチマーク

FELM: Benchmarking Factuality Evaluation of Large Language Models ( http://arxiv.org/abs/2310.00741v1 )

ライセンス: Link先を確認
Shiqi Chen, Yiran Zhao, Jinghan Zhang, I-Chun Chern, Siyang Gao, Pengfei Liu and Junxian He(参考訳) 大規模言語モデル(LLM)によって生成されたテキストの事実性を評価することは、ユーザに対して潜在的なエラーを警告し、より信頼性の高いLLMの開発を導くことを目的とした、新たな重要な研究分野である。 それにもかかわらず、事実性を評価する評価者は、進捗を測り、進歩を促進するのに適切な評価が必要である。 この方向は未調査のままであり、事実性評価者の進歩に重大な障害をもたらす。 この問題を軽減するため,本研究では,fermと呼ばれる大規模言語モデルの事実性評価のためのベンチマークを紹介する。 本ベンチマークでは, LLMから生成した応答を収集し, ファクトリティラベルをきめ細かな方法でアノテートする。 世界知識の事実性(wikipediaからの情報など)に主に注力した以前の研究とは対照的に、フェルムは世界知識から数学や推論まで幅広い分野の事実性に焦点を当てている。 アノテーションはテキストセグメントに基づいており、特定の事実的エラーを特定するのに役立ちます。 factualityアノテーションはさらに、事前定義されたエラータイプと、そのステートメントをサポートするか、矛盾する参照リンクによって補完される。 本実験では,バニラLSMと検索機構とチェーン・オブ・プリート・プロセスを併用したファレルム上での現実性評価器の性能について検討した。 その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。

Assessing factuality of text generated by large language models (LLMs) is an emerging yet crucial research area, aimed at alerting users to potential errors and guiding the development of more reliable LLMs. Nonetheless, the evaluators assessing factuality necessitate suitable evaluation themselves to gauge progress and foster advancements. This direction remains under-explored, resulting in substantial impediments to the progress of factuality evaluators. To mitigate this issue, we introduce a benchmark for Factuality Evaluation of large Language Models, referred to as felm. In this benchmark, we collect responses generated from LLMs and annotate factuality labels in a fine-grained manner. Contrary to previous studies that primarily concentrate on the factuality of world knowledge (e.g.~information from Wikipedia), felm focuses on factuality across diverse domains, spanning from world knowledge to math and reasoning. Our annotation is based on text segments, which can help pinpoint specific factual errors. The factuality annotations are further supplemented by predefined error types and reference links that either support or contradict the statement. In our experiments, we investigate the performance of several LLM-based factuality evaluators on felm, including both vanilla LLMs and those augmented with retrieval mechanisms and chain-of-thought processes. Our findings reveal that while retrieval aids factuality evaluation, current LLMs are far from satisfactory to faithfully detect factual errors.
翻訳日:2023-10-05 02:18:19 公開日:2023-10-01
# トップダウングリーンアップ:バッフェルグラス現象予測のための衛星センシングと深層モデル

Top-down Green-ups: Satellite Sensing and Deep Models to Predict Buffelgrass Phenology ( http://arxiv.org/abs/2310.00740v1 )

ライセンス: Link先を確認
Lucas Rosenblatt, Bin Han, Erin Posthumus, Theresa Crimmins, Bill Howe(参考訳) バッフルグラス」と呼ばれる外来種の草は、アメリカ合衆国南西部で深刻な山火事と生物多様性の喪失に寄与している。 我々は,バッフルグラスの「グリーンアップ」 (すなわち除草剤の適応) を予測する問題に取り組む。 予測を行うため,衛星センシングと深層学習を組み合わせた時間的・視覚的・マルチモーダルモデルについて検討する。 従来のバッフルグラスグリーンアップモデルよりも、ニューラルベースアプローチがすべて改善していることが分かり、ニューラルモデルデプロイメントがいかに大きなリソース節約を約束するかについて議論する。

An invasive species of grass known as "buffelgrass" contributes to severe wildfires and biodiversity loss in the Southwest United States. We tackle the problem of predicting buffelgrass "green-ups" (i.e. readiness for herbicidal treatment). To make our predictions, we explore temporal, visual and multi-modal models that combine satellite sensing and deep learning. We find that all of our neural-based approaches improve over conventional buffelgrass green-up models, and discuss how neural model deployment promises significant resource savings.
翻訳日:2023-10-05 02:17:55 公開日:2023-10-01
# genai against humanity: 生成型人工知能と大規模言語モデルの有害な応用

GenAI Against Humanity: Nefarious Applications of Generative Artificial Intelligence and Large Language Models ( http://arxiv.org/abs/2310.00737v1 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) Generative Artificial Intelligence(GenAI)とLarge Language Models(LLMs)は素晴らしい技術であり、自然言語処理とマルチモーダルコンテンツ生成に長けており、変革的な未来を約束している。 しかし、すべての強力なツールと同様に、影が付いてくる。 ディープフェイクが現実と区別できない世界では、合成アイデンティティーが悪意あるキャンペーンを組織し、標的となる偽情報や詐欺が非類似の精度で制作される。 GenAIアプリケーションのより暗い側にようこそ。 この記事は、GenAIとLLMの潜在的な誤用の危険を乗り越える旅であるだけでなく、今後の課題の緊急性を認識するための呼びかけでもある。 偽情報キャンペーン、悪意のあるコンテンツ生成、高度なマルウェアの発見の海を旅する中で、私たちが目にしているGenAI革命の社会的影響を明らかにする。 ソーシャルメディアプラットフォーム上のAIによるボットネットから、AIの絶望的なポテンシャルから、製造されたアイデンティティや合成現実で作られたアリバイまで、その利害関係はかつてないほど高くなっていた。 仮想世界と現実世界の境界線はぼやけており、GenAIの悪名高いアプリケーションの結果が私たち全員に影響を与えています。 本稿は、GenAIのリスクとLLMの誤用に関する厳密な研究の合成と、近い将来遭遇する可能性のある有害なGenAIのさまざまなタイプのビジョンと、それに対応するためのいくつかの方法として機能する。

Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) are marvels of technology; celebrated for their prowess in natural language processing and multimodal content generation, they promise a transformative future. But as with all powerful tools, they come with their shadows. Picture living in a world where deepfakes are indistinguishable from reality, where synthetic identities orchestrate malicious campaigns, and where targeted misinformation or scams are crafted with unparalleled precision. Welcome to the darker side of GenAI applications. This article is not just a journey through the meanders of potential misuse of GenAI and LLMs, but also a call to recognize the urgency of the challenges ahead. As we navigate the seas of misinformation campaigns, malicious content generation, and the eerie creation of sophisticated malware, we'll uncover the societal implications that ripple through the GenAI revolution we are witnessing. From AI-powered botnets on social media platforms to the unnerving potential of AI to generate fabricated identities, or alibis made of synthetic realities, the stakes have never been higher. The lines between the virtual and the real worlds are blurring, and the consequences of potential GenAI's nefarious applications impact us all. This article serves both as a synthesis of rigorous research presented on the risks of GenAI and misuse of LLMs and as a thought-provoking vision of the different types of harmful GenAI applications we might encounter in the near future, and some ways we can prepare for them.
翻訳日:2023-10-05 02:17:44 公開日:2023-10-01
# データ拡張アプローチを用いた低資源言語に対するロバスト感性分析:マラタイを事例として

Robust Sentiment Analysis for Low Resource languages Using Data Augmentation Approaches: A Case Study in Marathi ( http://arxiv.org/abs/2310.00734v1 )

ライセンス: Link先を確認
Aabha Pingle, Aditya Vyawahare, Isha Joshi, Rahul Tangsali, Geetanjali Kale, Raviraj Joshi(参考訳) 感情分析は、テキストデータに表される感情を理解する上で重要な役割を果たす。 感情分析の研究は英語や他の西洋言語で広く行われているが、低リソース言語における感情分析の研究努力には大きなギャップがある。 データセットやNLP研究を含む限られた資源は、この分野の進歩を妨げる。 本稿では,低リソースのindic言語であるmarathiに対して,データ拡張手法を徹底的に検討する。 Marathiにおける感情分析のためのドメイン固有のデータセットは存在するが、一般化および可変長入力に適用すると、しばしば不足する。 そこで本研究では,マラーティにおける感情分析のための4つのデータ拡張手法を提案する。 この論文は、十分なリソースの不足を補うために、既存のデータセットの強化に焦点を当てている。 第一の目的は、データ拡張戦略を利用して、ドメイン内およびドメイン横断のシナリオにおける感情分析モデルのパフォーマンスを向上させることである。 提案するデータ拡張手法は、クロスドメイン・アキュラシーにおいて著しい性能向上を示した。 拡張方法は、パラフレージング、バックトランスレーション、BERTベースのランダムトークン置換、名前付きエンティティ置換、擬似ラベル生成、GPTベースのテキストおよびラベル生成を含む。 さらに、これらのテクニックは他の低リソース言語や一般的なテキスト分類タスクにも拡張できる。

Sentiment analysis plays a crucial role in understanding the sentiment expressed in text data. While sentiment analysis research has been extensively conducted in English and other Western languages, there exists a significant gap in research efforts for sentiment analysis in low-resource languages. Limited resources, including datasets and NLP research, hinder the progress in this area. In this work, we present an exhaustive study of data augmentation approaches for the low-resource Indic language Marathi. Although domain-specific datasets for sentiment analysis in Marathi exist, they often fall short when applied to generalized and variable-length inputs. To address this challenge, this research paper proposes four data augmentation techniques for sentiment analysis in Marathi. The paper focuses on augmenting existing datasets to compensate for the lack of sufficient resources. The primary objective is to enhance sentiment analysis model performance in both in-domain and cross-domain scenarios by leveraging data augmentation strategies. The data augmentation approaches proposed showed a significant performance improvement for cross-domain accuracies. The augmentation methods include paraphrasing, back-translation; BERT-based random token replacement, named entity replacement, and pseudo-label generation; GPT-based text and label generation. Furthermore, these techniques can be extended to other low-resource languages and for general text classification tasks.
翻訳日:2023-10-05 02:17:16 公開日:2023-10-01
# スペクトルニューラルネットワーク:近似理論と最適化の展望

Spectral Neural Networks: Approximation Theory and Optimization Landscape ( http://arxiv.org/abs/2310.00729v1 )

ライセンス: Link先を確認
Chenghui Li, Rishi Sonthalia, Nicolas Garcia Trillos(参考訳) データからスペクトル幾何学的情報の抽出に基づく機械学習手法は多種多様である。 しかし、これらの手法の実装の多くは従来の固有解法に依存しており、実際のオンラインビッグデータシナリオに適用した場合に制限が生じる。 これらの課題のいくつかに対処するために、研究者は従来の固有解法に代わるものとしてニューラルネットワークを訓練するための異なる戦略を提案している。 本稿では,SNNの重要な理論的側面について考察する。 まず,ニューロンの数と,ニューラルネットワークが学習するスペクトル幾何学的情報の量とのトレードオフに関する定量的知見を示す。 第2に、SNNのトレーニング力学を光を当てるために、SNNの目的の最適化ランドスケープを理論的に探求する。 NNトレーニングダイナミクスのグローバルな解への収束に関する典型的な研究とは異なり、SNNは非凸環境損失関数によってさらに複雑になる。

There is a large variety of machine learning methodologies that are based on the extraction of spectral geometric information from data. However, the implementations of many of these methods often depend on traditional eigensolvers, which present limitations when applied in practical online big data scenarios. To address some of these challenges, researchers have proposed different strategies for training neural networks as alternatives to traditional eigensolvers, with one such approach known as Spectral Neural Network (SNN). In this paper, we investigate key theoretical aspects of SNN. First, we present quantitative insights into the tradeoff between the number of neurons and the amount of spectral geometric information a neural network learns. Second, we initiate a theoretical exploration of the optimization landscape of SNN's objective to shed light on the training dynamics of SNN. Unlike typical studies of convergence to global solutions of NN training dynamics, SNN presents an additional complexity due to its non-convex ambient loss function.
翻訳日:2023-10-05 02:16:56 公開日:2023-10-01
# 物理インフォームドグラフニューラルネットワークによる電力系統の動的再構成

Physics-Informed Graph Neural Network for Dynamic Reconfiguration of Power Systems ( http://arxiv.org/abs/2310.00728v1 )

ライセンス: Link先を確認
Jules Authier and Rabab Haider and Anuradha Annaswamy and Florian Dorfler(参考訳) 信頼性の高いグリッドを維持するには、動的再構成(dyr)のような複雑な問題に対する迅速な意思決定アルゴリズムが必要です。 DyRは、グリッド損失を最小限に抑えるために、分散グリッドスイッチ設定をリアルタイムで最適化し、利用可能な世代で負荷を供給するリソースをディスパッチする。 DyRは混合整数問題であり、大きなグリッドや高速な時間スケールで計算的に解ける。 DyRに適した物理インフォームドグラフニューラルネットワーク(GNN)フレームワークであるGraPhyRを提案する。 GNNフレームワークに直接、本質的な運用と接続の制約を組み込んで、エンドツーエンドでトレーニングします。 この結果から,GraPhyRはDyRタスクの最適化を学習できることがわかった。

To maintain a reliable grid we need fast decision-making algorithms for complex problems like Dynamic Reconfiguration (DyR). DyR optimizes distribution grid switch settings in real-time to minimize grid losses and dispatches resources to supply loads with available generation. DyR is a mixed-integer problem and can be computationally intractable to solve for large grids and at fast timescales. We propose GraPhyR, a Physics-Informed Graph Neural Network (GNNs) framework tailored for DyR. We incorporate essential operational and connectivity constraints directly within the GNN framework and train it end-to-end. Our results show that GraPhyR is able to learn to optimize the DyR task.
翻訳日:2023-10-05 02:16:41 公開日:2023-10-01
# 医療における深層学習の展望

Review of deep learning in healthcare ( http://arxiv.org/abs/2310.00727v1 )

ライセンス: Link先を確認
Hasan Hejbari Zargar, Saha Hejbari Zargar, Raziye Mehri(参考訳) 近年、医療データの複雑さが増大している中、Deep Neural Network(DNN)モデルのような機械学習技術が注目されている。 従来の分析では合理的な時間内にできない大量の健康データから隠されたパターンやその他の貴重な情報を抽出するために、機械学習(ML)技術を用いる。 特に、Deep Learning (DL)アルゴリズムは、医療システムにおけるパターン識別への潜在的アプローチとして示されている。 この考え方は、最先端のネットワーク設計、応用、市場動向の検証を通じて、医療システムで使用されるディープラーニング手法を調べる研究の貢献につながっている。 深層学習の方法論と人間の医療解釈能力を結びつけるため、第一の目的は、深層学習モデルの医療ソリューションへの展開に関する深い洞察を提供することである。 そして最後に、未解決の問題と潜在的な方向性を概説する。

Given the growing complexity of healthcare data over the last several years, using machine learning techniques like Deep Neural Network (DNN) models has gained increased appeal. In order to extract hidden patterns and other valuable information from the huge quantity of health data, which traditional analytics are unable to do in a reasonable length of time, machine learning (ML) techniques are used. Deep Learning (DL) algorithms in particular have been shown as potential approaches to pattern identification in healthcare systems. This thought has led to the contribution of this research, which examines deep learning methods used in healthcare systems via an examination of cutting-edge network designs, applications, and market trends. To connect deep learning methodologies and human healthcare interpretability, the initial objective is to provide in-depth insight into the deployment of deep learning models in healthcare solutions. And last, to outline the current unresolved issues and potential directions.
翻訳日:2023-10-05 02:16:29 公開日:2023-10-01
# タスクヒンティングによる変圧器長一般化の改善

Improving Length-Generalization in Transformers via Task Hinting ( http://arxiv.org/abs/2310.00726v1 )

ライセンス: Link先を確認
Pranjal Awasthi and Anupam Gupta(参考訳) 近年、トランスフォーマーはある種の推論や演算タスクにおいて長さ一般化に問題があることが観測されている。 特に、タスク(例えば加算)に基づいて訓練されたトランスフォーマーモデルの性能は、同じ問題の長いインスタンスに適用した場合に急激に低下する(例:5桁数)。 本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。 私たちの重要なアイデアは、タスク固有のデータでモデルをトレーニングしながら、よりシンプルで関連する補助的なタスクを解決するために同時にモデルをトレーニングすることです。 古典的ソート問題を標準例として検討し,そのアプローチを評価する。 マルチタスク・トレーニング・フレームワークを設計し,タスクヒントが長さの一般化を大幅に改善することを示す。 ソートに関しては、最大20ドル以上の長さのシーケンスからなるデータに基づいてモデルをトレーニングでき、100ドルの長さのシーケンスのテスト精度を(標準的なトレーニングのために)1%未満から92%以上(タスクヒントによって)向上できることを示す。 本研究は長さ一般化のいくつかの興味深い側面を明らかにする。 我々は,いくつかの補助タスクは前もって自然に思えるかもしれないが,その長大化改善効果は劇的に異なると観察する。 さらに,モデルがタスクを実行する内部機構を理解するために,探索および可視化に基づく手法を用い,モデルの観察した学習行動と整合した理論的構成を提案する。 提案手法では,学習手順に少数の長さ依存パラメータを導入することで,未知の長さのパフォーマンスがさらに向上することを示す。 最後に,タスクヒントに基づくソート手法の有効性を示すとともに,これらの手法がより広い文脈で適用可能であることを期待する。

It has been observed in recent years that transformers have problems with length generalization for certain types of reasoning and arithmetic tasks. In particular, the performance of a transformer model trained on tasks (say addition) up to a certain length (e.g., 5 digit numbers) drops sharply when applied to longer instances of the same problem. This work proposes an approach based on task hinting towards addressing length generalization. Our key idea is that while training the model on task-specific data, it is helpful to simultaneously train the model to solve a simpler but related auxiliary task as well. We study the classical sorting problem as a canonical example to evaluate our approach. We design a multitask training framework and show that task hinting significantly improve length generalization. For sorting we show that it is possible to train models on data consisting of sequences having length at most $20$, and improve the test accuracy on sequences of length $100$ from less than 1% (for standard training) to more than 92% (via task hinting). Our study uncovers several interesting aspects of length generalization. We observe that while several auxiliary tasks may seem natural a priori, their effectiveness in improving length generalization differs dramatically. We further use probing and visualization-based techniques to understand the internal mechanisms via which the model performs the task, and propose a theoretical construction consistent with the observed learning behaviors of the model. Based on our construction, we show that introducing a small number of length dependent parameters into the training procedure can further boost the performance on unseen lengths. Finally, we also show the efficacy of our task hinting based approach beyond sorting, giving hope that these techniques will be applicable in broader contexts.
翻訳日:2023-10-05 02:16:16 公開日:2023-10-01
# squaringによる減算混合モデル:表現と学習

Subtractive Mixture Models via Squaring: Representation and Learning ( http://arxiv.org/abs/2310.00724v1 )

ライセンス: Link先を確認
Lorenzo Loconte, Aleksanteri M. Sladek, Stefan Mengel, Martin Trapp, Arno Solin, Nicolas Gillis, Antonio Vergari(参考訳) 混合モデルは伝統的にいくつかの分布をコンポーネントとして追加することによって表現され、学習される。 混合が確率質量や密度を減じることによって、複雑な分布をモデル化するのに必要な成分の数を劇的に減らすことができる。 しかし、そのような減算混合を学習し、非負の関数を符号化し続けることは困難である。 深層減算混合の学習法と推論法について検討した。 確率回路の枠組みでこれを行えば、テンソル化混合を表現でき、他のいくつかの減算的モデルを一般化できる。 理論上、減算が可能な二乗回路のクラスは従来の加法混合よりも指数関数的に表現可能であることを証明し、実世界の分布推定タスクでこの増大表現性を示す。

Mixture models are traditionally represented and learned by adding several distributions as components. Allowing mixtures to subtract probability mass or density can drastically reduce the number of components needed to model complex distributions. However, learning such subtractive mixtures while ensuring they still encode a non-negative function is challenging. We investigate how to learn and perform inference on deep subtractive mixtures by squaring them. We do this in the framework of probabilistic circuits, which enable us to represent tensorized mixtures and generalize several other subtractive models. We theoretically prove that the class of squared circuits allowing subtractions can be exponentially more expressive than traditional additive mixtures; and, we empirically show this increased expressiveness on a series of real-world distribution estimation tasks.
翻訳日:2023-10-05 02:15:49 公開日:2023-10-01
# 非可換グラフによる安定化形式論の一考察

A note on the stabilizer formalism via noncommutative graphs ( http://arxiv.org/abs/2310.00762v1 )

ライセンス: Link先を確認
Roy Araiza, Jihong Cai, Yushan Chen, Abraham Holtermann, Chieh Hsu, Tushar Mohan, Peixue Wu, Zeyuan Yu(参考訳) ここでは、非可換グラフの言語における安定化形式を定式化する。 私たちが考える非可換グラフのクラスはコンパクト群のユニタリ表現と有限次元ヒルベルト空間上の好ましく選択された作用素によって得られる。 さらに、この枠組みでは、そのような非可換グラフが斜方形を持つかどうかを決定するために、この領域における以前の結果を一般化する。

In this short note we formulate a stabilizer formalism in the language of noncommutative graphs. The classes of noncommutative graphs we consider are obtained via unitary representations of compact groups, and suitably chosen operators on finite-dimensional Hilbert spaces. Furthermore, in this framework, we generalize previous results in this area for determining when such noncommutative graphs have anticliques.
翻訳日:2023-10-05 02:09:57 公開日:2023-10-01
# 対向的頑健かつ解釈可能な分類器のための対物画像生成

Counterfactual Image Generation for adversarially robust and interpretable Classifiers ( http://arxiv.org/abs/2310.00761v1 )

ライセンス: Link先を確認
Rafael Bischof, Florian Scheidegger, Michael A. Kraus, A. Cristiano I. Malossi(参考訳) ニューラルイメージ分類器は効果的であるが、本質的に解釈が困難であり、敵の攻撃を受けやすい。 両問題の解決策は、説明可能性を高めるための反実例生成や、堅牢性を改善するための対角的なトレーニングデータセットの強化といった形で存在する。 しかし、既存の手法は問題の1つにのみ対処する。 本稿では,画像から画像への変換生成型逆向ネットワーク(gans)を活用した統一フレームワークを提案する。 これは、分類器と判別器を1つのモデルに組み合わせ、実際の画像をそれぞれのクラスに分類し、生成されたイメージを「フェイク」としてフラグ化する。 この方法の有効性を 評価することで (i)コンクリートひび割れのセグメンテーション課題における説明可能性マスク (2)果実欠陥検出問題に対するPGD攻撃に対するモデルのレジリエンスについて検討した。 従来のセグメンテーションモデルと比較して,分類ラベルのみを訓練したものの,競争的なiou値を達成することができた。 さらに,本モデルでは,敵攻撃に対するロバスト性を向上し,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。

Neural Image Classifiers are effective but inherently hard to interpret and susceptible to adversarial attacks. Solutions to both problems exist, among others, in the form of counterfactual examples generation to enhance explainability or adversarially augment training datasets for improved robustness. However, existing methods exclusively address only one of the issues. We propose a unified framework leveraging image-to-image translation Generative Adversarial Networks (GANs) to produce counterfactual samples that highlight salient regions for interpretability and act as adversarial samples to augment the dataset for more robustness. This is achieved by combining the classifier and discriminator into a single model that attributes real images to their respective classes and flags generated images as "fake". We assess the method's effectiveness by evaluating (i) the produced explainability masks on a semantic segmentation task for concrete cracks and (ii) the model's resilience against the Projected Gradient Descent (PGD) attack on a fruit defects detection problem. Our produced saliency maps are highly descriptive, achieving competitive IoU values compared to classical segmentation models despite being trained exclusively on classification labels. Furthermore, the model exhibits improved robustness to adversarial attacks, and we show how the discriminator's "fakeness" value serves as an uncertainty measure of the predictions.
翻訳日:2023-10-05 02:09:51 公開日:2023-10-01
# 制約付きデータ駆動適応型建物熱制御器--初歩的文脈ベイズ最適化アプローチ

Data-driven adaptive building thermal controller tuning with constraints: A primal-dual contextual Bayesian optimization approach ( http://arxiv.org/abs/2310.00758v1 )

ライセンス: Link先を確認
Wenjie Xu, Bratislav Svetozarevic, Loris Di Natale, Philipp Heer, Colin N Jones(参考訳) 本研究では, 室内温度計のパラメータを調整し, エネルギー消費を最小限に抑えるという課題について検討する。 我々は,オンライン制約付きブラックボックス最適化問題として定式化し,関連する環境条件を観察し,制御パラメータを適応的に選択する。 本稿では,この問題を解決するためにデータ駆動型Primal-Dual Contextual Bayesian Optimization (PDCBO)アプローチを提案する。 単室でのシミュレーションケーススタディでは、比例積分(pi)加熱制御器のパラメータと予熱時間の調整にアルゴリズムを適用した。 以上の結果から, PDCBOは従来のベイズ最適化手法と比較して最大4.7%の省エネが可能であり, 日常的な熱的不快感は許容しきい値以下であることがわかった。 さらにpdcboは、既存の方法が失敗している間に、許容可能な許容しきい値を自動的に追跡することができる。 次に、エネルギー予算に対する熱的不快感を最小限に抑えるための代替的な制約付きチューニング問題について検討する。 この定式化により、PDCBOは最先端の安全な最適化手法と比較して平均的な不快感を最大63%減らし、平均的な日エネルギー消費を必要閾値以下に抑える。

We study the problem of tuning the parameters of a room temperature controller to minimize its energy consumption, subject to the constraint that the daily cumulative thermal discomfort of the occupants is below a given threshold. We formulate it as an online constrained black-box optimization problem where, on each day, we observe some relevant environmental context and adaptively select the controller parameters. In this paper, we propose to use a data-driven Primal-Dual Contextual Bayesian Optimization (PDCBO) approach to solve this problem. In a simulation case study on a single room, we apply our algorithm to tune the parameters of a Proportional Integral (PI) heating controller and the pre-heating time. Our results show that PDCBO can save up to 4.7% energy consumption compared to other state-of-the-art Bayesian optimization-based methods while keeping the daily thermal discomfort below the given tolerable threshold on average. Additionally, PDCBO can automatically track time-varying tolerable thresholds while existing methods fail to do so. We then study an alternative constrained tuning problem where we aim to minimize the thermal discomfort with a given energy budget. With this formulation, PDCBO reduces the average discomfort by up to 63% compared to state-of-the-art safe optimization methods while keeping the average daily energy consumption below the required threshold.
翻訳日:2023-10-05 02:09:29 公開日:2023-10-01
# Mind the Gap: 診断AIモデルにおけるドメインの一般化を広めるフェデレーションラーニング

Mind the Gap: Federated Learning Broadens Domain Generalization in Diagnostic AI Models ( http://arxiv.org/abs/2310.00757v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Christiane Kuhl, Marwin-Jonathan Saehn, Peter Isfort, Daniel Truhn, Sven Nebelung(参考訳) 目に見えないデータセットに適切に一般化する堅牢な人工知能(AI)モデルの開発は困難であり、通常は大規模で可変なデータセットを必要とする。 フェデレーション学習(fl)では、モデルを交換せずにローカルデータセットを保持する多数のサイトで協調的にトレーニングする。 これまでのところ、胸部ラジオグラフィーを解釈するAIモデルのドメイン内診断とドメイン外性能に対するトレーニング戦略、すなわち局所的対協調的効果は評価されていない。 Consequently, using 610,000 chest radiographs from five institutions across the globe, we assessed diagnostic performance as a function of training strategy (i.e., local vs. collaborative), network architecture (i.e., convolutional vs. transformer-based), generalization performance (i.e., on-domain vs. off-domain), imaging finding (i.e., cardiomegaly, pleural effusion, pneumonia, atelectasis, consolidation, pneumothorax, and no abnormality), dataset size (i.e., from n=18,000 to 213,921 radiographs), and dataset diversity. 大規模なデータセットでは、flのパフォーマンスが最小限に向上するだけでなく、場合によっては低下も見られた。 対照的に、小さなデータセットでは顕著な改善が見られた。 したがって、オンドメインのパフォーマンスは主にデータサイズのトレーニングによって決まる。 しかし、ドメイン外のパフォーマンスはトレーニングの多様性により依存した。 さまざまな外部機関間で協調的にトレーニングされた場合、aiモデルは一貫してドメイン外のタスクのためにローカルにトレーニングされたモデルを超え、データ多様性を活用するflの可能性を強調した。 結論として、flは診断のプライバシ、再現性、aiモデルのドメイン外の信頼性、そして潜在的に医療結果の最適化を促進することができる。

Developing robust artificial intelligence (AI) models that generalize well to unseen datasets is challenging and usually requires large and variable datasets, preferably from multiple institutions. In federated learning (FL), a model is trained collaboratively at numerous sites that hold local datasets without exchanging them. So far, the impact of training strategy, i.e., local versus collaborative, on the diagnostic on-domain and off-domain performance of AI models interpreting chest radiographs has not been assessed. Consequently, using 610,000 chest radiographs from five institutions across the globe, we assessed diagnostic performance as a function of training strategy (i.e., local vs. collaborative), network architecture (i.e., convolutional vs. transformer-based), generalization performance (i.e., on-domain vs. off-domain), imaging finding (i.e., cardiomegaly, pleural effusion, pneumonia, atelectasis, consolidation, pneumothorax, and no abnormality), dataset size (i.e., from n=18,000 to 213,921 radiographs), and dataset diversity. Large datasets not only showed minimal performance gains with FL but, in some instances, even exhibited decreases. In contrast, smaller datasets revealed marked improvements. Thus, on-domain performance was mainly driven by training data size. However, off-domain performance leaned more on training diversity. When trained collaboratively across diverse external institutions, AI models consistently surpassed models trained locally for off-domain tasks, emphasizing FL's potential in leveraging data diversity. In conclusion, FL can bolster diagnostic privacy, reproducibility, and off-domain reliability of AI models and, potentially, optimize healthcare outcomes.
翻訳日:2023-10-05 02:09:02 公開日:2023-10-01
# 大規模視覚言語モデルにおける物体幻覚の分析と緩和

Analyzing and Mitigating Object Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2310.00754v1 )

ライセンス: Link先を確認
Yiyang Zhou, Chenhang Cui, Jaehong Yoon, Linjun Zhang, Zhun Deng, Chelsea Finn, Mohit Bansal, Huaxiu Yao(参考訳) 大きな視覚言語モデル(lvlms)は、視覚情報を人間の言語で理解する顕著な能力を示している。 しかし、LVLMはいまだに物体幻覚に悩まされており、これは画像に実際に存在しない物体を含む記述を生成する問題である。 これは視覚的な要約や推論など、多くの視覚言語タスクに悪影響を及ぼす可能性がある。 この問題に対処するために,LVLMの幻覚後修正のための簡単なアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。 LUREは、共起(画像中の他の物体の頻出)、不確実性(LVLM復号時に高い不確実性を持つ物体)、物体の位置(生成されたテキストの後半部分でしばしば幻覚)など、物体の幻覚の根底にある重要な要因の厳密な統計分析に基礎を置いている。 LUREは任意のLVLMとシームレスに統合することもできる。 我々は,LUREを6つのオープンソースLVLM上で評価し,これまでのベストアプローチよりも23%改善した。 GPTと人的評価の両方において、LUREは一貫してトップにランクインしている。 私たちのデータとコードはhttps://github.com/yiyangzhou/lure.comから入手できます。

Large vision-language models (LVLMs) have shown remarkable abilities in understanding visual information with human languages. However, LVLMs still suffer from object hallucination, which is the problem of generating descriptions that include objects that do not actually exist in the images. This can negatively impact many vision-language tasks, such as visual summarization and reasoning. To address this issue, we propose a simple yet powerful algorithm, LVLM Hallucination Revisor (LURE), to post-hoc rectify object hallucination in LVLMs by reconstructing less hallucinatory descriptions. LURE is grounded in a rigorous statistical analysis of the key factors underlying object hallucination, including co-occurrence (the frequent appearance of certain objects alongside others in images), uncertainty (objects with higher uncertainty during LVLM decoding), and object position (hallucination often appears in the later part of the generated text). LURE can also be seamlessly integrated with any LVLMs. We evaluate LURE on six open-source LVLMs, achieving a 23% improvement in general object hallucination evaluation metrics over the previous best approach. In both GPT and human evaluations, LURE consistently ranks at the top. Our data and code are available at https://github.com/YiyangZhou/LURE.
翻訳日:2023-10-05 02:08:37 公開日:2023-10-01
# TIGERScore:すべてのテキスト生成タスクのための説明可能なメトリクスの構築を目指して

TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks ( http://arxiv.org/abs/2310.00752v1 )

ライセンス: Link先を確認
Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin, Wenhu Chen(参考訳) 本稿では,テキスト生成タスクの幅広い範囲において,textbf{I}nstruction \textbf{G}uidance を用いて,textbf{E}xplainable および \textbf{R}eference-free 評価を行う。 アークーンスコアのみを提供する他の自動評価方法とは異なり、TIGERScoreは自然言語命令によって誘導され、生成されたテキストの誤りをピンポイントするエラー解析を提供する。 我々のメトリクスはLLaMAに基づいており、6つのテキスト生成タスクと23のテキスト生成データセットをカバーする、厳密にキュレートされた命令チューニングデータセットMetricInstructに基づいて訓練されている。 データセットは48K四重項からなる(命令、入力、システム出力$\rightarrow$エラー解析)。 さまざまなタイプのエラーをカバーするために,さまざまなチャネルを通じて‘システム出力’を収集しました。 評価基準を定量的に評価するために,5つの保持データセット,2つの保持データセットの人間格付けとの相関性を評価し,TIGERScoreがこれらのデータセット全体でのスピアマンの人間格付けとの相関を最大化し,他の指標を著しく上回ることを示す。 基準のない計量として、その相関は既存の基準ベースの最高の指標を超えうる。 さらに,本測定で得られた理論的根拠を定性的に評価するために,生成された説明について人間による評価を行い,その説明が70.8\%正確であることを見出した。 これらの実験結果を通じて、TIGERScoreは、任意のテキスト生成タスクを評価する普遍的な説明可能なメトリクスを構築する可能性を実証している。

We present TIGERScore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation tasks. Different from other automatic evaluation methods that only provide arcane scores, TIGERScore is guided by the natural language instruction to provide error analysis to pinpoint the mistakes in the generated text. Our metric is based on LLaMA, trained on our meticulously curated instruction-tuning dataset MetricInstruct which covers 6 text generation tasks and 23 text generation datasets. The dataset consists of 48K quadruple in the form of (instruction, input, system output $\rightarrow$ error analysis). We collected the `system outputs' through diverse channels to cover different types of errors. To quantitatively assess our metric, we evaluate its correlation with human ratings on 5 held-in datasets, 2 held-out datasets and show that TIGERScore can achieve the highest overall Spearman's correlation with human ratings across these datasets and outperforms other metrics significantly. As a reference-free metric, its correlation can even surpass the best existing reference-based metrics. To further qualitatively assess the rationale generated by our metric, we conduct human evaluation on the generated explanations and found that the explanations are 70.8\% accurate. Through these experimental results, we believe TIGERScore demonstrates the possibility of building universal explainable metrics to evaluate any text generation task.
翻訳日:2023-10-05 02:08:15 公開日:2023-10-01
# ディファレンスのあるバンドにおけるコペランドの勝者の同定

Identifying Copeland Winners in Dueling Bandits with Indifferences ( http://arxiv.org/abs/2310.00750v1 )

ライセンス: Link先を確認
Viktor Bengs, Bj\"orn Haddenhorst, Eyke H\"ullermeier(参考訳) 我々は,3次フィードバックによる決闘バンディット問題において,コープランド勝者を識別するタスクについて検討する。 これは、2つのアーム間の厳密な選好に加えて、無関心の形でフィードバックを観察することができる従来のデュエルリング・バンディット問題の、未発見だが実際は関係のある変種である。 本稿では,固定誤差確率のコープランド勝者を求める学習アルゴリズムに対して,サンプルの複雑性を低く評価する。 さらに,この下限にほぼ一致し,従来のデュエルリングバンディット問題においても優れた経験的性能を示すサンプル複雑性を持つアルゴリズムであるpocowistaを提案する。 選好確率が特定のタイプの確率推移性を満たす場合、より洗練されたバージョンを提供し、最悪のケースのサンプル複雑性を改善した。

We consider the task of identifying the Copeland winner(s) in a dueling bandits problem with ternary feedback. This is an underexplored but practically relevant variant of the conventional dueling bandits problem, in which, in addition to strict preference between two arms, one may observe feedback in the form of an indifference. We provide a lower bound on the sample complexity for any learning algorithm finding the Copeland winner(s) with a fixed error probability. Moreover, we propose POCOWISTA, an algorithm with a sample complexity that almost matches this lower bound, and which shows excellent empirical performance, even for the conventional dueling bandits problem. For the case where the preference probabilities satisfy a specific type of stochastic transitivity, we provide a refined version with an improved worst case sample complexity.
翻訳日:2023-10-05 02:07:43 公開日:2023-10-01
# SEED: 大規模言語モデルによるシンプルで効率的で効果的なデータ管理

SEED: Simple, Efficient, and Effective Data Management via Large Language Models ( http://arxiv.org/abs/2310.00749v1 )

ライセンス: Link先を確認
Zui CHen, Lei Cao, Sam Madden, Ju Fan, Nan Tang, Zihui Gu, Zeyuan Shang, Chunwei Liu, Michael Cafarella, Tim Kraska(参考訳) ユーザが効率的に効率的なデータ管理アプリケーションを簡単に作成できるLLM中心のシステムSEEDを紹介する。 SEEDは、コード生成、モデル生成、拡張LLMクエリの3つの主要コンポーネントから構成されており、LLMサービスが計算的かつ経済的に高価であり、与えられたデータ管理タスクのすべてのケースで常にうまく機能しないという課題に対処する。 SEEDはLLM計算を極力ローカライズすることでコスト問題に対処する。 これには、ほとんどのLLMコールをローカルコードに置き換えること、ローカルモデル、バッチ処理やデータアクセスツールでLLMクエリを拡張することが含まれる。 有効性を確保するため、SEEDは、ローカライズされたソリューションとLLMクエリを強化するために、自動コードバリデーション、コードアンサンブル、モデル代表者選択、選択ツールの使用など、多くの最適化技術を備えている。 さらに、SEEDユーザーはアプリケーション用にカスタマイズされたデータ管理ソリューションを簡単に構築できる。 ユーザは各コンポーネントを設定し、自然言語で実行パイプラインを構成することができる。 SEEDは自動的に実行可能プログラムにコンパイルする。 本稿では,データ計算やNL2SQL翻訳などの多種多様なデータ管理タスクを用いたSEEDの効率と有効性を示す。

We introduce SEED, an LLM-centric system that allows users to easily create efficient, and effective data management applications. SEED comprises three main components: code generation, model generation, and augmented LLM query to address the challenges that LLM services are computationally and economically expensive and do not always work well on all cases for a given data management task. SEED addresses the expense challenge by localizing LLM computation as much as possible. This includes replacing most of LLM calls with local code, local models, and augmenting LLM queries with batching and data access tools, etc. To ensure effectiveness, SEED features a bunch of optimization techniques to enhance the localized solution and the LLM queries, including automatic code validation, code ensemble, model representatives selection, selective tool usages, etc. Moreover, with SEED users are able to easily construct a data management solution customized to their applications. It allows the users to configure each component and compose an execution pipeline in natural language. SEED then automatically compiles it into an executable program. We showcase the efficiency and effectiveness of SEED using diverse data management tasks such as data imputation, NL2SQL translation, etc., achieving state-of-the-art few-shot performance while significantly reducing the number of required LLM calls.
翻訳日:2023-10-05 02:07:30 公開日:2023-10-01
# NoxTrader:LSTMベースの株価リターンモーメント予測

NoxTrader: LSTM-Based Stock Return Momentum Prediction ( http://arxiv.org/abs/2310.00747v1 )

ライセンス: Link先を確認
Hsiang-Hui Liu, Han-Jay Shu, Wei-Ning Chiu(参考訳) ポートフォリオ構築とトレーディング実行のために設計されたNoxTraderを導入し、利益を生み出すことを目的とした。 NoxTraderの主な焦点は株式市場の取引であり、中長期利益の育成に重点を置いている。 NoxTraderの基盤となる学習プロセスは、歴史的取引データから得られた洞察の同化に依存し、主に雇用されたデータセットの本質的な性質による時系列分析に依存している。 我々は、データ取得、特徴工学、予測モデリング、パラメータ設定、厳格なバックテストフレームワークの確立を含むシーケンシャルな進展を概説し、最終的に、現実の取引シナリオにおけるアルゴリズムトレーディングモデルの有望性を示す証として、NoxTraderを位置づける。

We introduce NoxTrader, which is designed for portfolio construction and trading execution, aims at generating profitable outcomes. The primary focus of NoxTrader is on stock market trading with an emphasis on cultivating moderate to long-term profits. The underlying learning process of NoxTrader hinges on the assimilation of insights gleaned from historical trading data, primarily hinging on time-series analysis due to the inherent nature of the employed dataset. We delineate the sequential progression encompassing data acquisition, feature engineering, predictive modeling, parameter configuration, establishment of a rigorous backtesting framework, and ultimately position NoxTrader as a testament to the prospective viability of algorithmic trading models within real-world trading scenarios.
翻訳日:2023-10-05 02:07:06 公開日:2023-10-01
# rolellm: 大きな言語モデルのベンチマーク、誘発、およびロールプレイング能力の強化

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models ( http://arxiv.org/abs/2310.00746v1 )

ライセンス: Link先を確認
Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou, Yuhan Wu, Hongcheng Guo, Ruitong Gan, Zehao Ni, Man Zhang, Zhaoxiang Zhang, Wanli Ouyang, Ke Xu, Wenhu Chen, Jie Fu, Junran Peng(参考訳) 大規模言語モデル(llms)の出現により、ロールプレイングのような複雑なタスクへの道が開けた。 しかしながら、最先端llmのクローズドソースの性質とその汎用トレーニングはロールプレイング最適化を制限している。 本稿では,LLMにおけるロールプレイング能力をベンチマークし,評価し,拡張するフレームワークであるRoleLLMを紹介する。 RoleLLM は,(1) 役割のロールプロファイル構築,(2) 役割固有の知識抽出のためのコンテキストベースインストラクション生成(Context-Instruction Generation),(3) GPT (RoleGPT) を用いた発話スタイル模倣のためのロールプロンプト,(4) オープンソースモデルの微調整のためのロールコンストラクションインストラクションチューニング (RoCIT) の4段階から構成される。 Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。 さらにRoleBench上のRoCITはRoleLLaMA(英語)とRoleGLM(中国語)を生成し、ロールプレイング能力を大幅に向上させ、RoleGPT(GPT-4)と同等の結果を得る。

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).
翻訳日:2023-10-05 02:06:50 公開日:2023-10-01
# 色調和の普遍的理解に向けて:ファジィアプローチ

Towards a Universal Understanding of Color Harmony: Fuzzy Approach ( http://arxiv.org/abs/2310.00791v1 )

ライセンス: Link先を確認
Pakizar Shamoi, Muragul Muratbekova, Assylzhan Izbassar, Atsushi Inoue, Hiroharu Kawanaka(参考訳) 調和レベル予測は近年注目を集めている。 色は人間の美的反応に影響を与える重要な役割を担っている。 本稿では,ファジィベースの色モデルを用いて色調和を探索し,その普遍性の問題に対処する。 私たちの実験では、ファッション、アート、自然、インテリアデザイン、ブランドロゴの5つのドメインの魅力的なイメージを含むデータセットを利用しています。 我々はこれらの画像中の調和パターンと支配色パレットをファジィアプローチで識別することを目的としている。 美学や色調和評価に関連する主観性と文脈的多様性を扱えるので,この課題に適している。 実験結果から,色調和は概ね普遍的であることが示唆された。 さらに,色調和は色輪の色調関係だけでなく,彩度や強度にも影響されていることが明らかとなった。 調和度が高いパレットでは,彩度と強度を適度に保ちながら,カラーホイールの原理に固執する傾向が見られた。 これらの発見はカラーハーモニーとその基本原理に関する継続的な研究に寄与し、美学の分野でデザイナー、アーティスト、研究者に貴重な洞察を与えている。

Harmony level prediction is receiving increasing attention nowadays. Color plays a crucial role in affecting human aesthetic responses. In this paper, we explore color harmony using a fuzzy-based color model and address the question of its universality. For our experiments, we utilize a dataset containing attractive images from five different domains: fashion, art, nature, interior design, and brand logos. We aim to identify harmony patterns and dominant color palettes within these images using a fuzzy approach. It is well-suited for this task because it can handle the inherent subjectivity and contextual variability associated with aesthetics and color harmony evaluation. Our experimental results suggest that color harmony is largely universal. Additionally, our findings reveal that color harmony is not solely influenced by hue relationships on the color wheel but also by the saturation and intensity of colors. In palettes with high harmony levels, we observed a prevalent adherence to color wheel principles while maintaining moderate levels of saturation and intensity. These findings contribute to ongoing research on color harmony and its underlying principles, offering valuable insights for designers, artists, and researchers in the field of aesthetics.
翻訳日:2023-10-05 01:59:43 公開日:2023-10-01
# クリロフ進化アプローチによる量子貯留層複雑性

Quantum reservoir complexity by Krylov evolution approach ( http://arxiv.org/abs/2310.00790v1 )

ライセンス: Link先を確認
Laia Domingo, F. Borondo, Gast\'on Scialchi, Augusto J. Roncaglia, Gabriel G. Carlo, and Diego A. Wisniacki(参考訳) 量子貯水池計算アルゴリズムは、その性能と現在の量子デバイスとの互換性のため、NISQ時代の成功手法の開発において、最近目立ったアプローチとして登場した。 量子システムの性質とダイナミクスを活用することで、量子貯水池計算はデータの隠れたパターンを効果的に解明する。 しかし、量子貯水池の設計は、アルゴリズムの最適性能を保証するために、この目的のために不可欠である。 そこで本研究では,Krylov進化に基づく強力な物理基盤を持つ高精度な定量的手法を導入し,機械学習タスクの要求された性能を評価する。 計算量に対するkrylovアプローチは,量子貯留層性能と強い相関関係にあり,量子貯留層を最適に設計する上で強力なツールとなる。

Quantum reservoir computing algorithms recently emerged as a standout approach in the development of successful methods for the NISQ era, because of its superb performance and compatibility with current quantum devices. By harnessing the properties and dynamics of a quantum system, quantum reservoir computing effectively uncovers hidden patterns in data. However, the design of the quantum reservoir is crucial to this end, in order to ensure an optimal performance of the algorithm. In this work, we introduce a precise quantitative method, with strong physical foundations based on the Krylov evolution, to assess the wanted good performance in machine learning tasks. Our results show that the Krylov approach to complexity strongly correlates with quantum reservoir performance, making it a powerful tool in the quest for optimally designed quantum reservoirs, which will pave the road to the implementation of successful quantum machine learning methods.
翻訳日:2023-10-05 01:59:25 公開日:2023-10-01
# 多様なテーブルデータタスクにおけるシーケンスllm事前トレーニングへの統一シーケンスの限界の検証

Testing the Limits of Unified Sequence to Sequence LLM Pretraining on Diverse Table Data Tasks ( http://arxiv.org/abs/2310.00789v1 )

ライセンス: Link先を確認
Soumajyoti Sarkar, Leonard Lausen(参考訳) webページや記事に存在するデータベースやテーブルに格納されたテーブルは、インターネットで利用可能な半構造化データの大部分を占めている。 次に、意味解析や質問応答、分類問題といった多様なテーブルタスクを解くのに使用できる、大きな言語モデル(LLM)を用いたモデリングアプローチを開発することが重要になる。 伝統的に、各タスクを個別に専門とするモデルが存在した。 これは、テーブルタスクでうまく動作し、他のタスクを著しく劣化させることなく、どの程度統一モデルを構築することができるかという疑問を提起する。 そこで本研究では,エンコーダ・デコーダ方式のLCMを用いて,事前学習段階における共有モデリング手法の構築を試みた。 我々は,t5 の異なるモデルファミリを,異なるモデルスケールでこれらの下流タスクに対して,テーブルや周辺コンテキストからのデータで常に事前学習し,微調整する手法を評価した。 複数のアブレーション研究を通じて,自己教師付き目標を用いた事前訓練が,これらの課題におけるモデルの性能を著しく向上させることを観察した。 1つの改善の例として、テキスト質問応答(QA)に特化してテーブルデータに訓練された命令が、テーブル固有のQAに関してまだ改善の余地があることを観察する。 我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練の統一的なアプローチの利点について研究する最初の試みである。

Tables stored in databases and tables which are present in web pages and articles account for a large part of semi-structured data that is available on the internet. It then becomes pertinent to develop a modeling approach with large language models (LLMs) that can be used to solve diverse table tasks such as semantic parsing, question answering as well as classification problems. Traditionally, there existed separate models specialized for each task individually. It raises the question of how far can we go to build a unified model that works well on some table tasks without significant degradation on others. To that end, we attempt at creating a shared modeling approach in the pretraining stage with encoder-decoder style LLMs that can cater to diverse tasks. We evaluate our approach that continually pretrains and finetunes different model families of T5 with data from tables and surrounding context, on these downstream tasks at different model scales. Through multiple ablation studies, we observe that our pretraining with self-supervised objectives can significantly boost the performance of the models on these tasks. As an example of one improvement, we observe that the instruction finetuned public models which come specialized on text question answering (QA) and have been trained on table data still have room for improvement when it comes to table specific QA. Our work is the first attempt at studying the advantages of a unified approach to table specific pretraining when scaled from 770M to 11B sequence to sequence models while also comparing the instruction finetuned variants of the models.
翻訳日:2023-10-05 01:59:08 公開日:2023-10-01
# BooookScore: LLM時代における書籍長要約の体系的研究

BooookScore: A systematic exploration of book-length summarization in the era of LLMs ( http://arxiv.org/abs/2310.00785v1 )

ライセンス: Link先を確認
Yapei Chang, Kyle Lo, Tanya Goyal, Mohit Iyyer(参考訳) 大規模言語モデル (LLM) のコンテキストウィンドウサイズを超える書籍の長さの文書 (>100Kトークン) を要約するには、まず入力文書を小さなチャンクに分割し、LLMにチャンクレベルの要約をマージ、更新、圧縮するよう促す必要がある。 このタスクの複雑さと重要性にもかかわらず、既存の書籍長要約データセット(例:BookSum)は、ほとんどの公共LCMの事前学習データであり、既存の評価手法は、現代のLCM要約器による誤りを捉えるのに苦労している。 本稿では,(1)チャンクレベルの要約を階層的にマージすること,(2)実行中の要約を段階的に更新すること,という2つのプロンプトワークフローによって実装される,llmベースの書籍要約サマリーの一貫性に関する最初の研究を行う。 我々は、最近出版された100冊のGPT-4生成した要約に対して、1193個の微粒な人間のアノテーションを取得し、LLMによる8種類のコヒーレンスエラーを同定した。 人間の評価は高価で時間を要するため、私たちは、特定されたエラータイプを一切含まない要約文における文の割合を測定する自動メトリクスであるboookscoreを開発した。 BooookScoreは、人間のアノテーションと高い合意を持ち、他の多くの重要なパラメータ(例えば、チャンクサイズ、ベースLSM)の影響を体系的に評価し、人的評価コストとして15Kと500時間節約することができる。 GPT-4 や Claude 2 のようなクローズソース LLM は、LLaMA 2 が生成したオフト反復式よりも BooookScore の高いサマリーを生成する。 増分更新によってBooookScoreは低下するが、階層的なマージよりも詳細度が高い。 私たちはブラインドレビュー後にコードとアノテーションをリリースし、本の長さの要約に関するより原則化された研究を刺激します。

Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (LLMs) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress chunk-level summaries. Despite the complexity and importance of this task, it has yet to be meaningfully studied due to the challenges of evaluation: existing book-length summarization datasets (e.g., BookSum) are in the pretraining data of most public LLMs, and existing evaluation methods struggle to capture errors made by modern LLM summarizers. In this paper, we present the first study of the coherence of LLM-based book-length summarizers implemented via two prompting workflows: (1) hierarchically merging chunk-level summaries, and (2) incrementally updating a running summary. We obtain 1193 fine-grained human annotations on GPT-4 generated summaries of 100 recently-published books and identify eight common types of coherence errors made by LLMs. Because human evaluation is expensive and time-consuming, we develop an automatic metric, BooookScore, that measures the proportion of sentences in a summary that do not contain any of the identified error types. BooookScore has high agreement with human annotations and allows us to systematically evaluate the impact of many other critical parameters (e.g., chunk size, base LLM) while saving $15K and 500 hours in human evaluation costs. We find that closed-source LLMs such as GPT-4 and Claude 2 produce summaries with higher BooookScore than the oft-repetitive ones generated by LLaMA 2. Incremental updating yields lower BooookScore but higher level of detail than hierarchical merging, a trade-off sometimes preferred by human annotators. We release code and annotations after blind review to spur more principled research on book-length summarization.
翻訳日:2023-10-05 01:58:44 公開日:2023-10-01
# ビデオデータにおける意味ラベルの伝播

Propagating Semantic Labels in Video Data ( http://arxiv.org/abs/2310.00783v1 )

ライセンス: Link先を確認
David Balaban, Justin Medich, Pranay Gosar, Justin Hart(参考訳) セマンティックセグメンテーションは、ピクセルレベルの画像マスクの識別とそれらのマスクへのセマンティックラベルの適用という2つのサブタスクを組み合わせる。 近年、ファウンデーション・モデル(Foundation Models)と呼ばれる、非常に大きなデータセットで訓練された一般的なモデルが導入された。 そのようなモデルの1つ、SAM(Segment Anything Model)は、イメージセグメンテーションを実行する。 clipseg や maskrcnn のような意味セグメンテーションシステムは、ペアセグメンテーションと意味ラベルのデータセットで訓練される。 しかし、カスタムデータのマニュアルラベリングには時間がかかる。 本稿では,映像中のオブジェクトのセグメンテーションを行う方法を提案する。 ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達され、手作業によるアノテーションの労力が削減される。 この方法はSAMとStructure from Motion (SfM)を組み合わせることで機能する。 システムに入力された映像は、まずSfMを用いて3次元形状に再構成される。 ビデオのフレームはSAMを使ってセグメント化される。 samによって識別されたセグメントは、再構成された3dジオメトリに投影される。 その後のビデオフレームでは、ラベル付き3dジオメトリが新しい視点に再投影され、samはより少ない回数で呼び出される。 SAMおよびSfMコンポーネントのコントリビューションを含むシステムパフォーマンスを評価する。 パフォーマンスは、計算時間、手動ラベル付きIOUマスク、トラッキング損失数という3つの主要な指標で評価される。 その結果、ビデオフレーム上のオブジェクトを追跡する人間の性能よりも、計算時間が大幅に改善されるが、性能に支障をきたすことがわかった。

Semantic Segmentation combines two sub-tasks: the identification of pixel-level image masks and the application of semantic labels to those masks. Recently, so-called Foundation Models have been introduced; general models trained on very large datasets which can be specialized and applied to more specific tasks. One such model, the Segment Anything Model (SAM), performs image segmentation. Semantic segmentation systems such as CLIPSeg and MaskRCNN are trained on datasets of paired segments and semantic labels. Manual labeling of custom data, however, is time-consuming. This work presents a method for performing segmentation for objects in video. Once an object has been found in a frame of video, the segment can then be propagated to future frames; thus reducing manual annotation effort. The method works by combining SAM with Structure from Motion (SfM). The video input to the system is first reconstructed into 3D geometry using SfM. A frame of video is then segmented using SAM. Segments identified by SAM are then projected onto the the reconstructed 3D geometry. In subsequent video frames, the labeled 3D geometry is reprojected into the new perspective, allowing SAM to be invoked fewer times. System performance is evaluated, including the contributions of the SAM and SfM components. Performance is evaluated over three main metrics: computation time, mask IOU with manual labels, and the number of tracking losses. Results demonstrate that the system has substantial computation time improvements over human performance for tracking objects over video frames, but suffers in performance.
翻訳日:2023-10-05 01:58:07 公開日:2023-10-01
# 階層的ターゲットを持つ主観的関心サブグループを用いたJavaメモリエラーのマイニング

Mining Java Memory Errors using Subjective Interesting Subgroups with Hierarchical Targets ( http://arxiv.org/abs/2310.00781v1 )

ライセンス: Link先を確認
Youcef Remil and Anes Bendimerad and Mathieu Chambard and Romain Mathonat and Marc Plantevit and Mehdi Kaytoue(参考訳) ソフトウェアアプリケーション、特にERP(Enterprise Resource Planning)システムは、多くの業界の日々の運用に不可欠です。 したがって、インシデントを識別、診断、緩和できるツールを使用して、これらのシステムを効果的に維持することが不可欠である。 これはインシデントデータセットを自動的にマイニングし、識別パターンを抽出して問題の根本原因を特定するデータマイニング手法である。 しかし、現在のSDソリューションは複数の属性を階層的に構成した複雑なターゲット概念を扱う場合に制限がある。 このシナリオを説明するために、いくつかのアプリケーションで可能なJavaのメモリ外インシデント事例について検討する。 私たちはこれらのインシデントを記述したデータセットを持っていて、そのコンテキストや、飽和点に達するとメモリを占有するJavaオブジェクトのタイプを階層的に配置しています。 このシナリオは、階層構造で複雑なターゲット概念を扱える新しいサブグループディスカバリーアプローチを提案するきっかけとなった。 これを実現するために,識別されたサブグループが関連性,非冗長性,ノイズに対する耐性を確実にするパターン構文と品質尺度を設計する。 所望の品質測定を実現するために,データに関する事前知識を取り入れた主観的関心度モデルを用い,その知識に対して情報的かつ驚き的なパターンを促進する。 このフレームワークをメモリ外エラーの調査に応用し,インシデント診断における有用性を示す。 提案手法の有効性と同定されたパターンの質を検証するため,実証的研究を行った。 評価に使用されるソースコードとデータは公開アクセス可能であり、透明性と再現性を保証する。

Software applications, especially Enterprise Resource Planning (ERP) systems, are crucial to the day-to-day operations of many industries. Therefore, it is essential to maintain these systems effectively using tools that can identify, diagnose, and mitigate their incidents. One promising data-driven approach is the Subgroup Discovery (SD) technique, a data mining method that can automatically mine incident datasets and extract discriminant patterns to identify the root causes of issues. However, current SD solutions have limitations in handling complex target concepts with multiple attributes organized hierarchically. To illustrate this scenario, we examine the case of Java out-of-memory incidents among several possible applications. We have a dataset that describes these incidents, including their context and the types of Java objects occupying memory when it reaches saturation, with these types arranged hierarchically. This scenario inspires us to propose a novel Subgroup Discovery approach that can handle complex target concepts with hierarchies. To achieve this, we design a pattern syntax and a quality measure that ensure the identified subgroups are relevant, non-redundant, and resilient to noise. To achieve the desired quality measure, we use the Subjective Interestingness model that incorporates prior knowledge about the data and promotes patterns that are both informative and surprising relative to that knowledge. We apply this framework to investigate out-of-memory errors and demonstrate its usefulness in incident diagnosis. To validate the effectiveness of our approach and the quality of the identified patterns, we present an empirical study. The source code and data used in the evaluation are publicly accessible, ensuring transparency and reproducibility.
翻訳日:2023-10-05 01:57:44 公開日:2023-10-01
# データ可視化とクラスタリング手法による飛行経路の分類

Categorizing Flight Paths using Data Visualization and Clustering Methodologies ( http://arxiv.org/abs/2310.00773v1 )

ライセンス: Link先を確認
Yifan Song, Keyang Yu, Seth Young(参考訳) この研究は、米国連邦航空局の交通フロー管理システムデータセットと、航空交通データの高度にインタラクティブな可視化を行うツールであるDV8を利用して、様々な飛行経路で航空交通を分類するクラスタリングアルゴリズムを開発した。 2つのクラスタリング手法、空間的空間的距離モデル、ベクトル的コサイン類似性モデルを示し、クラスタリングの有効性を比較した。 それらのアプリケーションの例では、自動クラスタリング結果決定と人間-イン-ループプロセスに基づく現実的なクラスタリングが成功し、地理的距離アルゴリズムは、飛行経路の一部により良い性能を示し、コサイン類似性アルゴリズムは、到着経路のようなほぼ終端操作により良い性能を示す。 点抽出技術を用いて計算効率を向上させる。

This work leverages the U.S. Federal Aviation Administration's Traffic Flow Management System dataset and DV8, a recently developed tool for highly interactive visualization of air traffic data, to develop clustering algorithms for categorizing air traffic by their varying flight paths. Two clustering methodologies, a spatial-based geographic distance model, and a vector-based cosine similarity model, are demonstrated and compared for their clustering effectiveness. Examples of their applications reveal successful, realistic clustering based on automated clustering result determination and human-in-the-loop processes, with geographic distance algorithms performing better for enroute portions of flight paths and cosine similarity algorithms performing better for near-terminal operations, such as arrival paths. A point extraction technique is applied to improve computation efficiency.
翻訳日:2023-10-05 01:57:16 公開日:2023-10-01
# SMOOT: オンライントレーニングを最適化したSaliency Guided Mask

SMOOT: Saliency Guided Mask Optimized Online Training ( http://arxiv.org/abs/2310.00772v1 )

ライセンス: Link先を確認
Ali Karkehabadi, Avesta Sasan(参考訳) ディープニューラルネットワークは、複雑なパターンを理解し、意思決定するための強力なツールである。 しかし、そのブラックボックスの性質は内部の動作を完全に理解することを妨げている。 Saliency-Guided Training (SGT)メソッドは、この問題を緩和するために出力に基づいて、モデルのトレーニングで顕著な特徴を強調しようとする。 これらの方法はバックプロパゲーションと修正された勾配を用いてモデルを最も関連する特徴へと導くと同時に、予測精度への影響を無視する。 SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。 このように、モデルの出力を考えると、入力の各セグメントが出力にどのように影響するかを推測できる。 入力として画像の特定の場合には、入力画素にマスキングが適用される。 しかし、マスキング戦略と、我々がマスキングする画素数は、ハイパーパラメータと見なされている。 マスキング戦略の適切な設定は、モデルのトレーニングに直接影響を及ぼす可能性がある。 本稿では,この問題に着目し,その貢献について述べる。 本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適数を決定する手法を提案する。 この戦略は情報損失を防ぎ、精度を向上させる。 また,モデルの性能を戦略公式に組み込むことにより,我々のモデルがより有意義な特徴を表すことを示す。 実験の結果, モデル精度, 精度の両面で有意な改善がみられ, 提案手法の有効性が確認された。

Deep Neural Networks are powerful tools for understanding complex patterns and making decisions. However, their black-box nature impedes a complete understanding of their inner workings. Saliency-Guided Training (SGT) methods try to highlight the prominent features in the model's training based on the output to alleviate this problem. These methods use back-propagation and modified gradients to guide the model toward the most relevant features while keeping the impact on the prediction accuracy negligible. SGT makes the model's final result more interpretable by masking input partially. In this way, considering the model's output, we can infer how each segment of the input affects the output. In the particular case of image as the input, masking is applied to the input pixels. However, the masking strategy and number of pixels which we mask, are considered as a hyperparameter. Appropriate setting of masking strategy can directly affect the model's training. In this paper, we focus on this issue and present our contribution. We propose a novel method to determine the optimal number of masked images based on input, accuracy, and model loss during the training. The strategy prevents information loss which leads to better accuracy values. Also, by integrating the model's performance in the strategy formula, we show that our model represents the salient features more meaningful. Our experimental results demonstrate a substantial improvement in both model accuracy and the prominence of saliency, thereby affirming the effectiveness of our proposed solution.
翻訳日:2023-10-05 01:57:02 公開日:2023-10-01
# オフライン強化学習を支援する合成データによる事前学習

Pre-training with Synthetic Data Helps Offline Reinforcement Learning ( http://arxiv.org/abs/2310.00771v1 )

ライセンス: Link先を確認
Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross(参考訳) 近年,オフライン深部強化学習(DRL)では,大規模な言語コーパスを持つ事前学習型決定変換器が下流の性能を向上させることが示されている(Reid et al., 2022)。 自然な質問は、このパフォーマンス向上が言語事前トレーニングでのみ達成できるのか、あるいは言語を含まない単純な事前トレーニングスキームで達成できるのかである。 本稿では,まず言語が性能向上に必須ではないことを示すとともに,少数の更新のための合成iidデータによる事前学習は,大規模な言語コーパスによる事前学習によるパフォーマンス向上に適合することを示すとともに,1ステップマルコフ連鎖で生成されたデータによる事前学習により,さらにパフォーマンスを向上させることができる。 これらの実験結果に触発されて、一般的なオフラインDRLアルゴリズムである事前学習型保守的Q-Learning(CQL)について検討する。 驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングは、CQLを改善し、D4RL Gymロコモーションデータセットの一貫性のあるパフォーマンス向上を提供する。 本研究の結果は, オフラインDRLの事前学習の重要性だけでなく, 極めて単純な機構で事前学習データを合成・生成できることを示唆している。

Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms.
翻訳日:2023-10-05 01:56:42 公開日:2023-10-01
# ネットワークイベントのためのデータ効率の良い電力フロー学習

Data-Efficient Power Flow Learning for Network Contingencies ( http://arxiv.org/abs/2310.00763v1 )

ライセンス: Link先を確認
Parikshit Pareek, Deepjyoti Deka and Sidhant Misra(参考訳) 本研究は,ネットワーク共振器を有するグリッド内の電力フローを効率よく学習し,対応する確率電圧エンベロープ(PVE)を推定する手法を提案する。 まず,先行研究で開発されたネットワークアウェア・ガウス過程(gp)である頂点度カーネル(vdk-gp)を用いて,いくつかのネットワーク構成の電圧電力関数を推定する。 本稿では,学習したVDK-GPと融合して未確認ネットワークの電力フローを決定するマルチタスク頂点核(MT-VDK)を提案する。 IEEE 30-Bus ネットワーク上のシミュレーションは、N-1 と N-2 の同時実行シナリオにおける電力フロー知識の保持と伝達を実証している。 MT-VDK-GPアプローチは、VDK-GP上での低トレーニングデータレジーム(50-250サンプル)において、新しいN-1整合ネットワーク構成の平均予測誤差を50%以上低減する。 さらに、MT-VDK-GPは、歴史的N-2の停止データなしでも、N-2の待ち時間ネットワーク構造の75%以上において、ハイパーパラメータベースの転送学習アプローチより優れている。 提案手法は,モンテカルロサンプリング法に比べて16倍少ない電力フロー解を用いてPVEを実現できることを示す。

This work presents an efficient data-driven method to learn power flows in grids with network contingencies and to estimate corresponding probabilistic voltage envelopes (PVE). First, a network-aware Gaussian process (GP) termed Vertex-Degree Kernel (VDK-GP), developed in prior work, is used to estimate voltage-power functions for a few network configurations. The paper introduces a novel multi-task vertex degree kernel (MT-VDK) that amalgamates the learned VDK-GPs to determine power flows for unseen networks, with a significant reduction in the computational complexity and hyperparameter requirements compared to alternate approaches. Simulations on the IEEE 30-Bus network demonstrate the retention and transfer of power flow knowledge in both N-1 and N-2 contingency scenarios. The MT-VDK-GP approach achieves over 50% reduction in mean prediction error for novel N-1 contingency network configurations in low training data regimes (50-250 samples) over VDK-GP. Additionally, MT-VDK-GP outperforms a hyper-parameter based transfer learning approach in over 75% of N-2 contingency network structures, even without historical N-2 outage data. The proposed method demonstrates the ability to achieve PVEs using sixteen times fewer power flow solutions compared to Monte-Carlo sampling-based methods.
翻訳日:2023-10-05 01:56:17 公開日:2023-10-01
# MoEトレーニングのためのスパースバックプロパゲーション

Sparse Backpropagation for MoE Training ( http://arxiv.org/abs/2310.00811v1 )

ライセンス: Link先を確認
Liyuan Liu and Jianfeng Gao and Weizhu Chen(参考訳) Mixture-of-Expert(MoE)モデルの1つの特徴は、専門家のルーティングを通じてスパース計算を行う能力である。 しかし、ディープラーニングの基礎となるバックプロパゲーションは、密度の高い計算を必要とするため、MoE勾配計算における課題をポストする。 ここでは,バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるsparsemixerを紹介する。 スパース計算とスケーラビリティのために一定の勾配項を戦略的に無視する典型的なMoEトレーニングとは異なり、SparseMixerはこれらの項に対してスケーラブルな勾配近似を提供し、MoEトレーニングにおいて信頼性の高い勾配推定を可能にする。 SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して、計算オーバーヘッドを無視できる精度の高い勾配近似を行う。 SparseMixerを事前トレーニングと機械翻訳の両方でSwitch Transformerに適用すると、SparseMixerは大幅なパフォーマンス向上を示し、トレーニング収束を最大2倍に加速する。

One defining characteristic of Mixture-of-Expert (MoE) models is their capacity for conducting sparse computation via expert routing, leading to remarkable scalability. However, backpropagation, the cornerstone of deep learning, requires dense computation, thereby posting challenges in MoE gradient computations. Here, we introduce SparseMixer, a scalable gradient estimator that bridges the gap between backpropagation and sparse expert routing. Unlike typical MoE training which strategically neglects certain gradient terms for the sake of sparse computation and scalability, SparseMixer provides scalable gradient approximations for these terms, enabling reliable gradient estimation in MoE training. Grounded in a numerical ODE framework, SparseMixer harnesses the mid-point method, a second-order ODE solver, to deliver precise gradient approximations with negligible computational overhead. Applying SparseMixer to Switch Transformer on both pre-training and machine translation tasks, SparseMixer showcases considerable performance gain, accelerating training convergence up to 2 times.
翻訳日:2023-10-05 01:50:10 公開日:2023-10-01
# 因果基礎モデルに向けて:因果推論と注意の双対性について

Towards Causal Foundation Model: on Duality between Causal Inference and Attention ( http://arxiv.org/abs/2310.00809v1 )

ライセンス: Link先を確認
Jiaqi Zhang, Joel Jennings, Cheng Zhang, Chao Ma(参考訳) 基盤モデルが機械学習のランドスケープに変化をもたらし、さまざまなタスクにわたる人間レベルのインテリジェンスの火花を見せている。 しかし、因果推論のような複雑なタスクにおいてギャップは持続し、主に複雑な推論ステップと高い数値的精度の要求に関連する課題が原因である。 本研究では,複雑なタスクに対する因果認識基盤モデル構築に向けた第一歩を踏み出す。 提案手法は,複数のラベルのないデータセットを用いて自己教師付き因果学習を行い,その後に新たなデータを用いた未知タスクに対するゼロショット因果推論を可能にする。 これは、最適共変量バランスと自己アテンションの原始的双対関係を実証し、訓練されたトランスフォーマー型アーキテクチャの最終層を通してゼロショット因果推論を容易にする理論結果に基づいている。 我々は,我々のアプローチであるCInAが,従来のデータセットごとの因果推論手法をマッチングあるいは超越して,配布外のデータセットやさまざまな実世界のデータセットに効果的に一般化できることを実証的に実証した。

Foundation models have brought changes to the landscape of machine learning, demonstrating sparks of human-level intelligence across a diverse array of tasks. However, a gap persists in complex tasks such as causal inference, primarily due to challenges associated with intricate reasoning steps and high numerical precision requirements. In this work, we take a first step towards building causally-aware foundation models for complex tasks. We propose a novel, theoretically sound method called Causal Inference with Attention (CInA), which utilizes multiple unlabeled datasets to perform self-supervised causal learning, and subsequently enables zero-shot causal inference on unseen tasks with new data. This is based on our theoretical results that demonstrate the primal-dual connection between optimal covariate balancing and self-attention, facilitating zero-shot causal inference through the final layer of a trained transformer-type architecture. We demonstrate empirically that our approach CInA effectively generalizes to out-of-distribution datasets and various real-world datasets, matching or even surpassing traditional per-dataset causal inference methodologies.
翻訳日:2023-10-05 01:49:48 公開日:2023-10-01
# ブリッジ生成とセグメンテーションによる視覚オブジェクトの完成

Completing Visual Objects via Bridging Generation and Segmentation ( http://arxiv.org/abs/2310.00808v1 )

ライセンス: Link先を確認
Xiang Li, Yinpeng Chen, Chung-Ching Lin, Rita Singh, Bhiksha Raj, Zicheng Liu(参考訳) 本稿では,その部分的可視成分から完全な物体を再構築することを目的とした,新しい物体完成手法を提案する。 maskcompと呼ばれるこの手法は、生成とセグメンテーションの反復的な段階を通じて完了プロセスを記述します。 各イテレーションにおいて、オブジェクトマスクは画像生成を促進する追加条件として提供され、その代わり、生成された画像は画像のセグメンテーションを融合させてより正確なマスクに導かれる。 1世代と1つのセグメンテーションステージの組み合わせがマスクデノイザーとして効果的に機能することを示す。 生成段階とセグメンテーション段階の交互化により、部分物体マスクは徐々に洗練され、正確な形状誘導を提供し、優れた物体完成結果が得られる。 我々の実験は、既存のアプローチであるControlNetやStable DiffusionよりもMaskCompの方が優れていることを実証し、オブジェクト補完に有効なソリューションとして確立した。

This paper presents a novel approach to object completion, with the primary goal of reconstructing a complete object from its partially visible components. Our method, named MaskComp, delineates the completion process through iterative stages of generation and segmentation. In each iteration, the object mask is provided as an additional condition to boost image generation, and, in return, the generated images can lead to a more accurate mask by fusing the segmentation of images. We demonstrate that the combination of one generation and one segmentation stage effectively functions as a mask denoiser. Through alternation between the generation and segmentation stages, the partial object mask is progressively refined, providing precise shape guidance and yielding superior object completion results. Our experiments demonstrate the superiority of MaskComp over existing approaches, e.g., ControlNet and Stable Diffusion, establishing it as an effective solution for object completion.
翻訳日:2023-10-05 01:49:27 公開日:2023-10-01
# 頻繁な逐次学習のためのベイズ設計原理

Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v1 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。 各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。 アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。 我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。 さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。 そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。 そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。

We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
翻訳日:2023-10-05 01:49:12 公開日:2023-10-01
# 風力エネルギーに関する知識工学

Knowledge Engineering for Wind Energy ( http://arxiv.org/abs/2310.00804v1 )

ライセンス: Link先を確認
Yuriy Marykovskiy, Thomas Clark, Justin Day, Marcus Wiens, Charles Henderson, Julian Quick, Imad Abdallah, Anna Maria Sempreviva, Jean-Paul Calbimonte, Eleni Chatzi and Sarah Barber(参考訳) 風力エネルギーセクターの急速な進化により、ドメイン内だけでなく他のセクターからも利用できる膨大な量のデータから価値を生み出す必要性が高まっている。 本稿では、風力エネルギー分野の専門家が直面している課題について、データをドメイン知識に変換し、他の知識ソースと接続し統合し、次世代の人工知能システムで使用できるようにする。 この記事では、風力発電部門におけるデジタルトランスフォーメーションのプロセスにおいて、知識工学が果たす役割について取り上げる。 知識ベースシステムを支える主要な概念を示し、知識工学と知識表現の分野における以前の研究を、ドメインの専門家に関係があり、アクセス可能な方法で要約する。 風力エネルギー領域における知識工学の現状を体系的に分析し、主要なドメインアクターとそのニーズを確立し、重要な問題領域を特定することで、利用可能なツールを考察する。 最後に、さらなる開発と改善のためのガイドラインを提供する。

With the rapid evolution of the wind energy sector, there is an ever-increasing need to create value from the vast amounts of data made available both from within the domain, as well as from other sectors. This article addresses the challenges faced by wind energy domain experts in converting data into domain knowledge, connecting and integrating it with other sources of knowledge, and making it available for use in next generation artificially intelligent systems. To this end, this article highlights the role that knowledge engineering can play in the process of digital transformation of the wind energy sector. It presents the main concepts underpinning Knowledge-Based Systems and summarises previous work in the areas of knowledge engineering and knowledge representation in a manner that is relevant and accessible to domain experts. A systematic analysis of the current state-of-the-art on knowledge engineering in the wind energy domain is performed, with available tools put into perspective by establishing the main domain actors and their needs and identifying key problematic areas. Finally, guidelines for further development and improvement are provided.
翻訳日:2023-10-05 01:48:55 公開日:2023-10-01
# GraphPatcher: テスト時間拡張によるグラフニューラルネットワークの遅延バイアスの軽減

GraphPatcher: Mitigating Degree Bias for Graph Neural Networks via Test-time Augmentation ( http://arxiv.org/abs/2310.00800v1 )

ライセンス: Link先を確認
Mingxuan Ju, Tong Zhao, Wenhao Yu, Neil Shah, Yanfang Ye(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)はノード次数に対して強いバイアスを示すことが示されている。 既存の作業では、指定されたgnnアーキテクチャか、特に低次ノードのためのトレーニング戦略を導出することでこの問題に対処している。 モデルは主に、あるいはトレーニング中に低次ノードのみを観察することで、gnnが当初うまく機能していた高次ノードのパフォーマンスが低下する、というシナリオだ。 そこで我々は,低次ノード上でのGNNのテスト時間一般化を強化するためのテスト時間拡張フレームワークであるGraphPatcherを提案する。 具体的には、GraphPatcherは、汚職によって人工的に生成された低次ノードにパッチを当てる仮想ノードを反復的に生成する。 このスキームを通じて、graphpatcherは低次ノードの強化方法を学習するだけでなく、低次ノード上でのgnnの本来の優れた性能を(軽い破損時に)保持する。 さらに、GraphPatcherはモデルに依存しないため、自己管理または教師付きGNNの次数バイアスを軽減することもできる。 総合的な実験は7つのベンチマークデータセット上で行われ、GraphPatcherは共通のGNN全体のパフォーマンスを最大3.6%向上し、低次性能を最大6.5%向上させる。 ソースコードはhttps://github.com/jumxglhf/GraphPatcherで公開されている。

Recent studies have shown that graph neural networks (GNNs) exhibit strong biases towards the node degree: they usually perform satisfactorily on high-degree nodes with rich neighbor information but struggle with low-degree nodes. Existing works tackle this problem by deriving either designated GNN architectures or training strategies specifically for low-degree nodes. Though effective, these approaches unintentionally create an artificial out-of-distribution scenario, where models mainly or even only observe low-degree nodes during the training, leading to a downgraded performance for high-degree nodes that GNNs originally perform well at. In light of this, we propose a test-time augmentation framework, namely GraphPatcher, to enhance test-time generalization of any GNNs on low-degree nodes. Specifically, GraphPatcher iteratively generates virtual nodes to patch artificially created low-degree nodes via corruptions, aiming at progressively reconstructing target GNN's predictions over a sequence of increasingly corrupted nodes. Through this scheme, GraphPatcher not only learns how to enhance low-degree nodes (when the neighborhoods are heavily corrupted) but also preserves the original superior performance of GNNs on high-degree nodes (when lightly corrupted). Additionally, GraphPatcher is model-agnostic and can also mitigate the degree bias for either self-supervised or supervised GNNs. Comprehensive experiments are conducted over seven benchmark datasets and GraphPatcher consistently enhances common GNNs' overall performance by up to 3.6% and low-degree performance by up to 6.5%, significantly outperforming state-of-the-art baselines. The source code is publicly available at https://github.com/jumxglhf/GraphPatcher.
翻訳日:2023-10-05 01:48:40 公開日:2023-10-01
# 深部異常検出のための慣れ親しんだ機能を超えて

Going Beyond Familiar Features for Deep Anomaly Detection ( http://arxiv.org/abs/2310.00797v1 )

ライセンス: Link先を確認
Sarath Sivaprasad and Mario Fritz(参考訳) 異常検出(AD)は、正規性の学習モデルに適合しない観察を識別する重要なタスクである。 ディープADにおける以前の研究は主に親しみやすい仮説に基づいており、親しみやすい特徴が事前訓練された埋め込み空間の参照として機能する。 この戦略は非常に成功したが、事前訓練された符号化によってうまく捉えられていない真に新しい特徴からなる異常が一貫した偽陰性を引き起こすことが判明した。 本稿では,新しい特徴を入力空間における説明不能な観測として捉えるための説明可能性を用いた新しいAD手法を提案する。 類似性と新規性をハイブリッドアプローチで組み合わせることで,幅広い異常ベンチマークにおいて高い性能を実現する。 提案手法は,複数のベンチマークにまたがる新たな最先端性を確立し,多様な異常な型を扱うとともに,高価なバックグラウンドモデルや密マッチングを必要としない。 特に,新しい特徴を考慮すれば,最先端のベンチマークと比較して,挑戦的なベンチマークで偽陰性異常を最大40%削減できることを示す。 本手法は,画素レベルの異常に対する視覚検査可能な説明を与える。

Anomaly Detection (AD) is a critical task that involves identifying observations that do not conform to a learned model of normality. Prior work in deep AD is predominantly based on a familiarity hypothesis, where familiar features serve as the reference in a pre-trained embedding space. While this strategy has proven highly successful, it turns out that it causes consistent false negatives when anomalies consist of truly novel features that are not well captured by the pre-trained encoding. We propose a novel approach to AD using explainability to capture novel features as unexplained observations in the input space. We achieve strong performance across a wide range of anomaly benchmarks by combining similarity and novelty in a hybrid approach. Our approach establishes a new state-of-the-art across multiple benchmarks, handling diverse anomaly types while eliminating the need for expensive background models and dense matching. In particular, we show that by taking account of novel features, we reduce false negative anomalies by up to 40% on challenging benchmarks compared to the state-of-the-art. Our method gives visually inspectable explanations for pixel-level anomalies.
翻訳日:2023-10-05 01:48:09 公開日:2023-10-01
# シミュレーションによるseq2seqモデルへの構造インダクティブバイアスの注入

Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation ( http://arxiv.org/abs/2310.00796v1 )

ライセンス: Link先を確認
Matthias Lindemann and Alexander Koller and Ivan Titov(参考訳) 強い帰納バイアスは、小さなデータから学習し、トレーニング分布外の一般化を支援する。 Transformersのような一般的なニューラルアーキテクチャは、Seq2seq NLPタスクの強い構造的帰納バイアスを独自に欠いている。 そのため、大量のテキストを事前学習した場合でも、トレーニング分布を超えた体系的な一般化、例えば、長い入力への外挿に苦労する。 構造インダクティブバイアスをseq2seqモデルにインジェクトする方法を,合成データ上での構造変換をシミュレートするために事前学習することによって示す。 具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。 実験により,提案手法が所望の帰納バイアスを与え,系統的一般化とfstライクなタスクに対するマイナショット学習の改善を実現した。

Strong inductive biases enable learning from little data and help generalization outside of the training distribution. Popular neural architectures such as Transformers lack strong structural inductive biases for seq2seq NLP tasks on their own. Consequently, they struggle with systematic generalization beyond the training distribution, e.g. with extrapolating to longer inputs, even when pre-trained on large amounts of text. We show how a structural inductive bias can be injected into a seq2seq model by pre-training it to simulate structural transformations on synthetic data. Specifically, we inject an inductive bias towards Finite State Transducers (FSTs) into a Transformer by pre-training it to simulate FSTs given their descriptions. Our experiments show that our method imparts the desired inductive bias, resulting in improved systematic generalization and better few-shot learning for FST-like tasks.
翻訳日:2023-10-05 01:47:50 公開日:2023-10-01
# 医療におけるジェネレーティブAIの概観

A Comprehensive Review of Generative AI in Healthcare ( http://arxiv.org/abs/2310.00795v1 )

ライセンス: Link先を確認
Yasin Shokrollahi, Sahar Yarmohammadtoosky, Matthew M. Nikahd, Pengfei Dong, Xianqi Li, Linxia Gu(参考訳) 人工知能(AI)の進歩は、様々な分野、特に医療において革命的な変化を引き起こしている。 この分野での重要な発展は、生成的AIモデル、特にトランスフォーマーと拡散モデルの適用である。 これらのモデルは、医療画像(画像再構成、画像翻訳、画像生成、画像分類)、タンパク質構造予測、臨床文書、診断支援、放射線学的解釈、臨床決定支援、医療コーディング、請求書、薬物設計、分子表現など、様々な種類のデータを分析する上で重要な役割を担ってきた。 このような応用は、臨床診断、データ再構成、薬物合成を増強した。 本稿では、トランスフォーマーと拡散モデルに焦点をあて、医療における生成AI応用の概要を概観することを目的とする。 さらに, 既存の限界に対処し, 医療分野の要求に応えるために, 今後の研究の方向性を提案する。 生成aiの医療応用に関心のある研究者や実践者のための包括的なガイドとなることを意図したこのレビューは、現在の技術の現状、直面する課題、将来の方向性に関する貴重な洞察を提供する。

The advancement of Artificial Intelligence (AI) has catalyzed revolutionary changes across various sectors, notably in healthcare. Among the significant developments in this field are the applications of generative AI models, specifically transformers and diffusion models. These models have played a crucial role in analyzing diverse forms of data, including medical imaging (encompassing image reconstruction, image-to-image translation, image generation, and image classification), protein structure prediction, clinical documentation, diagnostic assistance, radiology interpretation, clinical decision support, medical coding, and billing, as well as drug design and molecular representation. Such applications have enhanced clinical diagnosis, data reconstruction, and drug synthesis. This review paper aims to offer a thorough overview of the generative AI applications in healthcare, focusing on transformers and diffusion models. Additionally, we propose potential directions for future research to tackle the existing limitations and meet the evolving demands of the healthcare sector. Intended to serve as a comprehensive guide for researchers and practitioners interested in the healthcare applications of generative AI, this review provides valuable insights into the current state of the art, challenges faced, and prospective future directions.
翻訳日:2023-10-05 01:47:34 公開日:2023-10-01
# リンク予測の再検討: データパースペクティブ

Revisiting Link Prediction: A Data Perspective ( http://arxiv.org/abs/2310.00793v1 )

ライセンス: Link先を確認
Haitao Mao, Juanhui Li, Harry Shomer, Bingheng Li, Wenqi Fan, Yao Ma, Tong Zhao, Neil Shah, Jiliang Tang(参考訳) グラフの基本的なタスクであるリンク予測は、フレンドレコメンデーション、タンパク質分析、薬物相互作用予測など、様々なアプリケーションで必須であることが証明されている。 しかし、データセットは複数のドメインにまたがるので、異なるリンク形成メカニズムを持つことができる。 既存の文献の証拠は、すべてのデータセットに適した普遍的に最適なアルゴリズムが存在しないことを裏付けている。 本稿では,データ中心の観点から,多様なデータセットにまたがるリンク予測の原理を探求する。 リンク予測に不可欠な3つの基本的な要因は,局所的構造的近接,大域的構造的近接,特徴的近接である。 それらの要因間の関係を解明し (i)大域構造近接は局所構造近接が不十分な場合にのみ有効である。 (ii) 特徴点と構造的近接点の間には不整合が認められる。 このような非互換性は、特徴近接係数が支配するエッジにおいて、GNNのリンク予測(GNN4LP)が一貫して過小評価される。 データの観点からのこれらの新たな洞察に触発され、より包括的な評価のために適切なベンチマークデータセットを選択するためのGNN4LPモデル設計とガイドラインの実践的指導を提供する。

Link prediction, a fundamental task on graphs, has proven indispensable in various applications, e.g., friend recommendation, protein analysis, and drug interaction prediction. However, since datasets span a multitude of domains, they could have distinct underlying mechanisms of link formation. Evidence in existing literature underscores the absence of a universally best algorithm suitable for all datasets. In this paper, we endeavor to explore principles of link prediction across diverse datasets from a data-centric perspective. We recognize three fundamental factors critical to link prediction: local structural proximity, global structural proximity, and feature proximity. We then unearth relationships among those factors where (i) global structural proximity only shows effectiveness when local structural proximity is deficient. (ii) The incompatibility can be found between feature and structural proximity. Such incompatibility leads to GNNs for Link Prediction (GNN4LP) consistently underperforming on edges where the feature proximity factor dominates. Inspired by these new insights from a data perspective, we offer practical instruction for GNN4LP model design and guidelines for selecting appropriate benchmark datasets for more comprehensive evaluations.
翻訳日:2023-10-05 01:47:14 公開日:2023-10-01
# シンボリックパターンフォレストを用いた時系列データセットの最適クラスタ数の決定

Determining the Optimal Number of Clusters for Time Series Datasets with Symbolic Pattern Forest ( http://arxiv.org/abs/2310.00820v1 )

ライセンス: Link先を確認
Md Nishat Raihan(参考訳) クラスタリングアルゴリズムは探索力と他の技術への道を開く最初の前処理ステップのために最も広く使われているデータマイニング手法の一つである。 しかし、最適なクラスタ数(例えばk)を計算するという問題は、そのような手法の重要な課題の1つである。 時系列データマイニングでk-meansやk-shapeのような最も広く使われているクラスタリングアルゴリズムも、生成すべきクラスタ数に関する基礎的な真実を必要とする。 本研究では,別の時系列クラスタリングアルゴリズムであるシンボリックパターンフォレストアルゴリズムを拡張し,時系列データセットの最適なクラスタ数を決定する。 我々はSPFを用いてデータセットからクラスタを生成し、クラスタリング手法の良さを計算するための指標であるSilhouette Coefficientに基づいて最適なクラスタ数を選択した。 各時系列のSAX単語から生成された単語ベクトルの袋とtf-idfベクトルの両方でシルエットを計算した。 UCRアーカイブデータセットに対する我々のアプローチを検証し、これまでの実験結果はベースラインよりも大幅に改善された。

Clustering algorithms are among the most widely used data mining methods due to their exploratory power and being an initial preprocessing step that paves the way for other techniques. But the problem of calculating the optimal number of clusters (say k) is one of the significant challenges for such methods. The most widely used clustering algorithms like k-means and k-shape in time series data mining also need the ground truth for the number of clusters that need to be generated. In this work, we extended the Symbolic Pattern Forest algorithm, another time series clustering algorithm, to determine the optimal number of clusters for the time series datasets. We used SPF to generate the clusters from the datasets and chose the optimal number of clusters based on the Silhouette Coefficient, a metric used to calculate the goodness of a clustering technique. Silhouette was calculated on both the bag of word vectors and the tf-idf vectors generated from the SAX words of each time series. We tested our approach on the UCR archive datasets, and our experimental results so far showed significant improvement over the baseline.
翻訳日:2023-10-05 01:37:23 公開日:2023-10-01
# パラメータ効率のチューニングは、言語モデルのアライメントに役立つ

Parameter-Efficient Tuning Helps Language Model Alignment ( http://arxiv.org/abs/2310.00819v1 )

ライセンス: Link先を確認
Tianci Xue, Ziqi Wang, Heng Ji(参考訳) 大規模言語モデル(LLM)を人間の好みで調整することは、安全で有用なLLMにとって不可欠である。 これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。 しかし、いくつかの欠点がある。 そのような制限の一つは、トレーニング時にのみモデルに1つの好みを合わせることができ(例えば、嗜好データが詳細なレスポンスを優先する場合に簡潔な応答を生成することを学べない)、データフォーマットに一定の制約がある(例えば、DPOはペアの選好データのみをサポートする)ことである。 この目的のために、事前の作業には制御可能な世代が組み込まれており、言語モデルに複数の選好を学習させ、必要に応じて異なる選好を持つ出力を提供する。 制御可能な生成はまた、データフォーマット(例えば、ポイントワイズデータをサポートする)に関してより柔軟性を提供する。 具体的には、トレーニングと推論の間に異なる好みのために異なるコントロールトークンを使用する。 現在の制御可能な生成方法は、特別なトークンまたは手作りのプロンプトを制御トークンとして使用し、LLMと一緒に最適化する。 制御トークンは一般的にLLMよりも軽量であるため、この最適化戦略は制御トークンを効果的に最適化することができない。 この目的のために、我々はまずパラメータ効率の良いチューニング(例えば、チューニングと低ランク適応)を使用して制御トークンを最適化し、その後制御可能な世代のための微調整モデルを使う。 提案手法はパラメータ効率チューニング (meet) と整合し, 制御トークンの品質を向上し, 2つのよく認識されたデータセットにおいて, 制御可能な生成品質を両立させる。

Aligning large language models (LLMs) with human preferences is essential for safe and useful LLMs. Previous works mainly adopt reinforcement learning (RLHF) and direct preference optimization (DPO) with human feedback for alignment. Nevertheless, they have certain drawbacks. One such limitation is that they can only align models with one preference at the training time (e.g., they cannot learn to generate concise responses when the preference data prefers detailed responses), or have certain constraints for the data format (e.g., DPO only supports pairwise preference data). To this end, prior works incorporate controllable generations for alignment to make language models learn multiple preferences and provide outputs with different preferences during inference if asked. Controllable generation also offers more flexibility with regard to data format (e.g., it supports pointwise preference data). Specifically, it uses different control tokens for different preferences during training and inference, making LLMs behave differently when required. Current controllable generation methods either use a special token or hand-crafted prompts as control tokens, and optimize them together with LLMs. As control tokens are typically much lighter than LLMs, this optimization strategy may not effectively optimize control tokens. To this end, we first use parameter-efficient tuning (e.g., prompting tuning and low-rank adaptation) to optimize control tokens and then fine-tune models for controllable generations, similar to prior works. Our approach, alignMEnt with parameter-Efficient Tuning (MEET), improves the quality of control tokens, thus improving controllable generation quality consistently by an apparent margin on two well-recognized datasets compared with prior works.
翻訳日:2023-10-05 01:36:54 公開日:2023-10-01
# ECG-SL:心電図(ECG)セグメンテーション学習 : 心電図信号の深部学習法

ECG-SL: Electrocardiogram(ECG) Segment Learning, a deep learning method for ECG signal ( http://arxiv.org/abs/2310.00818v1 )

ライセンス: Link先を確認
Han Yu, Huiyuan Yang, Akane Sano(参考訳) 心電図(ECG)は、心臓活動のモニタリングに必須の信号である。 深層学習モデルを用いた臨床応用におけるECG活用の有望な成果を達成した。 しかし、主流のディープラーニングアプローチは通常、心電図の心拍波形の周期的および形成的特性を無視する。 本研究では,ECG信号の周期的性質をモデル化する新しいECG-Segment Based Learning (ECG-SL) フレームワークを提案する。 より具体的には、心電図信号はまず心拍セグメントに分割され、次に各セグメントから構造的特徴が抽出される。 この構造的特徴に基づき, 時間的モデルを用いて, 各種臨床業務の時間的情報学習を行う。 さらに,ecg信号が大量に存在するがラベル付きデータは非常に限られているため,モデル事前学習のための自己教師あり学習戦略も検討し,ダウンストリームタスクにおいて大幅に改善した。 提案手法は,心疾患診断,睡眠時無呼吸検出,不整脈分類の3つの臨床応用において,基礎モデルに匹敵する性能を示し,タスク特定法と比較した。 さらに,ECG-SLは,サリエンシマップを可視化することにより,ResNetよりも心拍ピークとST範囲に注目する傾向にある。

Electrocardiogram (ECG) is an essential signal in monitoring human heart activities. Researchers have achieved promising results in leveraging ECGs in clinical applications with deep learning models. However, the mainstream deep learning approaches usually neglect the periodic and formative attribute of the ECG heartbeat waveform. In this work, we propose a novel ECG-Segment based Learning (ECG-SL) framework to explicitly model the periodic nature of ECG signals. More specifically, ECG signals are first split into heartbeat segments, and then structural features are extracted from each of the segments. Based on the structural features, a temporal model is designed to learn the temporal information for various clinical tasks. Further, due to the fact that massive ECG signals are available but the labeled data are very limited, we also explore self-supervised learning strategy to pre-train the models, resulting significant improvement for downstream tasks. The proposed method outperforms the baseline model and shows competitive performances compared with task-specific methods in three clinical applications: cardiac condition diagnosis, sleep apnea detection, and arrhythmia classification. Further, we find that the ECG-SL tends to focus more on each heartbeat's peak and ST range than ResNet by visualizing the saliency maps.
翻訳日:2023-10-05 01:36:19 公開日:2023-10-01
# Adherence-Aware Advice の学習

Learning to Make Adherence-Aware Advice ( http://arxiv.org/abs/2310.00817v1 )

ライセンス: Link先を確認
Guanting Chen, Xiaocheng Li, Chunlin Sun, Hanzhao Wang(参考訳) 人工知能(AI)システムが人間の意思決定においてますます顕著な役割を担っているため、人間とAIの相互作用の領域では課題が表面化している。 1つの課題は、AIレコメンデーションを無視した人間の不適切な考慮、そしてAIが最も適切かどうかを選択的にアドバイスする必要性によって、AIの亜最適ポリシーから生じる。 本稿では,逐次意思決定モデルを提案する。 (i)人間の定着度(人間が機械のアドバイスに従う、または排除する確率)を考慮に入れ、 (ii) 機械が一時的にアドバイスを控えるように、延期オプションを組み込む。 最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。 問題に依存しない強化学習アルゴリズムと比較して,我々の特殊学習アルゴリズムは理論収束性を向上するだけでなく,経験的性能も高い。

As artificial intelligence (AI) systems play an increasingly prominent role in human decision-making, challenges surface in the realm of human-AI interactions. One challenge arises from the suboptimal AI policies due to the inadequate consideration of humans disregarding AI recommendations, as well as the need for AI to provide advice selectively when it is most pertinent. This paper presents a sequential decision-making model that (i) takes into account the human's adherence level (the probability that the human follows/rejects machine advice) and (ii) incorporates a defer option so that the machine can temporarily refrain from making advice. We provide learning algorithms that learn the optimal advice policy and make advice only at critical time stamps. Compared to problem-agnostic reinforcement learning algorithms, our specialized learning algorithms not only enjoy better theoretical convergence properties but also show strong empirical performance.
翻訳日:2023-10-05 01:35:56 公開日:2023-10-01
# Sharingan: ゲイズフォローのためのトランスフォーマーベースのアーキテクチャ

Sharingan: A Transformer-based Architecture for Gaze Following ( http://arxiv.org/abs/2310.00816v1 )

ライセンス: Link先を確認
Samy Tafasca, Anshul Gupta, Jean-Marc Odobez(参考訳) ゲイズ(Gaze)は、人間が早期から発達する非言語コミュニケーションと社会的相互作用の強力な形態である。 このような振る舞いをモデル化することは、ロボット工学から社会学まで幅広い応用分野の恩恵を受ける重要なタスクである。 特に、Gaze followingは、画像中の人が見ている画素単位の2D位置の予測として定義される。 この方向の以前の取り組みは、主にタスクを実行するためのCNNベースのアーキテクチャに焦点を当てていた。 本稿では,2次元視線予測のためのトランスフォーマーアーキテクチャを提案する。 2つの変種を実験し、第1は1人の人の視線熱マップを1度に予測するのと同じタスクを定式化し、第2は問題を2次元の点回帰としてキャストし、1つの前方パスで複数の人物の視線予測を行う。 この新しいアーキテクチャは、GazeFollowとVideoAttentionTargetデータセットの最先端の結果を達成する。 この論文のコードは公開される予定だ。

Gaze is a powerful form of non-verbal communication and social interaction that humans develop from an early age. As such, modeling this behavior is an important task that can benefit a broad set of application domains ranging from robotics to sociology. In particular, Gaze Following is defined as the prediction of the pixel-wise 2D location where a person in the image is looking. Prior efforts in this direction have focused primarily on CNN-based architectures to perform the task. In this paper, we introduce a novel transformer-based architecture for 2D gaze prediction. We experiment with 2 variants: the first one retains the same task formulation of predicting a gaze heatmap for one person at a time, while the second one casts the problem as a 2D point regression and allows us to perform multi-person gaze prediction with a single forward pass. This new architecture achieves state-of-the-art results on the GazeFollow and VideoAttentionTarget datasets. The code for this paper will be made publicly available.
翻訳日:2023-10-05 01:35:40 公開日:2023-10-01
# OceanNet: 地域海洋のためのニューラルネットワークベースのディジタルツイン

OceanNet: A principled neural operator-based digital twin for regional oceans ( http://arxiv.org/abs/2310.00813v1 )

ライセンス: Link先を確認
Ashesh Chattopadhyay, Michael Gray, Tianning Wu, Anna B. Lowe, and Ruoying He(参考訳) データ駆動アプローチは、大気モデリングと気象予報において大きな可能性を示しているが、海洋モデリングは複雑な水温計、陸地、垂直構造、流れの非線形性によって異なる課題をもたらす。 本研究は,海洋循環のためのニューラルネットワークを用いたディジタルツインであるoceannetを紹介する。 oceannetは、フーリエニューラルネットワークと予測-評価-補正統合スキームを使用して、自己回帰的エラー成長を緩和し、長期的スケールでの安定性を高める。 スペクトル正規化器は、小さなスケールでスペクトルバイアスに対処する。 オーシャンネットは北西大西洋西部境界流(メキシコ湾流)に適用され、ループ電流エディスとメキシコ湾流蛇行の季節予測のタスクに焦点を当てている。 過去の海面高度(SSH)データを用いてトレーニングされたOceanNetは、未結合で最先端の動的海洋モデル予測によってSSH予測を上回り、計算を50,000倍削減することで、競争力のある予測技術を示す。 これらの成果は、高分解能数値海洋モデルに代わるコスト効率の高い代替手段として、物理学に触発された深層ニューラルネットワークの可能性を示している。

While data-driven approaches demonstrate great potential in atmospheric modeling and weather forecasting, ocean modeling poses distinct challenges due to complex bathymetry, land, vertical structure, and flow non-linearity. This study introduces OceanNet, a principled neural operator-based digital twin for ocean circulation. OceanNet uses a Fourier neural operator and predictor-evaluate-corrector integration scheme to mitigate autoregressive error growth and enhance stability over extended time scales. A spectral regularizer counteracts spectral bias at smaller scales. OceanNet is applied to the northwest Atlantic Ocean western boundary current (the Gulf Stream), focusing on the task of seasonal prediction for Loop Current eddies and the Gulf Stream meander. Trained using historical sea surface height (SSH) data, OceanNet demonstrates competitive forecast skill by outperforming SSH predictions by an uncoupled, state-of-the-art dynamical ocean model forecast, reducing computation by 500,000 times. These accomplishments demonstrate the potential of physics-inspired deep neural operators as cost-effective alternatives to high-resolution numerical ocean models.
翻訳日:2023-10-05 01:35:24 公開日:2023-10-01
# 大規模言語モデル推論における動的戦略選択のための適応ソルバーフレームワーク

Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning ( http://arxiv.org/abs/2310.01446v1 )

ライセンス: Link先を確認
Jianpeng Zhou, Wanjun Zhong, Yanlin Wang, Jiahai Wang(参考訳) 大規模言語モデル(llm)は、複雑な推論タスクを処理する素晴らしい能力を示しています。 現実の状況では、問題はしばしば複雑性のスペクトルにまたがる。 人間は本来、タスクの複雑さに基づいて問題解決アプローチを調整する。 しかしながら、LLMを利用するほとんどの方法論は、一貫したモデルの利用、問題の複雑さに関わらず、問題の分解の程度、という一貫したアプローチを採用する傾向にある。 それらの柔軟性は不要な計算オーバーヘッドや準最適性能をもたらす。 この問題に対処するために、Adaptive-Solverフレームワークを導入します。 問題の難しさに基づいて、解決戦略を戦略的に調整する。 最初のソリューションが与えられると、フレームワークは2つのプライマリモジュールで機能する。 初期評価モジュールは、現在のソリューションの妥当性を評価する。 改善が必要な場合、後続のアダプティブモジュールが動作します。 このモジュール内では、3つの重要な適応戦略が採用されている: (1) モデル適応: より弱い変種が不十分な場合、より強力なLLMに切り替える。 2)プロンプト手法適応:問題のニュアンスに適合する異なるプロンプト手法間を交互に移動する。 3)分解粒度適応:複雑な問題をよりきめ細かい部分問題に分解し、可解性を高める。 このような動的適応によって, 計算効率を向上させるだけでなく, 全体の性能も向上する。 この双対ベネフィットは、より単純なタスクのためのシステムの効率と、より複雑な問題に必要な精度の両方を保証する。 複雑な推論タスクによる実験結果から, 逐次的手法適応と分解粒度適応により全タスクのパフォーマンスが向上することが判明した。 さらに、モデル適応アプローチは、優れたパフォーマンスを維持しながら、apiコスト(最大50%)を大幅に削減する。

Large Language Models (LLMs) are showcasing impressive ability in handling complex reasoning tasks. In real-world situations, problems often span a spectrum of complexities. Humans inherently adjust their problem-solving approaches based on task complexity. However, most methodologies that leverage LLMs tend to adopt a uniform approach: utilizing consistent models, prompting methods, and degrees of problem decomposition, regardless of the problem complexity. Inflexibility of them can bring unnecessary computational overhead or sub-optimal performance. To address this problem, we introduce an Adaptive-Solver framework. It strategically modulates solving strategies based on the difficulties of the problems. Given an initial solution, the framework functions with two primary modules. The initial evaluation module assesses the adequacy of the current solution. If improvements are needed, the subsequent adaptation module comes into play. Within this module, three key adaptation strategies are employed: (1) Model Adaptation: Switching to a stronger LLM when a weaker variant is inadequate. (2) Prompting Method Adaptation: Alternating between different prompting techniques to suit the problem's nuances. (3) Decomposition Granularity Adaptation: Breaking down a complex problem into more fine-grained sub-questions to enhance solvability. Through such dynamic adaptations, our framework not only enhances computational efficiency but also elevates the overall performance. This dual-benefit ensures both the efficiency of the system for simpler tasks and the precision required for more complex questions. Experimental results from complex reasoning tasks reveal that the prompting method adaptation and decomposition granularity adaptation enhance performance across all tasks. Furthermore, the model adaptation approach significantly reduces API costs (up to 50%) while maintaining superior performance.
翻訳日:2023-10-04 20:00:13 公開日:2023-10-01
# コミュニケーションによるLLMエージェントの適応

Adapting LLM Agents Through Communication ( http://arxiv.org/abs/2310.01444v1 )

ライセンス: Link先を確認
Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen(参考訳) 近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。 これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。 近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。 これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。 反復探索とPPO訓練を通じて、LCCはエージェントに短期経験を長期記憶に同化させる権限を与える。 タスク固有の学習のためのエージェントインタラクションを最適化するために,意思決定,知識集約的推論,数値推論などの共通タスクに適したモノログ,対話,アナログの3つの構造化通信パターンを導入する。 我々はALFWorld(意思決定)、HotpotQA(知識集約推論)、GSM8k(数値推論)の3つのデータセットでLCCを評価した。 ALFWorldでは、インストラクションチューニングベースラインを12%以上成功率で上回る。 HotpotQAでは、LCCは命令調整されたLLaMA-7Bエージェントを5.1%のEMスコアで上回り、命令調整された9倍のPaLM-62Bエージェントを0.6%上回っている。 GSM8kでは、LCCはCoT-Tuningベースラインの精度を3.6%上回る。 その結果,様々な領域にまたがるltcアプローチの汎用性と効率性が示された。 コミュニティのさらなる発展を促進するために、コードをオープンソースにします。

Recent advancements in large language models (LLMs) have shown potential for human-like agents. To help these agents adapt to new tasks without extensive human supervision, we propose the Learning through Communication (LTC) paradigm, a novel training approach enabling LLM agents to improve continuously through interactions with their environments and other agents. Recent advancements in large language models (LLMs) have shown potential for human-like agents. To help these agents adapt to new tasks without extensive human supervision, we propose the Learning through Communication (LTC) paradigm, a novel training approach enabling LLM agents to improve continuously through interactions with their environments and other agents. Through iterative exploration and PPO training, LTC empowers the agent to assimilate short-term experiences into long-term memory. To optimize agent interactions for task-specific learning, we introduce three structured communication patterns: Monologue, Dialogue, and Analogue-tailored for common tasks such as decision-making, knowledge-intensive reasoning, and numerical reasoning. We evaluated LTC on three datasets: ALFWorld (decision-making), HotpotQA (knowledge-intensive reasoning), and GSM8k (numerical reasoning). On ALFWorld, it exceeds the instruction tuning baseline by 12% in success rate. On HotpotQA, LTC surpasses the instruction-tuned LLaMA-7B agent by 5.1% in EM score, and it outperforms the instruction-tuned 9x larger PaLM-62B agent by 0.6%. On GSM8k, LTC outperforms the CoT-Tuning baseline by 3.6% in accuracy. The results showcase the versatility and efficiency of the LTC approach across diverse domains. We will open-source our code to promote further development of the community.
翻訳日:2023-10-04 19:59:49 公開日:2023-10-01
# エッジコンピューティングを伴う複雑系における多重分類問題に対する量子ベースの特徴選択

Quantum-Based Feature Selection for Multi-classification Problem in Complex Systems with Edge Computing ( http://arxiv.org/abs/2310.01443v1 )

ライセンス: Link先を確認
Wenjie Liu, Junxiu Chen, Yuxiang Wang, Peipei Gao, Zhibin Lei, and Xu Ma(参考訳) エッジコンピューティングの複雑なシステムでは、意思決定に適切な洞察を抽出するために大量の多機能データを必要とするため、計算効率の向上と資源消費の削減のために、実現可能な特徴選択方法を見つけることが重要である。 本稿では,マルチクラス化問題,すなわちQReliefFに対する量子ベースの特徴選択アルゴリズムを提案し,アルゴリズムの複雑さを効果的に低減し,計算効率を向上させる。 まず、各サンプルのすべての特徴をCMPおよびR_y演算によって量子状態に符号化し、次に振幅推定を適用して2つの量子状態(すなわち2つのサンプル)の類似性を計算する。 類似性により、Grover-Long法は最も近いk個のサンプルを見つけるために使われ、次に重みベクトルを更新する。 上記の過程を通じて一定の回数の反復を行った後、最終的な重みベクトルとしきい値 {\tau} に関して所望の特徴を選択できる。 従来のReliefFアルゴリズムと比較して,O(MN)からO(M)への類似性計算の複雑さ,O(M)からO(sqrt(M))への近辺探索の複雑さ,O(MN)からO(MlogN)への資源消費を低減させる。 一方、量子Reliefアルゴリズムと比較して、我々のアルゴリズムは、O(M) から O(sqrt(M)) への複雑さを減らし、最も近い隣人を見つけるのに優れている。 最後に,本アルゴリズムの実現可能性を検証するために,簡単な例によるリゲッティに基づくシミュレーション実験を行う。

The complex systems with edge computing require a huge amount of multi-feature data to extract appropriate insights for their decision making, so it is important to find a feasible feature selection method to improve the computational efficiency and save the resource consumption. In this paper, a quantum-based feature selection algorithm for the multi-classification problem, namely, QReliefF, is proposed, which can effectively reduce the complexity of algorithm and improve its computational efficiency. First, all features of each sample are encoded into a quantum state by performing operations CMP and R_y, and then the amplitude estimation is applied to calculate the similarity between any two quantum states (i.e., two samples). According to the similarities, the Grover-Long method is utilized to find the nearest k neighbor samples, and then the weight vector is updated. After a certain number of iterations through the above process, the desired features can be selected with regards to the final weight vector and the threshold {\tau}. Compared with the classical ReliefF algorithm, our algorithm reduces the complexity of similarity calculation from O(MN) to O(M), the complexity of finding the nearest neighbor from O(M) to O(sqrt(M)), and resource consumption from O(MN) to O(MlogN). Meanwhile, compared with the quantum Relief algorithm, our algorithm is superior in finding the nearest neighbor, reducing the complexity from O(M) to O(sqrt(M)). Finally, in order to verify the feasibility of our algorithm, a simulation experiment based on Rigetti with a simple example is performed.
翻訳日:2023-10-04 19:59:22 公開日:2023-10-01
# 大規模言語モデル評価のためのメタセマンティックテンプレート

Meta Semantic Template for Evaluation of Large Language Models ( http://arxiv.org/abs/2310.01448v1 )

ライセンス: Link先を確認
Yachuan Liu, Liang Chen, Jindong Wang, Qiaozhu Mei, Xing Xie(参考訳) 大規模言語モデル(LLM)は、言語のセマンティクスを本当に理解しているか、あるいは単にトレーニングデータを記憶しているか? LLMのデータ汚染に関する最近の懸念は、LCMの評価研究を行うコミュニティの意識を高めている。 本稿では,メタセマンティックテンプレートを作成する手法であるMSTempを提案し,LLMのセマンティック理解能力を評価する。 mstempの中核は、既存のベンチマークデータセットを直接評価することではなく、既存のデータセットを種として使用する新しいout-of-distribution(ood)評価セットを生成することである。 具体的には、ある文に対して、MSTempは別の言語モデルを利用して意味を保ちながら新しいサンプルを生成する。 新しいサンプルは、元の文のセマンティックテンプレートと呼ばれる。 そして、MSTempは、意味テンプレート上で文解析とランダムな単語置換によって評価サンプルを生成する。 mstempは柔軟性が高く、動的で、コスト効率が高い。 最初の実験では、MSTemp生成サンプルは、既存のデータセットをシードとして使用することで、LLMの性能を大幅に低下させることができることを示した。 今後のLCM評価研究に光を当てることが期待できる。

Do large language models (LLMs) genuinely understand the semantics of the language, or just memorize the training data? The recent concern on potential data contamination of LLMs has raised awareness of the community to conduct research on LLMs evaluation. In this paper, we propose MSTemp, an approach that creates meta semantic templates to evaluate the semantic understanding ability of LLMs. The core of MSTemp is not to perform evaluation directly on existing benchmark datasets, but to generate new out-of-distribution (OOD) evaluation sets using existing datasets as seeds. Specifically, for a given sentence, MSTemp leverages another language model to generate new samples while preserving its semantics. The new samples are called semantic templates to the original sentence. Then, MSTemp generates evaluation samples via sentence parsing and random word replacement on the semantic templates. MSTemp is highly flexible, dynamic, and cost-effective. Our initial experiments show that MSTemp-generated samples can significantly reduce the performance of LLMs using existing datasets as seeds. We hope this initial work can shed light on future research of LLMs evaluation.
翻訳日:2023-10-04 19:47:46 公開日:2023-10-01
# 量子物理学からの時空

Space-Time from quantum Physics ( http://arxiv.org/abs/2310.01447v1 )

ライセンス: Link先を確認
Fabrice Debbasch(参考訳) 量子調和振動子から開始する実4次元ミンコフスキー時空の構成法を提案する。 まず、2次元スピノル空間とその双対は、2つの独立な1次元調和振動子のラダー作用素に従う標準可換関係から導かれる。 複素 4d minkowvski ベクトル空間 v は、これらのスピノル空間から構成される。 平坦な実4Dミンコフスキー多様体は最終的に、V. Lorentz不変性から構築されたユニタリ作用素の多様体の近似記述として構築される。

A construction of the real 4D Minkowski space-time starting from quantum harmonic oscillators is proposed. First, a 2D spinor space and its dual are derived from the standard commutation relations obeyed by the ladder operators of two independent 1D harmonic oscillators. The complex 4D Minkowvski vector space V is then constructed from these spinor space. The flat, real 4D Minkowski manifold is finally built as an approximate description of a manifold of unitary operators constructed from V. Lorentz invariance is recovered and several possible extensions are discussed, which connections to quantum optics and condensed matter physics.
翻訳日:2023-10-04 19:47:27 公開日:2023-10-01
# future-ai: 医療画像における信頼できる人工知能のための原則とコンセンサス勧告

FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Medical Imaging ( http://arxiv.org/abs/2109.09658v4 )

ライセンス: Link先を確認
Karim Lekadir, Richard Osuala, Catherine Gallin, Noussair Lazrak, Kaisar Kushibar, Gianna Tsakou, Susanna Auss\'o, Leonor Cerd\'a Alberich, Kostas Marias, Manolis Tsiknakis, Sara Colantonio, Nickolas Papanikolaou, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin, Luis Mart\'i-Bonmat\'i(参考訳) 人工知能(AI)の最近の進歩は、今日の臨床システムによって生成される膨大なデータと相まって、画像再構成、医用画像分割、画像ベースの診断、治療計画を含む、医療画像のバリューチェーン全体にわたる画像AIソリューションの開発につながっている。 医療画像におけるaiの成功と将来の可能性にかかわらず、多くの利害関係者は、複雑で不透明で、重要な臨床応用に対する理解、利用、信頼が難しいと認識されるaiソリューションの潜在的なリスクと倫理的意味を懸念している。 これらの懸念とリスクにもかかわらず、医療画像における将来のAI開発を信頼、安全性、採用を高めるための具体的なガイドラインやベストプラクティスは今のところ存在しない。 このギャップを埋めるため,本稿では,欧州の5つの大規模健康イメージングプロジェクトから蓄積された経験,コンセンサス,ベストプラクティスから導かれた指針の慎重に選択する。 これらの指針はfuture-aiと呼ばれ、その構成要素は (i)公平さ。 (ii)普遍性 (iii)トレーサビリティ (4)ユーザビリティ (v)堅牢性と (vi)説明可能。 ステップバイステップアプローチでは、これらのガイドラインは、技術的、臨床的、倫理的に信頼できるAIソリューションを臨床実践に特定、開発、評価、デプロイするための具体的な勧告のフレームワークにさらに変換される。

The recent advancements in artificial intelligence (AI) combined with the extensive amount of data generated by today's clinical systems, has led to the development of imaging AI solutions across the whole value chain of medical imaging, including image reconstruction, medical image segmentation, image-based diagnosis and treatment planning. Notwithstanding the successes and future potential of AI in medical imaging, many stakeholders are concerned of the potential risks and ethical implications of imaging AI solutions, which are perceived as complex, opaque, and difficult to comprehend, utilise, and trust in critical clinical applications. Despite these concerns and risks, there are currently no concrete guidelines and best practices for guiding future AI developments in medical imaging towards increased trust, safety and adoption. To bridge this gap, this paper introduces a careful selection of guiding principles drawn from the accumulated experiences, consensus, and best practices from five large European projects on AI in Health Imaging. These guiding principles are named FUTURE-AI and its building blocks consist of (i) Fairness, (ii) Universality, (iii) Traceability, (iv) Usability, (v) Robustness and (vi) Explainability. In a step-by-step approach, these guidelines are further translated into a framework of concrete recommendations for specifying, developing, evaluating, and deploying technically, clinically and ethically trustworthy AI solutions into clinical practice.
翻訳日:2023-10-03 21:51:54 公開日:2023-10-01
# iCORPP:ロボットのインターリーブ・コモンセンス推論と確率計画

iCORPP: Interleaved Commonsense Reasoning and Probabilistic Planning on Robots ( http://arxiv.org/abs/2004.08672v2 )

ライセンス: Link先を確認
Shiqi Zhang, Piyush Khandelwal, Peter Stone(参考訳) ロボットは、複雑なタスクを遂行するために行動計画しながら、現在の世界の状況とダイナミクスを同時に推論する必要があるため、現実の世界でのシーケンシャルな意思決定は難しい。 一方、宣言型言語と推論アルゴリズムは、常識的知識による表現と推論をうまくサポートしている。 しかし、これらのアルゴリズムは、長期にわたる未定の地平線上で累積報酬を最大化するための行動計画には向いていない。 一方,マルコフ決定プロセス (MDPs) や部分観測可能なMDP (POMDPs) などの確率的計画フレームワークは,不確実性の下で長期的目標を達成するための計画を支援する。 しかし、それらは行動に直接関連しない知識を表現または推論する能力に欠ける。 本稿では,現在の世界状態を推定し,世界ダイナミクスを推論し,タスク指向コントローラを構築するための新しいアルゴリズム icorpp を提案する。 このプロセスでは、ロボットの意思決定問題は、2つの相互依存(より小さい)サブプロブレムに分解され、それぞれ「世界を理解」する推論と「目標を達成する」計画に焦点が当てられる。 コンテキスト知識は推論コンポーネントで表現され、計画コンポーネントが認識され、アクティブな情報収集を可能にする。 開発したアルゴリズムは,屋内ナビゲーションやダイアログ管理,オブジェクト配信といった日常的なサービスタスクを使用して,シミュレーションと実ロボットの両方で実装,評価されている。 その結果,手作りアクションポリシを含む競合ベースラインと比較して,スケーラビリティ,効率,適応性が著しく向上した。

Robot sequential decision-making in the real world is a challenge because it requires the robots to simultaneously reason about the current world state and dynamics, while planning actions to accomplish complex tasks. On the one hand, declarative languages and reasoning algorithms well support representing and reasoning with commonsense knowledge. But these algorithms are not good at planning actions toward maximizing cumulative reward over a long, unspecified horizon. On the other hand, probabilistic planning frameworks, such as Markov decision processes (MDPs) and partially observable MDPs (POMDPs), well support planning to achieve long-term goals under uncertainty. But they are ill-equipped to represent or reason about knowledge that is not directly related to actions. In this article, we present a novel algorithm, called iCORPP, to simultaneously estimate the current world state, reason about world dynamics, and construct task-oriented controllers. In this process, robot decision-making problems are decomposed into two interdependent (smaller) subproblems that focus on reasoning to "understand the world" and planning to "achieve the goal" respectively. Contextual knowledge is represented in the reasoning component, which makes the planning component epistemic and enables active information gathering. The developed algorithm has been implemented and evaluated both in simulation and on real robots using everyday service tasks, such as indoor navigation, dialog management, and object delivery. Results show significant improvements in scalability, efficiency, and adaptiveness, compared to competitive baselines including handcrafted action policies.
翻訳日:2023-10-03 21:49:24 公開日:2023-10-01
# 変圧器の訓練の難しさを理解する

Understanding the Difficulty of Training Transformers ( http://arxiv.org/abs/2004.08249v3 )

ライセンス: Link先を確認
Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han(参考訳) トランスフォーマーは多くのNLPタスクで有効であることが証明されている。 しかし、それらのトレーニングは、最先端のオプティマイザや学習率スケジューラを慎重に設計する(例えば、従来のSGDは、トランスフォーマーを効果的に訓練することができない)ための非自明な努力を必要とする。 ここでの目標は、経験的および理論的観点から、$\textit{what complicatedes transformer training}$を理解することです。 解析の結果,不均衡勾配がトレーニングの不安定性の根本原因ではないことが明らかとなった。 その代わり、多層トランスフォーマーモデルの各層でトレーニングに実質的に影響を及ぼす増幅効果を識別するが、その残留ブランチへの重い依存は、小さなパラメータ摂動(例えば、パラメータ更新)を増幅し、モデル出力に重大な障害をもたらすため、トレーニングを不安定にする。 しかし、光依存がモデルポテンシャルを制限し、劣った訓練されたモデルにつながることが観察される。 当社の分析に触発されて我々は,初期段階のトレーニングを安定させ,その潜在能力を後期に解き放つために,admin (\textbf{ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization)を提案する。 大規模な実験により、Adminはより安定し、より早く収束し、より良いパフォーマンスをもたらすことが示されている。 実装は、https://github.com/LiyuanLucasLiu/Transforemr-Clinic.comでリリースされている。

Transformers have proved effective in many NLP tasks. However, their training requires non-trivial efforts regarding designing cutting-edge optimizers and learning rate schedulers carefully (e.g., conventional SGD fails to train Transformers effectively). Our objective here is to understand $\textit{what complicates Transformer training}$ from both empirical and theoretical perspectives. Our analysis reveals that unbalanced gradients are not the root cause of the instability of training. Instead, we identify an amplification effect that influences training substantially -- for each layer in a multi-layer Transformer model, heavy dependency on its residual branch makes training unstable, since it amplifies small parameter perturbations (e.g., parameter updates) and results in significant disturbances in the model output. Yet we observe that a light dependency limits the model potential and leads to inferior trained models. Inspired by our analysis, we propose Admin ($\textbf{Ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization) to stabilize stabilize the early stage's training and unleash its full potential in the late stage. Extensive experiments show that Admin is more stable, converges faster, and leads to better performance. Implementations are released at: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.
翻訳日:2023-10-03 21:48:56 公開日:2023-10-01
# ベンチマーク強化学習アルゴリズムのための光学制御環境

An Optical Control Environment for Benchmarking Reinforcement Learning Algorithms ( http://arxiv.org/abs/2203.12114v2 )

ライセンス: Link先を確認
Abulikemu Abuduweili and Changliu Liu(参考訳) 深層強化学習は様々な科学的問題に対処する可能性がある。 本稿では,強化学習ベースコントローラのための光学シミュレーション環境を実装した。 この環境は、光学系固有の非凸性、非線形性、時間依存ノイズの本質を捉え、より現実的な設定を提供する。 次に,提案したシミュレーション環境における強化学習アルゴリズムのベンチマーク結果を示す。 実験の結果, 複雑な光制御環境の複雑度をナビゲートする従来の制御アルゴリズムよりも, オフポリシー強化学習手法が優れていることが示された。 論文のコードはhttps://github.com/walleclipse/reinforcement-learning-pulse-stackingで入手できる。

Deep reinforcement learning has the potential to address various scientific problems. In this paper, we implement an optics simulation environment for reinforcement learning based controllers. The environment captures the essence of nonconvexity, nonlinearity, and time-dependent noise inherent in optical systems, offering a more realistic setting. Subsequently, we provide the benchmark results of several reinforcement learning algorithms on the proposed simulation environment. The experimental findings demonstrate the superiority of off-policy reinforcement learning approaches over traditional control algorithms in navigating the intricacies of complex optical control environments. The code of the paper is available at https://github.com/Walleclipse/Reinforcement-Learning-Pulse-Stacking.
翻訳日:2023-10-03 21:40:29 公開日:2023-10-01
# 超電導人工原子を用いたネイティブコンディショナル$i$SWAP操作

Native Conditional $i$SWAP Operation with Superconducting Artificial Atoms ( http://arxiv.org/abs/2203.09791v2 )

ライセンス: Link先を確認
Chang-Kang Hu, Jiahao Yuan, Bruno A. Veloso, Jiawei Qiu, Yuxuan Zhou, Libo Zhang, Ji Chu, Orkesh Nurbolat, Ling Hu, Jian Li, Yuan Xu, Youpeng Zhong, Song Liu, Fei Yan, Dian Tan, R. Bachelard, Alan C. Santos, C. J. Villas-Boas, Dapeng Yu(参考訳) 量子情報のフローを制御することは、量子コンピュータの基本課題であり、古典的なデバイスでは実現できない。 したがって、量子状態を処理できるコヒーレントデバイスは、情報を符号化する量子状態をルーティングする必要がある。 本稿では、コレクタ量子ビット、エミッタ量子ビット、カプラ(トランジスタゲート)からなる超伝導量子プロセッサを用いて、最小の量子トランジスタを実験的に実証する。 コレクタとエミッタ量子ビット間の相互作用強度はカプラの周波数と状態によって制御され、量子スイッチを効果的に実装する。 キュービット間のカプラ状態に依存したハイゼンベルク相互作用により、単一ステップ(ネイティブ)条件の$i$SWAP演算を適用することができる。 この目的のために、ネイティブかつ高忠実なトランジスタ動作を実現するためには、より高いエネルギーレベルを考慮することが重要である。 量子プロセス・トモグラフィーを再構築することにより、トランジスタゲートがオープン(i$SWAP実装)された場合の動作忠実度は92.36 %、クローズドゲートの場合は95.23 %となる(IDゲート実装)。 このアーキテクチャは超伝導量子ビットを用いた量子情報処理アプリケーションにおいて強力なポテンシャルを持つ。

Controlling the flow of quantum information is a fundamental task for quantum computers, which is unfeasible to realize on classical devices. Coherent devices which can process quantum states are thus required to route the quantum states that encode information. In this paper we demonstrate experimentally the smallest quantum transistor with a superconducting quantum processor which is composed of a collector qubit, an emitter qubit, and a coupler (transistor gate). The interaction strength between the collector and emitter qubits is controlled by the frequency and state of the coupler, effectively implementing a quantum switch. Through the coupler-state-dependent Heisenberg (inherent) interaction between the qubits, a single-step (native) conditional $i$SWAP operation can be applied. To this end, we find that it is important to take into consideration higher energy level for achieving a native and high-fidelity transistor operation. By reconstructing the Quantum Process Tomography, we obtain an operation fidelity of $92.36\%$ when the transistor gate is open ($i$SWAP implementation) and $95.23 \%$ in the case of closed gate (identity gate implementation). The architecture has strong potential in quantum information processing applications with superconducting qubits.
翻訳日:2023-10-03 21:40:20 公開日:2023-10-01
# 非支配ソーティング遺伝的アルゴリズム(NSGA-II)の近似保証

Approximation Guarantees for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) ( http://arxiv.org/abs/2203.02693v3 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 最近の理論的研究により、NSGA-IIは人口規模が十分に大きい場合、パレート前面全体を効率的に計算することが示された。 本研究は,人口が小さくなると,パレート前線をいかによく近似するかを考察する。 OneMinMaxベンチマークでは、親と子孫がパレートフロントをよくカバーする状況が指摘されているが、次の人口はパレートフロントに大きなギャップがある。 我々の数学的証明は,選択段階におけるnsga-iiが群集距離を1回計算し,除去が一部の個体の群集距離を増加させることを考慮せずに最小群集距離を持つ個体を除去するという,この望ましくない行動の理由を示唆している。 次に,この問題に支障を来さない2つの変種を分析した。 各除去後の群集距離を更新するNSGA-II (Kukkonen and Deb (2006)) と定常状態NSGA-II (Nebro and Durillo (2009)) について、パレートフロントのギャップが理論的最小値よりも小さい定数要素以上であることを証明する。 これはNSGA-IIの近似能力に関する最初の数学的研究であり、定常NSGA-IIに対する最初の実行時解析である。 実験では2種類のNSGA-IIの近似能力も優れていた。

Recent theoretical works have shown that the NSGA-II efficiently computes the full Pareto front when the population size is large enough. In this work, we study how well it approximates the Pareto front when the population size is smaller. For the OneMinMax benchmark, we point out situations in which the parents and offspring cover well the Pareto front, but the next population has large gaps on the Pareto front. Our mathematical proofs suggest as reason for this undesirable behavior that the NSGA-II in the selection stage computes the crowding distance once and then removes individuals with smallest crowding distance without considering that a removal increases the crowding distance of some individuals. We then analyze two variants not prone to this problem. For the NSGA-II that updates the crowding distance after each removal (Kukkonen and Deb (2006)) and the steady-state NSGA-II (Nebro and Durillo (2009)), we prove that the gaps in the Pareto front are never more than a small constant factor larger than the theoretical minimum. This is the first mathematical work on the approximation ability of the NSGA-II and the first runtime analysis for the steady-state NSGA-II. Experiments also show the superior approximation ability of the two NSGA-II variants.
翻訳日:2023-10-03 21:39:57 公開日:2023-10-01
# 平衡外開自由フェルミオン鎖における対数否定性:正確に解ける場合

Logarithmic negativity in out-of-equilibrium open free-fermion chains: An exactly solvable case ( http://arxiv.org/abs/2205.02139v3 )

ライセンス: Link先を確認
Vincenzo Alba, Federico Carollo(参考訳) 強結合鎖におけるフェルミオン対数ネガティビティの準粒子画像から、利得と損失の散逸を導出した。 フェルミオンN'eel状態からの量子クエンチ後のダイナミクスに焦点を当てる。 無限鎖に埋め込まれた隣接区間と非連結区間の間の負性を考える。 その結果,大きなサブシステムと長時間の標準水力力学的限界が成立し,その比率が固定された。 さらに, 散逸率が区間の大きさに反比例する弱散逸限界を考える。 相互情報の場合と同様に、2つの間隔で共有される準粒子の絡み合った対の数にネガティリティが比例することを示す。 重要なことに、ユニタリの場合とは対照的に、準粒子の負性含量はR'enyi指数1/2のR'enyiエントロピーでは与えられず、一般的には熱力学量とは関係がない。

We derive the quasiparticle picture for the fermionic logarithmic negativity in a tight-binding chain subject to gain and loss dissipation. We focus on the dynamics after the quantum quench from the fermionic N\'eel state. We consider the negativity between both adjacent and disjoint intervals embedded in an infinite chain. Our result holds in the standard hydrodynamic limit of large subsystems and long times, with their ratio fixed. Additionally, we consider the weakly-dissipative limit, in which the dissipation rates are inversely proportional to the size of the intervals. We show that the negativity is proportional to the number of entangled pairs of quasiparticles that are shared between the two intervals, as is the case for the mutual information. Crucially, in contrast with the unitary case, the negativity content of quasiparticles is not given by the R\'enyi entropy with R\'enyi index 1/2, and it is in general not easily related to thermodynamic quantities.
翻訳日:2023-10-03 21:29:10 公開日:2023-10-01
# 正規化クラスタリング精度:非対称外部クラスタ妥当性尺度

Normalised clustering accuracy: An asymmetric external cluster validity measure ( http://arxiv.org/abs/2209.02935v2 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能するメソッドと、体系的に劣るメソッドを区別したいと思っています。 クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。 内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。 しかし、それらの妥当性は疑わしい。なぜなら、彼らが宣伝するクラスタリングは、時々意味がない。 一方、外部尺度では、アルゴリズムの出力を、専門家が提供した基準である根拠真理グループと比較する。 本稿では,正規化相互情報やfowlkes-mallows,調整ランドインデックスなど,一般的に使用される古典的分割類似度スコアが望ましい性質を欠いていること,例えば,最悪のシナリオを正しく識別していないこと,あるいは容易に解釈できないこと,などを論じる。 これにより、多くのベンチマークデータセット間のクラスタリングアルゴリズムの比較が困難になる。 これらの問題を治療するために、我々は、最適なセットマッチング精度のバージョンを提案し、分析する: 正規化され、単調で、スケール不変であり、クラスタサイズの不均衡を補正する(ただし、対称性も、偶然の調整もしない)。

There is no, nor will there ever be, single best clustering algorithm, but we would still like to be able to distinguish between methods which work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. Yet, their validity is questionable, because the clusterings they promote can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to the reference, ground truth groupings that are provided by experts. In this paper, we argue that the commonly-used classical partition similarity scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted Rand index, miss some desirable properties, e.g., they do not identify worst-case scenarios correctly or are not easily interpretable. This makes comparing clustering algorithms across many benchmark datasets difficult. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic, scale invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).
翻訳日:2023-10-03 21:20:30 公開日:2023-10-01
# 分散型社会制裁による分業の出現

The emergence of division of labor through decentralized social sanctioning ( http://arxiv.org/abs/2208.05568v6 )

ライセンス: Link先を確認
Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee(参考訳) 人間の生態的成功は、柔軟に自己組織を協調的な社会グループに組み込む特性的な能力に依存しており、その最も成功したのは、実質的な専門化と労働分業である。 他のほとんどの動物とは異なり、人間は人生の中で試行錯誤によってどのような役割を果たすかを学ぶ。 しかし、いくつかの重要な役割が他よりも魅力的であり、個人が自己関心を持つ場合、社会的ジレンマがある。 しかし、そのように行動し、重要な役割を果たさなければ、災害が発生する。 このような状況では最適な役割分布を学習することは不可能である。 その結果、基本的な質問は: 自己興味のある生涯学習者のグループにおいて、労働の分割はどのように現れるのか? ここでは,分散社会保障の創発的パターンと考える社会規範のモデルを導入することにより,すべての重要な役割を含む生産的労働分業を自利的な個人集団が学ぶことが可能となることを示す。 このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化し、一方で、内在的に報酬を払わない親社会的役割を動機付ける。

Human ecological success relies on our characteristic ability to flexibly self-organize into cooperative social groups, the most successful of which employ substantial specialization and division of labor. Unlike most other animals, humans learn by trial and error during their lives what role to take on. However, when some critical roles are more attractive than others, and individuals are self-interested, then there is a social dilemma: each individual would prefer others take on the critical but unremunerative roles so they may remain free to take one that pays better. But disaster occurs if all act thusly and a critical role goes unfilled. In such situations learning an optimum role distribution may not be possible. Consequently, a fundamental question is: how can division of labor emerge in groups of self-interested lifetime-learning individuals? Here we show that by introducing a model of social norms, which we regard as emergent patterns of decentralized social sanctioning, it becomes possible for groups of self-interested individuals to learn a productive division of labor involving all critical roles. Such social norms work by redistributing rewards within the population to disincentivize antisocial roles while incentivizing prosocial roles that do not intrinsically pay as well as others.
翻訳日:2023-10-03 21:19:17 公開日:2023-10-01
# 蒸留予測分布による不確かさによるフェデレーション学習

Federated Learning with Uncertainty via Distilled Predictive Distributions ( http://arxiv.org/abs/2206.07562v2 )

ライセンス: Link先を確認
Shrey Bhatt, Aishwarya Gupta, Piyush Rai(参考訳) 既存のフェデレーション学習法は、クライアントモデルがそのような不確実性を無視する標準損失関数最小化アプローチを用いて訓練されるため、モデル/予測的不確実性を推定できない。 しかし、多くの状況において、特に限られたデータ設定においては、より正確な予測につながるため、クライアント毎のモデルパラメータの不確実性を考慮することは有益であり、また、アウト・オブ・ディストリビューション(OOD)検出やアクティブ・ラーニングのようなシーケンシャルな意思決定タスクに不確実性の推定を使用できる。 本稿では,各ラウンドにおいて,各クライアントがパラメータと後部予測分布(PPD)を推定し,PDを1つの深層ニューラルネットワークに蒸留し,このネットワークをサーバに送信する,不確実性のある統合学習フレームワークを提案する。 最近の連合学習に対するベイズ的アプローチと異なり、このアプローチでは各クライアントからサーバへのパラメータの後方分布全体を送信する必要はなく、蒸留形式のppdのみをディープニューラルネットワークとして送信する。 さらに,テスト時に予測を行う場合,1つのディープニューラルネットワークの形でPSDを常に維持するため,計算コストのかかるモンテカルロ平均化は不要である。 さらに,本手法では,クライアントの後部分布の形式やPDの形式など,制限的な仮定は行わない。 提案手法は,フェデレーション設定における分類,およびフェデレーション設定におけるアクティブラーニングとood検出のアプローチを評価し,既存のフェデレーション学習ベースラインよりも優れる。

Most existing federated learning methods are unable to estimate model/predictive uncertainty since the client models are trained using the standard loss function minimization approach which ignores such uncertainties. In many situations, however, especially in limited data settings, it is beneficial to take into account the uncertainty in the model parameters at each client as it leads to more accurate predictions and also because reliable estimates of uncertainty can be used for tasks, such as out-of-distribution (OOD) detection, and sequential decision-making tasks, such as active learning. We present a framework for federated learning with uncertainty where, in each round, each client infers the posterior distribution over its parameters as well as the posterior predictive distribution (PPD), distills the PPD into a single deep neural network, and sends this network to the server. Unlike some of the recent Bayesian approaches to federated learning, our approach does not require sending the whole posterior distribution of the parameters from each client to the server but only the PPD in the distilled form as a deep neural network. In addition, when making predictions at test time, it does not require computationally expensive Monte-Carlo averaging over the posterior distribution because our approach always maintains the PPD in the form of a single deep neural network. Moreover, our approach does not make any restrictive assumptions, such as the form of the clients' posterior distributions, or of their PPDs. We evaluate our approach on classification in federated setting, as well as active learning and OOD detection in federated settings, on which our approach outperforms various existing federated learning baselines.
翻訳日:2023-10-03 21:18:07 公開日:2023-10-01
# 帯域制限関数の一般化におけるNN上のGNNの優位性

Superiority of GNN over NN in generalizing bandlimited functions ( http://arxiv.org/abs/2206.05904v8 )

ライセンス: Link先を確認
A. Martina Neuman, Rongrong Wang and Yuying Xie(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションにまたがってグラフベースの情報を処理するための強力なリソースとして登場した。 gnnの表現力は伝統的にグラフレベルのタスクの文脈で検討されてきたが、ノード分類のようなノードレベルのタスクのポテンシャルは、観測されたノードのラベルを補間することにある。 本研究では,機能補間問題としても適用可能な分類におけるGNNの習熟度について検討する。 具体的には,GNNがユークリッド立方体上の帯域制限関数を補間するために必要な重みと層を最適に設定することに注力する。 以上の結果から,GNNを用いた帯域制限関数を$\varepsilon$-errorマージン内で一般化する上で,有効性が明らかとなった。 驚くべきことに、このタスクを達成するには、$o_d((\log\varepsilon^{-1})^d)$ weightsと$o_d((\log\varepsilon^{-1})^d)$ training samplesのみが必要である。 私たちは、この基準が、同様のタスク用に設計された現在利用可能なニューラルネットワーク(nns)の明示的な構成に対してどのように積み重ねられるかを調べます。 以上より,gnn構造と古典的サンプリング定理との革新的な関係を明らかにした。 基本的に、我々の先駆的な研究は研究領域に有意義な貢献をしており、実用的なGNNアプリケーションに対する理解を深めている。

Graph Neural Networks (GNNs) have emerged as formidable resources for processing graph-based information across diverse applications. While the expressive power of GNNs has traditionally been examined in the context of graph-level tasks, their potential for node-level tasks, such as node classification, where the goal is to interpolate missing node labels from the observed ones, remains relatively unexplored. In this study, we investigate the proficiency of GNNs for such classifications, which can also be cast as a function interpolation problem. Explicitly, we focus on ascertaining the optimal configuration of weights and layers required for a GNN to successfully interpolate a band-limited function over Euclidean cubes. Our findings highlight a pronounced efficiency in utilizing GNNs to generalize a bandlimited function within an $\varepsilon$-error margin. Remarkably, achieving this task necessitates only $O_d((\log\varepsilon^{-1})^d)$ weights and $O_d((\log\varepsilon^{-1})^d)$ training samples. We explore how this criterion stacks up against the explicit constructions of currently available Neural Networks (NNs) designed for similar tasks. Significantly, our result is obtained by drawing an innovative connection between the GNN structures and classical sampling theorems. In essence, our pioneering work marks a meaningful contribution to the research domain, advancing our understanding of the practical GNN applications.
翻訳日:2023-10-03 21:17:37 公開日:2023-10-01
# 基本熱操作による触媒作用

Catalysis in Action via Elementary Thermal Operations ( http://arxiv.org/abs/2209.15213v2 )

ライセンス: Link先を確認
Jeongrak Son and Nelly H. Y. Ng(参考訳) 本研究では, 触媒力学を照らし出すため, 基本熱操作の枠組みにおける触媒作用について検討する。 基礎として, 基本熱処理における状態遷移規則の計算可能性を高める新しい技術ツールを確立する。 具体的には、立方体系と任意の次元の初期状態の特別なクラスに対する状態遷移の完全な特徴付けを提供する。 これらのツールと数値的な手法を組み合わせることで、キュービット触媒を含む小さな触媒を採用することで、クトリット系の状態遷移の組を大きく拡大できることがわかった。 この進歩は、基本的な熱操作と一般的な熱操作の間の到達可能な状態のギャップを特に狭める。 さらに, 触媒遷移を時間分解進化へと分解し, システムと浴の間の非平衡自由エネルギー交換の追跡を重要視する。 本研究は, 触媒反応のメカニズムを解明しつつ, 熱力学における単純で実践可能な触媒効果の存在を実証するものである。

We investigate catalysis in the framework of elementary thermal operations, leveraging the distinct features of such operations to illuminate catalytic dynamics. As groundwork, we establish new technical tools that enhance the computability of state transition rules for elementary thermal operations. Specifically, we provide a complete characterisation of state transitions for a qutrit system and special classes of initial states of arbitrary dimension. By employing these tools in conjunction with numerical methods, we find that by adopting a small catalyst, including just a qubit catalyst, one can significantly enlarge the set of state transitions for a qutrit system. This advancement notably narrows the gap of reachable states between elementary thermal operations and generic thermal operations. Furthermore, we decompose catalytic transitions into time-resolved evolution, which critically enables the tracking of nonequilibrium free energy exchanges between the system and bath. Our results provide evidence for the existence of simple and practicable catalytic advantage in thermodynamics while offering insight into analysing the mechanism of catalytic processes.
翻訳日:2023-10-03 21:11:22 公開日:2023-10-01
# コンピュータービジョンを覆す物理的な敵の攻撃:10年間の調査

Physical Adversarial Attack meets Computer Vision: A Decade Survey ( http://arxiv.org/abs/2209.15179v3 )

ライセンス: Link先を確認
Hui Wei, Hao Tang, Xuemei Jia, Zhixiang Wang, Hanxun Yu, Zhubo Li, Shin'ichi Satoh, Luc Van Gool, Zheng Wang(参考訳) コンピュータビジョンにおけるDeep Neural Networks(DNN)の驚くべき成果にもかかわらず、敵の攻撃に対する脆弱性は依然として重要な問題である。 広汎な研究により、洗練された摂動を入力画像に組み込むことで、DNNの性能が壊滅的に低下する可能性が示されている。 この紛らわしい現象は、デジタル空間だけでなく、物理の世界にも存在している。 これにより、DNNベースのシステムのセキュリティを評価し、特にセキュリティに敏感なアプリケーションにおいて、実際のシナリオにおける安全なデプロイを保証することが不可欠になる。 本論文は,この話題を深く理解するために,身体的敵意攻撃の包括的概要を述べる。 まず,物理的攻撃を開始するための一般的な4つのステップを抽出する。 この基盤に基づいて、我々は物理的な世界で敵対的な摂動をもたらすアーティファクトの広範にわたる役割を明らかにする。 これらのアーティファクトは各ステップに影響を及ぼす。 それらを示すために、新しい用語「adversarial medium」を導入する。 そこで本研究では,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出し,敵意メディアを第1試みとする。 提案する評価指標hipaaは,有効性,ステルス性,堅牢性,実用性,美学,経済学の6つの視点からなる。 また,タスクカテゴリ間の比較結果や,今後の研究方向性に関する洞察と提案も提供する。

Despite the impressive achievements of Deep Neural Networks (DNNs) in computer vision, their vulnerability to adversarial attacks remains a critical concern. Extensive research has demonstrated that incorporating sophisticated perturbations into input images can lead to a catastrophic degradation in DNNs' performance. This perplexing phenomenon not only exists in the digital space but also in the physical world. Consequently, it becomes imperative to evaluate the security of DNNs-based systems to ensure their safe deployment in real-world scenarios, particularly in security-sensitive applications. To facilitate a profound understanding of this topic, this paper presents a comprehensive overview of physical adversarial attacks. Firstly, we distill four general steps for launching physical adversarial attacks. Building upon this foundation, we uncover the pervasive role of artifacts carrying adversarial perturbations in the physical world. These artifacts influence each step. To denote them, we introduce a new term: adversarial medium. Then, we take the first step to systematically evaluate the performance of physical adversarial attacks, taking the adversarial medium as a first attempt. Our proposed evaluation metric, hiPAA, comprises six perspectives: Effectiveness, Stealthiness, Robustness, Practicability, Aesthetics, and Economics. We also provide comparative results across task categories, together with insightful observations and suggestions for future research directions.
翻訳日:2023-10-03 21:11:05 公開日:2023-10-01
# OpenMixup: ビジュアル分類のための総合的な混合ベンチマーク

OpenMixup: A Comprehensive Mixup Benchmark for Visual Classification ( http://arxiv.org/abs/2209.04851v2 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Di Wu, Cheng Tan, Weiyang Jin, Stan Z. Li(参考訳) データミキシング(data mixed、mixup)は、現代のディープニューラルネットワークの一般化性を大幅に向上させたデータ依存拡張技術である。 しかし、ミックスアップ手法を完全に把握するには、体系的な公平な評価と経験的分析からトップダウンの階層的理解が必要である。 本稿では,教師付き視覚分類のための最初の総合的mixupベンチマーク研究であるopenmixupを提案する。 openmixupは、さまざまなデータミキシングアルゴリズム、広く使用されているバックボーンとモジュール、モデル分析ツールキットを含む、統一されたミックスアップベースのモデル設計とトレーニングフレームワークを提供する。 公平かつ完全な比較を保証するため、さまざまなミックスアップベースラインの大規模な標準評価を、細心の注意深い共同創設者による12の多様化されたイメージデータセットと、モジュール化された拡張可能なコードベースフレームワークによる微調整によって実施する。 興味ある観察と洞察は、ミックスアップポリシー、ネットワークアーキテクチャ、データセットプロパティがミックスアップ視覚分類のパフォーマンスにどのように影響するかの詳細な経験的分析によって導き出される。 OpenMixupは、以前得られた洞察の再現性を高め、ミックスアッププロパティの理解を深め、新しいミックスアップメソッドの開発と評価の出発点となることを願っている。 ソースコードとユーザ文書は \url{https://github.com/Westlake-AI/openmixup} で入手できる。

Data mixing, or mixup, is a data-dependent augmentation technique that has greatly enhanced the generalizability of modern deep neural networks. However, a full grasp of mixup methodology necessitates a top-down hierarchical understanding from systematic impartial evaluations and empirical analysis, both of which are currently lacking within the community. In this paper, we present OpenMixup, the first comprehensive mixup benchmarking study for supervised visual classification. OpenMixup offers a unified mixup-based model design and training framework, encompassing a wide collection of data mixing algorithms, a diverse range of widely-used backbones and modules, and a set of model analysis toolkits. To ensure fair and complete comparisons, large-scale standard evaluations of various mixup baselines are conducted across 12 diversified image datasets with meticulous confounders and tweaking powered by our modular and extensible codebase framework. Interesting observations and insights are derived through detailed empirical analysis of how mixup policies, network architectures, and dataset properties affect the mixup visual classification performance. We hope that OpenMixup can bolster the reproducibility of previously gained insights and facilitate a better understanding of mixup properties, thereby giving the community a kick-start for the development and evaluation of new mixup methods. The source code and user documents are available at \url{https://github.com/Westlake-AI/openmixup}.
翻訳日:2023-10-03 21:08:38 公開日:2023-10-01
# 言語モデルの総合的評価

Holistic Evaluation of Language Models ( http://arxiv.org/abs/2211.09110v2 )

ライセンス: Link先を確認
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher R\'e, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda(参考訳) 言語モデル(LM)はほとんどの主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。 本稿では,言語モデルの透明性を高めるために,言語モデルの完全性評価(HELM)を提案する。 第一に、lmsに興味を持つ可能性のあるシナリオ(ユースケース)とメトリクス(デシデラタ)の広大なスペースを分類します。 次に、カバー範囲と実現可能性に基づいて幅広いサブセットを選択し、何が欠落しているか、または不足しているかを示す(例えば、無視された英語の方言に対する質問応答、信頼性の指標など)。 次に,16のコアシナリオ(87.5%)それぞれについて,7つの指標(正確性,キャリブレーション,堅牢性,公平性,バイアス,毒性,効率)を測定した。 これにより、精度を超えたメトリクスが道端に落ちないようにし、トレードオフが明らかになる。 また、26のシナリオに基づいて7つのターゲット評価を行い、特定の側面(推論、偽情報など)を分析する。 第3に,従来主流のlm評価では用いられていなかった42のシナリオすべてにおいて,30の著名な言語モデル(オープン,限定アクセス,クローズドモデル)を大規模に評価した。 HELM以前、平均的なモデルはHELMのコアシナリオの17.9%しか評価されず、いくつかの顕著なモデルは単一のシナリオを共有していない。 今や30のモデルはすべて、標準化された条件下で同じコアシナリオとメトリクスで密にベンチマークされています。 評価対象はトップレベル25。 完全な透明性のために、我々はすべての生モデルのプロンプトと補完を公開して、さらなる分析と一般的なモジュラーツールキットを提供しています。 HELMはコミュニティの生きたベンチマークであり、新しいシナリオやメトリクス、モデルを継続的に更新するつもりです。

Language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic Evaluation of Language Models (HELM) to improve the transparency of language models. First, we taxonomize the vast space of potential scenarios (i.e. use cases) and metrics (i.e. desiderata) that are of interest for LMs. Then we select a broad subset based on coverage and feasibility, noting what's missing or underrepresented (e.g. question answering for neglected English dialects, metrics for trustworthiness). Second, we adopt a multi-metric approach: We measure 7 metrics (accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency) for each of 16 core scenarios when possible (87.5% of the time). This ensures metrics beyond accuracy don't fall to the wayside, and that trade-offs are clearly exposed. We also perform 7 targeted evaluations, based on 26 targeted scenarios, to analyze specific aspects (e.g. reasoning, disinformation). Third, we conduct a large-scale evaluation of 30 prominent language models (spanning open, limited-access, and closed models) on all 42 scenarios, 21 of which were not previously used in mainstream LM evaluation. Prior to HELM, models on average were evaluated on just 17.9% of the core HELM scenarios, with some prominent models not sharing a single scenario in common. We improve this to 96.0%: now all 30 models have been densely benchmarked on the same core scenarios and metrics under standardized conditions. Our evaluation surfaces 25 top-level findings. For full transparency, we release all raw model prompts and completions publicly for further analysis, as well as a general modular toolkit. We intend for HELM to be a living benchmark for the community, continuously updated with new scenarios, metrics, and models.
翻訳日:2023-10-03 21:00:49 公開日:2023-10-01
# 超伝導回路上のロバストかつ高速量子状態転移

Robust and Fast Quantum State Transfer on Superconducting Circuits ( http://arxiv.org/abs/2211.07917v2 )

ライセンス: Link先を確認
Xiao-Qing Liu, Jia Liu, Zheng-Yuan Xue(参考訳) 量子計算は高精度な量子操作に重要であり、高い忠実度を持つ量子状態遷移が必要である。 本稿では,量子ビットチェーンにオンサイト電位を付加し,両端と鎖間の結合強度の比率を増大させることにより,高忠実度と長距離の量子状態伝達を実現する新しい手法を提案する。 数値シミュレーションでは,9量子ビットチェーンと11量子ビットチェーンの転送特性はそれぞれ0.999と0.997である。 さらに、超伝導回路における量子状態伝達の詳細な物理的実現法を提案し、デコヒーレンスに対する提案の耐性について論じる。 したがって,本手法は,長鎖と高忠実度量子状態転移を伴う量子計算に光を当てる。

Quantum computation attaches importance to high-precision quantum manipulation, where the quantum state transfer with high fidelity is necessary. Here, we propose a new scheme to implement the quantum state transfer of high fidelity and long distance, by adding on-site potential into the qubit chain and enlarging the proportion of the coupling strength between the two ends and the chain. In the numerical simulation, without decoherence, the transfer fidelities of 9 and 11 qubit chain are 0.999 and 0.997, respectively. Moreover, we give a detailed physical realization scheme of the quantum state transfer in superconducting circuits, and discuss the tolerance of our proposal against decoherence. Therefore, our scheme will shed light on quantum computation with long chain and high-fidelity quantum state transfer.
翻訳日:2023-10-03 20:59:18 公開日:2023-10-01
# ゼロショット画像キャプションのための大規模双方向訓練

Large-Scale Bidirectional Training for Zero-Shot Image Captioning ( http://arxiv.org/abs/2211.06774v3 )

ライセンス: Link先を確認
Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim(参考訳) 大規模なデータセットでトレーニングを行うと、画像キャプションモデルは一般的なドメインの画像の内容を理解することができるが、正確な詳細なキャプションを生成することができないことが多い。 性能向上のため,画像キャプションにおけるプリトレーニング・アンド・フィニチューニングが重要な戦略となっている。 しかし,画像とテキスト間の大規模双方向学習により,ゼロショット画像キャプションが可能となる。 本稿では,ゼロショット画像キャプションのための効率的な学習・推論フレームワークであるbidirectional image text training in large scale, bittersについて紹介する。 また,高品質なデータセットと,ゼロショットキャプション精度と社会バイアスを適切に評価するための指標セットからなる,新たな評価ベンチマークを提案する。 さらに,キーワード抽出のための効率的な微調整手法を提案する。 大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションを実現する鍵となることを示す。

When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining-and-finetuning has been a key strategy for image captioning. However, we find that large-scale bidirectional training between image and text enables zero-shot image captioning. In this paper, we introduce Bidirectional Image Text Training in largER Scale, BITTERS, an efficient training and inference framework for zero-shot image captioning. We also propose a new evaluation benchmark which comprises of high quality datasets and an extensive set of metrics to properly evaluate zero-shot captioning accuracy and societal bias. We additionally provide an efficient finetuning approach for keyword extraction. We show that careful selection of large-scale training set and model architecture is the key to achieving zero-shot image captioning.
翻訳日:2023-10-03 20:58:37 公開日:2023-10-01
# 潜在マルチモーダル機能的グラフィカルモデル推定

Latent Multimodal Functional Graphical Model Estimation ( http://arxiv.org/abs/2210.17237v3 )

ライセンス: Link先を確認
Katherine Tsai, Boxin Zhao, Sanmi Koyejo, Mladen Kolar(参考訳) 統合多モード機能データ取得は、複数のモードから同時に測定される機能データを、神経学および生物学的科学における最近の工学的ブレークスルーによって実現された、エキサイティングな現代的なアプローチとして出現している。 このようなデータを取得するための顕著な動機の1つは、マルチモーダル信号を組み合わせることで基盤となる接続の新しい発見を可能にすることである。 科学的な関心にもかかわらず、マルチモーダル関数データに基づくグラフを推定する原理的な統計手法には差がある。 そこで本研究では,データ生成過程をモデル化し,観測空間から潜在空間への演算子マッピングを同定する新しい統合フレームワークを提案する。 次に変換演算子と潜在グラフを同時に推定する推定器を開発する。 この推定子は、多変量から関数的設定へ厳密に拡張する部分相関演算子に基づいている。 提案手法は, 統計的誤差を定量化して定常点に収束する推定器で有効である。 さらに,緩やかな条件下での潜伏グラフの回復を示す。 本研究は、脳の機能的接続を示すグラフを同時に取得したマルチモーダル脳イメージングデータを解析することに適用する。 共同推定の利点を支えるシミュレーションと実験結果を提案する。

Joint multimodal functional data acquisition, where functional data from multiple modes are measured simultaneously from the same subject, has emerged as an exciting modern approach enabled by recent engineering breakthroughs in the neurological and biological sciences. One prominent motivation to acquire such data is to enable new discoveries of the underlying connectivity by combining multimodal signals. Despite the scientific interest, there remains a gap in principled statistical methods for estimating the graph underlying multimodal functional data. To this end, we propose a new integrative framework that models the data generation process and identifies operators mapping from the observation space to the latent space. We then develop an estimator that simultaneously estimates the transformation operators and the latent graph. This estimator is based on the partial correlation operator, which we rigorously extend from the multivariate to the functional setting. Our procedure is provably efficient, with the estimator converging to a stationary point with quantifiable statistical error. Furthermore, we show recovery of the latent graph under mild conditions. Our work is applied to analyze simultaneously acquired multimodal brain imaging data where the graph indicates functional connectivity of the brain. We present simulation and empirical results that support the benefits of joint estimation.
翻訳日:2023-10-03 20:58:25 公開日:2023-10-01
# データフロー解析に基づく高速脆弱性検出のためのディープラーニング

Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection ( http://arxiv.org/abs/2212.08108v3 )

ライセンス: Link先を確認
Benjamin Steenhoek, Hongyang Gao, and Wei Le(参考訳) ディープラーニングベースの脆弱性検出は優れたパフォーマンスを示しており、いくつかの研究では静的解析ツールよりも優れています。 しかし、最もパフォーマンスの高いアプローチはトークンベースのトランスフォーマーモデルを使用しており、脆弱性検出に必要なコードセマンティクスをキャプチャするのに最も効率的ではない。 データフロー分析のような古典的なプログラム分析技術は、その根本原因に基づいて多くの種類のバグを検出することができる。 本稿では,このような因果的脆弱性検出アルゴリズムをディープラーニングと組み合わせ,より効率的かつ効果的な脆弱性検出を実現することを目的とする。 具体的には、データフロー分析に触発されたグラフ学習フレームワークであるdeepdfaと、グラフ学習によってデータフロー計算をシミュレートする埋め込み技術を設計した。 DeepDFAはパフォーマンスと効率が両立していることを示す。 DeepDFAはすべての非トランスフォーマーベースラインを上回った。 最高性能のベースラインモデルより75倍速く、9分で訓練された。 トレーニングデータとして50以上の脆弱性と数百のサンプルを使用する場合、モデルはデータセットの100%と同じパフォーマンスを維持した。 DeepDFAはまた、DbgBenchの現実世界の脆弱性を一般化し、フォールド全体の17の脆弱性のうち8.7を検知し、パッチとバグの多いバージョンを区別することができた。 deepdfaを大規模言語モデルと組み合わせることで,96.46 f1スコア,97.82精度,95.14リコールという,big-vulデータセットの最先端脆弱性検出性能を上回った。 レプリケーションパッケージはhttps://doi.org/10.6084/m9.figshare.21225413にあります。

Deep learning-based vulnerability detection has shown great performance and, in some studies, outperformed static analysis tools. However, the highest-performing approaches use token-based transformer models, which are not the most efficient to capture code semantics required for vulnerability detection. Classical program analysis techniques such as dataflow analysis can detect many types of bugs based on their root causes. In this paper, we propose to combine such causal-based vulnerability detection algorithms with deep learning, aiming to achieve more efficient and effective vulnerability detection. Specifically, we designed DeepDFA, a dataflow analysis-inspired graph learning framework and an embedding technique that enables graph learning to simulate dataflow computation. We show that DeepDFA is both performant and efficient. DeepDFA outperformed all non-transformer baselines. It was trained in 9 minutes, 75x faster than the highest-performing baseline model. When using only 50+ vulnerable and several hundreds of total examples as training data, the model retained the same performance as 100% of the dataset. DeepDFA also generalized to real-world vulnerabilities in DbgBench; it detected 8.7 out of 17 vulnerabilities on average across folds and was able to distinguish between patched and buggy versions, while the highest-performing baseline models did not detect any vulnerabilities. By combining DeepDFA with a large language model, we surpassed the state-of-the-art vulnerability detection performance on the Big-Vul dataset with 96.46 F1 score, 97.82 precision, and 95.14 recall. Our replication package is located at https://doi.org/10.6084/m9.figshare.21225413 .
翻訳日:2023-10-03 20:51:32 公開日:2023-10-01
# ARISE:サブ構造認識による分散ネットワーク上のグラフ異常検出

ARISE: Graph Anomaly Detection on Attributed Networks via Substructure Awareness ( http://arxiv.org/abs/2211.15255v3 )

ライセンス: Link先を確認
Jingcan Duan, Bin Xiao, Siwei Wang, Haifang Zhou, Xinwang Liu(参考訳) 近年,データマイニングや機械学習のコミュニティにおいて,属性ネットワーク上のグラフ異常検出が注目されている。 属性異常とは別に、グラフ異常検出は、集合的異常行動を示す疑わしいトポロジカル異常ノードも対象とする。 密接な連結のない非相関ノード群は、ネットワーク内の非特異に密接な部分構造を形成する。 しかし,既存の手法では,このような集合パターンを認識すれば,トポロジ異常検出性能の向上が期待できる。 そこで本稿では,属性付きネットワーク上でのサブ構造認識(ARISE)による新たなグラフ異常検出フレームワークを提案する。 従来のアルゴリズムとは異なり、グラフの下位構造に注目して異常を識別する。 具体的には,ネットワーク内の高密度部分構造を疑似領域として発見するための領域提案モジュールを確立する。 平均ノード対類似性は、部分構造内のノードのトポロジー異常度と見なすことができる。 一般に、類似性が低いほど、内部ノードが位相異常である確率が高くなる。 さらに,ノード属性の埋め込み性を向上するために,属性異常を観測するグラフコントラスト学習方式を導入する。 このようにして、ARISEはトポロジーと属性の異常の両方を検出することができる。 最終的に、ベンチマークデータセットに関する広範な実験は、最先端の属性付きネットワーク異常検出(anad)アルゴリズムと比較して、検出性能(最大7.30%のaucと17.46%のauprc向上)を大幅に改善することを示している。

Recently, graph anomaly detection on attributed networks has attracted growing attention in data mining and machine learning communities. Apart from attribute anomalies, graph anomaly detection also aims at suspicious topological-abnormal nodes that exhibit collective anomalous behavior. Closely connected uncorrelated node groups form uncommonly dense substructures in the network. However, existing methods overlook that the topology anomaly detection performance can be improved by recognizing such a collective pattern. To this end, we propose a new graph anomaly detection framework on attributed networks via substructure awareness (ARISE for abbreviation). Unlike previous algorithms, we focus on the substructures in the graph to discern abnormalities. Specifically, we establish a region proposal module to discover high-density substructures in the network as suspicious regions. The average node-pair similarity can be regarded as the topology anomaly degree of nodes within substructures. Generally, the lower the similarity, the higher the probability that internal nodes are topology anomalies. To distill better embeddings of node attributes, we further introduce a graph contrastive learning scheme, which observes attribute anomalies in the meantime. In this way, ARISE can detect both topology and attribute anomalies. Ultimately, extensive experiments on benchmark datasets show that ARISE greatly improves detection performance (up to 7.30% AUC and 17.46% AUPRC gains) compared to state-of-the-art attributed networks anomaly detection (ANAD) algorithms.
翻訳日:2023-10-03 20:50:38 公開日:2023-10-01
# SeeABLE:Deepfakesのソフトな差異と境界付きコントラスト学習

SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for Exposing Deepfakes ( http://arxiv.org/abs/2211.11296v2 )

ライセンス: Link先を確認
Nicolas Larue, Ngoc-Son Vu, Vitomir Struc, Peter Peer, Vassilis Christophides(参考訳) 現代のディープフェイク検出器は、トレーニングとテスト画像が同じデータ収集から引き出されるとき、奨励的な結果を得た。 しかし、これらの検出器を未知のディープフェイク生成技術で生成した画像に適用すると、かなりの性能劣化がよく観察される。 本稿では, (一級) 分散検出タスクとして検出問題を定式化し, 未知のディープフェイクを一般化する, シーアブルと呼ばれる新しいディープフェイク検出器を提案する。 具体的には、SeeABLEはまず局所的な画像摂動(ソフトディプレパンシーと呼ばれる)を生成し、その後、新しい回帰ベースの有界コントラスト損失を用いて、乱れた顔を予め定義されたプロトタイプに向かって押し出す。 未知のディープフェイクタイプへの可視性の一般化性能を高めるために, ソフトな差異を豊富に生成し, 検出器を訓練する。 (i)顔のどの部分が変更されたかを局在化すること、及び (ii) 変更タイプを特定する。 可視性を示すために,我々は広く使用されているdeepfakeデータセットで厳密な実験を行い,我々のモデルが,高い一般化能力を示しながら,競合する最先端の検出器よりも説得力に優れていることを示す。

Modern deepfake detectors have achieved encouraging results, when training and test images are drawn from the same data collection. However, when these detectors are applied to images produced with unknown deepfake-generation techniques, considerable performance degradations are commonly observed. In this paper, we propose a novel deepfake detector, called SeeABLE, that formalizes the detection problem as a (one-class) out-of-distribution detection task and generalizes better to unseen deepfakes. Specifically, SeeABLE first generates local image perturbations (referred to as soft-discrepancies) and then pushes the perturbed faces towards predefined prototypes using a novel regression-based bounded contrastive loss. To strengthen the generalization performance of SeeABLE to unknown deepfake types, we generate a rich set of soft discrepancies and train the detector: (i) to localize, which part of the face was modified, and (ii) to identify the alteration type. To demonstrate the capabilities of SeeABLE, we perform rigorous experiments on several widely-used deepfake datasets and show that our model convincingly outperforms competing state-of-the-art detectors, while exhibiting highly encouraging generalization capabilities.
翻訳日:2023-10-03 20:49:02 公開日:2023-10-01
# l-mae: マスク付きオートエンコーダはセマンティクスセグメンテーションデータセット拡張である

L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter ( http://arxiv.org/abs/2211.11242v2 )

ライセンス: Link先を確認
Jiaru Jia, Mingzhe Liu, Jiake Xie, Xin Chen, Hong Zhang, Feixiang Zhao, Aiqing Yang(参考訳) セマンティックセグメンテーションデータセットの生成は、特に大規模モデルや特殊なドメイン(医用画像やリモートセンシング)の文脈において、一貫して手間と時間を要する。 特に、大きなモデルは大量のデータを必要としますが、専門分野のデータセットはドメインの専門家の関与を必要とします。 どちらのシナリオも不正確なデータラベリングの影響を受けやすいため、トレーニングされたモデルの最終的なパフォーマンスに大きな影響を与える可能性がある。 本稿では,ラベル内の既存の情報をフル活用してラベルを生成する,単純かつ効果的なラベルレベル補完手法である \textbf{Label Mask AutoEncoder} (L-MAE) を提案する。 提案モデルは,ダウンストリームタスクにマスクオートエンコーダを適用した最初のモデルである。 詳しくは、L-MAEはラベルと対応するイメージ、すなわちヒューズマップを積み重ねる融合戦略を採用する。 さらに、ヒューズマップをマスキングする際に画像情報の一部が失われるため、直接復元は性能が低下する可能性がある。 マスク再構成プロセス中に欠落した情報を補うための画像パッチ補正アルゴリズムを提案し,平均4.1\%miouの改善が可能であることを実証的に確認した。 データセットの完成にl-maeの有効性を評価する実験を行った。 L-MAEにより強化された劣化したパスカルVOCデータセットを用いて,実験の初期セットに対して同一の従来型セマンティックセグメンテーションモデルを訓練した。 これらの実験の結果、L-MAE強化データセットでトレーニングされたモデルにおいて、未拡張データセットと比較して13.5\%の性能向上が示された。

Generating semantic segmentation datasets has consistently been laborious and time-consuming, particularly in the context of large models or specialized domains(i.e. Medical Imaging or Remote Sensing). Specifically, large models necessitate a substantial volume of data, while datasets in professional domains frequently require the involvement of domain experts. Both scenarios are susceptible to inaccurate data labeling, which can significantly affect the ultimate performance of the trained model. This paper proposes a simple and effective label pixel-level completion method, \textbf{Label Mask AutoEncoder} (L-MAE), which fully uses the existing information in the label to generate the complete label. The proposed model are the first to apply the Mask Auto-Encoder to downstream tasks. In detail, L-MAE adopts the fusion strategy that stacks the label and the corresponding image, namely fuse map. Moreover, since some of the image information is lost when masking the fuse map, direct reconstruction may lead to poor performance. We proposed Image Patch Supplement algorithm to supplement the missing information during the mask-reconstruct process, and empirically found that an average of 4.1\% mIoU can be improved. We conducted a experiment to evaluate the efficacy of L-MAE to complete the dataset. We employed a degraded Pascal VOC dataset and the degraded dataset enhanced by L-MAE to train an identical conventional semantic segmentation model for the initial set of experiments. The results of these experiments demonstrate a performance enhancement of 13.5\% in the model trained with the L-MAE-enhanced dataset compared to the unenhanced dataset.
翻訳日:2023-10-03 20:48:37 公開日:2023-10-01
# EgoTracks: 長期的なエゴセントリックなビジュアルオブジェクト追跡データセット

EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset ( http://arxiv.org/abs/2301.03213v5 )

ライセンス: Link先を確認
Hao Tang, Kevin Liang, Matt Feiszli, Weiyao Wang(参考訳) 視覚オブジェクトのトラッキングは多くのエゴセントリックな視覚問題の主要なコンポーネントである。 しかし、具体化されたaiが直面するエゴセントリックなトラッキングの課題のスペクトルは、既存の多くのデータセットで過小評価されている。 エゴセントリックビデオは、過去のデータセットでよく見られるいくつかの特徴がある: しばしば大きなカメラの動きとオブジェクトとの手動相互作用は、一般的に、フレームから出る閉塞や物体につながり、オブジェクトの外観は、視野、スケール、またはオブジェクトの状態が広く異なるため、急速に変化する。 身体的なトラッキングも自然に長期的であり、寿命が重要である限り、オブジェクトの出現や消失に一貫して(再)関連付けることができる。 以前のデータセットは、この再検出問題を過度に強調しており、その「フレーム」の性質は、我々が必ずしも自我中心ビデオに一般化しない様々な時空間前置法の採用につながった。 EgoTracksは、長期的エゴセントリックなビジュアルオブジェクト追跡のための新しいデータセットである。 Ego4Dデータセットから引用したこの新しいデータセットは、最近の最先端の単一オブジェクト追跡モデルに重大な課題をもたらします。 我々はさらに、EgoSTARKと呼ばれるベースラインモデルにより、エゴセントリックなデータの性能を大幅に向上させるためにSTARKトラッカーにできる改善を示す。 当社はアノテーションとベンチマークを公開し、データセットがトラッキングのさらなる進歩につながることを期待しています。

Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their "framed" nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.
翻訳日:2023-10-03 20:38:56 公開日:2023-10-01
# motor: 構造化医療記録のためのイベントファウンデーションモデル

MOTOR: A Time-To-Event Foundation Model For Structured Medical Records ( http://arxiv.org/abs/2301.03150v3 )

ライセンス: Link先を確認
Ethan Steinberg, Yizhe Xu, Jason Fries, Nigam Shah(参考訳) 電子健康記録(EHR)および健康保険請求における事象の時系列を事前学習したMOTOR(Many Outcome Time Oriented Representations)と呼ばれる,自己監督型TTE基盤モデルを提案する。 tteモデルは特定の事象が起こるまでの時間の確率分布を推定するために使用され、医療現場では重要なタスクである。 TTEモデルは、自然に検閲された観測データを扱うなど、固定時間地平線を用いた分類よりも多くの利点を提供するが、ラベル付きデータで訓練することは困難である。 MOTORはこの課題に対処するため、最大55万件の患者記録(9B臨床イベント)を事前トレーニングする。 3つの患者データベース(プライベートEHRシステム,MIMIC-IV,Merativeクレームデータ)を対象に,MOTORの移動学習性能を評価した。 MOTORから適応されたタスク固有モデルは、最先端のC統計を4.6%改善し、ラベル効率を最大95%改善し、時間分布シフトに対してより堅牢である。 さらに、MIMIC-IVデータセット上の6つの予測タスクに対してMOTOR基盤モデルを適用することで、クロスサイトポータビリティを評価する。 MOTORは医学的TTE予測のための最初の基礎モデルであり、[reacted URL]での研究用の143Mパラメータ事前トレーニングモデルをリリースする。

We present a self-supervised, time-to-event (TTE) foundation model called MOTOR (Many Outcome Time Oriented Representations) which is pretrained on timestamped sequences of events in electronic health records (EHR) and health insurance claims. TTE models are used for estimating the probability distribution of the time until a specific event occurs, which is an important task in medical settings. TTE models provide many advantages over classification using fixed time horizons, including naturally handling censored observations, but are challenging to train with limited labeled data. MOTOR addresses this challenge by pretraining on up to 55M patient records (9B clinical events). We evaluate MOTOR's transfer learning performance on 19 tasks, across 3 patient databases (a private EHR system, MIMIC-IV, and Merative claims data). Task-specific models adapted from MOTOR improve time-dependent C statistics by 4.6% over state-of-the-art, improve label efficiency by up to 95% ,and are more robust to temporal distributional shifts. We further evaluate cross-site portability by adapting our MOTOR foundation model for six prediction tasks on the MIMIC-IV dataset, where it outperforms all baselines. MOTOR is the first foundation model for medical TTE predictions and we release a 143M parameter pretrained model for research use at [redacted URL].
翻訳日:2023-10-03 20:38:28 公開日:2023-10-01
# Silent Killer:ステルスでクリーンでブラックボックスのバックドア攻撃

Silent Killer: A Stealthy, Clean-Label, Black-Box Backdoor Attack ( http://arxiv.org/abs/2301.02615v2 )

ライセンス: Link先を確認
Tzvi Lederer, Gallil Maimon and Lior Rokach(参考訳) バックドア中毒はニューラルネットワークによく知られたリスクをもたらす。 しかし、ほとんどの研究は寛大な脅威モデルに注目している。 クリーンラベルでブラックボックスの設定で動作する新しい攻撃であるSilent Killerを紹介します。 クリーンラベル攻撃の引き金としてユニバーサル・逆境摂動を用いた場合, 有毒ラベル設定下でのアプローチの成功にともなって検討を行った。 ナイーブ適応の成功を解析し,高い成功率を確保するためには,毒素製造のための勾配アライメントが必要であることを見出した。 我々は、MNIST、CIFAR10、ImageNetの縮小版について徹底的な実験を行い、最先端の結果を得た。

Backdoor poisoning attacks pose a well-known risk to neural networks. However, most studies have focused on lenient threat models. We introduce Silent Killer, a novel attack that operates in clean-label, black-box settings, uses a stealthy poison and trigger and outperforms existing methods. We investigate the use of universal adversarial perturbations as triggers in clean-label attacks, following the success of such approaches under poison-label settings. We analyze the success of a naive adaptation and find that gradient alignment for crafting the poison is required to ensure high success rates. We conduct thorough experiments on MNIST, CIFAR10, and a reduced version of ImageNet and achieve state-of-the-art results.
翻訳日:2023-10-03 20:38:00 公開日:2023-10-01
# 短いストロークをリアルかつ立体的に - 肖像画生成のための3d認識による簡易スケッチ

Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch to Portrait Generation ( http://arxiv.org/abs/2302.06857v2 )

ライセンス: Link先を確認
Yasheng Sun, Qianyi Wu, Hang Zhou, Kaisiyuan Wang, Tianshu Hu, Chen-Chieh Liao, Shio Miyafuji, Ziwei Liu, Hideki Koike(参考訳) 写実的な人物の肖像画を作成することは、様々なエンターテイメントの目的に有用である。 既存の研究は2次元平面の像のみを固定ビューで生成し、その結果を鮮明にしない。 本稿では,3次元生成モデルを用いて,簡易な輪郭スケッチから立体的3次元認識ポートレートを作成する可能性について検討する。 我々の重要な洞察は、三面体ベースの3D認識生成モデルの事前知識を十分に活用できるスケッチ認識制約を設計することである。 具体的には、設計した地域対応ボリュームレンダリング戦略とグローバル一貫性制約により、スケッチエンコーディング時の詳細対応をさらに強化する。 さらに,レイマンユーザの利用を容易にするために,ベクトル量子化表現を備えたContour-to-Sketchモジュールを提案する。 広範な比較の結果,提案手法はスケッチにマッチする高品質な結果を生成することがわかった。 ユーザビリティスタディは,システムがユーザにより非常に好まれていることを検証する。

Creating the photo-realistic version of people sketched portraits is useful to various entertainment purposes. Existing studies only generate portraits in the 2D plane with fixed views, making the results less vivid. In this paper, we present Stereoscopic Simplified Sketch-to-Portrait (SSSP), which explores the possibility of creating Stereoscopic 3D-aware portraits from simple contour sketches by involving 3D generative models. Our key insight is to design sketch-aware constraints that can fully exploit the prior knowledge of a tri-plane-based 3D-aware generative model. Specifically, our designed region-aware volume rendering strategy and global consistency constraint further enhance detail correspondences during sketch encoding. Moreover, in order to facilitate the usage of layman users, we propose a Contour-to-Sketch module with vector quantized representations, so that easily drawn contours can directly guide the generation of 3D portraits. Extensive comparisons show that our method generates high-quality results that match the sketch. Our usability study verifies that our system is greatly preferred by user.
翻訳日:2023-10-03 20:30:16 公開日:2023-10-01
# 不確実性関係の統一導出とその飽和条件

Unified Derivation of Uncertainty Relations and Their Saturation Conditions ( http://arxiv.org/abs/2302.06002v2 )

ライセンス: Link先を確認
Chi-Kwong Li and Mikio Nakahara(参考訳) 我々は、Kennard, Robertson, Schr\odinger, Maccone, Pati による不確実性関係を、行列論の観点から統一的に解析する。 これらの不確実性関係に対する短い証明と飽和条件の特性を与える。

We analyze uncertainty relations due to Kennard, Robertson, Schr\"odinger, Maccone and Pati in a unified way from matrix theory point of view. Short proofs are given to these uncertainty relations and characterizations of the saturation conditions are given.
翻訳日:2023-10-03 20:30:00 公開日:2023-10-01
# 単画像シャドウ除去のためのレバレッジインペインティング

Leveraging Inpainting for Single-Image Shadow Removal ( http://arxiv.org/abs/2302.05361v3 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Rabab Abdelfattah, Di Lin, Wei Feng, Ivor Tsang, Song Wang(参考訳) 完全な教師付きシャドウ除去手法は、パブリックデータセット上で最高の修復品質を達成しますが、シャドウ残差は発生します。 理由の1つは、大規模なシャドウとシャドウフリーの画像ペアがないことである。 教師なしの方法は問題を緩和できるが、その修復性は教師なしの方法よりもはるかに低い。 本研究では,画像インペインティングデータセット上の事前トレーニングされたシャドウ除去ネットワークにより,シャドウ残差を著しく低減できることを見出した。 重み(iiw)に記憶された情報から事前学習を禁止したネットワークを解析した結果,非シャドー領域の復元品質が向上し,ネットワークの一般化能力が著しく向上した。 さらに、シャドウ除去細調整により、ネットワークはシャドウ領域の詳細を埋めることができる。 これらの観測から着想を得て、影の除去と画像の塗装の両方を活用する適応的な融合タスクとして影の除去を定式化する。 具体的には,2つのエンコーダ,適応型核融合ブロック,デコーダからなる適応型核融合ネットワークを開発した。 2つのエンコーダは、それぞれシャドウ画像とシャドウマスク画像から特徴を抽出する責任がある。 適応融合ブロックは、これらの特徴を適応的に組み合わせる責任がある。 最後に、デコーダは、適応的な融合特徴を所望のシャドーフリーな結果に変換する。 広範にわたる実験により,本手法はすべての最先端手法よりも優れた性能を示した。

Fully-supervised shadow removal methods achieve the best restoration qualities on public datasets but still generate some shadow remnants. One of the reasons is the lack of large-scale shadow & shadow-free image pairs. Unsupervised methods can alleviate the issue but their restoration qualities are much lower than those of fully-supervised methods. In this work, we find that pretraining shadow removal networks on the image inpainting dataset can reduce the shadow remnants significantly: a naive encoder-decoder network gets competitive restoration quality w.r.t. the state-of-the-art methods via only 10% shadow & shadow-free image pairs. After analyzing networks with/without inpainting pre-training via the information stored in the weight (IIW), we find that inpainting pretraining improves restoration quality in non-shadow regions and enhances the generalization ability of networks significantly. Additionally, shadow removal fine-tuning enables networks to fill in the details of shadow regions. Inspired by these observations we formulate shadow removal as an adaptive fusion task that takes advantage of both shadow removal and image inpainting. Specifically, we develop an adaptive fusion network consisting of two encoders, an adaptive fusion block, and a decoder. The two encoders are responsible for extracting the feature from the shadow image and the shadow-masked image respectively. The adaptive fusion block is responsible for combining these features in an adaptive manner. Finally, the decoder converts the adaptive fused features to the desired shadow-free result. The extensive experiments show that our method empowered with inpainting outperforms all state-of-the-art methods.
翻訳日:2023-10-03 20:29:56 公開日:2023-10-01
# adaptsim:sim-to-real転送のためのタスク駆動シミュレーション適応

AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer ( http://arxiv.org/abs/2302.04903v2 )

ライセンス: Link先を確認
Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar(参考訳) 接触モデルや物体形状近似などのシミュレーションパラメータ設定は、シミュレーションから実世界の展開へ移行できる堅牢なロボットポリシーの訓練に不可欠である。 従来のアプローチでは、そのようなパラメータ(ドメインのランダム化)上の手工芸分布や、実際の環境の力学(システム同定)に最もよく一致するパラメータを識別する。 しかしながら、シミュレーションと現実の間には不可解なギャップがしばしばあり、全ての状態とタスクのシミュレーションと現実のダイナミクスを一致させようとする試みは、実現不可能であり、特定のタスクに対してうまく機能するポリシーを導かない可能性がある。 本稿では,シミュレーションと現実のダイナミクスをマッチングするのではなく,対象(現実)環境でのタスクパフォーマンスを最適化することを目的とした,sim-to-real転送のためのタスク駆動適応フレームワークであるadaptsimを提案する。 まず,目標環境における現在のポリシーの性能に基づいてシミュレーションパラメータ分布を調整するための強化学習を用いたシミュレーションにおける適応ポリシーのメタ学習を行う。 そして, 少量の実データを用いて, 新たなシミュレーションパラメータ分布を推定し, 反復的な実世界適応を行う。 我々は,(1)線形化された二重振り子の跳ね上げ,(2)ボトルの動的テーブルトップ押し,(3)スペチュラを用いた食品の動的スクーピングという3つのロボット作業で実験を行った。 シミュレーションおよびハードウェア実験により,Sys-IDに基づく手法と目標環境におけるタスクポリシーを直接訓練した場合と比較して,AdaptSimが1~3倍の漸近性能と$\sim$2倍の実データ効率を達成することを示した。 ウェブサイト:https://irom-lab.github.io/AdaptSim/

Simulation parameter settings such as contact models and object geometry approximations are critical to training robust robotic policies capable of transferring from simulation to real-world deployment. Previous approaches typically handcraft distributions over such parameters (domain randomization), or identify parameters that best match the dynamics of the real environment (system identification). However, there is often an irreducible gap between simulation and reality: attempting to match the dynamics between simulation and reality across all states and tasks may be infeasible and may not lead to policies that perform well in reality for a specific task. Addressing this issue, we propose AdaptSim, a new task-driven adaptation framework for sim-to-real transfer that aims to optimize task performance in target (real) environments -- instead of matching dynamics between simulation and reality. First, we meta-learn an adaptation policy in simulation using reinforcement learning for adjusting the simulation parameter distribution based on the current policy's performance in a target environment. We then perform iterative real-world adaptation by inferring new simulation parameter distributions for policy training, using a small amount of real data. We perform experiments in three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when adapting to different environments, compared to methods based on Sys-ID and directly training the task policy in target environments. Website: https://irom-lab.github.io/AdaptSim/
翻訳日:2023-10-03 20:29:31 公開日:2023-10-01
# 注意図のレンズによる変圧器のフィードフォワードブロックの解析

Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Map ( http://arxiv.org/abs/2302.00456v2 )

ライセンス: Link先を確認
Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui(参考訳) Transformerが幅広いタスクでユビキタスであることを考えると、内部を解釈することは重要な問題である。 それでも、その特定のコンポーネントであるフィードフォワード(FF)ブロックは、かなりのパラメータ量にもかかわらず、一般的には分析されていない。 人為的な可視化手法として注目マップに表示することにより,FFブロックの入力コンテキスト化効果を解析する。 マスク型および因果型両方のモデルを用いた実験により,FFネットワークは入力文脈の修正を行い,特定の種類の言語構成を強調した。 さらにffとその周辺コンポーネントは相互効果をキャンセルしがちであり、トランス層の処理における潜在的な冗長性が示唆される。

Given that Transformers are ubiquitous in wide tasks, interpreting their internals is a pivotal issue. Still, their particular components, feed-forward (FF) blocks, have typically been less analyzed despite their substantial parameter amounts. We analyze the input contextualization effects of FF blocks by rendering them in the attention maps as a human-friendly visualization scheme. Our experiments with both masked- and causal-language models reveal that FF networks modify the input contextualization to emphasize specific types of linguistic compositions. In addition, FF and its surrounding components tend to cancel out each other's effects, suggesting potential redundancy in the processing of the Transformer layer.
翻訳日:2023-10-03 20:28:24 公開日:2023-10-01
# トレーニングし、簡単に戦う - 堅牢なメタ強化学習

Train Hard, Fight Easy: Robust Meta Reinforcement Learning ( http://arxiv.org/abs/2301.11147v2 )

ライセンス: Link先を確認
Ido Greenberg, Shie Mannor, Gal Chechik, Eli Meirom(参考訳) 実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。 Meta-RL(MRL)は新しいタスクに適応するメタ政治を学ぶことでこの問題に対処する。 標準的なmrl法は平均的なタスクのリターンを最適化するが、リスクや難易度の高いタスクの成績が悪いことが多い。 テストタスクが事前に分かっていないため、システムの信頼性は制限される。 本研究では,ロバスト性レベルを制御したロバストMRL目標を定義する。 RL における類似の頑健な目的の最適化は、*バイアス付き勾配* と *データ非効率* の両方をもたらすことが知られている。 MRLフレームワークでは勾配バイアスが消失することが証明された。 データ非効率性はロバストメタRLアルゴリズム(RoML)によって対処される。 RoMLはメタアルゴリズムであり、トレーニングを通じて難しいタスクを特定し、オーバーサンプリングすることで、任意のMRLアルゴリズムの堅牢なバージョンを生成する。 複数のナビゲーションと連続制御ベンチマークでロMLが堅牢なリターンを達成することを示す。

A major challenge of reinforcement learning (RL) in real-world applications is the variation between environments, tasks or clients. Meta-RL (MRL) addresses this issue by learning a meta-policy that adapts to new tasks. Standard MRL methods optimize the average return over tasks, but often suffer from poor results in tasks of high risk or difficulty. This limits system reliability since test tasks are not known in advance. In this work, we define a robust MRL objective with a controlled robustness level. Optimization of analogous robust objectives in RL is known to lead to both *biased gradients* and *data inefficiency*. We prove that the gradient bias disappears in our proposed MRL framework. The data inefficiency is addressed via the novel Robust Meta RL algorithm (RoML). RoML is a meta-algorithm that generates a robust version of any given MRL algorithm, by identifying and over-sampling harder tasks throughout training. We demonstrate that RoML achieves robust returns on multiple navigation and continuous control benchmarks.
翻訳日:2023-10-03 20:27:26 公開日:2023-10-01
# 会話文脈帯域に対する効率的な探索的鍵選択手法

Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits ( http://arxiv.org/abs/2303.00315v2 )

ライセンス: Link先を確認
Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui(参考訳) 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。 しかし、既存のアプローチにはパフォーマンスを制限する側面があります。 まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。 第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。 これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。 この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。 提案するアルゴリズムの上限がより厳密であることを証明します。 特に、ConLinUCB-BS は、以前の結果である$O(d\sqrt{T}\log T})$よりも良い$O(d\sqrt{T}\log T})$の後悔境界を達成する。 合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。

Conversational contextual bandits elicit user preferences by occasionally querying for explicit feedback on key-terms to accelerate learning. However, there are aspects of existing approaches which limit their performance. First, information gained from key-term-level conversations and arm-level recommendations is not appropriately incorporated to speed up learning. Second, it is important to ask explorative key-terms to quickly elicit the user's potential interests in various domains to accelerate the convergence of user preference estimation, which has never been considered in existing works. To tackle these issues, we first propose ``ConLinUCB", a general framework for conversational bandits with better information incorporation, combining arm-level and key-term-level feedback to estimate user preference in one step at each time. Based on this framework, we further design two bandit algorithms with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR. We prove tighter regret upper bounds of our proposed algorithms. Particularly, ConLinUCB-BS achieves a regret bound of $O(d\sqrt{T\log T})$, better than the previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and real-world data show significant advantages of our algorithms in learning accuracy (up to 54\% improvement) and computational efficiency (up to 72\% improvement), compared to the classic ConUCB algorithm, showing the potential benefit to recommender systems.
翻訳日:2023-10-03 20:18:41 公開日:2023-10-01
# フルリファレンス画像品質評価のためのデバイアスドマッピング

Debiased Mapping for Full-Reference Image Quality Assessment ( http://arxiv.org/abs/2302.11464v3 )

ライセンス: Link先を確認
Baoliang Chen, Hanwei Zhu, Lingyu Zhu, and Shiqi Wang(参考訳) 最近の学習に基づくフルリファレンス画像品質評価(fr-iqa)モデルでは、比較のために画像から深い特徴空間へのマッピングが広く採用されている。 古典的な分類タスクと同様に、品質回帰のための理想的な写像空間はクラス間分離性とクラス内コンパクト性の両方を持つべきである。 品質レベルの異なる画像の識別に焦点を当てたクラス間分離性は、既存のモデルで非常に強調されている。 しかし、同一または識別不能な画像の客観的品質のばらつきを小さく維持するクラス内コンパクト性は、研究の注意を逸らし、知覚バイアス対策につながる可能性がある。 本稿では,このようなバイアスは主に特徴が投影され比較される不適切な部分空間に起因していることを明らかにする。 そこで本研究では,特異値分解(SVD)によって形成される深層学習特徴の正規分布に基づくDMM(Debiased Mapping based quality Measure)を開発した。 深層学習の特徴領域におけるSVDは、特異値と射影ベースとを圧倒的に分離し、専用に設計された距離測定による品質推定を容易にする。 異なるIQAデータベースを用いた実験により, 認識バイアスを効率的に軽減できることを示すとともに, 品質予測における優れた性能が本手法の有効性を検証した。 実装は一般公開される予定だ。

Mapping images to deep feature space for comparisons has been wildly adopted in recent learning-based full-reference image quality assessment (FR-IQA) models. Analogous to the classical classification task, the ideal mapping space for quality regression should possess both inter-class separability and intra-class compactness. The inter-class separability that focuses on the discrimination of images with different quality levels has been highly emphasized in existing models. However, the intra-class compactness that maintains small objective quality variance of images with the same or indistinguishable quality escapes the research attention, potentially leading to the perception-biased measures. In this paper, we reveal that such bias is mainly caused by the unsuitable subspace that the features are projected and compared in. To account for this, we develop the Debiased Mapping based quality Measure (DMM), which relies on the orthonormal bases of deep learning features formed by singular value decomposition (SVD). The SVD in deep learning feature domain, which overwhelmingly separates the quality variations with singular values and projection bases, facilitates the quality inference with dedicatedly designed distance measure. Experiments on different IQA databases demonstrate the mapping method is able to mitigate the perception bias efficiently, and the superior performance on quality prediction verifies the effectiveness of our method. The implementation will be publicly available.
翻訳日:2023-10-03 20:17:01 公開日:2023-10-01
# msam: マイクロバッチ平均シャープネス最小化

mSAM: Micro-Batch-Averaged Sharpness-Aware Minimization ( http://arxiv.org/abs/2302.09693v2 )

ライセンス: Link先を確認
Kayhan Behdin, Qingquan Song, Aman Gupta, Sathiya Keerthi, Ayan Acharya, Borja Ocejo, Gregory Dexter, Rajiv Khanna, David Durfee, Rahul Mazumder(参考訳) 現代のディープラーニングモデルは過度にパラメータ化され、異なる最適化が広く異なる一般化性能をもたらす。 シャープネス・アウェアの最小化(SAM)技術は、一般化の進歩を示すと考えられるフラットター・ミニマへの勾配降下法を操る基本的な損失関数を変更する。 本研究は,マイクロバッチSAM(mSAM)と呼ばれるSAMの特定の変種について検討した。 この変異は、トレーニング中にミニバッチの複数のシャード(マイクロバッチ)にまたがる対向的摂動から得られた更新を集約する。 我々は最近開発されたフラットネス解析のためのよく研究された一般的なフレームワークを拡張し、SAMがSGDよりもフラットなミニマを達成し、mSAMがSAMよりもフラットなミニマを達成できることを理論的に示す。 本稿では,様々な画像分類と自然言語処理タスクを徹底的に評価し,この理論上の進歩を実証する。 また, 従来の研究とは対照的に, mSAM は計算コストを大幅に増大させることなく, 柔軟かつ並列的に実装可能であることを示す。 mSAM の実装は,SAM と比較して幅広いタスクにおいて優れた一般化性能を示し,理論的枠組みをさらに支持する。

Modern deep learning models are over-parameterized, where different optima can result in widely varying generalization performance. The Sharpness-Aware Minimization (SAM) technique modifies the fundamental loss function that steers gradient descent methods toward flatter minima, which are believed to exhibit enhanced generalization prowess. Our study delves into a specific variant of SAM known as micro-batch SAM (mSAM). This variation involves aggregating updates derived from adversarial perturbations across multiple shards (micro-batches) of a mini-batch during training. We extend a recently developed and well-studied general framework for flatness analysis to theoretically show that SAM achieves flatter minima than SGD, and mSAM achieves even flatter minima than SAM. We provide a thorough empirical evaluation of various image classification and natural language processing tasks to substantiate this theoretical advancement. We also show that contrary to previous work, mSAM can be implemented in a flexible and parallelizable manner without significantly increasing computational costs. Our implementation of mSAM yields superior generalization performance across a wide range of tasks compared to SAM, further supporting our theoretical framework.
翻訳日:2023-10-03 20:16:36 公開日:2023-10-01
# 微調整の不安定性の測定

Measuring the Instability of Fine-Tuning ( http://arxiv.org/abs/2302.07778v2 )

ライセンス: Link先を確認
Yupei Du and Dong Nguyen(参考訳) 様々なランダムなシードを持つ下流タスク上の微調整済み言語モデルは、特に小さなデータセットでは不安定であることが示されている。 以前の多くの研究はこの不安定性を調査し、緩和する方法を提案した。 しかし、ほとんどの研究はパフォーマンススコア(SD)の標準偏差を測定基準として用いており、これは不安定性の狭い特徴である。 本稿では,様々な粒度で不安定性を定量化するsdおよび他の6つの測定値を分析した。 さらに,本手法の有効性を評価するための体系的枠組みを提案する。 最後に,既存の不安定緩和法を再評価することにより,異なる尺度間の一貫性と差異を分析する。 私たちの結果は、微調整不安定性のより良い測定方法の開発に役立てることを願っています。

Fine-tuning pre-trained language models on downstream tasks with varying random seeds has been shown to be unstable, especially on small datasets. Many previous studies have investigated this instability and proposed methods to mitigate it. However, most studies only used the standard deviation of performance scores (SD) as their measure, which is a narrow characterization of instability. In this paper, we analyze SD and six other measures quantifying instability at different levels of granularity. Moreover, we propose a systematic framework to evaluate the validity of these measures. Finally, we analyze the consistency and difference between different measures by reassessing existing instability mitigation methods. We hope our results will inform the development of better measurements of fine-tuning instability.
翻訳日:2023-10-03 20:16:16 公開日:2023-10-01
# フォールトトレラント量子コンピュータにおける短深さ量子回路を用いた多重固有値の同時推定

Simultaneous estimation of multiple eigenvalues with short-depth quantum circuit on early fault-tolerant quantum computers ( http://arxiv.org/abs/2303.05714v4 )

ライセンス: Link先を確認
Zhiyan Ding and Lin Lin(参考訳) 初期のフォールトトレラント量子コンピュータ上で量子ハミルトニアンの複数の固有値を同時に推定するマルチモーダル・マルチレベル量子複素指数最小二乗法(MM-QCELS)を提案する。 理論的解析により,このアルゴリズムは回路深さと総コストの点でハイゼンベルク制限スケーリングを示すことを示した。 特に、提案された量子回路は1アンシラ量子ビットのみを使用し、適切な初期状態条件により量子位相推定(qpe)に基づく回路に比べて回路深度がかなり短い。 数値結果は、qpeと比較して、ある量子系の基底状態と励起状態エネルギーを推定するためのいくつかの設定の下で、回路の深さを約2桁小さくできることを示唆している。

We introduce a multi-modal, multi-level quantum complex exponential least squares (MM-QCELS) method to simultaneously estimate multiple eigenvalues of a quantum Hamiltonian on early fault-tolerant quantum computers. Our theoretical analysis demonstrates that the algorithm exhibits Heisenberg-limited scaling in terms of circuit depth and total cost. Notably, the proposed quantum circuit utilizes just one ancilla qubit, and with appropriate initial state conditions, it achieves significantly shorter circuit depths compared to circuits based on quantum phase estimation (QPE). Numerical results suggest that compared to QPE, the circuit depth can be reduced by around two orders of magnitude under several settings for estimating ground-state and excited-state energies of certain quantum systems.
翻訳日:2023-10-03 20:08:02 公開日:2023-10-01
# TM2D:音楽テキスト統合によるバイモーダリティ駆動型3Dダンス生成

TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration ( http://arxiv.org/abs/2304.02419v2 )

ライセンス: Link先を確認
Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Zihang Jiang, Xinxin Zuo, Michael Bi Mi, Xinchao Wang(参考訳) テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。 音楽などの単一モダリティを用いてダンスの動きを生成する既存の作品とは違って,本文から提供される指導的情報によって導かれるよりリッチなダンスの動きを生み出すことが目的である。 しかし、音楽とテキストのモダリティと組み合わせたモーションデータの欠如は、両方を統合するダンスの動きを生成する能力を制限する。 この課題を解決するために,我々は,2つのデータセットの動作を量子化されたベクトルからなる潜在空間に投影するために,人間の3次元動作VQ-VAEを利用することを提案する。 さらに,音楽条件付きダンス生成の性能を低下させることなく3次元ダンス動作を生成するモーション生成アーキテクチャにテキスト命令を統合するクロスモーダルトランスフォーマティブを提案する。 生成した動きの質をよりよく評価するために、生成した動きのコヒーレンスと凍結率を測定するために、運動予測距離(MPD)と凍結スコア(FS)という2つの新しい指標を導入する。 広汎な実験により,本手法は2つの単一モダリティに匹敵する性能を維持しつつ,テキストと音楽の両方に調和したリアルかつコヒーレントなダンスの動きを生成できることが示されている。 コードはhttps://garfield-kh.github.io/tm2d/で入手できる。

We propose a novel task for generating 3D dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music, our goal is to produce richer dance movements guided by the instructive information provided by the text. However, the lack of paired motion data with both music and text modalities limits the ability to generate dance movements that integrate both. To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to project the motions of the two datasets into a latent space consisting of quantized vectors, which effectively mix the motion tokens from the two datasets with different distributions for training. Additionally, we propose a cross-modal transformer to integrate text instructions into motion generation architecture for generating 3D dance movements without degrading the performance of music-conditioned dance generation. To better evaluate the quality of the generated motion, we introduce two novel metrics, namely Motion Prediction Distance (MPD) and Freezing Score (FS), to measure the coherence and freezing percentage of the generated motion. Extensive experiments show that our approach can generate realistic and coherent dance movements conditioned on both text and music while maintaining comparable performance with the two single modalities. Code is available at https://garfield-kh.github.io/TM2D/.
翻訳日:2023-10-03 19:49:44 公開日:2023-10-01
# 超ロバスト非断熱ホロノミック量子ゲート

Accelerated super-robust nonadiabatic holonomic quantum gates ( http://arxiv.org/abs/2304.01619v3 )

ライセンス: Link先を確認
Pu Shen, Yan Liang, Tao Chen, and Zheng-Yuan Xue(参考訳) 3レベルシステムに基づく非断熱的ホロノミック量子計算は、より単純なエネルギーレベル構造と幾何学的位相からの固有のロバスト性のために実験的に広い適用性を有する。 しかし、従来のスキームでは、計算部分空間の状態は常に非計算部分空間に漏れており、予想よりも堅牢性が低い。 この問題に対処する最近の取り組みは、過度に長いゲートタイムのコストがかかるため、よりデコヒーレンスによって引き起こされるエラーにつながる。 本稿では,より長いゲートタイムの制限を伴わずにこの問題の解決法を提案する。 具体的には, 3次元ハミルトニアンを用いて任意のホロノミックゲートを実装し, ゲートタイムが回転角に依存し, 回転角が小さくなれば, ゲートタイムが短くなる。 従来の手法と比較すると,提案手法のデコヒーレンスによるゲート誤差が大幅に減少し,特に小角回転ゲートのロバスト性も向上していることが示唆された。 さらに, 2次元超伝導量子回路に関する提案の詳細な物理実現について述べる。 したがって,本プロトコルは将来のフォールトトレラント量子計算の代替として有望である。

The nonadiabatic holonomic quantum computation based on three-level systems has wide applicability experimentally due to its simpler energy level structure requirement and inherent robustness from the geometric phase. However, in previous conventional schemes, the states of the calculation subspace have always leaked to the noncomputation subspace, resulting in less robustness than anticipated. Recent efforts to address this problem are at the cost of excessively long gate time, which will lead to more decoherence-induced errors. Here, we propose a solution to the problem without the severe limitation of the much longer gate time. Specifically, we implement arbitrary holonomic gates via a three-segment Hamiltonian, where the gate time depends on the rotation angle, and the smaller the rotation angle, the shorter the gate time will be. Compared with the previous solutions, our numerical simulations indicate that the decoherence-induced gate errors of our scheme are greatly decreased and the robustness of our scheme is also better, particularly for small-angle rotation gates. Moreover, we provide a detailed physical realization of our proposal on a two-dimensional superconducting quantum circuit. Therefore, our protocol provides a promising alternative for future fault-tolerant quantum computation.
翻訳日:2023-10-03 19:49:21 公開日:2023-10-01
# SEENN: 一時スパイク早期ニューラルネットワークを目指して

SEENN: Towards Temporal Spiking Early-Exit Neural Networks ( http://arxiv.org/abs/2304.01230v2 )

ライセンス: Link先を確認
Yuhang Li, Tamar Geller, Youngeun Kim, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、最近、従来のニューラルネットワーク(ANN)の生物学的に妥当な代替品として人気が高まっている。 SNNは、二分スパイクを用いて空間的および時間的両方の方法で入力を処理するため、コスト効率が高く、デプロイに優しい。 しかし、SNNにおける情報容量は時間ステップの数に影響され、精度と効率のトレードオフが生じる。 本研究では,SNNにおける時間経過の微調整について検討する。 具体的には、特定のデータに対する冗長な時間ステップを減らすために、異なる入力サンプルに条件付き変数として時間ステップ数を扱います。 本手法をSEENN(Spyking Early-Exit Neural Networks)と呼ぶ。 適切な時間ステップ数を決定するために,信頼度スコア閾値を用いて不確定な予測をフィルタリングするseen-i,強化学習による時間ステップ数を決定するseen-iiを提案する。 さらに、SEENNは直接訓練されたSNNとANN-SNN変換の両方と互換性があることを実証する。 時間ステップ数を動的に調整することにより、SEENNは推論中の平均時間ステップ数を著しく削減する。 例えば、私たちのSEENN-II ResNet-19は、CIFAR-10テストデータセット上で平均1.08のタイムステップで96.1%の精度を達成できます。 コードはhttps://github.com/Intelligent-Computing-Lab-Yale/SEENNで共有されている。

Spiking Neural Networks (SNNs) have recently become more popular as a biologically plausible substitute for traditional Artificial Neural Networks (ANNs). SNNs are cost-efficient and deployment-friendly because they process input in both spatial and temporal manner using binary spikes. However, we observe that the information capacity in SNNs is affected by the number of timesteps, leading to an accuracy-efficiency tradeoff. In this work, we study a fine-grained adjustment of the number of timesteps in SNNs. Specifically, we treat the number of timesteps as a variable conditioned on different input samples to reduce redundant timesteps for certain data. We call our method Spiking Early-Exit Neural Networks (SEENNs). To determine the appropriate number of timesteps, we propose SEENN-I which uses a confidence score thresholding to filter out the uncertain predictions, and SEENN-II which determines the number of timesteps by reinforcement learning. Moreover, we demonstrate that SEENN is compatible with both the directly trained SNN and the ANN-SNN conversion. By dynamically adjusting the number of timesteps, our SEENN achieves a remarkable reduction in the average number of timesteps during inference. For example, our SEENN-II ResNet-19 can achieve 96.1% accuracy with an average of 1.08 timesteps on the CIFAR-10 test dataset. Code is shared at https://github.com/Intelligent-Computing-Lab-Yale/SEENN.
翻訳日:2023-10-03 19:48:40 公開日:2023-10-01
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v4 )

ライセンス: Link先を確認
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
翻訳日:2023-10-03 19:46:58 公開日:2023-10-01
# 混合極角深部ニューラルネットワークを用いた内部測定からの導電率イメージング

Conductivity Imaging from Internal Measurements with Mixed Least-Squares Deep Neural Networks ( http://arxiv.org/abs/2303.16454v2 )

ライセンス: Link先を確認
Bangti Jin and Xiyao Li and Qimeng Quan and Zhi Zhou(参考訳) 本研究では,深層ニューラルネットワークを用いた新しい手法を開発し,領域全体の解の1つの測定から楕円問題における導電率分布を再構成する。 このアプローチは、支配方程式の混合再編成に基づいており、標準最小二乗目的を用いて、ディープニューラルネットワークをアンサッツ関数として、導電率とフラックスを同時に近似する。 本稿では,ノイズレベル,種々のペナルティパラメータ,ニューラルネットワークアーキテクチャパラメータ(深さ,幅,パラメータ境界)の観点から明示的な厳密な誤差推定を含む,連続的および経験的損失に対する導電率の深いニューラルネットワーク近似を徹底的に分析する。 また,2次元および複数次元における複数の数値実験を行い,データノイズに対する優れた安定性や高次元問題を解決する能力など,アプローチの特徴を明らかにした。

In this work we develop a novel approach using deep neural networks to reconstruct the conductivity distribution in elliptic problems from one measurement of the solution over the whole domain. The approach is based on a mixed reformulation of the governing equation and utilizes the standard least-squares objective, with deep neural networks as ansatz functions to approximate the conductivity and flux simultaneously. We provide a thorough analysis of the deep neural network approximations of the conductivity for both continuous and empirical losses, including rigorous error estimates that are explicit in terms of the noise level, various penalty parameters and neural network architectural parameters (depth, width and parameter bound). We also provide multiple numerical experiments in two- and multi-dimensions to illustrate distinct features of the approach, e.g., excellent stability with respect to data noise and capability of solving high-dimensional problems.
翻訳日:2023-10-03 19:46:14 公開日:2023-10-01
# OKRidge: スケーラブルなkスパースリッジ回帰

OKRidge: Scalable Optimal k-Sparse Ridge Regression ( http://arxiv.org/abs/2304.06686v2 )

ライセンス: Link先を確認
Jiachang Liu, Sam Rosen, Chudi Zhong, Cynthia Rudin(参考訳) 我々は,非線形力学系に対するスパース制御方程式の同定という,科学的発見における重要な問題を考える。 これはスパースリッジ回帰問題を解くことを含み、どの用語が基盤となるダイナミクスを駆動させるかを決定するために最適性が証明される。 我々は, 疎リッジ回帰のための高速アルゴリズムokridgeを提案し, まず, サドル点の定式化を含む新しい下限計算法を提案する。 (i)線形システム、又は 2)ADMMに基づくアプローチでは,線形系と等調回帰問題を解くことにより,近似演算子を効率的に評価することができる。 また,ビーム探索を利用した解法をウォームスタートする手法を提案する。 提案手法は,市販の解法であるGurobiによって解かれた既存のMIP定式化よりもはるかに高速な実行時間で証明可能な最適性が得られる。

We consider an important problem in scientific discovery, namely identifying sparse governing equations for nonlinear dynamical systems. This involves solving sparse ridge regression problems to provable optimality in order to determine which terms drive the underlying dynamics. We propose a fast algorithm, OKRidge, for sparse ridge regression, using a novel lower bound calculation involving, first, a saddle point formulation, and from there, either solving (i) a linear system or (ii) using an ADMM-based approach, where the proximal operators can be efficiently evaluated by solving another linear system and an isotonic regression problem. We also propose a method to warm-start our solver, which leverages a beam search. Experimentally, our methods attain provable optimality with run times that are orders of magnitude faster than those of the existing MIP formulations solved by the commercial solver Gurobi.
翻訳日:2023-10-03 19:37:27 公開日:2023-10-01
# ローレンツ古典化ホログラフィックテンソルネットワークのオンシェル方程式

On-shell equation of the Lorentzian classicalized holographic tensor network ( http://arxiv.org/abs/2304.03402v3 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) ローレンツ古典化ホログラフィックテンソルネットワーク (cHTN) において、その相対論的オンシェル方程式は、バルク時空における相対論的質量粒子の存在下でのローレンツ作用から導かれる: $-\sigma \hbar \theta=Mc^2$。 ここで、$\sigma$ は、ナット内のサイト毎 cHTN のフォン・ノイマンエントロピーであり、$\theta$ は粒子の世界線に沿って定義される cHTN の実時間展開であり、$M$ は粒子のゼロではない質量である。 この方程式の物理的性質、解釈、および結果を説明する。 具体的には、この方程式から、元の質量粒子によって引き起こされる重力加速度と同様に、バルク時空における別の質量粒子の殻上固有加速度の性質を導出する。

In the Lorentzian classicalized holographic tensor network (cHTN), we derive its relativistic on-shell equation from its Lorentzian action in the presence of a relativistic massive particle in the bulk spacetime: $-\sigma \hbar \theta=Mc^2$. Here, $\sigma$ is the von Neumann entropy of the cHTN per site in nats, $\theta$ is the real-proper-time expansion of the cHTN defined along the world line of the particle, and $M$ is the non-zero mass of the particle. We explain the physical properties, interpretation, and consequences of this equation. Specifically, from this equation we derive the properties of the on-shell proper acceleration of another massive particle in the bulk spacetime as those of the gravitational acceleration induced by the original massive particle.
翻訳日:2023-10-03 19:35:15 公開日:2023-10-01
# クラス不均衡問題に対するアンサンブル学習とデータ強化モデルの検討:組み合わせ,実装,評価

A review of ensemble learning and data augmentation models for class imbalanced problems: combination, implementation and evaluation ( http://arxiv.org/abs/2304.02858v2 )

ライセンス: Link先を確認
Azal Ahmad Khan, Omkar Chaudhari, Rohitash Chandra(参考訳) 分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。 アンサンブル学習は、複数のモデルを組み合わせてロバストなモデルを求め、クラス不均衡問題に対処するデータ拡張手法で顕著に利用されてきた。 過去10年間で、生成的敵ネットワーク(GAN)のような新しい手法とともに、アンサンブル学習とデータ拡張手法を強化するための多くの戦略が追加された。 これらの組み合わせは多くの研究に応用されているが、異なる組み合わせの真のランクは計算的レビューを必要とする。 本稿では,データ拡張法とアンサンブル学習法を評価し,ベンチマークci問題を解くための数値的考察を行う。 本稿では,CI問題に対する10種類のデータ拡張と10種類のアンサンブル学習手法を評価する。 我々の目的は、不均衡データセットの分類性能を改善するための最も効果的な組み合わせを特定することである。 その結果,データ拡張法とアンサンブル学習の組み合わせにより,不均衡データセットの分類性能が著しく向上することが示唆された。 本研究は,不均衡データセットを扱うための新しいモデルの開発に不可欠である。

Class imbalance (CI) in classification problems arises when the number of observations belonging to one class is lower than the other. Ensemble learning combines multiple models to obtain a robust model and has been prominently used with data augmentation methods to address class imbalance problems. In the last decade, a number of strategies have been added to enhance ensemble learning and data augmentation methods, along with new methods such as generative adversarial networks (GANs). A combination of these has been applied in many studies, but the true rank of different combinations would require a computational review. In this paper, we present a computational review to evaluate data augmentation and ensemble learning methods used to address prominent benchmark CI problems. We present a general framework that evaluates 10 data augmentation and 10 ensemble learning methods for CI problems. Our objective is to identify the most effective combination for improving classification performance on imbalanced datasets. The results indicate that combinations of data augmentation methods with ensemble learning can significantly improve classification performance on imbalanced datasets. Our study is vital for the development of novel models for handling imbalanced datasets.
翻訳日:2023-10-03 19:35:00 公開日:2023-10-01
# HighLight: 階層構造スカラーによる効率的かつ柔軟なDNN高速化

HighLight: Efficient and Flexible DNN Acceleration with Hierarchical Structured Sparsity ( http://arxiv.org/abs/2305.12718v2 )

ライセンス: Link先を確認
Yannan Nellie Wu, Po-An Tsai, Saurav Muralidharan, Angshuman Parashar, Vivienne Sze, Joel S. Emer(参考訳) 様々なディープニューラルネットワーク(DNN)最適化技術間の複雑な相互作用のため、現代のDNNは重み付けやアクティベーションを持ち、密度や疎度は様々である。 精度とハードウェア性能の良好なトレードオフを提供するため、理想的なDNNアクセラレータは、大幅な複雑さのオーバーヘッドを招くことなく、DNN間隔を効率よくエネルギーおよび/またはレイテンシの削減に変換する、高い柔軟性を持つ必要がある。 本稿では,階層的構造的疎度 (HSS) を導入し,複数の単純疎度パターンから階層的に構成することで,多様な疎度を体系的に表現できることを示す。 結果として、単純なスパーシティパターンのみをサポートする必要があるため、HSSは基盤となるハードウェアを単純化する。 このような機会に触発された我々は,多種多彩度(高密度を含む)のDNNを加速する,HighLightという,同時に効率的かつ柔軟な加速器を提案する。 HSSの柔軟性のため、異なるアプリケーションの精度要件を満たすために、異なるHSSパターンをDNNに導入することができる。 既存の作業と比較すると、HighLightはワークロード全体で最大6.4倍のエネルギー遅延製品(EDP)を実現しており、常に代表DNNのためのEDP精度のParetoフロンティアに座る。

Due to complex interactions among various deep neural network (DNN) optimization techniques, modern DNNs can have weights and activations that are dense or sparse with diverse sparsity degrees. To offer a good trade-off between accuracy and hardware performance, an ideal DNN accelerator should have high flexibility to efficiently translate DNN sparsity into reductions in energy and/or latency without incurring significant complexity overhead. This paper introduces hierarchical structured sparsity (HSS), with the key insight that we can systematically represent diverse sparsity degrees by having them hierarchically composed from multiple simple sparsity patterns. As a result, HSS simplifies the underlying hardware since it only needs to support simple sparsity patterns; this significantly reduces the sparsity acceleration overhead, which improves efficiency. Motivated by such opportunities, we propose a simultaneously efficient and flexible accelerator, named HighLight, to accelerate DNNs that have diverse sparsity degrees (including dense). Due to the flexibility of HSS, different HSS patterns can be introduced to DNNs to meet different applications' accuracy requirements. Compared to existing works, HighLight achieves a geomean of up to 6.4x better energy-delay product (EDP) across workloads with diverse sparsity degrees, and always sits on the EDP-accuracy Pareto frontier for representative DNNs
翻訳日:2023-10-03 17:46:14 公開日:2023-10-01
# マルチウィンドウ・ローカル・グローバルに注目するマスク付きオートエンコーダは、よりよいオーディオ学習者である

Masked Autoencoders with Multi-Window Local-Global Attention Are Better Audio Learners ( http://arxiv.org/abs/2306.00561v2 )

ライセンス: Link先を確認
Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen and Zheng-Hua Tan(参考訳) 本研究では,マルチウィンドウ・マスキング・オートエンコーダ (mw-mae) にマルチウィンドウ・マルチヘッド・アテンション (mw-mha) モジュールを組み込んだマルチウィンドウ・マスク・オートエンコーダ (mw-mae) を提案する。 10のダウンストリームオーディオタスクにおける実験結果から、MW-MAEは、全体的なパフォーマンスにおいて標準MAEよりも一貫して優れ、より汎用的なオーディオ表現を学習し、スケーリング特性が著しく向上することが示された。 注意距離とエントロピーを調査した結果、mw-maeエンコーダはより広い局所的およびグローバルな注意で頭脳を学習することが明らかとなった。 Projection Weighted Canonical correlation Analysis (PWCCA) による注目ヘッド特徴表現の解析により、MW-MAEのデコーダ層にまたがる同じウィンドウサイズを持つ注目ヘッドは、各ブロックが独立してローカルおよびグローバル情報をキャプチャできる相関特徴表現を学習し、デコーダ特徴階層が分離されることを示す。 機能抽出と下流実験のためのコードと、事前トレーニングされたモデルが公開される予定だ。

In this work, we propose a Multi-Window Masked Autoencoder (MW-MAE) fitted with a novel Multi-Window Multi-Head Attention (MW-MHA) module that facilitates the modelling of local-global interactions in every decoder transformer block through attention heads of several distinct local and global windows. Empirical results on ten downstream audio tasks show that MW-MAEs consistently outperform standard MAEs in overall performance and learn better general-purpose audio representations, along with demonstrating considerably better scaling characteristics. Investigating attention distances and entropies reveals that MW-MAE encoders learn heads with broader local and global attention. Analyzing attention head feature representations through Projection Weighted Canonical Correlation Analysis (PWCCA) shows that attention heads with the same window sizes across the decoder layers of the MW-MAE learn correlated feature representations which enables each block to independently capture local and global information, leading to a decoupled decoder feature hierarchy. Code for feature extraction and downstream experiments along with pre-trained models will be released publically.
翻訳日:2023-10-03 17:36:47 公開日:2023-10-01
# バンディット非確率制御の最適速度

Optimal Rates for Bandit Nonstochastic Control ( http://arxiv.org/abs/2305.15352v2 )

ライセンス: Link先を確認
Y. Jennifer Sun, Stephen Newman, Elad Hazan(参考訳) LQR(Linear Quadratic Regulator)とLQG(Linear Quadratic Gaussian)の制御は、最適制御における基礎的かつ広範囲に研究された問題である。 半対向摂動と時変対向帯域損失関数のLQRおよびLQG問題について検討した。 最もよく知られている半線形後悔アルゴリズムは$t^{\frac{3}{4}}$の時間軸依存性を持ち、著者らは$\sqrt{t}$のタイトなレートが達成できるかどうかという疑問を投げかけた。 我々は、既知のシステムと未知のシステムの両方において、最適な後悔(対数的要因まで)を達成するLQRとLQGのアルゴリズムを与える。 提案手法の中心的なコンポーネントは,メモリを用いたバンドット凸最適化のための新しいスキームである。

Linear Quadratic Regulator (LQR) and Linear Quadratic Gaussian (LQG) control are foundational and extensively researched problems in optimal control. We investigate LQR and LQG problems with semi-adversarial perturbations and time-varying adversarial bandit loss functions. The best-known sublinear regret algorithm of~\cite{gradu2020non} has a $T^{\frac{3}{4}}$ time horizon dependence, and its authors posed an open question about whether a tight rate of $\sqrt{T}$ could be achieved. We answer in the affirmative, giving an algorithm for bandit LQR and LQG which attains optimal regret (up to logarithmic factors) for both known and unknown systems. A central component of our method is a new scheme for bandit convex optimization with memory, which is of independent interest.
翻訳日:2023-10-03 17:34:23 公開日:2023-10-01
# Niel's Chess -- The Battle of the Quantum Age

Niel's Chess -- The Battle of the Quantum Age ( http://arxiv.org/abs/2306.13669v3 )

ライセンス: Link先を確認
Tam\'as Varga(参考訳) 本稿では,コンピュータや他の電子機器を使わずに従来のボード上で演奏できる,チェスの量子変種を紹介した。 ゲームのルールは、従来のチェスのルールと重ね合わせや絡み合いのような重要な量子物理学効果を組み合わせることで自然に生まれる。 Niel's Chessは10歳以上、歴史的ルーツを持つ創造的なゲームをしたいと願うすべての人に推奨され、同時に、今後数十年で私たちの社会に革命をもたらすであろう量子コンピューティングや量子通信といった最先端技術に電力を供給する基本的な量子効果に関する直感を得る。

In this paper, a quantum variant of chess is introduced, which can be played on a traditional board without the need of using computers or other electronic devices. The rules of the game arise naturally by combining the rules of conventional chess with key quantum-physical effects such as superposition and entanglement. Niel's Chess is recommended for ages 10 and above, to everyone who wishes to play a creative game with historical roots and at the same time gain intuition about the foundational quantum effects that power cutting-edge technologies like quantum computing and quantum communication, which are poised to revolutionise our society in the coming decades.
翻訳日:2023-10-03 17:26:09 公開日:2023-10-01
# 不等式制約付き収縮理論

Contraction Theory with Inequality Constraints ( http://arxiv.org/abs/2306.06628v2 )

ライセンス: Link先を確認
Winfried Lohmiller, Jean-Jacques Slotine(参考訳) 本稿では非線形力学系の連続収縮理論を非線形不等式制約を持つ系に拡張する。 これは、制約された力学の収縮挙動が元の収縮定理[4]から系の力学の共変微分と活性不等式制約の2番目の共変微分によって与えられることを示している。 現実的な応用としては、操作エンベロープに制約されたコントローラ、動く障害物を伴う軌道制御、量子力学の単一および2つのスリット実験の古典的なラグランジアン解釈などがある。

This paper extends continuous contraction theory of nonlinear dynamical systems to systems with nonlinear inequality constraints. It shows that the contraction behaviour of the constrained dynamics is given by the covariant derivative of the system dynamics from the original contraction theorem [4], plus the second covariant derivative of the active inequality constraint. Practical applications include controllers constrained to an operational envelope, trajectory control with moving obstacles, and a classical Lagrangian interpretation of the single and two slit experiments of quantum mechanics.
翻訳日:2023-10-03 17:23:57 公開日:2023-10-01
# 変圧器ネットワークを用いたピアノ演奏における人間の表現性再構築

Reconstructing Human Expressiveness in Piano Performances with a Transformer Network ( http://arxiv.org/abs/2306.06040v2 )

ライセンス: Link先を確認
Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas(参考訳) 計算的アプローチによる音楽演奏における人間の表現力の複雑で微妙な変化を捉えることは困難である。 本稿では,多層双方向トランスフォーマーエンコーダを用いたピアノ演奏における人間の表現性再構築手法を提案する。 ニューラルネットワークのトレーニングにおいて,大量の精度取得とスコア整合性能データの必要性に対処するために,既存の転写モデルから得られた転写スコアを用いてモデルを訓練する。 我々はピアニストのアイデンティティを統合してサンプリングプロセスを制御し、異なるピアニストに対する表現性のバリエーションをモデル化するシステムの可能性を探る。 本システムは,生成した表現性能の統計的解析と聴取テストにより評価する。 以上の結果から,本手法は書き起こされた楽譜から人間的なピアノ演奏を生成する上での最先端の手法であり,人間の表現性を完全かつ一貫した再構築はさらなる課題をもたらすことが示唆された。

Capturing intricate and subtle variations in human expressiveness in music performance using computational approaches is challenging. In this paper, we propose a novel approach for reconstructing human expressiveness in piano performance with a multi-layer bi-directional Transformer encoder. To address the needs for large amounts of accurately captured and score-aligned performance data in training neural networks, we use transcribed scores obtained from an existing transcription model to train our model. We integrate pianist identities to control the sampling process and explore the ability of our system to model variations in expressiveness for different pianists. The system is evaluated through statistical analysis of generated expressive performances and a listening test. Overall, the results suggest that our method achieves state-of-the-art in generating human-like piano performances from transcribed scores, while fully and consistently reconstructing human expressiveness poses further challenges.
翻訳日:2023-10-03 17:23:47 公開日:2023-10-01
# 丁井行列再考(II)

Choi matrices revisited, II ( http://arxiv.org/abs/2307.09247v2 )

ライセンス: Link先を確認
Kyung Hoon Han, Seung-Hyeok Kye(参考訳) 本稿では、線型写像のchoi行列のすべての変種を考察し、それらは領域空間上の非退化双線型形式によって決定されることを示す。 これを有限次元ベクトル空間の設定で行う。 行列代数の場合には、シュミット数 $\le k$ と $k$-ポジタリティと $k$-ブロック-ポジタリティの間の通常の対応を保ったchoi行列のすべての変種を特徴づける。 また、ド・ピリスの定義 (Pacific J. Math. 23 (1967), 129--137] とチョイの定義 (Linear Alg. Appl. 10 (1975), 285--290] を比較する。

In this paper, we consider all possible variants of Choi matrices of linear maps, and show that they are determined by non-degenerate bilinear forms on the domain space. We will do this in the setting of finite dimensional vector spaces. In case of matrix algebras, we characterize all variants of Choi matrices which retain the usual correspondences between $k$-superpositivity and Schmidt number $\le k$ as well as $k$-positivity and $k$-block-positivity. We also compare de Pillis' definition [Pacific J. Math. 23 (1967), 129--137] and Choi's definition [Linear Alg. Appl. 10 (1975), 285--290], which arise from different bilinear forms.
翻訳日:2023-10-03 17:17:25 公開日:2023-10-01
# レーザと機械学習モデルを用いた鋼表面粗さパラメータ計算

Steel Surface Roughness Parameter Calculations Using Lasers and Machine Learning Models ( http://arxiv.org/abs/2307.03723v2 )

ライセンス: Link先を確認
Alex Milne, Xianghua Xie(参考訳) 鋼板の表面性状の制御は, 亜鉛めっきおよび熱間圧延プロセスにおける顧客の要求を満たすために不可欠である。 従来の方法はポストプロダクションのスタイラス測定に依存し、オンライン技術はストリップ全体の非接触およびリアルタイム計測を提供する。 しかし, 製造パイプラインの有効利用には, 正確な測定の確保が不可欠である。 さらに、正確なオンライン測定により製造工程パラメータのリアルタイム調整が可能となり、一貫性のある品質とテンパーミルのクローズドループ制御が可能となる。 本研究では,最先端の機械学習モデルを用いて,オンライン計測の高精度なra面粗さ測定への変換を実現する。 深部学習法と非深部学習法の両方を含むデータ駆動型アプローチの選択をクローズフォーム変換と比較することにより, 薄帯鋼製造における表面テクスチャ制御の改善の可能性を評価する。

Control of surface texture in strip steel is essential to meet customer requirements during galvanizing and temper rolling processes. Traditional methods rely on post-production stylus measurements, while on-line techniques offer non-contact and real-time measurements of the entire strip. However, ensuring accurate measurement is imperative for their effective utilization in the manufacturing pipeline. Moreover, accurate on-line measurements enable real-time adjustments of manufacturing processing parameters during production, ensuring consistent quality and the possibility of closed-loop control of the temper mill. In this study, we leverage state-of-the-art machine learning models to enhance the transformation of on-line measurements into significantly a more accurate Ra surface roughness metric. By comparing a selection of data-driven approaches, including both deep learning and non-deep learning methods, to the close-form transformation, we evaluate their potential for improving surface texture control in temper strip steel manufacturing.
翻訳日:2023-10-03 17:15:47 公開日:2023-10-01
# KITE:セマンティックマニピュレーションのためのキーポイント型ポリシー

KITE: Keypoint-Conditioned Policies for Semantic Manipulation ( http://arxiv.org/abs/2306.16605v3 )

ライセンス: Link先を確認
Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg(参考訳) 自然言語は人間とロボットに便利な共有インターフェースを提供するが、ロボットが言語コマンドを解釈し従わせることは、操作において長年の課題である。 動作指示追従ロボットを実現するための重要なステップは、ロボットが「ぬいぐるみを拾い上げる」といった高レベルな指示から「象の左耳を磨く」といったより詳細な入力まで、異なる特異性で言語を解釈する意味操作を実現することである。 そこで我々は,シーンセマンティクス(視覚的場面における異なるオブジェクトの識別)とオブジェクトセマンティクス(正確にはオブジェクトインスタンス内の異なる部分のローカライズ)の両方に対応する意味操作のための2段階のフレームワークであるKeypoints + Instructions to Execution (KITE)を提案する。 KITEは、まず2次元画像キーポイントを通して視覚シーンに入力命令を接地し、下流アクション推論のための高精度なオブジェクト中心バイアスを提供する。 KITEはRGB-Dシーンの観察を行い、学習されたキーポイント条件のスキルを実行して命令を実行する。 キーポイントの精度とパラメータ化スキルを組み合わせることで、シーンやオブジェクトのバリエーションを一般化したきめ細かい操作が可能になる。 実世界の3つの環境 – 長距離6-DoFテーブルトップ操作,意味的把握,高精度コーヒー製造タスク – において,KITEを実証した。 これらの設定では、KITEはそれぞれ75%、70%、全体の71%の成功率を達成している。 KITEは、キーポイントベースのグラウンドよりも事前訓練されたビジュアル言語モデルを選択するフレームワークや、エンドツーエンドのビジュモータコントロールを優先して省略スキルを向上する。 追加資料、データセット、コード、ビデオは、私たちのWebサイトにある。

While natural language offers a convenient shared interface for humans and robots, enabling robots to interpret and follow language commands remains a longstanding challenge in manipulation. A crucial step to realizing a performant instruction-following robot is achieving semantic manipulation, where a robot interprets language at different specificities, from high-level instructions like "Pick up the stuffed animal" to more detailed inputs like "Grab the left ear of the elephant." To tackle this, we propose Keypoints + Instructions to Execution (KITE), a two-step framework for semantic manipulation which attends to both scene semantics (distinguishing between different objects in a visual scene) and object semantics (precisely localizing different parts within an object instance). KITE first grounds an input instruction in a visual scene through 2D image keypoints, providing a highly accurate object-centric bias for downstream action inference. Provided an RGB-D scene observation, KITE then executes a learned keypoint-conditioned skill to carry out the instruction. The combined precision of keypoints and parameterized skills enables fine-grained manipulation with generalization to scene and object variations. Empirically, we demonstrate KITE in 3 real-world environments: long-horizon 6-DoF tabletop manipulation, semantic grasping, and a high-precision coffee-making task. In these settings, KITE achieves a 75%, 70%, and 71% overall success rate for instruction-following, respectively. KITE outperforms frameworks that opt for pre-trained visual language models over keypoint-based grounding, or omit skills in favor of end-to-end visuomotor control, all while being trained from fewer or comparable amounts of demonstrations. Supplementary material, datasets, code, and videos can be found on our website: http://tinyurl.com/kite-site.
翻訳日:2023-10-03 17:14:30 公開日:2023-10-01
# 大規模言語モデルを用いた実行動作に対するグランドマニピュレータプリミティブタスク

Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models ( http://arxiv.org/abs/2308.06810v2 )

ライセンス: Link先を確認
Yue Cao and C.S. George Lee(参考訳) 階層構造はロボットシステムで広く使われている。 その多くは、別々のレイヤに計画と実行関数を実装している。 しかしながら、計画層内の高レベルタスクを実行層内の低レベルモーターコマンドに転送する簡単な方法がまだ存在しない。 この課題に取り組むため,我々は,大言語モデル(llm)を用いたロボットの低レベル動作を実現するために,マニピュレータプリミティブタスクを接地する新しい手法を提案する。 タスクフレーム形式に基づくプログラム機能ライクなプロンプトを設計した。 このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。 複数の最先端LCMに対する評価が提供される。

Layered architectures have been widely used in robot systems. The majority of them implement planning and execution functions in separate layers. However, there still lacks a straightforward way to transit high-level tasks in the planning layer to the low-level motor commands in the execution layer. In order to tackle this challenge, we propose a novel approach to ground the manipulator primitive tasks to robot low-level actions using large language models (LLMs). We designed a program-function-like prompt based on the task frame formalism. In this way, we enable LLMs to generate position/force set-points for hybrid control. Evaluations over several state-of-the-art LLMs are provided.
翻訳日:2023-10-03 17:06:23 公開日:2023-10-01
# 大規模展開データセットによる水中グライダーの一般異常検出

General Anomaly Detection of Underwater Gliders Validated by Large-scale Deployment Datasets ( http://arxiv.org/abs/2308.00180v2 )

ライセンス: Link先を確認
Ruochu Yang, Chad Lembke, Fumin Zhang, and Catherine Edwards(参考訳) 水中グライダーは海洋学で様々な用途に広く用いられている。 しかし、シャークストライクやリモーラアタッチメントのような予測不可能な出来事は、異常なグライダーの挙動やグライダーの喪失を引き起こす可能性がある。 本論文では,海洋環境における水中グライダーの操作条件を異常検出アルゴリズムを用いて評価する。 プロンプト警告は、グライダーパイロットが異常を検知する際、飛行士に提供され、グライダーを制御でき、さらなる危害を防ぐことができる。 この検出アルゴリズムは、ジョージア大学と南フロリダ大学(USF)のSkidaway Institute of Oceanography(SkIO)が主導する実際のグライダー配置で収集された豊富なデータセットに適用される。 一般性を示すために,4つのグライダー配置データセットに実験評価を適用した。 具体的には,高分解能情報を含むリカバリ後のdbdデータセットを用いて,異常の詳細な解析を行い,パイロットログと比較する。 さらに,対象イベントにおいてグライダーから送信されるデータのリアルタイムサブセットに基づいて,オンライン検出を実装した。 リアルタイムグライダーデータには、回収後の情報ほど豊富な情報が含まれていないかもしれないが、オンライン検出は、グライダーパイロットがリアルタイムに潜在的な異常状態を監視するために非常に重要である。

Underwater gliders have been widely used in oceanography for a range of applications. However, unpredictable events like shark strike or remora attachment can lead to abnormal glider behavior or even loss of the glider. This paper employs an anomaly detection algorithm to assess operational conditions of underwater gliders in the ocean environment. Prompt alerts are provided to glider pilots upon detecting any anomaly, so that they can take control of the glider to prevent further harm. The detection algorithm is applied to abundant datasets collected in real glider deployments led by the Skidaway Institute of Oceanography (SkIO) in the University of Georgia and the University of South Florida (USF). In order to demonstrate generality, the experimental evaluation is applied to four glider deployment datasets. Specifically, we utilize post-recovery DBD datasets carrying high-resolution information to perform detailed analysis of the anomaly and compare it with pilot logs. Additionally, we implement the online detection based on the real-time subsets of data transmitted from the glider at the surfacing events. While the real-time glider data may not contain as much rich information as the post-recovery one, the online detection is of great importance as it allows glider pilots to monitor potential abnormal conditions in real time.
翻訳日:2023-10-03 17:05:15 公開日:2023-10-01
# 時間均質確率力学系の不変表現の学習

Learning invariant representations of time-homogeneous stochastic dynamical systems ( http://arxiv.org/abs/2307.09912v2 )

ライセンス: Link先を確認
Vladimir R. Kostic, Pietro Novelli, Riccardo Grazzi, Karim Lounici, Massimiliano Pontil(参考訳) 離散と連続の両方の時間均質な確率力学系の一般クラスを検討し、そのダイナミクスを忠実に捉えた状態の表現を学ぶ問題を考察する。 これはシステムの転送演算子を学習するのに役立ち、システムダイナミクスの予測や解釈など、多くのタスクに使用できる。 ニューラルネットワークに対する最適化問題として,優れた表現の探索が可能であることを示す。 本手法は,最近の統計学習理論の結果から,伝達作用素回帰の文脈における近似誤差と計量歪の役割を浮き彫りにしている。 対象関数は,表現空間からデータ空間への投影作用素と関連し,計量歪を克服し,データから経験的に推定できる。 離散時間設定では、微分可能かつ数値的によく条件付けられた緩和対象関数をさらに導出する。 我々は、異なるデータセットに対する最先端のアプローチと比較し、ボード全体のパフォーマンス向上を示す。

We consider the general class of time-homogeneous stochastic dynamical systems, both discrete and continuous, and study the problem of learning a representation of the state that faithfully captures its dynamics. This is instrumental to learn the transfer operator of the system, that in turn can be used for numerous tasks, such as forecasting and interpreting the system dynamics. We show that the search for a good representation can be cast as an optimization problem over neural networks. Our approach is supported by recent results in statistical learning theory, highlighting the role of approximation error and metric distortion in the context of transfer operator regression. The objective function we propose is associated with projection operators from the representation space to the data space, overcomes metric distortion, and can be empirically estimated from data. In the discrete time setting, we further derive a relaxed objective function that is differentiable and numerically well-conditioned. We compare our method against state-of-the-art approaches on different datasets, showing better performance across the board.
翻訳日:2023-10-03 17:02:54 公開日:2023-10-01
# 非i.i.dデータに基づく検閲回帰モデルの漸近的効率的オンライン学習

Asymptotically Efficient Online Learning for Censored Regression Models Under Non-I.I.D Data ( http://arxiv.org/abs/2309.09454v2 )

ライセンス: Link先を確認
Lantian Zhang and Lei Guo(参考訳) 漸近的効率のよいオンライン学習問題は、様々な学習と統計学の分野から生じる確率的検閲回帰モデルに対して研究されているが、現在まで学習アルゴリズムの効率に関する包括的な理論的研究が欠けている。 そこで本研究では,第1段階がアルゴリズム収束の達成に焦点をあて,第2段階が推定性能の向上に焦点をあてた2段階オンラインアルゴリズムを提案する。 データに対する一般的な励起条件の下では、確率的リャプノフ関数法とマルティンガレの極限理論を用いて、我々のアルゴリズムは強く一貫性があり、漸近的に正常であることを示す。 さらに, 推定値の共分散が漸近的にクラマー・ラオ(C-R)境界を達成できることを示し, 提案アルゴリズムの性能が一般に期待できる最良の可能性であることを示す。 既存の著作物と異なり,データに対する独立かつ同一分散(i.i.d)の仮定のような,従来使用されてきたが厳密な条件に頼らずに結果が得られるため,フィードバックを伴う確率力学系への応用は除外されない。 オンラインアルゴリズムが文献上の既存の関連アルゴリズムよりも優れていることを示す数値例も提示されている。

The asymptotically efficient online learning problem is investigated for stochastic censored regression models, which arise from various fields of learning and statistics but up to now still lacks comprehensive theoretical studies on the efficiency of the learning algorithms. For this, we propose a two-step online algorithm, where the first step focuses on achieving algorithm convergence, and the second step is dedicated to improving the estimation performance. Under a general excitation condition on the data, we show that our algorithm is strongly consistent and asymptotically normal by employing the stochastic Lyapunov function method and limit theories for martingales. Moreover, we show that the covariances of the estimates can achieve the Cramer-Rao (C-R) bound asymptotically, indicating that the performance of the proposed algorithm is the best possible that one can expect in general. Unlike most of the existing works, our results are obtained without resorting to the traditionally used but stringent conditions such as independent and identically distributed (i.i.d) assumption on the data, and thus our results do not exclude applications to stochastic dynamical systems with feedback. A numerical example is also provided to illustrate the superiority of the proposed online algorithm over the existing related ones in the literature.
翻訳日:2023-10-03 16:56:03 公開日:2023-10-01
# マルチスケールコントラスト学習による正規性学習に基づくグラフ異常検出

Normality Learning-based Graph Anomaly Detection via Multi-Scale Contrastive Learning ( http://arxiv.org/abs/2309.06034v2 )

ライセンス: Link先を確認
Jingcan Duan, Pei Zhang, Siwei Wang, Jingtao Hu, Hu Jin, Jiaxin Zhang, Haifang Zhou, Xinwang Liu(参考訳) グラフ異常検出(gad)は、機械学習とデータマイニングで注目を集めている。 最近の研究は、gadのノード埋め込みの品質を改善するために、よりリッチな情報をキャプチャする方法に重点を置いている。 検出性能の大幅な進歩にもかかわらず、タスクの特性に関する相対的な研究はいまだに続いている。 GADは、ほとんどのノードから逸脱する異常を識別することを目的としている。 しかし、このモデルは、多くのサンプルを構成する正常なサンプルのパターンを学ぶ傾向があります。 一方、異常は、行動が正常と異なる場合に容易に検出できる。 したがって、通常のパターンを学習する能力を高めることで、さらに性能を向上させることができる。 そこで本稿では,マルチスケールコントラスト学習ネットワーク(NLGAD)を用いた正規性学習に基づくGADフレームワークを提案する。 具体的には、まず異なるスケールのコントラストネットワークでモデルを初期化する。 正規性学習のための十分かつ信頼性の高い正規ノードを提供するため、正規性選択のための効果的なハイブリッド戦略を設計する。 最後に、モデルは信頼できる正規ノードの唯一の入力で洗練され、異常ノードをより容易に区別できるように、より正確な正規性を推定する。 最後に、6つのベンチマークグラフデータセットに関する広範な実験が、gadにおける正規性学習に基づくスキームの有効性を示しています。 特に,提案アルゴリズムは,最先端手法と比較して検出性能(最大5.89%のAUCゲイン)を向上させる。 ソースコードはhttps://github.com/FelixDJC/NLGADで公開されている。

Graph anomaly detection (GAD) has attracted increasing attention in machine learning and data mining. Recent works have mainly focused on how to capture richer information to improve the quality of node embeddings for GAD. Despite their significant advances in detection performance, there is still a relative dearth of research on the properties of the task. GAD aims to discern the anomalies that deviate from most nodes. However, the model is prone to learn the pattern of normal samples which make up the majority of samples. Meanwhile, anomalies can be easily detected when their behaviors differ from normality. Therefore, the performance can be further improved by enhancing the ability to learn the normal pattern. To this end, we propose a normality learning-based GAD framework via multi-scale contrastive learning networks (NLGAD for abbreviation). Specifically, we first initialize the model with the contrastive networks on different scales. To provide sufficient and reliable normal nodes for normality learning, we design an effective hybrid strategy for normality selection. Finally, the model is refined with the only input of reliable normal nodes and learns a more accurate estimate of normality so that anomalous nodes can be more easily distinguished. Eventually, extensive experiments on six benchmark graph datasets demonstrate the effectiveness of our normality learning-based scheme on GAD. Notably, the proposed algorithm improves the detection performance (up to 5.89% AUC gain) compared with the state-of-the-art methods. The source code is released at https://github.com/FelixDJC/NLGAD.
翻訳日:2023-10-03 16:55:11 公開日:2023-10-01
# 蛍光検出振動分光法による例外点近傍の振動支援エネルギー移動の促進

Enhancement of Vibrationally Assisted Energy Transfer by proximity to Exceptional Points, Probed by Fluorescence-Detected Vibrational Spectroscopy ( http://arxiv.org/abs/2309.02819v2 )

ライセンス: Link先を確認
Zeng-Zhao Li and K. Birgitta Whaley(参考訳) 量子プラットフォーム上の自然系におけるエネルギー移動過程のエミュレーションは、自然の複雑なダイナミクスの理解をさらに深めることができる。 1つの顕著な例は、閉じ込められたイオン量子エミュレータ上での振動補助エネルギー伝達(VAET)のデモンストレーションであり、光収穫のエネルギー学的な知見を提供する。 本研究では、閉じ込められたイオンを用いたVAETシミュレーションの研究を、振動モードに弱結合した$\mathscr{PT}$-symmetric chromophore dimerからなる非エルミタン量子系に拡張する。 まず, 振動を伴わない励起エネルギー移動過程の例外点(eps)と非エルミート的特徴を特徴付け, 縮退した2次epを見いだす。 振動を含む系の非エルミート力学を探索し、振動モードからのフォノンの吸収に伴うエネルギー移動が、そのような縮退EPの近傍で著しく向上できることを見出した。 本計算では, 固有状態と固有エネルギーの結合に伴う特異なスペクトル特性を明らかにし, 蛍光検出振動分光法により縮退EPを探索する新しい手法を提案する。 EP近傍でのVAETプロセスの増強は、退化EPにおけるフォノン吸収の最大選択性により、複数の同時励起が可能であることが判明した。 非エルミート量子系におけるVAETプロセスの改善に関する研究は、励起エネルギー移動に関連する量子力学における非ハーミティシティの活用の道を開く。

Emulation of energy transfer processes in natural systems on quantum platforms can further our understanding of complex dynamics in nature. One notable example is the demonstration of vibrationally assisted energy transfer (VAET) on a trapped-ion quantum emulator, which offers insights for the energetics of light harvesting. In this work, we expand the study of VAET simulation with trapped ions to a non-Hermitian quantum system comprising a $\mathscr{PT}$-symmetric chromophore dimer weakly coupled to a vibrational mode. We first characterize exceptional points (EPs) and non- Hermitian features of the excitation energy transfer processes in the absence of the vibration, finding a degenerate pair of second-order EPs. Exploring the non-Hermitian dynamics of the whole system including vibrations, we find that energy transfer accompanied by absorption of phonons from a vibrational mode can be significantly enhanced near such a degenerate EP. Our calculations reveal a unique spectral feature accompanying the coalescing of eigenstates and eigenenergies that provides a novel approach to probe the degenerate EP by fluorescence-detected vibrational spectroscopy. Enhancement of the VAET process near the EP is found to be due to maximal favorability of phonon absorption at the degenerate EP, enabling multiple simultaneous excitations. Our work on improving VAET processes in non-Hermitian quantum systems paves the way for leveraging non-Hermiticity in quantum dynamics related to excitation energy transfer.
翻訳日:2023-10-03 16:54:52 公開日:2023-10-01
# Project Aria:エゴセントリックなマルチモーダルAI研究のための新しいツール

Project Aria: A New Tool for Egocentric Multi-Modal AI Research ( http://arxiv.org/abs/2308.13561v3 )

ライセンス: Link先を確認
Jakob Engel, Kiran Somasundaram, Michael Goesele, Albert Sun, Alexander Gamino, Andrew Turner, Arjang Talattof, Arnie Yuan, Bilal Souti, Brighid Meredith, Cheng Peng, Chris Sweeney, Cole Wilson, Dan Barnes, Daniel DeTone, David Caruso, Derek Valleroy, Dinesh Ginjupalli, Duncan Frost, Edward Miller, Elias Mueggler, Evgeniy Oleinik, Fan Zhang, Guruprasad Somasundaram, Gustavo Solaira, Harry Lanaras, Henry Howard-Jenkins, Huixuan Tang, Hyo Jin Kim, Jaime Rivera, Ji Luo, Jing Dong, Julian Straub, Kevin Bailey, Kevin Eckenhoff, Lingni Ma, Luis Pesqueira, Mark Schwesinger, Maurizio Monge, Nan Yang, Nick Charron, Nikhil Raina, Omkar Parkhi, Peter Borschowa, Pierre Moulon, Prince Gupta, Raul Mur-Artal, Robbie Pennington, Sachin Kulkarni, Sagar Miglani, Santosh Gondi, Saransh Solanki, Sean Diener, Shangyi Cheng, Simon Green, Steve Saarinen, Suvam Patra, Tassos Mourikis, Thomas Whelan, Tripti Singh, Vasileios Balntas, Vijay Baiyya, Wilson Dreewes, Xiaqing Pan, Yang Lou, Yipu Zhao, Yusuf Mansour, Yuyang Zou, Zhaoyang Lv, Zijian Wang, Mingfei Yan, Carl Ren, Renzo De Nardi, Richard Newcombe(参考訳) 将来の拡張現実(ar)デバイスで利用可能なエゴセントリックでマルチモーダルなデータは、機械知覚に特有の課題と機会を提供する。 これらの将来のデバイスは、常に利用可能なコンテキスト認識およびパーソナライズされたaiアプリケーションをサポートするために、社会的に受け入れられるフォームファクターとして、一日中ウェアラブルである必要がある。 meta reality labs researchの私たちのチームは、この分野の研究の促進と加速を目的として、エゴセントリックでマルチモーダルなデータ記録とストリーミングデバイスであるaria deviceを開発しました。 本稿では、センサ構成を含むAriaデバイスハードウェアと、そのようなデータの記録と処理を可能にする対応するソフトウェアツールについて述べる。

Egocentric, multi-modal data as available on future augmented reality (AR) devices provides unique challenges and opportunities for machine perception. These future devices will need to be all-day wearable in a socially acceptable form-factor to support always available, context-aware and personalized AI applications. Our team at Meta Reality Labs Research built the Aria device, an egocentric, multi-modal data recording and streaming device with the goal to foster and accelerate research in this area. In this paper, we describe the Aria device hardware including its sensor configuration and the corresponding software tools that enable recording and processing of such data.
翻訳日:2023-10-03 16:54:11 公開日:2023-10-01
# 地雷探査作業における自律型ドローンの確率的因果発見・推論・説明に向けて

Towards Probabilistic Causal Discovery, Inference & Explanations for Autonomous Drones in Mine Surveying Tasks ( http://arxiv.org/abs/2308.10047v2 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Rhys Howard, Paulina Lewinska, Lars Kunze(参考訳) 因果モデリングは、自律的なエージェントに、世界とのインタラクションを管理するデータ生成プロセスを理解する能力を提供します。 このようなモデルは、現実の環境で自律ロボットが遭遇するノイズや不確実性の確率論的表現と同様に、形式的な知識を捉える。 したがって、因果関係は自律的なエージェントが意思決定や結果の説明を行うのを助けることができるが、このような因果関係の展開は新たな課題をもたらす。 ここでは,塩鉱で稼働するドローンシステムにおける因果関係に関する課題を特定する。 このような環境は、共同設立者の存在、非定常性、そして前もって完全な因果モデルを構築することの難しさから、自律エージェントにとって難しい。 これらの問題に対処するため,我々はpomdp計画,オンラインscm適応,ポストホックな反事実説明からなる確率的因果枠組みを提案する。 さらに,シミュレーションされた鉱山環境および実世界の鉱山データセット上で,ドローンシステムと統合されたフレームワークを評価するための実験を概説した。

Causal modelling offers great potential to provide autonomous agents the ability to understand the data-generation process that governs their interactions with the world. Such models capture formal knowledge as well as probabilistic representations of noise and uncertainty typically encountered by autonomous robots in real-world environments. Thus, causality can aid autonomous agents in making decisions and explaining outcomes, but deploying causality in such a manner introduces new challenges. Here we identify challenges relating to causality in the context of a drone system operating in a salt mine. Such environments are challenging for autonomous agents because of the presence of confounders, non-stationarity, and a difficulty in building complete causal models ahead of time. To address these issues, we propose a probabilistic causal framework consisting of: causally-informed POMDP planning, online SCM adaptation, and post-hoc counterfactual explanations. Further, we outline planned experimentation to evaluate the framework integrated with a drone system in simulated mine environments and on a real-world mine dataset.
翻訳日:2023-10-03 16:53:39 公開日:2023-10-01
# 非ラベルデータサンプリングを最適化した半教師あり学習によるベイズ最適化

High-dimensional Bayesian Optimization via Semi-supervised Learning with Optimized Unlabeled Data Sampling ( http://arxiv.org/abs/2305.02614v2 )

ライセンス: Link先を確認
Yuxuan Yin, Yu Wang and Peng Li(参考訳) ベイズ最適化 (bayesian optimization, bo) は、サンプル効率のためにブラックボックス関数のグローバル最適化を求めるための強力な逐次最適化手法である。 ブラックボックス関数の評価は高価であり、ラベル付きデータの使用が望ましい。 そこで我々は,bo の文脈下で大量の安価に生成したラベルなしデータを活用し,データクエリモデルの一般化を促進する半教師付き学習を実現するために,教師学習モデル $\textt{tsbo}$ を導入する。 教師・生徒モデルは不確実性を認識し,無ラベルデータに生成した擬似ラベルをリスクに対処しながら活用するための実用的なメカニズムを提供する。 ラベルなしのデータの選択が$\texttt{TSBO}$のキーであることを示します。 動的に適合する極値分布からラベルなしデータを生成するか、生徒のフィードバックを最小限にして学習したパラメータ付きサンプリング分布を生成することにより、ラベルなしデータサンプリングを最適化する。 $\texttt{tsbo}$は、次元性が低下した学習された潜在空間で操作でき、高次元問題へのスケーラビリティを提供する。 $\texttt{TSBO}$は、厳密なラベル付きデータ予算の下で、いくつかのグローバル最適化タスクにおいて重要なサンプル効率を示す。

Bayesian optimization (BO) is a powerful sequential optimization approach for seeking the global optimum of black-box functions for sample efficiency purposes. Evaluations of black-box functions can be expensive, rendering reduced use of labeled data desirable. For the first time, we introduce a teacher-student model, called $\texttt{TSBO}$, to enable semi-supervised learning that can make use of large amounts of cheaply generated unlabeled data under the context of BO to enhance the generalization of data query models. Our teacher-student model is uncertainty-aware and offers a practical mechanism for leveraging the pseudo labels generated for unlabeled data while dealing with the involved risk. We show that the selection of unlabeled data is key to $\texttt{TSBO}$. We optimize unlabeled data sampling by generating unlabeled data from a dynamically fitted extreme value distribution or a parameterized sampling distribution learned by minimizing the student feedback. $\texttt{TSBO}$ is capable of operating in a learned latent space with reduced dimensionality, providing scalability to high-dimensional problems. $\texttt{TSBO}$ demonstrates the significant sample efficiency in several global optimization tasks under tight labeled data budgets.
翻訳日:2023-10-03 16:45:59 公開日:2023-10-01
# 都市環境におけるロバストロボットの3次元知覚に向けて:UTキャンパスオブジェクトデータセット

Towards Robust Robot 3D Perception in Urban Environments: The UT Campus Object Dataset ( http://arxiv.org/abs/2309.13549v2 )

ライセンス: Link先を確認
Arthur Zhang, Chaitanya Eranki, Christina Zhang, Ji-Hwan Park, Raymond Hong, Pranav Kalyani, Lochana Kalyanaraman, Arsh Gamare, Arnav Bagad, Maria Esteva, Joydeep Biswas(参考訳) テキサス大学オースティンキャンパスで収集された移動ロボットエゴセントリック知覚データセットである ut campus object dataset (coda) について紹介する。 我々のデータセットには8.5時間のマルチモーダルセンサーデータが含まれている。128チャンネルの3D LiDARと1.25MPのRGBカメラの同期3DポイントクラウドとステレオRGBビデオの10fps、追加の0.5MPセンサーのRGB-Dビデオの7fps、9-DOF IMUセンサーの40Hz。 我々は,53のセマンティッククラスに対して,130万個の3D境界ボックスと5,000フレームの3Dセマンティックアノテーションを含む58分間の地中真理アノテーションと擬似地中真理ローカライゼーションを提供する。 我々は,屋内と屋外の広い地域,気象条件,一日の時間帯について,同一の地理的位置を繰り返し横断した。 CODaを使用することで、以下のことを実証的に示します。 1) 都市環境における3次元物体検出性能は, 最先端の領域適応手法を用いても, 既存のデータセットと比較してCODaを用いて訓練すると著しく向上する。 2)センサ特異的微調整により3次元物体検出精度と精度が向上する 3)CODaの事前訓練は,都市環境下での3次元オブジェクト検出性能を,AVデータセットの事前訓練と比較して向上させる。 データセットとアノテーションを用いて、確立したメトリクスを用いた3Dオブジェクト検出と3Dセマンティックセマンティックセグメンテーションのベンチマークをリリースする。 将来的にcodaベンチマークには、教師なしオブジェクト発見や再識別などのタスクが追加される予定である。 当社は、Texas Data Repository、事前トレーニングされたモデル、データセット開発パッケージ、インタラクティブなデータセットビューアを、Webサイトhttps://amrl.cs.utexas.edu/codaで公開しています。 我々はCODaがエゴセントリックな3D知覚と都市環境における自律的なナビゲーションの計画を研究するための貴重なデータセットになることを期待している。

We introduce the UT Campus Object Dataset (CODa), a mobile robot egocentric perception dataset collected on the University of Texas Austin Campus. Our dataset contains 8.5 hours of multimodal sensor data: synchronized 3D point clouds and stereo RGB video from a 128-channel 3D LiDAR and two 1.25MP RGB cameras at 10 fps; RGB-D videos from an additional 0.5MP sensor at 7 fps, and a 9-DOF IMU sensor at 40 Hz. We provide 58 minutes of ground-truth annotations containing 1.3 million 3D bounding boxes with instance IDs for 53 semantic classes, 5000 frames of 3D semantic annotations for urban terrain, and pseudo-ground truth localization. We repeatedly traverse identical geographic locations for a wide range of indoor and outdoor areas, weather conditions, and times of the day. Using CODa, we empirically demonstrate that: 1) 3D object detection performance in urban settings is significantly higher when trained using CODa compared to existing datasets even when employing state-of-the-art domain adaptation approaches, 2) sensor-specific fine-tuning improves 3D object detection accuracy and 3) pretraining on CODa improves cross-dataset 3D object detection performance in urban settings compared to pretraining on AV datasets. Using our dataset and annotations, we release benchmarks for 3D object detection and 3D semantic segmentation using established metrics. In the future, the CODa benchmark will include additional tasks like unsupervised object discovery and re-identification. We publicly release CODa on the Texas Data Repository, pre-trained models, dataset development package, and interactive dataset viewer on our website at https://amrl.cs.utexas.edu/coda. We expect CODa to be a valuable dataset for research in egocentric 3D perception and planning for autonomous navigation in urban environments.
翻訳日:2023-10-03 16:43:10 公開日:2023-10-01
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供

ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v5 )

ライセンス: Link先を確認
Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang(参考訳) XAIメソッドの急激な収集にもかかわらず、ユーザーは依然として必要なAI説明を得るのに苦労している。 従来の研究では、チャットボットは動的ソリューションとして提案されていたが、現実的な人間のニーズに対する会話型XAIエージェントの効果的な設計は未検討のままである。 本稿では,AIを活用した科学書記タスクのための会話型XAIについて述べる。 人間の言語理論と形成的研究から,「多面的」,「制御可能性」,「混入的」,「文脈認識的ドリルダウン」の4つの設計根拠を同定した。 我々はそれらをインタラクティブなプロトタイプであるConvXAIに組み込み、対話を通じて科学的記述のための異種AI説明を容易にする。 21人のユーザによる2つの研究において、ConvXAIは、人間の知覚する理解と記述の改善にGUIベースのベースラインを上回ります。 本稿は,ConvXAIとのインタラクションにおける実践的人間利用パターンについても論じる。

Despite a surge collection of XAI methods, users still struggle to obtain required AI explanations. Previous research suggests chatbots as dynamic solutions, but the effective design of conversational XAI agents for practical human needs remains under-explored. This paper focuses on Conversational XAI for AI-assisted scientific writing tasks. Drawing from human linguistic theories and formative studies, we identify four design rationales: "multifaceted", "controllability", "mix-initiative", "context-aware drill-down". We incorporate them into an interactive prototype, ConvXAI, which facilitates heterogeneous AI explanations for scientific writing through dialogue. In two studies with 21 users, ConvXAI outperforms a GUI-based baseline on improving human-perceived understanding and writing improvement. The paper further discusses the practical human usage patterns in interacting with ConvXAI for scientific co-writing.
翻訳日:2023-10-03 14:52:13 公開日:2023-10-01
# Persistent HomologyがObject Unityと出会う: Clutterにおけるオブジェクト認識

Persistent Homology Meets Object Unity: Object Recognition in Clutter ( http://arxiv.org/abs/2305.03815v2 )

ライセンス: Link先を確認
Ekta U. Samani, Ashis G. Banerjee(参考訳) 屋内環境における閉塞物体の認識は,移動ロボットにとって困難な問題である。 この課題に対処するために,深度画像から生成する点雲のための新しいディスクリプタtopsと,人間の推論にインスパイアされた関連する認識フレームワークthorを提案する。 ディスクリプタは、持続的ホモロジーを用いた単純複体の濾過から位相的特徴を計算するために新しいスライシングに基づくアプローチを採用し、オブジェクトの統一を用いた推論に基づく認識を促進する。 ベンチマークデータセットとは別に,環境条件の異なる実世界のシナリオを反映し,コモディティハードウェアを用いてキュレートした新しいデータセットUW Indoor Scenes (UW-IS)Occludedデータセットの性能を報告する。 THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度はかなり高い。 そのためthorは、屋内での日常使用を目的とした低コストロボットにおけるロバストな認識に向けた有望なステップである。

Recognition of occluded objects in unseen and unstructured indoor environments is a challenging problem for mobile robots. To address this challenge, we propose a new descriptor, TOPS, for point clouds generated from depth images and an accompanying recognition framework, THOR, inspired by human reasoning. The descriptor employs a novel slicing-based approach to compute topological features from filtrations of simplicial complexes using persistent homology, and facilitates reasoning-based recognition using object unity. Apart from a benchmark dataset, we report performance on a new dataset, the UW Indoor Scenes (UW-IS) Occluded dataset, curated using commodity hardware to reflect real-world scenarios with different environmental conditions and degrees of object occlusion. THOR outperforms state-of-the-art methods on both the datasets and achieves substantially higher recognition accuracy for all the scenarios of the UW-IS Occluded dataset. Therefore, THOR, is a promising step toward robust recognition in low-cost robots, meant for everyday use in indoor settings.
翻訳日:2023-10-03 14:51:17 公開日:2023-10-01
# 強化学習による拡散モデルの訓練

Training Diffusion Models with Reinforcement Learning ( http://arxiv.org/abs/2305.13301v3 )

ライセンス: Link先を確認
Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine(参考訳) 拡散モデルは、log-likelihoodの目的に近似して訓練されたフレキシブルな生成モデルのクラスである。 しかし、拡散モデルのほとんどのユースケースは、可能性ではなく、人間の知覚画像の品質や薬物の有効性といった下流の目的に関係している。 本稿では,拡散モデルを直接最適化するための強化学習手法について検討する。 本稿では,マルチステップ意思決定問題としてのデノイジングの手法によって,デノイジン拡散政策最適化 (ddpo) と呼ばれる政策勾配アルゴリズムのクラスが実現可能であり,代替報酬重み付け手法よりも効果的であることを示す。 DDPOは、画像圧縮性などのプロンプトによる表現が難しい対象や、美的品質などの人間のフィードバックから派生した対象に、テキストから画像への拡散モデルを適用することができる。 最後に、ddpoは視覚言語モデルからのフィードバックにより、追加のデータ収集や人間のアノテーションを必要とせずに、プロンプト画像アライメントを改善することができることを示す。 プロジェクトのWebサイトはhttp://rl-diffusion.github.io にある。

Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation. The project's website can be found at http://rl-diffusion.github.io .
翻訳日:2023-10-03 14:42:50 公開日:2023-10-01
# ファウンデーションモデルを用いたマルチモーダルWebナビゲーション

Multimodal Web Navigation with Instruction-Finetuned Foundation Models ( http://arxiv.org/abs/2305.11854v2 )

ライセンス: Link先を確認
Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, Izzeddin Gur(参考訳) 自律型webナビゲーションの進歩は、オンライン強化学習による数十億の探索的インタラクションへの依存と、リッチなドメイン外データからの一般化の活用を困難にするドメイン固有のモデル設計によって妨げられている。 本研究では,視覚言語基礎モデルを用いたWebエージェントのオフライントレーニングについて検討する。 本稿では,WebページのスクリーンショットとHTMLページの両方を観察し,クリックやタイプなどのWebナビゲーションアクションを出力するマルチモーダルエージェントWebGUMを提案する。 WebGUMは、大規模なデモンストレーションコーパスに対して、時間的および局所的な知覚を持つ命令ファインタクテッド言語モデルとビジョンエンコーダを共同で微調整することで訓練される。 このレシピは,マルチモーダル認識,HTML理解,多段階推論といったエージェントの能力の向上を実証的に実証する。 MiniWoBでは、従来の最高のオフラインメソッドを45.8%以上改善しています。 WebShopベンチマークでは,既存のSoTAである PaLM-540B よりも3ビリオンパラメータモデルの方が優れた性能を発揮する。 さらに、WebGUMはMind2Web上の現実世界の計画タスクに強いポジティブな移行を示す。 トレーニングされたモデルを使って,347Kの高品質なデモも収集しています。

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision encoder with temporal and local perception on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded multimodal perception, HTML comprehension, and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB, we improve over the previous best offline methods by more than 45.8%, even outperforming online-finetuned SoTA, humans, and GPT-4-based agent. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. Furthermore, WebGUM exhibits strong positive transfer to the real-world planning tasks on the Mind2Web. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
翻訳日:2023-10-03 14:41:38 公開日:2023-10-01
# 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和

Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation ( http://arxiv.org/abs/2305.15852v2 )

ライセンス: Link先を確認
Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev(参考訳) 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。 この問題の重要な例は自己矛盾であり、LMは同じ文脈内で2つの矛盾する文を生成する。 本研究は,各種命令調整型LMの自己コントラクションに関する包括的調査を行い,評価,検出,緩和について述べる。 本分析では,ChatGPTが生成する全文の17.7%において,LMがオープンドメイントピックのテキストを生成する場合の自己矛盾の頻度を明らかにする。 セルフコントラディションは検索ベースの手法を補完するものであり、その大部分が(例えばChatGPTの35.8%)ウィキペディアでは検証できない。 そこで我々は,自己矛盾を効果的に検出し緩和する新しいプロンプトベースフレームワークを提案する。 我々の検出器は、ChatGPTを誘導するときに80%のF1スコアを達成する。 緩和アルゴリズムは、生成したテキストを反復的に洗練し、テキストの流布や報知性を保ちながら矛盾する情報を除去する。 重要なことは、我々のフレームワーク全体がブラックボックスのLMに適用でき、外部の基盤知識を必要としないことである。 私たちのアプローチは事実上効果的で、公開のためにプッシュボタンツールとしてリリースされています。

Large language models (large LMs) are susceptible to producing text that contains hallucinated content. An important instance of this problem is self-contradiction, where the LM generates two contradictory sentences within the same context. In this work, we present a comprehensive investigation into self-contradiction for various instruction-tuned LMs, covering evaluation, detection, and mitigation. Our analysis reveals the prevalence of self-contradictions when LMs generate text for open-domain topics, e.g., in 17.7% of all sentences produced by ChatGPT. Self-contradiction also complements retrieval-based methods, as a large portion of them (e.g., 35.8% for ChatGPT) cannot be verified using Wikipedia. We then propose a novel prompting-based framework designed to effectively detect and mitigate self-contradictions. Our detector achieves high accuracy, e.g., around 80% F1 score when prompting ChatGPT. The mitigation algorithm iteratively refines the generated text to remove contradictory information while preserving text fluency and informativeness. Importantly, our entire framework is applicable to black-box LMs and does not require external grounded knowledge. Our approach is practically effective and has been released as a push-button tool to benefit the public, available at https://chatprotect.ai/.
翻訳日:2023-10-03 14:32:39 公開日:2023-10-01
# オープンワールド環境における意味的シーン理解への公平連続学習アプローチ

Fairness Continual Learning Approach to Semantic Scene Understanding in Open-World Environments ( http://arxiv.org/abs/2305.15700v4 )

ライセンス: Link先を確認
Thanh-Dat Truong, Hoang-Quan Nguyen, Bhiksha Raj, Khoa Luu(参考訳) 連続的なセマンティックセグメンテーションは、以前のクラスからの情報を維持しながら新しいクラスを学ぶことを目的としている。 先行研究は近年顕著な進歩を見せているが、連続的なセマンティックセグメンテーションにおける公平性の懸念に対処する必要がある。 一方、フェアネスはディープラーニングモデルをデプロイする上で、特に人間や安全に関するアプリケーションにおいて、最も重要な要素の1つです。 本稿では,意味的セグメンテーション問題に対するフェアネス連続学習手法を提案する。 特に、フェアネス目標の下では、クラス分布に基づく新しいフェアネス連続学習フレームワークが提案されている。 次に,連続学習における重要な課題,すなわち破滅的な忘れ方と背景シフトに対処するために,新しい先駆的コントラストクラスタリング損失を提案する。 提案した損失は, 継続学習によく用いられる知識蒸留の新たな一般化学習パラダイムとして証明されている。 さらに,提案した条件構造整合性損失は,予測セグメンテーションの構造制約をさらに規則化した。 提案手法は,ADE20K,Cityscapes,Pascal VOCの3つの標準シーン理解ベンチマーク上での最先端性能を実現し,セグメンテーションモデルの公平性を向上した。

Continual semantic segmentation aims to learn new classes while maintaining the information from the previous classes. Although prior studies have shown impressive progress in recent years, the fairness concern in the continual semantic segmentation needs to be better addressed. Meanwhile, fairness is one of the most vital factors in deploying the deep learning model, especially in human-related or safety applications. In this paper, we present a novel Fairness Continual Learning approach to the semantic segmentation problem. In particular, under the fairness objective, a new fairness continual learning framework is proposed based on class distributions. Then, a novel Prototypical Contrastive Clustering loss is proposed to address the significant challenges in continual learning, i.e., catastrophic forgetting and background shift. Our proposed loss has also been proven as a novel, generalized learning paradigm of knowledge distillation commonly used in continual learning. Moreover, the proposed Conditional Structural Consistency loss further regularized the structural constraint of the predicted segmentation. Our proposed approach has achieved State-of-the-Art performance on three standard scene understanding benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC, and promoted the fairness of the segmentation model.
翻訳日:2023-10-03 14:32:00 公開日:2023-10-01
# アンロックチューニングフリー一般化: PAC-Bayes境界とトレーニング可能な事前条件の最小化

Unlocking Tuning-free Generalization: Minimizing the PAC-Bayes Bound with Trainable Priors ( http://arxiv.org/abs/2305.19243v2 )

ライセンス: Link先を確認
Xitong Zhang, Avrajit Ghosh, Guangliang Liu and Rongrong Wang(参考訳) トレーニング手順を慎重に設計することにより,ニューラルネットワークの一般化能力が大幅に向上することが広く認識されている。 現在の最先端のトレーニングアプローチでは、確率勾配降下(SGD)またはアダム最適化アルゴリズムと、重み付け減衰、ドロップアウト、ノイズ注入といった追加の正規化手法を組み合わせる。 最適な一般化は、グリッド検索を通じて多数のハイパーパラメータをチューニングすることによってのみ達成できる。 そこで本研究では,完全グリッド探索と余分な正規化により,sgd/adamと同等のテスト性能を実現すると同時に,ほぼチューニングフリーで追加の正規化を必要としない,実用的なpac-bayesトレーニングフレームワークを提案する。 提案アルゴリズムは,高ロバスト性と解釈性を有するディープニューラルネットワーク上での最先端性能を実現するためのPACトレーニングの可能性を示す。

It is widely recognized that the generalization ability of neural networks can be greatly enhanced through carefully designing the training procedure. The current state-of-the-art training approach involves utilizing stochastic gradient descent (SGD) or Adam optimization algorithms along with a combination of additional regularization techniques such as weight decay, dropout, or noise injection. Optimal generalization can only be achieved by tuning a multitude of hyperparameters through grid search, which can be time-consuming and necessitates additional validation datasets. To address this issue, we introduce a practical PAC-Bayes training framework that is nearly tuning-free and requires no additional regularization while achieving comparable testing performance to that of SGD/Adam after a complete grid search and with extra regularizations. Our proposed algorithm demonstrates the remarkable potential of PAC training to achieve state-of-the-art performance on deep neural networks with enhanced robustness and interpretability.
翻訳日:2023-10-03 14:23:12 公開日:2023-10-01
# AerialFormer:Aerial Image Segmentationのためのマルチレゾリューショントランス

AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation ( http://arxiv.org/abs/2306.06842v2 )

ライセンス: Link先を確認
Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le(参考訳) Aerial Image Segmentationは、トップダウンの視点セマンティックセマンティックセグメンテーションであり、フォアグラウンド-バックグラウンド分布の強い不均衡、複雑な背景、クラス内不均一性、クラス間均一性、小さなオブジェクトなど、いくつかの困難な特徴を持っている。 これらの問題に対処するために、Transformerの利点を継承し、拡張経路における軽量なMD-CNN(Multi-Dilated Convolutional Neural Networks)を用いてTransformerをコントラクトパスで統一するAerialFormerを提案する。 トランスフォーマはマルチスケールな特徴を出力し、md-cnnsデコーダはマルチスケールから情報を集約する階層構造として設計されている。 したがって、ローカルとグローバルの両方のコンテキストを考慮に入れ、強力な表現と高解像度のセグメンテーションを描画する。 AerialFormerをiSAID、LoveDA、Potsdamの3つの一般的なデータセットでベンチマークしました。 包括的実験と広範囲なアブレーション実験により,提案したAerialFormerは従来の最先端手法よりも優れた性能を示した。 ソースコードは承認次第、公開される予定だ。

Aerial Image Segmentation is a top-down perspective semantic segmentation and has several challenging characteristics such as strong imbalance in the foreground-background distribution, complex background, intra-class heterogeneity, inter-class homogeneity, and tiny objects. To handle these problems, we inherit the advantages of Transformers and propose AerialFormer, which unifies Transformers at the contracting path with lightweight Multi-Dilated Convolutional Neural Networks (MD-CNNs) at the expanding path. Our AerialFormer is designed as a hierarchical structure, in which Transformer encoder outputs multi-scale features and MD-CNNs decoder aggregates information from the multi-scales. Thus, it takes both local and global contexts into consideration to render powerful representations and high-resolution segmentation. We have benchmarked AerialFormer on three common datasets including iSAID, LoveDA, and Potsdam. Comprehensive experiments and extensive ablation studies show that our proposed AerialFormer outperforms previous state-of-the-art methods with remarkable performance. Our source code will be publicly available upon acceptance.
翻訳日:2023-10-03 14:13:30 公開日:2023-10-01
# 変分不均衡回帰:確率的平滑化による不確かさの定量化

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing ( http://arxiv.org/abs/2306.06599v2 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang(参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。 本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。 Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 コードは、もうすぐ \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}で利用可能になる。

Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. Code will soon be available at \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}.
翻訳日:2023-10-03 14:13:05 公開日:2023-10-01
# データ拡張によるAI攻撃コードジェネレータのロバスト性向上

Enhancing Robustness of AI Offensive Code Generators via Data Augmentation ( http://arxiv.org/abs/2306.05079v2 )

ライセンス: Link先を確認
Cristina Improta, Pietro Liguori, Roberto Natella, Bojan Cukic and Domenico Cotroneo(参考訳) 本稿では,自然言語(nl)に新たな入力を生成するためのコード記述に摂動を追加する手法を提案する。 目標は、セキュリティ指向のコードのコンテキストにおけるaiコードジェネレータのパフォーマンスにどの程度の摂動が影響するかを分析することである。 まず,摂動記述が本来の摂動記述のセマンティクスを保っていることを示す。 そして,この手法を用いて,新たな摂動入力に対する3つの最先端コードジェネレータの堅牢性を評価し,これらのAIベースのソリューションの性能がNL記述の摂動の影響を強く受けていることを示す。 そのロバスト性を高めるために、トレーニングデータ中のnl記述の変動性と多様性を高めるために、データ拡張を行う方法を使い、摂動コード記述と非摂動コード記述の両方に対して有効性を証明する。

In this work, we present a method to add perturbations to the code descriptions to create new inputs in natural language (NL) from well-intentioned developers that diverge from the original ones due to the use of new words or because they miss part of them. The goal is to analyze how and to what extent perturbations affect the performance of AI code generators in the context of security-oriented code. First, we show that perturbed descriptions preserve the semantics of the original, non-perturbed ones. Then, we use the method to assess the robustness of three state-of-the-art code generators against the newly perturbed inputs, showing that the performance of these AI-based solutions is highly affected by perturbations in the NL descriptions. To enhance their robustness, we use the method to perform data augmentation, i.e., to increase the variability and diversity of the NL descriptions in the training data, proving its effectiveness against both perturbed and non-perturbed code descriptions.
翻訳日:2023-10-03 14:11:57 公開日:2023-10-01
# 拡散型生成モデルにおける非漸近収束の高速化に向けて

Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models ( http://arxiv.org/abs/2306.09251v2 )

ライセンス: Link先を確認
Gen Li, Yuting Wei, Yuxin Chen, Yuejie Chi(参考訳) マルコフ拡散過程を逆転するために学習することでノイズを新しいデータインスタンスに変換する拡散モデルは、現代の生成モデリングの基盤となっている。 実用的能力は広く認識されているが、理論的基盤は成熟していない。 本研究では,拡散モデルのデータ生成過程を離散時間で理解するための漸近的でない理論の組を開発し,(Stein)スコア関数の$\ell_2$-accurate推定値へのアクセスを仮定する。 一般的な決定論的サンプリング器(確率フローODEに基づく)では、1/T$(ステップ総数$T$)に比例して収束率を確立し、過去の結果により改善し、他の主流確率的サンプリング器(例えば、偏微分確率モデルの一種)では、1/\sqrt{T}$に比例して収束率を導出し、最先端技術理論と整合する。 対象のデータ分布に最小限の仮定(例えば、滑らかさの仮定は課されない)を課すことで、結果が$\ell_2$スコア推定誤差がデータ生成プロセスの品質に与える影響を特徴づける。 従来の研究とは対照的に,本理論はSDEやODEのツールボックスに頼らずに,基本的かつ多目的な非漸近的アプローチに基づいて開発されている。 さらに、2つの加速変種を設計し、その収束性を改善してODE-based samplerに1/T^2$、DDPM-type samplerに1/T$とする。

Diffusion models, which convert noise into new data instances by learning to reverse a Markov diffusion process, have become a cornerstone in contemporary generative modeling. While their practical power has now been widely recognized, the theoretical underpinnings remain far from mature. In this work, we develop a suite of non-asymptotic theory towards understanding the data generation process of diffusion models in discrete time, assuming access to $\ell_2$-accurate estimates of the (Stein) score functions. For a popular deterministic sampler (based on the probability flow ODE), we establish a convergence rate proportional to $1/T$ (with $T$ the total number of steps), improving upon past results; for another mainstream stochastic sampler (i.e., a type of the denoising diffusion probabilistic model), we derive a convergence rate proportional to $1/\sqrt{T}$, matching the state-of-the-art theory. Imposing only minimal assumptions on the target data distribution (e.g., no smoothness assumption is imposed), our results characterize how $\ell_2$ score estimation errors affect the quality of the data generation processes. In contrast to prior works, our theory is developed based on an elementary yet versatile non-asymptotic approach without resorting to toolboxes for SDEs and ODEs. Further, we design two accelerated variants, improving the convergence to $1/T^2$ for the ODE-based sampler and $1/T$ for the DDPM-type sampler, which might be of independent theoretical and empirical interest.
翻訳日:2023-10-03 14:04:40 公開日:2023-10-01
# タイトレート平板ミニマの騒音安定性最適化

Noise Stability Optimization for Flat Minima with Tight Rates ( http://arxiv.org/abs/2306.08553v2 )

ライセンス: Link先を確認
Haotian Ju, Dongyue Li, and Hongyang R. Zhang(参考訳) 一般化特性は学習アルゴリズムの設計と解析の中心的な側面である。 従来の多くの作品において、良い一般化につながると考えられてきた概念は、ノイズ摂動に敏感な損失曲面を非公式に記述した平坦なミニマである。 しかし、それらを発見するための効率的なアルゴリズム(分析が容易な)の設計は、比較的未検討である。 本稿では,関数の重み付けに注入される雑音の摂動を平均化する確率的最適化目標を最小化する,この問題に対処する新しいアルゴリズムを提案する。 このアルゴリズムは, 最悪の摂動を含む既存のアルゴリズムと比較して, 理論的および経験的優位性の両方を享受できることが示されている。 理論的には、確率的目的の1次定常点を求めるアルゴリズムの厳密な収束率を示す。 経験的に、アルゴリズムはヘッセンのトレース上でペナルティを誘導し、SGDや他の代替よりも平坦な反復を、より厳密な一般化ギャップで導く。 この研究は、関数の雑音安定性特性を最適化することにより、平坦な最小値を求めるための証明可能かつ実用的なアルゴリズムに寄与する。

Generalization properties are a central aspect of the design and analysis of learning algorithms. One notion that has been considered in many previous works as leading to good generalization is flat minima, which informally describes a loss surface that is insensitive to noise perturbations. However, the design of efficient algorithms (that are easy to analyze) to find them is relatively under-explored. In this paper, we propose a new algorithm to address this issue, which minimizes a stochastic optimization objective that averages noise perturbations injected into the weights of a function. This algorithm is shown to enjoy both theoretical and empirical advantages compared to existing algorithms involving worst-case perturbations. Theoretically, we show tight convergence rates of our algorithm to find first-order stationary points of the stochastic objective. Empirically, the algorithm induces a penalty on the trace of the Hessian, leading to iterates that are flatter than SGD and other alternatives, with tighter generalization gaps. Altogether, this work contributes a provable and practical algorithm to find flat minima by optimizing the noise stability properties of a function.
翻訳日:2023-10-03 14:03:12 公開日:2023-10-01
# MMASD:自閉症介入分析のためのマルチモーダルデータセット

MMASD: A Multimodal Dataset for Autism Intervention Analysis ( http://arxiv.org/abs/2306.08243v3 )

ライセンス: Link先を確認
Jicheng Li, Vuthea Chheang, Pinar Kullu, Eli Brignac, Zhang Guo, Kenneth E. Barner, Anjana Bhat, Roghayeh Leila Barmaki(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、発達障害の一つで、社会的コミュニケーション障害とコミュニケーションの困難さを特徴とする。 機械学習技術は、自閉症の研究と評価を促進するために広く採用されている。 しかしながら、計算モデルは、主に特定の分析に集中しており、プライバシを保存するデータ共有の複雑さによるモデル間の比較を制限する自閉症コミュニティのプライベートデータセットに検証されている。 本研究は,自閉症児の遊び療法介入から収集した,新たなプライバシー保護オープンソースデータセットであるMMASDをマルチモーダルASDベンチマークデータセットとして提示する。 MMASDには、ASDを持つ32人の子供のデータと、100時間以上の介入記録から区切られた1,315のデータが含まれている。 パブリックアクセスを促進するために、各データサンプルは4つのプライバシー保護モダリティで構成されており、そのうちのいくつかは、(1)光学フロー、(2)2Dスケルトン、(3)3Dスケルトン、(4)臨床用ALD評価スコア、例えばADOSスコアから導かれる。 MMASDは、研究者やセラピストが子どもの認知状態を理解し、治療中の進捗を監視し、それに応じて治療計画をカスタマイズすることを目的としている。 また、行動品質評価や対人同期推定といった下流タスクにもインスピレーションを与えている。 MMASDデータセットはhttps://github.com/Li-Jicheng/MMASD-A-Multimodal-Dataset-for-Autism-Intervention-Analysisで簡単にアクセスできる。

Autism spectrum disorder (ASD) is a developmental disorder characterized by significant social communication impairments and difficulties perceiving and presenting communication cues. Machine learning techniques have been broadly adopted to facilitate autism studies and assessments. However, computational models are primarily concentrated on specific analysis and validated on private datasets in the autism community, which limits comparisons across models due to privacy-preserving data sharing complications. This work presents a novel privacy-preserving open-source dataset, MMASD as a MultiModal ASD benchmark dataset, collected from play therapy interventions of children with Autism. MMASD includes data from 32 children with ASD, and 1,315 data samples segmented from over 100 hours of intervention recordings. To promote public access, each data sample consists of four privacy-preserving modalities of data; some of which are derived from original videos: (1) optical flow, (2) 2D skeleton, (3) 3D skeleton, and (4) clinician ASD evaluation scores of children, e.g., ADOS scores. MMASD aims to assist researchers and therapists in understanding children's cognitive status, monitoring their progress during therapy, and customizing the treatment plan accordingly. It also has inspiration for downstream tasks such as action quality assessment and interpersonal synchrony estimation. MMASD dataset can be easily accessed at https://github.com/Li-Jicheng/MMASD-A-Multimodal-Dataset-for-Autism-Intervention-Analysis.
翻訳日:2023-10-03 14:02:53 公開日:2023-10-01
# DreamDecompiler: 暗黙の知識を逆コンパイルしたベイズ的プログラム学習

DreamDecompiler: Bayesian Program Learning by Decompiling Amortised Knowledge ( http://arxiv.org/abs/2306.07856v2 )

ライセンス: Link先を確認
Alessandro B. Palmarini, Christopher G. Lucas, N. Siddharth(参考訳) プログラム誘導問題の解決には、膨大な可能性空間を探索する必要がある。 dreamcoderはインダクティブなプログラム合成システムであり、問題を解きながら、反復的なウェイクスリープ手順で検索を単純化する。 検索コストは、ニューラルサーチポリシーをトレーニングし、検索幅を減らし、タスク間でプログラムソリューションを構成するのに有用な情報を効率的に「コンパイル」することで償却される。 さらに、プログラムコンポーネントのライブラリは、検出されたソリューションを少ないコンポーネントで表現することを学び、検索の深さを減らす。 DreamCoderでは、ニューラルネットワークポリシーは、検出するプログラムソリューションを通じて学んだライブラリに間接的な影響しか与えない。 本稿では,神経検索ポリシーを直接活用するライブラリ学習のアプローチを提案する。 検索の幅を減らすために学習される償却された知識は、検索の深さを減らすためにも使われる。 このアプローチをdreamcoderと統合し、さまざまなドメインの一般化、特にサンプルソリューションが少ない場合に、より高速なドメイン習熟度を実証します。

Solving program induction problems requires searching through an enormous space of possibilities. DreamCoder is an inductive program synthesis system that, whilst solving problems, learns to simplify search in an iterative wake-sleep procedure. The cost of search is amortised by training a neural search policy, reducing search breadth and effectively "compiling" useful information to compose program solutions across tasks. Additionally, a library of program components is learnt to express discovered solutions in fewer components, reducing search depth. In DreamCoder, the neural search policy has only an indirect effect on the library learnt through the program solutions it helps discover. We present an approach for library learning that directly leverages the neural search policy, effectively "decompiling" its amortised knowledge to extract relevant program components. This provides stronger amortised inference: the amortised knowledge learnt to reduce search breadth is now also used to reduce search depth. We integrate our approach with DreamCoder and demonstrate faster domain proficiency with improved generalisation on a range of domains, particularly when fewer example solutions are available.
翻訳日:2023-10-03 14:01:41 公開日:2023-10-01
# EffUNetとトランスファー学習アプローチを用いた建物と道路のセグメンテーション

Building and Road Segmentation Using EffUNet and Transfer Learning Approach ( http://arxiv.org/abs/2307.03980v2 )

ライセンス: Link先を確認
Sahil Gangurde(参考訳) 都市では、水道、鉄道、送電線、建物、道路などの都市物に関する情報が都市計画に必要である。 特に、これらのオブジェクトの拡散、場所、キャパシティに関する情報は、政策立案者が影響力のある決定を下すために必要です。 この論文は、衛星とuavが捉えた空中画像から建物と道路を分割することを目的としている。 セマンティックセグメンテーションタスクのために多くの異なるアーキテクチャが提案されており、unetはその1つである。 本稿では,google が新たに提案する efficientnetv2 を,unet デコーダを用いた特徴抽出のためのエンコーダとして,セグメンテーションマップを構築するための新しいアーキテクチャを提案する。 このアプローチを使用して、マサチューセッツ・ビルディングとロードのデータセットのベンチマークスコアをそれぞれ0.8365と0.9153で達成しました。

In city, information about urban objects such as water supply, railway lines, power lines, buildings, roads, etc., is necessary for city planning. In particular, information about the spread of these objects, locations and capacity is needed for the policymakers to make impactful decisions. This thesis aims to segment the building and roads from the aerial image captured by the satellites and UAVs. Many different architectures have been proposed for the semantic segmentation task and UNet being one of them. In this thesis, we propose a novel architecture based on Google's newly proposed EfficientNetV2 as an encoder for feature extraction with UNet decoder for constructing the segmentation map. Using this approach we achieved a benchmark score for the Massachusetts Building and Road dataset with an mIOU of 0.8365 and 0.9153 respectively.
翻訳日:2023-10-03 13:54:29 公開日:2023-10-01
# ct金属アーティファクト低減のための教師なし多色神経表現

Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction ( http://arxiv.org/abs/2306.15203v2 )

ライセンス: Link先を確認
Qing Wu, Lixuan Chen, Ce Wang, Hongjiang Wei, S. Kevin Zhou, Jingyi Yu, Yuyao Zhang(参考訳) トモグラフィー(例えば、NeRF、NeAT、NeRP)に基づく新しい神経再構成技術は、医用画像に特有の機能を示すようになった。 本研究では,人体に金属インプラントが存在する場合のCTイメージングの課題に取り組むために,新しいポリクロマティックニューラル表現(ポリナー)を提案する。 CT金属アーティファクトは、X線スペクトルの様々なエネルギーレベルにおける金属の減衰係数の劇的な変化から生じ、CT測定における非線形金属効果をもたらす。 金属の影響によるCT画像の復元は、従来の金属アーチファクトリダクション(MAR)アプローチで採用された経験的モデルが信号損失と強いエイリアスド再構築をもたらす複雑な非線形逆問題を引き起こす。 ポリナーは、非線形逆問題の観点から MAR 問題をモデル化する。 具体的には、まず、非線形CT取得過程を正確にシミュレートする多色前方モデルを導出する。 そして,前向きモデルを暗黙のニューラル表現に組み込んで再構築を行う。 最後に, 解空間を効果的に制約しながら, エネルギーレベルの異なるCT画像の物理的特性を保存するために, 正則化器を採用する。 我々のPolynerは教師なしのメソッドであり、外部のトレーニングデータを必要としない。 複数のデータセットを実験した結果、ポリナーはドメイン内データセットの教師付きメソッドと同等あるいは優れたパフォーマンスを達成でき、ドメイン外データセットでは大幅なパフォーマンス改善が得られました。 我々の知る限りでは、Polynerは教師なしのMAR法で、教師なしの手法よりも優れています。 この作業のコードは、https://github.com/iwuqing/Polyner.comで公開されている。

Emerging neural reconstruction techniques based on tomography (e.g., NeRF, NeAT, and NeRP) have started showing unique capabilities in medical imaging. In this work, we present a novel Polychromatic neural representation (Polyner) to tackle the challenging problem of CT imaging when metallic implants exist within the human body. CT metal artifacts arise from the drastic variation of metal's attenuation coefficients at various energy levels of the X-ray spectrum, leading to a nonlinear metal effect in CT measurements. Recovering CT images from metal-affected measurements hence poses a complicated nonlinear inverse problem where empirical models adopted in previous metal artifact reduction (MAR) approaches lead to signal loss and strongly aliased reconstructions. Polyner instead models the MAR problem from a nonlinear inverse problem perspective. Specifically, we first derive a polychromatic forward model to accurately simulate the nonlinear CT acquisition process. Then, we incorporate our forward model into the implicit neural representation to accomplish reconstruction. Lastly, we adopt a regularizer to preserve the physical properties of the CT images across different energy levels while effectively constraining the solution space. Our Polyner is an unsupervised method and does not require any external training data. Experimenting with multiple datasets shows that our Polyner achieves comparable or better performance than supervised methods on in-domain datasets while demonstrating significant performance improvements on out-of-domain datasets. To the best of our knowledge, our Polyner is the first unsupervised MAR method that outperforms its supervised counterparts. The code for this work is available at: https://github.com/iwuqing/Polyner.
翻訳日:2023-10-03 13:52:14 公開日:2023-10-01
# 線形時相論理規則のポイントワイズインタイム説明

Pointwise-in-Time Explanation for Linear Temporal Logic Rules ( http://arxiv.org/abs/2306.13956v2 )

ライセンス: Link先を確認
Noel Brindise and Cedric Langbort(参考訳) 説明可能な計画(XAIP)の新たな分野は、自律エージェントの振る舞いを人間の観察者に説明し説明するための様々なアプローチを生み出している。 エージェントの動作を制約、つまりエージェントがその軌道中に従属する「ルール」で要約することが多い。 本研究では,個々の軌跡の要約から特定の瞬間への焦点を狭め,「時間内視点」の視点を提供する。 我々の新しいフレームワークは、線形時間論理(LTL)ルールに基づいて定義されており、個々の時間ステップにおける軌道の進行を記述するために、直感的なステータスを任意のルールに割り当てている。 軌跡が与えられると、ユーザーは個々の軌跡時間ステップで特定のltlルールのステータスを問い合わせることができる。 本稿では,この新たなフレームワークであるrsa(laws status assessment)を提案し,その実装例を示す。 我々は,時間内状態評価がポストホック診断として有用であることに気付き,ルールの集合に関してエージェントの動作を体系的に追跡することを可能にする。

The new field of Explainable Planning (XAIP) has produced a variety of approaches to explain and describe the behavior of autonomous agents to human observers. Many summarize agent behavior in terms of the constraints, or ''rules,'' which the agent adheres to during its trajectories. In this work, we narrow the focus from summary to specific moments in individual trajectories, offering a ''pointwise-in-time'' view. Our novel framework, which we define on Linear Temporal Logic (LTL) rules, assigns an intuitive status to any rule in order to describe the trajectory progress at individual time steps; here, a rule is classified as active, satisfied, inactive, or violated. Given a trajectory, a user may query for status of specific LTL rules at individual trajectory time steps. In this paper, we present this novel framework, named Rule Status Assessment (RSA), and provide an example of its implementation. We find that pointwise-in-time status assessment is useful as a post-hoc diagnostic, enabling a user to systematically track the agent's behavior with respect to a set of rules.
翻訳日:2023-10-03 13:51:03 公開日:2023-10-01
# SPRINT: 言語指導によるスケーラブルなポリシ事前トレーニング

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling ( http://arxiv.org/abs/2306.11886v2 )

ライセンス: Link先を確認
Jesse Zhang and Karl Pertsch and Jiahui Zhang and Joseph J. Lim(参考訳) 豊富なスキルを備えた事前学習ロボットポリシーは、下流タスクの学習を効果的に促進することができる。 以前の作業では、自然言語命令による事前学習タスクを定義していたが、そのためには数十万の命令による退屈な人間のアノテーションが必要になる。 そこで本稿では,多様なスキルセットの事前学習に必要な人的労力を大幅に削減する,スケーラブルなオフラインポリシ事前学習アプローチであるSPRINTを提案する。 提案手法では,大規模言語モデルによる命令レバーベリングと,オフライン強化学習によるクロストラックスキルチェーンという,事前学習タスクのベースセットを自動的に拡張する。 その結果、SPRINTは、よりリッチなスキルのレパートリーを持つロボットを事前訓練する。 家庭内シミュレータと実際のロボットキッチン操作タスクにおける実験結果は、スプリントが以前の事前トレーニングアプローチよりも、新たなロングホライゾンタスクの学習をかなり速くすることを示している。 website at https://clvrai.com/sprint.com

Pre-training robot policies with a rich set of skills can substantially accelerate the learning of downstream tasks. Prior works have defined pre-training tasks via natural language instructions, but doing so requires tedious human annotation of hundreds of thousands of instructions. Thus, we propose SPRINT, a scalable offline policy pre-training approach which substantially reduces the human effort needed for pre-training a diverse set of skills. Our method uses two core ideas to automatically expand a base set of pre-training tasks: instruction relabeling via large language models and cross-trajectory skill chaining through offline reinforcement learning. As a result, SPRINT pre-training equips robots with a much richer repertoire of skills. Experimental results in a household simulator and on a real robot kitchen manipulation task show that SPRINT leads to substantially faster learning of new long-horizon tasks than previous pre-training approaches. Website at https://clvrai.com/sprint.
翻訳日:2023-10-03 13:50:38 公開日:2023-10-01
# 道路セグメントの推奨維持のための意思決定枠組み

A Decision Making Framework for Recommended Maintenance of Road Segments ( http://arxiv.org/abs/2307.10085v3 )

ライセンス: Link先を確認
Haoyu Sun, Yan Yan(参考訳) 各国の道路整備事業に割り当てられる予算が限られているため、道路管理部門は科学的整備決定を行うのが困難である。 本稿では,道路管理部門に対して,より科学的な意思決定ツールと証拠を提供することを目的とする。 本論文で提案する枠組みは, 主に以下の4つの革新的ポイントを持つ。 1) 特定指標値を正確に予測するよりも、道路区間の舗装性能劣化度を判定基準として予測すること。 2 複数の要因に基づく整備経路の優先順位の決定 3) 技術面及び管理面の指標を考慮しつつ,過去の保守性能評価に基づく予測戦略を定式化するための深層強化学習モデルの構築による維持計画決定 4) 補修部の優先事項の実態及び提案された補修効果の決定。 これら4つの問題を解決することで、限られた資金と歴史的な保守管理経験を考慮して、最適な保守計画とセクションに関するインテリジェントな決定を行うことができる。

Due to limited budgets allocated for road maintenance projects in various countries, road management departments face difficulties in making scientific maintenance decisions. This paper aims to provide road management departments with more scientific decision tools and evidence. The framework proposed in this paper mainly has the following four innovative points: 1) Predicting pavement performance deterioration levels of road sections as decision basis rather than accurately predicting specific indicator values; 2) Determining maintenance route priorities based on multiple factors; 3) Making maintenance plan decisions by establishing deep reinforcement learning models to formulate predictive strategies based on past maintenance performance evaluations, while considering both technical and management indicators; 4) Determining repair section priorities according to actual and suggested repair effects. By resolving these four issues, the framework can make intelligent decisions regarding optimal maintenance plans and sections, taking into account limited funds and historical maintenance management experiences.
翻訳日:2023-10-03 13:44:28 公開日:2023-10-01
# 注意誘導広告表示による移動性およびステルス性広告パッチの生成

Generating Transferable and Stealthy Adversarial Patch via Attention-guided Adversarial Inpainting ( http://arxiv.org/abs/2308.05320v2 )

ライセンス: Link先を確認
Yanjie Li, Mingxing Duan, Xuelong Dai, Bin Xiao(参考訳) 敵パッチ攻撃は、小さなパッチを通じて顔認識(FR)モデルを騙すことができる。 しかし、以前の敵パッチ攻撃は、しばしば容易に気づく不自然なパターンをもたらす。 良好なカモフラージュを保ちながらブラックボックスFRモデルを効率よく欺くことができる転写性およびステルス性対向パッチの生成は、ソースとターゲット画像の間に大きな構造的違いがあるため、困難である。 移動可能で自然に見える、ステルス的な敵パッチを生成するために、アタッカーとターゲットの顔からそれぞれスタイルの特徴とアイデンティティの特徴を抽出し、アテンションマップで導かれる不明瞭なコンテンツでパッチを埋めるAdv-Inpaintingと呼ばれる革新的な2段階攻撃を提案する。 第1段階では、ピラミッド型ネットワークによるマルチスケール組込みと事前学習されたfrモデルによるアイデンティティ組込みを抽出し、背景パッチのクロスタッチマップを介してそれらをマージするための新しい注意誘導型適応インスタンス正規化層(aain)を提案する。 提案するレイヤは、優先コンテキスト情報を完全に活用することにより、アイデンティティとスタイルの埋め込みを適応的に融合させることができる。 第2段階では, 新たな境界分散損失, 空間割引再構成損失, 知覚的損失を伴って, ステルス性をさらに向上する, 対外パッチリファインメントネットワーク (APR-Net) を設計する。 実験により,視覚品質が向上し,ステルス性が向上し,最先端の対向パッチ攻撃やセマンティクス攻撃よりも転送性が向上した,対向パッチが生成できることが実証された。

Adversarial patch attacks can fool the face recognition (FR) models via small patches. However, previous adversarial patch attacks often result in unnatural patterns that are easily noticeable. Generating transferable and stealthy adversarial patches that can efficiently deceive the black-box FR models while having good camouflage is challenging because of the huge stylistic difference between the source and target images. To generate transferable, natural-looking, and stealthy adversarial patches, we propose an innovative two-stage attack called Adv-Inpainting, which extracts style features and identity features from the attacker and target faces, respectively and then fills the patches with misleading and inconspicuous content guided by attention maps. In the first stage, we extract multi-scale style embeddings by a pyramid-like network and identity embeddings by a pretrained FR model and propose a novel Attention-guided Adaptive Instance Normalization layer (AAIN) to merge them via background-patch cross-attention maps. The proposed layer can adaptively fuse identity and style embeddings by fully exploiting priority contextual information. In the second stage, we design an Adversarial Patch Refinement Network (APR-Net) with a novel boundary variance loss, a spatial discounted reconstruction loss, and a perceptual loss to boost the stealthiness further. Experiments demonstrate that our attack can generate adversarial patches with improved visual quality, better stealthiness, and stronger transferability than state-of-the-art adversarial patch attacks and semantic attacks.
翻訳日:2023-10-03 13:33:27 公開日:2023-10-01
# テキストオンリートランスにおけるマルチモーダルニューロン

Multimodal Neurons in Pretrained Text-Only Transformers ( http://arxiv.org/abs/2308.01544v2 )

ライセンス: Link先を確認
Sarah Schwettmann, Neil Chowdhury, Samuel Klein, David Bau, Antonio Torralba(参考訳) 言語モデルは、1つのモダリティで学んだ表現を他のモダリティで下流のタスクに一般化する能力を示す。 この能力を個々のニューロンに追跡できますか? 自己教師付き視覚エンコーダと、画像からテキストへのタスクで学習した1つの線形投影を用いて、凍結テキストトランスフォーマが視覚で拡張される場合について検討する。 プロジェクション層の出力は、画像内容を記述する言語に即座にデオード可能ではなく、変換器の内部でモダリティ間の変換がより深く発生する。 本稿では,視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定し,モデルの残差ストリームに注入する概念を復号する手法を提案する。 一連の実験において、マルチモーダルニューロンは入力間の特定の視覚的概念で動作し、画像キャプションに系統的な因果効果を持つことを示す。

Language models demonstrate remarkable capacity to generalize representations learned in one modality to downstream tasks in other modalities. Can we trace this ability to individual neurons? We study the case where a frozen text transformer is augmented with vision using a self-supervised visual encoder and a single linear projection learned on an image-to-text task. Outputs of the projection layer are not immediately decodable into language describing image content; instead, we find that translation between modalities occurs deeper within the transformer. We introduce a procedure for identifying "multimodal neurons" that convert visual representations into corresponding text, and decoding the concepts they inject into the model's residual stream. In a series of experiments, we show that multimodal neurons operate on specific visual concepts across inputs, and have a systematic causal effect on image captioning.
翻訳日:2023-10-03 13:32:02 公開日:2023-10-01
# リレーショナル指向: 因果的知識指向AIを目指して

Relation-Oriented: Toward Causal Knowledge-Aligned AI ( http://arxiv.org/abs/2307.16387v7 )

ライセンス: Link先を確認
Jia Li, Xiang Li(参考訳) 本研究は、一意な次元の観点から関係モデリングを理解することによって、広く普及している観察指向学習パラダイムの固有の限界を検討する。 このパラダイムは、関係を定義する前にモデリングオブジェクトの識別を必要とし、モデルを観測空間に閉じ込め、動的時間的特徴へのアクセスを制限する。 特異な絶対時間軸に頼ることで、時間的特徴空間の多次元的な性質を無視し、構造因果モデルの堅牢性と一般化性を妥協し、AIのミスアライメント問題に大きく貢献する。 本研究は,人間認知の関連中心の本質から,新しい関係指向パラダイムを提案する。 広範に有効な実験によって支援されたこのパラダイムとその方法論である関係定義表現学習は、確立された知識に基づく解釈可能なAIの構築を目指している。

This study examines the inherent limitations of the prevailing Observation-Oriented learning paradigm by understanding relationship modeling from a unique dimensionality perspective. This paradigm necessitates the identification of modeling objects prior to defining relations, confining models to observational space, and limiting their access to dynamical temporal features. By relying on a singular, absolute timeline, it often neglects the multi-dimensional nature of the temporal feature space, compromising the robustness and generalizability of structural causal models and contributing significantly to the AI misalignment issue. Drawing from the relation-centric essence of human cognition, this study presents a new Relation-Oriented paradigm. Supported by extensive efficacy experiments, this paradigm, and its methodological counterpart, relation-defined representation learning, aim to construct interpretable AI grounded in established knowledge.
翻訳日:2023-10-03 13:31:44 公開日:2023-10-01
# 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis ( http://arxiv.org/abs/2307.12856v2 )

ライセンス: Link先を確認
Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust(参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自律Web自動化におけるより優れた一般化とサンプル効率を実現している。 しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。 webagentは、自然言語命令に従う実際のwebサイト上で、自己経験からタスクを完了するために学習するllm駆動エージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。 We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。 我々は、我々のモジュラーレシピが実際のWebサイトの成功率を50%以上改善し、HTML-T5が様々なHTML理解タスクを解く最良のモデルであること、MiniWoBのWebオートメーションベンチマークにおける従来の手法よりも18.7%高い成功率、オフラインタスク計画評価であるMind2WebでのSoTAパフォーマンスを実証的に示す。

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.
翻訳日:2023-10-03 13:31:31 公開日:2023-10-01
# LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡

Time Travel in LLMs: Tracing Data Contamination in Large Language Models ( http://arxiv.org/abs/2308.08493v2 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの実効性を測定する上で潜在的に大きな問題である。 LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。 我々のアプローチは、インスタンスレベルでの潜在的汚染を特定することから始まり、この情報を用いて分割レベルで広範囲の汚染を評価する。 個々のインスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長の初期セグメントからなるプロンプト "guided instruction:" を用いて、llmに完了を依頼する。 LLMの出力が参照の後半部分と正確にあるいはほぼ一致する場合、インスタンスは汚染されるとフラグ付けされる。 パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。 最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGE-LまたはBLEURTで測定される)が、データセットとパーティション名を含まない"ジェネラルインストラクション"に比べて、ガイドされた命令の完了によって統計的に有意に優れている場合、データセットパーティションが汚染されたことを示す。 第2のアイデアは、データセット分割が汚染されているとマークする。 gpt-4に基づく分類器が、コンテキスト内学習プロンプトで、複数の生成された完了を、対応する参照インスタンスの正確/近距離マッチングとしてマークする。 提案手法は,人間の専門家による手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。 さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in measuring LLMs' real effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination at the instance level; using this information, our approach then assesses wider contamination at the partition level. To estimate contamination of individual instances, we employ "guided instruction:" a prompt consisting of the dataset name, partition type, and the random-length initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM's output either exactly or nearly matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE-L or BLEURT) is statistically significantly better with the completions from guided instruction compared to a "general instruction" that does not include the dataset and partition name. The second idea marks a dataset partition as contaminated if a classifier based on GPT-4 with few-shot in-context learning prompt marks multiple generated completions as exact/near-exact matches of the corresponding reference instances. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human experts. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.
翻訳日:2023-10-03 13:21:25 公開日:2023-10-01
# ada-qpacknet -- ビット幅削減による適応プルーニング--忘れずに効率的な連続学習法

Ada-QPacknet -- adaptive pruning with bit width reduction as an efficient continual learning method without forgetting ( http://arxiv.org/abs/2308.07939v2 )

ライセンス: Link先を確認
Marcin Pietro\'n, Dominik \.Zurek, Kamil Faber, Roberto Corizzo(参考訳) 連続学習(continual learning、cl)は、人間とディープラーニングモデルの効率の間には依然として大きなギャップがあるプロセスである。 近年、多くのCLアルゴリズムが設計された。 その多くは、動的で複雑な環境での学習に多くの問題を抱えています。 本稿では,新しいアーキテクチャベースアプローチであるada-qpacknetについて述べる。 タスクごとにサブネットワークを抽出するプルーニングが組み込まれている。 アーキテクチャベースのCLメソッドにおける重要な側面は、そのキャパシティである。 提案手法では, 効率的な線形および非線形量子化法により, モデルのサイズを小さくする。 この方法はウェイトフォーマットのビット幅を削減する。 その結果、低ビット量子化は、よく知られたCLシナリオにおける浮動小数点サブネットワークと同様の精度で実現できることを示した。 我々の知る限り、タスクサブネットワークを生成するための圧縮技術と量子化の両方を取り入れた最初のCL戦略である。 提案アルゴリズムは、よく知られたエピソードの組み合わせを用いてテストし、最も一般的なアルゴリズムと比較した。 その結果,提案手法はタスクおよびクラスインクリメンタルシナリオにおいてCL戦略の大部分を上回っていることがわかった。

Continual Learning (CL) is a process in which there is still huge gap between human and deep learning model efficiency. Recently, many CL algorithms were designed. Most of them have many problems with learning in dynamic and complex environments. In this work new architecture based approach Ada-QPacknet is described. It incorporates the pruning for extracting the sub-network for each task. The crucial aspect in architecture based CL methods is theirs capacity. In presented method the size of the model is reduced by efficient linear and nonlinear quantisation approach. The method reduces the bit-width of the weights format. The presented results shows that low bit quantisation achieves similar accuracy as floating-point sub-network on a well-know CL scenarios. To our knowledge it is the first CL strategy which incorporates both compression techniques pruning and quantisation for generating task sub-networks. The presented algorithm was tested on well-known episode combinations and compared with most popular algorithms. Results show that proposed approach outperforms most of the CL strategies in task and class incremental scenarios.
翻訳日:2023-10-03 13:20:57 公開日:2023-10-01
# MAmmoth:ハイブリッドインストラクションチューニングによる数学一般モデルの構築

MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning ( http://arxiv.org/abs/2309.05653v2 )

ライセンス: Link先を確認
Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) 我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。 mathinstructは13の数学データセットから中間的な合理性を持つようにコンパイルされます。 cot (chain-of-thought) とpot (program-of-thought) のハイブリッドであり、数学における様々な分野をカバーする。 CoTとPoTのハイブリッドは、ツール使用の可能性を広げるだけでなく、異なる数学問題に対して異なる思考プロセスを可能にする。 その結果、MAmmoTHシリーズは、すべてのスケールにわたる9つの数学的推論データセットで既存のオープンソースモデルを大幅に上回り、平均精度は16%から32%向上した。 注目すべきは、我々のMAmmoTH-7Bモデルは、最高のオープンソース7Bモデル(WizardMath)を23%上回るMATH(競合レベルのデータセット)で33%に達し、MAmmoTH-34Bモデルは、GPT-4のCoT結果よりも44%の精度でMATH上で44%の精度を達成したことだ。 本研究は,多種多様な問題カバレッジの重要性と,優れた数学ジェネラリストモデルの開発におけるハイブリッド理性の利用を明らかにする。

We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 16% and 32%. Remarkably, our MAmmoTH-7B model reaches 33% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 23%, and the MAmmoTH-34B model achieves 44% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
翻訳日:2023-10-03 13:11:12 公開日:2023-10-01
# crisistransformers: 危機関連ソーシャルメディアテキストのための事前学習された言語モデルと文エンコーダ

CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts ( http://arxiv.org/abs/2309.05494v2 )

ライセンス: Link先を確認
Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera(参考訳) ソーシャルメディアプラットフォームは危機コミュニケーションにおいて不可欠な役割を担っているが、危機関連ソーシャルメディアのテキストを分析することは、その非公式な性質から困難である。 BERTやRoBERTaのようなトランスフォーマーベースの事前学習モデルは、様々なNLPタスクで成功したが、危機関連のテキストには適していない。 さらに、危機関連テキストのテキスト複雑度にかかわらず、汎用文エンコーダを用いて文埋め込みを生成する。 テキスト分類、セマンティック検索、クラスタリングなどの応用の進歩は、危機関連のテキストの効果的な処理に寄与する。 この研究は、危機情報文学におけるこれらのギャップを解決するために、CrisisTransformersを紹介します。CrisisTransformersは、事前訓練された言語モデルと文エンコーダのアンサンブルで、病気の発生、自然災害、紛争などを含む30以上の危機イベントに関連するツイートから、150億以上のワードトークンの広範なコーパスで訓練された。 我々は18の危機固有の公開データセット上で既存のモデルと危機トランスフォーマーを評価する。 我々の事前訓練されたモデルは、分類タスクにおける全てのデータセットで強いベースラインを上回り、最高のパフォーマンスの文エンコーダは、文章エンコーディングタスクの17.43%の最先端を改善する。 さらに,モデル初期化が収束に与える影響について検討し,意味的に意味のある文埋め込みの生成におけるドメイン固有モデルの重要性を評価する。 すべてのモデルは公開され(https://huggingface.co/crisistransformers)、危機に関連したソーシャルメディアテキストの分析に関わるタスクのロバストなベースラインとして機能すると予想されている。

Social media platforms play an essential role in crisis communication, but analyzing crisis-related social media texts is challenging due to their informal nature. Transformer-based pre-trained models like BERT and RoBERTa have shown success in various NLP tasks, but they are not tailored for crisis-related texts. Furthermore, general-purpose sentence encoders are used to generate sentence embeddings, regardless of the textual complexities in crisis-related texts. Advances in applications like text classification, semantic search, and clustering contribute to effective processing of crisis-related texts, which is essential for emergency responders to gain a comprehensive view of a crisis event, whether historical or real-time. To address these gaps in crisis informatics literature, this study introduces CrisisTransformers, an ensemble of pre-trained language models and sentence encoders trained on an extensive corpus of over 15 billion word tokens from tweets associated with more than 30 crisis events, including disease outbreaks, natural disasters, conflicts, and other critical incidents. We evaluate existing models and CrisisTransformers on 18 crisis-specific public datasets. Our pre-trained models outperform strong baselines across all datasets in classification tasks, and our best-performing sentence encoder improves the state-of-the-art by 17.43% in sentence encoding tasks. Additionally, we investigate the impact of model initialization on convergence and evaluate the significance of domain-specific models in generating semantically meaningful sentence embeddings. All models are publicly released (https://huggingface.co/crisistransformers), with the anticipation that they will serve as a robust baseline for tasks involving the analysis of crisis-related social media texts.
翻訳日:2023-10-03 13:10:48 公開日:2023-10-01
# resfields: 時空間信号のための残留神経場

ResFields: Residual Neural Fields for Spatiotemporal Signals ( http://arxiv.org/abs/2309.03160v2 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang(参考訳) 高周波信号を表すために訓練されたニューラルネットワークのカテゴリであるニューラルフィールドは、複雑な3dデータ、特に大きなニューラルサインド距離(sdfs)または単一多層パーセプトロン(mlp)による放射場(nerfs)のモデリングにおいて印象的な性能を持つため、近年大きな注目を集めている。 しかし、MLPによる信号表現のパワーと単純さにもかかわらず、これらの手法は、MLPの容量が限られているため、大規模で複雑な時間信号のモデリングにおいて、依然として課題に直面している。 本稿では,時間的残差層をニューラルネットワークに組み込むことにより,この制限に対処するための効果的な手法を提案する。 本稿では,ResFieldの特性を包括的に解析し,学習可能なパラメータの数を減らし,一般化能力を向上する行列分解法を提案する。 重要な点は,既存の手法とシームレスに統合し,2次元映像近似,時間的sdfによる動的形状モデリング,動的nyrf再構成など,様々な課題にまたがる結果を一貫して改善することである。 最後に,軽量キャプチャシステムのスパース感覚入力から動的3dシーンをキャプチャすることの有効性を示すことで,resfieldsの実用性を示す。

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, especially large neural signed distance (SDFs) or radiance fields (NeRFs) via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields, a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing techniques and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory inputs of a lightweight capture system.
翻訳日:2023-10-03 13:10:14 公開日:2023-10-01
# マルチモーダルヌーディングのための事前学習された大規模言語モデルによるゼロショットレコメンデーション

Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging ( http://arxiv.org/abs/2309.01026v2 )

ライセンス: Link先を確認
Rachel M. Harrison, Anton Dereventsov, Anton Bibin(参考訳) 生成AI分野における最近の進歩を生かしたマルチモーダル非定常コンテンツのゼロショットレコメンデーション手法を提案する。 テキスト記述として異なるモードの描画入力を提案するとともに,事前学習したLCMを用いて意味埋め込みを計算して数値表現を得る。 すべてのコンテンツ項目の統一表現が得られたら、追加の学習なしにそれらの間の適切な類似度メトリックを計算して推奨を行うことができる。 本稿では,入力が表型,テキスト型,視覚データで構成される合成マルチモーダルヌージング環境において,このアプローチを実証する。

We present a method for zero-shot recommendation of multimodal non-stationary content that leverages recent advancements in the field of generative AI. We propose rendering inputs of different modalities as textual descriptions and to utilize pre-trained LLMs to obtain their numerical representations by computing semantic embeddings. Once unified representations of all content items are obtained, the recommendation can be performed by computing an appropriate similarity metric between them without any additional learning. We demonstrate our approach on a synthetic multimodal nudging environment, where the inputs consist of tabular, textual, and visual data.
翻訳日:2023-10-03 13:09:06 公開日:2023-10-01
# アダムの暗黙のバイアスについて

On the Implicit Bias of Adam ( http://arxiv.org/abs/2309.00079v2 )

ライセンス: Link先を確認
Matias D. Cattaneo and Jason M. Klusowski and Boris Shigida(参考訳) 前回の文献では、勾配降下軌道を近似する常微分方程式(odes)を見つけるために後方誤差解析が用いられた。 ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズは解を暗黙的に正則化することがわかった。 rmsprop と adam における同様の暗黙的正規化の存在は、それらのハイパーパラメータと訓練段階に依存するが、異なる「ノルム」が関係している: 対応する ode 項は損失勾配の(摂動的な)1ノルムをペナルティ化するか、逆にその減少を阻害する(後者の場合が典型的である)。 また,数値実験を行い,証明された事実が一般化にどのように影響を与えるかについて議論する。

In previous literature, backward error analysis was used to find ordinary differential equations (ODEs) approximating the gradient descent trajectory. It was found that finite step sizes implicitly regularize solutions because terms appearing in the ODEs penalize the two-norm of the loss gradients. We prove that the existence of similar implicit regularization in RMSProp and Adam depends on their hyperparameters and the training stage, but with a different "norm" involved: the corresponding ODE terms either penalize the (perturbed) one-norm of the loss gradients or, on the contrary, hinder its decrease (the latter case being typical). We also conduct numerical experiments and discuss how the proven facts can influence generalization.
翻訳日:2023-10-03 13:08:54 公開日:2023-10-01
# OpenBA: Scratchから事前訓練された15Bバイリンガル非対称seq2seqモデル

OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch ( http://arxiv.org/abs/2309.10706v2 )

ライセンス: Link先を確認
Juntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min Zhang(参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。 本報告は,中国指向のオープンソースモデルコミュニティにllmの変種を提供するために,オープンソース15bのバイリンガル非対称seq2seqモデルであるopenbaを提案する。 OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。 また, BELEBELEベンチマークではLLaMA-70B, MMLUベンチマークではBLOOM-176B, C-Eval(hard)ベンチマークではGLM-130Bよりも優れた380Bトークンで非常に競合的な性能が得られる。 このレポートは、データ処理の事前トレーニング、バイリンガルflanデータ収集、モデルアーキテクチャ設計を刺激する経験的観察、異なるステージのトレーニング目標、その他の強化技術を含む、類似モデルの事前トレーニングに関する主な詳細を提供する。 さらに、下流4つのタスクでOpenBAの微調整の詳細も提供します。 私たちは、Huggingface Transformers Libraryの設計原則に従うようにコードをリファクタリングし、開発者がより便利に使えるようにし、https://huggingface.co/openBA.comで異なるトレーニングステージのチェックポイントをリリースしました。 プロジェクトの詳細はhttps://github.com/OpenNLG/openBA.git.comで確認できる。

Large language models (LLMs) with billions of parameters have demonstrated outstanding performance on various natural language processing tasks. This report presents OpenBA, an open-sourced 15B bilingual asymmetric seq2seq model, to contribute an LLM variant to the Chinese-oriented open-source model community. We enhance OpenBA with effective and efficient techniques as well as adopt a three-stage training strategy to train the model from scratch. Our solution can also achieve very competitive performance with only 380B tokens, which is better than LLaMA-70B on the BELEBELE benchmark, BLOOM-176B on the MMLU benchmark, GLM-130B on the C-Eval (hard) benchmark. This report provides the main details to pre-train an analogous model, including pre-training data processing, Bilingual Flan data collection, the empirical observations that inspire our model architecture design, training objectives of different stages, and other enhancement techniques. Additionally, we also provide the fine-tuning details of OpenBA on four downstream tasks. We have refactored our code to follow the design principles of the Huggingface Transformers Library, making it more convenient for developers to use, and released checkpoints of different training stages at https://huggingface.co/openBA. More details of our project are available at https://github.com/OpenNLG/openBA.git.
翻訳日:2023-10-03 13:01:51 公開日:2023-10-01
# ClusterFormer: ユニバーサルなビジュアル学習者としてのクラスタリング

ClusterFormer: Clustering As A Universal Visual Learner ( http://arxiv.org/abs/2309.13196v2 )

ライセンス: Link先を確認
James C. Liang, Yiming Cui, Qifan Wang, Tong Geng, Wenguan Wang, Dongfang Liu(参考訳) 本稿では,Transformerを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルであるCLUSTERFORMERを提案する。 斬新なデザインが2つある。 一 変圧器におけるクロスアテンション機構を再構成し、クラスタセンタの再帰的な更新を可能にして強固な表現学習を促進する再帰的クロスアテンションクラスタリング 2. 機能ディスパッチ(feature dispatching)は、アップデートされたクラスタセンタを使用して、類似度ベースのメトリクスを通じてイメージ機能を再配布する。 このエレガントなデザインは説明可能で転送可能なワークフローを合理化し、クラスタリングの粒度(イメージ、ボックス、ピクセルレベル)の異なるレベルで異種視覚タスク(画像分類、オブジェクト検出、画像分割)に取り組むことができる。 実証的な結果は、CLUSTERFORMERが様々な有名な特殊アーキテクチャを上回り、83.41%のトップ1を達成していることを示している。 ImageNet-1K 画像分類では 54.2% と 47.0% mAP が MSCOCO で ADE20K で 52.4% mIoU で ADE20K で 55.8% PQ で その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。

This paper presents CLUSTERFORMER, a universal vision model that is based on the CLUSTERing paradigm with TransFORMER. It comprises two novel designs: 1. recurrent cross-attention clustering, which reformulates the cross-attention mechanism in Transformer and enables recursive updates of cluster centers to facilitate strong representation learning; and 2. feature dispatching, which uses the updated cluster centers to redistribute image features through similarity-based metrics, resulting in a transparent pipeline. This elegant design streamlines an explainable and transferable workflow, capable of tackling heterogeneous vision tasks (i.e., image classification, object detection, and image segmentation) with varying levels of clustering granularity (i.e., image-, box-, and pixel-level). Empirical results demonstrate that CLUSTERFORMER outperforms various well-known specialized architectures, achieving 83.41% top-1 acc. over ImageNet-1K for image classification, 54.2% and 47.0% mAP over MS COCO for object detection and instance segmentation, 52.4% mIoU over ADE20K for semantic segmentation, and 55.8% PQ over COCO Panoptic for panoptic segmentation. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.
翻訳日:2023-10-03 12:49:46 公開日:2023-10-01
# 確率比に基づくタスク予測による授業インクリメンタル学習

Class Incremental Learning via Likelihood Ratio Based Task Prediction ( http://arxiv.org/abs/2309.15048v2 )

ライセンス: Link先を確認
Haowei Lin, Yijia Shao, Weinan Qian, Ningxin Pan, Yiduo Guo, Bing Liu(参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class incremental Learning、CIL)は、一連のタスクを逐次学習する継続的ラーニングの課題である。 各タスクは、一組のユニークなクラスで構成される。 CILの重要な特徴は、各テストサンプルのテスト時にタスク識別子(またはタスクID)が提供されないことである。 各テストサンプルに対するタスクidの予測は、難しい問題である。 理論的に正当化され効果的なアプローチとして、タスクインクリメンタルラーニング(TIL)法に基づいて、タスク毎のタスク固有のモデルを共有ネットワークでトレーニングすることが挙げられる。 このアプローチにおける各タスクのモデルは、従来の分類器ではなく、アウト・オブ・ディストリビューション(OOD)検出器である。 OOD検出器は、in-task(in-distribution(IND))クラス予測とOOD検出の両方を実行することができる。 OOD検出機能は、各テストサンプルの推論中にタスクID予測のキーとなる。 しかし,従来のタスクid予測のためのood検出器を用いることは,cilで利用可能な追加情報(リプレイデータや学習タスクなど)を利用してタスクid予測をより良く原理的に設計できるため,最適ではないと主張する。 提案手法はtplr (task-id prediction based on likelihood ratio}) と呼ばれる。 TPLRは強力なCILベースラインを著しく上回る。

Class incremental learning (CIL) is a challenging setting of continual learning, which learns a series of tasks sequentially. Each task consists of a set of unique classes. The key feature of CIL is that no task identifier (or task-id) is provided at test time for each test sample. Predicting the task-id for each test sample is a challenging problem. An emerging theoretically justified and effective approach is to train a task-specific model for each task in a shared network for all tasks based on a task-incremental learning (TIL) method to deal with forgetting. The model for each task in this approach is an out-of-distribution (OOD) detector rather than a conventional classifier. The OOD detector can perform both within-task (in-distribution (IND)) class prediction and OOD detection. The OOD detection capability is the key for task-id prediction during inference for each test sample. However, this paper argues that using a traditional OOD detector for task-id prediction is sub-optimal because additional information (e.g., the replay data and the learned tasks) available in CIL can be exploited to design a better and principled method for task-id prediction. We call the new method TPLR (Task-id Prediction based on Likelihood Ratio}). TPLR markedly outperforms strong CIL baselines.
翻訳日:2023-10-03 12:40:42 公開日:2023-10-01
# コンテキスト内学習に人間生成のデモンストレーションは必要か?

Are Human-generated Demonstrations Necessary for In-context Learning? ( http://arxiv.org/abs/2309.14681v2 )

ライセンス: Link先を確認
Rui Li, Guoyin Wang, Jiwei Li(参考訳) 大規模言語モデル(llm)の有望な少数ショット能力にもかかわらず、インコンテキスト学習(icl)の標準パラダイムは、選択されたデモンストレーションに対する感受性の欠点と、これらのデモを生成するための複雑さに苦しんでいる。 本稿では,iclに人為的なデモンストレーションが必要かどうかという根本的な疑問を提起する。 そこで本研究では,人間による実演を含まない自意識促進戦略 (sec) を提案する。 SECのキーポイントは、手作りの例をICLのデモとして使用する代わりに、SECは、最終出力がどの部分で生成されるかに基づいて、まず自身のデモを作成するようにLLMに求めていることだ。 secは柔軟なフレームワークであり、vailla iclとchain-of-thought(cot)の両方に対応できるが、より簡単である。 算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける広範な実験は、手作りのデモンストレーションを必要としないSECがゼロショット学習戦略を著しく上回り、手作りのデモでICLに匹敵する結果を達成していることを示している。 これは、多くのタスクにおいて、現代のLLMは意思決定の能力にのみ依存し、外部のトレーニングデータの必要性を取り除くのに十分なレベルの能力を持っていることを示している。 コードはhttps://github.com/ruili33/secで入手できる。

Despite the promising few-shot ability of large language models (LLMs), the standard paradigm of In-context Learning (ICL) suffers the disadvantages of susceptibility to selected demonstrations and the intricacy to generate these demonstrations. In this paper, we raise the fundamental question that whether human-generated demonstrations are necessary for ICL. To answer this question, we propose self-contemplation prompting strategy (SEC), a paradigm free from human-crafted demonstrations. The key point of SEC is that, instead of using hand-crafted examples as demonstrations in ICL, SEC asks LLMs to first create demonstrations on their own, based on which the final output is generated. SEC is a flexible framework and can be adapted to both the vanilla ICL and the chain-of-thought (CoT), but with greater ease: as the manual-generation process of both examples and rationale can be saved. Extensive experiments in arithmetic reasoning, commonsense reasoning, multi-task language understanding, and code generation benchmarks, show that SEC, which does not require hand-crafted demonstrations, significantly outperforms the zero-shot learning strategy, and achieves comparable results to ICL with hand-crafted demonstrations. This demonstrates that, for many tasks, contemporary LLMs possess a sufficient level of competence to exclusively depend on their own capacity for decision making, removing the need for external training data. Code is available at https://github.com/ruili33/SEC.
翻訳日:2023-10-03 12:40:20 公開日:2023-10-01
# 層次非線形性をもつ状態空間モデルは指数減少メモリを持つ普遍近似器である

State-space Models with Layer-wise Nonlinearity are Universal Approximators with Exponential Decaying Memory ( http://arxiv.org/abs/2309.13414v2 )

ライセンス: Link先を確認
Shida Wang, Beichen Xue(参考訳) 状態空間モデルは、単純で効率的なネットワーク構造のためにシーケンスモデリングで人気を博している。 しかし、時間方向に沿った非線形活性化が存在しないため、モデルの能力は制限される。 本稿では, 階層的非線形アクティベーションを伴う状態空間モデルの積み重ねが, 連続シーケンスとシーケンスの関係を近似するのに十分であることを示す。 本研究は,層状非線形活性化を付加することで,複雑なシーケンスパターンを学習するモデルの能力を高めることを示す。 一方、理論的にも経験的にも、状態空間モデルが指数的減衰するメモリ問題を根本的に解決していないことが分かる。 理論的結果は数値検証によって正当化される。

State-space models have gained popularity in sequence modelling due to their simple and efficient network structures. However, the absence of nonlinear activation along the temporal direction limits the model's capacity. In this paper, we prove that stacking state-space models with layer-wise nonlinear activation is sufficient to approximate any continuous sequence-to-sequence relationship. Our findings demonstrate that the addition of layer-wise nonlinear activation enhances the model's capacity to learn complex sequence patterns. Meanwhile, it can be seen both theoretically and empirically that the state-space models do not fundamentally resolve the exponential decaying memory issue. Theoretical results are justified by numerical verifications.
翻訳日:2023-10-03 12:38:20 公開日:2023-10-01
# マルチエージェントシステムにおける協調ダイナミクス:平均場平衡によるゲーム理論シナリオの探索

Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria ( http://arxiv.org/abs/2309.16263v2 )

ライセンス: Link先を確認
Vaigarai Sathi, Sabahat Shaik, Jaswanth Nidamanuri(参考訳) 協調はマルチエージェントシステム(MAS)とマルチエージェント強化学習(MARL)において基本的であり、エージェントは個々の利得と集団報酬のバランスを取る必要がある。 本稿では,ゲーム理論的なシナリオ,すなわち囚人のジレンマにおいて,エージェントが個人的および集団的結果の両方を最適化する戦略を検討することを目的としている。 既存の協調戦略は、繰り返しゲームにおけるグループ指向行動の促進に有効である。 グループ報酬を奨励する修正は、分散システムで見られる現実のジレンマに対処し、より高い個人の利益をもたらす。 この研究は、従来の計算と平衡決定が難しい、指数関数的に増加するエージェント集団(n \longrightarrow +\infty$)のシナリオにまで及んでいる。 平均場ゲーム理論を利用して、繰り返しゲーム中の無限大エージェント集合に対して平衡解と報酬構造が確立される。 最後に,Multi Agent-Posthumous Credit Assignment Trainerを用いてシミュレーションを行い,シミュレーションアルゴリズムを適用し,グループ報酬に協力するシナリオを作成する。 これらの実践的な実装は、理論概念を現実世界の応用で橋渡しする。

Cooperation is fundamental in Multi-Agent Systems (MAS) and Multi-Agent Reinforcement Learning (MARL), often requiring agents to balance individual gains with collective rewards. In this regard, this paper aims to investigate strategies to invoke cooperation in game-theoretic scenarios, namely the Iterated Prisoner's Dilemma, where agents must optimize both individual and group outcomes. Existing cooperative strategies are analyzed for their effectiveness in promoting group-oriented behavior in repeated games. Modifications are proposed where encouraging group rewards will also result in a higher individual gain, addressing real-world dilemmas seen in distributed systems. The study extends to scenarios with exponentially growing agent populations ($N \longrightarrow +\infty$), where traditional computation and equilibrium determination are challenging. Leveraging mean-field game theory, equilibrium solutions and reward structures are established for infinitely large agent sets in repeated games. Finally, practical insights are offered through simulations using the Multi Agent-Posthumous Credit Assignment trainer, and the paper explores adapting simulation algorithms to create scenarios favoring cooperation for group rewards. These practical implementations bridge theoretical concepts with real-world applications.
翻訳日:2023-10-03 10:56:54 公開日:2023-10-01