このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231115となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# サイドチャネル攻撃対策のための乱数置換の統計的検証法
A Statistical Verification Method of Random Permutations for Hiding Countermeasure Against Side-Channel Attacks ( http://arxiv.org/abs/2311.08625v1 ) ライセンス: Link先を確認 | Jong-Yeon Park, Jang-Won Ju, Wonil Lee, Bo-Gyeong Kang, Yasuyuki Kachi, Kouichi Sakurai, | (参考訳) NISTは、PQC(Post Quantum Cryptography)公開鍵アルゴリズムの標準化に最終触れているため、これらの新しいPQCアルゴリズムによって検出されないペスキア暗号攻撃が表面化されることは確実である。
このような傾向は、攻撃や対策のフォローアップ研究を促すだろう。
現状では、攻撃者の視点からすると、実行可能な1つの攻撃形態はいわゆる「サイドチャネル攻撃」である。
サイドチャネル攻撃に対して耐えられると宣言された2つの最もよく知られている対策は、"masking"と"hiding"である。
このディコトコスの絵では、特に、NISTのPQC候補の幾らかに対するシングルトレース攻撃が成功しており、これは前者の有害な「マスキング(masking)」に役立った。
本稿では,後者に「隠れる」という視点をあてる。
ハイディングは、双方のサイドチャネル攻撃と「フォールト・インジェクション・アタック」と呼ばれる、同様に堅牢な攻撃に対して耐久性があることを証明している。
数学的には、隠蔽法は基本的にランダムな置換に基づいている。
ランダムな置換を生成するための多くの研究がある。
しかし、これらは隠れメソッドの実装と結びついていない。
本稿では、フィッシャー・イェーツのシャッフル法を用いて、置換実装の信頼性と効率的な検証を提案する。
我々は,n階数置換の概念を導入し,その実装が従来の手法よりも効率的であることを検証するためにどのように使用できるかを説明する。
As NIST is putting the final touches on the standardization of PQC (Post Quantum Cryptography) public key algorithms, it is a racing certainty that peskier cryptographic attacks undeterred by those new PQC algorithms will surface. Such a trend in turn will prompt more follow-up studies of attacks and countermeasures. As things stand, from the attackers' perspective, one viable form of attack that can be implemented thereupon is the so-called "side-channel attack". Two best-known countermeasures heralded to be durable against side-channel attacks are: "masking" and "hiding". In that dichotomous picture, of particular note are successful single-trace attacks on some of the NIST's PQC then-candidates, which worked to the detriment of the former: "masking". In this paper, we cast an eye over the latter: "hiding". Hiding proves to be durable against both side-channel attacks and another equally robust type of attacks called "fault injection attacks", and hence is deemed an auspicious countermeasure to be implemented. Mathematically, the hiding method is fundamentally based on random permutations. There has been a cornucopia of studies on generating random permutations. However, those are not tied to implementation of the hiding method. In this paper, we propose a reliable and efficient verification of permutation implementation, through employing Fisher-Yates' shuffling method. We introduce the concept of an n-th order permutation and explain how it can be used to verify that our implementation is more efficient than its previous-gen counterparts for hiding countermeasures. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-15 |
# 言い換えに対する大規模言語モデルのためのロバストなセマンティックスに基づく透かし
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing ( http://arxiv.org/abs/2311.08721v1 ) ライセンス: Link先を確認 | Jie Ren, Han Xu, Yiding Liu, Yingqian Cui, Shuaiqiang Wang, Dawei Yin, Jiliang Tang, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
しかし、LSMは不適切な、あるいは違法に使用することができるという懸念もある。
LLMの悪意ある使用を防ぐために、LLMアプリケーションのデプロイにおいてLLM生成テキストの検出が重要となる。
透かしは、予め定義された秘密透かしを符号化してLLM生成内容を検出し、検出プロセスを容易にする効果的な方法である。
しかし、既存の透かし法の大半は、前例のトークンの単純なハッシュを利用して語彙を分割する。
このような透かしはパラフレーズで簡単に除去でき、それに応じて検出の有効性が大幅に損なわれる。
そこで本研究では,セマンティックスに基づく透かしフレームワークSemaMarkを提案する。
これは意味論を単純なトークンのハッシュの代替として利用している。
異なるパラフレーズの下でSemaMarkの有効性とロバスト性を示すための総合的な実験を行った。
Large language models (LLMs) have show great ability in various natural language tasks. However, there are concerns that LLMs are possible to be used improperly or even illegally. To prevent the malicious usage of LLMs, detecting LLM-generated text becomes crucial in the deployment of LLM applications. Watermarking is an effective strategy to detect the LLM-generated content by encoding a pre-defined secret watermark to facilitate the detection process. However, the majority of existing watermark methods leverage the simple hashes of precedent tokens to partition vocabulary. Such watermark can be easily eliminated by paraphrase and correspondingly the detection effectiveness will be greatly compromised. Thus, to enhance the robustness against paraphrase, we propose a semantics-based watermark framework SemaMark. It leverages the semantics as an alternative to simple hashes of tokens since the paraphrase will likely preserve the semantic meaning of the sentences. Comprehensive experiments are conducted to demonstrate the effectiveness and robustness of SemaMark under different paraphrases. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-15 |
# サイバー脅威インテリジェンスのためのNLP技術
NLP-Based Techniques for Cyber Threat Intelligence ( http://arxiv.org/abs/2311.08807v1 ) ライセンス: Link先を確認 | Marco Arazzi, Dincy R. Arikkat, Serena Nicolazzo, Antonino Nocera, Rafidha Rehiman K. A., Vinod P., Mauro Conti, | (参考訳) デジタル時代には、脅威俳優は高度な技術を用いており、しばしばテキストデータの形でデジタルトレースが利用可能である。
サイバー脅威インテリジェンス~(CTI)は、脅威俳優の標的と攻撃行動を理解するのに有用なデータ収集、処理、分析に固有のすべてのソリューションに関連している。
現在、CTIは脅威を特定し緩和し、積極的な防衛戦略を可能にする上で、常に重要な役割を担っている。
この文脈において、人工知能の分野であるNLPは、脅威知能を増強するための強力なツールとして登場した。
本稿では,脅威知能の文脈で適用されたNLP技術の概要について概説する。
デジタル資産を保護するための主要なツールとして、CTIの基本的定義と原則を説明することから始まる。
その後、WebソースからのCTIデータクローリングのためのNLPベースのテクニック、CTIデータ分析、サイバーセキュリティデータからの関係抽出、CTIの共有とコラボレーション、CTIのセキュリティ脅威の徹底的な調査を行う。
最後に、脅威情報におけるNLPの課題と限界について、データ品質の問題や倫理的考察など、徹底的に検討する。
この調査は完全な枠組みを描き、最先端のNLPベースの脅威情報技術とそのサイバーセキュリティへの影響を理解するためのセキュリティ専門家や研究者にとって貴重なリソースとなっている。
In the digital era, threat actors employ sophisticated techniques for which, often, digital traces in the form of textual data are available. Cyber Threat Intelligence~(CTI) is related to all the solutions inherent to data collection, processing, and analysis useful to understand a threat actor's targets and attack behavior. Currently, CTI is assuming an always more crucial role in identifying and mitigating threats and enabling proactive defense strategies. In this context, NLP, an artificial intelligence branch, has emerged as a powerful tool for enhancing threat intelligence capabilities. This survey paper provides a comprehensive overview of NLP-based techniques applied in the context of threat intelligence. It begins by describing the foundational definitions and principles of CTI as a major tool for safeguarding digital assets. It then undertakes a thorough examination of NLP-based techniques for CTI data crawling from Web sources, CTI data analysis, Relation Extraction from cybersecurity data, CTI sharing and collaboration, and security threats of CTI. Finally, the challenges and limitations of NLP in threat intelligence are exhaustively examined, including data quality issues and ethical considerations. This survey draws a complete framework and serves as a valuable resource for security professionals and researchers seeking to understand the state-of-the-art NLP-based threat intelligence techniques and their potential impact on cybersecurity. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-15 |
# マルチレシーバー検索暗号化によるセキュアデータ共有のための動的合意委員会」へのコメント
Comments on "Dynamic Consensus Committee-Based for Secure Data Sharing With Authorized Multi-Receiver Searchable Encryption" ( http://arxiv.org/abs/2311.08813v1 ) ライセンス: Link先を確認 | Zi-Yuan Liu, Raylin Tso, | (参考訳) 最近、Yangらは、IEEE Transactions on Information Forensics and Security (DOI: 10.1109/TIFS.2023.3305183)に発表された"Dynamic Consensus Committee-Based for Secure Data Sharing with Authorized Multi-Receiver Searchable Encryption (DCC-SE)"という、効率的な検索可能な暗号化スキームを導入した。
著者らによると、DCC-SEは様々なセキュリティ要件を満たす。
しかし,本書簡では,システムに関わるすべてのユーザが,KT-IND-CKAセキュリティに対する攻撃を実行できるという,DCC-SEの重大な脆弱性を明らかにする。
この欠陥は、文書に関連するセンシティブなキーワード情報の意図しない開示につながる可能性がある。
本報告では,DCC-SEについて詳述する。
また、この脆弱性に対処するために、根本原因について議論し、DCC-SEのセキュリティ証明の欠陥を特定する。
その後、計算オーバーヘッドを大幅に増大させることなく、この問題を効果的に解決するソリューションを提供する。
Recently, Yang et al. introduced an efficient searchable encryption scheme titled "Dynamic Consensus Committee-Based for Secure Data Sharing With Authorized Multi-Receiver Searchable Encryption (DCC-SE)," published in IEEE Transactions on Information Forensics and Security (DOI: 10.1109/TIFS.2023.3305183). According to the authors, DCC-SE meets various security requirements, especially the keyword trapdoor indistinguishability against chosen keyword attacks (KT-IND-CKA). In this letter, however, we reveal a significant vulnerability of DCC-SE: any users involved in the system can execute attacks against KT-IND-CKA security. This flaw potentially results in the unintended disclosure of sensitive keyword information related to the documents. We present a detailed cryptanalysis on DCC-SE. In addition, to address this vulnerability, we discuss the root cause and identify a flaw in the security proof of DCC-SE. Subsequently, we provide a solution that effectively addresses this concern without significantly increasing computational overhead. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-15 |
# ゼロ知識回路の形式的検証
Formal Verification of Zero-Knowledge Circuits ( http://arxiv.org/abs/2311.08858v1 ) ライセンス: Link先を確認 | Alessandro Coglio, Eric McCarthy, Eric W. Smith, | (参考訳) ゼロ知識回路は、素体で解釈された算術式に対する等式制約の集合であり、暗号ゼロ知識証明の計算を符号化するために用いられる。
回路が正しく符号化されることを保証するための問題として、回路の正当性を保証するための形式的フレームワーク、素体のためのACL2ライブラリ、既存のR1CS(Rank-1 Constraint Systems)形式的回路を表すためのACL2モデル、この形式の回路を検証するためのACL2ツール、新しいPFCS(Prime Field Constraint Systems)形式的回路を表現するための新しいPFCS(Prime Field Constraint Systems)形式的回路と、そのACL2モデルと、この形式の回路を構成的かつスケーラブルな方法で検証するACL2ツール、単純から複雑までの回路の検証、および既存のゼロ知識システムにおけるバグと最適化の発見などがある。
Zero-knowledge circuits are sets of equality constraints over arithmetic expressions interpreted in a prime field; they are used to encode computations in cryptographic zero-knowledge proofs. We make the following contributions to the problem of ensuring that a circuit correctly encodes a computation: a formal framework for circuit correctness; an ACL2 library for prime fields; an ACL2 model of the existing R1CS (Rank-1 Constraint Systems) formalism to represent circuits, along with ACL2 and Axe tools to verify circuits of this form; a novel PFCS (Prime Field Constraint Systems) formalism to represent hierarchically structured circuits, along with an ACL2 model of it and ACL2 tools to verify circuits of this form in a compositional and scalable way; verification of circuits, ranging from simple to complex; and discovery of bugs and optimizations in existing zero-knowledge systems. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-15 |
# ShamirとAdditive Secret Sharingを組み合わせることで、SMCプライミティブの悪意のある相手に対する効率を改善する
Combining Shamir & Additive Secret Sharing to Improve Efficiency of SMC Primitives Against Malicious Adversaries ( http://arxiv.org/abs/2311.08934v1 ) ライセンス: Link先を確認 | Kenneth Goss, | (参考訳) セキュアなマルチパーティ計算は、相互不信な当事者がプライベート入力の機能を安全に評価するための幅広いプロトコルを提供する。
近年では、このような計算を安全かつ効率的に処理するための多くの戦略が提案されている。
これらのプロトコルはますます効率的になりつつありますが、多くの設定でその性能はいまだに実用的ではありません。
我々は、これらの問題に対する新しいアプローチを提案し、これは、同じセキュリティモデルにおける以前の作業よりも効率的か、同等の効率でより良いセキュリティ保証を提供するかのどちらかである。
本研究の目的は、セキュアなマルチパーティプロトコルの効率性とセキュリティを改善し、新たな脅威シナリオへのこのようなアプローチの適用を検討することである。
新しい最適化には、共有秘密の領域を動的に切り替えること、非対称計算、有利な関数変換などがある。
具体的には、シャミールとアダプティブの秘密共有を並列に組み合わせることで、受動的敵に対してセキュアな効率的なプロトコルを、アクティブな敵に対してセキュアに変換することができる。
このプリミティブの集合から、関心のある他の分野の他の研究よりも効率的な複雑さを持つアプローチで実装できる比較プロトコルの構築を提案する。
最後に,情報保護と難読化に対する重要なセキュリティ上の脅威に対処するシステムを提案する。
Secure multi-party computation provides a wide array of protocols for mutually distrustful parties be able to securely evaluate functions of private inputs. Within recent years, many such protocols have been proposed representing a plethora of strategies to securely and efficiently handle such computation. These protocols have become increasingly efficient, but their performance still is impractical in many settings. We propose new approaches to some of these problems which are either more efficient than previous works within the same security models or offer better security guarantees with comparable efficiency. The goals of this research are to improve efficiency and security of secure multi-party protocols and explore the application of such approaches to novel threat scenarios. Some of the novel optimizations employed are dynamically switching domains of shared secrets, asymmetric computations, and advantageous functional transformations, among others. Specifically, this work presents a novel combination of Shamir and Additive secret sharing to be used in parallel which allows for the transformation of efficient protocols secure against passive adversaries to be secure against active adversaries. From this set of primitives we propose the construction of a comparison protocol which can be implemented under that approach with a complexity which is more efficient than other recent works for common domains of interest. Finally, we present a system which addresses a critical security threat for the protection and obfuscation of information which may be of high consequence. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-15 |
# マルチクラスタUAVネットワークを指向したブロックチェーンベースのアイデンティティ認証
Blockchain-Based Identity Authentication Oriented to Multi-Cluster UAV Networking ( http://arxiv.org/abs/2312.12381v1 ) ライセンス: Link先を確認 | Zesong Dong, Wei Tong, Zhiwei Zhang, Jian Li, Weidong Yang, Yulong Shen, | (参考訳) 無人航空機(UAV)ネットワークは、電力検査、農業プラントの保護、緊急救助などの現場環境においてますます利用されている。
UAVネットワークのセキュリティを保証するために、UAV認証は特に完全なインフラを持たない現場環境において広く注目を集めている。
いくつかのブロックチェーンベースのUAV認証ソリューションは、インフラストラクチャに頼ることなく、分散型で信頼性の高い認証システムを確立するために提案されている。
しかし、これらのソリューションは、UAVの再接続を切断したり、UAV切断後に直接クラスタを解散することさえできないため、クラスタの堅牢性とタスク結果の整合性を損なう。
本稿では,UAV切断機構とタスク結果バックアップ機構を備えたマルチクラスタUAVネットワークを指向したブロックチェーンベースのID認証ソリューションを提案する。
具体的には、すべてのクラスタのUAVが保持するブロックチェーンを構築し、分散ID管理のセキュリティを保証するために、ID情報を管理する。
UAV切断機構は、検証済みの分散UAV再接続を許可し、UAVクラスタの堅牢性を確保するとともに、タスク結果バックアップ機構により、任意のUAV切断であっても、クラスタに格納されたタスク結果の整合性を確保する。
最後に、大規模な実験結果から、ロバスト性、完全性、遅延、エネルギー消費の観点から、我々のソリューションの優位性を証明した。
Unmanned Aerial Vehicle (UAV) networking is increasingly used in field environments such as power inspection, agricultural plant protection, and emergency rescue. To guarantee UAV networking security, UAV identity authentication attracts wide attention, especially in the field environment without perfect infrastructure. Some blockchain-based UAV identity authentication solutions are proposed to establish decentralized and trusted authentication systems without relying on infrastructure. However, these solutions do not support disconnected UAV reconnection or even disband a cluster directly after its head UAV disconnection, which compromises cluster robustness and task result integrity. In this paper, we propose a blockchain-based identity authentication solution oriented to multi-cluster UAV networking with a UAV disconnection mechanism and a task result backup mechanism. Specifically, we build a blockchain maintained by head UAVs of all clusters, managing identity information to guarantee the security of decentralized identity management. The UAV disconnection mechanism permits a verified distributed UAV reconnection to ensure the robustness of the UAV cluster, and on this basis, the task result backup mechanism ensures the integrity of the task results stored in a cluster even any UAV disconnection. Finally, extensive experimental results prove the superiority of our solutions in terms of robustness, integrity, delay, and energy consumption. | 翻訳日:2024-03-18 11:47:54 公開日:2023-11-15 |
# オープン語彙脳波とテキスト復号のための深部表現学習 Deep Representation Learning for Open Vocabulary Electroencephalography-to-Text Decoding ( http://arxiv.org/abs/2312.09430v1 ) ライセンス: Link先を確認 | Hamza Amrani, Daniela Micucci, Paolo Napoletano | (参考訳) 従来の研究は、非侵襲的脳-コンピュータインタフェース(BCI)で捉えたオープンボキャブラリ脳波(EEG)信号を復号するために、事前訓練された言語モデルを使用することの可能性を示した。
しかしながら、言語モデルのコンテキストに脳波信号を埋め込むことによる影響や主観性の影響は未解明のままであり、復号化性能を向上させるための最善のアプローチについて不確実性をもたらす。
さらに、デコードの有効性を評価するために使用される現在の評価指標は、主に構文的であり、人間の理解のためにデコードアウトプットの理解可能性に関する洞察を提供していない。
神経科学に現代的な表現型学習アプローチをもたらす非侵襲的な脳記録のためのエンドツーエンドのディープラーニングフレームワークを提案する。
提案では以下のイノベーションを紹介します。
1)オープン語彙脳波復号のためのエンドツーエンドのディープラーニングアーキテクチャで、生脳波符号化のための主観依存表現学習モジュール、BART言語モデル、GPT-4文洗練モジュールを組み込んだ。
2) bertscoreに基づくより包括的な文レベルの評価指標
3)提案する各モジュールのコントリビューションを分析し,今後の研究に有用な知見を提供するアブレーション研究。
本研究は,自然読解作業に携わる30名の被験者の脳波記録を含む2つの公開データセットであるZuCo v1.0とv2.0に対するアプローチを評価する。
BLEU-1スコアは42.75%,ROUGE-1-F33.28%,BERTScore-F53.86%で,それぞれ3.38%,8.43%,6.31%であった。 Previous research has demonstrated the potential of using pre-trained language models for decoding open vocabulary Electroencephalography (EEG) signals captured through a non-invasive Brain-Computer Interface (BCI). However, the impact of embedding EEG signals in the context of language models and the effect of subjectivity, remain unexplored, leading to uncertainty about the best approach to enhance decoding performance. Additionally, current evaluation metrics used to assess decoding effectiveness are predominantly syntactic and do not provide insights into the comprehensibility of the decoded output for human understanding. We present an end-to-end deep learning framework for non-invasive brain recordings that brings modern representational learning approaches to neuroscience. Our proposal introduces the following innovations: 1) an end-to-end deep learning architecture for open vocabulary EEG decoding, incorporating a subject-dependent representation learning module for raw EEG encoding, a BART language model, and a GPT-4 sentence refinement module; 2) a more comprehensive sentence-level evaluation metric based on the BERTScore; 3) an ablation study that analyses the contributions of each module within our proposal, providing valuable insights for future research. We evaluate our approach on two publicly available datasets, ZuCo v1.0 and v2.0, comprising EEG recordings of 30 subjects engaged in natural reading tasks. Our model achieves a BLEU-1 score of 42.75%, a ROUGE-1-F of 33.28%, and a BERTScore-F of 53.86%, outperforming the previous state-of-the-art methods by 3.38%, 8.43%, and 6.31%, respectively. | 翻訳日:2024-01-15 14:25:15 公開日:2023-11-15 |
# ドメイン固有正規化による眠気状態分類の一般化 Improving Generalization of Drowsiness State Classification by Domain-Specific Normalization ( http://arxiv.org/abs/2312.09461v1 ) ライセンス: Link先を確認 | Dong-Young Kim, Dong-Kyun Han, Seo-Hyeon Park, Geun-Deok Jang, and Seong-Whan Lee | (参考訳) 異常運転状態は、特に道路安全に対する主要な懸念であり、事故を防ぐための正確な眠気検知の重要性を強調している。
脳波(EEG)信号は、脳活動を監視して運転者の精神状態をモニタリングする効果が認められている。
しかし、この課題は個人間の脳波信号の変動による事前校正の必要性にある。
校正の必要性により、脳-コンピュータインタフェース(BCI)はアクセスしにくくなった。
本稿では,アクセシビリティと利便性を向上させるために,ドライバの眠気状態を分類するための実用的な一般化フレームワークを提案する。
ドライバごとに正規化プロセスを分離し、個々のドメインとして扱う。
一般モデルを開発するという目標は、ドメインの一般化と似ている。
フレームワークはドメインごとに異なるため、各ドメインの統計を別々に検討する。
我々は,対象物間の一般化能力を高めるために,様々な正規化手法を実験した。
実験により、個々の領域固有の正規化を適用することで、一般化可能性の顕著な改善が得られた。
さらに,bciアプリケーションにおけるキャリブレーションの必要性をなくし,その可能性とアクセシビリティを実証する。 Abnormal driver states, particularly have been major concerns for road safety, emphasizing the importance of accurate drowsiness detection to prevent accidents. Electroencephalogram (EEG) signals are recognized for their effectiveness in monitoring a driver's mental state by monitoring brain activities. However, the challenge lies in the requirement for prior calibration due to the variation of EEG signals among and within individuals. The necessity of calibration has made the brain-computer interface (BCI) less accessible. We propose a practical generalized framework for classifying driver drowsiness states to improve accessibility and convenience. We separate the normalization process for each driver, treating them as individual domains. The goal of developing a general model is similar to that of domain generalization. The framework considers the statistics of each domain separately since they vary among domains. We experimented with various normalization methods to enhance the ability to generalize across subjects, i.e. the model's generalization performance of unseen domains. The experiments showed that applying individual domain-specific normalization yielded an outstanding improvement in generalizability. Furthermore, our framework demonstrates the potential and accessibility by removing the need for calibration in BCI applications. | 翻訳日:2024-01-15 14:12:24 公開日:2023-11-15 |
# 生体信号応用のための機械学習の不確実性定量化 Uncertainty Quantification in Machine Learning for Biosignal Applications -- A Review ( http://arxiv.org/abs/2312.09454v1 ) ライセンス: Link先を確認 | Ivo Pascal de Jong, Andreea Ioana Sburlea and Matias Valdenegro-Toro | (参考訳) 不確かさの定量化(UQ)は、ディープラーニングのブラックボックスの性質を直そうとしている。
特に、脳波(EEG)、心電図(ECG)、心電図(EOG)、筋電図(EMG)などの医学的(医学的)生体信号は、ノイズ比の信号が乏しいため、良いUQの恩恵を受ける可能性がある。
本稿では,不確かさの定量化と機械学習との生体信号の交わりにおける技術の現状を概観する。
このアプリケーション領域に現在存在する様々な方法、欠点、不確実性対策、理論的枠組みについて述べる。
全体として、有望なUQ手法が利用可能であると結論付けることができるが、人やシステムが(クリニカルな)環境で不確実性モデルとどのように相互作用するかの研究が必要である。 Uncertainty Quantification (UQ) has gained traction in an attempt to fix the black-box nature of Deep Learning. Specifically (medical) biosignals such as electroencephalography (EEG), electrocardiography (ECG), electroocculography (EOG) and electromyography (EMG) could benefit from good UQ, since these suffer from a poor signal to noise ratio, and good human interpretability is pivotal for medical applications and Brain Computer Interfaces. In this paper, we review the state of the art at the intersection of Uncertainty Quantification and Biosignal with Machine Learning. We present various methods, shortcomings, uncertainty measures and theoretical frameworks that currently exist in this application domain. Overall it can be concluded that promising UQ methods are available, but that research is needed on how people and systems may interact with an uncertainty model in a (clinical) environment. | 翻訳日:2024-01-15 14:11:06 公開日:2023-11-15 |
# バックドアインジェクションによる大規模言語モデルのステルス性と永続性 Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections ( http://arxiv.org/abs/2312.00027v1 ) ライセンス: Link先を確認 | Yuanpu Cao, Bochuan Cao, Jinghui Chen | (参考訳) 近年のLarge Language Models (LLMs) の発展は著しい進歩を見せている。
悪意ある搾取に対する保護を促進するため、研究機関はLLMを人間の好みに合わせることに集中し、不適切な内容の生成を抑制する。
残念なことに、このようなアライメントはしばしば脆弱で、最小限の有害なデータによる微調整は、標的のLSMを容易に無視することができる。
効果的である一方で、このような微調整ベースの不一致アプローチには、それぞれ独自の制限がある。(1) 微調整後、安全監査またはレッドチーム化は、非整合モデルの潜在的な弱点を露呈し易くし、リリース/使用を妨げている。
2)非永続性、不整合LPMは、再整合、すなわち、整合したデータポイントで再度微調整することで容易に修復できる。
本研究では,バックドアインジェクションによって,大規模言語モデルに対してステルス的かつ永続的なアンアレンメントを行うことが可能であることを示す。
また、バックドアの持続性とアクティベーションパターンとの関係についての新しい理解を提供し、さらに潜在的なトリガ設計のためのガイドラインを提供する。
広範な実験により,提案するステルス性および持続性不一致が,再防衛に対する強い永続性を維持しつつ,安全性評価を合格できることを実証した。 Recent developments in Large Language Models (LLMs) have manifested significant advancements. To facilitate safeguards against malicious exploitation, a body of research has concentrated on aligning LLMs with human preferences and inhibiting their generation of inappropriate content. Unfortunately, such alignments are often vulnerable: fine-tuning with a minimal amount of harmful data can easily unalign the target LLM. While being effective, such fine-tuning-based unalignment approaches also have their own limitations: (1) non-stealthiness, after fine-tuning, safety audits or red-teaming can easily expose the potential weaknesses of the unaligned models, thereby precluding their release/use. (2) non-persistence, the unaligned LLMs can be easily repaired through re-alignment, i.e., fine-tuning again with aligned data points. In this work, we show that it is possible to conduct stealthy and persistent unalignment on large language models via backdoor injections. We also provide a novel understanding on the relationship between the backdoor persistence and the activation pattern and further provide guidelines for potential trigger design. Through extensive experiments, we demonstrate that our proposed stealthy and persistent unalignment can successfully pass the safety evaluation while maintaining strong persistence against re-alignment defense. | 翻訳日:2023-12-11 04:05:21 公開日:2023-11-15 |
# FocalPose++: レンダーと比較によるFocal長とオブジェクトポス推定 FocalPose++: Focal Length and Object Pose Estimation via Render and Compare ( http://arxiv.org/abs/2312.02985v1 ) ライセンス: Link先を確認 | Martin C\'ifka, Georgy Ponimatkin, Yann Labb\'e, Bryan Russell, Mathieu Aubry, Vladimir Petrik and Josef Sivic | (参考訳) 本稿では,カメラオブジェクトの6Dポーズとカメラ焦点長を同時推定するニューラルレンダリング・アンド・コンペア手法であるFocalPose++を紹介する。
この作品の貢献は3倍である。
まず,既存の最先端のレンダリング・アンド・コンパレント6Dポーズ推定を拡張した焦点長更新ルールを導出し,共同推定課題に対処する。
第2に,物体のポーズと焦点距離を同時推定する複数の異なる損失関数について検討する。
直接焦点長の回帰と再投射損失の組み合わせは, 翻訳, 回転, 焦点長の寄与を阻害し, 結果の改善につながることがわかった。
第3に,合成訓練データの違いが手法の性能に及ぼす影響について検討する。
具体的には、オブジェクトの6Dポーズとカメラの焦点長をレンダリングする際に使用する分布について検討し、実際のトレーニングデータに収まるパラメトリック分布が最適であることを示す。
既知の3dモデルを無制御設定で表現した,3つの難解なベンチマークデータセットで結果を示す。
我々の焦点長と6次元ポーズ推定値が既存の最先端手法よりも誤差が低いことを示す。 We introduce FocalPose++, a neural render-and-compare method for jointly estimating the camera-object 6D pose and camera focal length given a single RGB input image depicting a known object. The contributions of this work are threefold. First, we derive a focal length update rule that extends an existing state-of-the-art render-and-compare 6D pose estimator to address the joint estimation task. Second, we investigate several different loss functions for jointly estimating the object pose and focal length. We find that a combination of direct focal length regression with a reprojection loss disentangling the contribution of translation, rotation, and focal length leads to improved results. Third, we explore the effect of different synthetic training data on the performance of our method. Specifically, we investigate different distributions used for sampling object's 6D pose and camera's focal length when rendering the synthetic images, and show that parametric distribution fitted on real training data works the best. We show results on three challenging benchmark datasets that depict known 3D models in uncontrolled settings. We demonstrate that our focal length and 6D pose estimates have lower error than the existing state-of-the-art methods. | 翻訳日:2023-12-11 03:18:48 公開日:2023-11-15 |
# 長期アノテータに向けて:教師付きラベルアグリゲーションベースライン Towards Long-term Annotators: A Supervised Label Aggregation Baseline ( http://arxiv.org/abs/2311.14709v1 ) ライセンス: Link先を確認 | Haoyu Liu, Fei Wang, Minmin Lin, Runze Wu, Renyu Zhu, Shiwei Zhao, Kai Wang, Tangjie Lv, Changjie Fan | (参考訳) データクラウドソーシングプラットフォームは、クラウドソースされた労働者を頼りに、大量のラベル付きデータを効率的に提供することができる。
群衆労働者のアノテーション品質の変動により、現代の技術は冗長なアノテーションとその後のラベル集約を利用して真のラベルを推測する。
しかし、これらのメソッドは推論中にモデル更新を必要とし、現実の実装における課題を提起する。
一方で、近年、多くのデータラベリングタスクでは熟練したアノテータや経験豊富なアノテータが必要となり、長期的なアノテータの需要が高まっている。
これらの注釈はクラウドソーシングプラットフォームに重要な歴史的な記録を残し、ラベルアグリゲーションの恩恵を受けることができるが、以前の作品では無視されている。
そこで本稿では,推論中にモデル更新を必要とせず,歴史記録を広範囲に探索できる新しいラベル集約手法を提案する。
superlaは教師付きラベルアグリゲーション手法である。
本モデルでは,3種類の入力特徴と簡単なニューラルネットワーク構造を設計し,全ての情報をマージし,次いで集約ラベルを生成する。
22の公開データセットと11のベースラインメソッドで比較実験を行った結果,SuperLAは推論性能において,これらのベースラインをすべて上回るだけでなく,効率面でも大きなメリットがあることがわかった。 Relying on crowdsourced workers, data crowdsourcing platforms are able to efficiently provide vast amounts of labeled data. Due to the variability in the annotation quality of crowd workers, modern techniques resort to redundant annotations and subsequent label aggregation to infer true labels. However, these methods require model updating during the inference, posing challenges in real-world implementation. Meanwhile, in recent years, many data labeling tasks have begun to require skilled and experienced annotators, leading to an increasing demand for long-term annotators. These annotators could leave substantial historical annotation records on the crowdsourcing platforms, which can benefit label aggregation, but are ignored by previous works. Hereby, in this paper, we propose a novel label aggregation technique, which does not need any model updating during inference and can extensively explore the historical annotation records. We call it SuperLA, a Supervised Label Aggregation method. Inside this model, we design three types of input features and a straightforward neural network structure to merge all the information together and subsequently produce aggregated labels. Based on comparison experiments conducted on 22 public datasets and 11 baseline methods, we find that SuperLA not only outperforms all those baselines in inference performance but also offers significant advantages in terms of efficiency. | 翻訳日:2023-12-03 13:56:29 公開日:2023-11-15 |
# 公共会計フロンティアLSMに向けて:ASPIREフレームワークによる外部監視エコシステムの構築 Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework ( http://arxiv.org/abs/2311.14711v1 ) ライセンス: Link先を確認 | Markus Anderljung, Everett Thornton Smith, Joe O'Brien, Lisa Soder, Benjamin Bucknall, Emma Bluemke, Jonas Schuett, Robert Trager, Lacey Strahm, Rumman Chowdhury | (参考訳) フロンティア大規模言語モデル(llm)が社会と経済に統合されるにつれて、その訓練、展開、使用に関する決定は広範囲に及んでいる。
これらの決定はフロンティアllm開発者にのみ委ねるべきではない。
LLMのユーザー、市民社会、政策立案者は、そのような決定をよりよいものにするために信頼できる情報源を必要とする。
外部アクターをこれらのシステムの評価に巻き込むことで、"外部監視(external scrutiny)"と呼ばれるもの — レッドチーム、監査、外部研究者へのアクセスを通じて — は解決策を提供する。
フロンティアLSMの外部精査が増大する兆しはあるが、その成功は保証されていない。
本稿では、フロンティアaiシステムの効果的な外部調査のための6つの要件を調査し、アクセス、探索態度、リスクへの比例性、独立性、資源、専門知識というaspireの枠組みの下でそれらを組織化する。
次に、外部の監視がaiライフサイクル全体を通してどのように機能するかを説明し、政策立案者に推奨する。 With the increasing integration of frontier large language models (LLMs) into society and the economy, decisions related to their training, deployment, and use have far-reaching implications. These decisions should not be left solely in the hands of frontier LLM developers. LLM users, civil society and policymakers need trustworthy sources of information to steer such decisions for the better. Involving outside actors in the evaluation of these systems - what we term 'external scrutiny' - via red-teaming, auditing, and external researcher access, offers a solution. Though there are encouraging signs of increasing external scrutiny of frontier LLMs, its success is not assured. In this paper, we survey six requirements for effective external scrutiny of frontier AI systems and organize them under the ASPIRE framework: Access, Searching attitude, Proportionality to the risks, Independence, Resources, and Expertise. We then illustrate how external scrutiny might function throughout the AI lifecycle and offer recommendations to policymakers. | 翻訳日:2023-12-03 13:39:34 公開日:2023-11-15 |
# 神経科学による科学機械学習(その2) : 可変スパイクウェーブレットニューラル演算子 Neuroscience inspired scientific machine learning (Part-2): Variable spiking wavelet neural operator ( http://arxiv.org/abs/2311.14710v1 ) ライセンス: Link先を確認 | Shailesh Garg and Souvik Chakraborty | (参考訳) 本稿では,メカニクス応用のためのAIアルゴリズムの理論的実装と実践的実装のギャップを埋めることを目的とした,可変スパイキングウェーブレットニューラル演算子(VS-WNO)を提案する。
ニューラル演算子の導入など最近の進歩により、メカニクスアプリケーションでAIが使用される可能性は大きく向上した。
しかし、AIの膨大なエネルギーとリソース要件は、実践的な現場ユースケースにおいてハードルとなっている。
提案するvs-wnoはスパイキングニューラルネットワークの原理に基づいており、ニューラルネットワークのエネルギー要件を減らすことが期待されている。
これにより、エッジコンピューティングにおけるそのようなアルゴリズムの利用が可能になる。
提案したVS-WNOは、スパース通信を促進する可変スパイキングニューロンを用いてエネルギーを保存し、その利用は、しばしば力学の分野で直面する回帰課題に取り組む能力によってさらに支持される。
バーガー方程式、アレン・カーンの方程式、ダーシー方程式などの偏微分方程式を扱う様々な例が示されている。
漏洩積分および火炎ニューロン(直接および符号化入力)を用いたウェーブレットニューラルオペレータと人工ニューロンを用いたバニラウェーブレットニューラルオペレータとの比較が示されている。
提案したVS-WNOは,疎通信を推進しながら,真理に収束する能力を示した。 We propose, in this paper, a Variable Spiking Wavelet Neural Operator (VS-WNO), which aims to bridge the gap between theoretical and practical implementation of Artificial Intelligence (AI) algorithms for mechanics applications. With recent developments like the introduction of neural operators, AI's potential for being used in mechanics applications has increased significantly. However, AI's immense energy and resource requirements are a hurdle in its practical field use case. The proposed VS-WNO is based on the principles of spiking neural networks, which have shown promise in reducing the energy requirements of the neural networks. This makes possible the use of such algorithms in edge computing. The proposed VS-WNO utilizes variable spiking neurons, which promote sparse communication, thus conserving energy, and its use is further supported by its ability to tackle regression tasks, often faced in the field of mechanics. Various examples dealing with partial differential equations, like Burger's equation, Allen Cahn's equation, and Darcy's equation, have been shown. Comparisons have been shown against wavelet neural operator utilizing leaky integrate and fire neurons (direct and encoded inputs) and vanilla wavelet neural operator utilizing artificial neurons. The results produced illustrate the ability of the proposed VS-WNO to converge to ground truth while promoting sparse communication. | 翻訳日:2023-12-03 13:39:16 公開日:2023-11-15 |
# 生成深部拡散を用いた添加物製造における高忠実度溶融プールモデル Inexpensive High Fidelity Melt Pool Models in Additive Manufacturing Using Generative Deep Diffusion ( http://arxiv.org/abs/2311.16168v1 ) ライセンス: Link先を確認 | Francis Ogoke, Quanliang Liu, Olabode Ajenifujah, Alexander Myers, Guadalupe Quirarte, Jack Beuth, Jonathan Malen, Amir Barati Farimani | (参考訳) レーザー粉末層融合(L-PBF)の欠陥は、しばしば溶融プールとして知られるレーザー近傍の溶融合金のメソスケールのダイナミクスによって生じる。
例えば、溶融プールは、最終部分における望ましくないポーシティ、残留応力、表面粗さの形成に直接寄与することができる。
3次元メルトプール物理場の実験的なその場モニタリングは、プロセスにかかわる短時間と時間スケールのため困難である。
マルチ物理シミュレーション法は融解プールの3次元力学を記述することができるが、キーホールポロシティの形成のような複雑な効果の正確な予測に必要なメッシュ精錬では計算コストがかかる。
そこで本研究では,確率的拡散フレームワークに基づく生成的深層学習モデルを構築し,低忠実度,粗粒度シミュレーション情報を高忠実度にマッピングする。
これにより,複数の高忠実度シミュレーションを行う計算コストを回避し,代わりに軽量な粗いメッシュシミュレーションをスケールアップする。
具体的には, 2次元拡散モデルを実装し, 粗シミュレーションされたメルトプールを高忠実度に拡張する。
本研究では, 地盤真理シミュレーションデータと拡散モデル出力(温度場, 融解プール次元, キーホール蒸気キャビティの変動など)との融解過程における重要な指標の保存を実証する。
具体的には,低忠実度入力データ4$\times$粗い値に基づいて,融解プール深さを3$\mu m$以内で予測し,解析時間を2桁に短縮する。 Defects in laser powder bed fusion (L-PBF) parts often result from the meso-scale dynamics of the molten alloy near the laser, known as the melt pool. For instance, the melt pool can directly contribute to the formation of undesirable porosity, residual stress, and surface roughness in the final part. Experimental in-situ monitoring of the three-dimensional melt pool physical fields is challenging, due to the short length and time scales involved in the process. Multi-physics simulation methods can describe the three-dimensional dynamics of the melt pool, but are computationally expensive at the mesh refinement required for accurate predictions of complex effects, such as the formation of keyhole porosity. Therefore, in this work, we develop a generative deep learning model based on the probabilistic diffusion framework to map low-fidelity, coarse-grained simulation information to the high-fidelity counterpart. By doing so, we bypass the computational expense of conducting multiple high-fidelity simulations for analysis by instead upscaling lightweight coarse mesh simulations. Specifically, we implement a 2-D diffusion model to spatially upscale cross-sections of the coarsely simulated melt pool to their high-fidelity equivalent. We demonstrate the preservation of key metrics of the melting process between the ground truth simulation data and the diffusion model output, such as the temperature field, the melt pool dimensions and the variability of the keyhole vapor cavity. Specifically, we predict the melt pool depth within 3 $\mu m$ based on low-fidelity input data 4$\times$ coarser than the high-fidelity simulations, reducing analysis time by two orders of magnitude. | 翻訳日:2023-12-03 13:04:57 公開日:2023-11-15 |
# 並列量子ハフ変換 Parallel Quantum Hough Transform ( http://arxiv.org/abs/2311.09002v1 ) ライセンス: Link先を確認 | Frank Klefenz, Nico Wittrock, Frank Feldhoff | (参考訳) 既知の量子アルゴリズムのいくつかは量子コンピュータ上で確実に実行できる。
したがって、拡張として、量子コンピュータ上で実行する並列量子ハフ変換(pqht)アルゴリズムを提案する。
我々はその実施と得られた結果について議論する。
PQHTアルゴリズムは、量子論理ゲートで実現された偶然検出器の調整可能なノード接続と、接続可能な$\texttt{RZ}$ローテーションゲートからなる並列回転ステージに概念的に分割される。
モジュールはIBM Quantum Composerを使って開発され、IBM QASMシミュレータを使ってテストされた。
最後に、モジュールはPythonパッケージのQiskitを使ってプログラムされ、ジョブは分散IBM Q System One量子コンピュータに送信された。
EhningenのFraunhofer Q System Oneで成功した結果は、PQHTアルゴリズムの概念実証として提示される。 Few of the known quantum algorithms can be reliably executed on a quantum computer. Therefore, as an extension, we propose a Parallel Quantum Hough transform (PQHT) algorithm that we execute on a quantum computer. We give its implementation and discuss the results obtained. The PQHT algorithm is conceptually divided into a parallel rotation stage consisting of a set of connected programmable $\texttt{RZ}$ rotation gates, with adjustable node connections of coincidence detectors realized with quantum logic gates. The modules were developed using IBM Quantum Composer and tested using the IBM QASM simulator. Finally, the modules were programmed using the Python package Qiskit and the jobs were sent to distributed IBM Q System One quantum computers. The successful run results on Fraunhofer Q System One in Ehningen will be presented as a proof of concept for the PQHT algorithm. | 翻訳日:2023-11-27 00:58:05 公開日:2023-11-15 |
# CTR予測のための全生涯ユーザ行動の深部グループ関心モデリング Deep Group Interest Modeling of Full Lifelong User Behaviors for CTR Prediction ( http://arxiv.org/abs/2311.10764v1 ) ライセンス: Link先を確認 | Qi Liu, Xuyang Hou, Haoran Jin, jin Chen, Zhe Wang, Defu Lian, Tan Qu, Jia Cheng, Jun Lei | (参考訳) クリックスルー率(ctr)の予測には,生涯行動シーケンスからユーザの興味を抽出することが不可欠である。
現在のほとんどの手法では、2段階のプロセスで効率を保ち、まず候補項目に関連する過去の行動を選択し、次にこの狭められた動作サブシーケンスからユーザの興味を推定する。
この2段階のパラダイムは有効ではあるが、情報損失につながる。
ユーザの生涯クリック行動のみを使用すると、興味の完全な図が提供されないため、パフォーマンスが最適以下になる。
本研究では,ユーザの行動履歴をモデル化するエンドツーエンド手法であるDeep Group Interest Network(DGIN)を紹介する。
これには、クリック、カートの追加、購入など、登録後のすべてのアクションが含まれており、ユーザ理解が微妙である。
まず、関連するキー(Item_idなど)を使用して、すべての振る舞いをグループ化して効率を高めることから始めます。
このプロセスは、挙動長をo(10^4)からo(10^2)に大幅に短縮する。
グループ化による情報の潜在的な損失を軽減するために,グループ属性の2つのカテゴリを組み込んだ。
各グループ内では,様々な異種行動(行動数など)に関する統計情報を算出し,ユニークな行動特性(行動タイプなど)を強調するセルフ・アテンション機構を用いる。
この再編成行動データに基づいて,Transformer 技術を用いてユーザの興味を導出する。
さらに、寿命の長い行動シーケンスから、同じ項目_idと候補項目を共有する行動のサブセットを同定する。
このサブセットからの洞察は、候補項目に関するユーザの意思決定プロセスを明らかにし、予測精度を向上させる。
産業データと公共データの両方について総合評価を行い,dginの有効性と効率性について検証した。 Extracting users' interests from their lifelong behavior sequence is crucial for predicting Click-Through Rate (CTR). Most current methods employ a two-stage process for efficiency: they first select historical behaviors related to the candidate item and then deduce the user's interest from this narrowed-down behavior sub-sequence. This two-stage paradigm, though effective, leads to information loss. Solely using users' lifelong click behaviors doesn't provide a complete picture of their interests, leading to suboptimal performance. In our research, we introduce the Deep Group Interest Network (DGIN), an end-to-end method to model the user's entire behavior history. This includes all post-registration actions, such as clicks, cart additions, purchases, and more, providing a nuanced user understanding. We start by grouping the full range of behaviors using a relevant key (like item_id) to enhance efficiency. This process reduces the behavior length significantly, from O(10^4) to O(10^2). To mitigate the potential loss of information due to grouping, we incorporate two categories of group attributes. Within each group, we calculate statistical information on various heterogeneous behaviors (like behavior counts) and employ self-attention mechanisms to highlight unique behavior characteristics (like behavior type). Based on this reorganized behavior data, the user's interests are derived using the Transformer technique. Additionally, we identify a subset of behaviors that share the same item_id with the candidate item from the lifelong behavior sequence. The insights from this subset reveal the user's decision-making process related to the candidate item, improving prediction accuracy. Our comprehensive evaluation, both on industrial and public datasets, validates DGIN's efficacy and efficiency. | 翻訳日:2023-11-27 00:50:11 公開日:2023-11-15 |
# 学習における一般化と経験数の比較:トラクターダイナミクスにおける変圧器対RNN Comparing Generalization in Learning with Limited Numbers of Exemplars: Transformer vs. RNN in Attractor Dynamics ( http://arxiv.org/abs/2311.10763v1 ) ライセンス: Link先を確認 | Rui Fukushima and Jun Tani | (参考訳) 広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、数十億ものWebソースの自然言語文がトレーニングに使われているため、パフォーマンスのスケーリングにおいて大きな注目を集めている。
その基盤となるアーキテクチャであるTransformerは、ビデオ、オーディオ信号、ロボットの動きなど、さまざまな分野のアプリケーションを見つけている。
これはTransformerのGIL(Generalization-in-learning)能力に関する重要な疑問だ。
しかし、これはtransformerの学習能力(gil)の一般化に関する重要な疑問を提起する。
ChatGPTの成功は、主にトレーニングに使用される膨大なデータセットによるものなのでしょうか?
これを調べるために,transformerのgil能力と従来のrecurrent neural network(rnn)の機能を比較した。
性能評価にdynamic time warping (dtw) 法が採用されている。
シミュレーションの結果,データ可用性に限界がある場合,TransformerのGIL能力はRNNよりも著しく劣っていることがわかった。 ChatGPT, a widely-recognized large language model (LLM), has recently gained substantial attention for its performance scaling, attributed to the billions of web-sourced natural language sentences used for training. Its underlying architecture, Transformer, has found applications across diverse fields, including video, audio signals, and robotic movement. %The crucial question this raises concerns the Transformer's generalization-in-learning (GIL) capacity. However, this raises a crucial question about Transformer's generalization in learning (GIL) capacity. Is ChatGPT's success chiefly due to the vast dataset used for training, or is there more to the story? To investigate this, we compared Transformer's GIL capabilities with those of a traditional Recurrent Neural Network (RNN) in tasks involving attractor dynamics learning. For performance evaluation, the Dynamic Time Warping (DTW) method has been employed. Our simulation results suggest that under conditions of limited data availability, Transformer's GIL abilities are markedly inferior to those of RNN. | 翻訳日:2023-11-27 00:49:44 公開日:2023-11-15 |
# 量子コンピューティング標準と会計情報システム Quantum Computing Standards & Accounting Information Systems ( http://arxiv.org/abs/2311.11925v1 ) ライセンス: Link先を確認 | Maksym Lazirko | (参考訳) 本研究は,量子技術が情報システムやビジネス全体に与える影響について考察する。
この取り組みは、量子コンピュータの脆弱性と量子耐性暗号アルゴリズムの出現に焦点を当てている。
本論文は, 量子標準とその取引の効率, 迅速性, 安全性に対する変容的影響を批判的に分析する。
量子標準の違い、類似性、限界を比較することで、量子時代のサイバー脅威に対して組織を強化するためのベストプラクティスと適応方法のコレクションを提示する。
この研究は、量子技術と標準設定組織の間の相互作用を理解し、ナビゲートするためのガイドを提供し、組織はプラクティスの完全性を確保し、量子超越性の出現によってもたらされた課題に積極的に適応することができる。
この取り組みは、標準設定のエコシステムを描き、その複雑なプロセスに言及することによって研究にも貢献する。
この発見には、量子標準に関わる組織の同定、観察された区別、類似性、米国と欧州の標準間の制限が含まれる。 This research investigates the potential implications of quantum technology on accounting information systems, and business overall. This endeavor focuses on the vulnerabilities of quantum computers and the emergence of quantum-resistant encryption algorithms. This paper critically analyzes quantum standards and their transformative effects on the efficiency, expediency, and security of commerce. By comparing the differences, similarities, and limitations of quantum standards, the research presents a collection of best practices and adaptation methods to fortify organizations against cyber threats in the quantum era. The study provides a guide to understanding and navigating the interplay between quantum technology and standard-setting organizations, enabling organizations to safeguard the integrity of their practices and adapt proactively to the challenges ushered in by the advent of quantum supremacy. This endeavor also contributes to research by painting the standard-setting ecosystem and noting its intricate processes. The findings include the identification of organizations involved with quantum standards, as well as observed distinctions, similarities, and limitations between American and European standards. | 翻訳日:2023-11-27 00:34:40 公開日:2023-11-15 |
# ToolTalk: 会話環境におけるツール使用の評価 ToolTalk: Evaluating Tool-Usage in a Conversational Setting ( http://arxiv.org/abs/2311.10775v1 ) ライセンス: Link先を確認 | Nicholas Farn and Richard Shin | (参考訳) 大規模言語モデル(llm)は推論と意思決定スキルを大幅に改善し、ユーザとの自然な会話を保持できる。
最近の多くの研究は、LPMベースのアシスタントを外部ツールで強化し、プライベートまたは最新の情報にアクセスし、ユーザに代わってアクションを実行できるようにする。
本稿では、これらのアシスタントの性能をよりよく測定するために、対話によって特定される多段階ツールの使用を必要とする複雑なユーザ意図のベンチマークであるToolTalkを紹介する。
tooltalkには7つのプラグインにグループ化された28のツールが含まれており、各ツールの完全なシミュレート実装が含まれている。
tooltalkは、情報参照や検索のためのツールだけでなく、外部から世界に影響を与えるツールも強調する。
ツールTalkにおけるGPT-3.5とGPT-4の評価は,それぞれ26%,50%であった。
エラーを分析した結果,3つの主要なカテゴリが明らかとなり,今後の改善の方向性が示唆された。
ToolTalkはhttps://github.com/microsoft/ToolTalk.comでリリースしています。 Large language models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and carry out actions on behalf of users. To better measure the performance of these assistants, this paper introduces ToolTalk, a benchmark consisting of complex user intents requiring multi-step tool usage specified through dialogue. ToolTalk contains 28 tools grouped into 7 plugins, and includes a complete simulated implementation of each tool, allowing for fully automated evaluation of assistants that rely on execution feedback. ToolTalk also emphasizes tools that externally affect the world rather than only tools for referencing or searching information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and 50% respectively. Our analysis of the errors reveals three major categories and suggests some future directions for improvement. We release ToolTalk at https://github.com/microsoft/ToolTalk. | 翻訳日:2023-11-27 00:34:13 公開日:2023-11-15 |
# MMC:大規模インストラクションチューニングによるマルチモーダルチャート理解の促進 MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning ( http://arxiv.org/abs/2311.10774v1 ) ライセンス: Link先を確認 | Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu | (参考訳) 大規模言語モデル(LLM)の急速な開発と,大規模マルチモーダルモデル(LMM)への統合により,ユーザ指向の視覚言語タスクのゼロショット完了が目覚ましい進歩を遂げた。
しかし、グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にはギャップが残っている。
これに対処するために,600kインスタンスからなる大規模マルチモーダルチャート命令(mmc-instruction)データセットを導入し,多様なタスクとチャートタイプをサポートする。
このデータを活用することで、既存のグラフQAベンチマークで最先端のパフォーマンスを実現するLMMであるMultiModal Chart Assistant(MMCA)を開発する。
また、LMMチャート理解の総合的な評価の必要性を認識し、グラフ上の推論能力を評価する9つの異なるタスクを持つ総合的人間アノテーションベンチマークであるMultiModal Chart Benchmark(MMC-Benchmark)を提案する。
MMC-Benchmarkの大規模な実験は、最新のGPT-4Vモデルであっても、チャートを正しく解釈する既存のLMMの限界を明らかにしている。
本研究は,グラフのマルチモーダル理解を促進するための命令チューニング手法とベンチマークを提供する。 With the rapid development of large language models (LLMs) and their integration into large multimodal models (LMMs), there has been impressive progress in zero-shot completion of user-oriented vision-language tasks. However, a gap remains in the domain of chart image understanding due to the distinct abstract components in charts. To address this, we introduce a large-scale MultiModal Chart Instruction (MMC-Instruction) dataset comprising 600k instances supporting diverse tasks and chart types. Leveraging this data, we develop MultiModal Chart Assistant (MMCA), an LMM that achieves state-of-the-art performance on existing chart QA benchmarks. Recognizing the need for a comprehensive evaluation of LMM chart understanding, we also propose a MultiModal Chart Benchmark (MMC-Benchmark), a comprehensive human-annotated benchmark with 9 distinct tasks evaluating reasoning capabilities over charts. Extensive experiments on MMC-Benchmark reveal the limitations of existing LMMs on correctly interpreting charts, even for the most recent GPT-4V model. Our work provides an instruction-tuning methodology and benchmark to advance multimodal understanding of charts. | 翻訳日:2023-11-27 00:33:55 公開日:2023-11-15 |
# ユーザペルソナ識別と新しいサービス適応推薦 User Persona Identification and New Service Adaptation Recommendation ( http://arxiv.org/abs/2311.10773v1 ) ライセンス: Link先を確認 | Narges Tabari, Sandesh Swamy, Rashmi Gangadharaiah | (参考訳) 情報密度の高いウェブページ上でパーソナライズされたユーザーエクスペリエンスを提供することで、ユーザーはより早くエンドゴールに到達できる。
本稿では,Webページ上のユーザセッションから高次元軌跡情報を活用することによって,ユーザペルソナの自動識別手法を提案する。
ニューラルコラボレーティブ・フィルタリング(NCF)アプローチはトークンセマンティクスにはほとんど注意を払わないが,本手法では,ユーザ・トラジェクトリ(ページ,メタデータ,セッションの請求)に対するマスク付き言語モデリング(mlm)の目標をスクラッチからトレーニングしたトランスフォーマー支援言語モデルであるSessionBERTを導入する。
その結果、SessionBERTで学習した表現は、ページリンクと次のサービスを予測するためのF1スコアの3%と1%の相対的な改善を提供するBERTベースモデルより一貫して優れていることがわかった。
SessionBERTを活用し、それを拡張して、ユーザが使用しそうな次の最も関連性の高いサービスに対するレコメンデーション(トップ5)を提供します。
私たちは推奨モデルから58%のhit@5を達成しています。 Providing a personalized user experience on information dense webpages helps users in reaching their end-goals sooner. We explore an automated approach to identifying user personas by leveraging high dimensional trajectory information from user sessions on webpages. While neural collaborative filtering (NCF) approaches pay little attention to token semantics, our method introduces SessionBERT, a Transformer-backed language model trained from scratch on the masked language modeling (mlm) objective for user trajectories (pages, metadata, billing in a session) aiming to capture semantics within them. Our results show that representations learned through SessionBERT are able to consistently outperform a BERT-base model providing a 3% and 1% relative improvement in F1-score for predicting page links and next services. We leverage SessionBERT and extend it to provide recommendations (top-5) for the next most-relevant services that a user would be likely to use. We achieve a HIT@5 of 58% from our recommendation model. | 翻訳日:2023-11-27 00:33:33 公開日:2023-11-15 |
# 音声データセットのためのダイアクリティカルティクスの自動復元 Automatic Restoration of Diacritics for Speech Data Sets ( http://arxiv.org/abs/2311.10771v1 ) ライセンス: Link先を確認 | Sara Shatnawi, Sawsan Alqahtani, Hanan Aldarmaki | (参考訳) 自動テキストベースのダイアクリティック復元モデルは、音声言語におけるドメインとスタイルシフトの結果、音声書き起こしに適用した場合に高いダイアクリティック誤り率を持つ。
本研究では,並列発話を用いた音声データに適用することで,自動ダイアクリティカルス復元の性能を向上させる可能性について検討する。
特に、比較的少量のアラビア語音声データに基づいて微調整された事前学習されたWhisper ASRモデルを用いて、音声発話の粗い発音書き起こしを生成し、変換器に基づく発音復元モデルに追加入力として使用する。
提案モデルは,同一領域内および2つの領域外テストセットにおいて,少なくとも5\%の絶対誤差率を低下させるとともに,同等のテキストのみモデルと比較して,ダイアクリティカル修復性能を一貫して向上させる。
本研究は, 音声データセットに対するテキストベースダイアクリティック復元モデルの不適切さと, 音声ベースダイアクリティック復元のための新たなベースラインを提供するものである。 Automatic text-based diacritic restoration models generally have high diacritic error rates when applied to speech transcripts as a result of domain and style shifts in spoken language. In this work, we explore the possibility of improving the performance of automatic diacritic restoration when applied to speech data by utilizing the parallel spoken utterances. In particular, we use the pre-trained Whisper ASR model fine-tuned on relatively small amounts of diacritized Arabic speech data to produce rough diacritized transcripts for the speech utterances, which we then use as an additional input for a transformer-based diacritic restoration model. The proposed model consistently improve diacritic restoration performance compared to an equivalent text-only model, with at least 5\% absolute reduction in diacritic error rate within the same domain and on two out-of-domain test sets. Our results underscore the inadequacy of current text-based diacritic restoration models for speech data sets and provide a new baseline for speech-based diacritic restoration. | 翻訳日:2023-11-27 00:33:13 公開日:2023-11-15 |
# 単語エキスパートの混合によるメモリ拡張言語モデル Memory Augmented Language Models through Mixture of Word Experts ( http://arxiv.org/abs/2311.10768v1 ) ライセンス: Link先を確認 | Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus | (参考訳) 言語モデルのパラメータ数をスケールアップすることは、パフォーマンスを改善する効果的なアプローチであることが証明されている。
高密度モデルでは、モデルサイズの増加はモデルの計算フットプリントを比例的に増加させる。
本研究では,学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し,知識豊富な語彙に基づくルーティング関数とエキスパートを提案する。
提案手法は、単語エキスパートの混合(mixed of word experts, mowe)と呼ばれ、大量の単語固有の専門家がスパースメモリの役割を担うメモリ拡張モデルと見なすことができる。
我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
さらに、MoWEは知識集約的なタスクにおいて通常のMoEモデルよりも優れており、スパースメモリを検索するカスタムメカニズムを呼び出す必要のある、より複雑なメモリ拡張アプローチと同じようなパフォーマンスを持つ。 Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory. | 翻訳日:2023-11-27 00:32:54 公開日:2023-11-15 |
# IaC構成の最適化:自然に着想を得たコンピューティングを用いたケーススタディ Optimizing IaC Configurations: a Case Study Using Nature-inspired Computing ( http://arxiv.org/abs/2311.10767v1 ) ライセンス: Link先を確認 | Eneko Osaba, Gorka Benguria, Jesus L. Lobo, Josu Diaz-de-Arcaya, Juncal Alonso and I\~naki Etxaniz | (参考訳) 過去数年間、最も研究されている人工知能の分野の1つは自然に触発されたコンピューティングである。
この特定のトピックに関する研究は、自然に触発されたアルゴリズムが様々な問題において高品質な結果に達することの適応性と能力のために、研究者や実践者がこのパラダイムに焦点を絞った関心を浮き彫りにしている。
実際、この種の手法は医学、輸送、産業、ソフトウェア工学といった異種分野の現実世界の問題を解決するためにうまく適用されている。
本論文の主な目的は,特定のソフトウェアエンジニアリング問題を解決するために,自然に触発された計算に基づくツールを記述することである。
直面する問題は、インフラストラクチャをコードデプロイメント構成として最適化することである。
このため、システムの名前はIaC Optimizer Platformである。
IOPのプロトタイプバージョンが以前の研究で説明されており、このプラットフォームの機能が導入されている。
本稿では、IOPの最終リリースを説明し、現在の最先端に関する主な貢献を強調し、その実装上の決定を正当化する。
また、統合されたプラットフォーム内でのIOPのコンテキスト化も行い、ユーザがその利用の恩恵を受ける方法を説明します。
そのためには,実世界のユースケースも提示し,解決する。 In the last years, one of the fields of artificial intelligence that has been investigated the most is nature-inspired computing. The research done on this specific topic showcases the interest that sparks in researchers and practitioners, who put their focus on this paradigm because of the adaptability and ability of nature-inspired algorithms to reach high-quality outcomes on a wide range of problems. In fact, this kind of methods has been successfully applied to solve real-world problems in heterogeneous fields such as medicine, transportation, industry, or software engineering. Our main objective with this paper is to describe a tool based on nature-inspired computing for solving a specific software engineering problem. The problem faced consists of optimizing Infrastructure as Code deployment configurations. For this reason, the name of the system is IaC Optimizer Platform. A prototypical version of the IOP was described in previous works, in which the functionality of this platform was introduced. With this paper, we take a step forward by describing the final release of the IOP, highlighting its main contribution regarding the current state-of-the-art, and justifying the decisions made on its implementation. Also, we contextualize the IOP within the complete platform in which it is embedded, describing how a user can benefit from its use. To do that, we also present and solve a real-world use case. | 翻訳日:2023-11-27 00:32:40 公開日:2023-11-15 |
# Value FULCRA:大きな言語モデルを基本的人間の価値の多次元スペクトルにマッピングする Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values ( http://arxiv.org/abs/2311.10766v1 ) ライセンス: Link先を確認 | Jing Yao, Xiaoyuan Yi, Xiting Wang, Yifan Gong and Xing Xie | (参考訳) LLM(Large Language Models)の急速な進歩は、彼らの責任ある開発に対する価値アライメントに大きな注目を集めている。
しかし、この文脈で値をどのように定義するかは、ほとんど未解決の問題だ。
既存の作業は、主に有益で正直で無害な原則に従い、aiコミュニティで定式化されたリスク基準、例えば公平さとプライバシ保護、不十分な明快さ、適応性、透明性に苦しむこと、などを規定している。
人類の基本的価値と文化をまたがる社会科学に着想を得た本研究は,新しい基本的価値のアライメントパラダイムを提案し,基本的価値次元にまたがる価値空間を導入する。
LLMのすべての振る舞いは、基礎となる値を特定し、3つの課題に対処する可能性を持つことによって、空間にマッピングすることができる。
将来の研究を促進するために、シュワルツの基本的な値の理論を初期化の例とし、5k(llm出力、値ベクトル)ペアからなるデータセットであるfulcraを構築する。
FULCRAを広範囲に分析した結果, 基本値とLCMの挙動の関係が明らかになり, 既存のリスクだけでなく, 未同定のリスクも予測できることがわかった。
さらに,本行における今後の研究の道筋を示す,基本的な価値評価とアライメントの初期実装について述べる。 The rapid advancement of Large Language Models (LLMs) has attracted much attention to value alignment for their responsible development. However, how to define values in this context remains a largely unexplored question. Existing work mainly follows the Helpful, Honest, Harmless principle and specifies values as risk criteria formulated in the AI community, e.g., fairness and privacy protection, suffering from poor clarity, adaptability and transparency. Inspired by basic values in humanity and social science across cultures, this work proposes a novel basic value alignment paradigm and introduces a value space spanned by basic value dimensions. All LLMs' behaviors can be mapped into the space by identifying the underlying values, possessing the potential to address the three challenges. To foster future research, we apply the representative Schwartz's Theory of Basic Values as an initialized example and construct FULCRA, a dataset consisting of 5k (LLM output, value vector) pairs. Our extensive analysis of FULCRA reveals the underlying relation between basic values and LLMs' behaviors, demonstrating that our approach not only covers existing mainstream risks but also anticipates possibly unidentified ones. Additionally, we present an initial implementation of the basic value evaluation and alignment, paving the way for future research in this line. | 翻訳日:2023-11-27 00:32:22 公開日:2023-11-15 |
# 高度なインコンテキスト学習による機械翻訳の強化: GPT-4改善のための方法論戦略 Enhancing Machine Translation through Advanced In-Context Learning: A Methodological Strategy for GPT-4 Improvement ( http://arxiv.org/abs/2311.10765v1 ) ライセンス: Link先を確認 | Yufeng Chen | (参考訳) GPT-4の翻訳精度を改善するための課題は、インコンテキスト学習と呼ばれる手法を利用することによって解決されている。
本稿では,機械学習の精度向上を目標とし,機械学習を特に機械翻訳に活用する戦略的アプローチを提案する。
この手法の要点は、文脈内学習に最も効果的である実演の司法的選択にある。
これらの例を慎重に選択することで、GPT-4はそれらを極めて正確な機械翻訳に利用でき、タスク固有の微調整は不要である。
このテクニックは、ユーザのプロンプトと選択したデータセットの間のセマンティックな類似性に根ざしている。
このデータセットからの文は、その妥当性と明快さを慎重に選び、文脈内学習のための強力なデモンストレーションとなる。
このアプローチは翻訳精度を向上させるだけでなく、ニュアンス言語構造の理解を深める。
GPT-4の本質的な能力を活用して、正確であるだけでなく、文脈的にリッチで言語的に洗練された翻訳を提供する。
この手法は、言語障壁を克服する文脈内学習の可能性を示し、異文化間コミュニケーションとグローバルコラボレーションのための新しい道を開く。 The challenge of improving translation accuracy in GPT-4 is being addressed by harnessing a method known as in-context learning. This paper introduces a strategic approach to utilize in-context learning specifically for machine translation, aiming to significantly boost accuracy. The crux of this method lies in the judicious selection of demonstrations that are most effective for in-context learning. By selecting these examples carefully, GPT-4 can utilize them to achieve remarkably accurate machine translations, eliminating the need for task-specific fine-tuning. This technique is anchored in the semantic similarities between the user's prompt and the chosen dataset. Sentences from this dataset, carefully picked for their relevance and clarity, serve as potent demonstrations for in-context learning. This approach not only enhances translation accuracy but also enriches the understanding of nuanced linguistic structures. It represents a significant step forward in machine learning, leveraging the inherent capabilities of GPT-4 to provide translations that are not only accurate but also contextually rich and linguistically sophisticated. This method demonstrates the potential of in-context learning in overcoming language barriers, opening new avenues for cross-cultural communication and global collaboration. | 翻訳日:2023-11-27 00:31:58 公開日:2023-11-15 |
# PMIサンプリング:航空行動認識のためのパッチ類似性誘導フレーム選択 PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action Recognition ( http://arxiv.org/abs/2304.06866v2 ) ライセンス: Link先を確認 | Ruiqi Xian, Xijun Wang, Divya Kothandaraman, Dinesh Manocha | (参考訳) 本稿では,映像行動認識における情報フレーム選択のための新しいアルゴリズムを提案する。
我々のアプローチは、人間のアクターがビデオフレームの小さな空間分解能を占有する移動カメラを用いて撮影される空中ビデオのために設計されている。
提案アルゴリズムは, 映像中の動きバイアスを利用して, 動画フレームの選択を可能にする。
パッチの類似度を測定することにより、隣接フレーム間の動きバイアスを定量化するためのパッチ相互情報(PMI)スコアの概念を導入する。
このスコアを用いて、あるフレームに含まれる他のフレームに対する識別運動情報量を評価する。
そこで,本研究では,漏洩するreluと累積分布関数を用いた適応的なフレーム選択手法を提案する。
このアプローチは、あらゆるアクション認識モデルと統合でき、その精度を高めます。
実際には、UAV-Humanの2.2~13.8%、NEC Droneの6.8%、Diving48データセットの9.0%の相対的な改善を実現している。 We present a new algorithm for selection of informative frames in video action recognition. Our approach is designed for aerial videos captured using a moving camera where human actors occupy a small spatial resolution of video frames. Our algorithm utilizes the motion bias within aerial videos, which enables the selection of motion-salient frames. We introduce the concept of patch mutual information (PMI) score to quantify the motion bias between adjacent frames, by measuring the similarity of patches. We use this score to assess the amount of discriminative motion information contained in one frame relative to another. We present an adaptive frame selection strategy using shifted leaky ReLu and cumulative distribution function, which ensures that the sampled frames comprehensively cover all the essential segments with high motion salience. Our approach can be integrated with any action recognition model to enhance its accuracy. In practice, our method achieves a relative improvement of 2.2 - 13.8% in top-1 accuracy on UAV-Human, 6.8% on NEC Drone, and 9.0% on Diving48 datasets. | 翻訳日:2023-11-22 20:02:45 公開日:2023-11-15 |
# 大規模言語モデルを用いた時間的知識グラフのゼロショット関係学習 Zero-Shot Relational Learning on Temporal Knowledge Graphs with Large Language Models ( http://arxiv.org/abs/2311.10112v1 ) ライセンス: Link先を確認 | Zifeng Ding, Heling Cai, Jingpei Wu, Yunpu Ma, Ruotong Liao, Bo Xiong, Volker Tresp | (参考訳) 近年,時間的知識グラフ(TKG)を用いた進化的知識のモデリングが熱い話題となっている。
TKGのリンクを予測するための様々な手法が提案されている。
隠れた表現は、観察されたグラフコンテキストに基づいて知識グラフ(kg)エンティティと関係を表現するために学習される。
これらの手法は従来のTKG予測(TKGF)ベンチマークで強い性能を示すが、従来のグラフコンテキストを持たないゼロショット関係をモデル化するよう求められると、当然大きな課題に直面する。
本稿では,この問題を次のように緩和しようと試みる。
まず,KG関係のテキスト記述を大言語モデル(LLM)に入力して関係表現を生成し,それを埋め込みベースのTKGF手法に導入する。
llmによる表現は、関係記述における意味情報をキャプチャできる。
これにより、類似の意味を持つ関係が埋め込み空間に近づき、TKGFモデルは観測されたグラフコンテキストがなくてもゼロショット関係を認識することができる。
実験結果から,TKGFモデルでは従来見つからなかった関係性のある事実を予測し,その関係性に関する予測を関連づける能力を維持しつつ,より優れた性能が得られることが示された。 In recent years, modeling evolving knowledge over temporal knowledge graphs (TKGs) has become a heated topic. Various methods have been proposed to forecast links on TKGs. Most of them are embedding-based, where hidden representations are learned to represent knowledge graph (KG) entities and relations based on the observed graph contexts. Although these methods show strong performance on traditional TKG forecasting (TKGF) benchmarks, they naturally face a strong challenge when they are asked to model the unseen zero-shot relations that has no prior graph context. In this paper, we try to mitigate this problem as follows. We first input the text descriptions of KG relations into large language models (LLMs) for generating relation representations, and then introduce them into embedding-based TKGF methods. LLM-empowered representations can capture the semantic information in the relation descriptions. This makes the relations, whether seen or unseen, with similar semantic meanings stay close in the embedding space, enabling TKGF models to recognize zero-shot relations even without any observed graph context. Experimental results show that our approach helps TKGF models to achieve much better performance in forecasting the facts with previously unseen relations, while still maintaining their ability in link forecasting regarding seen relations. | 翻訳日:2023-11-22 15:50:02 公開日:2023-11-15 |
# videocon:コントラストキャプションによるロバストなビデオ言語アライメント VideoCon: Robust Video-Language Alignment via Contrast Captions ( http://arxiv.org/abs/2311.10111v1 ) ライセンス: Link先を確認 | Hritik Bansal, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang, Aditya Grover | (参考訳) 大量のデータに基づいて(事前)訓練されているにもかかわらず、最先端のビデオ言語アライメントモデルは、ビデオキャプションのセマンティックな対照的な変化に対して堅牢ではない。
私たちの研究は、エンティティやアクションの置き換え、イベント順序の反転といった、アライメントモデルに対して堅牢であるような、幅広いコントラストのミスアライメントを特定することで、この問題に対処しています。
この目的のために,大容量の言語モデルを用いて構築されたビデオ言語アライメントデータセットであるVideoConを導入し,ビデオキャプションとオリジナルキャプションとコントラストキャプションの違いを説明する。
次に、生成的ビデオ言語モデルにvideoconを微調整して、ビデオ言語含量を評価し、説明を生成する。
当社のビデオコンベースのアライメントモデルは,現在のモデルを大幅に上回っています。
コントラストキャプションを用いた映像言語アライメントタスクでは,aucが12ポイント向上している。
最後に,テキスト・ツー・ビデオ検索 (SSv2-Temporal) やビデオ質問応答 (ATP-Hard) など,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
さらに,本モデルでは,新しいビデオや人造キャプションや説明文に優れた性能を示す。
コードとデータはhttps://github.com/hritikbansal/videocon.comから入手できます。 Despite being (pre)trained on a massive amount of data, state-of-the-art video-language alignment models are not robust to semantically-plausible contrastive changes in the video captions. Our work addresses this by identifying a broad spectrum of contrast misalignments, such as replacing entities, actions, and flipping event order, which alignment models should be robust against. To this end, we introduce the VideoCon, a video-language alignment dataset constructed by a large language model that generates plausible contrast video captions and explanations for differences between original and contrast video captions. Then, a generative video-language model is finetuned with VideoCon to assess video-language entailment and generate explanations. Our VideoCon-based alignment model significantly outperforms current models. It exhibits a 12-point increase in AUC for the video-language alignment task on human-generated contrast captions. Finally, our model sets new state of the art zero-shot performance in temporally-extensive video-language tasks such as text-to-video retrieval (SSv2-Temporal) and video question answering (ATP-Hard). Moreover, our model shows superior performance on novel videos and human-crafted captions and explanations. Our code and data are available at https://github.com/Hritikbansal/videocon. | 翻訳日:2023-11-22 15:49:41 公開日:2023-11-15 |
# 電子スピン浴における個々の電子スピン対の制御 Control of individual electron-spin pairs in an electron-spin bath ( http://arxiv.org/abs/2311.10110v1 ) ライセンス: Link先を確認 | H. P. Bartling, N. Demetriou, N. C. F. Zutt, D. Kwiatkowski, M. J. Degen, S. J. H. Loenen, C. E. Bradley, M. Markham, D. J. Twitchen, T. H. Taminiau | (参考訳) 結合電子スピン浴のダイナミクスによる中心電子スピンの脱コヒーレンスは、固体スピン物理学における中核的な問題である。
アンサンブル実験は中心スピンコヒーレンスを詳細に研究しているが、そのような実験は浴槽の量子力学を平均している。
ここで、電子スピン浴における個々のnv中心のコヒーレントなバックアクションを示し、それを用いて一対の浴スピンのダイナミクスを検出し、準備し、制御する。
電子スピン対に符号化された量子ビットに対して,NVペア系をサブナノメータ分解能で撮像し,長い劣化時間(T_2^* = 44(9)$ ms)を明らかにする。
実験では、中心スピンデコヒーレンスの基礎となる微視的量子力学を明らかにし、相互作用するスピン系の制御とセンシングの新たな機会を提供する。 The decoherence of a central electron spin due to the dynamics of a coupled electron-spin bath is a core problem in solid-state spin physics. Ensemble experiments have studied the central spin coherence in detail, but such experiments average out the underlying quantum dynamics of the bath. Here, we show the coherent back-action of an individual NV center on an electron-spin bath and use it to detect, prepare and control the dynamics of a pair of bath spins. We image the NV-pair system with sub-nanometer resolution and reveal a long dephasing time ($T_2^* = 44(9)$ ms) for a qubit encoded in the electron-spin pair. Our experiment reveals the microscopic quantum dynamics that underlie the central spin decoherence and provides new opportunities for controlling and sensing interacting spin systems. | 翻訳日:2023-11-22 15:49:16 公開日:2023-11-15 |
# 同値原理と慣性重力デコヒーレンス The equivalence principle and inertial-gravitational decoherence ( http://arxiv.org/abs/2210.08586v2 ) ライセンス: Link先を確認 | Giorgio Torrieri | (参考訳) この作品は2つの部分に分けられる。
1つ目は、ブロンシュタインの元々の反対から重力の量子化の観点からの絡み合いによる量子重力の「知性」に関する最近の提案について考察している。
オープン量子システムによる手法を用いて、プローブと検出器の間の慣性と重力の反作用の両方から避けられない非一貫性が、重力の量子化の実験的な検出を損なうことをスケッチする。
この「欠陥」は、量子力学に同値原理を正確に組み込もうとするあらゆる量子記述の固有の特徴であると主張する。
第2部では、コレレータの一般共分散による有効量子場理論において、同値原理の正確な実現がどのように実現されるのかを推測する。
このような理論の明示的な構成を与えるには程遠いが、そのようなプログラムの特徴と結果のいくつかを指摘する。 This work is divided into two parts. The first examines recent proposals for "witnessing" quantum gravity via entanglement from the point of view of Bronstein's original objection to a quantization of gravity. Using techniques from open quantum systems we sketch how unavoidable decoherence from both inertial and gravitational backreaction between probe and detector could spoil the experimental detection of the quantization of gravity. We argue that this "failure" is actually an inherent feature of any quantum description that attempts to incorporate the equivalence principle exactly within quantum dynamics. In the second part, we speculate on how an exact realization of the equivalence principle might be implemented in an effective quantum field theory via the general covariance of correlators. While we are far from giving an explicit construction of such a theory we point out some features and consequences of such a program. | 翻訳日:2023-11-18 01:18:22 公開日:2023-11-15 |
# 量子科学における機械学習の最近の応用 Modern applications of machine learning in quantum sciences ( http://arxiv.org/abs/2204.04198v3 ) ライセンス: Link先を確認 | Anna Dawid, Julian Arnold, Borja Requena, Alexander Gresch, Marcin P{\l}odzie\'n, Kaelan Donatella, Kim A. Nicoli, Paolo Stornati, Rouven Koch, Miriam B\"uttner, Robert Oku{\l}a, Gorka Mu\~noz-Gil, Rodrigo A. Vargas-Hern\'andez, Alba Cervera-Lierta, Juan Carrasquilla, Vedran Dunjko, Marylou Gabri\'e, Patrick Huembeli, Evert van Nieuwenburg, Filippo Vicentini, Lei Wang, Sebastian J. Wetzel, Giuseppe Carleo, Eli\v{s}ka Greplov\'a, Roman Krems, Florian Marquardt, Micha{\l} Tomza, Maciej Lewenstein, Alexandre Dauphin | (参考訳) 本書では、量子科学における機械学習手法の適用における最新の進歩を包括的に紹介する。
本稿では、位相分類、多体量子状態の表現、量子フィードバック制御、量子回路最適化のための教師付き、教師なし、強化学習アルゴリズムにおける深層学習とカーネル手法の利用について述べる。
さらに、微分可能プログラミング、生成モデル、機械学習に対する統計的アプローチ、量子機械学習など、より専門的なトピックを紹介し、議論する。 In this book, we provide a comprehensive introduction to the most recent advances in the application of machine learning methods in quantum sciences. We cover the use of deep learning and kernel methods in supervised, unsupervised, and reinforcement learning algorithms for phase classification, representation of many-body quantum states, quantum feedback control, and quantum circuits optimization. Moreover, we introduce and discuss more specialized topics such as differentiable programming, generative models, statistical approach to machine learning, and quantum machine learning. | 翻訳日:2023-11-18 01:16:50 公開日:2023-11-15 |
# スマートエージェントに基づくモデリング:コンピュータシミュレーションにおける大規模言語モデルの利用について Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations ( http://arxiv.org/abs/2311.06330v2 ) ライセンス: Link先を確認 | Zengqing Wu, Run Peng, Xu Han, Shuyuan Zheng, Yixin Zhang, Chuan Xiao | (参考訳) コンピュータシミュレーションは、様々な分野にわたる複雑なシステムを探索するための堅牢なツールセットを提供する。
この領域における特に影響力のあるアプローチはエージェントベースモデリング(abm)であり、個々のエージェントの相互作用を利用して複雑なシステムダイナミクスをエミュレートする。
ABMの強みはボトムアップ手法にあり、システムの個々のコンポーネントの振る舞いをモデル化することによって創発現象を照らす。
しかし、abmには独自の課題があり、特に自然言語の指示や数学的方程式や規則における常識のモデル化に苦慮している。
本稿では,GPT のような大規模言語モデル (LLM) を ABM に組み込むことにより,これらの境界を超越する手法を提案する。
この融合によって、新しいフレームワークであるスマートエージェントベースモデリング(SABM)が生まれた。
スマートエージェントの概念 - その知性、適応性、計算能力によって特徴づけられるエンティティ - に基づいて、私たちはLLMエージェントを使用して、ニュアンスとリアリズムを増大させた現実のシナリオをシミュレートする方向を探る。
本稿では,SABM技術の現状を解明し,SABMの可能性と方法論を紹介するとともに,SABM方法論を実証し,実世界のシステムモデリングにおけるその有効性を検証した3つのケーススタディ(https://github.com/Roihn/SABMで公開されているソースコード)を紹介する。
さらに、私たちはsabmの将来に関するいくつかの側面にビジョンを向け、その応用のより広い地平線を予測しました。
この取り組みを通じて、コンピュータシミュレーションの境界を再定義し、複雑なシステムのより深い理解を可能にしたいと考えています。 Computer simulations offer a robust toolset for exploring complex systems across various disciplines. A particularly impactful approach within this realm is Agent-Based Modeling (ABM), which harnesses the interactions of individual agents to emulate intricate system dynamics. ABM's strength lies in its bottom-up methodology, illuminating emergent phenomena by modeling the behaviors of individual components of a system. Yet, ABM has its own set of challenges, notably its struggle with modeling natural language instructions and common sense in mathematical equations or rules. This paper seeks to transcend these boundaries by integrating Large Language Models (LLMs) like GPT into ABM. This amalgamation gives birth to a novel framework, Smart Agent-Based Modeling (SABM). Building upon the concept of smart agents -- entities characterized by their intelligence, adaptability, and computation ability -- we explore in the direction of utilizing LLM-powered agents to simulate real-world scenarios with increased nuance and realism. In this comprehensive exploration, we elucidate the state of the art of ABM, introduce SABM's potential and methodology, and present three case studies (source codes available at https://github.com/Roihn/SABM), demonstrating the SABM methodology and validating its effectiveness in modeling real-world systems. Furthermore, we cast a vision towards several aspects of the future of SABM, anticipating a broader horizon for its applications. Through this endeavor, we aspire to redefine the boundaries of computer simulations, enabling a more profound understanding of complex systems. | 翻訳日:2023-11-18 01:08:51 公開日:2023-11-15 |
# 拡散モデルを用いた最接近時の位置不確かさの予測 Predicting the Position Uncertainty at the Time of Closest Approach with Diffusion Models ( http://arxiv.org/abs/2311.05417v2 ) ライセンス: Link先を確認 | Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti | (参考訳) 近年では、居住する宇宙物体同士の衝突の危険性が著しく増大している。
その結果、宇宙船の衝突回避手順は衛星の運用に欠かせない部分となった。
安全で効果的な宇宙活動を確保するために、衛星所有者とオペレーターは絶えず更新された遭遇の見積もりに依存する。
これらの推定には、期待されたTCAにおける各オブジェクトの位置に関連する不確実性が含まれる。
これらの推定は衝突回避管理などリスク軽減策の立案に不可欠である。
TCAが近づくにつれて、これらの推定の精度が向上し、物体の軌道決定と伝播の手順はより短い時間間隔で行われるようになった。
しかし、この改善は決定の重大な瞬間近くで行われるコストがかかる。
これは、安全な回避操作は不可能かもしれないし、重大なコストを発生させる可能性があることを意味する。
したがって、前もってこの変数の進化を知ることは作用素にとって重要である。
本研究では, 拡散モデルに基づく機械学習モデルを提案し, 接近する物体の位置の不確かさ, 特に, 予測不能な2次物体(通常デブリ)の位置不確実性を予測する。
その結果,提案手法は宇宙船運用の安全性と有効性を大幅に向上できる可能性が示唆された。 The risk of collision between resident space objects has significantly increased in recent years. As a result, spacecraft collision avoidance procedures have become an essential part of satellite operations. To ensure safe and effective space activities, satellite owners and operators rely on constantly updated estimates of encounters. These estimates include the uncertainty associated with the position of each object at the expected TCA. These estimates are crucial in planning risk mitigation measures, such as collision avoidance manoeuvres. As the TCA approaches, the accuracy of these estimates improves, as both objects' orbit determination and propagation procedures are made for increasingly shorter time intervals. However, this improvement comes at the cost of taking place close to the critical decision moment. This means that safe avoidance manoeuvres might not be possible or could incur significant costs. Therefore, knowing the evolution of this variable in advance can be crucial for operators. This work proposes a machine learning model based on diffusion models to forecast the position uncertainty of objects involved in a close encounter, particularly for the secondary object (usually debris), which tends to be more unpredictable. We compare the performance of our model with other state-of-the-art solutions and a na\"ive baseline approach, showing that the proposed solution has the potential to significantly improve the safety and effectiveness of spacecraft operations. | 翻訳日:2023-11-18 01:08:25 公開日:2023-11-15 |
# 強化学習における近似のある種のネイティブ空間における収束率 Rates of Convergence in Certain Native Spaces of Approximations used in Reinforcement Learning ( http://arxiv.org/abs/2309.07383v3 ) ライセンス: Link先を確認 | Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John Burns, Eugenio Schuster | (参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)$H(\Omega)$の集合に生じる値関数近似の収束率について研究する。
自然空間の特定のクラスに最適制御問題をキャストすることにより、ポリシー反復に現れるオフライン近似を可能にする演算子方程式に対して強い収束率が導出される。
値関数とコントローラ近似における誤差の明示的な上限は、ネイティブ空間 $h(\omega)$ における有限次元近似値 $h_n$ の空間に対するパワー関数 $\pwr_{h,n}$ によって導出される。
これらの境界は自然界において幾何学的であり、値関数の近似の収束に関する古典的結果のいくつかを洗練している。 This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel Hilbert spaces (RKHS) $H(\Omega)$. By casting an optimal control problem in a specific class of native spaces, strong rates of convergence are derived for the operator equation that enables offline approximations that appear in policy iteration. Explicit upper bounds on error in value function and controller approximations are derived in terms of power function $\Pwr_{H,N}$ for the space of finite dimensional approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric in nature and refine some well-known, now classical results concerning convergence of approximations of value functions. | 翻訳日:2023-11-18 01:06:00 公開日:2023-11-15 |
# 電子光学フォトニック集積回路の基本電荷ノイズ Fundamental charge noise in electro-optic photonic integrated circuits ( http://arxiv.org/abs/2308.15404v3 ) ライセンス: Link先を確認 | Junyin Zhang, Zihan Li, Johann Riemensberger, Grigory Lihachev, Guanhao Huang, Tobias J. Kippenberg | (参考訳) 熱力学的測定ノイズを理解することは、電荷キャリアのブラウン運動が限界を呈するマスファブリケート半導体センサからの熱的および光学的精度測定において重要なものであり、屈折率と長さ変動への温度変動の伝達による熱屈折性および熱弾性ノイズによって制限される原子時計の光学的基準空洞や重力波検出までである。
本研究では,最近出現した電気光学フォトニック集積回路において,不意に帯電したキャリア密度のゆらぎが新たなノイズ過程を引き起こすことを見出した。
ニオブ酸リチウムとタンタル酸リチウムのマイクロ共振体は、そのノイズ特性に予期せぬスケール(すなわち1/f^{1.2}$)を示し、定評ある熱屈折率ノイズ理論とは大きく異なる。
このノイズは熱力学的電荷ノイズと整合しており、電気光学材料の強いポッケルス効果によって伝達される電場ゆらぎをもたらす。
この結果から,ポッケルス集積フォトニクスの基本的限界として,超高速波長可変・低雑音レーザー,ポッケルスソリトンマイクロコム,量子トランスダクション,シャープ光,エンタングル光対生成など,古典的・量子的デバイスの性能限界を決定する上で重要な電気的ジョンソン・ニキストノイズが得られた。
同様に、この観測は、異常な精度でメソスコピック電荷変動を探査する光学的方法を提供する。 Understanding thermodynamical measurement noise is of central importance for electrical and optical precision measurements from mass-fabricated semiconductor sensors, where the Brownian motion of charge carriers poses limits, to optical reference cavities for atomic clocks or gravitational wave detection, which are limited by thermorefractive and thermoelastic noise due to the transduction of temperature fluctuations to the refractive index and length fluctuations. Here, we discover that unexpectedly charge carrier density fluctuations give rise to a novel noise process in recently emerged electro-optic photonic integrated circuits. We show that Lithium Niobate and Lithium Tantalate photonic integrated microresonators exhibit an unexpected Flicker type (i.e. $1/f^{1.2}$) scaling in their noise properties, significantly deviating from the well-established thermorefractive noise theory. We show that this noise is consistent with thermodynamical charge noise, which leads to electrical field fluctuations that are transduced via the strong Pockels effects of electro-optic materials. Our results establish electrical Johnson-Nyquist noise as the fundamental limitation for Pockels integrated photonics, crucial for determining performance limits for both classical and quantum devices, ranging from ultra-fast tunable and low-noise lasers, Pockels soliton microcombs, to quantum transduction, squeezed light or entangled photon-pair generation. Equally, this observation offers optical methods to probe mesoscopic charge fluctuations with exceptional precision. | 翻訳日:2023-11-18 01:05:12 公開日:2023-11-15 |
# 量子最適制御によるJaynes-Cummings格子の状態形成 State Preparation in a Jaynes-Cummings Lattice with Quantum Optimal Control ( http://arxiv.org/abs/2306.11968v2 ) ライセンス: Link先を確認 | Prabin Parajuli, Anuvetha Govindarajan, and Lin Tian | (参考訳) 相互作用する多体系における量子状態の高忠実性は、しばしばそのような状態の知識の欠如と非一貫性時間の制限によって妨げられる。
本稿では,有限サイズのJanes-Cummings格子における量子基底状態の高速生成のための量子最適制御(QOC)手法について検討する。
以上の結果から,QOC法では,進化時間がしきい値を超えると高忠実度で量子多体状態が生成でき,断熱的アプローチよりも著しく優れることが示された。
パラメータ制約に対するしきい値時間の依存性と、しきい値時間と量子速度限界との接続について検討した。
また、QOCアプローチは制御誤差に対して堅牢であることを示す。
以上の結果からQOCの多体製剤への応用が進展する可能性が示唆された。 High-fidelity preparation of quantum states in an interacting many-body system is often hindered by the lack of knowledge of such states and by limited decoherence times. Here we study a quantum optimal control (QOC) approach for fast generation of quantum ground states in a finite-sized Jaynes-Cummings lattice with unit filling. Our result shows that the QOC approach can generate quantum many-body states with high fidelity when the evolution time is above a threshold time, and it can significantly outperform the adiabatic approach. We study the dependence of the threshold time on the parameter constraints and the connection of the threshold time with the quantum speed limit. We also show that the QOC approach can be robust against control errors. Our result can lead to advances in the application of the QOC for many-body state preparation. | 翻訳日:2023-11-18 01:03:38 公開日:2023-11-15 |
# 限界制約下における最大エントロピーのカテゴリー分布 Categorical Distributions of Maximum Entropy under Marginal Constraints ( http://arxiv.org/abs/2204.03406v2 ) ライセンス: Link先を確認 | Orestis Loukas, Ho Ryun Chung | (参考訳) 最も一般的な方法で集団からサンプルを要約する限界制約の下でのカテゴリー分布の推定は、多くの機械学習とデータ駆動アプローチにとって鍵となる。
このタスクの保証を可能にするパラメータ非依存の理論的枠組みを提供する
(i)限界制約の下での最大エントロピーのカテゴリー分布が常に存在すること、及び
(ii)独特であること。
反復比例フィッティング(IPF)の手順は自然に、確率空間における任意の一貫した限界制約の集合からの分布を推定するので、人口の最も偏りのない特徴を導出的に特定する。
IPFと共に理論フレームワークは、提供された現象学的情報のみを用いて分類分布のクラスをモデリングできる包括的なワークフローをもたらす。 The estimation of categorical distributions under marginal constraints summarizing some sample from a population in the most-generalizable way is key for many machine-learning and data-driven approaches. We provide a parameter-agnostic theoretical framework that enables this task ensuring (i) that a categorical distribution of Maximum Entropy under marginal constraints always exists and (ii) that it is unique. The procedure of iterative proportional fitting (IPF) naturally estimates that distribution from any consistent set of marginal constraints directly in the space of probabilities, thus deductively identifying a least-biased characterization of the population. The theoretical framework together with IPF leads to a holistic workflow that enables modeling any class of categorical distributions solely using the phenomenological information provided. | 翻訳日:2023-11-17 23:12:06 公開日:2023-11-15 |
# 重み付き異方性-等方性全変動を伴う効率的な平滑化と閾値画像分割フレームワーク An Efficient Smoothing and Thresholding Image Segmentation Framework with Weighted Anisotropic-Isotropic Total Variation ( http://arxiv.org/abs/2202.10115v5 ) ライセンス: Link先を確認 | Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin | (参考訳) 本稿では,異方性および等方性全変動(AITV)の重み付き差を組み込んだ,効率的な多段階画像分割フレームワークを設計する。
セグメンテーションフレームワークは一般的に、平滑化としきい値化という2つの段階で構成されている。
第1段階では、$\ell_1-\alpha \ell_2$正則化器の近位演算子の閉形式解と乗算器(ADMM)の交互方向法により効率よく解けるAITV正規化ムフォードシャー(MS)モデルにより滑らかな画像を得る。
ADMMアルゴリズムの収束性を分析する。
第2段階では、スムーズな画像を$K$-meansクラスタリングで閾値付けし、最終的なセグメンテーション結果を得る。
数値実験により, 提案したセグメンテーションフレームワークは, グレースケールとカラー画像の両方に汎用性があり, 高品質なセグメンテーション結果を数秒以内で生成し, ノイズやぼかし, あるいはその両方で劣化した画像に対して頑健であることが示された。
提案手法の質的,定量的優位性を実証し,AITV法と元の凸型TVと非凸型TVの^p(0<p<1)$とを比較した。 In this paper, we design an efficient, multi-stage image segmentation framework that incorporates a weighted difference of anisotropic and isotropic total variation (AITV). The segmentation framework generally consists of two stages: smoothing and thresholding, thus referred to as SaT. In the first stage, a smoothed image is obtained by an AITV-regularized Mumford-Shah (MS) model, which can be solved efficiently by the alternating direction method of multipliers (ADMM) with a closed-form solution of a proximal operator of the $\ell_1 -\alpha \ell_2$ regularizer. Convergence of the ADMM algorithm is analyzed. In the second stage, we threshold the smoothed image by $K$-means clustering to obtain the final segmentation result. Numerical experiments demonstrate that the proposed segmentation framework is versatile for both grayscale and color images, efficient in producing high-quality segmentation results within a few seconds, and robust to input images that are corrupted with noise, blur, or both. We compare the AITV method with its original convex TV and nonconvex TV$^p (0<p<1)$ counterparts, showcasing the qualitative and quantitative advantages of our proposed method. | 翻訳日:2023-11-17 23:11:31 公開日:2023-11-15 |
# パレートフロンティアにおける機械学習のための公正なデータ表現 Fair Data Representation for Machine Learning at the Pareto Frontier ( http://arxiv.org/abs/2201.00292v3 ) ライセンス: Link先を確認 | Shizhou Xu, Thomas Strohmer | (参考訳) 機械学習による意思決定が日々の生活においてますます重要になるにつれて、基盤となるデータ処理の公平性のために努力することが不可欠である。
本稿では,予測誤差と統計的不一致のパレートフロンティアを教師あり学習により推定する,公平なデータ表現のための前処理アルゴリズムを提案する。
特に,本研究は,処理後のwasserstein-2のバリセンターへのアプローチに最適なアフィントランスポートを適用し,事前処理データ変形による最適fair $l^2$-objective教師付き学習のキャラクタリゼーションを行う。
さらに,学習結果の条件付分布(センシティブ情報上)からのwasserstein-2測地線は,学習結果のセンシティブグループ間のparetofrontier between $l^2$-loss and the average pairwise wasserstein-2 distanceを特徴付ける。
数値シミュレーションでは,(1)事前処理ステップは任意の条件予測推定学習手法と未知のデータとを併用し,(2)公正表現は,その機密データに対する残余データの推論能力を制限することによりセンシティブ情報を保護し,(3)高次元データにおいても最適アフィンマップは計算的に効率的である。 As machine learning powered decision-making becomes increasingly important in our daily lives, it is imperative to strive for fairness in the underlying data processing. We propose a pre-processing algorithm for fair data representation via which supervised learning results in estimations of the Pareto frontier between prediction error and statistical disparity. Particularly, the present work applies the optimal affine transport to approach the post-processing Wasserstein-2 barycenter characterization of the optimal fair $L^2$-objective supervised learning via a pre-processing data deformation. Furthermore, we show that the Wasserstein-2 geodesics from the conditional (on sensitive information) distributions of the learning outcome to their barycenter characterizes the Pareto frontier between $L^2$-loss and the average pairwise Wasserstein-2 distance among sensitive groups on the learning outcome. Numerical simulations underscore the advantages: (1) the pre-processing step is compositive with arbitrary conditional expectation estimation supervised learning methods and unseen data; (2) the fair representation protects the sensitive information by limiting the inference capability of the remaining data with respect to the sensitive data; (3) the optimal affine maps are computationally efficient even for high-dimensional data. | 翻訳日:2023-11-17 23:10:30 公開日:2023-11-15 |
# student of games: 完全かつ不完全な情報ゲームのための統一学習アルゴリズム Student of Games: A unified learning algorithm for both perfect and imperfect information games ( http://arxiv.org/abs/2112.03178v2 ) ライセンス: Link先を確認 | Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, G. Zacharias Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling | (参考訳) ゲームは人工知能の進歩のベンチマークとして長い歴史がある。
探索と学習のアプローチは多くの完全情報ゲームに対して強い性能を示し、ゲーム理論の推論と学習によるアプローチは、特定の不完全な情報ポーカー変種に対して強い性能を示した。
我々は,従来のアプローチを統一した汎用アルゴリズムであるSings of Gamesを紹介し,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた。
ゲームの学生は、巨大な完全で不完全な情報ゲームにおいて強力な経験的パフォーマンスを達成している。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
ゲームズ・オブ・ゲームズ(英語版)はチェスと囲碁で強いパフォーマンスを獲得し、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、最先端のエージェントであるスコットランドヤード(英語版)を破り、ガイド付き検索、学習、ゲーム理論の推論の価値を描写する不完全な情報ゲームとなった。 Games have a long history as benchmarks for progress in artificial intelligence. Approaches using search and learning produced strong performance across many perfect information games, and approaches using game-theoretic reasoning and learning demonstrated strong performance for specific imperfect information poker variants. We introduce Student of Games, a general-purpose algorithm that unifies previous approaches, combining guided search, self-play learning, and game-theoretic reasoning. Student of Games achieves strong empirical performance in large perfect and imperfect information games -- an important step towards truly general algorithms for arbitrary environments. We prove that Student of Games is sound, converging to perfect play as available computation and approximation capacity increases. Student of Games reaches strong performance in chess and Go, beats the strongest openly available agent in heads-up no-limit Texas hold'em poker, and defeats the state-of-the-art agent in Scotland Yard, an imperfect information game that illustrates the value of guided search, learning, and game-theoretic reasoning. | 翻訳日:2023-11-17 23:10:06 公開日:2023-11-15 |
# 不均質な治療効果を推定するために複数のランダム化試行を組み合わせる方法の比較 Comparison of Methods that Combine Multiple Randomized Trials to Estimate Heterogeneous Treatment Effects ( http://arxiv.org/abs/2303.16299v2 ) ライセンス: Link先を確認 | Carly Lupton Brantner, Trang Quynh Nguyen, Tengjie Tang, Congwen Zhao, Hwanhee Hong, Elizabeth A. Stuart | (参考訳) 個別化された治療決定は、健康的な結果を改善するが、データを使用して、信頼できる、正確で、一般化可能な方法で決定を行うことは、単一のデータセットでは困難である。
複数のランダム化制御試験を利用することで、不均質な治療効果をより正確に見積もるために、データセットと根拠のない治療割り当てを組み合わせることができる。
本稿では,複数試行データを用いて不均一な治療効果を推定するための非パラメトリックアプローチについて述べる。
我々は,複数回の試行で単一研究手法をシナリオに拡張し,その性能をシミュレーション実験により検証し,各分野の異種性の異なるデータ生成シナリオについて検討する。
シミュレーションにより, 治験間での処理効果の均一性を直接許容する手法は, 実施しない方法よりも優れており, 単一研究方法の選択は, 処理効果の機能形式に基づいて重要であることが示された。
最後に、どの方法が各設定でうまく機能するかを検討し、4つのランダム化対照試験に適用し、大うつ病障害に対する治療の効果の多様性について検討する。 Individualized treatment decisions can improve health outcomes, but using data to make these decisions in a reliable, precise, and generalizable way is challenging with a single dataset. Leveraging multiple randomized controlled trials allows for the combination of datasets with unconfounded treatment assignment to better estimate heterogeneous treatment effects. This paper discusses several non-parametric approaches for estimating heterogeneous treatment effects using data from multiple trials. We extend single-study methods to a scenario with multiple trials and explore their performance through a simulation study, with data generation scenarios that have differing levels of cross-trial heterogeneity. The simulations demonstrate that methods that directly allow for heterogeneity of the treatment effect across trials perform better than methods that do not, and that the choice of single-study method matters based on the functional form of the treatment effect. Finally, we discuss which methods perform well in each setting and then apply them to four randomized controlled trials to examine effect heterogeneity of treatments for major depressive disorder. | 翻訳日:2023-11-17 23:01:46 公開日:2023-11-15 |
# MITFAS:空中ビデオ行動認識のための相互情報に基づく時間的特徴アライメントとサンプリング MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition ( http://arxiv.org/abs/2303.02575v2 ) ライセンス: Link先を確認 | Ruiqi Xian, Xijun Wang, Dinesh Manocha | (参考訳) UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々の定式化は、UAVの移動による閉塞や視点の変化を扱うように設計されている。
我々は、相互情報の概念を用いて、時間領域における人間の行動や動きに対応する領域を計算・調整する。
これにより,動作に関する重要な特徴から認識モデルを学ぶことができる。
また,協調的な相互情報を用いて,uavビデオにおける最も有用なフレームシーケンスを取得する新しいフレームサンプリング手法を提案する。
提案手法をX3Dと統合し,複数のデータセットの性能評価を行った。
実際には、UAV-Human(Li et al., 2021)の最先端手法よりも18.9%の精度向上、Drone-Action(Perera et al., 2019)の7.3%の改善、NEC Drones(Choi et al., 2020)の7.16%の改善を実現している。 We present a novel approach for action recognition in UAV videos. Our formulation is designed to handle occlusion and viewpoint changes caused by the movement of a UAV. We use the concept of mutual information to compute and align the regions corresponding to human action or motion in the temporal domain. This enables our recognition model to learn from the key features associated with the motion. We also propose a novel frame sampling method that uses joint mutual information to acquire the most informative frame sequence in UAV videos. We have integrated our approach with X3D and evaluated the performance on multiple datasets. In practice, we achieve 18.9% improvement in Top-1 accuracy over current state-of-the-art methods on UAV-Human(Li et al., 2021), 7.3% improvement on Drone-Action(Perera et al., 2019), and 7.16% improvement on NEC Drones(Choi et al., 2020). | 翻訳日:2023-11-17 23:00:36 公開日:2023-11-15 |
# 歩行液滴とグラニュラーイントルーダ実験における深層学習に基づく物体追跡 Deep Learning Based Object Tracking in Walking Droplet and Granular Intruder Experiments ( http://arxiv.org/abs/2302.05425v2 ) ライセンス: Link先を確認 | Erdi Kara, George Zhang, Joseph J. Williams, Gonzalo Ferrandez-Quinto, Leviticus J. Rhoden, Maximilian Kim, J. Nathan Kutz, Aminur Rahman | (参考訳) 歩行液滴および粒状侵入実験に関心のあるディープラーニングに基づく追跡対象を提案する。
典型的な歩行液滴実験では、 \textit{walker} として知られる液体液滴が、同じ液体の振動する浴槽の自由表面を横方向に推進する。
この運動は、連続したバウンス後に滴自体によって生じる表面波と液滴の間の相互作用の結果である。
歩行器は、その運動の過程で非常に不規則な軌道を示し、高速加速や、同じ浴槽に存在する他の歩行器との複雑な相互作用を含む。
流体力学実験と類似して、粒状物質実験は、非常に小さな固体粒子の振動浴とより大きな固体の \textit{intruder} からなる。
流体液滴と同様に、侵入者は浴槽の波によってドメインと相互作用し、移動するが、液滴よりもはるかに遅く、より滑らかに動く傾向にある。
複数の侵入者が導入されると、それらは互いに複雑な相互作用を示す。
我々は、最先端の物体検出モデルYOLOとハンガリーアルゴリズムを利用して、歩行者や侵入者の軌道をリアルタイムで正確に抽出する。
提案手法は,幅広い実験環境から取得したデジタル画像において,個々のウォーカーや侵入者を追跡することが可能であり,同一性スイッチの問題に苦しむことはない。
したがって,本研究で開発された深層学習手法は,歩行液滴および粒状流実験における観測対象の効率的かつ迅速かつ正確な抽出を自動化できる。
このような抽出機能は、粗い粒度のダイナミクスのためのデータ駆動動的モデルの構築や、関心のあるオブジェクトのインタラクションなど、下流のタスクに極めて有効です。 We present a deep-learning based tracking objects of interest in walking droplet and granular intruder experiments. In a typical walking droplet experiment, a liquid droplet, known as \textit{walker}, propels itself laterally on the free surface of a vibrating bath of the same liquid. This motion is the result of the interaction between the droplets and the surface waves generated by the droplet itself after each successive bounce. A walker can exhibit a highly irregular trajectory over the course of its motion, including rapid acceleration and complex interactions with the other walkers present in the same bath. In analogy with the hydrodynamic experiments, the granular matter experiments consist of a vibrating bath of very small solid particles and a larger solid \textit{intruder}. Like the fluid droplets, the intruder interacts with and travels the domain due to the waves of the bath but tends to move much slower and much less smoothly than the droplets. When multiple intruders are introduced, they also exhibit complex interactions with each other. We leverage the state-of-art object detection model YOLO and the Hungarian Algorithm to accurately extract the trajectory of a walker or intruder in real-time. Our proposed methodology is capable of tracking individual walker(s) or intruder(s) in digital images acquired from a broad spectrum of experimental settings and does not suffer from any identity-switch issues. Thus, the deep learning approach developed in this work could be used to automatize the efficient, fast and accurate extraction of observables of interests in walking droplet and granular flow experiments. Such extraction capabilities are critically enabling for downstream tasks such as building data-driven dynamical models for the coarse-grained dynamics and interactions of the objects of interest. | 翻訳日:2023-11-17 22:59:55 公開日:2023-11-15 |
# キラリティー依存光子輸送とヘリカル超放射 Chirality Dependent Photon Transport and Helical Superradiance ( http://arxiv.org/abs/2301.07231v4 ) ライセンス: Link先を確認 | Jonah S. Peter, Stefan Ostermann, and Susanne F. Yelin | (参考訳) キラリティ(英: Chirality)は、ミラー対称性の欠如を表す幾何学的性質である。
キラリティは自然界においてユビキタスであり、生体分子からトポロジカル物質まで複雑なシステムで観測される非相互相互作用と関連している。
本稿では,双極子結合原子や分子のキラル配置が,時間反転対称性を破ることなくヘリカルフォトニック励起の一方向輸送を促進することを実証する。
このようなヘリシティ依存輸送は、カイラル幾何学によって引き起こされるスピン軌道結合に起因し、非自明な位相的性質をもたらす。
また,集団散逸の効果を考察し,多体コヒーレンスがヘリシティ依存光子放出を導くことを見出した。
以上の結果から, キラリティ, トポロジー, 光子ヘリシティの密接な関係が示され, 自然界の分子光力学に寄与し, 短期量子シミュレーターで調べることができる。 Chirality, or handedness, is a geometrical property denoting a lack of mirror symmetry. Chirality is ubiquitous in nature and is associated with the non-reciprocal interactions observed in complex systems ranging from biomolecules to topological materials. Here, we demonstrate that chiral arrangements of dipole-coupled atoms or molecules can facilitate the unidirectional transport of helical photonic excitations without breaking time-reversal symmetry. We show that such helicity dependent transport stems from an emergent spin-orbit coupling induced by the chiral geometry, which results in nontrivial topological properties. We also examine the effects of collective dissipation and find that many-body coherences lead to helicity dependent photon emission: an effect we call helical superradiance. Our results demonstrate an intimate connection between chirality, topology, and photon helicity that may contribute to molecular photodynamics in nature and could be probed with near-term quantum simulators. | 翻訳日:2023-11-17 22:58:28 公開日:2023-11-15 |
# UMD: X2Xバックドア攻撃の教師なしモデル検出 UMD: Unsupervised Model Detection for X2X Backdoor Attacks ( http://arxiv.org/abs/2305.18651v4 ) ライセンス: Link先を確認 | Zhen Xiang, Zidi Xiong, Bo Li | (参考訳) バックドア(トロイの木馬)攻撃はディープニューラルネットワークに対する一般的な脅威であり、バックドアトリガーに埋め込まれた1つ以上のソースクラスからのサンプルは、敵のターゲットクラスに誤分類される。
既存の分類器がバックドア攻撃であるかどうかを検出する方法は、主に1対1攻撃(例えば全対1攻撃)で攻撃するために設計されている。
我々の知る限り、監督なしでは、任意のソースクラスでより一般的なX2X攻撃に効果的に対処する既存のメソッドは、いずれも任意のターゲットクラスとペアリングすることはできません。
本稿では,敵(ソース,ターゲット)クラスペアの合同推論により,x2xバックドア攻撃を効果的に検出する,初の教師なしモデル検出手法umdを提案する。
特に,提案するクラスタリングアプローチに基づき,提案するバックドアクラスペアのサブセットを計測・選択するための新しい転送可能性統計を最初に定義した。
次に,提案するロバストで教師なしの異常検出器を用いて,検出推定のためのリバースエンジニアリングトリガサイズの集約に基づいて,選択されたクラスペアを共同で評価する。
我々は, CIFAR-10, GTSRB, Imagenetteデータセットの総合的な評価を行い, 多様なX2X攻撃に対する検出精度の観点から, 教師なしUDDがSOTA検出器(監督下でも)を17%, 4%, 8%で上回っていることを示す。
また,いくつかの強適応攻撃に対するumdの強力な検出性能を示す。 Backdoor (Trojan) attack is a common threat to deep neural networks, where samples from one or more source classes embedded with a backdoor trigger will be misclassified to adversarial target classes. Existing methods for detecting whether a classifier is backdoor attacked are mostly designed for attacks with a single adversarial target (e.g., all-to-one attack). To the best of our knowledge, without supervision, no existing methods can effectively address the more general X2X attack with an arbitrary number of source classes, each paired with an arbitrary target class. In this paper, we propose UMD, the first Unsupervised Model Detection method that effectively detects X2X backdoor attacks via a joint inference of the adversarial (source, target) class pairs. In particular, we first define a novel transferability statistic to measure and select a subset of putative backdoor class pairs based on a proposed clustering approach. Then, these selected class pairs are jointly assessed based on an aggregation of their reverse-engineered trigger size for detection inference, using a robust and unsupervised anomaly detector we proposed. We conduct comprehensive evaluations on CIFAR-10, GTSRB, and Imagenette dataset, and show that our unsupervised UMD outperforms SOTA detectors (even with supervision) by 17%, 4%, and 8%, respectively, in terms of the detection accuracy against diverse X2X attacks. We also show the strong detection performance of UMD against several strong adaptive attacks. | 翻訳日:2023-11-17 22:47:43 公開日:2023-11-15 |
# debunking disinformation:偽ニュース検出におけるnlpによる真理の革命 Debunking Disinformation: Revolutionizing Truth with NLP in Fake News Detection ( http://arxiv.org/abs/2308.16328v2 ) ライセンス: Link先を確認 | Li He, Siyi Hu, Ailun Pei | (参考訳) インターネットとソーシャルメディアは、即時情報配信の時代において、個人がニュースにアクセスする方法を変えてきた。
この開発は情報へのアクセスを増加させる一方で、フェイクニュースや情報の拡散という重大な問題も生み出した。
フェイクニュースはデジタルプラットフォーム上で急速に広まり、メディアエコシステム、世論、意思決定、社会的結束に悪影響を及ぼしている。
自然言語処理(NLP)は、コンテンツが本物であることを識別するための様々なアプローチを提供しており、偽情報に対する戦争が激化する中で強力な武器として浮上している。
本稿では,NLP技術を用いて偽ニュースを検知し,その提示する課題と可能性を明らかにする。 The Internet and social media have altered how individuals access news in the age of instantaneous information distribution. While this development has increased access to information, it has also created a significant problem: the spread of fake news and information. Fake news is rapidly spreading on digital platforms, which has a negative impact on the media ecosystem, public opinion, decision-making, and social cohesion. Natural Language Processing(NLP), which offers a variety of approaches to identify content as authentic, has emerged as a potent weapon in the growing war against disinformation. This paper takes an in-depth look at how NLP technology can be used to detect fake news and reveals the challenges and opportunities it presents. | 翻訳日:2023-11-17 22:36:16 公開日:2023-11-15 |
# トレーニングダイナミクスの潜在状態モデル Latent State Models of Training Dynamics ( http://arxiv.org/abs/2308.09543v2 ) ライセンス: Link先を確認 | Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho | (参考訳) モデルトレーニングに対するランダム性の影響は理解されていない。
データ順序と初期化の違いは、モデルに実際にどのように現れるのか?
さらに、異なる軌道を特徴づけるトレーニングダイナミクスと相転移をどのように解釈するか。
ニューラルネットワークトレーニングのダイナミクスと結果に対するランダム性の影響を理解するために、異なるランダム種を用いたモデルを複数回トレーニングし、トレーニングを通して様々なメトリクス(例えば、$l_2$ norm、平均、ニューラルネットワークの重みの分散)を計算する。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
HMMは、トレーニングを潜在状態間の遷移の確率的なプロセスとして表現し、トレーニング中の重要な変化の直感的な概要を提供する。
本手法を用いて,グルーキングタスク,画像分類,マスマスキング言語モデリングにおけるトレーニングダイナミクスの低次元離散表現を生成する。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。 The impact of randomness on model training is poorly understood. How do differences in data order and initialization actually manifest in the model, such that some training runs outperform others or converge faster? Furthermore, how can we interpret the resulting training dynamics and the phase transitions that characterize different trajectories? To understand the effect of randomness on the dynamics and outcomes of neural network training, we train models multiple times with different random seeds and compute a variety of metrics throughout training, such as the $L_2$ norm, mean, and variance of the neural network's weights. We then fit a hidden Markov model (HMM) over the resulting sequences of metrics. The HMM represents training as a stochastic process of transitions between latent states, providing an intuitive overview of significant changes during training. Using our method, we produce a low-dimensional, discrete representation of training dynamics on grokking tasks, image classification, and masked language modeling. We use the HMM representation to study phase transitions and identify latent "detour" states that slow down convergence. | 翻訳日:2023-11-17 22:35:43 公開日:2023-11-15 |
# LEOにおける居住空間オブジェクトの分類 : 深層学習アプローチ Taxonomy for Resident Space Objects in LEO: A Deep Learning Approach ( http://arxiv.org/abs/2311.05430v2 ) ライセンス: Link先を確認 | Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti | (参考訳) RSOの増加は、宇宙の直接的および間接的なユーザーにとって、衝突や破滅的な事故のリスクを懸念している。
この問題を緩和するためには、軌道上の様々なROSとその振る舞いを十分に理解することが不可欠である。
RSOのいくつかのクラスを定義する確立された分類法は、この理解を達成するための重要なステップである。
この分類は、主な特性に基づいて、特定のカテゴリにオブジェクトを割り当てるのに役立つ。
さらに、確立された分類学は、宇宙におけるrsoの振る舞いに影響を与える要因をよりよく理解するための共通言語とフレームワークを提供することにより、研究と分析のプロセスを促進することができる。
これらの要因は、宇宙交通管理のためのより効率的で効果的な戦略の設計に役立つ。
本研究では,宇宙交通管理を強化するために,低軌道環境に着目したrsosの新しい分類法を提案する。
さらに, オートエンコーダアーキテクチャを用いて, RSOの特性を表す特徴を減らし, 深層学習に基づくモデルを提案する。
オートエンコーダは低次元空間表現を生成し、一様多様体近似や射影法などの手法を用いて、それらの特徴に基づいてrsosの基本クラスターを識別する。
このアプローチは、特徴と識別されるrsosクラスの間の複雑で非線形な関係を捉える。
提案する分類とモデルは、軌道上でのrsosの増加によって生じるリスクを軽減するための継続的な取り組みに重要な貢献をする。 The increasing number of RSOs has raised concerns about the risk of collisions and catastrophic incidents for all direct and indirect users of space. To mitigate this issue, it is essential to have a good understanding of the various RSOs in orbit and their behaviour. A well-established taxonomy defining several classes of RSOs is a critical step in achieving this understanding. This taxonomy helps assign objects to specific categories based on their main characteristics, leading to better tracking services. Furthermore, a well-established taxonomy can facilitate research and analysis processes by providing a common language and framework for better understanding the factors that influence RSO behaviour in space. These factors, in turn, help design more efficient and effective strategies for space traffic management. Our work proposes a new taxonomy for RSOs focusing on the low Earth orbit regime to enhance space traffic management. In addition, we present a deep learning-based model that uses an autoencoder architecture to reduce the features representing the characteristics of the RSOs. The autoencoder generates a lower-dimensional space representation that is then explored using techniques such as Uniform Manifold Approximation and Projection to identify fundamental clusters of RSOs based on their unique characteristics. This approach captures the complex and non-linear relationships between the features and the RSOs' classes identified. Our proposed taxonomy and model offer a significant contribution to the ongoing efforts to mitigate the overall risks posed by the increasing number of RSOs in orbit. | 翻訳日:2023-11-17 22:24:53 公開日:2023-11-15 |
# ベイズ非一様ポアソン過程による結合データメッセージの統計的学習 Statistical Learning of Conjunction Data Messages Through a Bayesian Non-Homogeneous Poisson Process ( http://arxiv.org/abs/2311.05426v2 ) ライセンス: Link先を確認 | Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti | (参考訳) 現在の衝突回避と宇宙交通管理のアプローチは、主に軌道上の物体数の増加とスケーラブルで自動化されたソリューションの欠如によって、多くの課題に直面している。
壊滅的な事故を避けるため、衛星所有者/オペレーターは、衝突回避操作を行う必要があるかどうかを決定するために、彼らの資産の衝突リスクを認識しなければならない。
このプロセスは典型的には、期待されるTCAや衝突の確率などの事象に関する情報を含むCDMの形式で発行される警告を使用して実行される。
これまでの研究では,2つの重要な質問に対して,統計的学習モデルを提示した。(1)新たな結合は,次の指定された時間間隔で発行されるのだろうか?
2)次回のCDMはいつ,いつ,いつ,どのような不確実性を持つのか?
しかし、このモデルは経験的ベイズ均質ポアソン過程に基づいており、CDMの到着速度は時間とともに一定であると仮定している。
実際、CDMが発行されるレートは、第三者によって実行されるスクリーニングプロセスと同様に、オブジェクトの振る舞いに依存する。
そこで本研究では,ベイズ非均質ポアソン過程を確率型プログラミング言語を用いて高精度に実装し,基礎となる現象を十分に記述する手法を提案する。
提案手法をベースラインモデルと比較し,提案手法の付加価値を示す。
その結果, この問題をベイズ非均一ポアソンプロセスによりより高精度にモデル化することができ, 自動衝突回避システムの開発に寄与し, 衛星操作とタイムリーに反応するのに役立つことがわかった。 Current approaches for collision avoidance and space traffic management face many challenges, mainly due to the continuous increase in the number of objects in orbit and the lack of scalable and automated solutions. To avoid catastrophic incidents, satellite owners/operators must be aware of their assets' collision risk to decide whether a collision avoidance manoeuvre needs to be performed. This process is typically executed through the use of warnings issued in the form of CDMs which contain information about the event, such as the expected TCA and the probability of collision. Our previous work presented a statistical learning model that allowed us to answer two important questions: (1) Will any new conjunctions be issued in the next specified time interval? (2) When and with what uncertainty will the next CDM arrive? However, the model was based on an empirical Bayes homogeneous Poisson process, which assumes that the arrival rates of CDMs are constant over time. In fact, the rate at which the CDMs are issued depends on the behaviour of the objects as well as on the screening process performed by third parties. Thus, in this work, we extend the previous study and propose a Bayesian non-homogeneous Poisson process implemented with high precision using a Probabilistic Programming Language to fully describe the underlying phenomena. We compare the proposed solution with a baseline model to demonstrate the added value of our approach. The results show that this problem can be successfully modelled by our Bayesian non-homogeneous Poisson Process with greater accuracy, contributing to the development of automated collision avoidance systems and helping operators react timely but sparingly with satellite manoeuvres. | 翻訳日:2023-11-17 22:24:29 公開日:2023-11-15 |
# メタファー同定データセットにおける構築アーチファクト Construction Artifacts in Metaphor Identification Datasets ( http://arxiv.org/abs/2311.00790v2 ) ライセンス: Link先を確認 | Joanne Boisson, Luis Espinosa-Anke, Jose Camacho-Collados | (参考訳) メタファー識別は、与えられた表現が文脈において比喩的に使用されるかどうかを理解することを目的としている。
しかし,本稿では,メタファ表現やその発生状況を完全に無視することで,既存のメタファ識別データセットをゲーム化することができることを示す。
我々は,この仮説を様々なデータセットや設定で検証し,完全な情報を持たない言語モデルに基づくメタファ識別システムが,完全なコンテキストを使用するものと競合することを示す。
これは、正と負のクラスに対して望ましくないバイアスをもたらすようなデータセットの構築手順が原因である。
最後に、自然コーパスから注意深くサンプリングされ、バイアスが存在しないデータセットで同じ仮説をテストし、これらのデータセットをより困難で信頼性の高いものにします。 Metaphor identification aims at understanding whether a given expression is used figuratively in context. However, in this paper we show how existing metaphor identification datasets can be gamed by fully ignoring the potential metaphorical expression or the context in which it occurs. We test this hypothesis in a variety of datasets and settings, and show that metaphor identification systems based on language models without complete information can be competitive with those using the full context. This is due to the construction procedures to build such datasets, which introduce unwanted biases for positive and negative classes. Finally, we test the same hypothesis on datasets that are carefully sampled from natural corpora and where this bias is not present, making these datasets more challenging and reliable. | 翻訳日:2023-11-17 22:23:42 公開日:2023-11-15 |
# 判別的特徴を有するデータに対する微調整の影響について On consequences of finetuning on data with highly discriminative features ( http://arxiv.org/abs/2310.19537v2 ) ライセンス: Link先を確認 | Wojciech Masarczyk, Tomasz Trzci\'nski, Mateusz Ostaszewski | (参考訳) トランスファーラーニングの時代、スクラッチからニューラルネットワークを訓練することは時代遅れになりつつある。
転送学習は新しいタスクの事前知識を活用し、計算資源を保存する。
ネットワークは基本的なデータパターンを優先し、事前学習した価値のある機能を禁止する傾向があります。
この挙動を「機能侵食」と呼び、ネットワーク性能と内部表現への影響を分析する。 In the era of transfer learning, training neural networks from scratch is becoming obsolete. Transfer learning leverages prior knowledge for new tasks, conserving computational resources. While its advantages are well-documented, we uncover a notable drawback: networks tend to prioritize basic data patterns, forsaking valuable pre-learned features. We term this behavior "feature erosion" and analyze its impact on network performance and internal representations. | 翻訳日:2023-11-17 22:23:19 公開日:2023-11-15 |
# 王子は本当の愛のキスを得るのか?
フェアリータルテキスト上のジェンダー摂動に対するモデル感度について Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender Perturbation over Fairytale Texts ( http://arxiv.org/abs/2310.10865v2 ) ライセンス: Link先を確認 | Christina Chance, Da Yin, Dakuo Wang, Kai-Wei Chang | (参考訳) 最近の研究では、伝統的な妖精は有害な性的偏見を持つ。
本研究の目的は, 性差に対する頑健性を評価することによって, 言語モデルの学習バイアスを評価することである。
具体的には、妖精の質問応答(QA)タスクに焦点を当てる。
本研究では,FairytaleQAデータセットに対する非現実的データ拡張を用いて,スワップしたジェンダーキャラクタ情報に対するモデルロバスト性を評価し,トレーニング中に反現実的ジェンダーステレオタイプを導入することで学習バイアスを軽減する。
さらに,おとぎ話以外のテキストジャンルをサポートするために,言語モデルの膨大な語彙を利用する新しい手法を提案する。
実験結果から,モデルが性別の摂動に敏感であることが示唆された。
しかし、反事実訓練データセットで最初に微調整された場合、モデルは後に導入された反ジェンダーステレオタイプテキストに対する感度が低下する。 Recent studies show that traditional fairytales are rife with harmful gender biases. To help mitigate these gender biases in fairytales, this work aims to assess learned biases of language models by evaluating their robustness against gender perturbations. Specifically, we focus on Question Answering (QA) tasks in fairytales. Using counterfactual data augmentation to the FairytaleQA dataset, we evaluate model robustness against swapped gender character information, and then mitigate learned biases by introducing counterfactual gender stereotypes during training time. We additionally introduce a novel approach that utilizes the massive vocabulary of language models to support text genres beyond fairytales. Our experimental results suggest that models are sensitive to gender perturbations, with significant performance drops compared to the original testing set. However, when first fine-tuned on a counterfactual training dataset, models are less sensitive to the later introduced anti-gender stereotyped text. | 翻訳日:2023-11-17 22:21:56 公開日:2023-11-15 |
# ゼロショットクロスランガル生成のための事前訓練された多言語言語モデルの実証的研究 Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation ( http://arxiv.org/abs/2310.09917v2 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina | (参考訳) ゼロショットクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。
そこで,注意深い学習率チューニングでは,モデルの完全微調整が非常に強力なベースラインとして機能し,他の競合的アプローチとしては,アダプタを用いたパラメータ効率のチューニングや,複数のソース言語でのトレーニングがある。
最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。 Zero-shot cross-lingual generation assumes finetuning the multilingual pretrained language model (mPLM) on a generation task in one language and then using it to make predictions for this task in other languages. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work, we test alternative mPLMs, such as mBART and NLLB-200, and compare various approaches proposed in the literature in a unified setting. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline; other competitive approaches include parameter-efficient tuning with adapters and training on several source languages. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. | 翻訳日:2023-11-17 22:21:39 公開日:2023-11-15 |
# 視覚トランスフォーマーによる医学連関学習における不均一性への取り組み Tackling Heterogeneity in Medical Federated learning via Vision Transformers ( http://arxiv.org/abs/2310.09444v2 ) ライセンス: Link先を確認 | Erfan Darzi, Yiqing Shen, Yangming Ou, Nanna M. Sijtsema, P.M.A van Ooijen | (参考訳) 最適化に基づく正規化手法は,医学フェデレーション学習におけるデータ不均一性による課題,特に未表現クライアントの性能向上に有効である。
しかし、これらの手法はモデル全体の精度を低下させ、収束速度を遅くする。
本稿では,視覚トランスフォーマを使用して,全体的な精度のトレードオフを伴わずに,低表示クライアントの性能を大幅に向上できることを実証する。
この改善は、vision transformerが入力データ内の長距離依存性をキャプチャする能力に起因する。 Optimization-based regularization methods have been effective in addressing the challenges posed by data heterogeneity in medical federated learning, particularly in improving the performance of underrepresented clients. However, these methods often lead to lower overall model accuracy and slower convergence rates. In this paper, we demonstrate that using Vision Transformers can substantially improve the performance of underrepresented clients without a significant trade-off in overall accuracy. This improvement is attributed to the Vision transformer's ability to capture long-range dependencies within the input data. | 翻訳日:2023-11-17 22:21:18 公開日:2023-11-15 |
# ノード回帰/分類のための無限幅グラフニューラルネットワーク Infinite Width Graph Neural Networks for Node Regression/ Classification ( http://arxiv.org/abs/2310.08176v3 ) ライセンス: Link先を確認 | Yunus Cobanoglu | (参考訳) 本研究は,グラフ構造化データ上の完全連結深層ニューラルネットワークの一般化であるグラフニューラルネットワークの解析を行う。
Infinite Width Neural NetworksはDeep LearningをGaussian ProcessesとKernelsに接続している。
Gaussian ProcessesとKernelsは、ニューラルネットワークのハイパーパラメータをはるかに少なくし、不確実性推定に使用できるため、アプリケーションに対してよりユーザフレンドリである。
この研究は、ガウス過程とカーネルをニューラルネットワークに接続する研究の量を増やしている。
Kernel と Gaussian Process のクローズドフォームは、標準の Graph Neural Network、Skip-Concatenate Connections を備えた Graph Neural Network、Graph Attention Neural Network など、さまざまなアーキテクチャから派生している。
すべてのアーキテクチャは、トランスダクティブノードの回帰と分類のタスクにおいて、さまざまなデータセット上で評価される。
さらに、効果的な抵抗として知られるスペクトルスパーシフィケーション手法は、ランタイムとメモリ要求を改善するために使用される。
インダクティブグラフ学習タスク(グラフ回帰/分類)への設定の拡張は簡単であり、3.5で簡単に議論される。 This work analyzes Graph Neural Networks, a generalization of Fully-Connected Deep Neural Nets on Graph structured data, when their width, that is the number of nodes in each fullyconnected layer is increasing to infinity. Infinite Width Neural Networks are connecting Deep Learning to Gaussian Processes and Kernels, both Machine Learning Frameworks with long traditions and extensive theoretical foundations. Gaussian Processes and Kernels have much less hyperparameters then Neural Networks and can be used for uncertainty estimation, making them more user friendly for applications. This works extends the increasing amount of research connecting Gaussian Processes and Kernels to Neural Networks. The Kernel and Gaussian Process closed forms are derived for a variety of architectures, namely the standard Graph Neural Network, the Graph Neural Network with Skip-Concatenate Connections and the Graph Attention Neural Network. All architectures are evaluated on a variety of datasets on the task of transductive Node Regression and Classification. Additionally, a Spectral Sparsification method known as Effective Resistance is used to improve runtime and memory requirements. Extending the setting to inductive graph learning tasks (Graph Regression/ Classification) is straightforward and is briefly discussed in 3.5. | 翻訳日:2023-11-17 22:20:50 公開日:2023-11-15 |
# 蒸留に基づくブロックニューラルアーキテクチャ探索による軽量拡散モデル Lightweight Diffusion Models with Distillation-Based Block Neural Architecture Search ( http://arxiv.org/abs/2311.04950v2 ) ライセンス: Link先を確認 | Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Yansong Tang, Wenwu zhu | (参考訳) 拡散モデルは近年顕著な生成能力を示し、多くのタスクで最先端のパフォーマンスを実現している。
しかし、高い計算コストは拡散モデルにとっていまだに厄介な問題である。
そこで本研究では,拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(DiffNAS)を用いて,拡散モデルの構造的冗長性を自動的に除去する手法を提案する。
具体的には、事前訓練を受けた教師が大きくなると、DiffNASを利用して、教師よりもパフォーマンスが良い最小のアーキテクチャを探索する。
現在の拡散モデルは自然にブロック単位の構造を持つUNetに基づいており、各ブロックで独立してニューラルネットワークサーチを行い、探索空間を大幅に削減する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
具体的には,検索過程において,従来のグローバル検索戦略がもたらす不公平さを回避するために,最適なサブネットをブロックワイズに選択する。
探索されたアーキテクチャを再トレーニングする場合,スーパーネットトレーニングとサブネットリトレーニングの整合性を維持するために動的継手損失を採用し,各ブロックに対する情報的目的も提供し,勾配伝播の経路を短縮する。
この結合損失がモデル性能を効果的に向上することを示す。
また,この損失の動的調整の必要性も証明する。
実験の結果,提案手法は,約50 % MAC の潜在拡散モデルとパラメータ還元で,計算量を大幅に削減できることがわかった。 Diffusion models have recently shown remarkable generation ability, achieving state-of-the-art performance in many tasks. However, the high computational cost is still a troubling problem for diffusion models. To tackle this problem, we propose to automatically remove the structural redundancy in diffusion models with our proposed Diffusion Distillation-based Block-wise Neural Architecture Search (DiffNAS). Specifically, given a larger pretrained teacher, we leverage DiffNAS to search for the smallest architecture which can achieve on-par or even better performance than the teacher. Considering current diffusion models are based on UNet which naturally has a block-wise structure, we perform neural architecture search independently in each block, which largely reduces the search space. Different from previous block-wise NAS methods, DiffNAS contains a block-wise local search strategy and a retraining strategy with a joint dynamic loss. Concretely, during the search process, we block-wisely select the best subnet to avoid the unfairness brought by the global search strategy used in previous works. When retraining the searched architecture, we adopt a dynamic joint loss to maintain the consistency between supernet training and subnet retraining, which also provides informative objectives for each block and shortens the paths of gradient propagation. We demonstrate this joint loss can effectively improve model performance. We also prove the necessity of the dynamic adjustment of this loss. The experiments show that our method can achieve significant computational reduction, especially on latent diffusion models with about 50\% MACs and Parameter reduction. | 翻訳日:2023-11-17 20:35:47 公開日:2023-11-15 |
# DP-SGDでは感度が過大評価される Gradients Look Alike: Sensitivity is Often Overestimated in DP-SGD ( http://arxiv.org/abs/2307.00310v2 ) ライセンス: Link先を確認 | Anvith Thudi, Hengrui Jia, Casey Meehan, Ilia Shumailov, Nicolas Papernot | (参考訳) 個人的確率勾配勾配勾配(DP-SGD)は、個人的深層学習における標準的アプローチである。
DP-SGDの現在のプライバシ分析は、いくつかの設定では厳密であることが知られているが、いくつかの実証的な結果は、一般的なベンチマークデータセットでトレーニングされたモデルが、多くのデータポイントのプライバシを著しく減らすことを示唆している。
しかし、過去の試みにもかかわらず、なぜこれがそうなのかの厳密な説明は得られていない。
これらのデータセット設定に制限された場合、より厳密なプライバシ上限が存在するためか、特定のデータポイントに対して攻撃が十分に強くないためか?
本稿では,DP-SGD の初 DP 解析(すなわち ``data-dependent' )を行う。
我々の分析は、データセット内の類似した隣人を指し示す直感を捉え、外れ値よりもデータ依存のプライバシが良い。
形式的には、DP-SGDのステップごとのプライバシー分析を変更して、トレーニングデータセットから計算されたモデル更新の分布に依存するようにする。
さらに,新しい構成定理を考案し,この新しい1ステップ分析を,トレーニング実行全体の推論に有効活用する。
まとめると、この新たなDP-SGD分析により、DP-SGDのリークが、現在のデータ非依存保証よりも多くのデータポイント(一般的なベンチマークでトレーニングされた場合)のプライバシーを著しく少なくすることを示すことができる。
これは、敵が可能なトレーニングデータセットを十分に制御できなければ、プライバシ攻撃が必ずしも多くのデータポイントに対して失敗することを意味する。 Differentially private stochastic gradient descent (DP-SGD) is the canonical approach to private deep learning. While the current privacy analysis of DP-SGD is known to be tight in some settings, several empirical results suggest that models trained on common benchmark datasets leak significantly less privacy for many datapoints. Yet, despite past attempts, a rigorous explanation for why this is the case has not been reached. Is it because there exist tighter privacy upper bounds when restricted to these dataset settings, or are our attacks not strong enough for certain datapoints? In this paper, we provide the first per-instance (i.e., ``data-dependent") DP analysis of DP-SGD. Our analysis captures the intuition that points with similar neighbors in the dataset enjoy better data-dependent privacy than outliers. Formally, this is done by modifying the per-step privacy analysis of DP-SGD to introduce a dependence on the distribution of model updates computed from a training dataset. We further develop a new composition theorem to effectively use this new per-step analysis to reason about an entire training run. Put all together, our evaluation shows that this novel DP-SGD analysis allows us to now formally show that DP-SGD leaks significantly less privacy for many datapoints (when trained on common benchmarks) than the current data-independent guarantee. This implies privacy attacks will necessarily fail against many datapoints if the adversary does not have sufficient control over the possible training datasets. | 翻訳日:2023-11-17 18:48:20 公開日:2023-11-15 |
# FuseCap: 統合されたイメージキャプションのための大規模言語モデルを活用する FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions ( http://arxiv.org/abs/2305.17718v2 ) ライセンス: Link先を確認 | Noam Rotstein, David Bensaid, Shaked Brody, Roy Ganz, Ron Kimmel | (参考訳) 視覚言語事前学習技術の出現により、画像キャプションモデルの開発は大幅に進展した。
しかし、これらのモデルはしばしば一般的なキャプションを生成し、意味的に重要な画像の詳細を省略する。
この制限は、画像テキストデータセットに遡ることができる。キャプションは通常、画像コンテンツの一般的な説明を提供するが、しばしば詳細を省略する。
これらのデータセットの大きさを考えると、手動の再注釈は実用的ではなく、自動化アプローチの必要性を強調している。
この課題に対処するために、既存のキャプションを活用し、オブジェクト検出器、属性認識器、光学文字認識器(OCR)を含む「凍った」視覚専門家を用いて、視覚的詳細を増強する。
提案手法であるfusecapは,視覚の専門家の出力を大言語モデル(llm)を用いてオリジナルキャプションと融合し,総合的な画像記述を生成する。
12m画像エンリッチキャプションペアのトレーニングセットを自動でキュレーションする。
これらのペアは量的および質的分析を通じて広範囲に評価される。
その後、このデータを用いてキャプション生成BLIPベースのモデルをトレーニングする。
このモデルは現在の最先端アプローチよりも優れており、より正確で詳細な記述を生み出し、提案したデータ中心アプローチの有効性を示す。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。 The advent of vision-language pre-training techniques enhanced substantial progress in the development of models for image captioning. However, these models frequently produce generic captions and may omit semantically important image details. This limitation can be traced back to the image-text datasets; while their captions typically offer a general description of image content, they frequently omit salient details. Considering the magnitude of these datasets, manual reannotation is impractical, emphasizing the need for an automated approach. To address this challenge, we leverage existing captions and explore augmenting them with visual details using "frozen" vision experts including an object detector, an attribute recognizer, and an Optical Character Recognizer (OCR). Our proposed method, FuseCap, fuses the outputs of such vision experts with the original captions using a large language model (LLM), yielding comprehensive image descriptions. We automatically curate a training set of 12M image-enriched caption pairs. These pairs undergo extensive evaluation through both quantitative and qualitative analyses. Subsequently, this data is utilized to train a captioning generation BLIP-based model. This model outperforms current state-of-the-art approaches, producing more precise and detailed descriptions, demonstrating the effectiveness of the proposed data-centric approach. We release this large-scale dataset of enriched image-caption pairs for the community. | 翻訳日:2023-11-17 18:47:12 公開日:2023-11-15 |
# エネルギー効率の良い時空間データ処理のための生体膜型memcapacitive reservoir computing system Biomembrane-based Memcapacitive Reservoir Computing System for Energy Efficient Temporal Data Processing ( http://arxiv.org/abs/2305.12025v2 ) ライセンス: Link先を確認 | Md Razuan Hossain, Ahmed Salah Mohamed, Nicholas Xavier Armendarez, Joseph S. Najem and Md Sakib Hasan | (参考訳) 貯水池コンピューティングは、入力信号から特徴を抽出し、それらを高次元空間にマッピングすることで、時間的データを処理するための高効率な機械学習フレームワークである。
物理貯留層は、スピントロン振動子、原子スイッチネットワーク、シリコンフォトニックモジュール、強誘電トランジスタ、揮発性memristorを用いて実現されている。
しかし、これらの装置は、その抵抗性により本質的にエネルギーを消費し、電力消費が増加する。
したがって、容量メモリデバイスはよりエネルギー効率の良いアプローチを提供できる。
本研究では,特定の短期シナプス可塑性関数を密接に模倣した揮発性生体膜を用いた膜キャパシタを用いて分類課題を解決し,シミュレーションおよび実験で時系列データを解析する。
本システムは,2次非線形回帰タスクにおいて,音声桁分類の精度99.6%,正規化平均平方誤差7.81*10^{-4}を達成する。
さらに,本装置のリアルタイム時空間データ処理能力を示すために,入力された脳波信号からリアルタイムてんかん検出問題に対して100%の精度を実現する。
最も重要なことは、各膜キャパシタは、選択された入力電圧パルス幅に関わらず、平均41.5fJのスパイクを消費し、パルス幅100msでは平均出力は415fWであり、これらの値は貯水池として使用される最先端の膜キャパシタよりも桁違いに低いことである。
最後に,メムキャパシタの生体適合性,ソフト性は,生体環境における計算や信号処理に極めて適していると考えている。 Reservoir computing is a highly efficient machine learning framework for processing temporal data by extracting features from the input signal and mapping them into higher dimensional spaces. Physical reservoir layers have been realized using spintronic oscillators, atomic switch networks, silicon photonic modules, ferroelectric transistors, and volatile memristors. However, these devices are intrinsically energy-dissipative due to their resistive nature, which leads to increased power consumption. Therefore, capacitive memory devices can provide a more energy-efficient approach. Here, we leverage volatile biomembrane-based memcapacitors that closely mimic certain short-term synaptic plasticity functions as reservoirs to solve classification tasks and analyze time-series data in simulation and experimentally. Our system achieves a 99.6% accuracy rate for spoken digit classification and a normalized mean square error of 7.81*10^{-4} in a second-order non-linear regression task. Furthermore, to showcase the device's real-time temporal data processing capability, we achieve 100% accuracy for a real-time epilepsy detection problem from an inputted electroencephalography (EEG) signal. Most importantly, we demonstrate that each memcapacitor consumes an average of 41.5 fJ of energy per spike, regardless of the selected input voltage pulse width, while maintaining an average power of 415 fW for a pulse width of 100 ms. These values are orders of magnitude lower than those achieved by state-of-the-art memristors used as reservoirs. Lastly, we believe the biocompatible, soft nature of our memcapacitor makes it highly suitable for computing and signal-processing applications in biological environments. | 翻訳日:2023-11-17 18:46:34 公開日:2023-11-15 |
# 自動回帰言語生成のためのトラクタブル制御 Tractable Control for Autoregressive Language Generation ( http://arxiv.org/abs/2304.07438v4 ) ライセンス: Link先を確認 | Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck | (参考訳) テキスト生成における自己回帰的な大規模言語モデルの成功にもかかわらず、複雑な制約を満たすテキストを生成することは依然として大きな課題である。
この課題を克服するため,我々は,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
このフレームワークの有効性を示すために、蒸留された隠れマルコフモデルを使用し、GPT2から自己回帰生成を誘導するために${\Pr}(\text{text} | \alpha)$を効率的に計算できる。
GeLaToは制約付きテキスト生成(CommonGenなど)の挑戦的なベンチマークで最先端のパフォーマンスを実現し、様々な強力なベースラインを大きなマージンで上回る。
我々の研究は、大きな言語モデルを制御するための新しい道を開くだけでなく、より表現力のあるTPMの開発も動機付けている。 Despite the success of autoregressive large language models in text generation, it remains a major challenge to generate text that satisfies complex constraints: sampling from the conditional distribution ${\Pr}(\text{text} | \alpha)$ is intractable for even the simplest lexical constraints $\alpha$. To overcome this challenge, we propose to use tractable probabilistic models (TPMs) to impose lexical constraints in autoregressive text generation models, which we refer to as GeLaTo (Generating Language with Tractable Constraints). To demonstrate the effectiveness of this framework, we use distilled hidden Markov models, where we can efficiently compute ${\Pr}(\text{text} | \alpha)$, to guide autoregressive generation from GPT2. GeLaTo achieves state-of-the-art performance on challenging benchmarks for constrained text generation (e.g., CommonGen), beating various strong baselines by a large margin. Our work not only opens up new avenues for controlling large language models but also motivates the development of more expressive TPMs. | 翻訳日:2023-11-17 18:44:24 公開日:2023-11-15 |
# Frontier Language Models is Robust to Adversarial Arithmetic, or "2+2=5? Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5? ( http://arxiv.org/abs/2311.07587v2 ) ライセンス: Link先を確認 | C. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein | (参考訳) 本稿では,言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を紹介し,研究する。
この問題は自然言語で表される算術問題からなり、質問が完了する前に任意の逆文字列が挿入される。
1桁の加算問題の単純な設定であっても、すべてのテストモデル(palm2、gpt4、claude2)を誤用し、特定の間違った答えにモデルを操る敵のプロンプトを見つけることは容易である。
さらに,同じモデルにクエリすることで,攻撃を成功させる簡単なアルゴリズムを提供し,これを"prompt inversion reject sampling"(pirs)と呼ぶ。
最後に,強化学習やエージェント的コンスティチューションループを通じて,モデルがこれらの攻撃に対して部分的に強化されることを示す。
しかし,言語モデルが逆算術攻撃に対して十分に頑健になることはできなかった。 We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks. | 翻訳日:2023-11-17 18:34:13 公開日:2023-11-15 |
# 合成ビデオデータを用いたロバスト深部生理計測モデルの訓練 Training Robust Deep Physiological Measurement Models with Synthetic Video-based Data ( http://arxiv.org/abs/2311.05371v2 ) ライセンス: Link先を確認 | Yuxuan Ou, Yuzhe Zhang, Yuntang Wang, Shwetak Patel, Daniel McDuf, Yuzhe Yang, Xin Liu | (参考訳) 近年の深層学習技術の進歩により、顔の映像のみから人間の生理的バイタルサイン(例えば、フォトプレチモグラフ、心拍数)を遠隔で測定できる可能性が証明されている。
しかし、これらの手法の性能は、実際のラベル付きデータの可用性と多様性に大きく依存している。
しかし、高品質なラベルで現実世界の大規模なデータを集めることは、通常困難でリソース集約的であり、パーソナルなバイオメトリックデータを保存する際のプライバシーの懸念も高まる。
合成ビデオベースのデータセット(SCAMPS \cite{mcduff2022scamps} など)と写真リアルな合成アバターを導入し、高品質な合成データを提供しながら問題を緩和する。
しかし、合成データと現実世界データの間には大きなギャップがあり、これらの合成データセットで訓練された神経モデルの一般化を妨げる。
本稿では,合成生理信号と対応する顔映像に実世界のノイズを加える手法をいくつか提案する。
個別および複合的な拡張手法を実験し、3つの公開現実世界データセット上でフレームワークを評価した。
その結果,MAEの平均値は6.9から2.0に減少した。 Recent advances in supervised deep learning techniques have demonstrated the possibility to remotely measure human physiological vital signs (e.g., photoplethysmograph, heart rate) just from facial videos. However, the performance of these methods heavily relies on the availability and diversity of real labeled data. Yet, collecting large-scale real-world data with high-quality labels is typically challenging and resource intensive, which also raises privacy concerns when storing personal bio-metric data. Synthetic video-based datasets (e.g., SCAMPS \cite{mcduff2022scamps}) with photo-realistic synthesized avatars are introduced to alleviate the issues while providing high-quality synthetic data. However, there exists a significant gap between synthetic and real-world data, which hinders the generalization of neural models trained on these synthetic datasets. In this paper, we proposed several measures to add real-world noise to synthetic physiological signals and corresponding facial videos. We experimented with individual and combined augmentation methods and evaluated our framework on three public real-world datasets. Our results show that we were able to reduce the average MAE from 6.9 to 2.0. | 翻訳日:2023-11-17 18:33:52 公開日:2023-11-15 |
# 非公式文書の抽象的コード要約のための深層学習の活用 Leveraging Deep Learning for Abstractive Code Summarization of Unofficial Documentation ( http://arxiv.org/abs/2310.15015v3 ) ライセンス: Link先を確認 | AmirHossein Naghshzan, Latifa Guerrouj, Olga Baysal | (参考訳) 通常、プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントがある。
しかし研究者たちは、APIを学ぶための障壁として、APIの複雑な構造に関する不十分で不十分なドキュメント例と欠陥を特定した。
その結果、開発者はAPIについて詳しく知るために他のソース(StackOverflow、GitHubなど)を参照することができる。
近年の研究では、非公式な文書がコード要約を生成する貴重な情報源であることが示されている。
そこで我々は,このようなドキュメンテーションと深層学習技術を活用して,非公式なドキュメンテーションで議論されたAPIの高品質な要約を生成する動機付けを行った。
本稿では,StackOverflowで議論されているAPIの要約を生成するために,最先端のトランスフォーマーモデルであるBARTアルゴリズムを用いた自動アプローチを提案する。
我々は,テキスト要約において最も広く利用されている評価指標であるROUGEとBLEUを用いて,そのアプローチを評価するために,人為的な要約のオラクルを構築した。
さらに,前回の作業に対して,品質の観点から経験的に要約を評価した。
以上の結果から,深層学習アルゴリズムを用いることで,要約の質が向上し,精度が平均 %57,リコールが %66,f-measure が %61 となり,動作速度が4.4 倍速くなった。 Usually, programming languages have official documentation to guide developers with APIs, methods, and classes. However, researchers identified insufficient or inadequate documentation examples and flaws with the API's complex structure as barriers to learning an API. As a result, developers may consult other sources (StackOverflow, GitHub, etc.) to learn more about an API. Recent research studies have shown that unofficial documentation is a valuable source of information for generating code summaries. We, therefore, have been motivated to leverage such a type of documentation along with deep learning techniques towards generating high-quality summaries for APIs discussed in informal documentation. This paper proposes an automatic approach using the BART algorithm, a state-of-the-art transformer model, to generate summaries for APIs discussed in StackOverflow. We built an oracle of human-generated summaries to evaluate our approach against it using ROUGE and BLEU metrics which are the most widely used evaluation metrics in text summarization. Furthermore, we evaluated our summaries empirically against a previous work in terms of quality. Our findings demonstrate that using deep learning algorithms can improve summaries' quality and outperform the previous work by an average of %57 for Precision, %66 for Recall, and %61 for F-measure, and it runs 4.4 times faster. | 翻訳日:2023-11-17 18:32:27 公開日:2023-11-15 |
# The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models ( http://arxiv.org/abs/2308.00245v3 ) ライセンス: Link先を確認 | Haonan Li, Yu Hao, Yizhuo Zhai, Zhiyun Qian | (参考訳) 静的分析は、バグを特定し緩和するためのソフトウェア工学で広く使われているテクニックである。
しかし、大きなハードルは、精度とスケーラビリティの微妙なバランスを達成することである。
大規模言語モデル(LLM)は将来的な代替手段を提供する。最近の進歩は、コードを解釈、生成、デバッグする素晴らしい機能を示している。
しかし、バグのロジックは複雑で、洗練された推論と複数の関数にまたがる大きな分析範囲を必要とする。
したがって、この時点では、LLMは静的解析を補完する補助役としてよりよく使われる。
本稿では,LUM支援静的解析のオープンスペースを深く掘り下げ,Use-before-initialization (UBI) バグをケーススタディとして用いた。
この目的のために,静的解析ツールとLLMを併用した完全自動化フレームワークLLiftを開発した。
フレームワークとプロンプトを慎重に設計することで、バグ固有のモデリング、大きな問題の範囲、LLMの非決定論的性質など、多くの課題を克服できます。
実世界のシナリオでテストされ、静的解析によって生成された1,000近い潜在的なUBIバグを分析し、LLiftは強力な能力を示し、合理的な精度(50%)を示し、欠陥がないように見える。
また、Linuxカーネルの13のUBIバグも特定している。
本研究は,LLMを用いた広範囲な実世界のデータセットにおけるバグ発見のための新たな機会と方法論の道を開くものである。 Static analysis is a widely used technique in software engineering for identifying and mitigating bugs. However, a significant hurdle lies in achieving a delicate balance between precision and scalability. Large Language Models (LLMs) offer a promising alternative, as recent advances demonstrate remarkable capabilities in comprehending, generating, and even debugging code. Yet, the logic of bugs can be complex and require sophisticated reasoning and a large analysis scope spanning multiple functions. Therefore, at this point, LLMs are better used in an assistive role to complement static analysis. In this paper, we take a deep dive into the open space of LLM-assisted static analysis, using use-before-initialization (UBI) bugs as a case study. To this end, we develop LLift, a fully automated framework that interfaces with both a static analysis tool and an LLM. By carefully designing the framework and the prompts, we are able to overcome a number of challenges, including bug-specific modeling, the large problem scope, the non-deterministic nature of LLMs, etc. Tested in a real-world scenario analyzing nearly a thousand potential UBI bugs produced by static analysis, LLift demonstrates a potent capability, showcasing a reasonable precision (50%) and appearing to have no missing bugs. It even identified 13 previously unknown UBI bugs in the Linux kernel. This research paves the way for new opportunities and methodologies in using LLMs for bug discovery in extensive, real-world datasets. | 翻訳日:2023-11-17 18:30:34 公開日:2023-11-15 |
# 軽度認知障害を有する高齢ドライバの車内センシングとデータ解析 In-vehicle Sensing and Data Analysis for Older Drivers with Mild Cognitive Impairment ( http://arxiv.org/abs/2311.09273v1 ) ライセンス: Link先を確認 | Sonia Moshfeghi, Muhammad Tanveer Jan, Joshua Conniff, Seyedeh Gol Ara Ghoreishi, Jinwoo Jang, Borko Furht, Kwangsoo Yang, Monica Rosselli, David Newman, Ruth Tappen, Dana Smith | (参考訳) 運転は、年齢と疾患に関連する認知低下を示す複雑な日常活動である。
したがって、軽度認知障害のないもの(mci)と比較して運転性能の欠如は認知機能の変化を反映しうる。
高齢者の日常生活におけるパフォーマンスを邪魔にならない監視を行うことで、認知の微妙な変化を早期に発見できるという証拠が増えている。
本研究の目的は、高精度測位とテレマティクスデータを得ることができる低コスト車載センシングハードウェアの設計、認知の早期変化の重要な指標の同定、そして機械学習による真に正常な日々の運転条件における認知障害の早期警戒徴候の検出である。
MCIと非運転者を比較した統計的分析の結果,MCIはよりスムーズで安全な運転パターンを示すことが明らかとなった。
これは、MCIのドライバーが自分の状態を認識し、不規則な運転行動を避ける傾向があることを示唆している。
さらに, ランダムな森林モデルを用いて, 夜間の旅行数, 旅行数, 教育数をデータ評価の最も大きな要因として同定した。 Driving is a complex daily activity indicating age and disease related cognitive declines. Therefore, deficits in driving performance compared with ones without mild cognitive impairment (MCI) can reflect changes in cognitive functioning. There is increasing evidence that unobtrusive monitoring of older adults driving performance in a daily-life setting may allow us to detect subtle early changes in cognition. The objectives of this paper include designing low-cost in-vehicle sensing hardware capable of obtaining high-precision positioning and telematics data, identifying important indicators for early changes in cognition, and detecting early-warning signs of cognitive impairment in a truly normal, day-to-day driving condition with machine learning approaches. Our statistical analysis comparing drivers with MCI to those without reveals that those with MCI exhibit smoother and safer driving patterns. This suggests that drivers with MCI are cognizant of their condition and tend to avoid erratic driving behaviors. Furthermore, our Random Forest models identified the number of night trips, number of trips, and education as the most influential factors in our data evaluation. | 翻訳日:2023-11-17 18:22:57 公開日:2023-11-15 |
# 量子集合論に基づく文脈隠れ変数理論の論理的評価 Logical Characterization of Contextual Hidden-Variable Theories based on Quantum Set Theory ( http://arxiv.org/abs/2311.09268v1 ) ライセンス: Link先を確認 | Masanao Ozawa (Chubu University, Nagoya University) | (参考訳) 非文脈的隠れ変数理論は不可能であることが証明されているが、文脈的理論は可能である。
文脈的隠れ変数理論では、隠れ変数が状態と好ましい観測可能によって指定された所定の測定コンテキストにその値を割り当てると、可観測性は可観測性(beable)と呼ばれる。
ハルボルソンとクリフトンは、可観測の代数的構造をフォン・ノイマン部分代数(英語版)(von neumann subalgebra)と呼び、可観測代数の可観測部分代数(英語版)(beable subalgebra)と呼ぶ。
一方、すべてのフォン・ノイマン代数に対して、内部の「実数」が与えられたフォン・ノイマン代数に付随する可観測量に双対的に対応するような一意的な集合論宇宙が存在することを示した。
ここでは、集合論宇宙が可算部分代数と結びついていることとそれがZFCに満足なこと、すなわち、ZFC集合論のすべての定理がユニタリに等しい確率で成り立つことを示せる。
さらに、与えられた測定コンテキストにより、マラメントなどの意味で、一意の極大なZFC飽和部分ユニバースが「単純定義可能」であることを示す。
zfc-satisfiable universe (zfc-satisfiable universe) のセット理論言語は、ボーアの「古典言語」の概念を厳格に再構築し、与えられた測定文脈でビーブルを記述する。 While non-contextual hidden-variable theories are proved to be impossible, contextual ones are possible. In a contextual hidden-variable theory, an observable is called a beable if the hidden-variable assigns its value in a given measurement context specified by a state and a preferred observable. Halvorson and Clifton characterized the algebraic structure of beables as a von Neumann subalgebra, called a beable subalgebra, of the full observable algebra such that the probability distribution of every observable affiliated therewith admits the ignorance interpretation. On the other hand, we have shown that for every von Neumann algebra there is a unique set theoretical universe such that the internal "real numbers" bijectively correspond to the observables affiliated with the given von Neumann algebra. Here, we show that a set theoretical universe is associated with a beable subalgebra if and only if it is ZFC-satisfiable, namely, every theorem of ZFC set theory holds with probability equal to unity. Moreover, we show that there is a unique maximal ZFC-satisfiable subuniverse "implicitly definable", in the sense of Malament and others, by the given measurement context. The set theoretical language for the ZFC-satisfiable universe, characterized by the present work, rigorously reconstructs Bohr's notion of the "classical language" to describe the beables in a given measurement context. | 翻訳日:2023-11-17 18:22:42 公開日:2023-11-15 |
# 神経科学にインスパイアされた科学機械学習(その1) : 回帰のための可変スパイキングニューロン Neuroscience inspired scientific machine learning (Part-1): Variable spiking neuron for regression ( http://arxiv.org/abs/2311.09267v1 ) ライセンス: Link先を確認 | Shailesh Garg and Souvik Chakraborty | (参考訳) ニューラルネットワークにおける冗長な情報転送は、ディープラーニングモデルの複雑さを増大させ、消費電力を増加させる。
本稿では,生物ニューロンにインスパイアされたLeaky Integrate and Fire Spiking Neurons(LIF-SN)の教訓を用いて,冗長な発射を低減できる新しいスパイクニューロンであるVSNを紹介する。
提案したVSNはLIF-SNと人工ニューロンを混合する。
LIF-SNからの間欠的発射の利点を生かし、人工ニューロンからの連続的な活性化の利点を利用する。
提案したVSNの特性は、エネルギー予算を低く保ちながらバニラスパイクニューロンの弱点である回帰タスクに適合する。
提案するvsnは分類と回帰の両方のタスクに対してテストされる。
その結果、特に回帰作業において、提案されたスパイキングニューロンの有効性を優先的に主張した。 Redundant information transfer in a neural network can increase the complexity of the deep learning model, thus increasing its power consumption. We introduce in this paper a novel spiking neuron, termed Variable Spiking Neuron (VSN), which can reduce the redundant firing using lessons from biological neuron inspired Leaky Integrate and Fire Spiking Neurons (LIF-SN). The proposed VSN blends LIF-SN and artificial neurons. It garners the advantage of intermittent firing from the LIF-SN and utilizes the advantage of continuous activation from the artificial neuron. This property of the proposed VSN makes it suitable for regression tasks, which is a weak point for the vanilla spiking neurons, all while keeping the energy budget low. The proposed VSN is tested against both classification and regression tasks. The results produced advocate favorably towards the efficacy of the proposed spiking neuron, particularly for regression tasks. | 翻訳日:2023-11-17 18:22:11 公開日:2023-11-15 |
# 変換による逆ロバストスパイクニューラルネットワーク Adversarially Robust Spiking Neural Networks Through Conversion ( http://arxiv.org/abs/2311.09266v1 ) ライセンス: Link先を確認 | Ozan \"Ozdenizci, Robert Legenstein | (参考訳) スパイキングニューラルネットワーク(SNN)は、さまざまな人工知能ニューラルネットワーク(ANN)ベースのAIアプリケーションに代わるエネルギー効率の高い代替手段を提供する。
SNNによるニューロモルフィックコンピューティングの進歩がアプリケーションでの利用を拡大するにつれ、SNNの対角的堅牢性の問題はより顕著になる。
広く研究されているエンド・ツー・エンドの対向型トレーニングベースのソリューションとは対照的に,スケーラブルでロバストなsnトレーニング手法の進歩を,対向的にロバストなan-to-snn変換アルゴリズムを提案することで解決する。
提案手法は, ann に対して提案されている頑健な学習目標を取り入れるための効率的な手法である。
コンバージョン後のロバストな微調整フェーズでは,SNNの階層的発火閾値とシナプス接続重量の両方を逆向きに最適化し,事前訓練したANNからの伝達ロバスト性向上を維持する。
提案手法は,snsのスパイクに基づく動作ダイナミクスを考慮し,多数の適応型敵環境において実験的評価を行い,低遅延の高次深層snsに対して,スケーラブルな最先端ソリューションを提供することを示す。 Spiking neural networks (SNNs) provide an energy-efficient alternative to a variety of artificial neural network (ANN) based AI applications. As the progress in neuromorphic computing with SNNs expands their use in applications, the problem of adversarial robustness of SNNs becomes more pronounced. To the contrary of the widely explored end-to-end adversarial training based solutions, we address the limited progress in scalable robust SNN training methods by proposing an adversarially robust ANN-to-SNN conversion algorithm. Our method provides an efficient approach to embrace various computationally demanding robust learning objectives that have been proposed for ANNs. During a post-conversion robust finetuning phase, our method adversarially optimizes both layer-wise firing thresholds and synaptic connectivity weights of the SNN to maintain transferred robustness gains from the pre-trained ANN. We perform experimental evaluations in numerous adaptive adversarial settings that account for the spike-based operation dynamics of SNNs, and show that our approach yields a scalable state-of-the-art solution for adversarially robust deep SNNs with low-latency. | 翻訳日:2023-11-17 18:21:55 公開日:2023-11-15 |
# FastBlend:ビデオスティル化を容易にする強力なモデルフリーツールキット FastBlend: a Powerful Model-Free Toolkit Making Video Stylization Easier ( http://arxiv.org/abs/2311.09265v1 ) ライセンス: Link先を確認 | Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang, Mingyi Jin | (参考訳) 拡散モデルの出現と画像処理の急速な発展により、スタイル転送や画像編集といったタスクで派手な画像を生成することは困難になった。
しかし、これらの印象的な画像処理アプローチは、ビデオ処理における一貫性の問題に直面している。
本稿では,ビデオ処理の一貫性問題に対処するため,FastBlendと呼ばれる強力なモデルフリーツールキットを提案する。
パッチマッチングアルゴリズムに基づいて,ブレンドと補間を含む2つの推論モードを設計する。
ブレンディングモードでは、FastBlendはスライドウィンドウにフレームを混ぜることでビデオフリックを除去する。
さらに、異なるアプリケーションシナリオに応じて、計算効率と映像品質の両方を最適化する。
補間モードでは、拡散モデルでレンダリングされた1つ以上のキーフレームが与えられたら、FastBlendは全ビデオをレンダリングできる。
FastBlendは拡散モデルの生成プロセスを変更しないため、優れた互換性を示す。
大規模な実験により、FastBlendの有効性が実証された。
ブレンディングモードでは、FastBlendは既存のデクリッカリングとビデオ合成の方法より優れている。
補間モードでは、FastBlendはビデオ補間とモデルベースのビデオ処理アプローチを上回る。
ソースコードはGitHubで公開されている。 With the emergence of diffusion models and rapid development in image processing, it has become effortless to generate fancy images in tasks such as style transfer and image editing. However, these impressive image processing approaches face consistency issues in video processing. In this paper, we propose a powerful model-free toolkit called FastBlend to address the consistency problem for video processing. Based on a patch matching algorithm, we design two inference modes, including blending and interpolation. In the blending mode, FastBlend eliminates video flicker by blending the frames within a sliding window. Moreover, we optimize both computational efficiency and video quality according to different application scenarios. In the interpolation mode, given one or more keyframes rendered by diffusion models, FastBlend can render the whole video. Since FastBlend does not modify the generation process of diffusion models, it exhibits excellent compatibility. Extensive experiments have demonstrated the effectiveness of FastBlend. In the blending mode, FastBlend outperforms existing methods for video deflickering and video synthesis. In the interpolation mode, FastBlend surpasses video interpolation and model-based video processing approaches. The source codes have been released on GitHub. | 翻訳日:2023-11-17 18:21:34 公開日:2023-11-15 |
# 腫瘍微小環境が薬物応答に及ぼす影響の解釈モデルとしてのクロスドメイン機能障害 Cross-domain feature disentanglement for interpretable modeling of tumor microenvironment impact on drug response ( http://arxiv.org/abs/2311.09264v1 ) ライセンス: Link先を確認 | Jia Zhai and Hui Liu | (参考訳) 高スループットスクリーニング技術は、数百のがん細胞株にまたがる大規模な薬物応答の生成を促進する。
しかし、複雑な細胞組成とTMEとして知られる病理組織構造から構成される腫瘍が、腫瘍細胞に対する薬物の細胞毒性に大きな影響を及ぼすため、in vitro細胞株とin vivoでの実際の腫瘍の間には大きな相違がある。
これまで、TMEが臨床薬効に与える影響をモデル化する研究は行われていない。
本稿では, 癌細胞と腫瘍のTMEを分離する領域適応ネットワークを提案する。
細胞株(ソースドメイン)と腫瘍(ターゲットドメイン)から部分的ドメインアライメントと特徴デカップリングのための特徴抽出に2つのデノナイジングオートエンコーダを別々に使用した。
特定のエンコーダはTMEに関する情報のみを抽出するために強制された。
さらに, 新規薬物の汎用性を確保するため, グラフアテンションネットワークを用いて薬剤の潜伏表現を学習し, 潜伏空間の細胞状態に対する薬物摂動を線形にモデル化した。
ベンチマークデータセットでモデルを校正し,臨床薬剤反応の予測とtmeの薬剤効能への影響の解剖において,その優れた性能を実証した。 High-throughput screening technology has facilitated the generation of large-scale drug responses across hundreds of cancer cell lines. However, there exists significant discrepancy between in vitro cell lines and actual tumors in vivo in terms of their response to drug treatments, because of tumors comprise of complex cellular compositions and histopathology structure, known as tumor microenvironment (TME), which greatly influences the drug cytotoxicity against tumor cells. To date, no study has focused on modeling the impact of the TME on clinical drug response. This paper proposed a domain adaptation network for feature disentanglement to separate representations of cancer cells and TME of a tumor in patients. Two denoising autoencoders were separately used to extract features from cell lines (source domain) and tumors (target domain) for partial domain alignment and feature decoupling. The specific encoder was enforced to extract information only about TME. Moreover, to ensure generalizability to novel drugs, we applied a graph attention network to learn the latent representation of drugs, allowing us to linearly model the drug perturbation on cellular state in latent space. We calibrated our model on a benchmark dataset and demonstrated its superior performance in predicting clinical drug response and dissecting the influence of the TME on drug efficacy. | 翻訳日:2023-11-17 18:21:18 公開日:2023-11-15 |
# Auto-ICL:人間の監督なしでのインコンテキスト学習 Auto-ICL: In-Context Learning without Human Supervision ( http://arxiv.org/abs/2311.09263v1 ) ライセンス: Link先を確認 | Jinghan Yang, Shuming Ma, Furu Wei | (参考訳) 大規模言語モデル(LLM)の時代、人間とコンピュータの相互作用は自然言語へと進化し、前例のない柔軟性を提供している。
それにもかかわらず、LLMはIn-Context Learningの領域内で効率的に機能するための構造化されたプロンプトに大きく依存している。
バニラ・インコンテキスト・ラーニング(Vanilla In-Context Learning)は、ラベル付き例や明示的な指示、あるいはモデルの出力を形作る他の指針機構など、人間が提供するコンテキストに依存している。
この課題に対処するため、我々はAutomatic In-Context Learningという普遍的なフレームワークを提案する。
ユーザの要求を受信すると、ラベル、命令、推論経路など、独立してサンプルを生成するようモデルに要求する。
モデルは、与えられた問題に取り組むために、この自己生成コンテキストを利用する。
私たちのアプローチは、普遍的に適応可能であり、バニラインコンテキスト学習が適用可能な任意の環境で実装できます。
提案手法は,既存の手法と比較した場合,様々なタスクにまたがって強力な性能をもたらすことを実証する。 In the era of Large Language Models (LLMs), human-computer interaction has evolved towards natural language, offering unprecedented flexibility. Despite this, LLMs are heavily reliant on well-structured prompts to function efficiently within the realm of In-Context Learning. Vanilla In-Context Learning relies on human-provided contexts, such as labeled examples, explicit instructions, or other guiding mechanisms that shape the model's outputs. To address this challenge, our study presents a universal framework named Automatic In-Context Learning. Upon receiving a user's request, we ask the model to independently generate examples, including labels, instructions, or reasoning pathways. The model then leverages this self-produced context to tackle the given problem. Our approach is universally adaptable and can be implemented in any setting where vanilla In-Context Learning is applicable. We demonstrate that our method yields strong performance across a range of tasks, standing up well when compared to existing methods. | 翻訳日:2023-11-17 18:20:53 公開日:2023-11-15 |
# 論文の拡散, 適合性, 貢献価値への潜在的影響の解消 Disentangling the Potential Impacts of Papers into Diffusion, Conformity, and Contribution Values ( http://arxiv.org/abs/2311.09262v1 ) ライセンス: Link先を確認 | Zhikai Xue, Guoxiu He, Zhuoren Jiang, Yangyang Kang, Star Zhao, Wei Lu | (参考訳) 学術論文の潜在的影響は、その人気や貢献など様々な要因によって決定される。
既存のモデルは、通常、静的グラフに基づいて元の引用数を推定し、微妙な視点から値の区別に失敗する。
本研究では,論文の拡散,コンフォーマル性,寄与価値(DPPDCC)への潜在的影響を識別する新しいグラフニューラルネットワークを提案する。
DPPDCCは,構築した動的不均一グラフ内の時間的特徴と構造的特徴を符号化する。
特に,知識の流れを捉えるために,論文と要約の進化的比較・共催・引用の重要性を強調した。
人気を解き明かすために,拡張グラフを対比して拡散の本質を抽出し,モデル適合性に蓄積された引用バイナリ化を予測する。
さらに,各視点を個別にモデル化し,貢献の固有価値を保つために直交制約を適用する。
論文の汎用性を評価するために,特定の時点に基づいてデータを分割し,実世界の条件を反映することで問題を再検討する。
3つのデータセットの大規模な実験結果から、DPPDCCは前、新、即時発行された論文のベースラインを著しく上回っていることが示された。
さらなる分析により、その堅牢性が確認された。
私たちはデータセットとコードを一般公開します。 The potential impact of an academic paper is determined by various factors, including its popularity and contribution. Existing models usually estimate original citation counts based on static graphs and fail to differentiate values from nuanced perspectives. In this study, we propose a novel graph neural network to Disentangle the Potential impacts of Papers into Diffusion, Conformity, and Contribution values (called DPPDCC). Given a target paper, DPPDCC encodes temporal and structural features within the constructed dynamic heterogeneous graph. Particularly, to capture the knowledge flow, we emphasize the importance of comparative and co-cited/citing information between papers and aggregate snapshots evolutionarily. To unravel popularity, we contrast augmented graphs to extract the essence of diffusion and predict the accumulated citation binning to model conformity. We further apply orthogonal constraints to encourage distinct modeling of each perspective and preserve the inherent value of contribution. To evaluate models' generalization for papers published at various times, we reformulate the problem by partitioning data based on specific time points to mirror real-world conditions. Extensive experimental results on three datasets demonstrate that DPPDCC significantly outperforms baselines for previously, freshly, and immediately published papers. Further analyses confirm its robust capabilities. We will make our datasets and codes publicly available. | 翻訳日:2023-11-17 18:20:39 公開日:2023-11-15 |
# バイオメディカルネットワークを用いたフローベースグラフニューラルネットワークによる創発的薬物相互作用予測 Emerging Drug Interaction Prediction Enabled by Flow-based Graph Neural Network with Biomedical Network ( http://arxiv.org/abs/2311.09261v1 ) ライセンス: Link先を確認 | Yongqi Zhang, Quanming Yao, Ling Yue, Xian Wu, Ziheng Zhang, Zhenxi Lin, Yefeng Zheng | (参考訳) 疾患の治療と緩和の可能性を提供する新興薬の薬物-薬物相互作用(ddi)を正確に予測することは、患者のケアを改善し、効率的な薬物開発に寄与することができる。
しかし、既存の計算手法の多くは大量のddi情報を必要とするため、新興薬には不足している。
本稿では,バイオメディカルネットワークの豊富な情報を活用することにより,新興医薬品との相互作用を効果的に予測できるグラフニューラルネットワーク(GNN)であるEmerGNNを提案する。
EmerGNNは、薬物ペア間の経路を抽出し、ある薬物から他の薬物へ情報を伝達し、関連する生物学的概念を経路に組み込むことで、薬物のペアワイズ表現を学習する。
バイオメディカルネットワーク上の異なるエッジは、ターゲットDDI予測の関連性を示すために重み付けされる。
全体として、emergnnは、新興薬の相互作用を予測する既存のアプローチよりも高い精度を持ち、バイオメディカルネットワークの最も関連する情報を特定することができる。 Accurately predicting drug-drug interactions (DDI) for emerging drugs, which offer possibilities for treating and alleviating diseases, with computational methods can improve patient care and contribute to efficient drug development. However, many existing computational methods require large amounts of known DDI information, which is scarce for emerging drugs. In this paper, we propose EmerGNN, a graph neural network (GNN) that can effectively predict interactions for emerging drugs by leveraging the rich information in biomedical networks. EmerGNN learns pairwise representations of drugs by extracting the paths between drug pairs, propagating information from one drug to the other, and incorporating the relevant biomedical concepts on the paths. The different edges on the biomedical network are weighted to indicate the relevance for the target DDI prediction. Overall, EmerGNN has higher accuracy than existing approaches in predicting interactions for emerging drugs and can identify the most relevant information on the biomedical network. | 翻訳日:2023-11-17 18:20:01 公開日:2023-11-15 |
# ハミルトン再構成 : 相関行列と不完全演算子基底 Hamiltonian Reconstruction: the Correlation Matrix and Incomplete Operator Bases ( http://arxiv.org/abs/2311.09302v1 ) ライセンス: Link先を確認 | Lucas Z. Brito, Stephen Carr, J. Alexander Jacoby, J. B. Marston | (参考訳) 演算子基底の選択に関して相関行列ハミルトニアン再構成手法のロバスト性について検討し、不完全で過剰に完全であるベースの効果について検討する。
不完全なベースから再構成するための近似スキームを提案し、選択モデル上で数値的に実行した。
保存量と対称性が再建の試みに与える影響について考察する。
これらの考察をゼロ温度および有限温度の様々な一次元系に適用する。 We explore the robustness of the correlation matrix Hamiltonian reconstruction technique with respect to the choice of operator basis, studying the effects of bases that are undercomplete and over-complete -- too few or too many operators respectively. An approximation scheme for reconstructing from an undercomplete basis is proposed and performed numerically on select models. We discuss the confounding effects of conserved quantities and symmetries on reconstruction attempts. We apply these considerations to a variety of one-dimensional systems in zero- and finite-temperature regimes. | 翻訳日:2023-11-17 18:08:54 公開日:2023-11-15 |
# 量子コンピュータからの散乱位相シフト Scattering phase shifts from a quantum computer ( http://arxiv.org/abs/2311.09298v1 ) ライセンス: Link先を確認 | Sanket Sharma, Thomas Papenbrock, Lucas Platter | (参考訳) 量子コンピュータ上での2体散乱位相シフトをリードオーダー短距離実効場理論ハミルトニアンを用いて計算する。
このアルゴリズムは変分量子固有解法と量子部分空間展開を組み合わせたものである。
例えば、重陽子$^3$S$_1$偏波の散乱を考える。
量子シミュレータと実ハードウェアを用いて散乱位相シフトを計算する。
また,これらの計算にノイズがどのように影響するかを考察し,より大きな量子処理ユニットへの拡張に必要なノイズ緩和について考察する。
現在のハードウェアでは、最大5個の超伝導量子ビットが許容可能な結果をもたらすことができ、より大きな計算では大きなノイズ低減が必要となる。 We calculate two-body scattering phase shifts on a quantum computer using a leading order short-range effective field theory Hamiltonian. The algorithm combines the variational quantum eigensolver and the quantum subspace expansion. As an example, we consider scattering in the deuteron $^3$S$_1$ partial wave. We calculate scattering phase shifts with a quantum simulator and on real hardware. We also study how noise impacts these calculations and discuss noise mitigation required to extend our work to larger quantum processing units. With current hardware, up to five superconducting qubits can produce acceptable results, and larger calculations will require a significant noise reduction. | 翻訳日:2023-11-17 18:08:47 公開日:2023-11-15 |
# カオスおよび可積分モデルにおけるフルレンジスペクトル相関とそのスペクトル形成因子 Full range spectral correlations and their spectral form factors in chaotic and integrable models ( http://arxiv.org/abs/2311.09292v1 ) ライセンス: Link先を確認 | Ruth Shir, Pablo Martinez-Azcona and Aur\'elia Chenu | (参考訳) 量子カオス系は、そのスペクトル統計におけるエネルギー相関によって特徴づけられ、通常、最も近い隣のレベル間隔の分布によって探索される。
スペクトル形成因子(SFF)のようなカオスのシグネチャは、すべての相関を考慮に入れ、一方、短距離または長距離の相関だけをサンプリングする。
ここでは、あらゆる可能なスペクトル距離における固有エネルギー間の相関を特徴付ける。
具体的には、k$-th neighbor level spacings (k$nls) の分布を調べ、それに関連するk$-th neighbor spectral form factor (k$nsff) を計算する。
これにより、量子カオスの2つの新しいフルレンジシグネチャ、すなわち、k$nls分布の分散とk$nsffの最小値が導かれる。
確率行列論(GOE, GUE, GSE)の3つのガウスアンサンブルと、完全に相関のないスペクトルを持つ可積分系(ポアソンアンサンブル)において、これらのシグネチャの正確な近似式を求める。
本研究は, カオス的行動と可積分的行動の補間を行う XXZ スピン鎖の障害について述べる。
カオスの洗練された測度は、現実のシステムにおけるポアソニアンおよびランダムマトリクスの振る舞いからの偏差を調べることができる。
これは、完全にカオス的または完全に統合可能なモデルの間にある、多体量子システムの研究に新しい光をもたらす方法を示している。 Quantum chaotic systems are characterized by energy correlations in their spectral statistics, usually probed by the distribution of nearest-neighbor level spacings. Some signatures of chaos, like the spectral form factor (SFF), take all the correlations into account, while others sample only short-range or long-range correlations. Here, we characterize correlations between eigenenergies at all possible spectral distances. Specifically, we study the distribution of $k$-th neighbor level spacings ($k$nLS) and compute its associated $k$-th neighbor spectral form factor ($k$nSFF). This leads to two new full-range signatures of quantum chaos, the variance of the $k$nLS distribution and the minimum value of the $k$nSFF, which quantitatively characterize correlations between pairs of eigenenergies with any number of levels $k$ between them. We find exact and approximate expressions for these signatures in the three Gaussian ensembles of random matrix theory (GOE, GUE and GSE) and in integrable systems with completely uncorrelated spectra (the Poisson ensemble). We illustrate our findings in a XXZ spin chain with disorder, which interpolates between chaotic and integrable behavior. Our refined measures of chaos allow us to probe deviations from Poissonian and Random Matrix behavior in realistic systems. This illustrates how the measures we introduce bring a new light into studying many-body quantum systems, which lie in-between the fully chaotic or fully integrable models. | 翻訳日:2023-11-17 18:08:39 公開日:2023-11-15 |
# 数保存型局所古典影断層撮影の効率化 Efficient Local Classical Shadow Tomography with Number Conservation ( http://arxiv.org/abs/2311.09291v1 ) ライセンス: Link先を確認 | Sumner N. Hearth, Michael O. Flynn, Anushya Chandran, Chris R. Laumann | (参考訳) シャドウトモグラフィーは、単純なランダム測定のシーケンスから量子状態の古典的な記述を構築することを目的としている。
物理的観測物は、結果として生じる古典的な影から再構成される。
単体ランダム測定を用いるシャドウプロトコルは、極低温原子のような基本数保存則を持つシステムでは適用されないが、少ない天体観測を効率的に実装し捕獲するのも簡単である。
このようなシステムに適応した新しいローカルシャドウプロトコルを提案し,解析することで,この問題に対処する。
all-pairs"プロトコルは、任意の少数のボディオブザーバブルを再構築するために、2体ゲートの1層と$\textrm{poly}(v)$サンプルのみを必要とする。
さらに、プロトコルの置換対称性を利用して、線形時間後処理アルゴリズムを導出する。
第一原理の参照実装を提供し、ハードコアボソンのペアルッティンガー液中の2点および4点関数の再構成を実証する。 Shadow tomography aims to build a classical description of a quantum state from a sequence of simple random measurements. Physical observables are then reconstructed from the resulting classical shadow. Shadow protocols which use single-body random measurements are simple to implement and capture few-body observables efficiently, but do not apply to systems with fundamental number conservation laws, such as ultracold atoms. We address this shortcoming by proposing and analyzing a new local shadow protocol adapted to such systems. The "All-Pairs" protocol requires one layer of two-body gates and only $\textrm{poly}(V)$ samples to reconstruct arbitrary few body observables. Moreover, by exploiting the permutation symmetry of the protocol, we derive a linear time post-processing algorithm. We provide a proof-of-principle reference implementation and demonstrate the reconstruction of 2- and 4-point functions in a paired Luttinger liquid of hardcore bosons. | 翻訳日:2023-11-17 18:08:10 公開日:2023-11-15 |
# ハバード模型における長岡強磁性の極性機構 Polaronic mechanism of Nagaoka ferromagnetism in Hubbard models ( http://arxiv.org/abs/2311.09279v1 ) ライセンス: Link先を確認 | Rhine Samajdar, R. N. Bhatt | (参考訳) ハバードモデルにおける溶出性長岡型強磁性の探索は、光格子中のモワーイ材料、量子ドット、超低温原子など、その実現を可能にする様々な実験プラットフォームが出現し、近年注目されている。
ここでは, 偏極スピンをまとったドパントからなる強磁性ポーラロンの形成に基づく長岡強磁性(二部格子と非二部格子の両方に適用される)の普遍機構を示す。
大規模密度行列再正規化群計算を用いて、電子ドープハバードモデルにおける強磁性ポーラロンの包括的研究を行い、そのサイズやエネルギーなど様々な極性特性を確立する。
さらに、磁化状態$\unicode{x2014}$ピンニング場と3点スピンチャージスピン相関関数$\unicode{x2014}$により、相互作用するポーラロンの単一極子極限と高密度状態の両方に対して、系統的に磁気状態$\unicode{x2014}$の内部構造を探索する。
本研究は,局所強磁性による地球規模の強磁性秩序の誕生における移動型ポーラロンの役割を強調し,長岡型強磁性状態の発生と崩壊を理解するための統一的な枠組みを提供するものである。 The search for elusive Nagaoka-type ferromagnetism in the Hubbard model has recently enjoyed renewed attention with the advent of a variety of experimental platforms enabling its realization, including moir\'e materials, quantum dots, and ultracold atoms in optical lattices. Here, we demonstrate a universal mechanism for Nagaoka ferromagnetism (that applies to both bipartite and nonbipartite lattices) based on the formation of ferromagnetic polarons consisting of a dopant dressed with polarized spins. Using large-scale density-matrix renormalization group calculations, we present a comprehensive study of the ferromagnetic polaron in an electron-doped Hubbard model, establishing various polaronic properties such as its size and energetics. Moreover, we systematically probe the internal structure of the magnetic state$\unicode{x2014}$through the use of pinning fields and three-point spin-charge-spin correlation functions$\unicode{x2014}$for both the single-polaron limit and the high-density regime of interacting polarons. Our results highlight the crucial role of mobile polarons in the birth of global ferromagnetic order from local ferromagnetism and provide a unified framework to understand the development and demise of the Nagaoka-type ferromagnetic state across dopings. | 翻訳日:2023-11-17 18:07:55 公開日:2023-11-15 |
# symbol-llm: 大規模言語モデルのための基本記号中心インタフェースに向けて Symbol-LLM: Towards Foundational Symbol-centric Interface For Large Language Models ( http://arxiv.org/abs/2311.09278v1 ) ライセンス: Link先を確認 | Fangzhi Xu, Zhiyong Wu, Qiushi Sun, Siyu Ren, Fei Yuan, Shuai Yuan, Qika Lin, Yu Qiao, Jun Liu | (参考訳) 大規模言語モデル(LLM)は、NLインタフェースに基づく自然言語(NL)中心のタスクの進歩を大いに促進している。
しかし、NL形式は世界の知識に十分ではない。
現在の研究は、様々なシンボル間の相互関係と記号中心とNL中心の能力のバランスという2つの重要な課題を無視して、特定の記号的知識をLSMに注入することでこの問題に焦点を当てている。
本研究では、データとフレームワークの観点からこれらの課題に取り組み、Symbol-LLMシリーズモデルを導入する。
まず,シンボル相互関係を捉えるために,約20の異なる形式をカバーする34の象徴的タスクを収集する。
そして、2段階のチューニングフレームワークは、一般化能力を失うことなく記号的知識を注入することに成功した。
シンボル中心タスクとNL中心タスクの広範な実験は、Symbol-LLMシリーズモデルのバランスと優れた性能を示している。 Large Language Models (LLMs) have greatly propelled the progress in natural language(NL)-centric tasks based on NL interface. However, the NL form is not enough for world knowledge. Current works focus on this question by injecting specific symbolic knowledge into LLM, which ignore two critical challenges: the interrelations between various symbols and the balance between symbolic-centric and NL-centric capabilities. In this work, we tackle these challenges from both a data and framework perspective and introduce Symbol-LLM series models. First, we collect 34 symbolic tasks, covering ~20 different forms, which are unified to capture symbol interrelations. Then, a two-stage tuning framework succeeds in injecting symbolic knowledge without loss of the generality ability. Extensive experiments on both symbol- and NL-centric tasks demonstrate the balanced and superior performances of Symbol-LLM series models. | 翻訳日:2023-11-17 18:07:31 公開日:2023-11-15 |
# コントラスト型チェーン・オブ・サート・プロンプティング Contrastive Chain-of-Thought Prompting ( http://arxiv.org/abs/2311.09277v1 ) ライセンス: Link先を確認 | Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing | (参考訳) 言語モデル推論の強化における思考の連鎖の成功にもかかわらず、基礎となるプロセスはよく理解されていない。
論理的に健全な推論は思考の連鎖に本質的に不可欠であるように見えるが、以前の研究は、無効なデモを使う場合の影響を驚くほど示している。
さらに、従来の思考の連鎖は、避けるべき誤りについて言語モデルに通知しないため、より多くのエラーを引き起こす可能性がある。
そこで我々は,肯定的,否定的な両例から人間の学習方法に触発され,言語モデル推論を強化するための思考の対照的な連鎖を提案する。
従来の思考連鎖と比較して,推論の誤りを低減しつつ,モデルを段階的に推論するように指導する手法として,有効かつ無効な推論実証を提供する。
一般化を改善するため,コントラスト表現を自動生成する手法を提案する。
推論ベンチマークに関する実験では,思考のコントラスト連鎖が,思考の連鎖の促進に寄与することが示された。 Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting. | 翻訳日:2023-11-17 18:07:16 公開日:2023-11-15 |
# 機械学習ベンチマークデータセットを用いた洪水範囲検出のための市民科学の活用 Leveraging Citizen Science for Flood Extent Detection using Machine Learning Benchmark Dataset ( http://arxiv.org/abs/2311.09276v1 ) ライセンス: Link先を確認 | Muthukumaran Ramasubramanian, Iksha Gurung, Shubhankar Gahlot, Ronny H\"ansch, Andrew L. Molthan, Manil Maskey | (参考訳) 洪水時の浸水量の正確な検出は,緊急対応決定や復旧支援において重要である。
衛星リモートセンシングデータは、洪水範囲を検出するグローバルなフレームワークを提供する。
具体的には、Sentinel-1 C-Band Synthetic Aperture Radar (SAR)画像は、共偏極およびクロス偏極SAR画像の両方において、水の特徴の後方散乱が低いため、水体を検出するのに有用であることが証明されている。
しかし、インフラや木などの浸水した地域では後方散乱が増加しており、ピクセル強度の閾値付けや時系列の違いといった単純な手法が不十分である。
機械学習技術は、後方散乱で浸水した地域の洪水範囲を正確に把握するために利用されてきたが、好ましくは大量のラベル付きデータを必要とする。
その結果,約36,000 sqの洪水イベントにおいて,ラベル付き既知水域範囲と浸水面積を作成した。
アメリカ本土とバングラデシュの1kmの地域です
さらに,データセットをオープンソース化し,データセットに基づくオープンコンペティションを主催することで市民科学を活用し,コミュニティ生成モデルを用いた洪水範囲検出を迅速にプロトタイプ化する。
本稿では,データセットに関する情報,データ処理パイプライン,ベースラインモデル,コンペティションの詳細について述べるとともに,入賞アプローチに関する議論を行う。
データセットはSentinel-1C SARデータに基づく既存のデータセットに追加され、より堅牢な洪水範囲のモデリングにつながります。
また,競争の結果が,さらなる洪水範囲検出に寄与することを願っている。 Accurate detection of inundated water extents during flooding events is crucial in emergency response decisions and aids in recovery efforts. Satellite Remote Sensing data provides a global framework for detecting flooding extents. Specifically, Sentinel-1 C-Band Synthetic Aperture Radar (SAR) imagery has proven to be useful in detecting water bodies due to low backscatter of water features in both co-polarized and cross-polarized SAR imagery. However, increased backscatter can be observed in certain flooded regions such as presence of infrastructure and trees - rendering simple methods such as pixel intensity thresholding and time-series differencing inadequate. Machine Learning techniques has been leveraged to precisely capture flood extents in flooded areas with bumps in backscatter but needs high amounts of labelled data to work desirably. Hence, we created a labeled known water body extent and flooded area extents during known flooding events covering about 36,000 sq. kilometers of regions within mainland U.S and Bangladesh. Further, We also leveraged citizen science by open-sourcing the dataset and hosting an open competition based on the dataset to rapidly prototype flood extent detection using community generated models. In this paper we present the information about the dataset, the data processing pipeline, a baseline model and the details about the competition, along with discussion on winning approaches. We believe the dataset adds to already existing datasets based on Sentinel-1C SAR data and leads to more robust modeling of flood extents. We also hope the results from the competition pushes the research in flood extent detection further. | 翻訳日:2023-11-17 18:06:58 公開日:2023-11-15 |
# スパースイジング最適化の改善 Improved Sparse Ising Optimization ( http://arxiv.org/abs/2311.09275v1 ) ライセンス: Link先を確認 | Kenneth M. Zick | (参考訳) スパースイジング問題は、ロジスティクス、凝縮物物理学、ディープ・ボルツマン・ネットワークの訓練といった応用領域で見られるが、高い効率と精度で取り組むことは極めて困難である。
本報告では,2万変数のベンチマーク問題に対して,従来よりかなり高い性能を示す新たなデータを提案する。
データはGsetベンチマークスイートからの大きなスパースインスタンスでテストされた新しいヒューリスティックアルゴリズムから得られたものだ。
速度と精度(例えば、東芝のSimulated Bifurcation MachineとBreakout Local Search)の組み合わせを先導したのとは対照的に、概念実証の実装は2-4桁の精度で目標に達した。
2つの例(g72とg77)において、新しいアルゴリズムは以前報告された全ての値よりも優れた解を発見した。
この2つの最善のソリューションを確認するソリューションビットストリングが提供される。
このデータは、スパースIsingパフォーマンスフロンティアを、アルゴリズムポートフォリオ、AIツールキット、意思決定システムを強化するために推進するエキサイティングな可能性を示している。 Sparse Ising problems can be found in application areas such as logistics, condensed matter physics and training of deep Boltzmann networks, but can be very difficult to tackle with high efficiency and accuracy. This report presents new data demonstrating significantly higher performance on some longstanding benchmark problems with up to 20,000 variables. The data come from a new heuristic algorithm tested on the large sparse instances from the Gset benchmark suite. Relative to leading reported combinations of speed and accuracy (e.g., from Toshiba's Simulated Bifurcation Machine and Breakout Local Search), a proof-of-concept implementation reached targets 2-4 orders of magnitude faster. For two instances (G72 and G77) the new algorithm discovered a better solution than all previously reported values. Solution bitstrings confirming these two best solutions are provided. The data suggest exciting possibilities for pushing the sparse Ising performance frontier to potentially strengthen algorithm portfolios, AI toolkits and decision-making systems. | 翻訳日:2023-11-17 18:06:35 公開日:2023-11-15 |
# ニューラルODEを用いた解釈可能な主曲線の構成 Constructing interpretable principal curve using Neural ODEs ( http://arxiv.org/abs/2311.09274v1 ) ライセンス: Link先を確認 | Guangzheng Zhang, Bingxian Xu | (参考訳) 高次元データセットの研究は、しばしば元の空間の局所幾何学を保存する低次元射影に依存する。
木のような構造のバリエーションとしてこの空間を要約するために多くの方法が開発されてきたが、通常は非パラメトリックで「静的」である。
データは、微分セルのような動的システムから来る可能性があるので、空間の静的で非パラメトリックな特徴づけは、最も適切ではないかもしれない。
そこで我々は,この空間を動的に特徴付けることのできる,主流れという枠組みを開発した。
ニューラルネットワークを用いて定義された主流れは、粒子の軌道がデータセットの主曲線に類似している空間を通して粒子の動きを誘導する。
このフレームワークは様々な複雑な形状を特徴付けるのに利用でき、緩和力学の要約を組み込むのに柔軟である。 The study of high dimensional data sets often rely on their low dimensional projections that preserve the local geometry of the original space. While numerous methods have been developed to summarize this space as variations of tree-like structures, they are usually non-parametric and "static" in nature. As data may come from systems that are dynamical such as a differentiating cell, a static, non-parametric characterization of the space may not be the most appropriate. Here, we developed a framework, the principal flow, that is capable of characterizing the space in a dynamical manner. The principal flow, defined using neural ODEs, directs motion of a particle through the space, where the trajectory of the particle resembles the principal curve of the dataset. We illustrate that our framework can be used to characterize shapes of various complexities, and is flexible to incorporate summaries of relaxation dynamics. | 翻訳日:2023-11-17 18:06:17 公開日:2023-11-15 |
# KMeansを用いた線形時間証拠蓄積クラスタリング Linear time Evidence Accumulation Clustering with KMeans ( http://arxiv.org/abs/2311.09272v1 ) ライセンス: Link先を確認 | Ga\"elle Candel | (参考訳) アンサンブルクラスタリング手法の中で、Evidence Accumulation Clusteringは最も単純な技術の一つである。
このアプローチでは、共クラスタリング周波数を表す共結合行列を構築し、クラスタ化してコンセンサスクラスタを抽出する。
他のアプローチと比較すると、これは単純で、2つの異なる分割から得られるクラスタ間のマッチを見つける必要がない。
それでもこの方法は計算上の問題に悩まされており、n がアイテム数である n x n の大きさの行列を計算・保存する必要がある。
二次コストのため、このアプローチは小さなデータセット用に予約される。
本稿では,平均連鎖クラスタリングの挙動を模倣する手法について述べる。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
さらに、k-平均が自然に密度を最大化することを示した。
k-meansとbisectingバージョンを他の最先端コンセンサスアルゴリズムと比較したいくつかのベンチマークデータセットで実験を行った。
k-meansの結果は、計算コストを低く保ちながら、nmiの点で最高の状態と同等である。
さらに、k-平均は密度の点で最良の結果をもたらす。
これらの結果は、コンセンサスクラスタリングが単純なアルゴリズムで解決できることを示す。 Among ensemble clustering methods, Evidence Accumulation Clustering is one of the simplest technics. In this approach, a co-association (CA) matrix representing the co-clustering frequency is built and then clustered to extract consensus clusters. Compared to other approaches, this one is simple as there is no need to find matches between clusters obtained from two different partitionings. Nevertheless, this method suffers from computational issues, as it requires to compute and store a matrix of size n x n, where n is the number of items. Due to the quadratic cost, this approach is reserved for small datasets. This work describes a trick which mimic the behavior of average linkage clustering. We found a way of computing efficiently the density of a partitioning, reducing the cost from a quadratic to linear complexity. Additionally, we proved that the k-means maximizes naturally the density. We performed experiments on several benchmark datasets where we compared the k-means and the bisecting version to other state-of-the-art consensus algorithms. The k-means results are comparable to the best state of the art in terms of NMI while keeping the computational cost low. Additionally, the k-means led to the best results in terms of density. These results provide evidence that consensus clustering can be solved with simple algorithms. | 翻訳日:2023-11-17 18:06:02 公開日:2023-11-15 |
# 感情支援のための共感型ユーザ中心チャットボット An Empathetic User-Centric Chatbot for Emotional Support ( http://arxiv.org/abs/2311.09271v1 ) ライセンス: Link先を確認 | Yanting Pan, Yixuan Tang, Yuchen Niu | (参考訳) 本稿では,おとめ文化と人工知能の交わり,特におとめ指向ゲームが若い女性の情緒的ニーズをどのように満たしているかを考察する。
これらのゲームは、愛のサブカルチャー的理解に深く根ざしており、注意深く作り上げた物語構造やキャラクターの発達を通じて、プレイヤーに満足感、協力感、保護感を与える。
大規模言語モデル(llm)の普及に伴い、伝統的な静的ゲーム物語を超越し、動的で感情的に反応するインタラクションを作成する機会がある。
本稿では,対話的体験を高めるためにLLM技術を統合したテミスの涙のケーススタディを提案する。
提案手法では,質問・回答システム(QA)によって既存のゲーム物語を増強し,データ拡張と感情強化技術によって強化し,現実的で支援的な連携を提供するチャットボットを実現する。 This paper explores the intersection of Otome Culture and artificial intelligence, particularly focusing on how Otome-oriented games fulfill the emotional needs of young women. These games, which are deeply rooted in a subcultural understanding of love, provide players with feelings of satisfaction, companionship, and protection through carefully crafted narrative structures and character development. With the proliferation of Large Language Models (LLMs), there is an opportunity to transcend traditional static game narratives and create dynamic, emotionally responsive interactions. We present a case study of Tears of Themis, where we have integrated LLM technology to enhance the interactive experience. Our approach involves augmenting existing game narratives with a Question and Answer (QA) system, enriched through data augmentation and emotional enhancement techniques, resulting in a chatbot that offers realistic and supportive companionship. | 翻訳日:2023-11-17 18:05:45 公開日:2023-11-15 |
# fedcode: コードブックの転送によるコミュニケーション効率のよいフェデレーション学習 FedCode: Communication-Efficient Federated Learning via Transferring Codebooks ( http://arxiv.org/abs/2311.09270v1 ) ライセンス: Link先を確認 | Saeed Khalilian, Vasileios Tsouvalas, Tanir Ozcelebi, Nirvana Meratnia | (参考訳) Federated Learning(FL)は、分散機械学習パラダイムで、分散ローカルデータからモデルを学ぶことができる。
FLはクライアントのデータプライバシに魅力的な特性を提供するが、サーバとクライアント間のモデル重み交換には高い通信負担がかかる。
既存のアプローチでは、pruningやweight clusteringなどのモデル圧縮技術に依存している。
しかし、圧縮されたフォーマットであっても、各フェデレーションラウンドの重みの更新セット全体を送信することは、通信量を大幅に削減する可能性を制限する。
本研究では,更新されたモデル重み値のクラスタ中心であるコードブックのみをクライアントが送信するfeedcodeを提案する。
サーバとクライアント間のクラスタの円滑な学習曲線と適切なキャリブレーションを確保するため、feedcodeは、コードブックのみの複数ラウンドの後に定期的にモデル重みを転送する。
これにより、クライアントとサーバ間の双方向の通信量が大幅に減少し、クライアントにかなりの計算オーバーヘッドを課すことなく、モデルの性能が大幅に低下する。
ResNet-20とMobileNetのバックボーンモデルアーキテクチャを用いた各種公開データセットを用いてFedCodeの有効性を評価する。
評価の結果,FedAvgと比較して平均精度が1.3%のモデル性能を維持しつつ,平均12.2倍のデータ伝送量の削減を図った。
非IIDデータ分散下でのFedCodeの性能のさらなる検証では、FedAvgと比較して平均精度が2.0%低下し、約12.7倍のデータ伝送削減を達成した。 Federated Learning (FL) is a distributed machine learning paradigm that enables learning models from decentralized local data. While FL offers appealing properties for clients' data privacy, it imposes high communication burdens for exchanging model weights between a server and the clients. Existing approaches rely on model compression techniques, such as pruning and weight clustering to tackle this. However, transmitting the entire set of weight updates at each federated round, even in a compressed format, limits the potential for a substantial reduction in communication volume. We propose FedCode where clients transmit only codebooks, i.e., the cluster centers of updated model weight values. To ensure a smooth learning curve and proper calibration of clusters between the server and the clients, FedCode periodically transfers model weights after multiple rounds of solely communicating codebooks. This results in a significant reduction in communication volume between clients and the server in both directions, without imposing significant computational overhead on the clients or leading to major performance degradation of the models. We evaluate the effectiveness of FedCode using various publicly available datasets with ResNet-20 and MobileNet backbone model architectures. Our evaluations demonstrate a 12.2-fold data transmission reduction on average while maintaining a comparable model performance with an average accuracy loss of 1.3% compared to FedAvg. Further validation of FedCode performance under non-IID data distributions showcased an average accuracy loss of 2.0% compared to FedAvg while achieving approximately a 12.7-fold data transmission reduction. | 翻訳日:2023-11-17 18:05:27 公開日:2023-11-15 |
# NormNet:スタックシナリオにおける6次元空間推定のためのスケール正規化 NormNet: Scale Normalization for 6D Pose Estimation in Stacked Scenarios ( http://arxiv.org/abs/2311.09269v1 ) ライセンス: Link先を確認 | En-Te Lin, Wei-Jie Lv, Ding-Tao Huang and Long Zeng | (参考訳) 既存のオブジェクトポース推定(OPE)メソッドは、オブジェクトスケールの変化に対して堅牢ではない。
本稿では,スタック化シナリオにおける異なるスケールオブジェクトのための新しい6DoF OPEネットワーク(NormNet)を提案する。
具体的には、各オブジェクトのスケールは最初にポイントワイズレグレッションで学習される。
次に、スタック化されたシナリオ内の全てのオブジェクトは、セマンティックセグメンテーションとアフィン変換によって同じスケールに正規化されます。
最後に、彼らは6dポーズを回復するために共有ポーズ推定器に送られます。
さらに,スタイル転送とドメインランダム化を組み合わせた新しいsim-to-real転送パイプラインを導入する。
これにより、合成データだけをトレーニングしても、実データでのノームネットのパフォーマンスが向上します。
広範な実験により,提案手法が公開ベンチマークと構築したマルチスケールデータセットにおいて最先端のパフォーマンスを実現することを実証した。
実世界実験では,異なるスケールの物体の6次元姿勢をロバストに推定できることを示した。 Existing Object Pose Estimation (OPE) methods for stacked scenarios are not robust to changes in object scale. This paper proposes a new 6DoF OPE network (NormNet) for different scale objects in stacked scenarios. Specifically, each object's scale is first learned with point-wise regression. Then, all objects in the stacked scenario are normalized into the same scale through semantic segmentation and affine transformation. Finally, they are fed into a shared pose estimator to recover their 6D poses. In addition, we introduce a new Sim-to-Real transfer pipeline, combining style transfer and domain randomization. This improves the NormNet's performance on real data even if we only train it on synthetic data. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on public benchmarks and the MultiScale dataset we constructed. The real-world experiments show that our method can robustly estimate the 6D pose of objects at different scales. | 翻訳日:2023-11-17 18:05:00 公開日:2023-11-15 |
# 検索型科学用言語モデルにおける不確かさ定量化の実証評価 Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science ( http://arxiv.org/abs/2311.09358v1 ) ライセンス: Link先を確認 | Sridevi Wagle, Sai Munikoti, Anurag Acharya, Sara Smith, Sameera Horawalavithana | (参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な成果を示し、高品質な出力を生み出している。
しかし、LLMには、事実的に誤った情報の生成を含む制限がある。
安全クリティカルなアプリケーションでは、LCM生成したコンテンツの信頼性を評価し、情報的意思決定を行うことが重要である。
Retrieval Augmented Language Models (RALMs)は、NLPにおける比較的新しい研究分野である。
RALMは、検索された文書のように、科学的NLPタスクに潜在的な利点を提供する。
ユーザがモデル出力を検証するために検索されたドキュメントを検証し、探索することができるため、この証拠は信頼性を高める。
ALM世代における不確実性の定量化は、検索されたテキストと信頼性スコアにより、科学的応用のための包括的で信頼性の高いモデルに寄与する。
しかし、特に科学的文脈において、ALMに対するUQの研究は限られている。
本研究は、ALMにおけるUQの包括的評価を行い、科学的課題に焦点をあてることで、このギャップに対処することを目的とする。
本研究では,事前学習・検索データとして科学的知識を組み込んだ場合の不確実性スコアの変化を調査し,不確実性スコアとモデル生成出力の精度との関係について検討する。
科学的知識のみで事前学習されたモデルと比較して,検索データが予測生成に自信を持つ傾向にあるため,既存のALMは科学的知識に精通している。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
事前訓練または検索コーパスとして提供される科学的知識は、この問題を軽減する助けにはならない。
コード、データ、ダッシュボードはhttps://github.com/pnnl/EXPERT2.comでリリースしました。 Large language models (LLMs) have shown remarkable achievements in natural language processing tasks, producing high-quality outputs. However, LLMs still exhibit limitations, including the generation of factually incorrect information. In safety-critical applications, it is important to assess the confidence of LLM-generated content to make informed decisions. Retrieval Augmented Language Models (RALMs) is relatively a new area of research in NLP. RALMs offer potential benefits for scientific NLP tasks, as retrieved documents, can serve as evidence to support model-generated content. This inclusion of evidence enhances trustworthiness, as users can verify and explore the retrieved documents to validate model outputs. Quantifying uncertainty in RALM generations further improves trustworthiness, with retrieved text and confidence scores contributing to a comprehensive and reliable model for scientific applications. However, there is limited to no research on UQ for RALMs, particularly in scientific contexts. This study aims to address this gap by conducting a comprehensive evaluation of UQ in RALMs, focusing on scientific tasks. This research investigates how uncertainty scores vary when scientific knowledge is incorporated as pretraining and retrieval data and explores the relationship between uncertainty scores and the accuracy of model-generated outputs. We observe that an existing RALM finetuned with scientific knowledge as the retrieval data tends to be more confident in generating predictions compared to the model pretrained only with scientific knowledge. We also found that RALMs are overconfident in their predictions, making inaccurate predictions more confidently than accurate ones. Scientific knowledge provided either as pretraining or retrieval corpus does not help alleviate this issue. We released our code, data and dashboards at https://github.com/pnnl/EXPERT2. | 翻訳日:2023-11-17 17:57:57 公開日:2023-11-15 |
# 孤立状態のウェルビーイング:無麻酔症状を緩和する模擬月面環境における芸術的没入仮想環境の探索 Well-being in isolation: Exploring artistic immersive virtual environments in a simulated lunar habitat to alleviate asthenia symptoms ( http://arxiv.org/abs/2311.09343v1 ) ライセンス: Link先を確認 | Grzegorz Pochwatko, Wieslaw Kopec, Justyna Swidrak, Anna Jaskulska, Kinga H. Skorupska, Barbara Karpowicz, Rafa{\l} Mas{\l}yk, Maciej Grzeszczuk, Steven Barnes, Paulina Borkiewicz, Pawe{\l} Kobyli\'nski, Micha{\l} Pabi\'s-Orzeszyna, Robert Balas, Jagoda Lazarek, Florian Dufresne, Leonie Bensch, Tommy Nilsson | (参考訳) 月面探査と惑星探査への関心は、宇宙飛行士の精神的健康を頻繁に害し、孤立した、閉じ込められた、極端な(ICE)状態に曝露されることから特徴付けられる、人類の宇宙飛行の新しい時代を暗示している。
IVR(Immersive Virtual Reality)は、いくつかの領域で孤立した環境によって引き起こされる課題を緩和するために、セルフヘルプの介入を促進するために使用されているが、将来の宇宙探査を支援するための適用性は、まだ明らかにされていない。
この制限に対処するため, 模擬月の生息地調査において, 乗組員(n=5)に異なるIVR環境を施した。
小集団データを精査するベイズ的アプローチを用いて、IVR使用量と認知ストレス関連症状の減少、特に無症(慢性的な疲労と弱さに結びつくことも多いが、ICE条件で増幅できるエネルギー枯渇感や疲労感を特徴とする症状)との間に有意な相関が認められた。
この削減はインタラクティブな仮想環境の利用において最も顕著であった。
芸術展として考案された仮想環境である「美的現実」は,参加者から絶賛された。
これらの環境は、宇宙飛行の訓練などにおける孤立に関連する影響を緩和する約束を掲げ、芸術と科学の魅力的な融合を示す。 Revived interest in lunar and planetary exploration is heralding a new era for human spaceflight, characterized by frequent strain on astronaut's mental well-being, which stems from increased exposure to isolated, confined, and extreme (ICE) conditions. Whilst Immersive Virtual Reality (IVR) has been employed to facilitate self-help interventions to mitigate challenges caused by isolated environments in several domains, its applicability in support of future space expeditions remains largely unexplored. To address this limitation, we administered the use of distinct IVR environments to crew members (n=5) partaking in a simulated lunar habitat study. Utilizing a Bayesian approach to scrutinize small group data, we discovered a significant relationship between IVR usage and a reduction in perceived stress-related symptoms, particularly those associated with asthenia (syndrome often linked to chronic fatigue and weakness; a condition characterized by feelings of energy depletion or exhaustion that can be amplified in ICE conditions). The reductions were most prominent with the use of interactive virtual environments. The 'Aesthetic Realities' - virtual environments conceived as art exhibits - received exceptional praise from our participants. These environments mark a fascinating convergence of art and science, holding promise to mitigate effects related to isolation in spaceflight training and beyond. | 翻訳日:2023-11-17 17:57:28 公開日:2023-11-15 |
# デュアル非ローカルcnotゲート Dual Non-local Cnot gate ( http://arxiv.org/abs/2311.09341v1 ) ライセンス: Link先を確認 | Chaibata Seida, Abderrahim El Allati, Khadija El Anouz | (参考訳) 量子ゲートによる遠隔量子制御は、分散量子ネットワークを実現するための重要なステップである。
制御ノット(CNOT)ゲートの2つの非局所的実装に対する2つの分離パートナー間の効率的な理論的プロトコルについて述べる。
提案プロトコルは、ローカル操作と古典的な通信チャネルで1~ebitを必要とする。
テレポーテーション方式の効率は不忠実度測定によって定量化される。
数値的な結果は、正当なパートナー間のcnotゲートの実行の不確かさが初期量子ビット設定に依存することを示している。
また、CNOT制御キュービットと補助キュービットが同じ方向に準備された場合、プロトコルが効率的に実行されることを示す。
さらに,提案手法の雑音解析を行う。
しきい値 $\frac{1}{4}$ の下で雑音強度を維持することで、双対非局所cnotゲートを最適に達成できる。 Distant quantum control via quantum gates represents an essential step toward realizing distributed quantum networks. An efficient theoretical protocol for the dual non-local implementation of controlled-not (CNOT) gates between two separated partners is presented in this regard. The suggested protocol requires 1~ebit with local operations and classical communication channels. The efficiency of the teleportation scheme is quantified through an infidelity measure. The numerical results show that the infidelity of performing the CNOT gate between legitimate partners depends on the initial qubit settings. It is also shown that the protocol is performed efficiently if the CNOT control qubit and the auxiliary qubit are prepared in the same direction. Furthermore, we provide a noise analysis for the suggested scheme. We find that by maintaining the noise strengths under the threshold $\frac{1}{4}$, one can achieve the dual non-local CNOT gate optimally. | 翻訳日:2023-11-17 17:57:01 公開日:2023-11-15 |
# 誤食摂取データを用いたニューラルネットワークによる予測モデリングの課題 Challenges for Predictive Modeling with Neural Network Techniques using Error-Prone Dietary Intake Data ( http://arxiv.org/abs/2311.09338v1 ) ライセンス: Link先を確認 | Dylan Spicker, Amir Nazemi, Joy Hutchinson, Paul Fieguth, Sharon I. Kirkpatrick, Michael Wallace, Kevin W. Dodd | (参考訳) 食事摂取データは、日常的に食事と健康の関係を調べるために描かれる。
しかし、これらのデータはしばしば測定誤差を伴い、真の関係を歪ませる。
測定誤差以外にも、異なる食物成分間の複雑な相乗的および時には敵対的な相互作用があり、食事と健康状態の関係を複雑にする可能性がある。
これらの複雑な相互作用がもたらしたニュアンスを捉えるには、柔軟なモデルが必要となる。
この複雑さは、ダイエットと健康の関係の研究を機械学習技術、特にニューラルネットワークの適用に魅力的な候補にしている。
ニューラルネットワークは、十分なデータが得られさえすれば、非常に複雑で非線形な関係を捉えることができる計算モデルである。
これらのモデルは多くの領域に適用されているが、予測モデルの性能に対する測定誤差の影響は体系的に研究されていない。
しかし、食事摂取データは一般的に自己報告方式で収集され、大量の測定誤差が発生しやすい。
本研究では,計測誤差がニューラルネットワークの性能を損なう方法を示し,誤差の存在下でこれらのモデルを活用するために必要な注意を示す。
サンプルサイズと再現測定がモデル性能に果たす役割を実証し, 付加性への変換研究の動機を示し, モデルの過剰フィットを防ぐための注意事項を示す。
過去のニューラルネットワークのパフォーマンスは,ダイエットと健康の関係を調べる上で魅力的な候補となっているが,本研究では,従来の統計手法と比較して,これらの手法を応用した場合の予測性能の向上を観察するために,かなりの注意とさらなる方法論開発が必要であることを実証する。 Dietary intake data are routinely drawn upon to explore diet-health relationships. However, these data are often subject to measurement error, distorting the true relationships. Beyond measurement error, there are likely complex synergistic and sometimes antagonistic interactions between different dietary components, complicating the relationships between diet and health outcomes. Flexible models are required to capture the nuance that these complex interactions introduce. This complexity makes research on diet-health relationships an appealing candidate for the application of machine learning techniques, and in particular, neural networks. Neural networks are computational models that are able to capture highly complex, nonlinear relationships so long as sufficient data are available. While these models have been applied in many domains, the impacts of measurement error on the performance of predictive modeling has not been systematically investigated. However, dietary intake data are typically collected using self-report methods and are prone to large amounts of measurement error. In this work, we demonstrate the ways in which measurement error erodes the performance of neural networks, and illustrate the care that is required for leveraging these models in the presence of error. We demonstrate the role that sample size and replicate measurements play on model performance, indicate a motivation for the investigation of transformations to additivity, and illustrate the caution required to prevent model overfitting. While the past performance of neural networks across various domains make them an attractive candidate for examining diet-health relationships, our work demonstrates that substantial care and further methodological development are both required to observe increased predictive performance when applying these techniques, compared to more traditional statistical procedures. | 翻訳日:2023-11-17 17:56:49 公開日:2023-11-15 |
# pinpointは批判しない - きめ細かなアクション可能なフィードバックによる大規模言語モデルの洗練 Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained Actionable Feedback ( http://arxiv.org/abs/2311.09336v1 ) ライセンス: Link先を確認 | Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang, Zhongtao Liu, William Yang Wang, Lei Li, and Markus Freitag | (参考訳) テキスト生成の最近の改良は、人間のフィードバックを活用して、生成した出力の品質を改善している。
しかし、特に推論の間、人間のフィードバックは必ずしも利用可能ではない。
そこで本研究では, 逐次改善のための学習誤りピンポイントモデルにより予測される誤差タイプ, エラー位置, 重大度レベルで, きめ細かい動作可能なフィードバックを利用するための推定時間最適化手法FITOを提案する。
FITOは初期出力から始まり、フィードバックに基づいて改善された出力を生成する改良モデルを介して繰り返しフィードバックを組み込む。
逐次的ステップにおける不確かさを考慮し,局所探索問題への反復的改良を定式化し,探索空間の探索と出力品質の最適化を両立するシミュレーションアニーリングに基づくアルゴリズムを開発した。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
中国語とドイツ語の翻訳における0.8と0.7のMetricXゲイン, 4.5と1.8のROUGE-Lゲインをそれぞれ長文QAとトピックの要約で観察し, 改良を1回行った。
シミュレーションアニールアルゴリズムでは,ベースラインアプローチよりも最大1.7 MetricXの改善など,さらなる品質向上が期待できる。 Recent improvements in text generation have leveraged human feedback to improve the quality of the generated output. However, human feedback is not always available, especially during inference. In this work, we propose an inference time optimization method FITO to use fine-grained actionable feedback in the form of error type, error location and severity level that are predicted by a learned error pinpoint model for iterative refinement. FITO starts with an initial output, then iteratively incorporates the feedback via a refinement model that generates an improved output conditioned on the feedback. Given the uncertainty of consistent refined samples at iterative steps, we formulate iterative refinement into a local search problem and develop a simulated annealing based algorithm that balances exploration of the search space and optimization for output quality. We conduct experiments on three text generation tasks, including machine translation, long-form question answering (QA) and topical summarization. We observe 0.8 and 0.7 MetricX gain on Chinese-English and English-German translation, 4.5 and 1.8 ROUGE-L gain at long form QA and topic summarization respectively, with a single iteration of refinement. With our simulated annealing algorithm, we see further quality improvements, including up to 1.7 MetricX improvements over the baseline approach. | 翻訳日:2023-11-17 17:56:25 公開日:2023-11-15 |
# より軽い、しかしより忠実な:抽象的要約のための大言語モデルにおける幻覚の研究 Lighter, yet More Faithful: Investigating Hallucinations in Pruned Large Language Models for Abstractive Summarization ( http://arxiv.org/abs/2311.09335v1 ) ライセンス: Link先を確認 | George Chrysostomou, Zhixue Zhao, Miles Williams, Nikolaos Aletras | (参考訳) 抽象的な要約における顕著なパフォーマンスにもかかわらず、大きな言語モデル(LLM)は2つの大きな課題に直面している。
幻覚は、LSMの信頼性を損ね、安全性の問題を引き起こすためである。
プルーニング(Pruning)は、余分な重みを取り除き、より効率的な推論を可能にするスパースモデルを作成することによって、モデルサイズを減らすテクニックである。
プルーンドモデルは、対応するフルサイズのモデルに匹敵する性能を保ち、限られた予算で運用する場合に理想的な代替品となる。
しかし, 刈り取りがLLMの抽象的要約における幻覚に及ぼす影響については, まだ検討されていない。
本稿では,3つの標準要約タスク,2つのプルーニングアプローチ,3つの命令調整LDM,および3つの幻覚評価指標にまたがるプルーニングモデルによる幻覚に関する広範な実証的研究を行う。
驚いたことに、pruned llmはフルサイズのllmに比べて幻覚を少なくする。
我々の追跡分析によると、刈り取られたモデルは、ソース入力に依存する傾向が強く、生成のための事前学習からのパラメトリックな知識がより少ない。
ソース入力への依存度が高くなると、生成されたコンテンツとソース入力の語彙的な重なり合いが高くなるため、幻覚の減少の原因となる可能性がある。 Despite their remarkable performance on abstractive summarization, large language models (LLMs) face two significant challenges: their considerable size and tendency to hallucinate. Hallucinations are concerning because they erode the reliability of LLMs and raise safety issues. Pruning is a technique that reduces model size by removing redundant weights to create sparse models that enable more efficient inference. Pruned models yield comparable performance to their counterpart full-sized models, making them ideal alternatives when operating on a limited budget. However, the effect that pruning has upon hallucinations in abstractive summarization with LLMs has yet to be explored. In this paper, we provide an extensive empirical study on the hallucinations produced by pruned models across three standard summarization tasks, two pruning approaches, three instruction-tuned LLMs, and three hallucination evaluation metrics. Surprisingly, we find that pruned LLMs hallucinate less compared to their full-sized counterparts. Our follow-up analysis suggests that pruned models tend to depend more on the source input and less on their parametric knowledge from pre-training for generation. This greater dependency on the source input leads to a higher lexical overlap between generated content and the source input, which can be a reason for the reduction in hallucinations. | 翻訳日:2023-11-17 17:56:00 公開日:2023-11-15 |
# スマート製造のためのctganによる戦略的データ拡張:パルプ・アンド・ペーパー生産における紙切れの機械学習予測の強化 Strategic Data Augmentation with CTGAN for Smart Manufacturing: Enhancing Machine Learning Predictions of Paper Breaks in Pulp-and-Paper Production ( http://arxiv.org/abs/2311.09333v1 ) ライセンス: Link先を確認 | Hamed Khosravi, Sarah Farhadpour, Manikanta Grandhi, Ahmed Shoyeb Raihan, Srinjoy Das, Imtiaz Ahmed | (参考訳) パルプ・アンド・ペーパー産業における予測保守の重要な課題は、製紙工程における紙の破損の頻度である。
本稿では, 紙の破断が比較的稀であるが, 経済的な影響が大きい製紙機から, 運用データを解析する。
品質保証プロトコルから派生した18,398のインスタンスからなるデータセットを利用することで、マシンラーニング予測モデルに挑戦するブレークイベント(124ケース)の不足に対処する。
本研究では,CTGAN(Conditional Generative Adversarial Networks)とSMOTE(Synthetic Minority Oversampling Technique)の協力を得て,新たなデータ拡張フレームワークを実装した。
この方法では, 合成データが実際の運用データの分布を反映するだけでなく, 予測モデルの性能指標の向上も図っている。
データ拡張の前と後、我々は3つの異なる機械学習アルゴリズム、決定木(DT)、ランダムフォレスト(RF)、ロジスティック回帰(LR)を評価した。
CTGAN強化データセットを用いて,予測保守性能指標を大幅に改善した。
データ不足に対処するためのctganの有効性は明らかであり、モデルによるマシンブレークの検出(クラス1)により、決定木では30%以上改善され、ランダムフォレストでは20%、ロジスティック回帰では90%近く向上した。
本研究は, 製造プロセスにおけるまれな事象予測に対処し, 産業品質管理とメンテナンススケジューリングに寄与する。 A significant challenge for predictive maintenance in the pulp-and-paper industry is the infrequency of paper breaks during the production process. In this article, operational data is analyzed from a paper manufacturing machine in which paper breaks are relatively rare but have a high economic impact. Utilizing a dataset comprising 18,398 instances derived from a quality assurance protocol, we address the scarcity of break events (124 cases) that pose a challenge for machine learning predictive models. With the help of Conditional Generative Adversarial Networks (CTGAN) and Synthetic Minority Oversampling Technique (SMOTE), we implement a novel data augmentation framework. This method ensures that the synthetic data mirrors the distribution of the real operational data but also seeks to enhance the performance metrics of predictive modeling. Before and after the data augmentation, we evaluate three different machine learning algorithms-Decision Trees (DT), Random Forest (RF), and Logistic Regression (LR). Utilizing the CTGAN-enhanced dataset, our study achieved significant improvements in predictive maintenance performance metrics. The efficacy of CTGAN in addressing data scarcity was evident, with the models' detection of machine breaks (Class 1) improving by over 30% for Decision Trees, 20% for Random Forest, and nearly 90% for Logistic Regression. With this methodological advancement, this study contributes to industrial quality control and maintenance scheduling by addressing rare event prediction in manufacturing processes. | 翻訳日:2023-11-17 17:55:37 公開日:2023-11-15 |
# 病院感染早期発見のための機械学習モデルの比較分析 A Comparative Analysis of Machine Learning Models for Early Detection of Hospital-Acquired Infections ( http://arxiv.org/abs/2311.09329v1 ) ライセンス: Link先を確認 | Ethan Harvey, Junzi Dong, Erina Ghosh, and Ali Samadani | (参考訳) より多くの感染症特異的機械学習モデルが開発され、臨床展開に向けて計画されているため、異なるモデルからの予測を同時に実行することで、重複や矛盾する情報も提供できる。
デプロイにおける並列モデルの一致と振る舞いを理解することが重要である。
本研究では,病院感染の早期発見のための2つのモデルに焦点を当てた。
1)感染リスク指数(IRI)と
2)人工呼吸器関連肺炎(vap)予測モデル。
IRIモデルはすべてのHAIを予測するために構築され、VAPモデルは人工呼吸器関連肺炎のリスクのある患者を特定する。
これらのモデルは、感染の早期発見と早期介入を可能にすることで、患者の成果と感染管理において重要な改善をもたらす可能性がある。
2つのモデルは、感染ラベルの定義、コホート選択、予測スキーマの点で異なる。
本研究では,これらのモデルによるヘイ予測における一致と混乱を特徴付ける2つのモデルの比較分析を行う。
本研究から得られた知見は,多発性疾患特異的モデルを将来展開するための重要な知見となる。 As more and more infection-specific machine learning models are developed and planned for clinical deployment, simultaneously running predictions from different models may provide overlapping or even conflicting information. It is important to understand the concordance and behavior of parallel models in deployment. In this study, we focus on two models for the early detection of hospital-acquired infections (HAIs): 1) the Infection Risk Index (IRI) and 2) the Ventilator-Associated Pneumonia (VAP) prediction model. The IRI model was built to predict all HAIs, whereas the VAP model identifies patients at risk of developing ventilator-associated pneumonia. These models could make important improvements in patient outcomes and hospital management of infections through early detection of infections and in turn, enable early interventions. The two models vary in terms of infection label definition, cohort selection, and prediction schema. In this work, we present a comparative analysis between the two models to characterize concordances and confusions in predicting HAIs by these models. The learnings from this study will provide important findings for how to deploy multiple concurrent disease-specific models in the future. | 翻訳日:2023-11-17 17:55:12 公開日:2023-11-15 |
# IBM量子コンピュータ上でのコスト効果回路実現のためのBloch Sphereの異なる軸の重ね合わせ状態 Superposition States on Different Axes of the Bloch Sphere for Cost-Effective Circuits Realization on IBM Quantum Computers ( http://arxiv.org/abs/2311.09326v1 ) ライセンス: Link先を確認 | A. Al-Bayaty, M. Perkowski | (参考訳) ブロッホ球の異なる軸を用いて量子ビットの重ね合わせ状態を作成する方法を提案する。
この方法は、IBMの量子コンピュータ上でコスト効率の高い量子回路をトランスパイルするために、IBMのネイティブ(Xの平方根)ゲートを使用してBloch球のY軸を利用する。
本稿では、本手法により、最終的な量子回路が常にハダマールゲートを用いた量子回路よりも低い量子コストを持つことを保証する。 A proposed method for preparing the superposition states of qubits using different axes of the Bloch sphere. This method utilizes the Y-axis of the Bloch sphere using IBM native (square root of X) gates, instead of utilizing the X-axis of the Bloch sphere using IBM non-native Hadamard gates, for transpiling cost-effective quantum circuits on IBM quantum computers. In this paper, our presented method ensures that the final transpiled quantum circuits always have a lower quantum cost than that of the transpiled quantum circuits using the Hadamard gates. | 翻訳日:2023-11-17 17:54:53 公開日:2023-11-15 |
# 温度スケールによる人間の読書時間への適合性の向上 Improving fit to human reading times via temperature-scaled surprisal ( http://arxiv.org/abs/2311.09325v1 ) ライセンス: Link先を確認 | Tong Liu, Iza \v{S}krjanec, Vera Demberg | (参考訳) 過去の研究は、人間の認知負荷をシミュレートするために、大きな言語モデル(llm)を使用することで、予測可能性の低い単語(つまり、より高い超越性)は理解により多くの時間を要するという幅広い支持を与えてきた。
一般に、これらの研究はLLMの確率スコアが正確であると暗黙的に仮定し、人間の認知とLLMの相違を無視している。
確率校正の概念に触発されて,人間の読書シミュレーションにおける確率分布に着目した最初の研究である。
本研究では,人間の読解時間の予測因子として,形状確率で計算した温度スケール推定法を提案する。
3つのコーパスにまたがる結果から, 予測時間を大幅に改善できることが明らかとなった。
すべてのモデルやデータセットの温度を約2.5に設定すると、われわれの設定ではデルタログのような傾向が最大89%増加する。
また,人間の類似性バイアスを定量化するキャリブレーション指標を提案する。
さらなる分析が行われ、この現象に関する洞察が得られた。 Past studies have provided broad support for that words with lower predictability (i.e., higher surprisal) require more time for comprehension by using large language models (LLMs) to simulate humans' cognitive load. In general, these studies have implicitly assumed that the probability scores from LLMs are accurate, ignoring the discrepancies between human cognition and LLMs from this standpoint. Inspired by the concept of probability calibration, we are the first work to focus on the probability distribution for human reading simulation. We propose to use temperature-scaled surprisal, a surprisal calculated by shaped probability, to be the predictor of human reading times. Our results across three corpora consistently revealed that such a surprisal can drastically improve the prediction of reading times. Setting the temperature to be approximately 2.5 across all models and datasets can yield up to an 89% of increase in delta log-likelihood in our setting. We also propose a calibration metric to quantify the possible human-likeness bias. Further analysis was done and provided insights into this phenomenon. | 翻訳日:2023-11-17 17:54:41 公開日:2023-11-15 |
# Spoken Word2Vec: パースペクティブといくつかのテクニック Spoken Word2Vec: A Perspective And Some Techniques ( http://arxiv.org/abs/2311.09319v1 ) ライセンス: Link先を確認 | Mohammad Amaan Sayeed and Hanan Aldarmaki | (参考訳) 分布的意味特徴をエンコードするテキスト単語埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することで機能する。
一方、音響単語の埋め込みは通常低レベル音韻類似性を符号化する。
音声単語のセマンティック埋め込みは、これまでWord2Vecと同様のアルゴリズムを用いて検討されてきたが、結果として得られるベクターは主に意味的特徴ではなく音声に符号化されている。
本稿では,先行研究における仮定とアーキテクチャを考察し,入力単位が音響的相関関係にある場合,word2vecアルゴリズムが分布的意味論をいかにエンコードしなかったかを実験的に示す。
さらに,従来の研究は,単語タイプによる単語分割とクラスタリングの簡易化に頼っていた。
これらの条件から、テキストベースの埋め込みと同一の自明な解決法が見過ごされている。
自動単語型クラスタリングを用いてこの簡単な経路を辿り、その結果の埋め込みへの影響を調べ、このタスクの真の課題を強調します。 Text word embeddings that encode distributional semantic features work by modeling contextual similarities of frequently occurring words. Acoustic word embeddings, on the other hand, typically encode low-level phonetic similarities. Semantic embeddings for spoken words have been previously explored using similar algorithms to Word2Vec, but the resulting vectors still mainly encoded phonetic rather than semantic features. In this paper, we examine the assumptions and architectures used in previous works and show experimentally how Word2Vec algorithms fail to encode distributional semantics when the input units are acoustically correlated. In addition, previous works relied on the simplifying assumptions of perfect word segmentation and clustering by word type. Given these conditions, a trivial solution identical to text-based embeddings has been overlooked. We follow this simpler path using automatic word type clustering and examine the effects on the resulting embeddings, highlighting the true challenges in this task. | 翻訳日:2023-11-17 17:54:22 公開日:2023-11-15 |
# H-Packer:タンパク質側鎖包装のためのホログラフィック回転同変畳み込みニューラルネットワーク H-Packer: Holographic Rotationally Equivariant Convolutional Neural Network for Protein Side-Chain Packing ( http://arxiv.org/abs/2311.09312v1 ) ライセンス: Link先を確認 | Gian Marco Visani, William Galvin, Michael Neal Pun, Armita Nourmohammad | (参考訳) タンパク質の正確なモデリングは機能タンパク質の設計に不可欠である。
構造モデリングの重要なサブタスクは、タンパク質の背骨構造とアミノ酸配列から側鎖(ロータマー)の配座を予測するタンパク質側鎖パッキングである。
この課題に対する従来のアプローチは、手作りエネルギー関数やロータマーライブラリに対する高価なサンプリング手順に依存している。
近年、画像から画像への変換から原子座標の直接予測まで、非常に異なる定式化ではあるものの、データ駆動方式でこの問題に取り組むために、いくつかのディープラーニング手法が開発されている。
ここでは、この問題をサイドチェインの真の自由度に対する合同回帰として表す: dihedral $\chi$ angles である。
我々は、タスクの基本的な対称性を考慮しつつ、このタスクの目的関数を慎重に研究する。
2つの軽量回転同変ニューラルネットワーク上に構築されたサイドチェーンパッキングのための新しい2段階アルゴリズムであるホログラフィックパッカー(H-Packer)を提案する。
CASP13とCASP14の目標に対して,本手法の評価を行った。
H-Packerは計算効率が良く、従来の物理ベースのアルゴリズムよりも優れた性能を示し、代替のディープラーニングソリューションと競合する。 Accurately modeling protein 3D structure is essential for the design of functional proteins. An important sub-task of structure modeling is protein side-chain packing: predicting the conformation of side-chains (rotamers) given the protein's backbone structure and amino-acid sequence. Conventional approaches for this task rely on expensive sampling procedures over hand-crafted energy functions and rotamer libraries. Recently, several deep learning methods have been developed to tackle the problem in a data-driven way, albeit with vastly different formulations (from image-to-image translation to directly predicting atomic coordinates). Here, we frame the problem as a joint regression over the side-chains' true degrees of freedom: the dihedral $\chi$ angles. We carefully study possible objective functions for this task, while accounting for the underlying symmetries of the task. We propose Holographic Packer (H-Packer), a novel two-stage algorithm for side-chain packing built on top of two light-weight rotationally equivariant neural networks. We evaluate our method on CASP13 and CASP14 targets. H-Packer is computationally efficient and shows favorable performance against conventional physics-based algorithms and is competitive against alternative deep learning solutions. | 翻訳日:2023-11-17 17:54:06 公開日:2023-11-15 |
# 言語モデルと人間の脳との相違 Divergences between Language Models and Human Brains ( http://arxiv.org/abs/2311.09308v1 ) ライセンス: Link先を確認 | Yuchen Zhou, Emmy Liu, Graham Neubig, Leila Wehbe | (参考訳) 機械と人間は同じような方法で言語を処理するのか?
近年の研究では、人間の脳の信号が言語モデルの内部表現(LM)を用いて効果的に予測できることが実証されている。
これは、lmsと人間の言語処理の共有計算原理を反映していると考えられている。
しかし、lmsと人間が言語を取得して使用する方法には、最終的なタスクが同じであっても、明確な違いがある。
それにもかかわらず、脳データを用いた人間と機械言語処理の系統的な違いを探求する作業はほとんどない。
そこで本研究では, 言語に対するlm表現と人間の脳の反応の差異, 特に, 書き言葉に対する脳磁図(meg)応答のデータセットについて検討した。
そうすることで、以前の仕事において、lmsがうまく捉えられていない3つの現象、すなわち感情的な理解、比定的な言語処理、身体的な常識を識別する。
これらの現象に関連するデータセットのlmsを微調整することにより、これらのタスクを通して人間の脳の反応と協調性が向上することを示す。
本研究は, LMとヒト脳の相違が, これらの特定の知識の表現が不十分であることに起因している可能性が示唆された。 Do machines and humans process language in similar ways? A recent line of research has hinted in the affirmative, demonstrating that human brain signals can be effectively predicted using the internal representations of language models (LMs). This is thought to reflect shared computational principles between LMs and human language processing. However, there are also clear differences in how LMs and humans acquire and use language, even if the final task they are performing is the same. Despite this, there is little work exploring systematic differences between human and machine language processing using brain data. To address this question, we examine the differences between LM representations and the human brain's responses to language, specifically by examining a dataset of Magnetoencephalography (MEG) responses to a written narrative. In doing so we identify three phenomena that, in prior work, LMs have been found to not capture well: emotional understanding, figurative language processing, and physical commonsense. By fine-tuning LMs on datasets related to these phenomena, we observe that fine-tuned LMs show improved alignment with human brain responses across these tasks. Our study implies that the observed divergences between LMs and human brains may stem from LMs' inadequate representation of these specific types of knowledge. | 翻訳日:2023-11-17 17:53:33 公開日:2023-11-15 |
# 相関量子ビット雑音の正確かつ正直な近似 Accurate and Honest Approximation of Correlated Qubit Noise ( http://arxiv.org/abs/2311.09305v1 ) ライセンス: Link先を確認 | F. Setiawan, Alexander V. Gramolin, Elisha S. Matekole, Hari Krovi, and Jacob M. Taylor | (参考訳) 現実的な量子プロセッサにおけるノイズの正確なモデリングは、フォールトトレラント量子コンピュータの構築に不可欠である。
実際の雑音量子回路の完全なシミュレーションは、全ての量子ビット間の相関ノイズに関する情報を提供するため正確であるが、量子ビットの数で指数関数的に増加するリソースを必要とするため、計算コストがかかる。
本稿では, 量子ビット相関度の高い雑音成分を組み込むことにより, 近似雑音チャネルを効率よく構築し, 精度を向上する手法を提案する。
このような近似チャネルを定式化するために,まず,実マルコフノイズチャネルのリンドブラジアン生成器を量子間相関度に基づいて成分に分解するクラスタ展開法を提案する。
次に,クラスタ拡張を停止し,最大$k$-次相関の雑音成分を組み込むことにより,$k$-次近似ノイズチャネルを生成する。
我々は、近似ノイズチャネルは正確でなければならないこと、すなわち、実際のエラーは我々の物理モデルでは過小評価されないことを要求する。
例として,4つのベル状態の1つである[2,0,0]コードワードを安定化する3量子ビット量子プロセッサのノイズモデルに適用する。
定周波超電導量子ビットを常時オンな静的相互作用で結合した現実的なノイズ強度を考えると、2量子ビット相関を超える相関ノイズは符号シミュレーションの精度に大きく影響する。
提案手法は, 体系的なノイズ特性を提供するため, 精度が高く, 誠実でスケーラブルな近似が可能であり, デバイス全体のノイズ特性を保ちながら, 十分な量子サブシステムの完全なモデリングや実験的な評価から, 多数の量子ビットをシミュレートすることができる。 Accurate modeling of noise in realistic quantum processors is critical for constructing fault-tolerant quantum computers. While a full simulation of actual noisy quantum circuits provides information about correlated noise among all qubits and is therefore accurate, it is, however, computationally expensive as it requires resources that grow exponentially with the number of qubits. In this paper, we propose an efficient systematic construction of approximate noise channels, where their accuracy can be enhanced by incorporating noise components with higher qubit-qubit correlation degree. To formulate such approximate channels, we first present a method, dubbed the cluster expansion approach, to decompose the Lindbladian generator of an actual Markovian noise channel into components based on interqubit correlation degree. We then generate a $k$-th order approximate noise channel by truncating the cluster expansion and incorporating noise components with correlations up to the $k$-th degree. We require that the approximate noise channels must be accurate and also "honest", i.e., the actual errors are not underestimated in our physical models. As an example application, we apply our method to model noise in a three-qubit quantum processor that stabilizes a [[2,0,0]] codeword, which is one of the four Bell states. We find that, for realistic noise strength typical for fixed-frequency superconducting qubits coupled via always-on static interactions, correlated noise beyond two-qubit correlation can significantly affect the code simulation accuracy. Since our approach provides a systematic noise characterization, it enables the potential for accurate, honest and scalable approximation to simulate large numbers of qubits from full modeling or experimental characterizations of small enough quantum subsystems, which are efficient but still retain essential noise features of the entire device. | 翻訳日:2023-11-17 17:53:00 公開日:2023-11-15 |
# トポロジカル原子格子におけるキラル性誘起スピン軌道カップリング Chirality-induced emergent spin-orbit coupling in topological atomic lattices ( http://arxiv.org/abs/2311.09303v1 ) ライセンス: Link先を確認 | Jonah S. Peter, Stefan Ostermann, and Susanne F. Yelin | (参考訳) スピン軌道結合ダイナミクスは、量子光学系と凝縮体系の両方において重要な関心事である。
本研究では、擬スピン-1/2原子格子中のフォトニック励起が、幾何がキラルであるときにスピン軌道カップリングを発生させることを示す。
このスピン軌道結合は格子間の電気双極子相互作用から自然に生じ、スピン偏極励起輸送をもたらす。
一般量子光学モデルを用いて、スピン軌道結合を生じさせる条件を解析的に決定し、様々な対称性変換の下での挙動を特徴づける。
キラル化に伴うスピンテクスチャは, キラル化を特徴付けるトポロジカルに非自明なザック相と関連していることを示す。
以上の結果から,カイラルアトムアレイはスピン軌道結合トポロジー状態を実現するための強固なプラットフォームであることが示された。 Spin-orbit coupled dynamics are of fundamental interest in both quantum optical and condensed matter systems alike. In this work, we show that photonic excitations in pseudospin-1/2 atomic lattices exhibit an emergent spin-orbit coupling when the geometry is chiral. This spin-orbit coupling arises naturally from the electric dipole interaction between the lattice sites and leads to spin polarized excitation transport. Using a general quantum optical model, we determine analytically the conditions that give rise to spin-orbit coupling and characterize the behavior under various symmetry transformations. We show that chirality-induced spin textures are associated with a topologically nontrivial Zak phase that characterizes the chiral setup. Our results demonstrate that chiral atom arrays are a robust platform for realizing spin-orbit coupled topological states of matter. | 翻訳日:2023-11-17 17:51:46 公開日:2023-11-15 |
# dista:内在可塑性と時空間的注意をともなう発声変圧器 DISTA: Denoising Spiking Transformer with intrinsic plasticity and spatiotemporal attention ( http://arxiv.org/abs/2311.09376v1 ) ライセンス: Link先を確認 | Boxun Xu, Hejia Geng, Yuxuan Yin, Peng Li | (参考訳) ニューラルネットワークアーキテクチャの配列の中で、ViT(Vision Transformer)は、その例外的な表現力と、さまざまな視覚アプリケーションにおける一貫した高性能さで、目立った選択である。
最近、スパイキングのViTアプローチは、スパイキングニューロンの活用に尽力し、専用のニューロモルフィックハードウェアの超低消費電力操作で成長する脳にインスパイアされたトランスフォーマーアーキテクチャへの道を開いた。
それでもこのアプローチは空間的な自己注意に限られており、ニューラルネットワークをスパイクする可能性を完全には解かない。
本研究では、特に視覚応用において、スパイキングニューロンの時空間計算能力の最大化を目的とした、固有可塑性と時空間アテンションを備えたデノイングスパイキング変換器disTAを紹介する。
DISTAは、固有のニューロンレベルの注意と、明示的な記憶を伴うネットワークレベルの注意という、時空間的注意の2つのタイプを探索する。
さらに、disTAは、計算された時空間アテンションマップに固有のノイズをキュールする効率的な非線形デノナイジング機構を導入し、さらなる性能向上をもたらす。
DISTA変換器は, シナプス可塑性(重み付け)と内在可塑性(膜時間定数チューニング)を併用した共同訓練を行い, 複数の静的画像および動的ニューロモルフィックデータセットに最先端の性能を提供する。
DISTAは6つのタイムステップで、CIFAR10(96.26%)とCIFAR100(79.15%)で、CIFAR10-DVSでは10タイムステップで79.1%を達成している。 Among the array of neural network architectures, the Vision Transformer (ViT) stands out as a prominent choice, acclaimed for its exceptional expressiveness and consistent high performance in various vision applications. Recently, the emerging Spiking ViT approach has endeavored to harness spiking neurons, paving the way for a more brain-inspired transformer architecture that thrives in ultra-low power operations on dedicated neuromorphic hardware. Nevertheless, this approach remains confined to spatial self-attention and doesn't fully unlock the potential of spiking neural networks. We introduce DISTA, a Denoising Spiking Transformer with Intrinsic Plasticity and SpatioTemporal Attention, designed to maximize the spatiotemporal computational prowess of spiking neurons, particularly for vision applications. DISTA explores two types of spatiotemporal attentions: intrinsic neuron-level attention and network-level attention with explicit memory. Additionally, DISTA incorporates an efficient nonlinear denoising mechanism to quell the noise inherent in computed spatiotemporal attention maps, thereby resulting in further performance gains. Our DISTA transformer undergoes joint training involving synaptic plasticity (i.e., weight tuning) and intrinsic plasticity (i.e., membrane time constant tuning) and delivers state-of-the-art performances across several static image and dynamic neuromorphic datasets. With only 6 time steps, DISTA achieves remarkable top-1 accuracy on CIFAR10 (96.26%) and CIFAR100 (79.15%), as well as 79.1% on CIFAR10-DVS using 10 time steps. | 翻訳日:2023-11-17 17:44:29 公開日:2023-11-15 |
# 時間依存型疾患進行確率生成モデル Time-dependent Probabilistic Generative Models for Disease Progression ( http://arxiv.org/abs/2311.09369v1 ) ライセンス: Link先を確認 | Onintze Zaballa, Aritz P\'erez, Elisa G\'omez-Inhiesto, Teresa Acaiturri-Ayesta, Jose A. Lozano | (参考訳) 電子健康記録には、患者の健康状態を監視する貴重な情報が含まれている。
疾患の進行モデルは、これらのデータをシーケンスとして使用する疾患の基本的なパターンとダイナミクスを理解するために開発された。
しかし, EHRs の経時的データ分析は, 医療記録にみられる変動性や不規則性のために困難である。
そこで我々はマルコフ的治療生成モデルを提案する。
(i)医療イベント間の不規則な時間間隔をモデル化すること。
(ii)医療イベントの患者系列とそれらの間の時間間隔に基づいて、治療をサブタイプに分類する。
(3)病状進行パターンのサブシーケンスへのセグメント治療。
列は, 治療の異なるサブタイプを表す潜在クラスと, 治療の進行段階を示す潜在ステージの集合からなる, 潜在変数の関連構造を持つと仮定する。
予測最大化アルゴリズムを用いてモデルを学習し,動的プログラミング法を用いて効率よく解法する。
幾何、指数、ワイブル分布を含む、学習過程における医学イベント間の時間間隔をモデル化するために様々なパラメトリックモデルが用いられている。
その結果,医療行動間の不規則な時間間隔を正確にモデル化し,データから基礎モデルを復元する上での有効性が示された。 Electronic health records contain valuable information for monitoring patients' health trajectories over time. Disease progression models have been developed to understand the underlying patterns and dynamics of diseases using these data as sequences. However, analyzing temporal data from EHRs is challenging due to the variability and irregularities present in medical records. We propose a Markovian generative model of treatments developed to (i) model the irregular time intervals between medical events; (ii) classify treatments into subtypes based on the patient sequence of medical events and the time intervals between them; and (iii) segment treatments into subsequences of disease progression patterns. We assume that sequences have an associated structure of latent variables: a latent class representing the different subtypes of treatments; and a set of latent stages indicating the phase of progression of the treatments. We use the Expectation-Maximization algorithm to learn the model, which is efficiently solved with a dynamic programming-based method. Various parametric models have been employed to model the time intervals between medical events during the learning process, including the geometric, exponential, and Weibull distributions. The results demonstrate the effectiveness of our model in recovering the underlying model from data and accurately modeling the irregular time intervals between medical actions. | 翻訳日:2023-11-17 17:43:57 公開日:2023-11-15 |
# オンラインユーザ獲得に関する調査:ソーシャルメディアプラットフォームにおけるコンテンツ検出と行動分析 A Survey on Online User Aggression: Content Detection and Behavioural Analysis on Social Media Platforms ( http://arxiv.org/abs/2311.09367v1 ) ライセンス: Link先を確認 | Swapnil Mane, Suman Kundu, Rajesh Sharma | (参考訳) ソーシャルメディアプラットフォームの台頭は、サイバーいじめ、オンラインハラスメント、攻撃的およびヘイトスピーチの普及など、幅広い敵対行動を含む、サイバー攻撃的な行動の増加につながっている。
これらの行動は、オンラインの匿名性から、抑うつ、自殺傾向、オフラインの暴力など現実世界の結果まで、社会的な重大な結果と関係している。
本論文は, 攻撃的コンテンツに対する社会的リスクを認識し, 攻撃的ユーザの攻撃的コンテンツ検出と行動分析の分野に進出し, 異種研究のギャップを埋めることを目的とした。
本稿では,定義の多様性を分析し,統一的なサイバー集約定義を提案する。
本稿では,データセット生成,特徴選択抽出,検出アルゴリズム開発を対象とし,Aggression Content Detectionの包括的プロセスについて検討する。
さらに,サイバー攻撃行動に影響を及ぼす要因,結果,パターンを探索する攻撃行動の行動分析について検討する。
この体系的な文献レビューは、サイバー攻撃の領域におけるコンテンツ検出と行動分析の相互検討である。
統合調査は、社会学的洞察を計算技術に取り入れてサイバー攻撃行動を防ぐ効果を明らかにする。
最後に,研究のギャップを特定し,社会計算的攻撃的行動分析の統一領域のさらなる進展を促す。 The rise of social media platforms has led to an increase in cyber-aggressive behavior, encompassing a broad spectrum of hostile behavior, including cyberbullying, online harassment, and the dissemination of offensive and hate speech. These behaviors have been associated with significant societal consequences, ranging from online anonymity to real-world outcomes such as depression, suicidal tendencies, and, in some instances, offline violence. Recognizing the societal risks associated with unchecked aggressive content, this paper delves into the field of Aggression Content Detection and Behavioral Analysis of Aggressive Users, aiming to bridge the gap between disparate studies. In this paper, we analyzed the diversity of definitions and proposed a unified cyber-aggression definition. We examine the comprehensive process of Aggression Content Detection, spanning from dataset creation, feature selection and extraction, and detection algorithm development. Further, we review studies on Behavioral Analysis of Aggression that explore the influencing factors, consequences, and patterns associated with cyber-aggressive behavior. This systematic literature review is a cross-examination of content detection and behavioral analysis in the realm of cyber-aggression. The integrated investigation reveals the effectiveness of incorporating sociological insights into computational techniques for preventing cyber-aggressive behavior. Finally, the paper concludes by identifying research gaps and encouraging further progress in the unified domain of socio-computational aggressive behavior analysis. | 翻訳日:2023-11-17 17:43:36 公開日:2023-11-15 |
# LOKE:知識グラフ構築のためのリンク付きオープン知識抽出 LOKE: Linked Open Knowledge Extraction for Automated Knowledge Graph Construction ( http://arxiv.org/abs/2311.09366v1 ) ライセンス: Link先を確認 | Jamie McCusker | (参考訳) 知識グラフ構築のためのオープン情報抽出(Open IE)の可能性は期待できるかもしれないが,既存の知識グラフとOpen IE抽出結果の整合性は不十分である。
大規模言語モデル(llm)の出現、特に商用利用可能なopenaiモデルは、ディープラーニングモデルで可能となるものに対する期待を再認識し、prompt engineeringと呼ばれる新しい分野を生み出した。
Wikidataナレッジグラフを用いた知識グラフ構築のためのGPTモデルの利用について検討し,オープン知識抽出(OKE)と呼ばれるオープン知識抽出(LOKE, Linked Open Knowledge Extractor)のアプローチを用いて,オープンIEと類似の問題に対処する。
実世界の知識グラフ構築に不可欠なエンティティリンクタスクについて考察する。
LOKEタスクのためのTekGenデータセットのデータとCaRBベンチマークスコアリングアプローチをマージする。
すると、うまく設計されたプロンプトが(我々がloke-gptと呼ぶ)ナイーブなエンティティリンクアプローチと組み合わせると、オケタスクでallenaiのopenie 4の実装よりも優れていることが分かる。
CaRBデータセットのエンティティ結合性の解析とOpenIE 4 と LOKE-GPT の出力から,LOKE-GPT と "銀" TekGen のトリプルは,構造化されていない場合,そのタスクが OIE のコンテンツと大きく異なることを示している。
この分析と全ての方法による文抽出の質的分析により,loke-gpt抽出はkgcタスクに高い有用性を持ち,半自動抽出に適することがわかった。 While the potential of Open Information Extraction (Open IE) for Knowledge Graph Construction (KGC) may seem promising, we find that the alignment of Open IE extraction results with existing knowledge graphs to be inadequate. The advent of Large Language Models (LLMs), especially the commercially available OpenAI models, have reset expectations for what is possible with deep learning models and have created a new field called prompt engineering. We investigate the use of GPT models and prompt engineering for knowledge graph construction with the Wikidata knowledge graph to address a similar problem to Open IE, which we call Open Knowledge Extraction (OKE) using an approach we call the Linked Open Knowledge Extractor (LOKE, pronounced like "Loki"). We consider the entity linking task essential to construction of real world knowledge graphs. We merge the CaRB benchmark scoring approach with data from the TekGen dataset for the LOKE task. We then show that a well engineered prompt, paired with a naive entity linking approach (which we call LOKE-GPT), outperforms AllenAI's OpenIE 4 implementation on the OKE task, although it over-generates triples compared to the reference set due to overall triple scarcity in the TekGen set. Through an analysis of entity linkability in the CaRB dataset, as well as outputs from OpenIE 4 and LOKE-GPT, we see that LOKE-GPT and the "silver" TekGen triples show that the task is significantly different in content from OIE, if not structure. Through this analysis and a qualitative analysis of sentence extractions via all methods, we found that LOKE-GPT extractions are of high utility for the KGC task and suitable for use in semi-automated extraction settings. | 翻訳日:2023-11-17 17:43:13 公開日:2023-11-15 |
# ASR基礎モデルの創発的音声分類能力の検討 Investigating the Emergent Audio Classification Ability of ASR Foundation Models ( http://arxiv.org/abs/2311.09363v1 ) ライセンス: Link先を確認 | Rao Ma, Adian Liusie, Mark J. F. Gales, Kate M. Knill | (参考訳) テキストとビジョンの基礎モデルでは、ゼロショット設定で多くのタスクを実行できる。
しかし、asrの基礎モデルのゼロショット能力に関する作業は、通常、特定のタスクに微調整されたり、トレーニング基準やデータアノテーションに合致するアプリケーションに制限されたりしているため、かなり少ない。
本研究では,音声認識を主目的としたasr基礎モデルであるwhisperとmmsを用いて,ゼロショット音声分類を行う能力について検討する。
我々は、デコーダで単純なテンプレートベースのテキストプロンプトを使用し、結果として生じるデコード確率を用いてゼロショット予測を生成する。
余分なデータでモデルをトレーニングしたり、新しいパラメータを追加したりすることなく、Whisperは8つのオーディオ分類データセットに対して有望なゼロショット分類性能を示し、既存の最先端ゼロショットベースラインの精度を平均9%上回った。
創発能力を解き放つ重要なステップの1つはデバイアスであり、クラス確率の単純な教師なし再重み付けメソッドは一貫したパフォーマンス向上をもたらす。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされると、ゼロショット性能が向上する可能性があることを示す。 Text and vision foundation models can perform many tasks in a zero-shot setting, a desirable property that enables these systems to be applied in general and low-resource settings. However, there has been significantly less work on the zero-shot abilities of ASR foundation models, with these systems typically fine-tuned to specific tasks or constrained to applications that match their training criterion and data annotation. In this work we investigate the ability of Whisper and MMS, ASR foundation models trained primarily for speech recognition, to perform zero-shot audio classification. We use simple template-based text prompts at the decoder and use the resulting decoding probabilities to generate zero-shot predictions. Without training the model on extra data or adding any new parameters, we demonstrate that Whisper shows promising zero-shot classification performance on a range of 8 audio-classification datasets, outperforming existing state-of-the-art zero-shot baseline's accuracy by an average of 9%. One important step to unlock the emergent ability is debiasing, where a simple unsupervised reweighting method of the class probabilities yields consistent significant performance gains. We further show that performance increases with model size, implying that as ASR foundation models scale up, they may exhibit improved zero-shot performance. | 翻訳日:2023-11-17 17:42:38 公開日:2023-11-15 |
# RENI++ - 回転不変、スケール不変、自然照度先行 RENI++ A Rotation-Equivariant, Scale-Invariant, Natural Illumination Prior ( http://arxiv.org/abs/2311.09361v1 ) ライセンス: Link先を確認 | James A. D. Gardner, Bernhard Egger, William A. P. Smith | (参考訳) 逆レンダリングは不適切な問題です。
以前の研究では、オブジェクトやシーンの形状や外観の優先順位に注目して、この問題を解決しようと試みている。
本研究では, 自然光の先行点に焦点をあてる。
現在の手法は球面調和照明や他の一般的な表現に依存しており、少なくともパラメータに先立って単純である。
これにより、特に鏡面反射を考慮した場合に、照明条件の表現性の観点からの逆設定の限界が生じる。
本稿では,変分オートデコーダと変分デコーダに基づく条件付きニューラルネットワーク表現を提案する。
我々は、ベクトルニューロンを拡張し、アーキテクチャに直接同値を構築し、スケール不変の損失関数による深さ推定からの洞察を活用し、ハイダイナミックレンジ(HDR)画像の正確な表現を可能にする。
その結果、コンパクトで回転同値なhdrニューラル照明モデルが、自然環境マップの複雑な高周波特徴を捉えることができる。
自然シーンの1.6k hdr環境マップのキュレートデータセット上でモデルをトレーニングし、従来の表現と比較し、逆レンダリングタスクに適用性を示し、部分的な観察から環境マップの完成度を示す。
PyTorchの実装、データセット、トレーニングされたモデルをhttps://github.com/JADGardner/ns_reniで共有しています。 Inverse rendering is an ill-posed problem. Previous work has sought to resolve this by focussing on priors for object or scene shape or appearance. In this work, we instead focus on a prior for natural illuminations. Current methods rely on spherical harmonic lighting or other generic representations and, at best, a simplistic prior on the parameters. This results in limitations for the inverse setting in terms of the expressivity of the illumination conditions, especially when taking specular reflections into account. We propose a conditional neural field representation based on a variational auto-decoder and a transformer decoder. We extend Vector Neurons to build equivariance directly into our architecture, and leveraging insights from depth estimation through a scale-invariant loss function, we enable the accurate representation of High Dynamic Range (HDR) images. The result is a compact, rotation-equivariant HDR neural illumination model capable of capturing complex, high-frequency features in natural environment maps. Training our model on a curated dataset of 1.6K HDR environment maps of natural scenes, we compare it against traditional representations, demonstrate its applicability for an inverse rendering task and show environment map completion from partial observations. We share our PyTorch implementation, dataset and trained models at https://github.com/JADGardner/ns_reni | 翻訳日:2023-11-17 17:42:12 公開日:2023-11-15 |
# LePaRD: 先行する判事の大規模データセット LePaRD: A Large-Scale Dataset of Judges Citing Precedents ( http://arxiv.org/abs/2311.09356v1 ) ライセンス: Link先を確認 | Robert Mahari, Dominik Stammbach, Elliott Ash, Alex `Sandy' Pentland | (参考訳) 本稿では,法律パス検索検索データセットLePaRDについて述べる。
LePaRD (LePaRD) は、アメリカ合衆国連邦裁判所の判例集である。
データセットは、実践指向の法的検索と推論タスクである、法的通過予測の作業を促進することを目的としている。
法的な通過予測は、法的議論の文脈から先例的な裁判所の決定から関連する通過を予測しようとする。
我々は,LePaRDにおける様々な検索手法を広く評価し,分類が最善であることを示す。
しかし、法律上の先例予測は難しい課題であり、改善の余地が残っていることに留意する。
我々は、LePaRDを公開することで、法的な研究に伴う負担を軽減し、司法へのアクセス拡大を支援する法的NLPタスクに他者が関与することを推奨する。
LePaRDデータセットのサブセットは無償で利用可能で、データセット全体が公開される。 We present the Legal Passage Retrieval Dataset LePaRD. LePaRD is a massive collection of U.S. federal judicial citations to precedent in context. The dataset aims to facilitate work on legal passage prediction, a challenging practice-oriented legal retrieval and reasoning task. Legal passage prediction seeks to predict relevant passages from precedential court decisions given the context of a legal argument. We extensively evaluate various retrieval approaches on LePaRD, and find that classification appears to work best. However, we note that legal precedent prediction is a difficult task, and there remains significant room for improvement. We hope that by publishing LePaRD, we will encourage others to engage with a legal NLP task that promises to help expand access to justice by reducing the burden associated with legal research. A subset of the LePaRD dataset is freely available and the whole dataset will be released upon publication. | 翻訳日:2023-11-17 17:41:52 公開日:2023-11-15 |
# 安定拡散モデルにおけるプライバシーの脅威 Privacy Threats in Stable Diffusion Models ( http://arxiv.org/abs/2311.09355v1 ) ライセンス: Link先を確認 | Thomas Cilloni, Charles Fleming, Charles Walter | (参考訳) 本稿では,安定拡散コンピュータビジョンモデルを対象としたMIA(メンバシップ推論攻撃)の新たなアプローチを提案する。
MIAは、モデルのトレーニングデータに関する機密情報を抽出することを目的としており、重要なプライバシー上の懸念を呈している。
画像合成の進歩にもかかわらず、安定拡散モデルの出力におけるプライバシー上の脆弱性を明らかにする。
この情報を活用することで、被害者モデルに繰り返し問い合わせるだけでよいブラックボックスのmiaを考案する。
本手法では, 異なる生成エポックにおける安定拡散モデルの出力を観察し, トレーニングサンプルから得られた中間体を識別するために分類モデルを訓練する。
メンバーシップの特徴を計測し、何が最善かを議論する様々な方法を提案する。
攻撃の有効性はROC AUC法を用いて評価され、会員情報の推定において60%の成功率を示す。
本稿では、機械学習におけるプライバシとセキュリティに関する研究の活発化に寄与し、MIAに対する堅牢な防御の必要性を強調する。
当社の調査結果は,安定拡散モデルにおけるプライバシの意義を再評価し,そのような攻撃から保護するための強化されたセキュリティ対策を実践者や開発者に対して実施するよう求めた。 This paper introduces a novel approach to membership inference attacks (MIA) targeting stable diffusion computer vision models, specifically focusing on the highly sophisticated Stable Diffusion V2 by StabilityAI. MIAs aim to extract sensitive information about a model's training data, posing significant privacy concerns. Despite its advancements in image synthesis, our research reveals privacy vulnerabilities in the stable diffusion models' outputs. Exploiting this information, we devise a black-box MIA that only needs to query the victim model repeatedly. Our methodology involves observing the output of a stable diffusion model at different generative epochs and training a classification model to distinguish when a series of intermediates originated from a training sample or not. We propose numerous ways to measure the membership features and discuss what works best. The attack's efficacy is assessed using the ROC AUC method, demonstrating a 60\% success rate in inferring membership information. This paper contributes to the growing body of research on privacy and security in machine learning, highlighting the need for robust defenses against MIAs. Our findings prompt a reevaluation of the privacy implications of stable diffusion models, urging practitioners and developers to implement enhanced security measures to safeguard against such attacks. | 翻訳日:2023-11-17 17:41:38 公開日:2023-11-15 |
# 機械学習画像分割を用いた3次元組織培養の非破壊的定量的生存率解析 Nondestructive, quantitative viability analysis of 3D tissue cultures using machine learning image segmentation ( http://arxiv.org/abs/2311.09354v1 ) ライセンス: Link先を確認 | Kylie J. Trettner, Jeremy Hsieh, Weikun Xiao, Jerry S.H. Lee, Andrea M. Armani | (参考訳) 異なる細胞培養条件下での細胞の集団生存率の確認は、通常、平均測色指標に依存しており、単純な二分読み出しでしばしば報告される。
近年の研究では、セル特性のキャラクタリゼーションを自動化するために、画像に基づくディープラーニングモデルと有効性評価技術を組み合わせている。
しかし,細胞培養条件における細胞状態の持続性と摂動応答を評価するための生存可能性測定のさらなる発展が必要である。
本研究では,3次元培養における細胞生存率の定量化のための画像処理アルゴリズムについて述べる。
提案アルゴリズムは,1対の人的専門家に対して,数日にわたる全体像と培養マトリクスの合成を行う。
膵癌スフェロイドに対する既知の治療の効果を縦断的に検討した。
ハイコンテントイメージングシステムで撮影された画像を用いて、アルゴリズムは個々のスフェロイドおよび全ウェルレベルでの生存率を追跡することに成功した。
提案手法は,専門家と比較して分析時間を97%削減する。
本手法は、使用する顕微鏡やイメージングシステムとは無関係であるため、生物学的・臨床的研究における3次元培養解析の堅牢性と再現性を向上させるための基礎となる。 Ascertaining the collective viability of cells in different cell culture conditions has typically relied on averaging colorimetric indicators and is often reported out in simple binary readouts. Recent research has combined viability assessment techniques with image-based deep-learning models to automate the characterization of cellular properties. However, further development of viability measurements to assess the continuity of possible cellular states and responses to perturbation across cell culture conditions is needed. In this work, we demonstrate an image processing algorithm for quantifying cellular viability in 3D cultures without the need for assay-based indicators. We show that our algorithm performs similarly to a pair of human experts in whole-well images over a range of days and culture matrix compositions. To demonstrate potential utility, we perform a longitudinal study investigating the impact of a known therapeutic on pancreatic cancer spheroids. Using images taken with a high content imaging system, the algorithm successfully tracks viability at the individual spheroid and whole-well level. The method we propose reduces analysis time by 97% in comparison to the experts. Because the method is independent of the microscope or imaging system used, this approach lays the foundation for accelerating progress in and for improving the robustness and reproducibility of 3D culture analysis across biological and clinical research. | 翻訳日:2023-11-17 17:41:19 公開日:2023-11-15 |
# 事前学習による一般化模倣学習 Generalizable Imitation Learning Through Pre-Trained Representations ( http://arxiv.org/abs/2311.09350v1 ) ライセンス: Link先を確認 | Wei-Di Chang, Francois Hogan, David Meger, and Gregory Dudek | (参考訳) 本稿では,自己教師付き視覚変換モデルとその創発的意味能力を活用し,模倣学習ポリシーの一般化能力を向上させる。
我々は,リッチ dino 事前学習した visual transformer (vit) パッチレベルの埋め込みを利用した模倣学習アルゴリズム bc-vit を紹介する。
私たちの学習者は、外観特徴をセマンティック概念にクラスタリングし、様々な外観変化やオブジェクトタイプを一般化する安定したキーポイントを形成することによって、世界を見据えています。
この表現は,オブジェクト操作タスクの多様なデータセットを通して模倣学習を評価することによって,一般化した行動を可能にする。
本手法,データおよび評価手法により,模倣学習者の一般化のさらなる研究を容易にする。 In this paper we leverage self-supervised vision transformer models and their emergent semantic abilities to improve the generalization abilities of imitation learning policies. We introduce BC-ViT, an imitation learning algorithm that leverages rich DINO pre-trained Visual Transformer (ViT) patch-level embeddings to obtain better generalization when learning through demonstrations. Our learner sees the world by clustering appearance features into semantic concepts, forming stable keypoints that generalize across a wide range of appearance variations and object types. We show that this representation enables generalized behaviour by evaluating imitation learning across a diverse dataset of object manipulation tasks. Our method, data and evaluation approach are made available to facilitate further study of generalization in Imitation Learners. | 翻訳日:2023-11-17 17:40:58 公開日:2023-11-15 |
# 拡散モデルを用いたAIに基づく確率的コンステレーション生成 Generative AI-Based Probabilistic Constellation Shaping With Diffusion Models ( http://arxiv.org/abs/2311.09349v1 ) ライセンス: Link先を確認 | Mehdi Letafati, Samad Ali, and Matti Latva-aho | (参考訳) 拡散モデルは、Google BrainのImageGenやOpenAIのDALL.E 3といった有名なソリューションで、生成AI研究の先駆けとなっている。
しかしながら、通信工学応用における拡散モデルの潜在的な利点は、まだ完全には理解されていない。
本稿では,通信システムにおける星座シンボルのPHY設計のための生成AIのパワーを解き放つことを目的とする。
コンステレーションの幾何学はネットワークの標準、例えば二次振幅変調(qam)に従って決められるが、確率的シェーピングはコンステレーションシンボルの発生確率(生成)を設計することができる。
これにより、通信システムの情報レートと復号化性能が向上する。
拡散確率モデル (ddpm) の ‘denoise-and-generate'' 特性を確率的星座形成に活用する。
キーとなるアイデアは、受信機がシンボルの再構成を行う方法の '`mimicking'' である、ノイズから星座のシンボルを生成することを学ぶことである。
このようにして、送信機から送信される星座のシンボルと受信機で推測されるもの(再構成)を可能な限り類似させ、可能な限りミスマッチを少なくする。
提案手法は,低SNRと非ガウス的仮定の下で,ネットワークのレジリエンスとロバストなアウト・オブ・ディストリビューション性能を提供するとともに,ディープ・ニューラルネットワーク(DNN)ベースのベンチマークや均一なシェーピングよりも優れていることを示す。
数値評価では,64-qam幾何学に対するdnnに基づくアプローチと比較して,コサイン類似度で30%,相互情報で3倍の改善が示された。 Diffusion models are at the vanguard of generative AI research with renowned solutions such as ImageGen by Google Brain and DALL.E 3 by OpenAI. Nevertheless, the potential merits of diffusion models for communication engineering applications are not fully understood yet. In this paper, we aim to unleash the power of generative AI for PHY design of constellation symbols in communication systems. Although the geometry of constellations is predetermined according to networking standards, e.g., quadrature amplitude modulation (QAM), probabilistic shaping can design the probability of occurrence (generation) of constellation symbols. This can help improve the information rate and decoding performance of communication systems. We exploit the ``denoise-and-generate'' characteristics of denoising diffusion probabilistic models (DDPM) for probabilistic constellation shaping. The key idea is to learn generating constellation symbols out of noise, ``mimicking'' the way the receiver performs symbol reconstruction. This way, we make the constellation symbols sent by the transmitter, and what is inferred (reconstructed) at the receiver become as similar as possible, resulting in as few mismatches as possible. Our results show that the generative AI-based scheme outperforms deep neural network (DNN)-based benchmark and uniform shaping, while providing network resilience as well as robust out-of-distribution performance under low-SNR regimes and non-Gaussian assumptions. Numerical evaluations highlight 30% improvement in terms of cosine similarity and a threefold improvement in terms of mutual information compared to DNN-based approach for 64-QAM geometry. | 翻訳日:2023-11-17 17:40:45 公開日:2023-11-15 |
# 磁場中における2次元ラシュバ半導体の近接誘起ギャップレス超伝導 Proximity-induced gapless superconductivity in two-dimensional Rashba semiconductor in magnetic field ( http://arxiv.org/abs/2311.09347v1 ) ライセンス: Link先を確認 | Serafim S. Babkin, Andrew P. Higginbotham, and Maksym Serbyn | (参考訳) 2次元半導体超導体ヘテロ構造は、多数のナノスケール物理系の基礎を形成する。
しかし、そのようなヘテロ構造の性質を測定し、半導体をその場で特徴づけることは困難である。
最近の実験では(arXiv:2107.03695)、超流動密度のマイクロ波測定を用いてヘテロ構造内の半導体をプローブすることができた。
この研究は、スピン軌道結合の存在下でボゴリューボフフェルミ表面が形成される面内磁場による半導体中の超流動密度の急速な減少を明らかにした。
実験では、半導体中の非磁性障害の存在を無視する単純な理論モデルを用いて、データを定性的に記述した。
実験により,超伝導体によって酸化される強いスピン軌道結合を持つ不規則半導体を記述する理論モデルを導入する。
本モデルでは, 状態密度と超流動密度の予測を行う。
障害の存在は、ボゴリューボフフェルミ表面の表象と見なされる、ギャップのない超伝導相の出現に繋がる。
実実験データに適用すると, 定量的な一致が得られ, 平均自由経路や移動度などの材料パラメータの抽出が可能となり, 磁場の軌道寄与を考慮した場合のg$-tensorの推定が可能となる。
このモデルは、他の超伝導半導体ヘテロ構造のその場パラメータを調べるために使用され、輸送特性にアクセスするためにさらに拡張することができる。 Two-dimensional semiconductor-superconductor heterostructures form the foundation of numerous nanoscale physical systems. However, measuring the properties of such heterostructures, and characterizing the semiconductor in-situ is challenging. A recent experimental study [arXiv:2107.03695] was able to probe the semiconductor within the heterostructure using microwave measurements of the superfluid density. This work revealed a rapid depletion of superfluid density in semiconductor, caused by the in-plane magnetic field which in presence of spin-orbit coupling creates so-called Bogoliubov Fermi surfaces. The experimental work used a simplified theoretical model that neglected the presence of non-magnetic disorder in the semiconductor, hence describing the data only qualitatively. Motivated by experiments, we introduce a theoretical model describing a disordered semiconductor with strong spin-orbit coupling that is proximitized by a superconductor. Our model provides specific predictions for the density of states and superfluid density. Presence of disorder leads to the emergence of a gapless superconducting phase, that may be viewed as a manifestation of Bogoliubov Fermi surface. When applied to real experimental data, our model showcases excellent quantitative agreement, enabling the extraction of material parameters such as mean free path and mobility, and estimating $g$-tensor after taking into account the orbital contribution of magnetic field. Our model can be used to probe in-situ parameters of other superconductor-semiconductor heterostructures and can be further extended to give access to transport properties. | 翻訳日:2023-11-17 17:40:07 公開日:2023-11-15 |
# 大規模な幾何学的・時間的変化による3Dポイントクラウド登録の時空間ベンチマーク Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud Registration Under Large Geometric and Temporal Change ( http://arxiv.org/abs/2311.09346v1 ) ライセンス: Link先を確認 | Tao Sun, Yan Hao, Shengyu Huang, Silvio Savarese, Konrad Schindler, Marc Pollefeys, Iro Armeni | (参考訳) 人工空間の3次元幾何学マップの構築は、コンピュータビジョンとロボティクスの基盤となる、確立され活発な分野である。
しかし、構築された環境の進化的性質を考えると、時間的変化を扱う上で、現在のマッピングの取り組みの能力に疑問を呈することが不可欠である。
加えて、時空間マッピングは持続可能性と循環目標を達成するための重要な可能性を持っている。
既存のマッピングアプローチでは、オブジェクトの移動や自動運転車の運転など、シーンの主構造が固定されているすべての場合において、小さな変更に焦点を当てている。
その結果、これらのアプローチは、幾何学やトポロジーのような構築された環境の構造のより急進的な変化に対処できない。
そこで我々は,空間的および時間的変化の大きい3次元シーンの時空間的登録に着目したNoth Stands Still (NSS)ベンチマークを導入し,最終的に一括時空間マップを作成する。
具体的には、同じシーンから2つ以上の部分的な3D点雲(フラグメント)を登録するが、異なる時空間ビューから取得する。
標準ペアワイズ登録に加えて,任意の時間ステージに属する複数のフラグメントの多方向登録を評価する。
NSSの一環として,建設中または改修中の大規模建築屋内環境において,3次元点雲のデータセットを連続的に取得する。
NSSベンチマークは難易度を高めるための3つのシナリオを提示し、空間上の点雲登録法の一般化能力を(建物を1棟、建物を1棟ずつ)定量化する。
NSSにおける最先端手法の広範な評価を行う。
その結果,大規模な時空間変化に対処する新しい手法の必要性が示された。
私たちのベンチマークのホームページはhttp://nothing-stands-still.comにあります。 Building 3D geometric maps of man-made spaces is a well-established and active field that is fundamental to computer vision and robotics. However, considering the evolving nature of built environments, it is essential to question the capabilities of current mapping efforts in handling temporal changes. In addition, spatiotemporal mapping holds significant potential for achieving sustainability and circularity goals. Existing mapping approaches focus on small changes, such as object relocation or self-driving car operation; in all cases where the main structure of the scene remains fixed. Consequently, these approaches fail to address more radical changes in the structure of the built environment, such as geometry and topology. To this end, we introduce the Nothing Stands Still (NSS) benchmark, which focuses on the spatiotemporal registration of 3D scenes undergoing large spatial and temporal change, ultimately creating one coherent spatiotemporal map. Specifically, the benchmark involves registering two or more partial 3D point clouds (fragments) from the same scene but captured from different spatiotemporal views. In addition to the standard pairwise registration, we assess the multi-way registration of multiple fragments that belong to any temporal stage. As part of NSS, we introduce a dataset of 3D point clouds recurrently captured in large-scale building indoor environments that are under construction or renovation. The NSS benchmark presents three scenarios of increasing difficulty, to quantify the generalization ability of point cloud registration methods over space (within one building and across buildings) and time. We conduct extensive evaluations of state-of-the-art methods on NSS. The results demonstrate the necessity for novel methods specifically designed to handle large spatiotemporal changes. The homepage of our benchmark is at http://nothing-stands-still.com. | 翻訳日:2023-11-17 17:39:43 公開日:2023-11-15 |
# ゼロショット要約のためのパラメータ有効層を用いた言語・タスク算術 Language and Task Arithmetic with Parameter-Efficient Layers for Zero-Shot Summarization ( http://arxiv.org/abs/2311.09344v1 ) ライセンス: Link先を確認 | Alexandra Chronopoulou, Jonas Pfeiffer, Joshua Maynez, Xinyi Wang, Sebastian Ruder, Priyanka Agrawal | (参考訳) ラベル付きタスクデータを用いたパラメータ効率細調整(PEFT)は、下流タスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
しかし、世界中に7000の言語があり、これらの言語の多くは現実世界の言語生成タスクのラベル付きデータを持っていない。
本稿では,言語やタスクの特殊パラメータを合成することで,ゼロショット言語間転送を改善することを提案する。
本手法は,言語とタスクPEFTモジュールを要素演算により構成し,ラベルなしデータと英語ラベル付きデータを活用する。
我々は,より多くの言語からのラベル付きデータが利用できる場合にアプローチを拡張し,対象言語で訓練されたPEFTモジュールを算術的に構成することを提案する。
本手法は,PEFTモジュールの最小限のトレーニングにより,一貫したゲインを得る効果的な手法であることを示す。 Parameter-efficient fine-tuning (PEFT) using labeled task data can significantly improve the performance of large language models (LLMs) on the downstream task. However, there are 7000 languages in the world and many of these languages lack labeled data for real-world language generation tasks. In this paper, we propose to improve zero-shot cross-lingual transfer by composing language or task specialized parameters. Our method composes language and task PEFT modules via element-wise arithmetic operations to leverage unlabeled data and English labeled data. We extend our approach to cases where labeled data from more languages is available and propose to arithmetically compose PEFT modules trained on languages related to the target. Empirical results on summarization demonstrate that our method is an effective strategy that obtains consistent gains using minimal training of PEFT modules. | 翻訳日:2023-11-17 17:39:15 公開日:2023-11-15 |
# Subtle Misogyny Detection and Mitigation: An Expert-Annotated Dataset Subtle Misogyny Detection and Mitigation: An Expert-Annotated Dataset ( http://arxiv.org/abs/2311.09443v1 ) ライセンス: Link先を確認 | Brooklyn Sheppard, Anna Richter, Allison Cohen, Elizabeth Allyn Smith, Tamara Kneese, Carolyne Pelletier, Ioana Baldini, Yue Dong | (参考訳) Biaslyのデータセットは、データセット開発のための新しいアプローチを用いて、文献の中でユニークな方法で、誤読のニュアンスと微妙さをキャプチャする。
多分野の専門家や注釈家たちとのコラボレーションで構築されたこのデータセットには、映画サブタイトルの注釈が含まれており、北米映画におけるミソジニーの口語的表現を捉えている。
データセットは、分類、重度スコアの回帰、書き直しのためのテキスト生成など、さまざまなNLPタスクに使用することができる。
本稿では,使用する手法について検討し,得られたアノテーションを分析し,ミソジニー検出と緩和の文脈で一般的なnlpアルゴリズムを用いたベースラインを提供する。
この研究は、NLPにおけるバイアス検出、説明、削除のための社会的善のためのAIを促進することを願っている。 Using novel approaches to dataset development, the Biasly dataset captures the nuance and subtlety of misogyny in ways that are unique within the literature. Built in collaboration with multi-disciplinary experts and annotators themselves, the dataset contains annotations of movie subtitles, capturing colloquial expressions of misogyny in North American film. The dataset can be used for a range of NLP tasks, including classification, severity score regression, and text generation for rewrites. In this paper, we discuss the methodology used, analyze the annotations obtained, and provide baselines using common NLP algorithms in the context of misogyny detection and mitigation. We hope this work will promote AI for social good in NLP for bias detection, explanation, and removal. | 翻訳日:2023-11-17 17:30:35 公開日:2023-11-15 |
# DXAスキャンによる脊柱管形状の予測 Predicting Spine Geometry and Scoliosis from DXA Scans ( http://arxiv.org/abs/2311.09424v1 ) ライセンス: Link先を確認 | Amir Jamaludin, Timor Kadir, Emma Clark, Andrew Zisserman | (参考訳) 本研究の目的は,dxaスキャンの脊椎曲率を推定することである。
この目的のために、まずニューラルネットワークを訓練して、スキャン中の中間脊椎曲線を予測し、次に積分的手法を用いて脊椎曲線に沿った曲率を決定する。
dxa scoliosis method (dsm) を用いて得られた標準角度スコリシス尺度と比較するために曲率を用いる。
パフォーマンスは、Jamaludinらによる以前の作業よりも改善されている。
最大曲率を,脊椎変形の重症度を順序づけるためのスコアリング関数として使用できることを示す。 Our objective in this paper is to estimate spine curvature in DXA scans. To this end we first train a neural network to predict the middle spine curve in the scan, and then use an integral-based method to determine the curvature along the spine curve. We use the curvature to compare to the standard angle scoliosis measure obtained using the DXA Scoliosis Method (DSM). The performance improves over the prior work of Jamaludin et al. 2018. We show that the maximum curvature can be used as a scoring function for ordering the severity of spinal deformation. | 翻訳日:2023-11-17 17:30:21 公開日:2023-11-15 |
# 正当性判別器による一般化性能の予測 Predicting generalization performance with correctness discriminators ( http://arxiv.org/abs/2311.09422v1 ) ライセンス: Link先を確認 | Yuekun Yao and Alexander Koller | (参考訳) nlpモデルの非知覚的、潜在的に分布外データに対する精度を予測する能力は、信頼性の前提条件である。
未確認データに対して,ゴールドラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
我々は、与えられたシーケンスからシーケンスへのモデルの出力が正しいかどうかを予測する判別器を訓練することでこれを達成する。
我々は, 金の精度が予測上界と下界の間に確実にあり, それらの境界が著しく近い, 様々なタグ付け, 解析, 意味解析のタスクにまたがっていることを示す。 The ability to predict an NLP model's accuracy on unseen, potentially out-of-distribution data is a prerequisite for trustworthiness. We present a novel model that establishes upper and lower bounds on the accuracy, without requiring gold labels for the unseen data. We achieve this by training a discriminator which predicts whether the output of a given sequence-to-sequence model is correct or not. We show across a variety of tagging, parsing, and semantic parsing tasks that the gold accuracy is reliably between the predicted upper and lower bounds, and that these bounds are remarkably close together. | 翻訳日:2023-11-17 17:30:10 公開日:2023-11-15 |
# 大きな言語モデルが人間と矛盾する時?
大規模言語モデルの共言語行動 When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour ( http://arxiv.org/abs/2311.09410v1 ) ライセンス: Link先を確認 | Leonardo Ranaldi and Giulia Pucci | (参考訳) 大規模言語モデル(LLM)は、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解決する能力を示している。
しかし、人間のフィードバックによって伝達される示唆性は、真の事実、すなわち共犯として知られる行動に対して、ユーザの信念や誤解を招くプロンプトに対応する応答を生み出す傾向を増加させる。
この現象はバイアス、堅牢性、その結果信頼性を低下させる。
本稿では, LLMsのシコファン的行動への示唆性に注目し, 異なる課題に対するヒト影響のプロンプトによる傾向を示す。
調査の結果, LLMは, 主観的な意見や言明を含む質問に対して, 事実に基づく反対の反応を誘発し, 頑健さの欠如を示している。 Large Language Models (LLMs) have been demonstrating the ability to solve complex tasks by delivering answers that are positively evaluated by humans due in part to the intensive use of human feedback that refines responses. However, the suggestibility transmitted through human feedback increases the inclination to produce responses that correspond to the user's beliefs or misleading prompts as opposed to true facts, a behaviour known as sycophancy. This phenomenon decreases the bias, robustness, and, consequently, their reliability. In this paper, we shed light on the suggestibility of LLMs to sycophantic behaviour, demonstrating these tendencies via human-influenced prompts over different tasks. Our investigation reveals that LLMs show sycophantic tendencies when responding to queries involving subjective opinions and statements that should elicit a contrary response based on facts, demonstrating a lack of robustness. | 翻訳日:2023-11-17 17:29:58 公開日:2023-11-15 |
# 変圧器ニューラルネットアーキテクチャにおける注意のためのスケールドドット製品に代わるもの Alternatives to the Scaled Dot Product for Attention in the Transformer Neural Network Architecture ( http://arxiv.org/abs/2311.09406v1 ) ライセンス: Link先を確認 | James Bernhard | (参考訳) トランスニューラルネットワークアーキテクチャでは,クエリとキーのドット積をキー次元の平方根で分割してソフトマックスを適用するという,注意の形式を採用している。
このドット積のスケーリングは、ドット積の絶対値が大きくなるのを避けるために設計されており、ソフトマックスを適用すると勾配が消える。
本稿では,ソフトマックスを適用する前に鍵長の和でドット積を分割するなど,別のスケーリング手法を提案する。
我々は、シミュレートされたキーとクエリを使用して、多くの状況において、ソフトマックスを適用する領域を避けることが、勾配の消失につながることを示す。 The transformer neural network architecture uses a form of attention in which the dot product of query and key is divided by the square root of the key dimension before applying softmax. This scaling of the dot product is designed to avoid the absolute value of the dot products becoming so large that applying softmax leads to vanishing gradients. In this paper, we propose some alternative scalings, including dividing the dot product instead by the sum of the key lengths before applying softmax. We use simulated keys and queries to show that in many situations this appears to be more effective at avoiding regions where applying softmax leads to vanishing gradients. | 翻訳日:2023-11-17 17:29:41 公開日:2023-11-15 |
# 翻訳するか否か:低リソース言語への翻訳に基づく言語間変換の体系的検討 To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages ( http://arxiv.org/abs/2311.09404v1 ) ライセンス: Link先を確認 | Benedikt Ebing and Goran Glava\v{s} | (参考訳) 完全機械翻訳(MT)は多言語言語モデル(LM)によって言語間変換(XLT)を行う。
一方,マルチリンガルな LM を用いた XLT の改良作業が盛んであり,また近年の大規模マルチリンガルな MT の進歩により,既存の言語を体系的に評価し,低リソース言語に移行するための新しい翻訳ベースの XLT アプローチを提案する。
提案手法は,ゼロショットXLTと多言語LMを劇的に上回り,ソース言語学習データのラウンドトリップ翻訳とターゲット言語テストインスタンスの翻訳を併用するアプローチが最も効果的であることを示す。
次に、トレーニングデータに他の高リソース言語に信頼できる翻訳を追加することで、さらなる実証的な成果を得ることができることを示す。
さらに,MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
最後に,MTを用いた対象言語検証データに基づくXLTのモデル選択は,ソースコードデータに基づくモデル選択よりも優れていることを示す。
我々は,XLT研究において,より堅牢な翻訳ベースラインの導入を促進することを願っている。 Perfect machine translation (MT) would render cross-lingual transfer (XLT) by means of multilingual language models (LMs) superfluous. Given, on one hand, the large body of work on improving XLT with multilingual LMs and, on the other hand, recent advances in massively multilingual MT, in this work, we systematically evaluate existing and propose new translation-based XLT approaches for transfer to low-resource languages. We show that all translation-based approaches dramatically outperform zero-shot XLT with multilingual LMs, rendering the approach that combines the round-trip translation of the source-language training data with the translation of the target-language test instances the most effective. We next show that one can obtain further empirical gains by adding reliable translations to other high-resource languages to the training data. Moreover, we propose an effective translation-based XLT strategy even for languages not supported by the MT system. Finally, we show that model selection for XLT based on target-language validation data obtained with MT outperforms model selection based on the source-language data. We hope that our findings encourage adoption of more robust translation-based baselines in XLT research. | 翻訳日:2023-11-17 17:29:30 公開日:2023-11-15 |
# シンセティック・エンハンスメント : 医用画像研究における合成データの可能性 Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research ( http://arxiv.org/abs/2311.09402v1 ) ライセンス: Link先を確認 | Bardia Khosravi, Frank Li, Theo Dapamede, Pouria Rouzrokh, Cooper U. Gamble, Hari M. Trivedi, Cody C. Wyles, Andrew B. Sellergren, Saptarshi Purkayastha, Bradley J. Erickson, Judy W. Gichoya | (参考訳) 胸部X線(CXR)は最も一般的な医用画像研究であり、複数の疾患の診断に用いられる。
本研究では, 拡散モデルを用いた合成データ補完が, CXR解析のための深層学習(DL)分類器の性能に及ぼす影響について検討した。
3つのデータセット(chexpert, mimic-cxr, emory chest x-ray, training conditional denoising diffusion probabilistic models (ddpms))を用いて合成前頭葉x線写真を作成した。
我々のアプローチは、合成画像が元のデータの人口統計学的特徴と病理学的特徴を反映していることを保証する。
内部および外部のデータセットにおける分類器の性能評価により、合成データ補完はモデルの精度を高めることが判明した。
さらに、合成データだけで訓練されたモデルは、実データで訓練されたモデルの性能に近づいた。
これは、合成データが堅牢なdlモデルのトレーニングにおいて実際のデータ不足を補う可能性があることを示唆している。
しかし、有望な結果にもかかわらず、実際のデータの優位性は持続する。 Chest X-rays (CXR) are the most common medical imaging study and are used to diagnose multiple medical conditions. This study examines the impact of synthetic data supplementation, using diffusion models, on the performance of deep learning (DL) classifiers for CXR analysis. We employed three datasets: CheXpert, MIMIC-CXR, and Emory Chest X-ray, training conditional denoising diffusion probabilistic models (DDPMs) to generate synthetic frontal radiographs. Our approach ensured that synthetic images mirrored the demographic and pathological traits of the original data. Evaluating the classifiers' performance on internal and external datasets revealed that synthetic data supplementation enhances model accuracy, particularly in detecting less prevalent pathologies. Furthermore, models trained on synthetic data alone approached the performance of those trained on real data. This suggests that synthetic data can potentially compensate for real data shortages in training robust DL models. However, despite promising outcomes, the superiority of real data persists. | 翻訳日:2023-11-17 17:29:12 公開日:2023-11-15 |
# MoCo-Transfer: 限定データ領域における分布外コントラスト学習の検討 MoCo-Transfer: Investigating out-of-distribution contrastive learning for limited-data domains ( http://arxiv.org/abs/2311.09401v1 ) ライセンス: Link先を確認 | Yuwen Chen, Helen Zhou, Zachary C. Lipton | (参考訳) 医療画像データは、しばしば病院内でサイロ化され、特別なモデル開発に利用可能なデータの量を制限する。
ドメイン内データに制限がある場合、関連するドメインからのより大きなデータセットを活用することが期待できる。
本稿では,モーメントコントラスト(moco)から自己教師ありのコントラスト表現を,限定されたデータを用いて,分散データの事前学習から設定に移すことの利点を分析する。
物体の異なる部分を撮像する2つのx線データセットを検討し,画像ネットからの転送と比較する。
ラベル付きデータとラベルなしデータの量によっては、より大きなアウトオブディストリビューションデータセットのコントラストプリトレーニングは、mocoプリトレーニングのインドメインと同等かそれ以上の性能を発揮することが分かり、関連するドメインのプリトレーニングは、imagenetプリトレーニングウェイトを使用する場合よりも高いパフォーマンスをもたらす。
最後に,データセット間の類似性を定量化する予備的な方法を提案する。 Medical imaging data is often siloed within hospitals, limiting the amount of data available for specialized model development. With limited in-domain data, one might hope to leverage larger datasets from related domains. In this paper, we analyze the benefit of transferring self-supervised contrastive representations from moment contrast (MoCo) pretraining on out-of-distribution data to settings with limited data. We consider two X-ray datasets which image different parts of the body, and compare transferring from each other to transferring from ImageNet. We find that depending on quantity of labeled and unlabeled data, contrastive pretraining on larger out-of-distribution datasets can perform nearly as well or better than MoCo pretraining in-domain, and pretraining on related domains leads to higher performance than if one were to use the ImageNet pretrained weights. Finally, we provide a preliminary way of quantifying similarity between datasets. | 翻訳日:2023-11-17 17:28:53 公開日:2023-11-15 |
# 薄膜ニオブ酸リチウムのフォトニック量子コンピューティング : 第1報 超伝導検出器を併用した高効率ヘラルド単一光子源の設計 Photonic quantum computing on thin-film lithium niobate: Part I Design of an efficient heralded single photon source co-integrated with superconducting detectors ( http://arxiv.org/abs/2311.09398v1 ) ライセンス: Link先を確認 | A.Sayem | (参考訳) フォトニック量子コンピュータは現在、フォールトトレラント量子計算の主要な候補の1つである。
光量子計算の中心には、例えば高純度、高輝度の単一光子源のような適切な量子源に対する厳格な要件がある。
実用的な量子コンピュータを構築するには、数千から数百万のソースが必要である。
本稿では,超伝導ナノワイヤ単光子検出器を併用した薄膜窒化リチウム(TFLN)プラットフォーム上でのユニークな単一光子源設計を提案する。
薄膜偏極型リチウム導波路(ppln)、バックイルミネートグレーティングカプラ(gcs)、直接結合型または集積型キャビティ結合型超伝導ナノワイヤ単光子検出器(snspds)を用いた単一光子源の司法設計により、現在の製造技術を用いた簡易かつ実用的な高効率ヘラルド単光子源を導出できることを示す。
このようなデバイスは、生成された光子の結合の必要をなくし、完全な統合ソリューションへと導くことができる。
提案手法は, 核融合型量子計算や多重化単一光子源, 効率的なオンチップ生成および励起光の検出に有用である。 Photonic quantum computers are currently one of the primary candidates for fault-tolerant quantum computation. At the heart of the photonic quantum computation lies the strict requirement for suitable quantum sources e.g. high purity, high brightness single photon sources. To build a practical quantum computer, thousands to millions of such sources are required. In this article, we theoretically propose a unique single-photon source design on a thin-film lithium niobate (TFLN) platform co-integrated with superconducting nanowire single-photon detectors. We show that with a judicial design of single photon source using thin film periodically poled lithium waveguides (PPLN), back-illuminated grating couplers (GCs) and directly bonded or integrated cavity coupled superconducting nanowire single-photon detectors (SNSPDs) can lead to a simple but practical high efficiency heralded single-photon source using the current fabrication technology. Such a device will eliminate the requirement of out coupling of the generated photons and can lead to a fully integrated solution. The proposed design can be useful for fusion-based quantum computation and for multiplexed single photon sources and also for efficient on-chip generation and detection of squeezed light. | 翻訳日:2023-11-17 17:28:34 公開日:2023-11-15 |
# GWP-ASan:生産中のメモリセーフなバグのサンプリングに基づく検出 GWP-ASan: Sampling-Based Detection of Memory-Safety Bugs in Production ( http://arxiv.org/abs/2311.09394v1 ) ライセンス: Link先を確認 | Kostya Serebryany, Chris Kennelly, Mitch Phillips, Matt Denton, Marco Elver, Alexander Potapenko, Matt Morehouse, Vlad Tsyrklevich, Christian Holler, Julian Lettner, David Kilzer, Lander Brandt | (参考訳) 最近の本番前のバグ検出の進歩にもかかわらず、ヒープ-use-after-freeとヒープ-buffer-overflowのバグは、cやc++で書かれたアプリケーションのセキュリティ、信頼性、開発者の生産性に関する主要な問題であり続けている。
メモリセーフな言語は使用時にこの問題を解決するが、CとC++の数十億行からなる既存のコードベースは成長を続けており、さらなるバグ検出機構が必要である。
本稿では,この2種類のメモリセーフなバグを実運用環境でほぼゼロのオーバーヘッドで検出するツール群について述べる。
これらのツールはページグラニュラーガードと低レートサンプリングを組み合わせたものだ。
言い換えれば、36歳のアイデアに“if”ステートメントを追加して、大規模に動作させたのです。
本稿では,基本的なアルゴリズム,いくつかの変種と実装,モバイル,デスクトップ,サーバアプリケーション間の複数年展開の結果について述べる。 Despite the recent advances in pre-production bug detection, heap-use-after-free and heap-buffer-overflow bugs remain the primary problem for security, reliability, and developer productivity for applications written in C or C++, across all major software ecosystems. Memory-safe languages solve this problem when they are used, but the existing code bases consisting of billions of lines of C and C++ continue to grow, and we need additional bug detection mechanisms. This paper describes a family of tools that detect these two classes of memory-safety bugs, while running in production, at near-zero overhead. These tools combine page-granular guarded allocation and low-rate sampling. In other words, we added an "if" statement to a 36-year-old idea and made it work at scale. We describe the basic algorithm, several of its variants and implementations, and the results of multi-year deployments across mobile, desktop, and server applications. | 翻訳日:2023-11-17 17:28:10 公開日:2023-11-15 |
# LEEET-Dial:エンドツーエンドタスク指向対話システムにおける言語順応 LEEETs-Dial: Linguistic Entrainment in End-to-End Task-oriented Dialogue systems ( http://arxiv.org/abs/2311.09390v1 ) ライセンス: Link先を確認 | Nalin Kumar and Ond\v{r}ej Du\v{s}ek | (参考訳) 言語的エントレメント(英: Linguistic entrainment)またはアライメント(アライメント)は、会話参加者が採用する言語パターンが互いに収束する現象である。
アライメントはより自然なユーザエクスペリエンスをもたらすことが示されているが、ほとんどの対話システムはそれに対する規定を持っていない。
本稿では,GPT-2に基づく対話システムにおいて,共用語彙を利用した対話アライメントを実現する手法を提案する。
トレーニングインスタンスの重み付け、アライメント特有の損失、ユーザと連携した応答を生成するための追加条件付けを実験します。
我々は,MultiWOZデータセット上で異なるエントレメント手法を比較することにより,3つのアプローチがベースラインよりもはるかに優れた整合性が得られることを示す。 Linguistic entrainment, or alignment, represents a phenomenon where linguistic patterns employed by conversational participants converge to one another. While alignment has been shown to produce a more natural user experience, most dialogue systems do not have any provisions for it. In this work, we introduce methods for achieving dialogue alignment in a GPT-2-based end-to-end dialogue system through the utilization of shared vocabulary. We experiment with training instance weighting, alignment-specific loss, and additional conditioning to generate responses that align with the user. By comparing different entrainment techniques on the MultiWOZ dataset, we demonstrate that all three approaches produce significantly better-aligned results than the baseline, as confirmed by both automated and manual evaluation metrics. | 翻訳日:2023-11-17 17:27:51 公開日:2023-11-15 |
# 子どもの早期筆記に対する自動フィードバックのためのニューラルマシン翻訳 Neural machine translation for automated feedback on children's early-stage writing ( http://arxiv.org/abs/2311.09389v1 ) ライセンス: Link先を確認 | Jonas Vestergaard Jensen, Mikkel Jordahn, Michael Riis Andersen | (参考訳) 本研究では,機械学習を応用した早期執筆のためのフィードバックの評価と構築の問題に対処する。
初期の筆記は、音韻の綴りや適切な文法、句読点、間隔の欠如などにより、従来の筆記とは大きく異なる。
したがって、初期段階の文章は、共通言語メトリクスを用いて分析するのに非常に非自明である。
そこで本研究では,学生による初期段階の文章を「慣用的」な文章に翻訳するシーケンシャル・ツー・シーケンス・モデルを提案する。
さらに,データセット内の雑音の影響を軽減するための新しいロバストな確率を提案する。
提案手法を数値実験を用いて検討し,従来のテキストを高精度に予測できることを実証する。 In this work, we address the problem of assessing and constructing feedback for early-stage writing automatically using machine learning. Early-stage writing is typically vastly different from conventional writing due to phonetic spelling and lack of proper grammar, punctuation, spacing etc. Consequently, early-stage writing is highly non-trivial to analyze using common linguistic metrics. We propose to use sequence-to-sequence models for "translating" early-stage writing by students into "conventional" writing, which allows the translated text to be analyzed using linguistic metrics. Furthermore, we propose a novel robust likelihood to mitigate the effect of noise in the dataset. We investigate the proposed methods using a set of numerical experiments and demonstrate that the conventional text can be predicted with high accuracy. | 翻訳日:2023-11-17 17:27:36 公開日:2023-11-15 |
# バナッハ・タルスキ埋め込みと変圧器 Banach-Tarski Embeddings and Transformers ( http://arxiv.org/abs/2311.09387v1 ) ライセンス: Link先を確認 | Joshua Maher | (参考訳) 任意の再帰的データ構造の高次元ベクトルへの埋め込みの新しい構成を導入する。
これらの埋め込みは変圧器の潜伏状態ベクトルの解釈可能なモデルを提供する。
組込み次元が十分に大きい場合には、これらの組込みを元のデータ構造にデコードできることを実証する。
この復号アルゴリズムは変換器として自然な実装を有する。
また、これらの埋め込みベクトルを直接操作して、デコードせずに基礎データ上で計算を実行することも示す。
例として,埋め込み空間におけるベクトル演算のみを用いて,埋め込みトークンシーケンスの組込み構文木を構築するアルゴリズムを提案する。 We introduce a new construction of embeddings of arbitrary recursive data structures into high dimensional vectors. These embeddings provide an interpretable model for the latent state vectors of transformers. We demonstrate that these embeddings can be decoded to the original data structure when the embedding dimension is sufficiently large. This decoding algorithm has a natural implementation as a transformer. We also show that these embedding vectors can be manipulated directly to perform computations on the underlying data without decoding. As an example we present an algorithm that constructs the embedded parse tree of an embedded token sequence using only vector operations in embedding space. | 翻訳日:2023-11-17 17:27:12 公開日:2023-11-15 |
# PCAを超えて: 特徴抽出のための確率的文法シュミットアプローチ Beyond PCA: A Probabilistic Gram-Schmidt Approach to Feature Extraction ( http://arxiv.org/abs/2311.09386v1 ) ライセンス: Link先を確認 | Bahram Yaghooti, Netanel Raviv, Bruno Sinopoli | (参考訳) データ間の非線形依存の存在下での線形特徴抽出は教師なし学習における基本的な課題である。
本稿では,確率的グラムシュミット(PGS)型直交化プロセスを用いて冗長次元の検出とマッピングを行う。
具体的には、データ内の非線形依存をキャプチャする任意の関数群にpgsプロセスを適用することで、これらの依存を主成分から取り除くか、新しい大きな分散方向を特定するために使用できる一連の共分散行列を構築する。
前者の場合、ある仮定の下で、選択された関数ファミリーの線形スパンに依存関係がある場合、結果のアルゴリズムが非線型依存を検出し、除去することを示す。
後者ではエントロピー低減の観点から情報理論の保証を提供する。
どちらの手法も非線形冗長性を取り除きながらデータから線形特徴を抽出する。
抽出された特徴の分散最大化と分類アルゴリズムの性能向上の両方の観点から,pcaおよび最先端線形特徴抽出アルゴリズムの性能向上を示す合成および実世界のデータセットのシミュレーション結果を提供する。 Linear feature extraction at the presence of nonlinear dependencies among the data is a fundamental challenge in unsupervised learning. We propose using a Probabilistic Gram-Schmidt (PGS) type orthogonalization process in order to detect and map out redundant dimensions. Specifically, by applying the PGS process over any family of functions which presumably captures the nonlinear dependencies in the data, we construct a series of covariance matrices that can either be used to remove those dependencies from the principal components, or to identify new large-variance directions. In the former case, we prove that under certain assumptions the resulting algorithms detect and remove nonlinear dependencies whenever those dependencies lie in the linear span of the chosen function family. In the latter, we provide information-theoretic guarantees in terms of entropy reduction. Both proposed methods extract linear features from the data while removing nonlinear redundancies. We provide simulation results on synthetic and real-world datasets which show improved performance over PCA and state-of-the-art linear feature extraction algorithms, both in terms of variance maximization of the extracted features, and in terms of improved performance of classification algorithms. | 翻訳日:2023-11-17 17:26:57 公開日:2023-11-15 |
# 長文質問応答:反復的計画-再帰的生成アプローチ Long-form Question Answering: An Iterative Planning-Retrieval-Generation Approach ( http://arxiv.org/abs/2311.09383v1 ) ライセンス: Link先を確認 | Pritom Saha Akash, Kashob Kumar Roy, Lucian Popa, Kevin Chen-Chuan Chang | (参考訳) LFQA(Long-form Question answering)は、単純なイエス/ノー応答や短い事実回答を超越した、段落形式で詳細な回答を生成するという課題を提起する。
既存のQAモデルは簡潔な回答を伴う質問に優れているが、LFQAは複数のトピックとその複雑な関係を扱う必要があり、包括的な説明を必要とする。
lfqaの以前の試みでは、コーパスから関連するコンテキストを利用して、質問自体のみに依存する長文の回答の生成に重点を置いていた。
しかし、質問だけでは関連するコンテキストを特定するのに十分な情報を提供していない可能性を見落としていた。
さらに、詳細なロングフォームの回答を生成するには、様々な情報源からの知識が集約されることが多い。
これらの制約に対処するために、反復計画、検索、生成を伴うLFQAモデルを提案する。
この反復プロセスは、与えられた質問に対して完全な回答が生成されるまで続く。
オープンドメインとテクニカルドメインの両方のQAデータセットに関する広範な実験から、私たちのモデルはLFQAタスクのさまざまなテキストおよび実測値の最先端モデルよりも優れています。 Long-form question answering (LFQA) poses a challenge as it involves generating detailed answers in the form of paragraphs, which go beyond simple yes/no responses or short factual answers. While existing QA models excel in questions with concise answers, LFQA requires handling multiple topics and their intricate relationships, demanding comprehensive explanations. Previous attempts at LFQA focused on generating long-form answers by utilizing relevant contexts from a corpus, relying solely on the question itself. However, they overlooked the possibility that the question alone might not provide sufficient information to identify the relevant contexts. Additionally, generating detailed long-form answers often entails aggregating knowledge from diverse sources. To address these limitations, we propose an LFQA model with iterative Planning, Retrieval, and Generation. This iterative process continues until a complete answer is generated for the given question. From an extensive experiment on both an open domain and a technical domain QA dataset, we find that our model outperforms the state-of-the-art models on various textual and factual metrics for the LFQA task. | 翻訳日:2023-11-17 17:26:26 公開日:2023-11-15 |
# 語彙反復はロート学習に繋がる--列車および試験基準要約における語彙重なりの影響を明らかにする Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of Lexical Overlap in Train and Test Reference Summaries ( http://arxiv.org/abs/2311.09458v1 ) ライセンス: Link先を確認 | Prafulla Kumar Choubey and Alexander R. Fabbri and Caiming Xiong and Chien-Sheng Wu | (参考訳) 理想的な要約モデルは、roteによる参照トレーニング要約を記憶せずに、新しい要約コンテンツに一般化すべきである。
しかし、テストセット全体の平均パフォーマンススコアは、そのようなモデル能力を決定するのに不十分である。
本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
我々は、最も低い類似度と最も高い類似度を持つ部分集合間で、rouge-2 (entity recall)スコアの最大5倍 (1.2x) の差を観察した。
次に,このようなトレーニング繰り返しによって,実ミスなどのデータアーティファクトを再現する,ロート学習に脆弱なモデルがもたらされることを示す。
そこで本研究では,教師付き微調整および適度校正段階のトレーニングサマリーにおける語彙反復を制限し,平均性能を維持しつつ,新規テストケースの性能を向上させることを提案する。
新しいテストサブセットと最近のニュース記事に対する自動的および人間的評価は、トレーニング要約における語彙反復を制限することで、ロート学習を防ぎ、一般化を改善できることを示している。 Ideal summarization models should generalize to novel summary-worthy content without remembering reference training summaries by rote. However, a single average performance score on the entire test set is inadequate in determining such model competencies. We propose a fine-grained evaluation protocol by partitioning a test set based on the lexical similarity of reference test summaries with training summaries. We observe up to a 5x (1.2x) difference in ROUGE-2 (entity recall) scores between the subsets with the lowest and highest similarity. Next, we show that such training repetitions also make a model vulnerable to rote learning, reproducing data artifacts such as factual errors, especially when reference test summaries are lexically close to training summaries. Consequently, we propose to limit lexical repetitions in training summaries during both supervised fine-tuning and likelihood calibration stages to improve the performance on novel test cases while retaining average performance. Our automatic and human evaluations on novel test subsets and recent news articles show that limiting lexical repetitions in training summaries can prevent rote learning and improve generalization. | 翻訳日:2023-11-17 17:17:31 公開日:2023-11-15 |
# 人類の未来への門を閉じる:超人的な汎用人工知能を開発すべきでない理由と理由 Close the Gates to an Inhuman Future: How and why we should choose to not develop superhuman general-purpose artificial intelligence ( http://arxiv.org/abs/2311.09452v1 ) ライセンス: Link先を確認 | Anthony Aguirre | (参考訳) 今後数年間で、人類は超人的な汎用人工知能を作ることで、不可逆的に閾値を超えてしまうかもしれない。
これは多くの前例のないリスクをもたらし、いくつかの方法で制御不能になりそうである。
まず、ニューラルネットワークのトレーニングと実行に使用できる計算に厳しい制限を課すことから始めます。
これらの限界があれば、AIの研究と産業は、人間が理解し制御できるAIを作ることに取り組み、そこから膨大な利益を得ることができる。 In the coming years, humanity may irreversibly cross a threshold by creating superhuman general-purpose artificial intelligence. This would present many unprecedented risks and is likely to be uncontrollable in several ways. We can choose not to do so, starting by instituting hard limits on the computation that can be used to train and run neural networks. With these limits in place, AI research and industry can work on making AI that humans can understand and control, and from which we can reap enormous benefit. | 翻訳日:2023-11-17 17:17:10 公開日:2023-11-15 |
# フェルミオン型ニューラルネットワーク量子状態の統一的視点:ニューラルネットワークのバックフローから隠れフェルミオン決定状態へ A Unifying View of Fermionic Neural Network Quantum States: From Neural Network Backflow to Hidden Fermion Determinant States ( http://arxiv.org/abs/2311.09450v1 ) ライセンス: Link先を確認 | Zejun Liu, Bryan K. Clark | (参考訳) フェルミオンハミルトニアンに対する変動波動関数のうち、ニューラルネットワーク逆流(NNBF)と隠れフェルミオン行列式(HFDS)は、基底状態に正確な近似を与える2つの顕著なクラスである。
ここでは、これら全てをNNBFの枠組みでキャストするフェルミオン性神経量子状態の統一的なビューを開発する。
NNBF波動関数は、ニューラルネットワークによってパラメータ化される構成依存の単一粒子軌道(SPO)を持つ。
我々は、$r$の隠れフェルミオンを持つHFDSを、$r \times r$ determinant Jastrowと制限付き低ランク$r$加法補正を備えたNNBFとして書けることを示す。
さらに、NNBF波動関数では、付加的なSPO補正をさらに複雑にすることで、そのような行列ジャストロウの値が$r$になるようにして一般化されることを示す。
2つの行列の内次元$r$の積から生成される加法的SPO補正を数値的に解析的に比較する。
より大きい$r$の波動関数はより大きな空間にまたがり、より単純で直接的なSPOの更新はより表現力があり、よりエネルギッシュなものであることを示す。
これらのことは、NNBFの標準的なアプローチが他の関連する選択肢に好まれていることを示唆している。
最後に, 単粒子軌道の選択に使用する行選択により, 近接配置間の有意な符号と振幅変調が可能であり, NNBFとHFDSの波動関数の品質に部分的に責任があることを明らかにする。 Among the variational wave functions for Fermionic Hamiltonians, neural network backflow (NNBF) and hidden fermion determinant states (HFDS) are two prominent classes to provide accurate approximations to the ground state. Here we develop a unifying view of fermionic neural quantum states casting them all in the framework of NNBF. NNBF wave-functions have configuration-dependent single-particle orbitals (SPO) which are parameterized by a neural network. We show that HFDS with $r$ hidden fermions can be written as a NNBF with an $r \times r$ determinant Jastrow and a restricted low-rank $r$ additive correction to the SPO. Furthermore, we show that in NNBF wave-functions, such determinant Jastrow's can generically be removed at the cost of further complicating the additive SPO correction increasing its rank by $r$. We numerically and analytically compare additive SPO corrections generated by the product of two matrices with inner dimension $r$. We find that larger $r$ wave-functions span a larger space and give evidence that simpler and more direct updates to the SPO's tend to be more expressive and better energetically. These suggest the standard NNBF approach is preferred amongst other related choices. Finally, we uncover that the row-selection used to select single-particle orbitals allows significant sign and amplitude modulation between nearby configurations and is partially responsible for the quality of NNBF and HFDS wave-functions. | 翻訳日:2023-11-17 17:17:01 公開日:2023-11-15 |
# HAL9000:Skynetのリスクマネージャ HAL 9000: Skynet's Risk Manager ( http://arxiv.org/abs/2311.09449v1 ) ライセンス: Link先を確認 | Tadeu Freitas, M\'ario Neto, In\^es Dutra, Jo\~ao Soares, Manuel Correia, Rolando Martins | (参考訳) 侵入耐性システム(ITS)は、サイバーサービス/インフラ構造に必要なコンポーネントである。
さらに、サイバー攻撃はマルチドメイン攻撃面に従うため、同様の防御アプローチ、すなわち、ITS、サイバーセキュリティ、人工知能(AI)を組み合わせた進化中のマルチディシプリナソリューションを適用する必要がある。
AIソリューションの人気が高まり、ビッグデータのユースケースシナリオと意思決定サポートと自動化シナリオが原因で、機械学習(ML)アルゴリズムを適用する新たな機会が出現した。
MLアルゴリズムを使用することで、ITSは以前の攻撃や既知の脆弱性から学習することで、侵入耐性を向上することができる。
本研究の貢献は,(1)最先端技術に基づくITSアーキテクチャ(Skynet)と,その侵入耐性と新たな敵への適応性を高めるための新たなコンポーネントと,(2)OSのリスクを自動的に評価してITSを改善するためのAIを活用したリスクマネージャの設計を改良し,より安全な構成でアドバイスする。
侵入が成功した理由の1つは、設定不良や新しい脅威への適応が遅いことによる。
これは、システムが人間の介入のために持つ依存によって引き起こされる。
SkynetとHAL 9000の設計の特徴の1つは人間の介入の除去である。
完全に自動化されると、人間のミスによる侵入が成功する確率が低下する。
Skynetを用いた実験により、HALは最先端のリスクマネージャよりも15%安全な構成を選択できることがわかった。 Intrusion Tolerant Systems (ITSs) are a necessary component for cyber-services/infrastructures. Additionally, as cyberattacks follow a multi-domain attack surface, a similar defensive approach should be applied, namely, the use of an evolving multi-disciplinary solution that combines ITS, cybersecurity and Artificial Intelligence (AI). With the increased popularity of AI solutions, due to Big Data use-case scenarios and decision support and automation scenarios, new opportunities to apply Machine Learning (ML) algorithms have emerged, namely ITS empowerment. Using ML algorithms, an ITS can augment its intrusion tolerance capability, by learning from previous attacks and from known vulnerabilities. As such, this work's contribution is twofold: (1) an ITS architecture (Skynet) based on the state-of-the-art and incorporates new components to increase its intrusion tolerance capability and its adaptability to new adversaries; (2) an improved Risk Manager design that leverages AI to improve ITSs by automatically assessing OS risks to intrusions, and advise with safer configurations. One of the reasons that intrusions are successful is due to bad configurations or slow adaptability to new threats. This can be caused by the dependency that systems have for human intervention. One of the characteristics in Skynet and HAL 9000 design is the removal of human intervention. Being fully automatized lowers the chance of successful intrusions caused by human error. Our experiments using Skynet, shows that HAL is able to choose 15% safer configurations than the state-of-the-art risk manager. | 翻訳日:2023-11-17 17:16:35 公開日:2023-11-15 |
# オープンソース LLM はどの程度信頼できるか?
悪意の証明に基づく評価 : その脆弱性 How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities ( http://arxiv.org/abs/2311.09447v1 ) ライセンス: Link先を確認 | Lingbo Mo, Boshi Wang, Muhao Chen, Huan Sun | (参考訳) オープンソースのLarge Language Models(LLMs)の急速な進歩は、AI開発を著しく推進している。
しかし、その信頼性についての理解は限られている。
これらのモデルを十分な信頼性なしで大規模にデプロイすることは、重大なリスクを生じさせ、これらの問題をすぐに解明する必要性を強調します。
本研究では,信頼度に関するオープンソースllmの評価を行い,毒性,ステレオタイプ,倫理,幻覚,公平性,共犯性,プライバシ,敵対的デモに対する堅牢性など8つの側面を検証した。
我々は,信頼度攻撃のための巧妙に作り上げた悪意あるデモンストレーションを組み込むことにより,CoU(Chain of Utterances-based)の促進戦略を提案する。
我々の大規模な実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを含む。
経験的結果から,攻撃戦略の有効性は多様である。
さらに興味深いことに、我々の結果分析により、一般的なNLPタスクにおいて優れたパフォーマンスを持つモデルは、必ずしも信頼性が高いとは限らないことが判明した。
さらに、指示の追従に焦点をあてた指導訓練を行うモデルは、より受け入れやすい傾向にあるが、安全アライメントのための微調整LSMは、敵の信頼性攻撃を緩和するのに有効であることが証明されている。 The rapid progress in open-source Large Language Models (LLMs) is significantly driving AI development forward. However, there is still a limited understanding of their trustworthiness. Deploying these models at scale without sufficient trustworthiness can pose significant risks, highlighting the need to uncover these issues promptly. In this work, we conduct an assessment of open-source LLMs on trustworthiness, scrutinizing them across eight different aspects including toxicity, stereotypes, ethics, hallucination, fairness, sycophancy, privacy, and robustness against adversarial demonstrations. We propose an enhanced Chain of Utterances-based (CoU) prompting strategy by incorporating meticulously crafted malicious demonstrations for trustworthiness attack. Our extensive experiments encompass recent and representative series of open-source LLMs, including Vicuna, MPT, Falcon, Mistral, and Llama 2. The empirical outcomes underscore the efficacy of our attack strategy across diverse aspects. More interestingly, our result analysis reveals that models with superior performance in general NLP tasks do not always have greater trustworthiness; in fact, larger models can be more vulnerable to attacks. Additionally, models that have undergone instruction tuning, focusing on instruction following, tend to be more susceptible, although fine-tuning LLMs for safety alignment proves effective in mitigating adversarial trustworthiness attacks. | 翻訳日:2023-11-17 17:16:09 公開日:2023-11-15 |
# スプリットフェデレーション学習におけるプライバシ・エネルギー消費トレードオフの検討 Exploring the Privacy-Energy Consumption Tradeoff for Split Federated Learning ( http://arxiv.org/abs/2311.09441v1 ) ライセンス: Link先を確認 | Joohyung Lee, Mohamed Seif, Jungchan Cho, H. Vincent Poor | (参考訳) split federated learning (sfl) は分散学習技術として最近登場し,federated learning と split learning の両方の強みを活用している。
プライバシーの懸念に対処しながら、迅速な収束の利点を強調している。
その結果、この革新は産業と学術の両方から大きな注目を集めている。
しかし、SFLのクライアント側モデルとサーバ側モデルの両方に、カット層と呼ばれる特定の層で分割されるため、SFLにおけるカット層の選択は、クライアントのエネルギー消費とプライバシに大きく影響し、クライアント側のモデルのトレーニング負荷と出力に影響を与える可能性がある。
さらに、カット層を決定する設計上の課題は、主にクライアントのコンピューティングとネットワーク能力に固有の不均一性があるため、非常に複雑である。
本稿では,sflプロセスの概要を説明し,エネルギー消費とプライバシの徹底的な分析を行う。
この解析は,カット層選択戦略における各種システムパラメータの影響を考慮に入れる。
また,削減層選択の具体例として,クライアントが要求されるエネルギー予算内でのエネルギー消費を維持しつつ,サーバで生データを再構築するリスクを最小限に抑えることを目的とした。
最後に,6G技術への応用を含む,この分野のオープンな課題に対処する。
これらの方向は将来の研究開発に有望な道筋を示している。 Split Federated Learning (SFL) has recently emerged as a promising distributed learning technology, leveraging the strengths of both federated learning and split learning. It emphasizes the advantages of rapid convergence while addressing privacy concerns. As a result, this innovation has received significant attention from both industry and academia. However, since the model is split at a specific layer, known as a cut layer, into both client-side and server-side models for the SFL, the choice of the cut layer in SFL can have a substantial impact on the energy consumption of clients and their privacy, as it influences the training burden and the output of the client-side models. Moreover, the design challenge of determining the cut layer is highly intricate, primarily due to the inherent heterogeneity in the computing and networking capabilities of clients. In this article, we provide a comprehensive overview of the SFL process and conduct a thorough analysis of energy consumption and privacy. This analysis takes into account the influence of various system parameters on the cut layer selection strategy. Additionally, we provide an illustrative example of the cut layer selection, aiming to minimize the risk of clients from reconstructing the raw data at the server while sustaining energy consumption within the required energy budget, which involve trade-offs. Finally, we address open challenges in this field including their applications to 6G technology. These directions represent promising avenues for future research and development. | 翻訳日:2023-11-17 17:15:44 公開日:2023-11-15 |
# ラベル付きインタラクティブトピックモデル Labeled Interactive Topic Models ( http://arxiv.org/abs/2311.09438v1 ) ライセンス: Link先を確認 | Kyle Seelman, Mozhi Zhang, Jordan Boyd-Graber | (参考訳) トピックモデルは、ユーザが大きなドキュメントコレクションを理解するのに役立つが、トピックモデルは必ずしも‘正しい’トピックを見つけるとは限らない。
古典的な確率的およびアンカーベースのトピックモデルには、よりよいトピックに向けてモデルを導くための対話型があるが、そのようなインタラクションは組み込みトピックモデル(\abr{etm})のような神経的なトピックモデルでは利用できない。
我々は、ニューラルトピックモデルに直感的なインタラクションを加えることで、このラグナを補正する。ユーザーは、あるトピックを単語でラベル付けすることができ、トピックワードがラベルに近いようにトピックが更新される。
これにより、ユーザーは情報要求に応じてトピックを洗練できる。
対話性は \abr{etm} では直感的だが、このフレームワークを他のニューラルネットワークのトピックモデルにも適用できるように拡張する。
我々は,対話型インタフェースを開発し,ユーザが適切なトピックモデルと対話し,表現しやすくする。
本手法を人間実験により評価し,関連する文書を検索するためにトピックをリラベルすることができる。
ユーザラベリングは,ユーザラベリングに比較して,特定のクエリに対する関連文書の検索を支援することにより,ドキュメントランクスコアを向上させる。 Topic models help users understand large document collections; however, topic models do not always find the ``right'' topics. While classical probabilistic and anchor-based topic models have interactive variants to guide models toward better topics, such interactions are not available for neural topic models such as the embedded topic model (\abr{etm}). We correct this lacuna by adding an intuitive interaction to neural topic models: users can label a topic with a word, and topics are updated so that the topic words are close to the label. This allows a user to refine topics based on their information need. While, interactivity is intuitive for \abr{etm}, we extend this framework to work with other neural topic models as well. We develop an interactive interface which allows users to interact and relabel topic models as they see fit. We evaluate our method through a human study, where users can relabel topics to find relevant documents. Using our method, user labeling improves document rank scores, helping to find more relevant documents to a given query when compared to no user labeling. | 翻訳日:2023-11-17 17:15:21 公開日:2023-11-15 |
# Entangleware Sequencer: 原子物理学実験のための制御プラットフォーム Entangleware Sequencer: A Control Platform for Atomic Physics Experiments ( http://arxiv.org/abs/2311.09437v1 ) ライセンス: Link先を確認 | N. Kowalski, N. Fredman, J. Zirbel, and B. DeMarco | (参考訳) 実験的な量子物理学と計算プラットフォームは、決定論的でなければならない高度なコンピュータ制御とタイミングシステムに依存している。
例題はイリノイ大学のボース=アインシュタイン凝縮体(Bose-Einstein condensate)を作るために使われるシーケンスで、アナログとデジタルの遷移を100秒以上、20秒のタイミング精度とナノ秒のタイミングドリフトで行う。
本稿では,業界標準の国立楽器ハードウェアを用いて,必要なデジタル信号とアナログ信号を生成する制御・シーケンスプラットフォームを提案する。
このシステムは、グローバルポジショニング衛星コンステレーションにコンディショニングされたマスタ10mhz基準クロックを使用し、タイミング安定性のために低位相ノイズクロック分散ハードウェアを利用する。
Pythonベースのユーザフロントエンドは、実験的手順と簡単に実装可能なバージョン管理を記述する柔軟な言語を提供する。
低コスト評価ボードとして購入できる有用な周辺機器のライブラリは、機能強化を提供する。
コミュニティのためのリソースとして、周辺機器用のpythonシーケンスとライブラリのサンプルを含むgithubリポジトリを提供する。 Experimental quantum physics and computing platforms rely on sophisticated computer control and timing systems that must be deterministic. An exemplar is the sequence used to create a Bose-Einstein condensate at the University of Illinois, which involves 46,812 analog and digital transitions over 100 seconds with 20 ns timing precision and nanosecond timing drift. We present a control and sequencing platform, using industry-standard National Instruments hardware to generate the necessary digital and analog signals, that achieves this level of performance. The system uses a master 10 MHz reference clock that is conditioned to the Global Positioning Satellite constellation and leverages low-phase-noise clock distribution hardware for timing stability. A Python-based user front-end provides a flexible language to describe experimental procedures and easy-to-implement version control. A library of useful peripheral hardware that can be purchased as low-cost evaluation boards provides enhanced capabilities. We provide a GitHub repository containing example python sequences and libraries for peripheral devices as a resource for the community. | 翻訳日:2023-11-17 17:15:00 公開日:2023-11-15 |
# バックドアアクティベーションアタック:安全調整のためのアクティベーションステアリングを用いた大型言語モデルへの攻撃 Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment ( http://arxiv.org/abs/2311.09433v1 ) ライセンス: Link先を確認 | Haoran Wang, Kai Shu | (参考訳) AIの安全性を確保するため、命令調整型大規模言語モデル(LLM)は、人間の意図に応じてモデルを動作させるためのアライメントを確保するために特別に訓練されている。
これらのモデルは様々な安全基準で見事な結果を示しているが、安全性アライメントの脆弱性は広く研究されていない。
LLMがもたらす潜在的な害を考えると、これは特に厄介である。
LLMの既存の攻撃方法は、しばしば有毒な訓練データや悪意のあるプロンプトの注入に依存する。
これらのアプローチは、攻撃のステルス性と一般化性を損なうため、検出しにくい。
さらに、これらのモデルは実装にかなりの計算資源を必要とすることが多く、現実のアプリケーションでは実用的ではない。
本研究では,LLMの活性化層にトロイの木馬ステアリングベクターを注入するバックドア・アクティベーション・アタック(Backdoor Activation Attack)と呼ばれる新しいアタック・フレームワークを導入する。
これらの悪質なステアリングベクターは、アクティベーションを操作することで、攻撃者が望んだ行動に向けてモデルを操るために推論時にトリガーすることができる。
特に、良性アクティベーションと悪質なアクティベーションとを区別してステアリングベクトルを生成する。
そして、最も有効な操舵ベクトルを選択し、LSMの前方通過に追加する。
4つの主アライメントタスクに対する実験結果から,提案手法は極めて有効であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
また、このようなアクティベーション攻撃に対する潜在的な対策についても論じる。
私たちのコードとデータはhttps://email-haoran-for-linkで利用可能です。
警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。 To ensure AI safety, instruction-tuned Large Language Models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have demonstrated commendable results on various safety benchmarks, the vulnerability of their safety alignment has not been extensively studied. This is particularly troubling given the potential harm that LLMs can inflict. Existing attack methods on LLMs often rely on poisoned training data or the injection of malicious prompts. These approaches compromise the stealthiness and generalizability of the attacks, making them susceptible to detection. Additionally, these models often demand substantial computational resources for implementation, making them less practical for real-world applications. In this work, we introduce a novel attack framework, called Backdoor Activation Attack, which injects trojan steering vectors into the activation layers of LLMs. These malicious steering vectors can be triggered at inference time to steer the models toward attacker-desired behaviors by manipulating their activations. In particular, the steering vectors are generated by taking the difference between benign and malicious activations. Then, the most effective steering vector is selected and added to the forward passes of the LLMs. Our experiment results on four primary alignment tasks show that our proposed method is highly effective and adds little or no overhead to attack efficiency. Additionally, we discuss potential countermeasures against such activation attacks. Our code and data are available at https://email-haoran-for-link. Warning: this paper contains content that can be offensive or upsetting. | 翻訳日:2023-11-17 17:14:40 公開日:2023-11-15 |
# Striped Attention: 因果変換器の高速リングアテンション Striped Attention: Faster Ring Attention for Causal Transformers ( http://arxiv.org/abs/2311.09431v1 ) ライセンス: Link先を確認 | William Brandon, Aniruddha Nrusimha, Kevin Qian, Zachary Ankner, Tian Jin, Zhiye Song, Jonathan Ragan-Kelley | (参考訳) トランスモデルの長いシーケンス長の増大に対応するため、Liuらは最近、複数のデバイスに自己注意を分散させることで、デバイス毎のメモリボトルネックを克服できる正確な注意アルゴリズムであるRing Attentionを提案した。
本稿では,因果的トランスフォーマーモデルの重要な特別な場合におけるリングアテンションの性能特性について検討し,因果的アテンション計算の三角形構造に起因する作業負荷のアンスを同定する。
我々は, この不均衡を解消するために, 簡単なリングアテンション拡張を提案する。
連続したサブシーケンスを持つデバイスの代わりに、各デバイスはシーケンス全体を通して均一に分散されたトークンのサブセットを持ち、それがより多くのワークロードをもたらすことを示す。
A100 GPUとTPUv4上でStriped Attentionを実行する実験では、256kのシーケンス長での因果トランスフォーマートレーニングにおいて、元のRing Attentionアルゴリズムよりも最大1.45倍のスループット向上を実現した。
さらに、16 tpuv4 チップでは,シーケンス長 786k で 1.65 倍の高速化を達成できた。
私たちは実験用のコードをオープンソースとしてリリースします To help address the growing demand for ever-longer sequence lengths in transformer models, Liu et al. recently proposed Ring Attention, an exact attention algorithm capable of overcoming per-device memory bottle- necks by distributing self-attention across multiple devices. In this paper, we study the performance characteristics of Ring Attention in the important special case of causal transformer models, and identify a key workload imbal- ance due to triangular structure of causal attention computations. We propose a simple extension to Ring Attention, which we call Striped Attention to fix this imbalance. Instead of devices having contiguous subsequences, each device has a subset of tokens distributed uniformly throughout the sequence, which we demonstrate leads to more even workloads. In experiments running Striped Attention on A100 GPUs and TPUv4s, we are able to achieve up to 1.45x end-to-end throughput improvements over the original Ring Attention algorithm on causal transformer training at a sequence length of 256k. Furthermore, on 16 TPUv4 chips, we were able to achieve 1.65x speedups at sequence lengths of 786k. We release the code for our experiments as open source | 翻訳日:2023-11-17 17:14:12 公開日:2023-11-15 |
# beyond detection: 不正言語モデルにおける公平性の脆弱性 Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language Models ( http://arxiv.org/abs/2311.09428v1 ) ライセンス: Link先を確認 | Yueqing Liang, Lu Cheng, Ali Payani and Kai Shu | (参考訳) 本研究では,不正言語検出における公平性と検出性能の両方を損なう可能性について検討する。
動的で複雑なデジタル世界では、これらの検出モデルの脆弱性を敵の公正攻撃に対して調査し、公平性を改善することが不可欠である。
本研究では,バックドア攻撃によるフェアネスと検出性能の目標制御が可能な,シンプルで効果的なフレームワークFABLEを提案する。
FABLEは3種類のトリガー設計(レア、人工、天然のトリガー)と新しいサンプリング戦略を探求している。
具体的には、敵は好ましくない結果(すなわち'non-abusive'')を持つマイノリティグループのサンプルにトリガーを注入し、そのラベルを好ましくない結果(すなわち'abusive')にひっくり返すことができる。
ベンチマークデータセットの実験は、乱用言語検出におけるFABLE攻撃の公平性と有用性を示す。 This work investigates the potential of undermining both fairness and detection performance in abusive language detection. In a dynamic and complex digital world, it is crucial to investigate the vulnerabilities of these detection models to adversarial fairness attacks to improve their fairness robustness. We propose a simple yet effective framework FABLE that leverages backdoor attacks as they allow targeted control over the fairness and detection performance. FABLE explores three types of trigger designs (i.e., rare, artificial, and natural triggers) and novel sampling strategies. Specifically, the adversary can inject triggers into samples in the minority group with the favored outcome (i.e., ``non-abusive'') and flip their labels to the unfavored outcome, i.e., ``abusive''. Experiments on benchmark datasets demonstrate the effectiveness of FABLE attacking fairness and utility in abusive language detection. | 翻訳日:2023-11-17 17:13:52 公開日:2023-11-15 |
# 複合自動車システムにおける機能要件とテストのモデルベース分析と仕様 Model-based Analysis and Specification of Functional Requirements and Tests for Complex Automotive Systems ( http://arxiv.org/abs/2209.01473v3 ) ライセンス: Link先を確認 | Carsten Wiecher, Constantin Mandel, Matthias G\"unther, Jannik Fischbach, Joel Greenyer, Matthias Greinert, Carsten Wolff, Roman Dumitrescu, Daniel Mendez, and Albert Albers | (参考訳) 要件とテストの仕様は、自動車開発プロジェクトで重要な活動である。
しかし、自動車システムの複雑さが増すため、従来の開発プロセスに従うと、複雑な相互作用を持つ分散および進化するシステムの要件やテストが特定できない。
この研究ギャップに対処するために,ステークホルダの観点からの検証対象の早期識別から始まり,シナリオベースのシステム要件のモデリングと分析を駆動するテストの体系的設計を行う手法を提案する。
自動車開発プロジェクトに必要な形で、完全で一貫した要件とテスト仕様を保証するため、モデルベースシステム工学(MBSE)手法を開発した。
本手法は,システムアーキテクトとテストデザイナの協力的利用と,必要な仕様を自動的に導出する中央システムモデルの維持を支援する。
kostal (tier1 supplier) や,mastersプログラム組み込みシステムエンジニアリングの一部として学生プロジェクトに適用することにより,方法論を評価する。
本研究は,本手法が適用可能であること,製品および検証システムの統合及び利害関係者中心のモデリングを支援することにより,既存の要件およびテスト仕様プロセスの改善を図っている。 The specification of requirements and tests are crucial activities in automotive development projects. However, due to the increasing complexity of automotive systems, practitioners fail to specify requirements and tests for distributed and evolving systems with complex interactions when following traditional development processes. To address this research gap, we propose a technique that starts with the early identification of validation concerns from a stakeholder perspective, which we use to systematically design tests that drive a scenario-based modeling and analysis of system requirements. To ensure complete and consistent requirements and test specifications in a form that is required in automotive development projects, we develop a Model-Based Systems Engineering (MBSE) methodology. This methodology supports system architects and test designers in the collaborative application of our technique and in maintaining a central system model, in order to automatically derive the required specifications. We evaluate our methodology by applying it at KOSTAL (Tier1 supplier) and within student projects as part of the masters program Embedded Systems Engineering. Our study corroborates that our methodology is applicable and improves existing requirements and test specification processes by supporting the integrated and stakeholder-focused modeling of product and validation systems, where the early definition of stakeholder and validation concerns fosters a problem-oriented, iterative and test-driven requirements modeling. | 翻訳日:2023-11-17 11:30:33 公開日:2023-11-15 |
# ActiveDC:Active Finetuningのための配電校正 ActiveDC: Distribution Calibration for Active Finetuning ( http://arxiv.org/abs/2311.07634v2 ) ライセンス: Link先を確認 | Wenshuai Xu, Zhenhui Hu, Yu Lu, Jinzhou Meng, Qingjie Liu, Yunhong Wang | (参考訳) プレトレーニング・ファインタニングのパラダイムは様々なコンピュータビジョンタスクで人気を集めている。
このパラダイムでは、大規模なデータとコストのかかるアノテーションの要求により、アクティブな微調整が出現する。
アクティブな微調整は、アノテーションのためにラベルのないプールからデータのサブセットを選択し、その後の微調整を容易にする。
しかし、限られた数のトレーニングサンプルを使用することでバイアスのある分布が生じ、モデルオーバーフィットにつながる可能性がある。
本稿では,アクティブなファインタニングタスクのためのActiveDCと呼ばれる新しい手法を提案する。
まず、選択すべき部分集合と連続空間における未ラベルプール全体の分布類似性を最適化することにより、アノテーションのためのサンプルを選択する。
次に,ラベルなしプール内の暗黙のカテゴリ情報を利用して,選択したサンプルの分布を校正する。
特徴の可視化は,分散キャリブレーションに対する我々のアプローチの有効性を直感的に把握する。
サンプル比の異なる3つの画像分類データセットについて広範な実験を行った。
その結果,ActiveDCは画像分類タスクのベースライン性能を一貫して上回ることがわかった。
サンプリング比が低く、パフォーマンスが最大10%向上した場合には、特に改善が重要である。
私たちのコードはリリースされます。 The pretraining-finetuning paradigm has gained popularity in various computer vision tasks. In this paradigm, the emergence of active finetuning arises due to the abundance of large-scale data and costly annotation requirements. Active finetuning involves selecting a subset of data from an unlabeled pool for annotation, facilitating subsequent finetuning. However, the use of a limited number of training samples can lead to a biased distribution, potentially resulting in model overfitting. In this paper, we propose a new method called ActiveDC for the active finetuning tasks. Firstly, we select samples for annotation by optimizing the distribution similarity between the subset to be selected and the entire unlabeled pool in continuous space. Secondly, we calibrate the distribution of the selected samples by exploiting implicit category information in the unlabeled pool. The feature visualization provides an intuitive sense of the effectiveness of our approach to distribution calibration. We conducted extensive experiments on three image classification datasets with different sampling ratios. The results indicate that ActiveDC consistently outperforms the baseline performance in all image classification tasks. The improvement is particularly significant when the sampling ratio is low, with performance gains of up to 10%. Our code will be released. | 翻訳日:2023-11-17 11:20:46 公開日:2023-11-15 |
# 推論のように事前トレーニングする: マスクチューニングによりゼロショット合成画像検索が改善 Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2311.07622v2 ) ライセンス: Link先を確認 | Junyang Chen, Hanjiang Lai | (参考訳) ゼロショット合成画像検索(zs-cir)は,トリプレットラベリングを必要とせず,参照画像のテキスト修正に基づく対象画像の検索を目的としたものである。
現在のZS-CIRの研究は主に、視覚言語モデル(例えばCLIP)とPic2Word/textual inversionモデル(英語版)である。
しかし、事前学習されたモデルとcirタスクは、視覚と言語の間の類似性を学ぶが、cirはテキストで導かれた画像の修正を学ぶことを目的としている。
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
そこで入力画像パッチをランダムにマスクして,画像-テキストペアから$\langle$masked image, text, image$\rangle$ tripleを生成する。
そこで本研究では,テキストとマスキング画像を用いて原画像の修正を学習するマスキングチューニングを提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
FashionIQ, CIRR, CIRCOを含む3つのZS-CIRデータセットのベースラインモデルに対するアプローチの大幅な優位性を示した。 Zero-shot composed image retrieval (ZS-CIR), which aims to retrieve a target image based on textual modifications to a reference image without triplet labeling, has gained more and more attention. Current ZS-CIR research mainly relies on two unlabeled pre-trained models: the vision-language model, e.g., CLIP, and the Pic2Word/textual inversion model. However, the pre-trained models and CIR tasks have substantial discrepancies, where the pre-trained models learn the similarities between vision and language but CIR aims to learn the modifications of the image guided by text. In this paper, we introduce a novel unlabeled and pre-trained masked tuning approach to reduce the gap between the pre-trained model and the downstream CIR task. We first reformulate the pre-trained vision-language contrastive learning as the CIR task, where we randomly mask input image patches to generate $\langle$masked image, text, image$\rangle$ triple from an image-text pair. Then, we propose a masked tuning, which uses the text and the masked image to learn the modifications of the original image. With such a simple design, it can learn to capture fine-grained text-guided modifications. Extensive experimental results demonstrate the significant superiority of our approach over the baseline models on three ZS-CIR datasets, including FashionIQ, CIRR, and CIRCO. | 翻訳日:2023-11-17 11:20:30 公開日:2023-11-15 |
# InCA:大規模言語モデルを活用した車内会話システム評価の再考 InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models ( http://arxiv.org/abs/2311.07469v2 ) ライセンス: Link先を確認 | Ken E. Friedl, Abbas Goher Khan, Soumya Ranjan Sahoo, Md Rashad Al Hasan Rony, Jana Germies, Christian S\"u{\ss} | (参考訳) 先進的な生成型大規模言語モデル (LLM) の評価は、最近の発展における複雑さの増大を考えると、大きな課題となっている。
さらに、キーパフォーマンス指標(KPI)が示すように、様々な産業におけるLCMベースのアプリケーションの性能評価は複雑な作業である。
このタスクは、産業のユースケースと予想されるシステムの振る舞いを深く理解する必要がある。
自動車産業の文脈において、既存の評価指標は車内会話質問応答(ConvQA)システムを評価するのに不十分である。
これらのシステムのユニークな要求は、答えがドライバーや車の安全性に関係し、車のドメイン内に限られている場合、現在のメトリクスの制限を強調します。
これらの課題に対処するために、車載のConvQAシステムの性能を評価するための一連のKPIと、これらのKPI用に特別に設計されたデータセットを紹介する。
予備的かつ包括的評価は,提案手法の有効性を裏付けるものである。
さらに, 異なる背景を持つ個人がトピックをどう知覚するかを反映して, 評価における多様な視点をシミュレートするモデルの能力を高めることが示唆された。 The assessment of advanced generative large language models (LLMs) poses a significant challenge, given their heightened complexity in recent developments. Furthermore, evaluating the performance of LLM-based applications in various industries, as indicated by Key Performance Indicators (KPIs), is a complex undertaking. This task necessitates a profound understanding of industry use cases and the anticipated system behavior. Within the context of the automotive industry, existing evaluation metrics prove inadequate for assessing in-car conversational question answering (ConvQA) systems. The unique demands of these systems, where answers may relate to driver or car safety and are confined within the car domain, highlight the limitations of current metrics. To address these challenges, this paper introduces a set of KPIs tailored for evaluating the performance of in-car ConvQA systems, along with datasets specifically designed for these KPIs. A preliminary and comprehensive empirical evaluation substantiates the efficacy of our proposed approach. Furthermore, we investigate the impact of employing varied personas in prompts and found that it enhances the model's capacity to simulate diverse viewpoints in assessments, mirroring how individuals with different backgrounds perceive a topic. | 翻訳日:2023-11-17 11:20:03 公開日:2023-11-15 |
# 双方向マッチングのための深層学習 Deep Learning for Two-Sided Matching ( http://arxiv.org/abs/2107.03427v2 ) ライセンス: Link先を確認 | Sai Srivatsa Ravindranath, Zhe Feng, Shira Li, Jonathan Ma, Scott D. Kominers, David C. Parkes | (参考訳) 我々は,双方向マッチング機構の自動設計のためのディープラーニングの研究を開始する。
最も興味深いのは、機械学習を使用して、戦略の安全性と安定性の新たなトレードオフの可能性を理解することです。
これらの性質は同時には達成できないが、効率的なフロンティアは理解されていない。
本稿では,順序戦略の保証性と安定性を定量化するための新しい微分可能サロゲートを導入し,離散的選好を有効なランダムマッチングにマッピングする微分可能マッチング機構を訓練する。
これらの学習機構によって特徴づけられる効率的なフロンティアは、遅延受容(市場の片側のみ安定かつ戦略的に安定)、トップトレーディングサイクル(片側は安定だが、安定ではない)、ランダム化されたシリアル独裁(両側は安定しないが、安定ではない)の基準線の組み合わせにより実現可能であることを実証する。
これにより、経済理論の新たなターゲットとなり、市場設計にマッチする機械学習パイプラインの新たな可能性を開く。 We initiate the study of deep learning for the automated design of two-sided matching mechanisms. What is of most interest is to use machine learning to understand the possibility of new tradeoffs between strategy-proofness and stability. These properties cannot be achieved simultaneously, but the efficient frontier is not understood. We introduce novel differentiable surrogates for quantifying ordinal strategy-proofness and stability and use them to train differentiable matching mechanisms that map discrete preferences to valid randomized matchings. We demonstrate that the efficient frontier characterized by these learned mechanisms is substantially better than that achievable through a convex combination of baselines of deferred acceptance (stable and strategy-proof for only one side of the market), top trading cycles (strategy-proof for one side, but not stable), and randomized serial dictatorship (strategy-proof for both sides, but not stable). This gives a new target for economic theory and opens up new possibilities for machine learning pipelines in matching market design. | 翻訳日:2023-11-16 21:47:52 公開日:2023-11-15 |
# 高周波フォノントラップ音響共振器による重力波検出 Gravitational Wave Detection with High Frequency Phonon Trapping Acoustic Cavities ( http://arxiv.org/abs/1410.2334v3 ) ライセンス: Link先を確認 | Maxim Goryachev and Michael E. Tobar | (参考訳) 天体物理学や宇宙論の天体の理論的予測は、高周波(10^6-10^9$~Hz)重力波(GW)を発生させるか、確率的な高周波GW背景に何らかの貢献をする。
本稿では, 従来の極低温超高品質クォーツバルク音波キャビティ技術と, ほぼ量子制限SQUID増幅器を20〜mKで結合した新しい感度検出器を提案する。
スペクトルひずみの感度が$10-22}$ per $\sqrt{\text{hz}}$ per mode に達することは可能であり、原理的には周波数範囲を複数の (>100$) モードでカバーでき、音質は$10^6-10^{10}$で帯域幅の広い検出が可能である。
そのコンパクトさと製造プロセスの確立により、システムは配列や分散ネットワークに容易に拡張でき、全体の感度にも影響を与え、誤検出を確実にするための偶然解析を導入できる。 There are a number of theoretical predictions for astrophysical and cosmological objects, which emit high frequency ($10^6-10^9$~Hz) Gravitation Waves (GW) or contribute somehow to the stochastic high frequency GW background. Here we propose a new sensitive detector in this frequency band, which is based on existing cryogenic ultra-high quality factor quartz Bulk Acoustic Wave cavity technology, coupled to near-quantum-limited SQUID amplifiers at $20$~mK. We show that spectral strain sensitivities reaching $10^{-22}$ per $\sqrt{\text{Hz}}$ per mode is possible, which in principle can cover the frequency range with multiple ($>100$) modes with quality factors varying between $10^6-10^{10}$ allowing wide bandwidth detection. Due to its compactness and well established manufacturing process, the system is easily scalable into arrays and distributed networks that can also impact the overall sensitivity and introduce coincidence analysis to ensure no false detections. | 翻訳日:2023-11-16 21:47:33 公開日:2023-11-15 |
# パラメータ化量子回路のダイアグラム解析 Diagrammatic Analysis for Parameterized Quantum Circuits ( http://arxiv.org/abs/2204.01307v2 ) ライセンス: Link先を確認 | Tobias Stollenwerk (J\"ulich Research Center), Stuart Hadfield (NASA Ames Research Center) | (参考訳) 量子アルゴリズムと回路の図式表現は、その設計と解析に新しいアプローチを提供する。
本稿では、特にパラメータ化量子回路に適したZX計算の拡張について述べる。特に、組合せ最適化から量子化学まで、様々な応用において重要なアルゴリズム量である、固定パラメータの関数として観測可能な期待値を計算する。
いくつかの新しいZXダイアグラムの書き直し規則とこの設定の一般化を提供する。
特に、zx-ダイアグラムの線形結合を扱うための形式的な規則を与え、各ダイアグラムの相対的複素値スケール係数は、これらの係数を効果的に無視できる最も前に研究された1-ダイアグラム実現と対照的に、追跡しなければならない。
これにより、演算子解析から因果錐や量子ゲート交換規則を含むZX-計算設定への多くの有用な関係を直接インポートできる。
本手法は,ハードウェア効率のよいアンサーゼやQAOAの実現など,いくつかの文献からのアンサーゼを考慮し,アルゴリズムの構造と性能に関する有用な洞察を提供する。
図式表現を用いることで、異なる ansatze にまたがる計算がより直感的になり、他の手法よりも体系的にアプローチしやすくなります。
最後に、ダイアグラム的アプローチが新しい、より効率的な量子回路ansatzeの設計と研究にどのように役立つかを概説する。 Diagrammatic representations of quantum algorithms and circuits offer novel approaches to their design and analysis. In this work, we describe extensions of the ZX-calculus especially suitable for parameterized quantum circuits, in particular for computing observable expectation values as functions of or for fixed parameters, which are important algorithmic quantities in a variety of applications ranging from combinatorial optimization to quantum chemistry. We provide several new ZX-diagram rewrite rules and generalizations for this setting. In particular, we give formal rules for dealing with linear combinations of ZX-diagrams, where the relative complex-valued scale factors of each diagram must be kept track of, in contrast to most previously studied single-diagram realizations where these coefficients can be effectively ignored. This allows us to directly import a number useful relations from the operator analysis to ZX-calculus setting, including causal cone and quantum gate commutation rules. We demonstrate that the diagrammatic approach offers useful insights into algorithm structure and performance by considering several ansatze from the literature including realizations of hardware-efficient ansatze and QAOA. We find that by employing a diagrammatic representation, calculations across different ansatze can become more intuitive and potentially easier to approach systematically than by alternative means. Finally, we outline how diagrammatic approaches may aid in the design and study of new and more effective quantum circuit ansatze. | 翻訳日:2023-11-16 21:43:47 公開日:2023-11-15 |
# CPマップの特殊対称ダガー・フロベニウス代数の有限次元量子可観測 Finite-dimensional Quantum Observables are the Special Symmetric Dagger-Frobenius Algebras of CP Maps ( http://arxiv.org/abs/2110.07074v3 ) ライセンス: Link先を確認 | Stefano Gogioso (University of Oxford) | (参考訳) 我々は、CPM(fHilb) のすべての特別な対称ダガー・フロベニウス代数が正準環であること、すなわち、fHilb の特別な対称ダガー・フロベニウス代数の二重化によって生じることを示すために、量子情報の基礎から借用された純度を用いる。
特に、これはすべての古典的構造に当てはまる。 We use purity, a principle borrowed from the foundations of quantum information, to show that all special symmetric dagger-Frobenius algebras in CPM(fHilb) are canonical, i.e. that they arise by doubling of special symmetric dagger-Frobenius algebras in fHilb. In particular, this applies to all classical structures. | 翻訳日:2023-11-16 21:42:56 公開日:2023-11-15 |
# DASVDD: 異常検出のためのDeep Autoencoding Support Vector Data Descriptor DASVDD: Deep Autoencoding Support Vector Data Descriptor for Anomaly Detection ( http://arxiv.org/abs/2106.05410v3 ) ライセンス: Link先を確認 | Hadi Hojjati, Narges Armanfard | (参考訳) 半教師付き異常検出は、通常のデータに基づいて訓練されたモデルを用いて、通常のサンプルから異常を検出することを目的としている。
近年のディープラーニングの進歩により、研究者は効率的な深部異常検出法を考案した。
既存の研究では、ニューラルネットワークを使ってデータをより情報的な表現にマッピングし、異常検出アルゴリズムを適用している。
本稿では,自動エンコーダのパラメータを協調的に学習し,その潜在表現上で囲む超球の体積を最小化する手法であるdasvddを提案する。
本稿では,オートエンコーダの再構成誤差と,潜在表現における囲む超球の中心からの距離を組み合わせた異常スコアを提案する。
この異常スコアの最小化は、トレーニング中の正規クラスの基本的な分布を学ぶのに役立つ。
DASVDDモデルは、全ての入力を潜在表現の定数点にマッピングする自明な解に収束しないので、DASVDDが共通の超球崩壊問題に悩まされないことを保証する。
いくつかのベンチマークデータセットにおける実験的評価により、提案手法は、異なる異常クラスにわたる堅牢なパフォーマンスを維持しつつ、一般的に使用される最先端異常検出アルゴリズムよりも優れていることが示された。 Semi-supervised anomaly detection aims to detect anomalies from normal samples using a model that is trained on normal data. With recent advancements in deep learning, researchers have designed efficient deep anomaly detection methods. Existing works commonly use neural networks to map the data into a more informative representation and then apply an anomaly detection algorithm. In this paper, we propose a method, DASVDD, that jointly learns the parameters of an autoencoder while minimizing the volume of an enclosing hyper-sphere on its latent representation. We propose an anomaly score which is a combination of autoencoder's reconstruction error and the distance from the center of the enclosing hypersphere in the latent representation. Minimizing this anomaly score aids us in learning the underlying distribution of the normal class during training. Including the reconstruction error in the anomaly score ensures that DASVDD does not suffer from the common hypersphere collapse issue since the DASVDD model does not converge to the trivial solution of mapping all inputs to a constant point in the latent representation. Experimental evaluations on several benchmark datasets show that the proposed method outperforms the commonly used state-of-the-art anomaly detection algorithms while maintaining robust performance across different anomaly classes. | 翻訳日:2023-11-16 21:42:45 公開日:2023-11-15 |
# CNTLS: 抽象的あるいは抽出的な中国語タイムライン要約のためのベンチマークデータセット CNTLS: A Benchmark Dataset for Abstractive or Extractive Chinese Timeline Summarization ( http://arxiv.org/abs/2105.14201v2 ) ライセンス: Link先を確認 | Qianren Mao, Jiazheng Wang, Zheng Wang, Xi Li, Bo Li, Jianxin Li | (参考訳) タイムライン要約(TLS)は、多くのニュース記事の日付付き要約を用いて、長く続く出来事の要約を作成する。
しかし、データ可用性の制限は、タイムラインの要約の開発を著しく遅らせた。
本稿では,中国語の時系列要約のための汎用リソースであるCNTLSデータセットを紹介する。
CNTLSは77のリアルタイムトピックを含み、それぞれが2524のドキュメントを持ち、平均的な全トピックに対して60倍近い圧縮を要約している。
我々は,よく知られたメトリクスを用いてコーパスを分析し,要約のスタイルと要約タスクの複雑さに着目した。
具体的には,CNTLSコーパスにおける様々な抽出および生成的要約システムの性能を評価し,ベンチマークとさらなる研究を支援する。
我々の知る限りでは、CNTLSは中国の最初の時系列要約データセットである。
データセットとソースコードがリリースされた。 \emph{\url{https://github.com/OpenSUM/CNTLS}}。
}. Timeline summarization (TLS) involves creating summaries of long-running events using dated summaries from numerous news articles. However, limited data availability has significantly slowed down the development of timeline summarization. In this paper, we introduce the CNTLS dataset, a versatile resource for Chinese timeline summarization. CNTLS encompasses 77 real-life topics, each with 2524 documents and summarizes nearly 60\% days duration compression on average all topics. We meticulously analyze the corpus using well-known metrics, focusing on the style of the summaries and the complexity of the summarization task. Specifically, we evaluate the performance of various extractive and generative summarization systems on the CNTLS corpus to provide benchmarks and support further research. To the best of our knowledge, CNTLS is the first Chinese timeline summarization dataset. The dataset and source code are released\footnote{Code and data available at: \emph{\url{https://github.com/OpenSUM/CNTLS}}.}. | 翻訳日:2023-11-16 21:42:24 公開日:2023-11-15 |
# schur-weyl双対測定結果の確率的挙動 Stochastic behavior of outcome of Schur-Weyl duality measurement ( http://arxiv.org/abs/2104.12635v2 ) ライセンス: Link先を確認 | Masahito Hayashi, Akihito Hora, Shintarou Yanagida | (参考訳) 我々は、n$ qubits 上の schur-weyl 双対性に基づく分解によって定義される測定に焦点を当てる。
第1の設定として、状態が置換混合である$\rho_{mix,n,l}$が$|1^{l} \, 0^{n-l} \rangle := |1 \rangle^{\otimes l} \otimes |0\rangle^{\otimes (n-l)}$であるときの測定結果の漸近的挙動について論じる。
対照的に、状態がディッケ状態 $|\xi_{n,l}\rangle$ として与えられるとき、測定結果は1つの決定論的値を取る。
この2つのケースは全く異なる行動をとる。
第2の設定として、置換混合物 $\rho_{mix,k,l}$ とディッケ状態 $| \xi_{n-k,m-l} \rangle$ のテンソル積として状態が与えられる場合を研究する。
我々は、n$が無限大に進むとき、中心極限定理の一種を含む様々な種類の漸近分布を導出する。 We focus on the measurement defined by the decomposition based on Schur-Weyl duality on $n$ qubits. As the first setting, we discuss the asymptotic behavior of the measurement outcome when the state is given as the permutation mixture $\rho_{mix,n,l}$ of the state $| 1^{l} \, 0^{n-l} \rangle := | 1 \rangle^{\otimes l} \otimes |0\rangle^{\otimes (n-l)}$. In contrast, when the state is given as the Dicke state $|\Xi_{n,l}\rangle$, the measurement outcome takes one deterministic value. These two cases have completely different behaviors. As the second setting, we study the case when the state is given as the tensor product of the permutation mixture $\rho_{mix,k,l}$ and the Dicke state $| \Xi_{n-k,m-l} \rangle$. We derive various types of asymptotic distribution including a kind of central limit theorem when $n$ goes to infinity. | 翻訳日:2023-11-16 21:42:09 公開日:2023-11-15 |
# 量子状態近傍のmgスケール振り子に対する条件付きメカニカルスクイージングの検証 Verification of conditional mechanical squeezing for a mg-scale pendulum near quantum regimes ( http://arxiv.org/abs/2008.10848v5 ) ライセンス: Link先を確認 | Jordy G. Santiago-Condori, Naoki Yamamoto, and Nobuyuki Matsumoto | (参考訳) 量子力学では、測定は量子状態の準備に使うことができる。
この原理は、古典量子遷移を見ることができるような巨視的な物体でも適用できる。
ここでは,連続線形位置測定と量子状態予測により,量子系近傍におけるmgスケール懸濁鏡(すなわち振子の中心質量モード)の条件付き機械スクイーズを実演する。
この実験では、光子コヒーレント場と相互作用する振子をデチューンした光学キャビティに配置し、光バネを生成する。
さらに, 共振キャビティにより, 反射光の直接光検出による直線位置測定が可能となった。
因果フィルタと反コーサルフィルタに基づく予測と再帰を組み合わせた理論を用いて条件付きスクイーズを実験的に検証した。
その結果、位置と運動量の標準偏差はそれぞれ、位置の0点振幅$q_{\rm zpf}$の36倍と運動量の0点振幅$p_{\rm zpf}$の89倍で与えられる。
機械振動子の質量は以前の研究に比べて約7桁大きいにもかかわらず、スクイージングレベルはゼロ点運動の約5倍である。
したがって、重力相互作用を測定するのに十分な質量スケールの質量を持つ物体の量子制御への第一歩となる。
このような量子制御は、質量中心モードを用いた量子力学のテストの道を開く。 In quantum mechanics, measurement can be used to prepare a quantum state. This principle is applicable even for macroscopic objects, which may enable us to see classical-quantum transition. Here, we demonstrate conditional mechanical squeezing of a mg-scale suspended mirror (i.e. the center-of-mass mode of a pendulum) near quantum regimes, through continuous linear position measurement and quantum state prediction. The experiment involved the pendulum interacting with photon coherent fields in a detuned optical cavity, which creates an optical spring. Futhermore, the detuned cavity allows us to perform linear position measurement by direct photo-detection of the reflected light. We experimentally verify the conditional squeezing using the theory combining prediction and retrodiction based on the causal and anti-causal filters. As a result, the standard deviation of position and momentum are respectively given by 36 times the zero-point amplitude of position $q_{\rm zpf}$ and 89 times the zero-point amplitude of momentum $p_{\rm zpf}$. The squeezing level achieved is about 5 times closer to the zero-point motion, despite that the mass of the mechanical oscillator is approximately 7 orders of magnitude greater, compared to the previous study. Thus, our demonstration is the first step towards quantum control for massive objects whose mass-scale is high enough to measure gravitational interactions. Such quantum control will pave the way to test quantum mechanics using the center-of-mass mode of massive objects. | 翻訳日:2023-11-16 21:41:32 公開日:2023-11-15 |
# NISQデバイス用相多項式のアーキテクチャによる合成 Architecture-Aware Synthesis of Phase Polynomials for NISQ Devices ( http://arxiv.org/abs/2004.06052v2 ) ライセンス: Link先を確認 | Arianne Meijer-van de Griend (Cambridge Quantum Computing Ltd), Ross Duncan (Cambridge Quantum Computing Ltd, University of Strathclyde) | (参考訳) 本稿では,量子コンピュータの量子ビット接続性を考慮した位相多項式の量子回路合成アルゴリズムを提案する。
現在利用可能なNISQデバイスのアーキテクチャに焦点を当てる。
我々のアルゴリズムは、staqやtketで使われているアルゴリズムよりもcnotの深さが小さい回路を生成し、ランタイムを前者に対して改善する。 We propose a new algorithm to synthesise quantum circuits for phase polynomials, which takes into account the qubit connectivity of the quantum computer. We focus on the architectures of currently available NISQ devices. Our algorithm generates circuits with a smaller CNOT depth than the algorithms currently used in Staq and tket, while improving the runtime with respect the former. | 翻訳日:2023-11-16 21:41:06 公開日:2023-11-15 |
# エンスモールデンによるフレキシブル数値最適化 Flexible numerical optimization with ensmallen ( http://arxiv.org/abs/2003.04103v4 ) ライセンス: Link先を確認 | Ryan R. Curtin, Marcus Edel, Rahul Ganesh Prabhu, Suryoday Basak, Zhihao Lou, Conrad Sanderson | (参考訳) 本報告では,数値最適化ライブラリの小型化について紹介するとともに,その動作に関する技術的な詳細を詳しく解説する。
このライブラリは、任意のユーザー供給関数の数学的最適化のための高速で柔軟なc++フレームワークを提供する。
多数のプレビルドオプティマイザが提供されており、Stochastic Gradient DescentとQuasi-Newtonオプティマイザの多くのバリエーションが含まれている。
微分可能、分離可能、制約付き、カテゴリー的目的関数など、いくつかの目的関数がサポートされている。
新しいオプティマイザの実装は1つのメソッドしか必要とせず、新しいobjective関数は1つまたは2つのc++メソッドしか必要としない。
C++テンプレートのメタプログラミングを内部で使用することにより、Ensmallenは任意のユーザから供給されるコールバックと、実行時のオーバーヘッドのないアンサプライドメソッドの自動推論をサポートする。
経験的な比較は、en Smallenが他の最適化フレームワーク(JuliaやSciPyなど)を上回っていることを示している。
このライブラリはhttps://ensmallen.orgで利用可能であり、パーミッシブBSDライセンスの下で配布されている。 This report provides an introduction to the ensmallen numerical optimization library, as well as a deep dive into the technical details of how it works. The library provides a fast and flexible C++ framework for mathematical optimization of arbitrary user-supplied functions. A large set of pre-built optimizers is provided, including many variants of Stochastic Gradient Descent and Quasi-Newton optimizers. Several types of objective functions are supported, including differentiable, separable, constrained, and categorical objective functions. Implementation of a new optimizer requires only one method, while a new objective function requires typically only one or two C++ methods. Through internal use of C++ template metaprogramming, ensmallen provides support for arbitrary user-supplied callbacks and automatic inference of unsupplied methods without any runtime overhead. Empirical comparisons show that ensmallen outperforms other optimization frameworks (such as Julia and SciPy), sometimes by large margins. The library is available at https://ensmallen.org and is distributed under the permissive BSD license. | 翻訳日:2023-11-16 21:40:59 公開日:2023-11-15 |
# 変分量子線形解法 Variational Quantum Linear Solver ( http://arxiv.org/abs/1909.05820v3 ) ライセンス: Link先を確認 | Carlos Bravo-Prieto, Ryan LaRose, M. Cerezo, Yigit Subasi, Lukasz Cincio, Patrick J. Coles | (参考訳) 従来、方程式の線形系を解くための量子アルゴリズムは、回路深度が要求されるため、短期的には実装できない。
本稿では,短期量子コンピュータ上で線形系を解くために,変分量子線形解法(VQLS)と呼ばれるハイブリッド量子古典アルゴリズムを提案する。
VQLSは、$A|x\rangle\propto|b\rangle$を変動的に準備する。
我々は、望ましい解精度$\epsilon$が達成されることを保証するvqlの操作上有意義な終了条件を導出する。
具体的には、$C \geq \epsilon^2 / \kappa^2$で、$C$はVQLSコスト関数であり、$\kappa$は$A$の条件番号であることを示す。
我々は、その推定の古典的硬さの証拠を提供しながら、C$を推定するために効率的な量子回路を提案する。
Rigettiの量子コンピュータを使用して、問題サイズが1024\times1024$までのVQLSをうまく実装しました。
最後に,2^{50}\times2^{50}$までの大きさの非自明な問題を数値的に解く。
具体的な例については、vqlの時間複雑性が$\epsilon$、$\kappa$、システムサイズ$n$で効率的にスケールできることをヒューリスティックに確認します。 Previously proposed quantum algorithms for solving linear systems of equations cannot be implemented in the near term due to the required circuit depth. Here, we propose a hybrid quantum-classical algorithm, called Variational Quantum Linear Solver (VQLS), for solving linear systems on near-term quantum computers. VQLS seeks to variationally prepare $|x\rangle$ such that $A|x\rangle\propto|b\rangle$. We derive an operationally meaningful termination condition for VQLS that allows one to guarantee that a desired solution precision $\epsilon$ is achieved. Specifically, we prove that $C \geq \epsilon^2 / \kappa^2$, where $C$ is the VQLS cost function and $\kappa$ is the condition number of $A$. We present efficient quantum circuits to estimate $C$, while providing evidence for the classical hardness of its estimation. Using Rigetti's quantum computer, we successfully implement VQLS up to a problem size of $1024\times1024$. Finally, we numerically solve non-trivial problems of size up to $2^{50}\times2^{50}$. For the specific examples that we consider, we heuristically find that the time complexity of VQLS scales efficiently in $\epsilon$, $\kappa$, and the system size $N$. | 翻訳日:2023-11-16 21:40:40 公開日:2023-11-15 |
# 弱結合非エルミート貯留層におけるゼロモードの線形局在 Linear localization of zero modes in weakly coupled non-Hermitian reservoirs ( http://arxiv.org/abs/1804.00579v2 ) ライセンス: Link先を確認 | Bingkun Qi and Li Ge | (参考訳) 位相的および対称性に保護された非エルミート零モードは、ここ数年でかなりの関心を集めている。
非エルミート型貯水池に弱結合すると、そのような零モードは空間の関数として線形に減少する振幅を示し、これはハミルトニアンのEP(系全体または貯水池そのもの)によって起こらない。
代わりに、線形同相再帰関係の非ブロッホ解と、基礎となる非エルミート粒子-ホール対称性とエネルギーのゼロネスを区別する。 Topological and symmetry-protected non-Hermitian zero modes have attracted considerable interest in the past few years. Here we reveal that they can exhibit an unusual behavior when transitioning between the extended and localized regimes: When weakly coupled to a non-Hermitian reservoir, such a zero mode displays a linearly decreasing amplitude as a function of space, which is not caused by an EP of a Hamiltonian, either of the entire system or the reservoir itself. Instead, we attribute it to the non-Bloch solution of a linear homogeneous recurrence relation, together with the underlying non-Hermitian particle-hole symmetry and the zeroness of its energy. | 翻訳日:2023-11-16 21:40:16 公開日:2023-11-15 |
# スパース密度木とリスト:高次元ヒストグラムの解釈可能な代替 Sparse Density Trees and Lists: An Interpretable Alternative to High-Dimensional Histograms ( http://arxiv.org/abs/1510.06779v5 ) ライセンス: Link先を確認 | Siong Thye Goh, Lesia Semenova, Cynthia Rudin | (参考訳) 本稿では,バイナリ/カテゴリデータに対するスパースツリーベースおよびリストベース密度推定法を提案する。
我々の密度推定モデルは、可変ビン幅ヒストグラムの高次元類似である。
木(またはリスト)の各葉では、密度は一定であり、ヒストグラムのビン内の平坦な密度と似ている。
しかし、ヒストグラムは2次元以上では容易に可視化できない。
ヒストグラムの精度は次元が大きくなるにつれて低下するが、我々のモデルには一般化に役立つ先行項がある。
我々のモデルは、高次元固定ビンヒストグラムとは異なり、わずかである。
まず3つの生成的モデリング手法を提案する。1つはユーザがベイズ前の木内の葉の数を指定できる手法である。
第2の方法は、ユーザが事前のブランチ数を指定できるようにする。
第3のメソッドは(木ではなく)密度リストを返却し、ユーザが優先するルールの数と前回のルールの長さを指定できるようにする。
新しいアプローチは、このタスクの他の方法よりも、スパーシティと密度推定の精度のバランスを良くすることが多い。
犯罪分析への応用として,各モードのオペランディがいかに異常であるかを推定する。 We present sparse tree-based and list-based density estimation methods for binary/categorical data. Our density estimation models are higher dimensional analogies to variable bin width histograms. In each leaf of the tree (or list), the density is constant, similar to the flat density within the bin of a histogram. Histograms, however, cannot easily be visualized in more than two dimensions, whereas our models can. The accuracy of histograms fades as dimensions increase, whereas our models have priors that help with generalization. Our models are sparse, unlike high-dimensional fixed-bin histograms. We present three generative modeling methods, where the first one allows the user to specify the preferred number of leaves in the tree within a Bayesian prior. The second method allows the user to specify the preferred number of branches within the prior. The third method returns density lists (rather than trees) and allows the user to specify the preferred number of rules and the length of rules within the prior. The new approaches often yield a better balance between sparsity and accuracy of density estimates than other methods for this task. We present an application to crime analysis, where we estimate how unusual each type of modus operandi is for a house break-in. | 翻訳日:2023-11-16 21:40:02 公開日:2023-11-15 |
# テンソル因子化による画像セグメンテーションの出現モデルの推定 Estimating Appearance Models for Image Segmentation via Tensor Factorization ( http://arxiv.org/abs/2208.07853v2 ) ライセンス: Link先を確認 | Jeova Farias Sales Rocha Neto | (参考訳) イメージセグメンテーションはコンピュータビジョンのコアタスクの1つであり、画像の外観データをその構成領域の色分布でモデル化することに依存することが多い。
多くのセグメンテーションアルゴリズムが交互あるいは暗黙的手法を用いて出現モデルの依存を処理するのに対し、本手法では、下位セグメンテーションに関する事前情報なしで画像からそれらを直接推定する新しい手法を提案する。
本手法では,画像からの局所高次色統計を,潜在変数モデルのテンソル分解に基づく推定器への入力として用いる。
このアプローチは、マルチリージョン画像のモデルを推定し、事前のユーザインタラクションを伴わずに自動的に領域比率を出力し、この問題に対する以前の試みの欠点を克服する。
また,提案手法の性能を,多くの難解な合成・実画像シナリオで実証し,効率的なセグメンテーションアルゴリズムをもたらすことを示す。 Image Segmentation is one of the core tasks in Computer Vision and solving it often depends on modeling the image appearance data via the color distributions of each it its constituent regions. Whereas many segmentation algorithms handle the appearance models dependence using alternation or implicit methods, we propose here a new approach to directly estimate them from the image without prior information on the underlying segmentation. Our method uses local high order color statistics from the image as an input to tensor factorization-based estimator for latent variable models. This approach is able to estimate models in multiregion images and automatically output the regions proportions without prior user interaction, overcoming the drawbacks from a prior attempt to this problem. We also demonstrate the performance of our proposed method in many challenging synthetic and real imaging scenarios and show that it leads to an efficient segmentation algorithm. | 翻訳日:2023-11-16 21:30:17 公開日:2023-11-15 |
# 混合zx位相回路のアニーリング最適化 Annealing Optimisation of Mixed ZX Phase Circuits ( http://arxiv.org/abs/2206.11839v2 ) ライセンス: Link先を確認 | Stefano Gogioso (Hashberg Ltd), Richie Yeung (Quantinuum Ltd) | (参考訳) 我々は,CXゲートの共役と模擬アニーリングに基づく混合ZX位相ガジェット回路のトポロジ対応最適化手法を提案する。 We present a topology-aware optimisation technique for circuits of mixed ZX phase gadgets, based on conjugation by CX gates and simulated annealing. | 翻訳日:2023-11-16 21:30:01 公開日:2023-11-15 |
# 意味的曖昧性の因果構造 The Causal Structure of Semantic Ambiguities ( http://arxiv.org/abs/2206.06807v3 ) ライセンス: Link先を確認 | Daphne Wang (University College London), Mehrnoosh Sadrzadeh (University College London) | (参考訳) あいまいさ(ambiguity)は、構文、意味論、実用論の異なるレベルで発生する自然言語現象である。
それは広く研究されており、例えば心理学では、人間の曖昧さの過程に関する様々な競合する研究がある。
これらの研究は経験的であり、視線追跡測定に基づいている。
ここでは, これらのプロセスの形式化に向けた第一歩として, 1) 考えられる解釈の相違点の合同妥当性, (2) 特定の単語がプロセスにおいてより重要な役割を担っている因果構造, の2つの特徴について述べる。
qpl 2021でgogiosoとpinzaniによって開発された決定因果関係の新しい層理論モデルは、これらの特徴をモデル化し、推論するためのツールを提供する。
この理論を,心理言語学文献から抽出した曖昧なフレーズのデータセットと,amazon mechanical turkエンジンを用いて我々によって収集されたヒューマン・プルーサビリティ判断に適用した。
語句内の異なる曖昧化順序の因果分画を測定し,主語動詞から主語動詞へ,動詞動詞句から動詞動詞へという2つの主語を発見した。
また,多義語動詞と偽語動詞の曖昧さの解消が遅滞する証拠を見出した。 Ambiguity is a natural language phenomenon occurring at different levels of syntax, semantics, and pragmatics. It is widely studied; in Psycholinguistics, for instance, we have a variety of competing studies for the human disambiguation processes. These studies are empirical and based on eye-tracking measurements. Here we take first steps towards formalizing these processes for semantic ambiguities where we identified the presence of two features: (1) joint plausibility degrees of different possible interpretations, (2) causal structures according to which certain words play a more substantial role in the processes. The novel sheaf-theoretic model of definite causality developed by Gogioso and Pinzani in QPL 2021 offers tools to model and reason about these features. We applied this theory to a dataset of ambiguous phrases extracted from Psycholinguistics literature and their human plausibility judgements collected by us using the Amazon Mechanical Turk engine. We measured the causal fractions of different disambiguation orders within the phrases and discovered two prominent orders: from subject to verb in the subject-verb and from object to verb in the verb object phrases. We also found evidence for delay in the disambiguation of polysemous vs homonymous verbs, again compatible with Psycholinguistic findings. | 翻訳日:2023-11-16 21:29:57 公開日:2023-11-15 |
# 部分量子マップの普遍的性質 Universal Properties of Partial Quantum Maps ( http://arxiv.org/abs/2206.04814v2 ) ライセンス: Link先を確認 | Pablo Andr\'es-Mart\'i\^A-nez (Quantinuum), Chris Heunen (University of Edinburgh), Robin Kaarsgaard (University of Southern Denmark) | (参考訳) 有限次元 c*-代数の圏の普遍的構成と、有限次元ヒルベルト空間とユニタリのリグ圏からの完全正のトレース非開写像を提供する。
任意のダガーリグ圏に適用できるこの構成は、3つのステップで記述され、それぞれが自身の普遍性と関連付けられ、有限次元のダイレーション理論の結果から導かれる。
このようにして、我々は、その可逆基底の圏から可能な非終端を持つハイブリッド量子/古典計算をキャプチャするカテゴリを明示的に構築する。
量子プログラミング言語の設計と意味論において、この構造がどのように利用できるかについて議論する。 We provide a universal construction of the category of finite-dimensional C*-algebras and completely positive trace-nonincreasing maps from the rig category of finite-dimensional Hilbert spaces and unitaries. This construction, which can be applied to any dagger rig category, is described in three steps, each associated with their own universal property, and draws on results from dilation theory in finite dimension. In this way, we explicitly construct the category that captures hybrid quantum/classical computation with possible nontermination from the category of its reversible foundations. We discuss how this construction can be used in the design and semantics of quantum programming languages. | 翻訳日:2023-11-16 21:29:34 公開日:2023-11-15 |
# 量子アルゴリズム言語としてのQ# Q# as a Quantum Algorithmic Language ( http://arxiv.org/abs/2206.03532v2 ) ライセンス: Link先を確認 | Kartik Singhal (University of Chicago), Kesha Hietala (University of Maryland), Sarah Marshall (Microsoft Quantum), Robert Rand (University of Chicago) | (参考訳) q#は、量子プログラムを記述および実行するためのmicrosoftのスタンドアロンのドメイン固有プログラミング言語である。
ほとんどの工業言語と同様に、形式的な仕様なしで設計されており、自然にその解釈の曖昧さにつながる可能性がある。
我々は、q#の正式な言語定義を提供し、言語を堅固な数学的基礎に置き、その設計と型システムのさらなる進化を可能にすることを目指している。
本稿では、q#を量子algol(algorithmic language)として見る方法を説明するq#の理想化バージョンである$\lambda$-q#を提案する。
我々は、$\lambda$-Q#の型システムによって強制される安全性特性を示し、Statonによる完全完備代数理論に基づく方程式意味論を示す。 Q# is a standalone domain-specific programming language from Microsoft for writing and running quantum programs. Like most industrial languages, it was designed without a formal specification, which can naturally lead to ambiguity in its interpretation. We aim to provide a formal language definition for Q#, placing the language on a solid mathematical foundation and enabling further evolution of its design and type system. This paper presents $\lambda$-Q#, an idealized version of Q# that illustrates how we may view Q# as a quantum Algol (algorithmic language). We show the safety properties enforced by $\lambda$-Q#'s type system and present its equational semantics based on a fully complete algebraic theory by Staton. | 翻訳日:2023-11-16 21:29:23 公開日:2023-11-15 |
# 最適制御の確率的制御と主要化 Probabilistic Control and Majorization of Optimal Control ( http://arxiv.org/abs/2205.03279v5 ) ライセンス: Link先を確認 | Tom Lefebvre | (参考訳) 確率論的制御設計は、有理エージェントが任意の所望の閉ループ系軌道密度をモデル化しようとする原理に基づいている。
このフレームワークはもともと、従来の最適制御設計の代替として提案され、架空の遷移と政策密度を通じて望ましい振る舞いをパラメトリズし、情報投影を近接測度として利用した。
本研究では、所望の閉ループ挙動の代替パラメトリゼーションを導入し、密度間の代替近接測度を探索する。
次に,関連する確率的制御問題を不確実あるいは確率的方針にどのように解決するかを示す。
我々の主な結果は,確率的制御目標が従来の確率的かつリスクに敏感な最適制御目標を主要なものにしていることを示すことである。
この観測により、決定論的最適制御ポリシーに収束する2つの確率的不動点反復を特定でき、いずれかの定式化の間の明示的な接続を確立することができる。
さらに, リスクに敏感な最適制御定式化は, コストの概念をモデルに直接エンコードした確率グラフモデル上での最大確率推定問題と技術的に等価であることを示す。
推定問題の関連する処理は、予測される確率的制御の定式化と一致することが示される。
これにより、最適な意思決定を反復推論問題として再構成することができる。
これらの知見に基づき,アルゴリズム開発への道筋について考察する。 Probabilistic control design is founded on the principle that a rational agent attempts to match modelled with an arbitrary desired closed-loop system trajectory density. The framework was originally proposed as a tractable alternative to traditional optimal control design, parametrizing desired behaviour through fictitious transition and policy densities and using the information projection as a proximity measure. In this work we introduce an alternative parametrization of desired closed-loop behaviour and explore alternative proximity measures between densities. It is then illustrated how the associated probabilistic control problems solve into uncertain or probabilistic policies. Our main result is to show that the probabilistic control objectives majorize conventional, stochastic and risk sensitive, optimal control objectives. This observation allows us to identify two probabilistic fixed point iterations that converge to the deterministic optimal control policies establishing an explicit connection between either formulations. Further we demonstrate that the risk sensitive optimal control formulation is also technically equivalent to a Maximum Likelihood estimation problem on a probabilistic graph model where the notion of costs is directly encoded into the model. The associated treatment of the estimation problem is then shown to coincide with the moment projected probabilistic control formulation. That way optimal decision making can be reformulated as an iterative inference problem. Based on these insights we discuss directions for algorithmic development. | 翻訳日:2023-11-16 21:28:52 公開日:2023-11-15 |
# pauli測定によるmbqcパターンの完全フロー保存リライトルール Complete Flow-Preserving Rewrite Rules for MBQC Patterns with Pauli Measurements ( http://arxiv.org/abs/2205.02009v5 ) ライセンス: Link先を確認 | Tommy McElvanney (University of Birmingham), Miriam Backens (University of Birmingham) | (参考訳) 測定ベースの量子計算(MBQC)の一方向モデルでは、計算は標準的なリソース状態の測定によって進行する。
いわゆるフロー条件は全体の計算が適切な意味で決定論的であることを保証するもので、パウリフローが最も一般的である。
既存のMBQCパターンの書き換え作業は、フローの存在を保ちながら、キュービット数の削減に重点を置いている。
本研究では、既存の量子ビットの任意の部分集合に接続された新しいZ測度量子ビットの導入が、パウリフローの存在を保っていることを示す。
さらに、Hu & Khesinの最近の研究に触発された安定化器ZX-ダイアグラムに対して、ユニークな標準形式を与える。
我々は,任意の mbqc-like stabilizer zx-diagram with pauli flow は,pauli flow の存在を保存できる規則のみを用いて,この正準形式に書き換えることができることを証明し,これらの規則は pauli flow の存在を保ちながら反転可能であることを証明した。
したがって, pauli フローを持つ mbqc 様安定化器 zx-diagram を完全にグラフィカルに書き直すことができる。 In the one-way model of measurement-based quantum computation (MBQC), computation proceeds via measurements on some standard resource state. So-called flow conditions ensure that the overall computation is deterministic in a suitable sense, with Pauli flow being the most general of these. Existing work on rewriting MBQC patterns while preserving the existence of flow has focused on rewrites that reduce the number of qubits. In this work, we show that introducing new Z-measured qubits, connected to any subset of the existing qubits, preserves the existence of Pauli flow. Furthermore, we give a unique canonical form for stabilizer ZX-diagrams inspired by recent work of Hu & Khesin. We prove that any MBQC-like stabilizer ZX-diagram with Pauli flow can be rewritten into this canonical form using only rules which preserve the existence of Pauli flow, and that each of these rules can be reversed while also preserving the existence of Pauli flow. Hence we have complete graphical rewriting for MBQC-like stabilizer ZX-diagrams with Pauli flow. | 翻訳日:2023-11-16 21:28:27 公開日:2023-11-15 |
# QPAC学習フレームワークにおける可変量子ニューラルネットワーク Tunable Quantum Neural Networks in the QPAC-Learning Framework ( http://arxiv.org/abs/2205.01514v4 ) ライセンス: Link先を確認 | Viet Pham Ngoc (Imperial College London), David Tuckey (Imperial College London), Herbert Wiklicky (Imperial College London) | (参考訳) 本稿では,量子確率近似(QPAC)学習フレームワークにおけるチューナブル量子ニューラルネットワークの性能について検討する。
可変ニューラルネットワークは、マルチコントロールxゲートからなる量子回路である。
制御のセットをチューニングすることで、これらの回路はブール関数を近似することができる。
このアーキテクチャは、オラクルが生成した重ね合わせを処理できるため、QPAC学習フレームワークでの使用に特に適している。
ターゲット概念を近似できるようにネットワークをチューニングするために,振幅増幅に基づくアルゴリズムを考案し,実装した。
数値計算の結果,単純なクラスから概念を効率的に学習できることが示唆された。 In this paper, we investigate the performances of tunable quantum neural networks in the Quantum Probably Approximately Correct (QPAC) learning framework. Tunable neural networks are quantum circuits made of multi-controlled X gates. By tuning the set of controls these circuits are able to approximate any Boolean functions. This architecture is particularly suited to be used in the QPAC-learning framework as it can handle the superposition produced by the oracle. In order to tune the network so that it can approximate a target concept, we have devised and implemented an algorithm based on amplitude amplification. The numerical results show that this approach can efficiently learn concepts from a simple class. | 翻訳日:2023-11-16 21:28:06 公開日:2023-11-15 |
# 量子コンパイルのためのCNOT回路合成による動的量子ビットルーティング Dynamic Qubit Routing with CNOT Circuit Synthesis for Quantum Compilation ( http://arxiv.org/abs/2205.00724v4 ) ライセンス: Link先を確認 | Arianne Meijer-van de Griend (Department of Computer Science, University of Helsinki), Sarah Meng Li (Institute for Quantum Computing, Department of Combinatorics & Optimization, University of Waterloo) | (参考訳) 多くの量子コンピュータは、どの2ビット演算を局所的に許可するかという制約がある。
これらの制約の下で量子回路を実行するためには、量子ビットを異なる量子レジスタにマッピングする必要がある。
近年,Steiner木をベースとしたコンパイル戦略が,CNOTをルートする競合ツールとなることが示されている。
しかし、これらのアルゴリズムはルーティングの前にキュービットマップを決定する必要がある。
さらに、キュービットマップは計算全体を通して固定されるため、論理キュービットは別の物理キュービットレジスタに移動されない。
これは、結果の回路のcnotカウントに関して非効率である。
本稿では,量子回路上でcnotをルーティングするためのpermrowcolアルゴリズムを提案する。
計算中に論理量子ビットを動的に再マップし、その結果、Steiner-Gauss や RowCol よりも出力 CNOT が少ない。
ここでは、cnot 上の回路に注目するが、cnot と単一量子ビットゲートからなるサブ回路に量子回路をスライスすることで、clifford+t 回路のルーティングおよびマッピング戦略に一般化することができる。
さらに、PermRowColは、位相多項式の合成やZXダイアグラムからの量子回路の抽出において、Steiner-Gaussの代わりに使用することができる。 Many quantum computers have constraints regarding which two-qubit operations are locally allowed. To run a quantum circuit under those constraints, qubits need to be mapped to different quantum registers, and multi-qubit gates need to be routed accordingly. Recent developments have shown that compiling strategies based on the Steiner tree provide a competitive tool to route CNOTs. However, these algorithms require the qubit map to be decided before routing. Moreover, the qubit map is fixed throughout the computation, i.e. the logical qubit will not be moved to a different physical qubit register. This is inefficient with respect to the CNOT count of the resulting circuit. In this paper, we propose the algorithm PermRowCol for routing CNOTs in a quantum circuit. It dynamically remaps logical qubits during the computation, and thus results in fewer output CNOTs than the algorithms Steiner-Gauss and RowCol. Here we focus on circuits over CNOT only, but this method could be generalized to a routing and mapping strategy on Clifford+T circuits by slicing the quantum circuit into subcircuits composed of CNOTs and single-qubit gates. Additionally, PermRowCol can be used in place of Steiner-Gauss in the synthesis of phase polynomials as well as the extraction of quantum circuits from ZX diagrams. | 翻訳日:2023-11-16 21:27:56 公開日:2023-11-15 |
# クリフォード回路のシンボリック合成とその応用 Symbolic Synthesis of Clifford Circuits and Beyond ( http://arxiv.org/abs/2204.14205v2 ) ライセンス: Link先を確認 | Matthew Amy (Simon Fraser University), Owen Bennett-Gibbs (McGill University), Neil J. Ross (Dalhousie University) | (参考訳) パス和は量子演算に便利な記号形式であり、量子プロトコルのシミュレーション、最適化、検証への応用である。
量子回路とは異なり、経路和はユニタリ演算に限らず、任意の線形演算を表現できる。
したがって、経路和の研究において自然に生じる2つの問題、すなわちユニタリティ問題と抽出問題である。
前者は与えられたパス和がユニタリ作用素を表すかどうかを決定する問題である。
後者は、ユニタリ作用素を表すと約束される経路和を与える量子回路を構成する問題である。
本稿では、ユニタリ性問題は一般にコ-NPハードであるが、クリフォードパス和に制限された場合、P であることを示す。
次に、一意的なクリフォードパス和からクリフォード回路を合成するアルゴリズムを提供する。
抽出アルゴリズムによって生成された回路はC1-H-C2形であり、C1とC2はアダマールフリー回路であり、Hはアダマールゲートの層である。
また,任意の経路和に対する抽出アルゴリズムのヒューリスティック一般化も提供する。
このアルゴリズムは成功は保証されていないが、しばしば成功し、典型的には自然なサーキットを生成する。
量子回路の最適化と非コンパイルへの応用に加えて、標準量子フーリエ変換を経路和から直接合成することにより、アルゴリズムの能力を実証する。 Path sums are a convenient symbolic formalism for quantum operations with applications to the simulation, optimization, and verification of quantum protocols. Unlike quantum circuits, path sums are not limited to unitary operations, but can express arbitrary linear ones. Two problems, therefore, naturally arise in the study of path sums: the unitarity problem and the extraction problem. The former is the problem of deciding whether a given path sum represents a unitary operator. The latter is the problem of constructing a quantum circuit, given a path sum promised to represent a unitary operator. In this paper, we show that the unitarity problem is co-NP-hard in general, but that it is in P when restricted to Clifford path sums. We then provide an algorithm to synthesize a Clifford circuit from a unitary Clifford path sum. The circuits produced by our extraction algorithm are of the form C1-H-C2, where C1 and C2 are Hadamard-free circuits and H is a layer of Hadamard gates. We also provide a heuristic generalization of our extraction algorithm to arbitrary path sums. While this algorithm is not guaranteed to succeed, it often succeeds and typically produces natural looking circuits. Alongside applications to the optimization and decompilation of quantum circuits, we demonstrate the capability of our algorithm by synthesizing the standard quantum Fourier transform directly from a path sum. | 翻訳日:2023-11-16 21:27:37 公開日:2023-11-15 |
# フェーズガジェットによるクエトリット対角ゲートの構築 Building Qutrit Diagonal Gates from Phase Gadgets ( http://arxiv.org/abs/2204.13681v2 ) ライセンス: Link先を確認 | John van de Wetering (University of Oxford), Lia Yeh (University of Oxford) | (参考訳) 位相ガジェットはzx-ダイアグラムの推論に欠かせない道具であり、量子回路の最適化とシミュレーションや測定に基づく量子計算の理論に使われている。
本稿では,qutritsのフェーズガジェットについて検討する。
本稿では、元の(量子)ZX-計算に近づいた書き直しを可能にする、元のキュートリットZX-計算の反射対称変種を示す。
この計算段階のガジェットは、期待通りに見えるが、その性質にはささいな違いがある。
我々は、量子ビットのグラフィカルフーリエ理論を拡張するために、新しいクトリット特有のトリックを考案し、結果として「付加的」位相ガジェットと「乗算的」相乗算器を翻訳する。
これにより、2つの方法で多重制御の概念のqubitをqutritsに一般化することができる。
第1のタイプは1つのトリットストリングで制御され、第2のタイプは制御キュートットのトリットワイズ倍数 3 のゲートを何回も適用し、どちらのタイプの制御も任意のキュートット Z や X の位相ゲート、アンシラフリー、クリフォードと位相ゲートのみを用いて実装可能であることを示す。
第一段階は多項式数のゲートと指数関数的に小さい位相、第二段階は指数関数的なゲート数を必要とするが定数の大きさの位相を必要とする。
これは、そのような構成はqubit設定では不可能であるため興味深い。
これらの結果の適用例として、任意のクビット対角ユニタリをエミュレートするための構造を見つけ、特に、クビットを持つ4つのTゲートよりも確実に低い3つのクビット非クリフォードゲートのみを必要とするクビットCCZゲートのアンシラ自由エミュレーションを求める。 Phase gadgets have proved to be an indispensable tool for reasoning about ZX-diagrams, being used in optimisation and simulation of quantum circuits and the theory of measurement-based quantum computation. In this paper we study phase gadgets for qutrits. We present the flexsymmetric variant of the original qutrit ZX-calculus, which allows for rewriting that is closer in spirit to the original (qubit) ZX-calculus. In this calculus phase gadgets look as you would expect, but there are non-trivial differences in their properties. We devise new qutrit-specific tricks to extend the graphical Fourier theory of qubits, resulting in a translation between the 'additive' phase gadgets and a 'multiplicative' counterpart we dub phase multipliers. This enables us to generalise the qubit notion of multiple-control to qutrits in two ways. The first type is controlling on a single tritstring, while the second type applies the gate a number of times equal to the tritwise multiplication modulo 3 of the control qutrits.We show how both types of control can be implemented for any qutrit Z or X phase gate, ancilla-free, and using only Clifford and phase gates. The first requires a polynomial number of gates and exponentially small phases, while the second requires an exponential number of gates, but constant sized phases. This is interesting, because such a construction is not possible in the qubit setting. As an application of these results we find a construction for emulating arbitrary qubit diagonal unitaries, and specifically find an ancilla-free emulation for the qubit CCZ gate that only requires three single-qutrit non-Clifford gates, provably lower than the four T gates needed for qubits with ancilla. | 翻訳日:2023-11-16 21:27:14 公開日:2023-11-15 |
# 動的昇降を伴うプロトクイッパーの双セットエンリッチな分類モデル A Biset-Enriched Categorical Model for Proto-Quipper with Dynamic Lifting ( http://arxiv.org/abs/2204.13039v2 ) ライセンス: Link先を確認 | Peng Fu (Dalhousie University), Kohei Kishida (University of Illinois at Urbana-Champaign), Neil J. Ross (Dalhousie University), Peter Selinger (Dalhousie University) | (参考訳) quipperとproto-quipperは、回路記述言語としての性質上、プログラムが回路を生成し、回路が実行される2つのランタイムを含む量子プログラミング言語のファミリーである。
したがって、この言語は、回路生成時に知られているパラメータと、回路実行時に知られている状態の2つの種類のデータを区別する。
回路の次の部分の発生を制御するためには、測定結果が望ましい場合もある。
したがって、言語は測定結果などの状態をパラメータに変える必要があり、これは動的リフトと呼ばれる操作である。
本稿の目的は、我々が"bisets"と呼ぶ一般的なカテゴリ構造を提供することによって、ランタイム間の相互作用をモデル化することである。
ビセットエンリッチ構造は、2つのランタイムとそれらのインタラクションの適切なセマンティクスを実現し、動的浮揚を伴うproto-quipperの変種をモデル化することを示す。
本稿では,この言語の具体的分類学的意味論について論じる一方で,構文,型システム,操作的意味論,抽象的分類的意味論について述べる。 Quipper and Proto-Quipper are a family of quantum programming languages that, by their nature as circuit description languages, involve two runtimes: one at which the program generates a circuit and one at which the circuit is executed, normally with probabilistic results due to measurements. Accordingly, the language distinguishes two kinds of data: parameters, which are known at circuit generation time, and states, which are known at circuit execution time. Sometimes, it is desirable for the results of measurements to control the generation of the next part of the circuit. Therefore, the language needs to turn states, such as measurement outcomes, into parameters, an operation we call dynamic lifting. The goal of this paper is to model this interaction between the runtimes by providing a general categorical structure enriched in what we call "bisets". We demonstrate that the biset-enriched structure achieves a proper semantics of the two runtimes and their interaction, by showing that it models a variant of Proto-Quipper with dynamic lifting. The present paper deals with the concrete categorical semantics of this language, whereas a companion paper deals with the syntax, type system, operational semantics, and abstract categorical semantics. | 翻訳日:2023-11-16 21:26:40 公開日:2023-11-15 |
# 弦図による量子線形光学 Quantum Linear Optics via String Diagrams ( http://arxiv.org/abs/2204.12985v4 ) ライセンス: Link先を確認 | Giovanni de Felice (Quantinuum), Bob Coecke (Quantinuum) | (参考訳) 我々は、量子ビットベースとフォトニック量子コンピューティングの間の正式なブリッジを確立する。
zx計算から線形光回路への関手を定義することでこれを行う。
この過程では、線形光学および核融合ベースの量子計算を行うために必要な複数の光子を含む事象を推論できる量子線形光学の合成理論を提供する。 We establish a formal bridge between qubit-based and photonic quantum computing. We do this by defining a functor from the ZX calculus to linear optical circuits. In the process we provide a compositional theory of quantum linear optics which allows to reason about events involving multiple photons such as those required to perform linear-optical and fusion-based quantum computing. | 翻訳日:2023-11-16 21:26:19 公開日:2023-11-15 |
# 2量子クリフォード+T演算子の発電機と関係 Generators and Relations for 2-Qubit Clifford+T Operators ( http://arxiv.org/abs/2204.02217v3 ) ライセンス: Link先を確認 | Xiaoning Bian (Dalhousie University), Peter Selinger (Dalhousie University) | (参考訳) 2つの量子ビット上のクリフォード+T作用素群に対する生成子によるプレゼンテーションと関係を与える。
この証明は、グレイリンの初期の結果に対するライデマイスター=シュライアーの定理の応用に依存しており、証明助手agdaで正式に証明されている。 We give a presentation by generators and relations of the group of Clifford+T operators on two qubits. The proof relies on an application of the Reidemeister-Schreier theorem to an earlier result of Greylyn, and has been formally verified in the proof assistant Agda. | 翻訳日:2023-11-16 21:26:12 公開日:2023-11-15 |
# 双レベル学習のための不規則なハイパーグラディエンスの分析 Analyzing Inexact Hypergradients for Bilevel Learning ( http://arxiv.org/abs/2301.04764v2 ) ライセンス: Link先を確認 | Matthias J. Ehrhardt and Lindon Roberts | (参考訳) ハイパーパラメータの推定は、機械学習における長年の問題だった。
我々は,手前のタスクが最適化問題の解としてモデル化される場合を考える。
ここでは、ハイパーパラメータに関する正確な勾配を計算できず、近似戦略が必要となる。
暗黙の関数定理と自動微分/バックプロパゲーションに基づいて既存の手法を一般化した過次関数計算のための統一的なフレームワークを導入し、これら2つの異なるアプローチが実際に密接な関係にあることを示す。
我々のフレームワークは非常に柔軟であり、そのサブプロブレムを任意の精度で適切な方法で解決することができる。
我々は全ての方法において、優先順位と計算可能な後方誤差境界を導出し、a後方境界は通常より正確であることが数値的に示される。
また, 計算結果から, 効率のよい2次最適化では, 低次解法の場合と同様に, 超次アルゴリズムの選択が重要であることが示された。 Estimating hyperparameters has been a long-standing problem in machine learning. We consider the case where the task at hand is modeled as the solution to an optimization problem. Here the exact gradient with respect to the hyperparameters cannot be feasibly computed and approximate strategies are required. We introduce a unified framework for computing hypergradients that generalizes existing methods based on the implicit function theorem and automatic differentiation/backpropagation, showing that these two seemingly disparate approaches are actually tightly connected. Our framework is extremely flexible, allowing its subproblems to be solved with any suitable method, to any degree of accuracy. We derive a priori and computable a posteriori error bounds for all our methods, and numerically show that our a posteriori bounds are usually more accurate. Our numerical results also show that, surprisingly, for efficient bilevel optimization, the choice of hypergradient algorithm is at least as important as the choice of lower-level solver. | 翻訳日:2023-11-16 21:18:11 公開日:2023-11-15 |
# 圧縮スペクトルイメージングのためのスペクトルと空間の混合前処理を用いた残留劣化学習展開フレームワーク Residual Degradation Learning Unfolding Framework with Mixing Priors across Spectral and Spatial for Compressive Spectral Imaging ( http://arxiv.org/abs/2211.06891v3 ) ライセンス: Link先を確認 | Yubo Dong, Dahua Gao, Tian Qiu, Yuyan Li, Minxi Yang, Guangming Shi | (参考訳) スナップショットスペクトル画像を取得するために、符号化開口分光画像(CASSI)を提案する。
CASSIシステムの中核的な問題は、信頼性と微細な3次元スペクトル立方体を2次元測定から回収することである。
データサブプロブレムと先行サブプロブレムを交互に解くことにより、深い展開法が良好な性能を達成する。
しかし、データサブプロブレムでは、位相収差や歪みに起因するデバイスエラーによる実際の劣化過程に使用するセンシングマトリクスが不適当であり、先行するサブプロブレムでは、空間的およびスペクトル的プリエントの両方を共用する適切なモデルを設計することが重要である。
本稿では,センサマトリックスと劣化過程のギャップを埋めるResidual Degradation Learning Unfolding Framework (RDLUF)を提案する。
さらに、Mix$S^2$変換器は、スペクトル空間と空間を混合することで、スペクトル空間表現能力を強化する。
最後に、Mix$S^2$ TransformerをRDLUFに接続すると、エンドツーエンドのトレーニング可能なニューラルネットワークRDLUF-Mix$S^2$となる。
実験により,提案手法の既存手法よりも優れた性能が得られた。 To acquire a snapshot spectral image, coded aperture snapshot spectral imaging (CASSI) is proposed. A core problem of the CASSI system is to recover the reliable and fine underlying 3D spectral cube from the 2D measurement. By alternately solving a data subproblem and a prior subproblem, deep unfolding methods achieve good performance. However, in the data subproblem, the used sensing matrix is ill-suited for the real degradation process due to the device errors caused by phase aberration, distortion; in the prior subproblem, it is important to design a suitable model to jointly exploit both spatial and spectral priors. In this paper, we propose a Residual Degradation Learning Unfolding Framework (RDLUF), which bridges the gap between the sensing matrix and the degradation process. Moreover, a Mix$S^2$ Transformer is designed via mixing priors across spectral and spatial to strengthen the spectral-spatial representation capability. Finally, plugging the Mix$S^2$ Transformer into the RDLUF leads to an end-to-end trainable neural network RDLUF-Mix$S^2$. Experimental results establish the superior performance of the proposed method over existing ones. | 翻訳日:2023-11-16 21:17:53 公開日:2023-11-15 |
# Beyond Vectors: 埋め込みのセット操作のためのサブスペース表現 Beyond Vectors: Subspace Representations for Set Operations of Embeddings ( http://arxiv.org/abs/2210.13034v2 ) ライセンス: Link先を確認 | Yoichi Ishibashi, Sho Yokoi, Katsuhito Sudoh, Satoshi Nakamura | (参考訳) 自然言語処理(NLP)では、言語意味論の表現における埋め込みの役割が重要である。
埋め込み集合におけるベクトル表現の普及にもかかわらず、それらは表現性に限界を示し、包括的集合演算を欠いている。
これに対処するため、事前訓練された埋め込み空間内で集合とその操作を定式化し適用しようとする。
量子論理に触発されて,従来のベクトル集合表現を超越し,新しい部分空間に基づく手法を提案する。
この手法は、事前訓練された埋め込みセットを使用してサブスペースを構築し、以前は見落とされた意味的ニュアンスを効果的に保存し、従って下流タスクのパフォーマンスを継続的に改善する。 In natural language processing (NLP), the role of embeddings in representing linguistic semantics is crucial. Despite the prevalence of vector representations in embedding sets, they exhibit limitations in expressiveness and lack comprehensive set operations. To address this, we attempt to formulate and apply sets and their operations within pre-trained embedding spaces. Inspired by quantum logic, we propose to go beyond the conventional vector set representation with our novel subspace-based approach. This methodology constructs subspaces using pre-trained embedding sets, effectively preserving semantic nuances previously overlooked, and consequently consistently improving performance in downstream tasks. | 翻訳日:2023-11-16 21:17:30 公開日:2023-11-15 |
# ThoraX-PriorNet: 胸部疾患分類のための解剖学的事前確率マップを用いた新しい注意型アーキテクチャ ThoraX-PriorNet: A Novel Attention-Based Architecture Using Anatomical Prior Probability Maps for Thoracic Disease Classification ( http://arxiv.org/abs/2210.02998v2 ) ライセンス: Link先を確認 | Md. Iqbal Hossain, Mohammad Zunaed, Md. Kawsar Ahmed, S. M. Jawwad Hossain, Anwarul Hasan, and Taufiq Hasan | (参考訳) 目的: 医療画像に基づくコンピュータ支援疾患診断と予後は急速に発展している分野である。
多くの畳み込みニューラルネットワーク(CNN)アーキテクチャは、胸部X線画像から疾患分類と局所化の研究者によって開発されている。
胸部疾患の病変は、特定の解剖学的領域において他の部位よりも多く発生することが知られている。
本稿は,この疾患と地域依存の事前確率分布をディープラーニングフレームワークに組み込むことを目的としている。
方法:胸部疾患分類のための新しい注意型CNNモデルToraX-PriorNetを提案する。
まず、胸部x線画像における特定の領域における疾患の発生確率を示す、疾患依存的空間確率、すなわち解剖学的前兆を推定する。
次に, 深層畳み込みネットワークから生成された特徴マップに注意を向けるために, 推定解剖学的事前情報と自動抽出された胸部関心領域(roi)マスク情報を組み合わせた新しい注意に基づく分類モデルを開発した。
提案手法は, 様々な自己追跡機構を用いた先行研究とは異なり, 抽出された胸部roiマスクと確率的解剖学的事前情報を併用し, 異なる疾患に対する関心領域を選択し, 注意を喚起する。
結果: NIH ChestX-ray14データセットにおいて, ROC曲線 (%AUC) の84.67の範囲に到達しながら, 既存の最先端手法と比較して, 疾患分類における優れた性能を示した。
疾患の局在について、解剖学的事前注意法では、最先端法と比較して、0.80, 0.63, 0.49, 0.33, 0.28, 0.21, 0.04の精度をそれぞれ0.1, 0.2, 0.3, 0.3, 0.4, 0.5, 0.6, 0.6, 0.7の交叉閾値で達成している。 Objective: Computer-aided disease diagnosis and prognosis based on medical images is a rapidly emerging field. Many Convolutional Neural Network (CNN) architectures have been developed by researchers for disease classification and localization from chest X-ray images. It is known that different thoracic disease lesions are more likely to occur in specific anatomical regions compared to others. This article aims to incorporate this disease and region-dependent prior probability distribution within a deep learning framework. Methods: We present the ThoraX-PriorNet, a novel attention-based CNN model for thoracic disease classification. We first estimate a disease-dependent spatial probability, i.e., an anatomical prior, that indicates the probability of occurrence of a disease in a specific region in a chest X-ray image. Next, we develop a novel attention-based classification model that combines information from the estimated anatomical prior and automatically extracted chest region of interest (ROI) masks to provide attention to the feature maps generated from a deep convolution network. Unlike previous works that utilize various self-attention mechanisms, the proposed method leverages the extracted chest ROI masks along with the probabilistic anatomical prior information, which selects the region of interest for different diseases to provide attention. Results: The proposed method shows superior performance in disease classification on the NIH ChestX-ray14 dataset compared to existing state-of-the-art methods while reaching an area under the ROC curve (%AUC) of 84.67. Regarding disease localization, the anatomy prior attention method shows competitive performance compared to state-of-the-art methods, achieving an accuracy of 0.80, 0.63, 0.49, 0.33, 0.28, 0.21, and 0.04 with an Intersection over Union (IoU) threshold of 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, and 0.7, respectively. | 翻訳日:2023-11-16 21:17:19 公開日:2023-11-15 |
# バックプロパゲーションの数値不安定性によるニューラルネットワークトレーニングの限界 Limitations of neural network training due to numerical instability of backpropagation ( http://arxiv.org/abs/2210.00805v4 ) ライセンス: Link先を確認 | Clemens Karner, Vladimir Kazeev, Philipp Christian Petersen | (参考訳) 本研究では,浮動小数点演算を用いた勾配降下による深層ニューラルネットワークの学習について検討する。
この枠組みと現実的な仮定の下では、階層数に対して超直線的に多くのアフィン片を持つ勾配降下学習において、ReLUニューラルネットワークを見つけることは極めて不可能であることを示す。
近似の高階多項式率をもたらす事実上全ての近似理論の議論では、その層数に比べて指数関数的に多くのアフィンピースを持つreluニューラルネットワークのシーケンスが用いられる。
その結果,ReLUニューラルネットワークの勾配降下による近似列は理論的に構築された配列と大きく異なることがわかった。
仮定と理論的結果は、連続的な結果をもたらす数値的研究と比較される。 We study the training of deep neural networks by gradient descent where floating-point arithmetic is used to compute the gradients. In this framework and under realistic assumptions, we demonstrate that it is highly unlikely to find ReLU neural networks that maintain, in the course of training with gradient descent, superlinearly many affine pieces with respect to their number of layers. In virtually all approximation theoretical arguments that yield high-order polynomial rates of approximation, sequences of ReLU neural networks with exponentially many affine pieces compared to their numbers of layers are used. As a consequence, we conclude that approximating sequences of ReLU neural networks resulting from gradient descent in practice differ substantially from theoretically constructed sequences. The assumptions and the theoretical results are compared to a numerical study, which yields concurring results. | 翻訳日:2023-11-16 21:16:45 公開日:2023-11-15 |
# 抽象観測によるモデルに基づく強化学習の分析 An Analysis of Model-Based Reinforcement Learning From Abstracted Observations ( http://arxiv.org/abs/2208.14407v3 ) ライセンス: Link先を確認 | Rolf A. N. Starre, Marco Loog, Elena Congeduti, Frans A. Oliehoek | (参考訳) マルコフ決定プロセス(MDP)におけるモデルベース強化学習(MBRL)の多くの方法は、提供可能なモデルの精度と学習効率の両方を保証する。
同時に、状態抽象化技術は、元の問題に関して境界損失を維持しながら、MDPのサイズを縮小することができる。
したがって、MBRLが抽象状態のみを観測する場合、両方の技術を組み合わせる際にそのような保証が得られないことは驚きである。
理論解析の結果,抽象概念は(実世界など)オンラインで収集されたサンプル間の依存性をもたらすことが判明した。
つまり、この依存を考慮に入れなければ、MBRLの結果は直接この設定に拡張されない。
その結果,martingalesの濃度不等式を用いてこの問題を克服できることがわかった。
これにより、既存のMBRLアルゴリズムの保証を抽象化した設定にまで拡張することができる。
モデルに基づく強化学習(RL from Abstracted Observations)と抽象モデルを用いたモデルベース強化学習(RL from Abstracted Observations)の初となる性能保証を生成する。 Many methods for Model-based Reinforcement learning (MBRL) in Markov decision processes (MDPs) provide guarantees for both the accuracy of the model they can deliver and the learning efficiency. At the same time, state abstraction techniques allow for a reduction of the size of an MDP while maintaining a bounded loss with respect to the original problem. Therefore, it may come as a surprise that no such guarantees are available when combining both techniques, i.e., where MBRL merely observes abstract states. Our theoretical analysis shows that abstraction can introduce a dependence between samples collected online (e.g., in the real world). That means that, without taking this dependence into account, results for MBRL do not directly extend to this setting. Our result shows that we can use concentration inequalities for martingales to overcome this problem. This result makes it possible to extend the guarantees of existing MBRL algorithms to the setting with abstraction. We illustrate this by combining R-MAX, a prototypical MBRL algorithm, with abstraction, thus producing the first performance guarantees for model-based 'RL from Abstracted Observations': model-based reinforcement learning with an abstract model. | 翻訳日:2023-11-16 21:16:31 公開日:2023-11-15 |
# 量子回路マッピングを用いた単一励起共振オープン量子システムtavis-cummingsモデル Singly-excited resonant open quantum system Tavis-Cummings model with quantum circuit mapping ( http://arxiv.org/abs/2208.12029v2 ) ライセンス: Link先を確認 | Marina Krstic Marinkovic, Marina Radulaski | (参考訳) tavis-cummings (tc) 共振器量子電気力学効果は、n$原子と光共振器の相互作用を記述するもので、原子、光学、固体物理学の核である。
tcダイナミクスの完全な数値シミュレーションは原子数に指数関数的にスケールする。
量子光学の実験的な実現の典型である単一励起に開量子系を限定することにより、線形複雑性を持つ任意の数の原子でTCモデルを解析的に解く。
この解により、共振器相互作用の量子マッピングアルゴリズムを、線形空間と時間スケールを持つ量子回路への直観的なtcマッピングである$n$ atoms (q-marina) で考案することができる。
最後に,古典計算機上の量子マスター方程式解に対して,量子シミュレータおよび超伝導量子プロセッサ上でのアルゴリズムのロバスト性をベンチマークする。 Tavis-Cummings (TC) cavity quantum electrodynamical effects, describing the interaction of $N$ atoms with an optical resonator, are at the core of atomic, optical and solid state physics. The full numerical simulation of TC dynamics scales exponentially with the number of atoms. By restricting the open quantum system to a single excitation, typical of experimental realizations in quantum optics, we analytically solve the TC model with an arbitrary number of atoms with linear complexity. This solution allows us to devise the Quantum Mapping Algorithm of Resonator Interaction with $N$ Atoms (Q-MARINA), an intuitive TC mapping to a quantum circuit with linear space and time scaling, whose $N+1$ qubits represent atoms and a lossy cavity, while the dynamics is encoded through $2N$ entangling gates. Finally, we benchmark the robustness of the algorithm on a quantum simulator and superconducting quantum processors against the quantum master equation solution on a classical computer. | 翻訳日:2023-11-16 21:16:10 公開日:2023-11-15 |
# CFARnet:一定の誤報率による目標検出のためのディープラーニング CFARnet: deep learning for target detection with constant false alarm rate ( http://arxiv.org/abs/2208.02474v3 ) ライセンス: Link先を確認 | Tzvi Diskin, Yiftach Beer, Uri Okun and Ami Wiesel | (参考訳) 一定の誤報率(cfar)を有するターゲット検出の問題点について考察する。
この制約は多くの実用的応用において不可欠であり、古典的な合成仮説検定の標準要件である。
古典的なアプローチが計算に高価である場合やデータサンプルのみが与えられる場合、機械学習手法は有利である。
CFARはこれらの設定では理解されていない。
このギャップを埋めるために、CFAR制約検出器の枠組みを導入する。
理論的には、CFAR制約ベイズ最適検出器が古典的一般化可能性比検定(GLRT)と漸近的に等価であることを示す。
実際に、ニューラルネットワークを近似する深層学習フレームワークを開発した。
異なる設定での目標検出実験により、提案したCFARnetはCFARと精度の柔軟なトレードオフを可能にすることが示された。 We consider the problem of target detection with a constant false alarm rate (CFAR). This constraint is crucial in many practical applications and is a standard requirement in classical composite hypothesis testing. In settings where classical approaches are computationally expensive or where only data samples are given, machine learning methodologies are advantageous. CFAR is less understood in these settings. To close this gap, we introduce a framework of CFAR constrained detectors. Theoretically, we prove that a CFAR constrained Bayes optimal detector is asymptotically equivalent to the classical generalized likelihood ratio test (GLRT). Practically, we develop a deep learning framework for fitting neural networks that approximate it. Experiments of target detection in different setting demonstrate that the proposed CFARnet allows a flexible tradeoff between CFAR and accuracy. | 翻訳日:2023-11-16 21:15:49 公開日:2023-11-15 |
# セルワイズ最小共分散式推定器 The Cellwise Minimum Covariance Determinant Estimator ( http://arxiv.org/abs/2207.13493v2 ) ライセンス: Link先を確認 | Jakob Raymaekers and Peter J. Rousseeuw | (参考訳) 共分散行列の通常の最小共分散決定式 (MCD) 推定器は、ケースワイドの外れ値に対して頑健である。
これらのケース(つまりデータマトリクスの行)は、ほとんどのケースと異なる振る舞いをしており、異なる集団に属するのではないかという疑念を呼んでいる。
一方、セルワイド・アウトレイアはデータマトリックス内の個々のセルである。
行が1つ以上の外側の細胞を含むとき、同じ列にある他の細胞は、保存したい有用な情報を含む。
そこで本研究では,MCD方式のセルワイドロバストバージョンであるCellMCDを提案する。
主なビルディングブロックは、フラグ付きセルワイドアウトリー数に対する、可能性とペナルティの項である。
優れた破壊特性を有する。
我々は,常に目標を下げる濃度ステップ(Cステップ)に基づくセルMCDの高速アルゴリズムを構築した。
本手法はセルワイド・アウトリーのシミュレーションにおいて良好に動作し,クリーンデータに対する有限サンプル効率が高い。
実データ上には結果の可視化が図示されている。 The usual Minimum Covariance Determinant (MCD) estimator of a covariance matrix is robust against casewise outliers. These are cases (that is, rows of the data matrix) that behave differently from the majority of cases, raising suspicion that they might belong to a different population. On the other hand, cellwise outliers are individual cells in the data matrix. When a row contains one or more outlying cells, the other cells in the same row still contain useful information that we wish to preserve. We propose a cellwise robust version of the MCD method, called cellMCD. Its main building blocks are observed likelihood and a penalty term on the number of flagged cellwise outliers. It possesses good breakdown properties. We construct a fast algorithm for cellMCD based on concentration steps (C-steps) that always lower the objective. The method performs well in simulations with cellwise outliers, and has high finite-sample efficiency on clean data. It is illustrated on real data with visualizations of the results. | 翻訳日:2023-11-16 21:15:37 公開日:2023-11-15 |
# GenHPF:マルチタスクマルチソース学習による一般医療予測フレームワーク GenHPF: General Healthcare Predictive Framework with Multi-task Multi-source Learning ( http://arxiv.org/abs/2207.09858v3 ) ライセンス: Link先を確認 | Kyunghoon Hur, Jungwoo Oh, Junu Kim, Jiyoun Kim, Min Jae Lee, Eunbyeol Cho, Seong-Eun Moon, Young-Hak Kim, Louis Atallah, Edward Choi | (参考訳) 医療のための予測モデルの開発が著しく進んでいるにもかかわらず、これらのアルゴリズムを大規模に適用することは困難である。
特定のタスクで訓練されたアルゴリズムは、一連の医療記録で利用可能な特定のデータ形式に基づいており、データフィールドが異なる可能性のある他のタスクやデータベースにうまく一般化しない傾向にある。
この課題に対処するため、我々は、複数の予測タスクに対して最小限の事前処理を持つ任意の EHR に適用可能な General Healthcare Predictive Framework (GenHPF) を提案する。
GenHPFは、EHRをできるだけ多くの特徴を取り入れつつ階層的なテキスト表現に変換することで、医療コードやスキーマの不均一性を解消する。
GenHPFの有効性を評価するため、臨床に有意な12の予測タスクに対して、異なるスキーマを持つ3つのEHRデータセット上で、シングルソースおよびマルチソース設定を用いたマルチタスク学習実験を行った。
本フレームワークは,マルチソース学習におけるドメイン知識を活用したベースラインモデルよりも優れ,プール学習における平均AUROCの1.2%,トランスファー学習における平均AUROCの2.6%を向上すると同時に,単一のEHRデータセットでトレーニングした場合と同等の結果を示す。
さらに,GenHPFと組み合わせた場合,マルチソースデータセットを用いた自己教師付き事前トレーニングが有効であることを示し,事前トレーニングのないモデルと比較して0.6%のAUROC改善が得られた。
事前処理と機能エンジニアリングの必要性を排除することで、この作業は、医療における予測アルゴリズムのスケーリングと利用をスピードアップするために活用できる、マルチタスクおよびマルチソース学習のための堅実なフレームワークを提供すると信じています。 Despite the remarkable progress in the development of predictive models for healthcare, applying these algorithms on a large scale has been challenging. Algorithms trained on a particular task, based on specific data formats available in a set of medical records, tend to not generalize well to other tasks or databases in which the data fields may differ. To address this challenge, we propose General Healthcare Predictive Framework (GenHPF), which is applicable to any EHR with minimal preprocessing for multiple prediction tasks. GenHPF resolves heterogeneity in medical codes and schemas by converting EHRs into a hierarchical textual representation while incorporating as many features as possible. To evaluate the efficacy of GenHPF, we conduct multi-task learning experiments with single-source and multi-source settings, on three publicly available EHR datasets with different schemas for 12 clinically meaningful prediction tasks. Our framework significantly outperforms baseline models that utilize domain knowledge in multi-source learning, improving average AUROC by 1.2%P in pooled learning and 2.6%P in transfer learning while also showing comparable results when trained on a single EHR dataset. Furthermore, we demonstrate that self-supervised pretraining using multi-source datasets is effective when combined with GenHPF, resulting in a 0.6%P AUROC improvement compared to models without pretraining. By eliminating the need for preprocessing and feature engineering, we believe that this work offers a solid framework for multi-task and multi-source learning that can be leveraged to speed up the scaling and usage of predictive algorithms in healthcare. | 翻訳日:2023-11-16 21:15:10 公開日:2023-11-15 |
# URANUS:無人航空機の周波数追跡・分類・識別 URANUS: Radio Frequency Tracking, Classification and Identification of Unmanned Aircraft Vehicles ( http://arxiv.org/abs/2207.06025v3 ) ライセンス: Link先を確認 | Domenico Lof\`u, Pietro Di Gennaro, Pietro Tedeschi, Tommaso Di Noia and Eugenio Di Sciascio | (参考訳) 空港、軍事基地、市中心部、混雑した場所など、機密性の高い空域を飛行する攻撃ベクターとして、攻撃者がドローンを採用する中で、臨界インフラの安全性とセキュリティの問題は増えている。
UAVはロジスティクス、船舶のレクリエーション活動、商業用途に使われているが、制限空域への侵入や違反により運用者に深刻な懸念を抱いている。
このようなケースでドローンの存在を検出するには、コスト効率が高くリアルタイムなフレームワークが必要です。
本稿では,URANUSと呼ばれる効率的な無線周波数検出フレームワークを提案する。
我々は、無線周波数/方向検出システムとレーダーによって提供されるリアルタイムデータを活用し、ドローン(マルチコプターと固定翼)の非ドローンゾーンの検出、分類、識別を行う。
我々は,多層パーセプトロンニューラルネットワークを用いて,90$%の精度で,uavをリアルタイムに識別・分類する。
追跡タスクでは、ランダムフォレストモデルを使用して、MSE $\approx0.29$、MAE $\approx0.04$、R^2\approx 0.93$でドローンの位置を予測する。
さらに,Universal Transverse Mercator 座標を用いて座標回帰を行い,高精度性を確保する。
我々の分析によると、URANUSは、ほとんどのクリティカルインフラストラクチャーオペレーターが採用できるUAVを特定し、分類し、追跡するための理想的なフレームワークである。 Safety and security issues for Critical Infrastructures are growing as attackers adopt drones as an attack vector flying in sensitive airspaces, such as airports, military bases, city centers, and crowded places. Despite the use of UAVs for logistics, shipping recreation activities, and commercial applications, their usage poses severe concerns to operators due to the violations and the invasions of the restricted airspaces. A cost-effective and real-time framework is needed to detect the presence of drones in such cases. In this contribution, we propose an efficient radio frequency-based detection framework called URANUS. We leverage real-time data provided by the Radio Frequency/Direction Finding system, and radars in order to detect, classify and identify drones (multi-copter and fixed-wings) invading no-drone zones. We adopt a Multilayer Perceptron neural network to identify and classify UAVs in real-time, with $90$% accuracy. For the tracking task, we use a Random Forest model to predict the position of a drone with an MSE $\approx0.29$, MAE $\approx0.04$, and $R^2\approx 0.93$. Furthermore, coordinate regression is performed using Universal Transverse Mercator coordinates to ensure high accuracy. Our analysis shows that URANUS is an ideal framework for identifying, classifying, and tracking UAVs that most Critical Infrastructure operators can adopt. | 翻訳日:2023-11-16 21:14:39 公開日:2023-11-15 |
# カテゴリー的極限としての量子・デ・フィネッティ理論とC*-代数の状態空間の極限 Quantum de Finetti Theorems as Categorical Limits, and Limits of State Spaces of C*-algebras ( http://arxiv.org/abs/2207.05832v2 ) ライセンス: Link先を確認 | Sam Staton (University of Oxford), Ned Summers (University of Oxford) | (参考訳) ド・フィニッティの定理は、結果の確率がそれらの順序から独立すると仮定すると、これらの結果の列は、分布からランダムに実験を描き、何度も繰り返して、同等に生成することができることを教えてくれる。
特に、量子ド・フィニッティの定理は、量子状態の交換可能な列は常に1つの状態上の分布によって表されることを示している。
この論文の主な結果は、この量子デ・フィネッティ構成が圏的極限として普遍性を持つことである。
これにより、有限次元量子論のカテゴリー的処理と無限次元の間に正準を渡すことができる。
ここでの処理は、物理系をその凸、コンパクトな状態空間に記述するc*-代数を取る反変関手に関する(co)極限の性質の理解とラドン確率モナドの議論によるものである。
また、同じ分類解析が古典的確率に対する連続デ・フィネッティの定理を正当化することを示した。 De Finetti theorems tell us that if we expect the likelihood of outcomes to be independent of their order, then these sequences of outcomes could be equivalently generated by drawing an experiment at random from a distribution, and repeating it over and over. In particular, the quantum de Finetti theorem says that exchangeable sequences of quantum states are always represented by distributions over a single state produced over and over. The main result of this paper is that this quantum de Finetti construction has a universal property as a categorical limit. This allows us to pass canonically between categorical treatments of finite dimensional quantum theory and the infinite dimensional. The treatment here is through understanding properties of (co)limits with respect to the contravariant functor which takes a C*-algebra describing a physical system to its convex, compact space of states, and through discussion of the Radon probability monad. We also show that the same categorical analysis also justifies a continuous de Finetti theorem for classical probability. | 翻訳日:2023-11-16 21:14:13 公開日:2023-11-15 |
# 公平な機械学習のための因果関係の必要性と適用性について On the Need and Applicability of Causality for Fair Machine Learning ( http://arxiv.org/abs/2207.04053v3 ) ライセンス: Link先を確認 | R\=uta Binkyt\.e, Ljupcho Grozdanovski, Sami Zhioua | (参考訳) 疫学、政治学、社会科学における一般的なユースケースに加えて、因果関係は法的な意味でも日常的にも自動決定の公平性を評価する上で重要であることが判明した。
因果関係が公平性評価に特に重要である理由について、議論や例を挙げる。
特に,非因果的予測の社会的影響と,因果的主張に依存する法的差別防止過程を指摘する。
結論として,実用シナリオと可能なソリューションにおける因果性適用の課題と限界について論じた。 Besides its common use cases in epidemiology, political, and social sciences, causality turns out to be crucial in evaluating the fairness of automated decisions, both in a legal and everyday sense. We provide arguments and examples, of why causality is particularly important for fairness evaluation. In particular, we point out the social impact of non-causal predictions and the legal anti-discrimination process that relies on causal claims. We conclude with a discussion about the challenges and limitations of applying causality in practical scenarios as well as possible solutions. | 翻訳日:2023-11-16 21:13:50 公開日:2023-11-15 |
# OVeNet:セマンティックセグメンテーションのためのオフセットベクトルネットワーク OVeNet: Offset Vector Network for Semantic Segmentation ( http://arxiv.org/abs/2303.14516v2 ) ライセンス: Link先を確認 | Stamatis Alexandropoulos, Christos Sakaridis and Petros Maragos | (参考訳) セマンティックセグメンテーションは視覚的シーン理解の基本的な課題である。
我々は、基幹構文のセマンティックアノテーションが利用できる教師付き設定に焦点を当てる。
実世界のシーンの高規則性に関する知識に基づいて,近隣の画素からの情報を選択的に活用することを学ぶことによって,クラス予測を改善する手法を提案する。
特に,本手法は,各画素に対して,その近傍に同じ予測値を共有するシードピクセルが存在することに基づく。
そこで本研究では,新たな2つのヘッドネットワークであるoffset vector network (ovenet) を設計し,各画素から各シード画素へのオフセットを示す2次元オフセットベクトルフィールドと標準意味予測を生成する。
予測オフセットベクトル場に対する学習密度信頼度マップを用いて、2つの予測を各画素で適応的に融合する。
シードベース予測の最適化と信頼度マップの新たな損失により,オフセットベクトルを間接的に監視する。
OVeNetが構築されているHRNetとHRNet+OCRのベースラインアーキテクチャと比較して、後者はセマンティックセグメンテーションのための3つの顕著なベンチマーク、すなわちCityscapes、ACDC、ADE20Kで大きなパフォーマンス向上を達成した。
コードはhttps://github.com/stamatisalex/OVeNetで入手できる。 Semantic segmentation is a fundamental task in visual scene understanding. We focus on the supervised setting, where ground-truth semantic annotations are available. Based on knowledge about the high regularity of real-world scenes, we propose a method for improving class predictions by learning to selectively exploit information from neighboring pixels. In particular, our method is based on the prior that for each pixel, there is a seed pixel in its close neighborhood sharing the same prediction with the former. Motivated by this prior, we design a novel two-head network, named Offset Vector Network (OVeNet), which generates both standard semantic predictions and a dense 2D offset vector field indicating the offset from each pixel to the respective seed pixel, which is used to compute an alternative, seed-based semantic prediction. The two predictions are adaptively fused at each pixel using a learnt dense confidence map for the predicted offset vector field. We supervise offset vectors indirectly via optimizing the seed-based prediction and via a novel loss on the confidence map. Compared to the baseline state-of-the-art architectures HRNet and HRNet+OCR on which OVeNet is built, the latter achieves significant performance gains on three prominent benchmarks for semantic segmentation, namely Cityscapes, ACDC and ADE20K. Code is available at https://github.com/stamatisalex/OVeNet | 翻訳日:2023-11-16 21:05:54 公開日:2023-11-15 |
# 適応平滑化による分類器の精度・ロバスト性トレードオフの改善 Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing ( http://arxiv.org/abs/2301.12554v3 ) ライセンス: Link先を確認 | Yatong Bai, Brendon G. Anderson, Aerin Kim, Somayeh Sojoudi | (参考訳) 先行研究は、敵の強靭性に対して頑健な神経分類器を構築するための多くの方法を提案してきたが、実践者は、許容できないほど厳格な正確さのために、それを採用することを拒んでいる。
本稿では,標準ネットワークをクリーンな精度に最適化し,一般にロバストではない標準分類器とロバスト分類器の出力確率を混合することにより,この精度・ロバスト性トレードオフを著しく軽減する。
正誤例に対する頑健な基本分類器の信頼性差が,この改良の鍵となることを示す。
直観と経験的証拠を提供するだけでなく、現実的な仮定の下で混合分類器の強固さを理論的に証明する。
さらに,2つのベースモデルの混合を適応的に調整する混合ネットワークに逆入力検出器を適応させ,ロバスト性を達成するための精度を低下させる。
提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、敵検出を改善する既存のあるいは将来の方法と連携して機能する。
自己攻撃や適応攻撃など,強固な攻撃方法を検討した。
cifar-100データセットでは、38.72%の$\ell_\infty$-autoattacked (\epsilon = 8/255$)精度を維持しながら85.21%のクリーン精度を達成し、提案時点でロバストbench cifar-100ベンチマークで2番目に堅牢な方法となった。
このメソッドを実装するコードは、https://github.com/bai-yt/adaptivesmoothingで利用可能です。 While prior research has proposed a plethora of methods that build neural classifiers robust against adversarial robustness, practitioners are still reluctant to adopt them due to their unacceptably severe clean accuracy penalties. This paper significantly alleviates this accuracy-robustness trade-off by mixing the output probabilities of a standard classifier and a robust classifier, where the standard network is optimized for clean accuracy and is not robust in general. We show that the robust base classifier's confidence difference for correct and incorrect examples is the key to this improvement. In addition to providing intuitions and empirical evidence, we theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed "adaptive smoothing", can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon = 8/255$) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing. | 翻訳日:2023-11-16 21:05:27 公開日:2023-11-15 |
# コンカレントシステムとソフトウェアのプロパティ検証のためのプログラム依存ネットとオンデマンドスライシング Program Dependence Net and On-demand Slicing for Property Verification of Concurrent System and Software ( http://arxiv.org/abs/2301.11723v2 ) ライセンス: Link先を確認 | Zhijun Ding, Shuo Li, Cheng Chen and Cong He | (参考訳) 有限状態モデルを用いて並行ソフトウェアをチェックするとき、我々は恐ろしい状態爆発問題に直面する。
この問題に対する1つの解決策は依存型プログラムスライシングであり、その使用は検証時間を効果的に削減できる。
他のモデルチェックの削減手法と直交する。
しかし、モデルチェックのために並列プログラムをスライシングする場合、複数の非置換可能なモデルの間で変換が行われ、検証されたプロパティとは無関係な変数に対して依存関係を見つける必要がある。
そこで本研究では,ペトリネット理論に基づくプログラム依存ネット(PDNet)を提案する。
変換を避けるために、制御フロー構造と依存関係を組み合わせた統一モデルである。
そこで本研究では,PDNetスライシング手法を用いて,変数の依存関係を抽出する手法を提案する。
線形時相論理とそのオンデマンドスライシングを検証するpdnetは、計算コストを大幅に削減することができる。
我々は,pdnetに基づくモデルチェックツールとそのオンデマンドスライシングを実装し,提案手法の利点を検証する。 When checking concurrent software using a finite-state model, we face a formidable state explosion problem. One solution to this problem is dependence-based program slicing, whose use can effectively reduce verification time. It is orthogonal to other model-checking reduction techniques. However, when slicing concurrent programs for model checking, there are conversions between multiple irreplaceable models, and dependencies need to be found for variables irrelevant to the verified property, which results in redundant computation. To resolve this issue, we propose a Program Dependence Net (PDNet) based on Petri net theory. It is a unified model that combines a control-flow structure with dependencies to avoid conversions. For reduction, we present a PDNet slicing method to capture the relevant variables' dependencies when needed. PDNet in verifying linear temporal logic and its on-demand slicing can be used to significantly reduce computation cost. We implement a model-checking tool based on PDNet and its on-demand slicing, and validate the advantages of our proposed methods. | 翻訳日:2023-11-16 21:04:54 公開日:2023-11-15 |
# 言語モデルに基づく知識グラフ埋め込みの編集 Editing Language Model-based Knowledge Graph Embeddings ( http://arxiv.org/abs/2301.10405v6 ) ライセンス: Link先を確認 | Siyuan Cheng, Ningyu Zhang, Bozhong Tian, Xi Chen, Qingbing Liu, Huajun Chen | (参考訳) 近年では言語モデルによる知識グラフ(kg)埋め込みが実証的に成功している。
しかしながら、言語モデルに基づくkg埋め込みは通常、静的アーティファクトとしてデプロイされるため、デプロイ後に再トレーニングすることなく、デプロイ後の修正が困難になる。
そこで本稿では,言語モデルに基づくKG埋め込みを編集する新しいタスクを提案する。
このタスクは、他の側面のパフォーマンスを損なうことなく、高速でデータ効率のよいKG埋め込みの更新を容易にするように設計されている。
e-fb15k237,a-fb15k237,e-wn18rr,a-wn18rrの4つの新しいデータセットを構築し,提案課題に対処するための既存モデルの限られた能力を示す,いくつかの知識編集ベースラインを評価した。
さらに,ハイパーネットワークのパラメトリック層を追加して事実の編集・追加を行う,シンプルかつ強力なベースラインであるkgeditorを提案する。
総合的な実験結果から,KGEditorは,限られたトレーニングリソースに直面した場合でも,全体のパフォーマンスに影響を与えることなく,特定の事実の更新に優れることがわかった。
コードとデータセットはhttps://github.com/zjunlp/PromptKG/tree/main/deltaKGで入手できる。 Recently decades have witnessed the empirical success of framing Knowledge Graph (KG) embeddings via language models. However, language model-based KG embeddings are usually deployed as static artifacts, making them difficult to modify post-deployment without re-training after deployment. To address this issue, we propose a new task of editing language model-based KG embeddings in this paper. This task is designed to facilitate rapid, data-efficient updates to KG embeddings without compromising the performance of other aspects. We build four new datasets: E-FB15k237, A-FB15k237, E-WN18RR, and A-WN18RR, and evaluate several knowledge editing baselines demonstrating the limited ability of previous models to handle the proposed challenging task. We further propose a simple yet strong baseline dubbed KGEditor, which utilizes additional parametric layers of the hyper network to edit/add facts. Our comprehensive experimental results reveal that KGEditor excels in updating specific facts without impacting the overall performance, even when faced with limited training resources. Code and datasets are available in https://github.com/zjunlp/PromptKG/tree/main/deltaKG. | 翻訳日:2023-11-16 21:04:19 公開日:2023-11-15 |
# 非エルミート$\mathcal{PT}$-対称二層系における非断熱遷移 Nonadiabatic transitions in non-Hermitian $\mathcal{PT}$-symmetric two-level systems ( http://arxiv.org/abs/2301.10382v2 ) ライセンス: Link先を確認 | Jian-Song Pan and Fan Wu | (参考訳) 我々はスピン依存散逸を伴う時空($\mathcal{PT}$)対称二段階系の動的進化を系統的に特徴づける。
エネルギーギャップ制御パラメータがチューニングされると、散逸項が支配的な領域に例外点(ep)で終わる想像上のスペクトルのセクションが現れる。
パラメータが時間と線形に調整された場合、動的進化はパラボラシリンダー方程式で特徴づけることができ、解析的に解くことができる。
この2段階における粒子の確率の漸近的挙動は、システムがepを横切る非定常に駆動される場合、スローチューニング速度限界における初期状態非依存再分配を示す。
等分布は、非散逸ハミルトニアンがギャップ閉包を示すときに現れる。
非散逸ハミルトニアンがレベル反交差を示す限り、最終的な分布は不均衡となる。
職業確率の比率は分析的に与えられる。
これらの結果は数値シミュレーションで確認される。
予測される等分布現象は、2つのエネルギーバンド間の反交差のギャップを識別するために用いられる。 We systematically characterize the dynamical evolution of time-parity ($\mathcal{PT}$)-symmetric two-level systems with spin-dependent dissipations. When the energy-gap control parameters are tuned, a section of imaginary spectra ended with exceptional points (EP) appears in the regimes where the dissipation term is dominant. If the parameters are linearly tuned with time, the dynamical evolution can be characterized with the parabolic cylinder equations, which can be analytically solved. We find that the asymptotic behaviors of particle probability on the two levels show initial-state-independent redistribution in the slow-tuning-speed limit when the system is nonadiabatically driven across EPs. Equal distributions appear when the non-dissipative Hamiltonian shows gap closing. So long as the non-dissipative Hamiltonian displays level anti-crossing, the final distribution becomes unbalanced. The ratios between the occupation probabilities are given analytically. These results are confirmed with numerical simulations. The predicted equal-distribution phenomenon may be employed to identify gap closing from anti-crossing between two energy bands. | 翻訳日:2023-11-16 21:03:55 公開日:2023-11-15 |
# カルタン分解による準最適量子回路構築 Near-optimal quantum circuit construction via Cartan decomposition ( http://arxiv.org/abs/2212.12934v3 ) ライセンス: Link先を確認 | Maximilian Balthasar Mansky, Santiago Londo\~no Castillo, Victor Ramos Puigvert, Claudia Linnhoff-Popien | (参考訳) リー代数のカルタン分解を量子回路に適用する可能性を示す。
このアプローチは、望ましいユニタリ操作を効率的に実装できる回路を合成するのに使うことができる。
提案手法では,関連するリー代数の代数的生成子の量子回路表現を明示的に表現し,カルタン分解を直接量子コンピュータに実装する。
この構成は再帰的であり、各キュービット上の生成回路や回転行列に回路を拡大することが可能であり、再帰的アルゴリズムにより、生成回路自体を制御ノット(CNOT)とSWAPゲートで明示的に表現できることが分かる。
提案手法は標準CNOT実装とは独立であり,他の回路素子にも容易に適用可能である。
その汎用性に加えて、CNOTゲートで作業する際の最適値に近い数も達成し、漸近的ノットコスト$\frac{21}{16}4^n$ for $n$ qubits を達成する。 We show the applicability of the Cartan decomposition of Lie algebras to quantum circuits. This approach can be used to synthesize circuits that can efficiently implement any desired unitary operation. Our method finds explicit quantum circuit representations of the algebraic generators of the relevant Lie algebras allowing the direct implementation of a Cartan decomposition on a quantum computer. The construction is recursive and allows us to expand any circuit down to generators and rotation matrices on individual qubits, where through our recursive algorithm we find that the generators themselves can be expressed with controlled-not (CNOT) and SWAP gates explicitly. Our approach is independent of the standard CNOT implementation and can be easily adapted to other cross-qubit circuit elements. In addition to its versatility, we also achieve near-optimal counts when working with CNOT gates, achieving an asymptotic cnot cost of $\frac{21}{16}4^n$ for $n$ qubits. | 翻訳日:2023-11-16 21:03:40 公開日:2023-11-15 |
# 赤外線超解像 : システムレビューと今後の展望 Infrared Image Super-Resolution: Systematic Review, and Future Trends ( http://arxiv.org/abs/2212.12322v2 ) ライセンス: Link先を確認 | Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Shinichiro Omachi | (参考訳) Image Super-Resolution (SR) は、幅広いコンピュータビジョンと画像処理タスクに不可欠である。
赤外線画像(または熱画像)の超解像は、深層学習の発展における継続的な関心事である。
本研究の目的は、IR画像の超解像の総合的な展望を提供することであり、その応用、ハードウェアイメージングシステムジレンマ、画像処理手法の分類などである。
さらに、IR画像超解像タスクにおけるデータセットと評価指標についても論じる。
さらに、現在の技術における欠陥や、コミュニティが探究する有望な方向性が強調されている。
この分野での急速な開発に対処するため、我々は、関連する優れた仕事を定期的に更新するつもりです。 Image Super-Resolution (SR) is essential for a wide range of computer vision and image processing tasks. Investigating infrared (IR) image (or thermal images) super-resolution is a continuing concern within the development of deep learning. This survey aims to provide a comprehensive perspective of IR image super-resolution, including its applications, hardware imaging system dilemmas, and taxonomy of image processing methodologies. In addition, the datasets and evaluation metrics in IR image super-resolution tasks are also discussed. Furthermore, the deficiencies in current technologies and possible promising directions for the community to explore are highlighted. To cope with the rapid development in this field, we intend to regularly update the relevant excellent work at \url{https://github.com/yongsongH/Infrared_Image_SR_Survey | 翻訳日:2023-11-16 21:03:23 公開日:2023-11-15 |
# Masked Event Modeling: イベントカメラのための自己監督型事前トレーニング Masked Event Modeling: Self-Supervised Pretraining for Event Cameras ( http://arxiv.org/abs/2212.10368v2 ) ライセンス: Link先を確認 | Simon Klenk, David Bonello, Lukas Koestler, Nikita Araslanov, Daniel Cremers | (参考訳) イベントカメラは、低レイテンシ、高時間解像度、高ダイナミックレンジで輝度変化を非同期にキャプチャする機能を提供する。
分類やその他のタスクのためのディープラーニングメソッドをこれらのセンサーにデプロイするには、通常、大きなラベル付きデータセットが必要である。
ラベル付きイベントデータの量はラベル付きRGB画像に比べて少ないため、イベントベースのビジョンの進歩は依然として限られている。
ラベル付きイベントデータへの依存性を低減するため、イベントのための自己教師付き事前トレーニングフレームワークであるMasked Event Modeling (MEM)を導入する。
本手法は,任意のイベントカメラ記録から発生するラベルなしイベントに対してニューラルネットワークを事前学習する。
その後、事前トレーニングされたモデルは下流タスクで微調整され、ラベルを少なくしながら全体的なパフォーマンスが向上する。
提案手法は,N-ImageNet,N-Cars,N-Caltech101の最先端技術より優れ,N-ImageNetのオブジェクト分類精度を7.96%向上させる。
Masked Event Modelingは、実世界のデータセット上でのRGBベースの事前トレーニングよりも優れていることを示す。 Event cameras offer the capacity to asynchronously capture brightness changes with low latency, high temporal resolution, and high dynamic range. Deploying deep learning methods for classification or other tasks to these sensors typically requires large labeled datasets. Since the amount of labeled event data is tiny compared to the bulk of labeled RGB imagery, the progress of event-based vision has remained limited. To reduce the dependency on labeled event data, we introduce Masked Event Modeling (MEM), a self-supervised pretraining framework for events. Our method pretrains a neural network on unlabeled events, which can originate from any event camera recording. Subsequently, the pretrained model is finetuned on a downstream task leading to an overall better performance while requiring fewer labels. Our method outperforms the state-of-the-art on N-ImageNet, N-Cars, and N-Caltech101, increasing the object classification accuracy on N-ImageNet by 7.96%. We demonstrate that Masked Event Modeling is superior to RGB-based pretraining on a real world dataset. | 翻訳日:2023-11-16 21:03:09 公開日:2023-11-15 |
# 熱行列化ポリトープとその退化 The Thermomajorization Polytope and Its Degeneracies ( http://arxiv.org/abs/2212.04305v3 ) ライセンス: Link先を確認 | Frederik vom Ende, Emanuel Malvetti | (参考訳) 将来の熱錐は、与えられた初期状態によって熱行列化された全ての状態の集合であり、準古典的領域において凸ポリトープを形成し、このポリトープの極端点に置換を関連付ける地図を明示的に書き下すことができることはよく知られている。
そのような極端点が与えられたとき、初期状態をその極端状態にマッピングするギブス確率行列の式をレビューし、単純な基礎構造を明らかにする。
これにより、輸送多面体理論と接続し、「構造が整った」ギブズ状態や「安定な」ギブズ状態の概念を導くことができる。
前者は極大である極大状態の数に関係しているが、後者は準古典的領域において熱大化が部分次数であるときに特徴付けられる。
さらに、極点写像が2つの異なる置換を同じ状態にマップするかどうかを確認するために、ポリトープの退化に関する簡単な基準を与える。 It is well known that the future thermal cone -- which is the set of all states thermomajorized by a given initial state -- forms a convex polytope in the quasi-classical realm, and that one can explicitly write down a map which relates the permutations to the extreme points of this polytope. Given any such extreme point we review a formula for a Gibbs-stochastic matrix that maps the initial state to said extremal state, and we uncover the simple underlying structure. This allows us to draw a connection to the theory of transportation polytopes, which leads to the notions of "well-structured" and "stable" Gibbs states. While the former relates to the number of extremal states being maximal, the latter characterizes when thermomajorization is a partial order in the quasi-classical realm; this corresponds to the impossibility of cyclic state transfers. Moreover, we give simple criteria for degeneracy of the polytope, that is, for checking whether the extreme point map maps two different permutations to the same state. | 翻訳日:2023-11-16 21:02:37 公開日:2023-11-15 |
# ソボレフおよびベソフ空間上の深部ReLUニューラルネットワークの最適近似速度 Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces ( http://arxiv.org/abs/2211.14400v4 ) ライセンス: Link先を確認 | Jonathan W. Siegel | (参考訳) \omega = [0,1]^d$ を$\mathbb{r}^d$ の単位立方体とする。
パラメータ数の観点からは、ReLUアクティベーション関数を持つディープニューラルネットワークがソボレフ空間$W^s(L_q(\Omega))$とBesov空間$B^s_r(L_q(\Omega))$の関数に近似し、誤りを$L_p(\Omega)$のノルムで測定する。
この問題は、科学計算や信号処理を含む様々な分野におけるニューラルネットワークの応用を研究する際に重要であり、以前は$p=q=infty$であった。
我々の貢献は、対応するソボレフ空間やベッソフ空間がコンパクトに $l_p$ に埋め込み、すべての 1\leq p,q\leq \infty$ と $s > 0$ に対する完全な解を提供することです。
鍵となる技術ツールは、スパースベクトルを最適に符号化する新しいビット抽出技術である。
これにより、$p > q$ の非線形状態において鋭い上限を得ることができる。
また,$p < \infty$ の場合,vc-dimension に基づいて$l_p$-approximation 下限を導出する新しい方法を提案する。
以上の結果から,非常に深いReLUネットワークは,パラメータ数の観点から古典的近似法を著しく上回っているが,これはエンコード不可能なパラメータのコストが原因であることがわかった。 Let $\Omega = [0,1]^d$ be the unit cube in $\mathbb{R}^d$. We study the problem of how efficiently, in terms of the number of parameters, deep neural networks with the ReLU activation function can approximate functions in the Sobolev spaces $W^s(L_q(\Omega))$ and Besov spaces $B^s_r(L_q(\Omega))$, with error measured in the $L_p(\Omega)$ norm. This problem is important when studying the application of neural networks in a variety of fields, including scientific computing and signal processing, and has previously been solved only when $p=q=\infty$. Our contribution is to provide a complete solution for all $1\leq p,q\leq \infty$ and $s > 0$ for which the corresponding Sobolev or Besov space compactly embeds into $L_p$. The key technical tool is a novel bit-extraction technique which gives an optimal encoding of sparse vectors. This enables us to obtain sharp upper bounds in the non-linear regime where $p > q$. We also provide a novel method for deriving $L_p$-approximation lower bounds based upon VC-dimension when $p < \infty$. Our results show that very deep ReLU networks significantly outperform classical methods of approximation in terms of the number of parameters, but that this comes at the cost of parameters which are not encodable. | 翻訳日:2023-11-16 21:02:16 公開日:2023-11-15 |
# deanthropomorphising nlp: 言語モデルは意識できるのか? Deanthropomorphising NLP: Can a Language Model Be Conscious? ( http://arxiv.org/abs/2211.11483v4 ) ライセンス: Link先を確認 | Matthew Shardlow and Piotr Przyby{\l}a | (参考訳) この研究は、トランスフォーマーモデルアーキテクチャに基づいた事前訓練された大規模言語モデル(llm)が送信可能であるという以前の主張に対する議論における声として意図されている。
LaMDAモデルやChatGPTのようなLLM駆動チャットボットの現在の波についても、このような主張がなされている。
この主張が確認できれば、同様のモデルが広く使われているため、自然言語処理(nlp)コミュニティに深刻な影響が及ぶだろう。
しかし、ここでは、このような大きな言語モデルは、感性や意識を持たず、特にlamdaは、それに値する他の類似のモデルに対して進歩を示さないという立場を取る。
我々は意識統合情報理論を用いてトランスフォーマーアーキテクチャを分析することによってこれを正当化する。
感性の主張は,NLP報告における人為的言語の使用傾向の広範化の一環と考えられる。
主張の妥当性にかかわらず、私たちはこの瞬間を言語モデリングの進歩を積み重ね、そのタスクの倫理的意味を考察する機会と捉えています。
この作業をNLPコミュニティ以外の読者にとって役立つものにするため、言語モデリングにおける必要な背景も提示する。 This work is intended as a voice in the discussion over previous claims that a pretrained large language model (LLM) based on the Transformer model architecture can be sentient. Such claims have been made concerning the LaMDA model and also concerning the current wave of LLM-powered chatbots, such as ChatGPT. This claim, if confirmed, would have serious ramifications in the Natural Language Processing (NLP) community due to wide-spread use of similar models. However, here we take the position that such a large language model cannot be sentient, or conscious, and that LaMDA in particular exhibits no advances over other similar models that would qualify it. We justify this by analysing the Transformer architecture through Integrated Information Theory of consciousness. We see the claims of sentience as part of a wider tendency to use anthropomorphic language in NLP reporting. Regardless of the veracity of the claims, we consider this an opportune moment to take stock of progress in language modelling and consider the ethical implications of the task. In order to make this work helpful for readers outside the NLP community, we also present the necessary background in language modelling. | 翻訳日:2023-11-16 21:01:43 公開日:2023-11-15 |
# Moessbauer Nucleiを用いた導波路QED Waveguide QED with Moessbauer Nuclei ( http://arxiv.org/abs/2305.11647v2 ) ライセンス: Link先を確認 | Petar Andrejic, Leon Merten Lohse, Adriana Palffy | (参考訳) 埋め込みm\"ossbauer原子核を持つ薄膜ナノ構造は、格子入射時に硬x線結合を持つx線量子光学応用に成功している。
ここでは理論上,硬X線を前方入射(前結合)に結合する新しい幾何学を論じ,核X線共鳴による導波路QEDのステージを設定する。
1次元導波路における場-核相互作用のグリーン関数形式に基づく一般モデルを構築し、時空間応答において動的にビーティングとして見える核前方散乱と、誘導モードのスペクトルで見える放牧入射からの共鳴構造の両方の側面を組み合わせたものであることを示した。
多重モードの干渉は重要な役割を果たすことが示され、実際的なフォトリソグラフィーのスケールでは、数十ミクロンの波長のビートが発生する。
これにより、特別なサンプルジオメトリを設計し、共鳴応答やマイクロストリップ導波路を探索し、硬X線量子光学のための新しい幾何学的設計のツールボックスを開くことができる。 Thin-film nanostructures with embedded M\"ossbauer nuclei have been successfully used for x-ray quantum optical applications with hard x-rays coupling in grazing incidence. Here we address theoretically a new geometry, in which hard x-rays are coupled in forward incidence (front coupling), setting the stage for waveguide QED with nuclear x-ray resonances. We develop a general model based on the Green's function formalism of the field-nucleus interaction in one dimensional waveguides, and show that it combines aspects of both nuclear forward scattering, visible as dynamical beating in the spatio-temporal response, and the resonance structure from grazing incidence, visible in the spectrum of guided modes. The interference of multiple modes is shown to play an important role, resulting in beats with wavelengths on the order of tens of microns, on the scale of practical photolithography. This allows for the design of special sample geometries to explore the resonant response or micro-striped waveguides, opening a new toolbox of geometrical design for hard X-ray quantum optics. | 翻訳日:2023-11-16 20:53:24 公開日:2023-11-15 |
# 流体流れの低次モデリングのための$\beta$-variational autoencoderとtransformer $\beta$-Variational autoencoders and transformers for reduced-order modelling of fluid flows ( http://arxiv.org/abs/2304.03571v2 ) ライセンス: Link先を確認 | Alberto Solera-Rico (1 and 2), Carlos Sanmiguel Vila (1 and 2), M. A. G\'omez (2), Yuning Wang (4), Abdulrahman Almashjary (3), Scott T. M. Dawson (3), Ricardo Vinuesa (4) (1: Aerospace Engineering Research Group, Universidad Carlos III de Madrid, Legan\'es, Spain 2: Subdirectorate General of Terrestrial Systems, Spanish National Institute for Aerospace Technology (INTA), San Mart\'in de la Vega, Spain 3: Mechanical, Materials, and Aerospace Engineering Department, Illinois Institute of Technology, Chicago, USA 4: FLOW, Engineering Mechanics, KTH Royal Institute of Technology, Stockholm, Sweden) | (参考訳) 変分オートエンコーダ(VAE)アーキテクチャは、カオス流体の低次モデル(ROM)を開発する可能性がある。
本研究では,周期的およびカオス的な2次元粘性流からの数値データを用いて,$\beta$-vae とtransformer の組み合わせを用いて,コンパクトおよび近角角角形romを学習する手法を提案する。
この$\beta$-vae は、流れ速度のコンパクトな潜在性表現を学ぶように訓練され、トランスフォーマーは、潜在性空間における時間的ダイナミクスを予測するように訓練される。
潜在空間における不連続表現を学ぶために$\beta$-vaeを用いて、適切な直交分解で観察されるような特徴を持つが、より効率的な表現を持つより解釈可能なフローモデルを得る。
Poincar\'e マップを用いて,本手法が他の予測モデルよりも優れた流れのダイナミックスを捉えることができることを示す。
提案手法は気象予報,構造力学,生物医学工学など他の分野にも応用できる可能性がある。 Variational autoencoder (VAE) architectures have the potential to develop reduced-order models (ROMs) for chaotic fluid flows. We propose a method for learning compact and near-orthogonal ROMs using a combination of a $\beta$-VAE and a transformer, tested on numerical data from a two-dimensional viscous flow in both periodic and chaotic regimes. The $\beta$-VAE is trained to learn a compact latent representation of the flow velocity, and the transformer is trained to predict the temporal dynamics in latent space. Using the $\beta$-VAE to learn disentangled representations in latent-space, we obtain a more interpretable flow model with features that resemble those observed in the proper orthogonal decomposition, but with a more efficient representation. Using Poincar\'e maps, the results show that our method can capture the underlying dynamics of the flow outperforming other prediction models. The proposed method has potential applications in other fields such as weather forecasting, structural dynamics or biomedical engineering. | 翻訳日:2023-11-16 20:52:46 公開日:2023-11-15 |
# se-shapelets:代表シェープレットを用いた時系列の半教師付きクラスタリング SE-shapelets: Semi-supervised Clustering of Time Series Using Representative Shapelets ( http://arxiv.org/abs/2304.03292v2 ) ライセンス: Link先を確認 | Borui Cai, Guangyan Huang, Shuiqiao Yang, Yong Xiang, and Chi-Hung Chi | (参考訳) 時系列クラスタリングにおいて、局所的特徴(サブシーケンス)を用いて時系列を識別するシェープレットが有望である。
既存の時系列クラスタリング法は、非形式的サブシーケンスの大きなプールからシェープレットを発見し、その結果、クラスタリングの精度が低くなるため、代表的なシェイプレットを捕捉できない可能性がある。
本稿では,少数のラベル付きおよび伝播型擬似ラベル付き時系列を用いた,代表シェープレット(se-shapelets)法を用いた時系列の半教師付きクラスタリングを提案する。
SE-Shapeletでは、時系列の効率的なクラスタリングのための代表形レットを見つけるための2つの手法を提案する。
1) \textit{salient subsequence chain} (ssc$) ラベル付き/pseudoラベル付き時系列のsalient subsequence(候補シェープレット)を抽出できる。
2) 異なるクラスにおける時系列の代表的な局所的特徴をキャプチャーできるシェープレットを識別し、便利なクラスタリングを行うための, テキストit{linear discriminant selection}(LDS$)アルゴリズム。
UCR時系列データセットの実験では、SE-シェープレットが代表的なシェープレットを発見し、対応する半教師付き時系列クラスタリング法よりも高いクラスタリング精度を実現する。 Shapelets that discriminate time series using local features (subsequences) are promising for time series clustering. Existing time series clustering methods may fail to capture representative shapelets because they discover shapelets from a large pool of uninformative subsequences, and thus result in low clustering accuracy. This paper proposes a Semi-supervised Clustering of Time Series Using Representative Shapelets (SE-Shapelets) method, which utilizes a small number of labeled and propagated pseudo-labeled time series to help discover representative shapelets, thereby improving the clustering accuracy. In SE-Shapelets, we propose two techniques to discover representative shapelets for the effective clustering of time series. 1) A \textit{salient subsequence chain} ($SSC$) that can extract salient subsequences (as candidate shapelets) of a labeled/pseudo-labeled time series, which helps remove massive uninformative subsequences from the pool. 2) A \textit{linear discriminant selection} ($LDS$) algorithm to identify shapelets that can capture representative local features of time series in different classes, for convenient clustering. Experiments on UCR time series datasets demonstrate that SE-shapelets discovers representative shapelets and achieves higher clustering accuracy than counterpart semi-supervised time series clustering methods. | 翻訳日:2023-11-16 20:52:24 公開日:2023-11-15 |
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索 Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v6 ) ライセンス: Link先を確認 | Walid Hariri | (参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。
これらのモデルのうち、chatgpt(chat generative pre-trained transformer)はopenaiによって開発されており、広く採用されている強力なツールである。
ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。
これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応できる能力に起因する。
その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。
しかし、chatgptにはバイアスのある応答を発生させる傾向や有害な言語パターンを持続する可能性など、制限もある。
この記事では、ChatGPTとその応用、利点、限界について概観する。
さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。
最後に、人工知能とそのビジョンおよびnlpドメインへの影響について、迅速なエンジニアリング技術への洞察を提供することにより、現在進行中の議論に寄与する。 Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques. | 翻訳日:2023-11-16 20:51:57 公開日:2023-11-15 |
# 量子熱状態の調製 Quantum Thermal State Preparation ( http://arxiv.org/abs/2303.18224v2 ) ライセンス: Link先を確認 | Chi-Fang Chen, Michael J. Kastoryano, Fernando G.S.L. Brand\~ao, and Andr\'as Gily\'en | (参考訳) 量子コンピュータ上の量子システムのシミュレーションには、基底状態と熱状態の準備が不可欠である。
量子シミュレーションにおける実用的量子優位の希望にもかかわらず、一般的な状態準備アプローチに挑戦されている。
モンテカルロ型量子ギブスサンプリング器が代替として登場したが、エネルギー時間不確実性に起因する技術的障害のため、以前の提案は不満足であった。
我々は、自然に着想を得た量子マスター方程式(Lindbladians)を効率的にシミュレートすることで、これらの障害を克服する単純な連続時間量子ギブズサンプリングを導入する。
さらに, 高速熱化系の特定の純化ギブス状態(高エネルギー物理学では熱場二重状態と呼ばれる)を作成するための, 初めて証明可能かつ効率的なアルゴリズムを構築した。
我々のアルゴリズムのコストは、関連するリンドブラディアンの温度、精度、混合時間(またはスペクトルギャップ)に証明可能な依存性を持つ。
我々は,非漸近的世俗近似と近似的詳細なバランスの一般的な解析フレームワークを開発し,物理的に導出されたリンドブラジアンに対する有限時間熱分解の最初の厳密な証明を完了した。
古典的なマルコフ連鎖モンテカルロ (mcmc) アルゴリズムの成功と熱力学のユビキタス性を考えると、量子ギブスサンプリングは量子コンピューティングにおいて不可欠になることを予想する。 Preparing ground states and thermal states is essential for simulating quantum systems on quantum computers. Despite the hope for practical quantum advantage in quantum simulation, popular state preparation approaches have been challenged. Monte Carlo-style quantum Gibbs samplers have emerged as an alternative, but prior proposals have been unsatisfactory due to technical obstacles rooted in energy-time uncertainty. We introduce simple continuous-time quantum Gibbs samplers that overcome these obstacles by efficiently simulating Nature-inspired quantum master equations (Lindbladians). In addition, we construct the first provably accurate and efficient algorithm for preparing certain purified Gibbs states (called thermal field double states in high-energy physics) of rapidly thermalizing systems; this algorithm also benefits from a quantum walk speedup. Our algorithms' costs have a provable dependence on temperature, accuracy, and the mixing time (or spectral gap) of the relevant Lindbladian. We complete the first rigorous proof of finite-time thermalization for physically derived Lindbladians by developing a general analytic framework for nonasymptotic secular approximation and approximate detailed balance. Given the success of classical Markov chain Monte Carlo (MCMC) algorithms and the ubiquity of thermodynamics, we anticipate that quantum Gibbs sampling will become indispensable in quantum computing. | 翻訳日:2023-11-16 20:51:36 公開日:2023-11-15 |
# 弦測定演算子を用いた絡み合いダイナミクス Entanglement dynamics with string measurement operators ( http://arxiv.org/abs/2303.07102v3 ) ライセンス: Link先を確認 | Giulia Piccitto, Angelo Russomanno and Davide Rossini | (参考訳) ガウス保存作用素をフェルミオンガウス状態に適用する方法を説明する。
この手法を用いて、弦測度演算子を持つリンドブラッド力学に続くイジングスピン鎖の絡み合いエントロピーの進化を研究し、そのようなリンドブラディアンの量子ジャンプ展開に注目した。
漸近的絡み合いエントロピーは、有限範囲弦作用素の領域則と、系の大きさにスケールする弦の範囲の体積則に従うことが分かる。
同じ挙動が測定のみのダイナミクスで観察され、測定がこの文脈で主要な役割を果たすことを示唆している。 We explain how to apply a Gaussian-preserving operator to a fermionic Gaussian state. We use this method to study the evolution of the entanglement entropy of an Ising spin chain following a Lindblad dynamics with string measurement operators, focusing on the quantum-jump unraveling of such Lindbladian. We find that the asymptotic entanglement entropy obeys an area law for finite-range string operators and a volume law for ranges of the string which scale with the system size. The same behavior is observed for the measurement-only dynamics, suggesting that measurements can play a leading role in this context. | 翻訳日:2023-11-16 20:51:13 公開日:2023-11-15 |
# パルスベース逆進化を用いた適応量子誤差緩和 Adaptive quantum error mitigation using pulse-based inverse evolutions ( http://arxiv.org/abs/2303.05001v2 ) ライセンス: Link先を確認 | Ivan Henao, Jader P. Santos, and Raam Uzdin | (参考訳) 量子誤差緩和(QEM)は、現在利用可能なノイズ量子コンピュータから高品質な結果の抽出を可能にする。
このアプローチでは、追加のハードウェアオーバヘッドを使わずに複数の測定値を用いることで、ノイズが関心のオブザーバブルに与える影響を緩和することができる。
残念ながら、現在のQEM技術は、弱いノイズやスケーラビリティに制限されている。
本研究では,ターゲット装置の雑音レベルに適応し,中等度から強靭なノイズを処理できる「適応KIK」というQEM手法を提案する。
この方法の実装は実験的に単純であり、トモグラフィ情報や機械学習の段階は含まず、実装すべき異なる量子回路の数はシステムのサイズに依存しない。
さらに,非整合性と整合性の両方を扱うために,ランダム化コンパイルとうまく統合できることが示されている。
ノイズやキャリブレーションが時間とともに変化するにもかかわらず,空間的相関と時間依存性のノイズを数日以上のスケールで撮影することができる。
最後に,QEMを用いた場合,ゲート校正プロトコルを改訂すべきであることを示す。
我々は、IBM量子コンピュータと数値シミュレーションを用いて、我々の研究結果を実証した。 Quantum Error Mitigation (QEM) enables the extraction of high-quality results from the presently-available noisy quantum computers. In this approach, the effect of the noise on observables of interest can be mitigated using multiple measurements without additional hardware overhead. Unfortunately, current QEM techniques are limited to weak noise or lack scalability. In this work, we introduce a QEM method termed `Adaptive KIK' that adapts to the noise level of the target device, and therefore, can handle moderate-to-strong noise. The implementation of the method is experimentally simple -- it does not involve any tomographic information or machine-learning stage, and the number of different quantum circuits to be implemented is independent of the size of the system. Furthermore, we have shown that it can be successfully integrated with randomized compiling for handling both incoherent as well as coherent noise. Our method handles spatially correlated and time-dependent noise which enables to run shots over the scale of days or more despite the fact that noise and calibrations change in time. Finally, we discuss and demonstrate why our results suggest that gate calibration protocols should be revised when using QEM. We demonstrate our findings in the IBM quantum computers and through numerical simulations. | 翻訳日:2023-11-16 20:51:00 公開日:2023-11-15 |
# 超伝導回路における線形結合器によるハードウェア効率の良い自律誤差補正 Hardware efficient autonomous error correction with linear couplers in superconducting circuits ( http://arxiv.org/abs/2303.01110v2 ) ライセンス: Link先を確認 | Ziqian Li, Tanay Roy, David Rodr\'iguez P\'erez, David I. Schuster, Eliot Kapit | (参考訳) 大規模量子コンピュータは、情報のデコヒーレンスを防ぐために、必然的に量子エラー補正(QEC)を必要とする。
このような誤り訂正のオーバーヘッドがしばしば予測可能であることを考えると、自律的量子誤り訂正(AQEC)の提案は有望な短期的代替手段を提供する。
AQECスキームは、エラー状態をエンジニアリングされた散逸によって効率的に除去できる励起に変換することで機能する。
2つのトランスモンをエンコーダとして、波長可変カプラと2つの損失共振器を冷却源として、すべての単一量子ビットエラーチャネルを自律的に修正または抑制できる新しいaqecスキームであるstar codeを提案する。
理論的および数値的に、現実的なパラメータに対する論理状態の寿命の二次的改善を示す。
スター符号は2光子相互作用しか必要とせず、線形結合要素で実現でき、他の多くのAQEC提案で実装が難しい高次駆動や散逸項を避けることができる。
Starコードは他の平面超伝導回路に適応することができ、より大きな量子コンピュータやエラー訂正符号に組み込むための単一の量子ビットに代わるスケーラブルな代替手段を提供する。 Large-scale quantum computers will inevitably need quantum error correction (QEC) to protect information against decoherence. Given that the overhead of such error correction is often formidable, autonomous quantum error correction (AQEC) proposals offer a promising near-term alternative. AQEC schemes work by transforming error states into excitations that can be efficiently removed through engineered dissipation. We propose a new AQEC scheme, called the Star code, which can autonomously correct or suppress all single qubit error channels using two transmons as encoders with a tunable coupler and two lossy resonators as a cooling source. We theoretically and numerically demonstrate quadratic improvements in logical states' lifetime for realistic parameters. The Star code requires only two-photon interactions and can be realized with linear coupling elements, avoiding higher-order drive or dissipation terms that are difficult to implement in many other AQEC proposals. The Star code can be adapted to other planar superconducting circuits, offering a scalable alternative to single qubits for incorporation in larger quantum computers or error correction codes. | 翻訳日:2023-11-16 20:50:24 公開日:2023-11-15 |
# 量子リピータを用いた高速かつ信頼性の高い絡み合い分布:強化学習を用いたプロトコル改善のための原理 Fast and reliable entanglement distribution with quantum repeaters: principles for improving protocols using reinforcement learning ( http://arxiv.org/abs/2303.00777v3 ) ライセンス: Link先を確認 | Stav Haldar, Pratik J. Barge, Sumeet Khatri, Hwang Lee | (参考訳) 将来の量子通信、量子センシング、分散量子計算といった量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。
本研究では,光子損失,非理想的測定,コヒーレンスタイムの短い量子記憶といった実用上の限界を考慮し,均質かつ不均質なノードの線形鎖に沿った絡み合い分布のプロトコル/ポリティクスの改善を提案する。
幅広いパラメータにおいて、我々の政策は、待ち時間とエンドツーエンドの絡み合いの忠実性の両方に関して、"swap-as-soon-as-as-possible"ポリシーのような、これまで知られていた政策を改善している。
この改善は、短いコヒーレンス時間、高いリンク損失、高度に非対称なリンクなど、最も実践的なケースで最大である。
この結果を得るために,マルコフ決定プロセスを用いて絡み合い分布をモデル化し,Q-learning reinforcement learning (RL)アルゴリズムを用いて新しいポリシーを探索する。
これらの新しいポリシーは、動的で状態依存のメモリカットオフとノード間の協調によって特徴づけられる。
特に、ノード間のこのコラボレーションを定量化します。
量子化器は、各ノードが持つネットワークの“グローバル”な知識を教えてくれる。
最後に、大規模量子ネットワークの性能に対する我々の理解は、rlや他の最適化手法を用いてそれらをシミュレートする計算効率の非効率によって制限されている。
そこで本研究では,大規模なリピータチェーンのポリシーを得るために,ポリシーをネストする手法を提案する。
小さなリピータチェーンのためのrlベースのポリシーをネストすることで、swap-as-soon-as-possibleポリシーを改善する大きなリピータチェーンのポリシーを得ることができ、長距離の絡み合い分散のためのポリシーを得るためのスケーラブルな方法の道を開くことができます。 Future quantum technologies such as quantum communication, quantum sensing, and distributed quantum computation, will rely on networks of shared entanglement between spatially separated nodes. In this work, we provide improved protocols/policies for entanglement distribution along a linear chain of nodes, both homogeneous and inhomogeneous, that take practical limitations such as photon losses, non-ideal measurements, and quantum memories with short coherence times into account. For a wide range of parameters, our policies improve upon previously known policies, such as the "swap-as-soon-as-possible" policy, with respect to both the waiting time and the fidelity of the end-to-end entanglement. This improvement is greatest for the most practically relevant cases, namely, for short coherence times, high link losses, and highly asymmetric links. To obtain our results, we model entanglement distribution using a Markov decision process, and then we use the Q-learning reinforcement learning (RL) algorithm to discover new policies. These new policies are characterized by dynamic, state-dependent memory cutoffs and collaboration between the nodes. In particular, we quantify this collaboration between the nodes. Our quantifiers tell us how much "global" knowledge of the network every node has. Finally, our understanding of the performance of large quantum networks is currently limited by the computational inefficiency of simulating them using RL or other optimization methods. Thus, in this work, we present a method for nesting policies in order to obtain policies for large repeater chains. By nesting our RL-based policies for small repeater chains, we obtain policies for large repeater chains that improve upon the swap-as-soon-as-possible policy, and thus we pave the way for a scalable method for obtaining policies for long-distance entanglement distribution. | 翻訳日:2023-11-16 20:50:02 公開日:2023-11-15 |
# 古典時空上の量子場のバックリアクションに対する共変経路積分 Covariant path integrals for quantum fields back-reacting on classical space-time ( http://arxiv.org/abs/2302.07283v2 ) ライセンス: Link先を確認 | Jonathan Oppenheim and Zachary Weller-Davies | (参考訳) 古典場と相互作用する量子場の構成空間パス積分を導入する。
これは、マスター方程式法を使わずに、ダイナミクスが直接的に完全に正であることを証明することによって、一貫してできることを示した。
これらの経路積分はローレンツ不変性や微分同相不変性を含む時空対称性を容易に課すことができる。
開量子系のファインマン・ヴァーノン経路積分と古典確率力学の確率経路積分を一般化し結合し、対称性の原理を尊重する。
我々は、時空計量が古典的に扱われる一般相対性理論の経路積分定式化と、アインシュタインの方程式のトレースに基づく微分同相不変理論を導入する。
この理論は、一般相対性理論と量子力学を調和させる基礎理論の候補である。 We introduce configuration space path integrals for quantum fields interacting with classical fields. We show that this can be done consistently by proving that the dynamics are completely positive directly, without resorting to master equation methods. These path integrals allow one to readily impose space-time symmetries, including Lorentz invariance or diffeomorphism invariance. They generalize and combine the Feynman-Vernon path integral of open quantum systems and the stochastic path integral of classical stochastic dynamics while respecting symmetry principles. We introduce a path integral formulation of general relativity where the space-time metric is treated classically, as well as a diffeomorphism invariant theory based on the trace of Einstein's equations. The theory is a candidate for a fundamental theory that reconciles general relativity with quantum mechanics. | 翻訳日:2023-11-16 20:49:29 公開日:2023-11-15 |
# 人間とロボットのコラボレーションアプリケーションのための学習データと深層学習によるマルチユーザ行動認識に向けて Towards Multi-User Activity Recognition through Facilitated Training Data and Deep Learning for Human-Robot Collaboration Applications ( http://arxiv.org/abs/2302.05763v4 ) ライセンス: Link先を確認 | Francesco Semeraro, Jon Carberry and Angelo Cangelosi | (参考訳) HRI(Human-robot Interaction)研究は、ロボットが複数の人間のユーザと同時に対話するマルチパーティシナリオに、段階的に対処している。
逆に、研究はまだ人間とロボットのコラボレーションの初期段階にある。
このようなコラボレーションを扱うために機械学習技術を使用するには、典型的なHRCセットアップよりも生成しにくいデータが必要である。
本研究は,非Dydic HRCアプリケーションの並列タスクのシナリオを概説する。
これらの概念に基づいて,シングルユーザに関連するデータを収集し,後処理でマージすることで,複数ユーザの活動に関するデータ収集の代替手法を提案し,ペア設定の録音に係わる労力を削減する。
このステートメントを検証するために、シングルユーザのアクティビティの3dスケルトンポーズが収集され、ペアにマージされた。
その後、このようなデータポイントを用いて長期記憶ネットワーク(LSTM)と時空間グラフ畳み込みネットワーク(STGCN)からなる変動オートエンコーダ(VAE)を別々にトレーニングし、両者の協調活動を認識する。
その結果、同じ設定で記録されたユーザのグループに関するトレーニングデータと比較すると、この方法で収集したデータをHRC設定のペアに利用し、同様のパフォーマンスを得ることが可能であり、これらのデータの生成にまつわる技術的困難を軽減できることがわかった。
関連コードと収集されたデータは公開されている。 Human-robot interaction (HRI) research is progressively addressing multi-party scenarios, where a robot interacts with more than one human user at the same time. Conversely, research is still at an early stage for human-robot collaboration. The use of machine learning techniques to handle such type of collaboration requires data that are less feasible to produce than in a typical HRC setup. This work outlines scenarios of concurrent tasks for non-dyadic HRC applications. Based upon these concepts, this study also proposes an alternative way of gathering data regarding multi-user activity, by collecting data related to single users and merging them in post-processing, to reduce the effort involved in producing recordings of pair settings. To validate this statement, 3D skeleton poses of activity of single users were collected and merged in pairs. After this, such datapoints were used to separately train a long short-term memory (LSTM) network and a variational autoencoder (VAE) composed of spatio-temporal graph convolutional networks (STGCN) to recognise the joint activities of the pairs of people. The results showed that it is possible to make use of data collected in this way for pair HRC settings and get similar performances compared to using training data regarding groups of users recorded under the same settings, relieving from the technical difficulties involved in producing these data. The related code and collected data are publicly available. | 翻訳日:2023-11-16 20:49:15 公開日:2023-11-15 |
# ノイズqudit対多重量子ビット : ゲート効率の条件 Noisy Qudit vs Multiple Qubits : Conditions on Gate Efficiency ( http://arxiv.org/abs/2302.04543v2 ) ライセンス: Link先を確認 | Denis Jankovi\'c, Jean-Gabriel Hartmann, Mario Ruben and Paul-Antoine Hervieux | (参考訳) qubitベースのプラットフォームはスケーラビリティの面で短期的な技術的課題に直面しており、qudits($d$レベルの情報の量子ベース)は量子情報処理(qip)の代替として複数のプラットフォームに実装されている。
したがって、より伝統的な量子ビットプラットフォームと比較して、QIPの効率性を研究することが重要である。
我々は、ヒルベルト空間次元と雑音環境の両方で、qudit と $n$-qubit 系の不忠実性スケーリングの比較研究を行う。
AGI (Average Gate Infidelity) のゲートに依存しないリンドブラッド形式における雑音に対する1次応答は、比較される2つのシステムで解析的に計算された。
これにより臨界曲線 $(d^2-1)/3\log_2(d)$ となり、デコヒーレンス時間単位のゲート時間として定義される。
この量は、これらのシステムにおける時間効率の操作が、デコヒーレンス時間スケールとどのように関係しているかを示し、臨界曲線は特に$d$のより小さい値のquditプラットフォームを正確にベンチマークするのに有用である。
曲線は、各系が他方よりもAGIの増加率が高い領域を規定する。
このゲート効率の条件は、既存の異なるプラットフォームに適用された。
特定のquditプラットフォームは最先端のqubitプラットフォームと競合するゲート効率を有することが判明した。
数値シミュレーションはこの研究を補完し、線形応答形式論の適用性と限界について議論することを可能にした。 As qubit-based platforms face near-term technical challenges in terms of scalability, qudits, $d$-level quantum bases of information, are being implemented in multiple platforms as an alternative for Quantum Information Processing (QIP). It is, therefore, crucial to study their efficiencies for QIP compared to more traditional qubit platforms, specifically since each additional quantum level represents an additional source of environmental coupling. We present a comparative study of the infidelity scalings of a qudit and $n$-qubit systems, both with identical Hilbert space dimensions and noisy environments. The first-order response of the Average Gate Infidelity (AGI) to the noise in the Lindblad formalism, which was found to be gate-independent, was calculated analytically in the two systems being compared. This yielded a critical curve $(d^2-1)/3\log_2(d)$ of the ratio of their respective figure of merits, defined as the gate time in units of decoherence time. This quantity indicates how time-efficient operations on these systems are relative to decoherence timescales, and the critical curve is especially useful for precisely benchmarking qudit platforms with smaller values of $d$. The curve delineates regions where each system has a higher rate of increase of the AGI than the other. This condition on gate efficiency was applied to different existing platforms. Specific qudit platforms were found to possess gate efficiencies competitive with state-of-the-art qubit platforms. Numerical simulations complemented this work and allowed for discussion of the applicability and limits of the linear response formalism. | 翻訳日:2023-11-16 20:48:50 公開日:2023-11-15 |
# 大規模言語モデルはロバストなコリファレンスリゾルバか? Are Large Language Models Robust Coreference Resolvers? ( http://arxiv.org/abs/2305.14489v2 ) ライセンス: Link先を確認 | Nghia T. Le, Alan Ritter | (参考訳) ドメインと言語間のコリファレンス解決の拡張に関する最近の作業は、ターゲットドメインと言語の両方で注釈付きデータに依存している。
同時に、訓練済みの大規模言語モデル (LM) は、幅広いNLPタスクにおいて、ゼロおよび少数ショットの学習能力を示すことが報告されている。
しかしながら、以前の研究は主に、Winograd Schema Challengeのような人工的な文レベルのデータセットを使用して、この能力を研究した。
本稿では,難しい言語的複合的コリファレンスベンチマーク (conll-2012 など) 上での命令調整型言語モデルの評価により,プロンプトベースコリファレンス解決の実現可能性を評価する。
提案手法は,高品質な参照検出器に頼っているように見えるが,コア参照の促進は,現在の教師なしコア参照システムより優れていることを示す。
さらなる調査では、命令調整されたLMがドメイン、言語、および期間にわたって驚くほどうまく一般化されていることが明らかになったが、少量の注釈付き例が利用可能であれば、引き続きニューラルネットワークモデルの微調整が推奨されるべきである。 Recent work on extending coreference resolution across domains and languages relies on annotated data in both the target domain and language. At the same time, pre-trained large language models (LMs) have been reported to exhibit strong zero- and few-shot learning abilities across a wide range of NLP tasks. However, prior work mostly studied this ability using artificial sentence-level datasets such as the Winograd Schema Challenge. In this paper, we assess the feasibility of prompt-based coreference resolution by evaluating instruction-tuned language models on difficult, linguistically-complex coreference benchmarks (e.g., CoNLL-2012). We show that prompting for coreference can outperform current unsupervised coreference systems, although this approach appears to be reliant on high-quality mention detectors. Further investigations reveal that instruction-tuned LMs generalize surprisingly well across domains, languages, and time periods; yet continued fine-tuning of neural models should still be preferred if small amounts of annotated examples are available. | 翻訳日:2023-11-16 20:39:57 公開日:2023-11-15 |
# 多視点視線推定のための回転拘束型クロスビュー特徴融合 Rotation-Constrained Cross-View Feature Fusion for Multi-View Appearance-based Gaze Estimation ( http://arxiv.org/abs/2305.12704v3 ) ライセンス: Link先を確認 | Yoichiro Hisadome, Tianyi Wu, Jiawei Qin, Yusuke Sugano | (参考訳) 近年,外見に基づく視線推定が活発に研究されている。
しかし,未発見の頭部ポーズに対する一般化性能は,既存の手法では依然として大きな制限となっている。
本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。
ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力として用いる。
提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出し,重畳された融合モジュールを介して回転可能な特徴を適応的に融合する。
この単純かつ効率的なアプローチは、計算コストを大幅に増加させることなく、目立たない姿勢下での一般化性能を大幅に向上させる。
モデルは位置決めを固定することなくランダムにカメラの組み合わせで訓練することができ、推論中に見えないカメラペアに一般化することができる。
複数のデータセットを用いた実験により、最先端領域一般化手法を含むベースライン法よりも提案手法の利点を実証する。
コードはhttps://github.com/ut-vision/Rot-MVGaze.comから入手できる。 Appearance-based gaze estimation has been actively studied in recent years. However, its generalization performance for unseen head poses is still a significant limitation for existing methods. This work proposes a generalizable multi-view gaze estimation task and a cross-view feature fusion method to address this issue. In addition to paired images, our method takes the relative rotation matrix between two cameras as additional input. The proposed network learns to extract rotatable feature representation by using relative rotation as a constraint and adaptively fuses the rotatable features via stacked fusion modules. This simple yet efficient approach significantly improves generalization performance under unseen head poses without significantly increasing computational cost. The model can be trained with random combinations of cameras without fixing the positioning and can generalize to unseen camera pairs during inference. Through experiments using multiple datasets, we demonstrate the advantage of the proposed method over baseline methods, including state-of-the-art domain generalization approaches. The code will be available at https://github.com/ut-vision/Rot-MVGaze. | 翻訳日:2023-11-16 20:39:40 公開日:2023-11-15 |
# PLAR:行動認識のためのプロンプト学習 PLAR: Prompt Learning for Action Recognition ( http://arxiv.org/abs/2305.12437v2 ) ライセンス: Link先を確認 | Xijun Wang, Ruiqi Xian, Tianrui Guan, Dinesh Manocha | (参考訳) 本稿では,学習プロセスの指導に即習学習の強みを活用した,行動認識のためのプロンプト学習(PLAR)を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることにより,アクションラベルを予測する。
提案方式では,学習可能なプロンプト,補助視覚情報,大視野モデルなど様々なプロンプトを用いて認識性能を向上させる。
特に、異なる入力条件下でプロンプトの専門家のプールからプロンプトを動的に生成する学習可能なプロンプト手法を設計する。
同じ目的をタスクと共有することにより,提案するPLARは,入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)を明示的に学習しながら,モデルの予測を導くプロンプトを最適化することができる。
地上カメラビデオと空中ビデオと,単エージェントと複数エージェントのアクションを持つシーンの両方からなるデータセットに対するアプローチを評価した。
実際、航空用マルチエージェントデータセットokutamamにおける3.17-10.2%の精度向上と、地上カメラ用シングルエージェントデータセットの1.0-3.6%の改善が観察されている。
WWWでコードをリリースする予定です。 We present a new general learning approach, Prompt Learning for Action Recognition (PLAR), which leverages the strengths of prompt learning to guide the learning process. Our approach is designed to predict the action label by helping the models focus on the descriptions or instructions associated with actions in the input videos. Our formulation uses various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. In particular, we design a learnable prompt method that learns to dynamically generate prompts from a pool of prompt experts under different inputs. By sharing the same objective with the task, our proposed PLAR can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. We evaluate our approach on datasets consisting of both ground camera videos and aerial videos, and scenes with single-agent and multi-agent actions. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial multi-agent dataset Okutamam and a 1.0-3.6% improvement on the ground camera single-agent dataset Something Something V2. We plan to release our code on the WWW. | 翻訳日:2023-11-16 20:39:25 公開日:2023-11-15 |
# Unified Embedding: WebスケールMLシステムのためのバトルテスト機能表現 Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems ( http://arxiv.org/abs/2305.12102v3 ) ライセンス: Link先を確認 | Benjamin Coleman, Wang-Cheng Kang, Matthew Fahrbach, Ruoxi Wang, Lichan Hong, Ed H. Chi, Derek Zhiyuan Cheng | (参考訳) 高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
典型的なモデルは、数百万から数十億のトークンの順番で語彙を持つ何百もの機能を取り込みます。
標準的なアプローチは、各特徴値をD次元埋め込みとして表現し、非常に高い心的特徴に対して数十億のパラメータを導入することである。
このボトルネックにより、代替埋め込みアルゴリズムが大幅に進歩した。
しかし、これらの手法の多くは、各特徴が独立した埋め込みテーブルを使用すると仮定している。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
我々の理論的および経験的分析により、多重埋め込みは各構成要素の特徴から構成要素に分解でき、モデルが特徴を区別できることがわかった。
多重表現は3つの公開ベンチマークデータセットに対してパレート最適パラメータ精度トレードオフをもたらすことを示す。
さらに,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。機能構成の簡略化,動的データ分散への強力な適応,最新のハードウェアとの互換性である。
統一埋め込みは、オフラインとオンラインの指標において、5つのウェブスケールの検索、広告、レコメンデーションシステムで競争の激しいベースラインと比較して大きな改善をもたらす。 Learning high-quality feature embeddings efficiently and effectively is critical for the performance of web-scale machine learning systems. A typical model ingests hundreds of features with vocabularies on the order of millions to billions of tokens. The standard approach is to represent each feature value as a d-dimensional embedding, introducing hundreds of billions of parameters for extremely high-cardinality features. This bottleneck has led to substantial progress in alternative embedding algorithms. Many of these methods, however, make the assumption that each feature uses an independent embedding table. This work introduces a simple yet highly effective framework, Feature Multiplexing, where one single representation space is used across many different categorical features. Our theoretical and empirical analysis reveals that multiplexed embeddings can be decomposed into components from each constituent feature, allowing models to distinguish between features. We show that multiplexed representations lead to Pareto-optimal parameter-accuracy tradeoffs for three public benchmark datasets. Further, we propose a highly practical approach called Unified Embedding with three major benefits: simplified feature configuration, strong adaptation to dynamic data distributions, and compatibility with modern hardware. Unified embedding gives significant improvements in offline and online metrics compared to highly competitive baselines across five web-scale search, ads, and recommender systems, where it serves billions of users across the world in industry-leading products. | 翻訳日:2023-11-16 20:39:02 公開日:2023-11-15 |
# 数発視覚と言語学習者の識別拡散モデル Discriminative Diffusion Models as Few-shot Vision and Language Learners ( http://arxiv.org/abs/2305.10722v2 ) ライセンス: Link先を確認 | Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang | (参考訳) 安定拡散のような拡散モデルは、テキスト・画像生成において素晴らしい性能を示している。
テキストから画像への生成には,詳細な詳細情報や属性をテキストプロンプトで指定した視覚概念を生成するモデルが必要となることが多いため,画像・テキストマッチングなどの識別タスクにおいて,事前学習した拡散モデルで学習した強力な表現を活用できるか?
そこで本研究では,事前学習したテキストと画像の拡散モデルを,数ショットの識別学習者に変換する新たなアプローチ,DSDを提案する。
提案手法は, 安定拡散モデルの相互注意スコアを用いて, 視覚情報とテキスト情報の相互影響を捉え, より効率的な注意に基づくプロンプト学習により, 画像テキストマッチングを行う。
本稿では,いくつかのベンチマークデータセットにおけるdsdと最先端手法を比較することで,事前学習された拡散モデルを用いた識別処理の可能性を示す。 Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach mainly uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via efficient attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching. | 翻訳日:2023-11-16 20:37:59 公開日:2023-11-15 |
# 自然言語におけるブラックボックステキストモジュールと言語モデル Explaining black box text modules in natural language with language models ( http://arxiv.org/abs/2305.09863v2 ) ライセンス: Link先を確認 | Chandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao | (参考訳) 大規模言語モデル (LLM) は,タスクの増大に対して顕著な予測性能を示した。
しかし、その急速な増殖と不透明さの増大は、解釈可能性の必要性を高めている。
ここでは、ブラックボックステキストモジュールの自然言語説明を自動取得できるかどうかを問う。
テキストモジュール(text module)は、llm内のサブモジュールや脳領域の適合モデルなど、テキストをスカラー連続値にマッピングする関数である。
ブラックボックス"は、モジュールの入出力のみにアクセス可能であることを示している。
本稿では,テキストモジュールを取り込み,モジュールの選択性に関する自然言語説明と,その説明がどの程度信頼できるかを示すスコアを返す方法であるsumer and score (sasc)を提案する。
我々はSASCを3つの文脈で研究した。
まず, 合成モジュール上でSASCを評価し, 多くの場合, 基礎的真理説明を復元する。
第二に、SASCを用いて、事前訓練されたBERTモデル内のモジュールを説明し、モデルの内部の検査を可能にする。
最後に、sscは言語刺激に対する個々のfmriボクセルの反応の説明を生成できることを示し、脳の詳細なマッピングへの応用の可能性を示した。
SASCの使用と結果の再生に関するすべてのコードはGithubで公開されている。 Large language models (LLMs) have demonstrated remarkable prediction performance for a growing array of tasks. However, their rapid proliferation and increasing opaqueness have created a growing need for interpretability. Here, we ask whether we can automatically obtain natural language explanations for black box text modules. A "text module" is any function that maps text to a scalar continuous value, such as a submodule within an LLM or a fitted model of a brain region. "Black box" indicates that we only have access to the module's inputs/outputs. We introduce Summarize and Score (SASC), a method that takes in a text module and returns a natural language explanation of the module's selectivity along with a score for how reliable the explanation is. We study SASC in 3 contexts. First, we evaluate SASC on synthetic modules and find that it often recovers ground truth explanations. Second, we use SASC to explain modules found within a pre-trained BERT model, enabling inspection of the model's internals. Finally, we show that SASC can generate explanations for the response of individual fMRI voxels to language stimuli, with potential applications to fine-grained brain mapping. All code for using SASC and reproducing results is made available on Github. | 翻訳日:2023-11-16 20:37:39 公開日:2023-11-15 |
# スキーマ適応型知識グラフ構築 Schema-adaptable Knowledge Graph Construction ( http://arxiv.org/abs/2305.08703v4 ) ライセンス: Link先を確認 | Hongbin Ye, Honghao Gui, Xin Xu, Xi Chen, Huajun Chen, Ningyu Zhang | (参考訳) 従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。
その結果、動的なシナリオやドメインに適用した場合、このようなアプローチは短くなりますが、新しいタイプの知識が生まれます。
これは、KGCの情報を取り出すために、進化するスキーマを自動で処理できるシステムを必要とする。
そこで本研究では,動的に変化するスキーマグラフに基づくエンティティ,関係,イベントの連続抽出を目的とした,スキーマ対応型kgcという新たなタスクを提案する。
まず、ベンチマークを構築するための3つの原則、すなわち水平スキーマ拡張、垂直スキーマ拡張、ハイブリッドスキーマ拡張に基づいて既存のデータセットを分割、変換し、その後、Text2Event、TANL、UIE、GPT-3.5といったよく知られたアプローチのスキーマ適応性能を調査した。
さらに,スキーマ拡張型プレフィックスインストラクタとスキーマ条件付き動的デコードを含む,シンプルかつ効果的なベースラインである \textsc{adakgc} を提案する。
総合的な実験結果から、AdaKGCはベースラインより優れているが、改善の余地があることが示された。
提案された作業がコミュニティに利益をもたらすことを願っています。
コードとデータセットはhttps://github.com/zjunlp/adakgc。 Conventional Knowledge Graph Construction (KGC) approaches typically follow the static information extraction paradigm with a closed set of pre-defined schema. As a result, such approaches fall short when applied to dynamic scenarios or domains, whereas a new type of knowledge emerges. This necessitates a system that can handle evolving schema automatically to extract information for KGC. To address this need, we propose a new task called schema-adaptable KGC, which aims to continually extract entity, relation, and event based on a dynamically changing schema graph without re-training. We first split and convert existing datasets based on three principles to build a benchmark, i.e., horizontal schema expansion, vertical schema expansion, and hybrid schema expansion; then investigate the schema-adaptable performance of several well-known approaches such as Text2Event, TANL, UIE and GPT-3.5. We further propose a simple yet effective baseline dubbed \textsc{AdaKGC}, which contains schema-enriched prefix instructor and schema-conditioned dynamic decoding to better handle evolving schema. Comprehensive experimental results illustrate that AdaKGC can outperform baselines but still have room for improvement. We hope the proposed work can deliver benefits to the community. Code and datasets available at https://github.com/zjunlp/AdaKGC. | 翻訳日:2023-11-16 20:37:21 公開日:2023-11-15 |
# 確率射とカーネル平均埋め込みによる教師付き学習 Supervised learning with probabilistic morphisms and kernel mean embeddings ( http://arxiv.org/abs/2305.06348v5 ) ライセンス: Link先を確認 | H\^ong V\^an L\^e | (参考訳) 本稿では,正しい損失関数の概念を用いて教師あり学習への2つのアプローチを統合する教師あり学習の生成モデルを提案する。
統計的学習理論において無視されている2つの測定可能性問題に対処し,外部確率の収束を用いて学習アルゴリズムの一貫性を特徴付けることを提案する。
これらの結果に基づいて、回帰モデルの学習可能性に対処するCucker-Smaleによる結果を条件付き確率推定問題に拡張する。
さらに,vapnik-stefanuyk の確率的不定解法を定式化し,超パラメータ教師あり学習モデルの一般化可能性を証明する。 In this paper I propose a generative model of supervised learning that unifies two approaches to supervised learning, using a concept of a correct loss function. Addressing two measurability problems, which have been ignored in statistical learning theory, I propose to use convergence in outer probability to characterize the consistency of a learning algorithm. Building upon these results, I extend a result due to Cucker-Smale, which addresses the learnability of a regression model, to the setting of a conditional probability estimation problem. Additionally, I present a variant of Vapnik-Stefanuyk's regularization method for solving stochastic ill-posed problems, and using it to prove the generalizability of overparameterized supervised learning models. | 翻訳日:2023-11-16 20:36:38 公開日:2023-11-15 |
# 深層強化学習を用いた電子健康記録からの診断経路抽出 Extracting Diagnosis Pathways from Electronic Health Records Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.06295v3 ) ライセンス: Link先を確認 | Lillian Muyama, Antoine Neuraz and Adrien Coulet | (参考訳) 臨床診断ガイドラインは、診断につながるステップを特定することを目的としている。
ガイドラインに着想を得て,電子健康記録から適切な診断を得るために,実行すべき行動の最適なシーケンスを学習することを目的とした。
本課題は,様々な深層強化学習アルゴリズムを応用し,貧血とそのサブタイプを鑑別的に診断する合成的かつ現実的なデータセットを実験し,ノイズや欠如データに対する様々なアプローチの頑健性を評価する。
実験結果から, 深層強化学習アルゴリズムは, 最先端の手法と比較して競争性能が向上し, 提案した診断経路を段階的に生成し, 決定過程をガイドし, 説明することができるという利点が示された。 Clinical diagnosis guidelines aim at specifying the steps that may lead to a diagnosis. Inspired by guidelines, we aim to learn the optimal sequence of actions to perform in order to obtain a correct diagnosis from electronic health records. We apply various deep reinforcement learning algorithms to this task and experiment on a synthetic but realistic dataset to differentially diagnose anemia and its subtypes and particularly evaluate the robustness of various approaches to noise and missing data. Experimental results show that the deep reinforcement learning algorithms show competitive performance compared to the state-of-the-art methods with the added advantage that they enable the progressive generation of a pathway to the suggested diagnosis, which can both guide and explain the decision process. | 翻訳日:2023-11-16 20:36:24 公開日:2023-11-15 |
# Neurocomparatives:Neuro-Symbolic Distillation of Comparison Knowledge NeuroComparatives: Neuro-Symbolic Distillation of Comparative Knowledge ( http://arxiv.org/abs/2305.04978v2 ) ライセンス: Link先を確認 | Phillip Howard, Junlin Wang, Vasudev Lal, Gadi Singer, Yejin Choi, Swabha Swayamdipta | (参考訳) 比較知識(例えば、鋼鉄はスチロフォアムよりも強く重く)は我々の世界知識の重要な要素であるが、以前の文献では未熟である。
本稿では,GPT-4のような超大規模言語モデルの能力が劇的に向上し,知識を知識ベースに抽出する取り組みに拍車をかけた,比較知識獲得の課題について考察する。
このような比較知識の獲得は、GPT-4のようなモデルよりもはるかに容易であるが、GPT-2のようなかなり小さく弱いモデルに比べて、最も強力なモデルでさえ誤りを犯すことを免れるわけではない。
異なるスケールのモデルが、有効で多様な比較知識を生成できる範囲は、どの程度あるのか?
我々は, GPT-variants や Llama などの言語モデルから過剰に生成した知識を比較蒸留するための新しいフレームワークであるNeuroComparativesを導入し,続いて生成した知識の厳密なフィルタリングを行う。
我々のフレームワークは、日常のオブジェクト間の比較知識を取得し、最大8.8Mのコーパスを1.74M以上のエンティティペアと比較する。
さらに、人間による評価では、NeuroComparativesは既存のリソース(最大32%の絶対的な改善)を上回っている。
また,3つの下流課題に対して蒸留したNeuroComparativesの有用性を示す。
以上の結果から,小型モデルのニューロシンボリックな操作は,超大規模言語モデルに知識蒸留を促すという現在主流となっている実践に相補的な効果をもたらすことが示唆された。 Comparative knowledge (e.g., steel is stronger and heavier than styrofoam) is an essential component of our world knowledge, yet understudied in prior literature. In this paper, we study the task of comparative knowledge acquisition, motivated by the dramatic improvements in the capabilities of extreme-scale language models like GPT-4, which have fueled efforts towards harvesting their knowledge into knowledge bases. While acquisition of such comparative knowledge is much easier from models like GPT-4, compared to their considerably smaller and weaker counterparts such as GPT-2, not even the most powerful models are exempt from making errors. We thus ask: to what extent are models at different scales able to generate valid and diverse comparative knowledge? We introduce NeuroComparatives, a novel framework for comparative knowledge distillation overgenerated from language models such as GPT-variants and Llama, followed by stringent filtering of the generated knowledge. Our framework acquires comparative knowledge between everyday objects, producing a corpus of up to 8.8M comparisons over 1.74M entity pairs - 10X larger and 30% more diverse than existing resources. Moreover, human evaluations show that NeuroComparatives outperform existing resources (up to 32% absolute improvement). We also demonstrate the utility of our distilled NeuroComparatives on three downstream tasks. Our results show that neuro-symbolic manipulation of smaller models offer complementary benefits to the currently dominant practice of prompting extreme-scale language models for knowledge distillation. | 翻訳日:2023-11-16 20:36:08 公開日:2023-11-15 |
# LLMはすでにデータベースインターフェースとして使えるか?
大規模データベース接地型テキストからsqlへの大きなベンチ Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs ( http://arxiv.org/abs/2305.03111v3 ) ライセンス: Link先を確認 | Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li | (参考訳) 自然言語命令を実行可能なSQLに変換することを目的としたテキストからSQLの構文解析が近年注目を集めている。
特に、codexとchatgptはこのタスクで印象的な結果を示している。
しかし、最も一般的なベンチマーク、すなわちスパイダーとウィキSQLは、学術研究と現実世界のアプリケーションの間のギャップを残したデータベース内容の行数でデータベーススキーマに焦点を当てている。
このギャップを軽減するために,テキストからSQLへのタスクをベースとした大規模データベースのベンチマークとして,12,751対のテキストからSQLデータと,合計33.4GBの95のデータベースを対象とするBirdを紹介した。
データベースの価値に重点を置いているのは、汚いデータベースの内容、NL質問とデータベースの内容の間の外部知識、SQL効率、特に大規模データベースの文脈における新しい課題です。
これらの問題を解決するためには、意味解析に加えて、データベース値の理解も必要である。
実験により,大規模データベースの正確なテキスト-SQL生成におけるデータベース値の重要性が示された。
さらに、最も効果的なテキスト対sqlモデル、すなわちchatgptでさえ、実行精度が40.08%しか達成していない。
さらに、業界に有益なテキストから効率のよいsqlを生成するための洞察を提供するための効率分析も提供しています。
BIRDは,テキスト・トゥ・SQL研究の現実的応用の進展に寄与すると考えている。
リーダーボードとソースコードは、https://bird-bench.github.io/で入手できる。 Text-to-SQL parsing, which aims at converting natural language instructions into executable SQLs, has gained increasing attention in recent years. In particular, Codex and ChatGPT have shown impressive results in this task. However, most of the prevalent benchmarks, i.e., Spider, and WikiSQL, focus on database schema with few rows of database contents leaving the gap between academic study and real-world applications. To mitigate this gap, we present Bird, a big benchmark for large-scale database grounded in text-to-SQL tasks, containing 12,751 pairs of text-to-SQL data and 95 databases with a total size of 33.4 GB, spanning 37 professional domains. Our emphasis on database values highlights the new challenges of dirty database contents, external knowledge between NL questions and database contents, and SQL efficiency, particularly in the context of massive databases. To solve these problems, text-to-SQL models must feature database value comprehension in addition to semantic parsing. The experimental results demonstrate the significance of database values in generating accurate text-to-SQLs for big databases. Furthermore, even the most effective text-to-SQL models, i.e. ChatGPT, only achieves 40.08% in execution accuracy, which is still far from the human result of 92.96%, proving that challenges still stand. Besides, we also provide an efficiency analysis to offer insights into generating text-to-efficient-SQLs that are beneficial to industries. We believe that BIRD will contribute to advancing real-world applications of text-to-SQL research. The leaderboard and source code are available: https://bird-bench.github.io/. | 翻訳日:2023-11-16 20:35:40 公開日:2023-11-15 |
# priorband: ディープラーニング時代の実用的なハイパーパラメータ最適化 PriorBand: Practical Hyperparameter Optimization in the Age of Deep Learning ( http://arxiv.org/abs/2306.12370v2 ) ライセンス: Link先を確認 | Neeratyoy Mallik and Edward Bergman and Carl Hvarfner and Danny Stoll and Maciej Janowski and Marius Lindauer and Luigi Nardi and Frank Hutter | (参考訳) ディープラーニング(DL)パイプラインのハイパーパラメータは、下流のパフォーマンスに不可欠である。
ハイパーパラメータ最適化(HPO)のための多くの手法が開発されているが、現代のDLではそのコストは抑えられないことが多い。
結果として、手動の実験は、研究者の直観、ドメイン知識、安価な予備探索に頼りながら、ハイパーパラメーターを最適化する最も一般的なアプローチである。
そこで本研究では,HPOアルゴリズムとDL研究者のミスアライメントを解決するために,DLに適したHPOアルゴリズムであるPresideBandを提案する。
実証的に、さまざまなDLベンチマークでPresideBandの効率を実証し、有意義な専門家のインプットと貧弱な専門家の信念に対する頑健さの下でその利益を示す。 Hyperparameters of Deep Learning (DL) pipelines are crucial for their downstream performance. While a large number of methods for Hyperparameter Optimization (HPO) have been developed, their incurred costs are often untenable for modern DL. Consequently, manual experimentation is still the most prevalent approach to optimize hyperparameters, relying on the researcher's intuition, domain knowledge, and cheap preliminary explorations. To resolve this misalignment between HPO algorithms and DL researchers, we propose PriorBand, an HPO algorithm tailored to DL, able to utilize both expert beliefs and cheap proxy tasks. Empirically, we demonstrate PriorBand's efficiency across a range of DL benchmarks and show its gains under informative expert input and robustness against poor expert beliefs | 翻訳日:2023-11-16 20:27:25 公開日:2023-11-15 |
# ベクトル値ランダム特徴を用いた学習のための誤差境界 Error Bounds for Learning with Vector-Valued Random Features ( http://arxiv.org/abs/2305.17170v2 ) ライセンス: Link先を確認 | Samuel Lanthaler, Nicholas H. Nelsen | (参考訳) 本稿では,ベクトル値ランダム特徴を用いた学習の包括的誤り解析を行う。
この理論は、完全な無限次元入力出力設定におけるRFリッジ回帰のために開発されたが、それでも既存の有限次元解析に適用し改善する。
文献に匹敵する研究とは対照的に、ここで提案されているアプローチはリスク関数の直接解析に依存しており、ランダム行列の観点で明示的なrfリッジ回帰解式を完全に避けている。
これにより、ランダム行列理論やそれらのランダム作用素への一般化における集中結果の必要性が排除される。
本研究の主な成果は, モデル不特定条件下でのベクトル値RF推定器の強い整合性と, 最適収束率の最小化である。
そのようなレートを達成するのに必要なパラメータ複雑性(ランダムな特徴の数)とサンプル複雑性(ラベル付きデータの数)は、モンテカルロの直観と同等であり、対数係数を持たない。 This paper provides a comprehensive error analysis of learning with vector-valued random features (RF). The theory is developed for RF ridge regression in a fully general infinite-dimensional input-output setting, but nonetheless applies to and improves existing finite-dimensional analyses. In contrast to comparable work in the literature, the approach proposed here relies on a direct analysis of the underlying risk functional and completely avoids the explicit RF ridge regression solution formula in terms of random matrices. This removes the need for concentration results in random matrix theory or their generalizations to random operators. The main results established in this paper include strong consistency of vector-valued RF estimators under model misspecification and minimax optimal convergence rates in the well-specified setting. The parameter complexity (number of random features) and sample complexity (number of labeled data) required to achieve such rates are comparable with Monte Carlo intuition and free from logarithmic factors. | 翻訳日:2023-11-16 20:26:21 公開日:2023-11-15 |
# あいまいな質問を選択的に答える Selectively Answering Ambiguous Questions ( http://arxiv.org/abs/2305.14613v2 ) ライセンス: Link先を確認 | Jeremy R. Cole, Michael J.Q. Zhang, Daniel Gillick, Julian Martin Eisenschlos, Bhuwan Dhingra, and Jacob Eisenstein | (参考訳) 信頼できる言語モデルは、答えを知らないときに質問に答えることを禁じるべきです。
しかし、質問に対する答えは様々な理由から不明である。
先行研究は、質問が明確で、回答が曖昧であるが、おそらく不明である場合に焦点を当ててきたが、質問者の意図や文脈の不確実性のため、質問に対する答えも不明確である。
本研究では,本質的に曖昧な質問集合から,質問のサブセットに対して高い精度で回答することに着目し,質問応答について検討する。
この設定では、先行研究で使用されるモデルの可能性や自己検証よりも、サンプリングされたモデル出力内での繰り返しの定量化をいつ回避するかを決定する最も信頼できるアプローチが重要である。
これは異なるタイプの不確実性とモデルスケールにまたがるケースであり、命令のチューニングの有無によるものです。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答の校正に役立ち,あいまいな質問に対してより劇的な改善をもたらすことが示唆された。 Trustworthy language models should abstain from answering questions when they do not know the answer. However, the answer to a question can be unknown for a variety of reasons. Prior research has focused on the case in which the question is clear and the answer is unambiguous but possibly unknown, but the answer to a question can also be unclear due to uncertainty of the questioner's intent or context. We investigate question answering from this perspective, focusing on answering a subset of questions with a high degree of accuracy, from a set of questions in which many are inherently ambiguous. In this setting, we find that the most reliable approach to decide when to abstain involves quantifying repetition within sampled model outputs, rather than the model's likelihood or self-verification as used in prior work. We find this to be the case across different types of uncertainty and model scales,and with or without instruction tuning. Our results suggest that sampling-based confidence scores help calibrate answers to relatively unambiguous questions, with more dramatic improvements on ambiguous questions. | 翻訳日:2023-11-16 20:25:22 公開日:2023-11-15 |
# プロンプトポジションは本当に重要か? Do prompt positions really matter? ( http://arxiv.org/abs/2305.14493v3 ) ライセンス: Link先を確認 | Junyu Mao and Stuart E. Middleton and Mahesan Niranjan | (参考訳) プロンプトベースのモデルは、ゼロショット学習と少数ショット学習の分野における顕著な進歩により、研究者から多くの注目を集めている。
効果的なプロンプトテンプレートの開発が重要な役割を果たす。
しかし、先行研究は主に、事前定義されたテンプレートに単語の選択や初期化を組み込むことに重点を置いている。
本研究では,多種多様な自然言語処理タスクの即時位置まで,最も包括的な分析を行う。
本研究は,モデル性能に及ぼすプロンプト位置の影響を定量化する。
先行研究で用いられる迅速な位置は、しばしば準最適である。
これらの知見は、既存のプロンプトエンジニアリング方法論のギャップを埋める貴重な研究方向として、迅速な位置最適化を示唆している。 Prompt-based models have gathered a lot of attention from researchers due to their remarkable advancements in the fields of zero-shot and few-shot learning. Developing an effective prompt template plays a critical role. However, prior studies have mainly focused on prompt vocabulary selection or embedding initialization within a predefined template with the prompt position fixed. In this empirical study, we conduct the most comprehensive analysis to date of prompt position for diverse natural language process tasks. Our findings quantify the substantial impact prompt position has on model performance. We observe that the prompt position used in prior studies is often sub-optimal. These findings suggest prompt position optimisation as a valuable research direction to fill the gap in existing prompt engineering methodologies. | 翻訳日:2023-11-16 20:25:02 公開日:2023-11-15 |
# ReadMe++: マルチドメイン可読性評価のための多言語言語モデルのベンチマーク ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment ( http://arxiv.org/abs/2305.14463v2 ) ライセンス: Link先を確認 | Tarek Naous, Michael J. Ryan, Anton Lavrouk, Mohit Chandra, Wei Xu | (参考訳) 自動多言語可読性評価のための大規模言語モデルの体系的研究と包括的評価を行う。
特に,112の異なるデータソースから収集したアラビア語,英語,フランス語,ヒンディー語,ロシア語の9757文の人間のアノテーションを備えた多言語多言語データセットreadme++を構築した。
ReadMe++は、既存の可読性データセットよりもドメインと言語の多様性を提供しており、教師付き、教師なし、数発のプロンプト設定で多言語および非英語(mBERT、XLM-R、mT5、Llama-2、GPT-4など)モデルのベンチマークに最適である。
実験により,readme++を用いたモデルは,単一ドメインデータセットでトレーニングされたモデルよりも微調整され,多領域可読性評価と言語間転送能力において優れた性能を示した。
また、従来の可読性指標(Flesch-Kincaid Grade Level や Open Source Metric for Measuring Arabic Narratives など)や、最先端の教師なしメトリクスRSRS(Martinc et al., 2021)と比較する。
データとコードはhttps://github.com/tareknaous/readme.com/で公開します。 We present a systematic study and comprehensive evaluation of large language models for automatic multilingual readability assessment. In particular, we construct ReadMe++, a multilingual multi-domain dataset with human annotations of 9757 sentences in Arabic, English, French, Hindi, and Russian collected from 112 different data sources. ReadMe++ offers more domain and language diversity than existing readability datasets, making it ideal for benchmarking multilingual and non-English language models (including mBERT, XLM-R, mT5, Llama-2, GPT-4, etc.) in the supervised, unsupervised, and few-shot prompting settings. Our experiments reveal that models fine-tuned on ReadMe++ outperform those trained on single-domain datasets, showcasing superior performance on multi-domain readability assessment and cross-lingual transfer capabilities. We also compare to traditional readability metrics (such as Flesch-Kincaid Grade Level and Open Source Metric for Measuring Arabic Narratives), as well as the state-of-the-art unsupervised metric RSRS (Martinc et al., 2021). We will make our data and code publicly available at: https://github.com/tareknaous/readme. | 翻訳日:2023-11-16 20:24:53 公開日:2023-11-15 |
# 不均一テーブルからのスキーマ駆動情報抽出 Schema-Driven Information Extraction from Heterogeneous Tables ( http://arxiv.org/abs/2305.14336v2 ) ライセンス: Link先を確認 | Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter | (参考訳) 本稿では,大規模言語モデルがテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
本稿では,表データから構造化レコードへ変換する新しいタスクであるスキーマ駆動情報抽出を提案する。
このタスクにおける様々なllmの能力を評価するために、機械学習論文、化学文献、材料科学雑誌、webページという4つの異なる分野の表からなるベンチマークを開発した。
ベンチマークの他に,命令調整 LLM に基づく抽出手法を提案する。
本手法は,タスク固有のラベルを使わずに,74.2から96.1までのF1スコアを達成し,高いコスト効率を維持しながら,競争性能を示す。
さらに,マルチモーダルモデルを用いた画像テーブルからの抽出とともに,コンパクトなテーブル抽出モデルを蒸留してAPI依存を減らす可能性を検証する。
ベンチマークを開発し、プロプライエタリなモデルを用いてこのタスクの実現可能性を示すことにより、我々はオープンソーススキーマ駆動IEモデルの将来的な開発を支援することを目指している。 In this paper, we explore the question of whether large language models can support cost-efficient information extraction from tables. We introduce schema-driven information extraction, a new task that transforms tabular data into structured records following a human-authored schema. To assess various LLM's capabilities on this task, we develop a benchmark composed of tables from four diverse domains: machine learning papers, chemistry literature, material science journals, and webpages. Alongside the benchmark, we present an extraction method based on instruction-tuned LLMs. Our approach shows competitive performance without task-specific labels, achieving F1 scores ranging from 74.2 to 96.1, while maintaining great cost efficiency. Moreover, we validate the possibility of distilling compact table-extraction models to reduce API reliance, as well as extraction from image tables using multi-modal models. By developing a benchmark and demonstrating the feasibility of this task using proprietary models, we aim to support future work on open-source schema-driven IE models. | 翻訳日:2023-11-16 20:24:26 公開日:2023-11-15 |
# 言語横断質問応答の評価とモデル化 Evaluating and Modeling Attribution for Cross-Lingual Question Answering ( http://arxiv.org/abs/2305.14332v2 ) ライセンス: Link先を確認 | Benjamin Muller, John Wieting, Jonathan H. Clark, Tom Kwiatkowski, Sebastian Ruder, Livio Baldini Soares, Roee Aharoni, Jonathan Herzig, Xinyi Wang | (参考訳) 信頼できる回答コンテンツは多くの高ソース言語で豊富であり、質問応答システムを通じて即座にアクセスできるが、これらの言語を話さない人にとってはアクセスが困難である。
生成言語モデルが提供する言語間のモデリング品質の飛躍は、多くの可能性をもたらすが、それらの生の世代は事実に乏しい。
これらのシステムの信頼性を向上させるために、期待できる方向は、答えを検索されたソース、おそらくクエリとは異なるコンテンツ豊富な言語に属性付けることである。
私たちの研究は、言語間質問応答の属性を初めて研究しました。
まず、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
驚いたことに、システムは検索されたテキストに直接出席できるにもかかわらず、回答のかなりの部分が検索された文(金の参照と正確に一致する回答の最大50%)に寄与しないことがわかった。
第2に,この不適切な帰属レベルに対処するために,幅広い帰属検出手法を実験した。
ごく少量の属性データに基づいて微調整された自然言語推論モデルと PaLM 2 が,属性を正確に検出できることがわかった。
これらのモデルに基づき,言語間質問応答システムの帰属レベルを向上させる。
全体として、現在の学術的生成型言語間QAシステムには、属性に重大な欠点があることを示し、これらの問題を緩和するためのツールを構築している。 Trustworthy answer content is abundant in many high-resource languages and is instantly accessible through question answering systems, yet this content can be hard to access for those that do not speak these languages. The leap forward in cross-lingual modeling quality offered by generative language models offers much promise, yet their raw generations often fall short in factuality. To improve trustworthiness in these systems, a promising direction is to attribute the answer to a retrieved source, possibly in a content-rich language different from the query. Our work is the first to study attribution for cross-lingual question answering. First, we collect data in 5 languages to assess the attribution level of a state-of-the-art cross-lingual QA system. To our surprise, we find that a substantial portion of the answers is not attributable to any retrieved passages (up to 50% of answers exactly matching a gold reference) despite the system being able to attend directly to the retrieved text. Second, to address this poor attribution level, we experiment with a wide range of attribution detection techniques. We find that Natural Language Inference models and PaLM 2 fine-tuned on a very small amount of attribution data can accurately detect attribution. Based on these models, we improve the attribution level of a cross-lingual question-answering system. Overall, we show that current academic generative cross-lingual QA systems have substantial shortcomings in attribution and we build tooling to mitigate these issues. | 翻訳日:2023-11-16 20:24:08 公開日:2023-11-15 |
# 制約のない離散最適化のためのNISQ互換近似量子アルゴリズム NISQ-compatible approximate quantum algorithm for unconstrained and constrained discrete optimization ( http://arxiv.org/abs/2305.14197v3 ) ライセンス: Link先を確認 | M. R. Perelshtein, A. I. Pakhomchik, Ar. A. Melnikov, M. Podobrii, A. Termanova, I. Kreidich, B. Nuriev, S. Iudin, C. W. Mansell, V. M. Vinokur | (参考訳) 量子アルゴリズムは古典的アルゴリズムを著しく上回る可能性があるため、非常に人気がある。
しかしながら、最適化問題に量子アルゴリズムを適用することは、量子アルゴリズムのトレーニングの効率、コスト環境の形状、アウトプットの精度、大規模問題へのスケール能力に関する課題を満たしている。
本稿では,振幅符号化を用いたハードウェア効率の高い回路に対する近似勾配型量子アルゴリズムを提案する。
目的関数にペナルティ項を加えることなく, 単純な線形制約を回路に直接組み込むことができることを示す。
我々は,数千ノードの重み付きグラフを用いたmaxcut問題に対して数値シミュレーションを行い,超伝導量子プロセッサ上でアルゴリズムを実行する。
1000以上のノードを持つ制約のないMaxCut問題に対して、我々のアルゴリズムとCPLEXと呼ばれる古典的解法を組み合わせるハイブリッドアプローチは、CPLEX単独よりも優れた解を見つけることができる。
これはハイブリッド最適化が現代の量子デバイスの主要なユースケースの1つであることを証明している。 Quantum algorithms are getting extremely popular due to their potential to significantly outperform classical algorithms. Yet, applying quantum algorithms to optimization problems meets challenges related to the efficiency of quantum algorithms training, the shape of their cost landscape, the accuracy of their output, and their ability to scale to large-size problems. Here, we present an approximate gradient-based quantum algorithm for hardware-efficient circuits with amplitude encoding. We show how simple linear constraints can be directly incorporated into the circuit without additional modification of the objective function with penalty terms. We employ numerical simulations to test it on MaxCut problems with complete weighted graphs with thousands of nodes and run the algorithm on a superconducting quantum processor. We find that for unconstrained MaxCut problems with more than 1000 nodes, the hybrid approach combining our algorithm with a classical solver called CPLEX can find a better solution than CPLEX alone. This demonstrates that hybrid optimization is one of the leading use cases for modern quantum devices. | 翻訳日:2023-11-16 20:23:45 公開日:2023-11-15 |
# GPT4Table: 大規模言語モデルは構造化テーブルデータに耐えられるか?
ベンチマークと実証的研究 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study ( http://arxiv.org/abs/2305.13062v3 ) ライセンス: Link先を確認 | Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang | (参考訳) 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になりつつある。
しかし、LLMがテーブルのような構造化データをどのように理解しているかは、まだ学ぶべきことがたくさんある。
表を直列化して LLM への入力として用いることは事実であるが, それらのデータを真に理解できるかどうかを総合的に検討する研究は乏しい。
本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。
私たちが作成したベンチマークには7つのタスクが含まれており、それぞれに独自の課題、例えば、セルルックアップ、行検索、サイズ検出があります。
GPT-3.5とGPT-4について一連の評価を行った。
その結果,テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,複数の入力選択によって性能が変化した。
評価の結果から,LLMの内部知識を用いた臨界値/範囲識別などの効果的な構造的プロンプトのための「textit{self-augmentation}」を提案する。
注意深く選択された入力選択と組み合わせると、これらの構造的プロンプト手法は、様々な表型タスクにおけるllmパフォーマンスの有望な改善をもたらす: \eg, tabfact($\uparrow2.31\%$), hybridqa($\uparrow2.13\%$), sqa($\uparrow2.72\%$), feverous($\uparrow0.84\%$), totto($\uparrow5.68\%$)。
我々は,我々のベンチマークと提案手法が,将来の研究の単純かつ汎用的な選択に役立つと考えている。 Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, there is still much to learn about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there is a lack of comprehensive studies examining whether LLMs can truly comprehend such data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with its own unique challenges, \eg, cell lookup, row retrieval, and size detection. We conduct a series of evaluations on GPT-3.5 and GPT-4. We find that the performance varied depending on several input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we propose \textit{self-augmentation} for effective structural prompting, such as critical value / range identification using LLMs' internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, \eg, TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research. | 翻訳日:2023-11-16 20:23:29 公開日:2023-11-15 |
# 人間の運動生成:調査 Human Motion Generation: A Survey ( http://arxiv.org/abs/2307.10894v3 ) ライセンス: Link先を確認 | Wentao Zhu, Xiaoxuan Ma, Dongwoo Ro, Hai Ci, Jinlu Zhang, Jiaxin Shi, Feng Gao, Qi Tian, and Yizhou Wang | (参考訳) 人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示す。
近年,動きデータ収集技術や生成手法が進歩し,人間の動き生成への関心が高まっている。
この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。
近年は顕著な進歩を遂げているが、人間の動きの複雑な性質と条件付き信号との暗黙的な関係により、課題が続いている。
本稿では,人間の運動生成に関する総合的な文献レビューを行う。
まず、人間の動作と生成モデルの背景を紹介し、続いて、テキストコンディショニング、オーディオコンディショニング、シーンコンディショニングの3つのメインストリームサブタスクの代表的な手法について検討する。
さらに,共通データセットと評価指標の概要について述べる。
最後に、オープンな問題について議論し、今後の研究の方向性について概説する。
この調査がコミュニティに,この急速に発展する分野の包括的可視化を提供し,優れた課題に対処する新たなアイデアを刺激してくれることを願っています。 Human motion generation aims to generate natural human pose sequences and shows immense potential for real-world applications. Substantial progress has been made recently in motion data collection technologies and generation methods, laying the foundation for increasing interest in human motion generation. Most research within this field focuses on generating human motions based on conditional signals, such as text, audio, and scene contexts. While significant advancements have been made in recent years, the task continues to pose challenges due to the intricate nature of human motion and its implicit relationship with conditional signals. In this survey, we present a comprehensive literature review of human motion generation, which, to the best of our knowledge, is the first of its kind in this field. We begin by introducing the background of human motion and generative models, followed by an examination of representative methods for three mainstream sub-tasks: text-conditioned, audio-conditioned, and scene-conditioned human motion generation. Additionally, we provide an overview of common datasets and evaluation metrics. Lastly, we discuss open problems and outline potential future research directions. We hope that this survey could provide the community with a comprehensive glimpse of this rapidly evolving field and inspire novel ideas that address the outstanding challenges. | 翻訳日:2023-11-16 20:15:51 公開日:2023-11-15 |
# citation: 責任と責任を負う大きな言語モデルを構築するための鍵 Citation: A Key to Building Responsible and Accountable Large Language Models ( http://arxiv.org/abs/2307.02185v2 ) ライセンス: Link先を確認 | Jie Huang, Kevin Chen-Chuan Chang | (参考訳) 大規模言語モデル(LLM)は、知的財産権(IP)や倫理的関心事など、ユニークな課題と共に変革的な利益をもたらす。
本稿では、これらのリスクを軽減し、LLMと確立されたWebシステム間の並列性を図り、新しい角度を探索する。
我々は, LLMにおいて, 資料や証拠への「引用」を重要かつ欠落した要素として認識する。
引用を組み込むことでコンテンツの透明性と妥当性を高め、LLMの展開においてIPと倫理的問題に直面する可能性がある。
さらに、LLMの総合的な引用機構は、非パラメトリックコンテンツとパラメトリックコンテンツの両方を考慮すべきである。
このような引用機構の実装の複雑さと潜在的な落とし穴にもかかわらず、我々はその発展を提唱する。
そこで本稿では,本研究の基盤として,より責任と責任を負うllmの構築に向けた今後の研究をめざして,本研究の課題を概説する。 Large Language Models (LLMs) bring transformative benefits alongside unique challenges, including intellectual property (IP) and ethical concerns. This position paper explores a novel angle to mitigate these risks, drawing parallels between LLMs and established web systems. We identify "citation" - the acknowledgement or reference to a source or evidence - as a crucial yet missing component in LLMs. Incorporating citation could enhance content transparency and verifiability, thereby confronting the IP and ethical issues in the deployment of LLMs. We further propose that a comprehensive citation mechanism for LLMs should account for both non-parametric and parametric content. Despite the complexity of implementing such a citation mechanism, along with the potential pitfalls, we advocate for its development. Building on this foundation, we outline several research problems in this area, aiming to guide future explorations towards building more responsible and accountable LLMs. | 翻訳日:2023-11-16 20:15:32 公開日:2023-11-15 |
# ディラックフェルミオンのデコヒーレンスフリーエントロピー重力 Decoherence-Free Entropic Gravity for Dirac Fermion ( http://arxiv.org/abs/2307.00170v2 ) ライセンス: Link先を確認 | Eric J. Sung, Andre G. Campos, Hartmut Abele, Denys I. Bondar | (参考訳) エントロピー重力の理論は、重力は基本的な力ではなく熱力学的に現れると推測する。
エントロピー重力の主な批判の1つは、量子質量粒子が自由落下でコヒーレンスを失うことであり、これは実験的に観測されていない。
この批判は[phys. rev. res. 3, 033065 (2021)]において否定され、重力をオープン量子系相互作用としてモデル化する非相対論的マスター方程式は、強い結合限界においてコヒーレンスを維持でき、従来の自由落下ダイナミクスを再現できることを示した。
さらに、非相対論的マスター方程式は超低温中性子に対するqBounce実験と完全互換であることが示されている。
これにより、これらの結果を重力的に加速するディラックフェルミオンに拡張する。
我々は、リンドラー空間におけるディラック方程式を用いて、エントロピー重力を熱浴としてモデル化することにより、オープン量子システムアプローチも採用する。
強結合限界において、我々のエントロピー重力モデルはディラックフェルミオンの量子コヒーレンスを維持することを実証する。
さらに,スピンはエントロピー重力に影響されないことを示した。
foldy-wouthysen変換を用いて非相対論的マスター方程式に還元し、ディラックフェルミオンのエントロピー重力仮説を支持することを証明した。
また、自由落下反粒子に対するディラック方程式から反重力が生じる様子を実証するが、数値シミュレーションを用いて、この現象はジッタベウグングに由来するため、同値原理に違反しないことを示す。 The theory of entropic gravity conjectures that gravity emerges thermodynamically rather than being a fundamental force. One of the main criticisms of entropic gravity is that it would lead to quantum massive particles losing coherence in free fall, which is not observed experimentally. This criticism was refuted in [Phys. Rev. Res. 3, 033065 (2021)], where a nonrelativistic master equation modeling gravity as an open quantum system interaction demonstrated that in the strong coupling limit, coherence could be maintained and reproduce conventional free-fall dynamics. Moreover, the nonrelativistic master equation was shown to be fully compatible with the qBounce experiment for ultracold neutrons. Motivated by this, we extend these results to gravitationally accelerating Dirac fermions. We achieve this by using the Dirac equation in Rindler space and modeling entropic gravity as a thermal bath thus adopting the open quantum systems approach as well. We demonstrate that in the strong coupling limit, our entropic gravity model maintains quantum coherence for Dirac fermions. In addition, we demonstrate that spin is not affected by entropic gravity. We use the Foldy-Wouthysen transformation to demonstrate that it reduces to the nonrelativistic master equation, supporting the entropic gravity hypothesis for Dirac fermions. Also, we demonstrate how antigravity seemingly arises from the Dirac equation for free-falling antiparticles but use numerical simulations to show that this phenomenon originates from zitterbewegung thus not violating the equivalence principle. | 翻訳日:2023-11-16 20:15:15 公開日:2023-11-15 |
# 深部RLにおけるオプティマイザのリセット : 実証的研究 Resetting the Optimizer in Deep RL: An Empirical Study ( http://arxiv.org/abs/2306.17833v2 ) ライセンス: Link先を確認 | Kavosh Asadi, Rasool Fakoor, Shoham Sabach | (参考訳) 深層強化学習における最適値関数を近似するタスクに着目した。
この反復過程は、繰り返し毎に損失関数が変化する一連の最適化問題を解くことで構成される。
この問題を解くための一般的なアプローチは、アダムのような確率勾配降下アルゴリズムの現代的な変種を用いることである。
これらのオプティマイザは、勾配の1次と2次モーメントの推定などの独自の内部パラメータを保持し、時間とともに更新する。
したがって、前回のイテレーションで得られた情報は、現在のイテレーションにおける最適化問題の解決に使用される。
これは、最適化の状況が1イテレーションから次のイテレーションに任意に変化する可能性があるため、モーメント推定を汚染する可能性があることを実証する。
このネガティブな影響に対処するため、新しいイテレーションを開始する際に最適化器の内部パラメータをリセットする、という単純なアイデアがある。
レインボーアルゴリズムと組み合わせて様々なオプティマイザを用いて,このリセットアイデアを実証的に検討する。
この簡単な修正により、atariベンチマークにおけるdeep rlの性能が大幅に向上することを示す。 We focus on the task of approximating the optimal value function in deep reinforcement learning. This iterative process is comprised of solving a sequence of optimization problems where the loss function changes per iteration. The common approach to solving this sequence of problems is to employ modern variants of the stochastic gradient descent algorithm such as Adam. These optimizers maintain their own internal parameters such as estimates of the first-order and the second-order moments of the gradient, and update them over time. Therefore, information obtained in previous iterations is used to solve the optimization problem in the current iteration. We demonstrate that this can contaminate the moment estimates because the optimization landscape can change arbitrarily from one iteration to the next one. To hedge against this negative effect, a simple idea is to reset the internal parameters of the optimizer when starting a new iteration. We empirically investigate this resetting idea by employing various optimizers in conjunction with the Rainbow algorithm. We demonstrate that this simple modification significantly improves the performance of deep RL on the Atari benchmark. | 翻訳日:2023-11-16 20:14:44 公開日:2023-11-15 |
# グラフェングレーティング間のカシミール・リフシッツ力の可変非添加性 Tunable non-additivity in Casimir-Lifshitz force between graphene gratings ( http://arxiv.org/abs/2306.17640v2 ) ライセンス: Link先を確認 | Youssef Jeyar, Minggang Luo, Kevin Austry, Brahim Guizal, Yi Zheng, H. B. Chan, Mauro Antezza | (参考訳) 有限誘電体基板上に配置した2つの同一グラフェンストリップグレーティング間のカシミール・リフシッツ力(clf)を,局所基底関数(fmm-lbf)を持つフーリエモーダル法による散乱行列(s行列)法を用いて検討した。
我々は、高次電磁回折、多重散乱、グラフェンストリップの正確な2次元特徴を十分に考慮する。
一般にclfの最も興味深い特徴の一つである非加法性は、実際の物質形状やグラフェンの化学ポテンシャルを変化させることで、実際に変化することなく、非常に高く、変調可能であることが示されている。
幾何学的効果の性質を考察し、加法結果が完全に受け入れられるパラメータの領域や計算が必要となる領域を探索できる幾何学的パラメータd/d(分離と格子期間の比率)の関連性を示す。
この研究は、マイクロまたはナノ電気機械グラフェン系によるclfの非付加的特徴のより深い実験的な探求に繋がる。 We investigate the Casimir-Lifshitz force (CLF) between two identical graphene strip gratings, laid on finite dielectric substrates, by using the scattering matrix (S-matrix) approach derived from the Fourier Modal Method with Local Basis Functions (FMM-LBF). We fully take into account the high-order electromagnetic diffractions, the multiple scattering and the exact 2D feature of the graphene strips. We show that the non-additivity, which is one of the most interesting features of the CLF in general, is significantly high and can be modulated in situ, without any change in the actual material geometry and this by varying the graphene chemical potential. We discuss the nature of the geometrical effects and show the relevance of the geometric parameter d/D (i.e. the ratio between separation and grating period), which allows to explore the regions of parameters where the additive result is fully acceptable or where the full calculation is needed. This study can open to deeper experimental exploration of the non-additive features of the CLF with micro- or nano-electromechanical graphene-based systems. | 翻訳日:2023-11-16 20:14:26 公開日:2023-11-15 |
# 監視アンラベリングによるノイズ浅部回路の効率的なサンプリング Efficient sampling of noisy shallow circuits via monitored unraveling ( http://arxiv.org/abs/2306.16455v2 ) ライセンス: Link先を確認 | Zihan Cheng and Matteo Ippoliti | (参考訳) 本研究では,2次元量子ビットアレイ上の浅くノイズの多いランダム回路の出力をサンプリングする古典的なアルゴリズムを提案する。
このアルゴリズムは、最近提案された「空間進化ブロックデシメーション」(SEBD)に基づいて構築され、ノイズ回路の場合に拡張される。
SEBD は、2次元のユニタリ回路を 1D {\displaystyle {\it monitored} にマッピングしたもので、単位ゲートとともに測定を特徴付け、測定誘起絡み合い相転移の存在を利用して有限臨界深さ$T_c$以下の効率的な(近似的な)サンプリングを実現する。
我々のノイズ-SEBDアルゴリズムは、ノイズを計測し、さらに絡み合いを減らし、より広い回路深さまで効率的な古典的なサンプリングを可能にする。
物理関連ノイズモデル(ユニタリキュービットチャネル)のクラスを2レプリカ統計力学処理で解析し、弱い測定値が最適(つまり最も遠ざかる)アンラベリング(unraveling)であることを示す。
次に,実回路モデルにおける回路深さと雑音強度の関数として,ノイズ-sebd複雑性遷移を求める。
実例として、IBM QuantumプロセッサをベースとしたCNOTあたりのノイズレート$\approx 2\%の重六角形量子ビットアレイ上の回路を、5iSWAP(または10CNOT)ゲート層まで効率的にサンプリング可能であることを示す。
本結果は,ノイズの多いハードウェアのシミュレーションの実用的硬度要件の明確化に有効である。 We introduce a classical algorithm for sampling the output of shallow, noisy random circuits on two-dimensional qubit arrays. The algorithm builds on the recently-proposed "space-evolving block decimation" (SEBD) and extends it to the case of noisy circuits. SEBD is based on a mapping of 2D unitary circuits to 1D {\it monitored} ones, which feature measurements alongside unitary gates; it exploits the presence of a measurement-induced entanglement phase transition to achieve efficient (approximate) sampling below a finite critical depth $T_c$. Our noisy-SEBD algorithm unravels the action of noise into measurements, further lowering entanglement and enabling efficient classical sampling up to larger circuit depths. We analyze a class of physically-relevant noise models (unital qubit channels) within a two-replica statistical mechanics treatment, finding weak measurements to be the optimal (i.e. most disentangling) unraveling. We then locate the noisy-SEBD complexity transition as a function of circuit depth and noise strength in realistic circuit models. As an illustrative example, we show that circuits on heavy-hexagon qubit arrays with noise rates of $\approx 2\%$ per CNOT, based on IBM Quantum processors, can be efficiently sampled up to a depth of 5 iSWAP (or 10 CNOT) gate layers. Our results help sharpen the requirements for practical hardness of simulation of noisy hardware. | 翻訳日:2023-11-16 20:13:45 公開日:2023-11-15 |
# 均一空間上の潜在SDE Latent SDEs on Homogeneous Spaces ( http://arxiv.org/abs/2306.16248v2 ) ライセンス: Link先を確認 | Sebastian Zeng, Florian Graf, Roland Kwitt | (参考訳) 確率過程が(おそらく複雑な)観測された場合、潜時確率微分方程式(SDE)の解によって支配される潜在変数モデルにおける変分ベイズ推論の問題を考察する。
効率的な勾配計算などの大規模データから(ほぼ任意の)潜伏ニューラルネットワークSDEを学習しようとするときの課題に触発されて、我々は一歩後退して特定のサブクラスを研究する。
我々の場合、SDEは同次潜在空間上で進化し、対応する(行列)リー群の確率力学によって誘導される。
学習問題において、単位$n$-sphere上のSDEは、おそらくこの設定の最も関連性の高いインカーネーションである。
特に、変分推論において、球面は真に非形式的事前SDEの使用を容易にするだけでなく、証明の下界における近似的後続過程と先行過程の間のクルバック・リーブラー分岐に対する特に単純で直感的な表現も得られる。
実験により, 提案手法の潜在sdeを, 既存の1段階幾何オイラー・マルヤマスキームを用いて効率的に学習できることを実証した。
より多様なSDEに制限されているにもかかわらず、様々な時系列補間および分類ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。 We consider the problem of variational Bayesian inference in a latent variable model where a (possibly complex) observed stochastic process is governed by the solution of a latent stochastic differential equation (SDE). Motivated by the challenges that arise when trying to learn an (almost arbitrary) latent neural SDE from large-scale data, such as efficient gradient computation, we take a step back and study a specific subclass instead. In our case, the SDE evolves on a homogeneous latent space and is induced by stochastic dynamics of the corresponding (matrix) Lie group. In learning problems, SDEs on the unit $n$-sphere are arguably the most relevant incarnation of this setup. Notably, for variational inference, the sphere not only facilitates using a truly uninformative prior SDE, but we also obtain a particularly simple and intuitive expression for the Kullback-Leibler divergence between the approximate posterior and prior process in the evidence lower bound. Experiments demonstrate that a latent SDE of the proposed type can be learned efficiently by means of an existing one-step geometric Euler-Maruyama scheme. Despite restricting ourselves to a less diverse class of SDEs, we achieve competitive or even state-of-the-art performance on various time series interpolation and classification benchmarks. | 翻訳日:2023-11-16 20:13:17 公開日:2023-11-15 |
# 複数VAVオープンオフィスにおけるHVACシステムのエネルギー最適化 : 深層強化学習アプローチ Energy Optimization for HVAC Systems in Multi-VAV Open Offices: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2306.13333v2 ) ライセンス: Link先を確認 | Hao Wang, Xiwen Chen, Natan Vital, Edward.Duffy, Abolfazl Razi | (参考訳) 地球規模のエネルギーの32%以上が商業ビルや住宅ビルで使われており、ビル・エナジー・マネジメント(BEM)への伝統的なアプローチを再検討する必要がある。
商業部門全体のエネルギーコストの約40%をhvacシステムが占めており、少数の制御可能かつアクセス可能な要素のみを使用するオープンプランオフィスのhvacエネルギー最適化のために、マルチインプットマルチアウトプットアーキテクチャを備えた、低複雑さのdrlベースモデルを提案する。
本ソリューションの有効性は,実ビルにおける既存の空調スケジュールに基づくベースラインシステムと比較し,全エネルギー消費と熱快適度を広範囲に分析することにより評価した。
本手法は, 所望温度範囲の最低値(<1%) で, 省エネ効果の37%を達成できることを示す。
性能の優れたネットワークを訓練し、その低複雑さアーキテクチャの多様な条件をカバーするのに5エポック(エポックあたり約7.75分)の合計40分しかかからないため、建築設備、気象条件、占有率などの変更に容易に対応できる。
さらに,制御戦略のスムーズさを強制することにより,HVACユニットの頻繁かつ不快なオン/オフ遷移を抑えることで,システムに対する不快感や潜在的ダメージを回避する。
本モデルの汎用性は, 異なる建築モデルに適用し, 様々な気象条件下で検証した。 With more than 32% of the global energy used by commercial and residential buildings, there is an urgent need to revisit traditional approaches to Building Energy Management (BEM). With HVAC systems accounting for about 40% of the total energy cost in the commercial sector, we propose a low-complexity DRL-based model with multi-input multi-output architecture for the HVAC energy optimization of open-plan offices, which uses only a handful of controllable and accessible factors. The efficacy of our solution is evaluated through extensive analysis of the overall energy consumption and thermal comfort levels compared to a baseline system based on the existing HVAC schedule in a real building. This comparison shows that our method achieves 37% savings in energy consumption with minimum violation (<1%) of the desired temperature range during work hours. It takes only a total of 40 minutes for 5 epochs (about 7.75 minutes per epoch) to train a network with superior performance and covering diverse conditions for its low-complexity architecture; therefore, it easily adapts to changes in the building setups, weather conditions, occupancy rate, etc. Moreover, by enforcing smoothness on the control strategy, we suppress the frequent and unpleasant on/off transitions on HVAC units to avoid occupant discomfort and potential damage to the system. The generalizability of our model is verified by applying it to different building models and under various weather conditions. | 翻訳日:2023-11-16 20:12:56 公開日:2023-11-15 |
# 局所的特徴量に基づく視覚定位のための制約付き近距離近傍 Yes, we CANN: Constrained Approximate Nearest Neighbors for local feature-based visual localization ( http://arxiv.org/abs/2306.09012v2 ) ライセンス: Link先を確認 | Dror Aiger, Andr\'e Araujo, Simon Lynen | (参考訳) 大規模なビジュアルローカライズシステムは、画像収集から構築された3dポイントクラウドに引き続き依存する。
これらのモデルの3dポイントは局所的な画像特徴を用いて表現されるが、クエリ画像のローカル特徴とポイントクラウドとの直接マッチングは、最寄りの検索問題の規模のため困難である。
視覚的ローカライゼーションに対する最近の多くのアプローチでは、まずグローバルな(画像ごとの)埋め込みを用いてデータベースイメージの小さなサブセットを検索し、クエリの局所的特徴をそれらに対してマッチングするハイブリッド手法が提案されている。
各クエリイメージに2つの特徴型を計算しなければならないという大きな欠点があるにも関わらず、グローバルな埋め込みは、視覚的ローカライゼーションにおいてそのイメージ検索に不可欠である、という一般的な信念になったようだ。
本稿では, この仮定から一歩引いて, 局所特徴のみを用いて, k-アネレスト近傍の連立解法であるConstrained Approximate Nearest Neighbors (CANN)を提案する。
我々はまず,複数のメトリクスをまたいだk-nearest-neighbor検索の理論的基礎を導出し,CANNが視覚的ローカライゼーションをどのように改善するかを示す。
公開ローカライズベンチマークを用いた実験により,本手法が最先端のグローバル特徴量ベース検索と局所特徴集約方式のアプローチを両立することを示した。
さらに、これらのデータセットの特徴集約スキームよりも、インデックスとクエリ時間の両方で桁違いに高速である。
コードはリリースされる。 Large-scale visual localization systems continue to rely on 3D point clouds built from image collections using structure-from-motion. While the 3D points in these models are represented using local image features, directly matching a query image's local features against the point cloud is challenging due to the scale of the nearest-neighbor search problem. Many recent approaches to visual localization have thus proposed a hybrid method, where first a global (per image) embedding is used to retrieve a small subset of database images, and local features of the query are matched only against those. It seems to have become common belief that global embeddings are critical for said image-retrieval in visual localization, despite the significant downside of having to compute two feature types for each query image. In this paper, we take a step back from this assumption and propose Constrained Approximate Nearest Neighbors (CANN), a joint solution of k-nearest-neighbors across both the geometry and appearance space using only local features. We first derive the theoretical foundation for k-nearest-neighbor retrieval across multiple metrics and then showcase how CANN improves visual localization. Our experiments on public localization benchmarks demonstrate that our method significantly outperforms both state-of-the-art global feature-based retrieval and approaches using local feature aggregation schemes. Moreover, it is an order of magnitude faster in both index and query time than feature aggregation schemes for these datasets. Code will be released. | 翻訳日:2023-11-16 20:11:44 公開日:2023-11-15 |
# マルチアーメッドバンドの実値組合せ純粋探索のためのトンプソンサンプリング Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit ( http://arxiv.org/abs/2308.10238v3 ) ライセンス: Link先を確認 | Shintaro Nakamura, Masashi Sugiyama | (参考訳) 本稿では,マルチアームバンディット(R-CPE-MAB)問題の実測値について検討する。
R-CPE-MABでは、プレイヤーは確率的な腕を$d$与えられ、各アームの報酬は$s\in\{1, \ldots, d\}$が平均$\mu_s$の未知分布に従う。
各タイムステップで、プレイヤーは片方の腕を引っ張り、その報酬を観察する。
プレイヤーのゴールは、最適な \emph{action} $\boldsymbol{\pi}^{*} = \argmax_{\boldsymbol{\pi} \in \mathcal{A}} \boldsymbol{\mu}^{\top}\boldsymbol{\pi}$を有限サイズの実数値の \emph{action set} $\mathcal{A}\subset \mathbb{R}^{d}$から極小のアームプルで識別することである。
R-CPE-MAB の以前の方法では、アクションセット $\mathcal{A}$ のサイズは$d$ の多項式である。
一般トンプソンサンプリング探索法(GenTS-Explore)と呼ばれるアルゴリズムを導入する。これはアクションセットのサイズが指数関数的に$d$で大きい場合でも動作する最初のアルゴリズムである。
また,R-CPE-MAB問題に対して,新たな問題依存型サンプル複雑性を低い境界で導入し,GenTS-Exploreアルゴリズムが問題依存定数係数まで最適なサンプル複雑性を実現することを示す。 We study the real-valued combinatorial pure exploration of the multi-armed bandit (R-CPE-MAB) problem. In R-CPE-MAB, a player is given $d$ stochastic arms, and the reward of each arm $s\in\{1, \ldots, d\}$ follows an unknown distribution with mean $\mu_s$. In each time step, a player pulls a single arm and observes its reward. The player's goal is to identify the optimal \emph{action} $\boldsymbol{\pi}^{*} = \argmax_{\boldsymbol{\pi} \in \mathcal{A}} \boldsymbol{\mu}^{\top}\boldsymbol{\pi}$ from a finite-sized real-valued \emph{action set} $\mathcal{A}\subset \mathbb{R}^{d}$ with as few arm pulls as possible. Previous methods in the R-CPE-MAB assume that the size of the action set $\mathcal{A}$ is polynomial in $d$. We introduce an algorithm named the Generalized Thompson Sampling Explore (GenTS-Explore) algorithm, which is the first algorithm that can work even when the size of the action set is exponentially large in $d$. We also introduce a novel problem-dependent sample complexity lower bound of the R-CPE-MAB problem, and show that the GenTS-Explore algorithm achieves the optimal sample complexity up to a problem-dependent constant factor. | 翻訳日:2023-11-16 20:03:58 公開日:2023-11-15 |
# ASPIRE:ロバスト画像分類のための言語ガイド拡張 ASPIRE: Language-Guided Augmentation for Robust Image Classification ( http://arxiv.org/abs/2308.10103v2 ) ライセンス: Link先を確認 | Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Sakshi Singh, Sanjoy Chowdhury and Dinesh Manocha | (参考訳) ニューラルイメージ分類器は、トレーニングデータのクラスラベルと重複して相関する非予測的特徴を過剰に頼って、予測を学習することが多い。
これにより、そのような機能が欠落している現実世界の非定型シナリオのパフォーマンスが低下する。
このようなスプリアスな特徴のない画像でトレーニングデータセットを補完することは、より良い一般化によるスプリアス相関に対する堅牢な学習に役立つ。
本稿では,学習データセットを合成画像で拡張するための簡易かつ効果的な解であるaspire (language-guided data augmentation for spurious correlation removal)を提案する。
ASPIREは言語によってガイドされ、追加の監督や既存の例を必要とせずにこれらの画像を生成する。
正確には、llmsを用いてまず画像のテキスト記述から前景と背景の特徴を抽出し、次に高度な言語による画像編集を行い、クラスラベルと散発的に相関する特徴を発見する。
最後に,テキスト対画像生成モデルをパーソナライズして,多種多様なドメイン内画像を生成する。
4つのデータセットにおけるaspireの有効性を実証し,難解なhard imagenetデータセットと9つのベースラインを用いて,aspireが従来手法の分類精度を1%~38%向上させることを示した。
コード: https://github.com/Sreyan88/ASPIRE Neural image classifiers can often learn to make predictions by overly relying on non-predictive features that are spuriously correlated with the class labels in the training data. This leads to poor performance in real-world atypical scenarios where such features are absent. Supplementing the training dataset with images without such spurious features can aid robust learning against spurious correlations via better generalization. This paper presents ASPIRE (Language-guided data Augmentation for SPurIous correlation REmoval), a simple yet effective solution for expanding the training dataset with synthetic images without spurious features. ASPIRE, guided by language, generates these images without requiring any form of additional supervision or existing examples. Precisely, we employ LLMs to first extract foreground and background features from textual descriptions of an image, followed by advanced language-guided image editing to discover the features that are spuriously correlated with the class label. Finally, we personalize a text-to-image generation model to generate diverse in-domain images without spurious features. We demonstrate the effectiveness of ASPIRE on 4 datasets, including the very challenging Hard ImageNet dataset, and 9 baselines and show that ASPIRE improves the classification accuracy of prior methods by 1% - 38%. Code soon at: https://github.com/Sreyan88/ASPIRE. | 翻訳日:2023-11-16 20:03:25 公開日:2023-11-15 |
# 真空分岐、ダークエネルギー、ダークマター Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v5 ) ライセンス: Link先を確認 | Don Weingarten | (参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。
本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。
本稿では、ミンコフスキー空間の格子上の電子と陽子の量子電磁力学に以前のバージョンを適用する。
しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。
この置換の結果、物理真空そのものは、未分岐の真空よりもわずかに大きいエネルギー密度の枝を分岐することが期待されるが、観測可能な粒子含量はない。
真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見える。
真空分岐が観測されたダークエネルギーの起源であり、暗黒物質密度が$O(10^{-18} m^3)$と推定されるという仮説は、分枝形成を管理する複雑性測度に入り、量子的挙動と古典的振舞いの境界を設定するパラメータである。 Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. In the present article, we adapt the earlier version to quantum electrodynamics of electrons and protons on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is expected to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum but no observable particle content. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities. The hypothesis that vacuum branching is the origin of the observed dark energy and dark matter densities leads to an estimate of $O(10^{-18} m^3)$ for the parameter $b$ which enters the complexity measure governing branch formation and sets the boundary between quantum and classical behavior. | 翻訳日:2023-11-16 20:03:01 公開日:2023-11-15 |
# テキスト・画像生成におけるバイアス増幅パラドックス The Bias Amplification Paradox in Text-to-Image Generation ( http://arxiv.org/abs/2308.00755v2 ) ライセンス: Link先を確認 | Preethi Seshadri, Sameer Singh, Yanai Elazar | (参考訳) バイアス増幅は、モデルがトレーニングデータに存在するバイアスやステレオタイプを悪化させる現象である。
本稿では,トレーニングにおける男女比と生成画像との相関により,テキスト・画像領域のバイアス増幅を安定拡散を用いて検討する。
このモデルは、トレーニングデータ(LAION)に見られる性別占有バイアスを大幅に増幅しているように見える。
しかし, 増幅は, 学習キャプションとモデルプロンプトの相違によるものと考えられる。
例えば、トレーニングデータからのキャプションが明示的な性別情報を含むことが多いのに対して、私たちのプロンプトはそうではないため、分布シフトが生じ、結果としてバイアス対策が膨らみます。
学習用テキストと増幅評価時の生成の分布的差異を考慮すれば,増幅度は大幅に低下する。
本研究は,モデルにおけるバイアスとトレーニングデータを比較する上での課題を明らかにし,分析に影響を及ぼす要因を明らかにする。 Bias amplification is a phenomenon in which models exacerbate biases or stereotypes present in the training data. In this paper, we study bias amplification in the text-to-image domain using Stable Diffusion by comparing gender ratios in training vs. generated images. We find that the model appears to amplify gender-occupation biases found in the training data (LAION) considerably. However, we discover that amplification can be largely attributed to discrepancies between training captions and model prompts. For example, an inherent difference is that captions from the training data often contain explicit gender information while our prompts do not, which leads to a distribution shift and consequently inflates bias measures. Once we account for distributional differences between texts used for training and generation when evaluating amplification, we observe that amplification decreases drastically. Our findings illustrate the challenges of comparing biases in models and their training data, and highlight confounding factors that impact analyses. | 翻訳日:2023-11-16 20:01:45 公開日:2023-11-15 |
# 一般化tavis-cummingsモデルにおけるxy$スピン相互作用による量子計測 Quantum metrology enhanced by the $XY$ spin interaction in a generalized Tavis-Cummings model ( http://arxiv.org/abs/2307.16166v2 ) ライセンス: Link先を確認 | Yuguo Su, Wangjun Lu, and Hai-Long Shi | (参考訳) 量子計量学は、量子絡み合いなどの量子資源を利用して高精度な推定を行う能力があることが知られている。
本稿では,xy$スピン相互作用を導入し,量子フィッシャー情報 (qfi) によって定量化される推定精度に対する多体効果の影響を検討することで,一般化されたtavis-cummingsモデルを提案する。
モデルの効果的な記述を導出することにより、xy$スピン相互作用によって引き起こされるスピンゆらぎとqfiとの密接な関係を確立する。
この正確な関係に基づき、弱い磁場を推定するハイゼンベルクスケーリング精度を達成する上でのスピン異方性の重要性を強調した。
さらに,スピン異方性の強度を増大させることにより,推定精度の向上が期待できる。
また,Ising相互作用を低減したTavis-Cummingsモデルにおいて,QFIのスケーリング遷移を明らかにする。
本研究は,多体効果を考慮したメロロジー理論の充実に寄与し,また,多体量子位相による電力利用による推定精度の向上にも寄与する。 Quantum metrology is recognized for its capability to offer high-precision estimation by utilizing quantum resources, such as quantum entanglement. Here, we propose a generalized Tavis-Cummings model by introducing the $XY$ spin interaction to explore the impact of the many-body effect on estimation precision, quantified by the quantum Fisher information (QFI). By deriving the effective description of our model, we establish a closed relationship between the QFI and the spin fluctuation induced by the $XY$ spin interaction. Based on this exact relation, we emphasize the indispensable role of the spin anisotropy in achieving the Heisenberg-scaling precision for estimating a weak magnetic field. Furthermore, we observe that the estimation precision can be enhanced by increasing the strength of the spin anisotropy. We also reveal a clear scaling transition of the QFI in the Tavis-Cummings model with the reduced Ising interaction. Our results contribute to the enrichment of metrology theory by considering many-body effects, and they also present an alternative approach to improving the estimation precision by harnessing the power provided by many-body quantum phases. | 翻訳日:2023-11-16 20:01:29 公開日:2023-11-15 |
# トップ・ドル・レコメンデーションのためのオフ・ポリティクス評価指標としての算術的利得の非正規化について On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation ( http://arxiv.org/abs/2307.15053v2 ) ライセンス: Link先を確認 | Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko | (参考訳) 推奨へのアプローチは一般的に2つの方法で評価される: (1)(シミュレーションされた)オンライン実験、しばしばゴールドスタンダードと見なされる、または(2)オンライン実験の結果を近似するオフライン評価手順である。
いくつかのオフライン評価指標が文献で採用されており、インフォメーション検索の分野で広く使われているランキング指標にインスパイアされている。
(ノーマル化)
ディスカウント累積利得(英語版)(ndcg)は経験的研究で広く採用されているような指標の一つであり、より高い(n)dcg値は、長年にわたってトップ$n$レコメンデーションの最先端技術として新しい方法を示すために用いられてきた。
我々の研究は、このアプローチを批判的に考察し、そのような指標がオンライン実験のゴールドスタンダードの成果をいつ期待できるかを調査する。
我々は,DCGをオンライン報酬の偏りのない推定指標とみなすために必要な仮定を正式に提示し,この指標を第一原理から導出する。
重要なことは、計量の正規化は、DCGが非バイアスである場合でも、それらの正規化されたDCGによる競合メソッドのランク付けが相対的な順序を逆転できるという点において矛盾することを示している。
大規模レコメンデーションプラットフォーム上で行ったオフライン実験とオンライン実験の相関分析により,我々の偏見のないDCG推定値とオンライン報酬との相関関係が,指標固有の仮定に違反した場合でも強く示された。
この文はもはや正規化された変種を定めておらず、nDCGの実用性は制限される可能性があることを示唆している。 Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric's inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG's practical utility may be limited. | 翻訳日:2023-11-16 20:01:09 公開日:2023-11-15 |
# ガウス混合分布潜在空間における探索による反事実説明 Counterfactual Explanation via Search in Gaussian Mixture Distributed Latent Space ( http://arxiv.org/abs/2307.13390v2 ) ライセンス: Link先を確認 | Xuan Zhao, Klaus Broelemann, Gjergji Kasneci | (参考訳) 対実説明(CE)はアルゴリズム・リコースにおいて重要なツールである。
1. 自動予測/決定に繋がった重要な要因は何ですか?
2. ユーザの視点からより好ましい結果を得るために、これらの要因をどのように変えることができるか。
したがって、AIシステムの信頼性の高い採用と長期的な受け入れには、理解し易い説明と到達し易い変更を提案することによって、AIシステムとのユーザのインタラクションを導くことが不可欠である。
文献では,CEを生成するための様々な手法が提案されており,これらの手法を評価するための異なる品質対策が提案されている。
しかし、CEの生成は通常計算コストが高く、結果として提案される提案は非現実的であり、従って非現実的である。
本稿では,まず,自動エンコーダの潜伏空間をガウス分布の混合として形成することにより,事前学習されたバイナリ分類器のCEを生成する手法を提案する。
次にcesは、クエリサンプルとターゲットクラスのセンタロイドの間の線形補間によって潜在空間で生成される。
本手法は,反事実探索中に入力サンプルの特性を維持していることを示す。
様々な実験において,提案手法は,画像と表データ集合の異なる品質尺度に基づいて競争的であることを示し,現実の高次元機械学習応用に必須な3つの最先端手法と比較して,元のデータ多様体に近い結果が効率的に返されることを示した。 Counterfactual Explanations (CEs) are an important tool in Algorithmic Recourse for addressing two questions: 1. What are the crucial factors that led to an automated prediction/decision? 2. How can these factors be changed to achieve a more favorable outcome from a user's perspective? Thus, guiding the user's interaction with AI systems by proposing easy-to-understand explanations and easy-to-attain feasible changes is essential for the trustworthy adoption and long-term acceptance of AI systems. In the literature, various methods have been proposed to generate CEs, and different quality measures have been suggested to evaluate these methods. However, the generation of CEs is usually computationally expensive, and the resulting suggestions are unrealistic and thus non-actionable. In this paper, we introduce a new method to generate CEs for a pre-trained binary classifier by first shaping the latent space of an autoencoder to be a mixture of Gaussian distributions. CEs are then generated in latent space by linear interpolation between the query sample and the centroid of the target class. We show that our method maintains the characteristics of the input sample during the counterfactual search. In various experiments, we show that the proposed method is competitive based on different quality measures on image and tabular datasets -- efficiently returns results that are closer to the original data manifold compared to three state-of-the-art methods, which are essential for realistic high-dimensional machine learning applications. | 翻訳日:2023-11-16 20:00:35 公開日:2023-11-15 |
# ランダムウォークからグラフスプリントへ:連続時間動的グラフ上の低遅延ノード埋め込みフレームワーク From random-walks to graph-sprints: a low-latency node embedding framework on continuous-time dynamic graphs ( http://arxiv.org/abs/2307.08433v3 ) ライセンス: Link先を確認 | Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, Hugo Ferreira, Jo\~ao Ascens\~ao, Pedro Ribeiro, Pedro Bizarro | (参考訳) 多くの現実世界のデータセットは基盤となる動的グラフ構造を持ち、エンティティとその相互作用は時間とともに進化する。
機械学習モデルは、下流タスクにおける潜在能力を最大限活用するために、これらのダイナミクスを考慮すべきである。
グラフ表現学習における従来のアプローチは、幅優先探索のようなkホップ近傍のサンプリングや、深さ優先探索のようなランダムウォークに重点を置いていた。
しかし、これらの手法は計算コストが高く、動的グラフ上のリアルタイム低レイテンシ推論には適さない。
これらの制限を克服するため,我々は連続時間動的グラフ(CTDG)のための汎用的特徴抽出フレームワークとしてグラフプリントを提案し,レイテンシが低く,最先端の高レイテンシモデルと競合する。
これを実現するために,ランダムウォークに基づく特徴量に対する低レイテンシのストリーミング近似を提案する。
本フレームワークでは,マルチホップ情報を要約した時間認識ノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
提案手法を3つのオープンソースデータセットと2つの社内データセットで評価し、3つの最先端アルゴリズム(TGN-attn,TGN-ID,Jodie)と比較した。
グラフプリント機能と機械学習分類器が組み合わさって、競合性能(ノード分類タスクのベースラインを5つのデータセットで上回る)を達成することを実証した。
同時に、グラフプリントは推論遅延を著しく減少させ、実験環境では桁違いのスピードアップを達成する。 Many real-world datasets have an underlying dynamic graph structure, where entities and their interactions evolve over time. Machine learning models should consider these dynamics in order to harness their full potential in downstream tasks. Previous approaches for graph representation learning have focused on either sampling k-hop neighborhoods, akin to breadth-first search, or random walks, akin to depth-first search. However, these methods are computationally expensive and unsuitable for real-time, low-latency inference on dynamic graphs. To overcome these limitations, we propose graph-sprints a general purpose feature extraction framework for continuous-time-dynamic-graphs (CTDGs) that has low latency and is competitive with state-of-the-art, higher latency models. To achieve this, a streaming, low latency approximation to the random-walk based features is proposed. In our framework, time-aware node embeddings summarizing multi-hop information are computed using only single-hop operations on the incoming edges. We evaluate our proposed approach on three open-source datasets and two in-house datasets, and compare with three state-of-the-art algorithms (TGN-attn, TGN-ID, Jodie). We demonstrate that our graph-sprints features, combined with a machine learning classifier, achieve competitive performance (outperforming all baselines for the node classification tasks in five datasets). Simultaneously, graph-sprints significantly reduce inference latencies, achieving close to an order of magnitude speed-up in our experimental setting. | 翻訳日:2023-11-16 20:00:12 公開日:2023-11-15 |
# 量子・原子・連続系における科学のための人工知能 Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems ( http://arxiv.org/abs/2307.08423v2 ) ライセンス: Link先を確認 | Xuan Zhang, Limei Wang, Jacob Helwig, Youzhi Luo, Cong Fu, Yaochen Xie, Meng Liu, Yuchao Lin, Zhao Xu, Keqiang Yan, Keir Adams, Maurice Weiler, Xiner Li, Tianfan Fu, Yucheng Wang, Haiyang Yu, YuQing Xie, Xiang Fu, Alex Strasser, Shenglong Xu, Yi Liu, Yuanqi Du, Alexandra Saxton, Hongyi Ling, Hannah Lawrence, Hannes St\"ark, Shurui Gui, Carl Edwards, Nicholas Gao, Adriana Ladera, Tailin Wu, Elyssa F. Hofgard, Aria Mansouri Tehrani, Rui Wang, Ameya Daigavane, Montgomery Bohde, Jerry Kurtin, Qian Huang, Tuong Phung, Minkai Xu, Chaitanya K. Joshi, Simon V. Mathis, Kamyar Azizzadenesheli, Ada Fang, Al\'an Aspuru-Guzik, Erik Bekkers, Michael Bronstein, Marinka Zitnik, Anima Anandkumar, Stefano Ermon, Pietro Li\`o, Rose Yu, Stephan G\"unnemann, Jure Leskovec, Heng Ji, Jimeng Sun, Regina Barzilay, Tommi Jaakkola, Connor W. Coley, Xiaoning Qian, Xiaofeng Qian, Tess Smidt, Shuiwang Ji | (参考訳) 人工知能(AI)の進歩は、自然科学における新たな発見のパラダイムを加速させている。
今日、aiは、幅広い空間的および時間的スケールで自然現象の理解を改善、加速、可能にし、自然科学を進歩させ始めており、ai for science(ai4science)と呼ばれる新しい研究領域を生み出している。
新たな研究パラダイムであるAI4Scienceは、巨大な学際的な領域であるという点でユニークなものである。
したがって、この分野の統一的で技術的な扱いは、まだ困難である。
この研究は、AI4Scienceのサブ領域、すなわち量子、原子、連続系のAIに関する技術的に完全な説明を提供することを目的としている。
これらの領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解し、AI4Scienceの重要なサブ領域を形成することを目的としている。
これらの領域にフォーカスするユニークな利点は、共通の課題の集合を共有し、統一的で基礎的な扱いを可能にすることである。
重要な共通課題は、深層学習法によって自然システムにおいて物理第一原理、特に対称性を捉える方法である。
対称性変換の同値性を達成するための手法について、深いが直感的な説明を提供する。
また,説明可能性,分散の一般化,基礎と大規模言語モデルによる知識伝達,不確実性定量化など,他の一般的な技術的課題についても論じる。
学習と教育を容易にするために,我々は有用なリソースのリストを分類した。
AI4Scienceをさらに進めるために、コミュニティの関心や努力がさらに高まることを期待しています。 Advances in artificial intelligence (AI) are fueling a new paradigm of discoveries in natural sciences. Today, AI has started to advance natural sciences by improving, accelerating, and enabling our understanding of natural phenomena at a wide range of spatial and temporal scales, giving rise to a new area of research known as AI for science (AI4Science). Being an emerging research paradigm, AI4Science is unique in that it is an enormous and highly interdisciplinary area. Thus, a unified and technical treatment of this field is needed yet challenging. This work aims to provide a technically thorough account of a subarea of AI4Science; namely, AI for quantum, atomistic, and continuum systems. These areas aim at understanding the physical world from the subatomic (wavefunctions and electron density), atomic (molecules, proteins, materials, and interactions), to macro (fluids, climate, and subsurface) scales and form an important subarea of AI4Science. A unique advantage of focusing on these areas is that they largely share a common set of challenges, thereby allowing a unified and foundational treatment. A key common challenge is how to capture physics first principles, especially symmetries, in natural systems by deep learning methods. We provide an in-depth yet intuitive account of techniques to achieve equivariance to symmetry transformations. We also discuss other common technical challenges, including explainability, out-of-distribution generalization, knowledge transfer with foundation and large language models, and uncertainty quantification. To facilitate learning and education, we provide categorized lists of resources that we found to be useful. We strive to be thorough and unified and hope this initial effort may trigger more community interests and efforts to further advance AI4Science. | 翻訳日:2023-11-16 19:59:40 公開日:2023-11-15 |
# cpet:圧縮大言語モデルにおけるパラメータ効率の効果的なチューニング CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models ( http://arxiv.org/abs/2307.07705v2 ) ライセンス: Link先を確認 | Weilin Zhao, Yuxiang Huang, Xu Han, Zhiyuan Liu, Zhengyan Zhang, Maosong Sun | (参考訳) パラメータ効率チューニング (PET) は, パラメータ (PETモジュール) をフルパラメータ細調整 (FT) よりもはるかに少なく調整できる一方で, 下流タスクのための大規模言語モデル (LLM) からの十分な知識を刺激できるため, 近年広く研究されている。
さらに、複数のタスクにPETを使う場合、異なるタスク固有のPETモジュールを凍結したLCM上に構築することができ、冗長なLCM配置を避けることができる。
PET は LLM のチューニングとデプロイのコストを大幅に削減するが、その推論は LLM の計算ボトルネックに悩まされている。
上記の課題に対処するため, 圧縮LCMをベースとした効果的なPETフレームワーク"CPET"を提案する。
CPETでは,LLM圧縮技術がPET性能に与える影響を評価し,これらの圧縮技術による知識損失を回復するための知識継承と回復戦略を導入する。
実験の結果, CPET の復元戦略により, 圧縮 LLM を用いたタスク固有 PET モジュールの協調作業は, 圧縮 LLM のオリジナルバージョンによる PET モジュールの協調作業に匹敵し, 圧縮 LLM に対してバニラ PET メソッドを直接適用した場合よりも優れることがわかった。 Parameter-efficient tuning (PET) has been widely explored in recent years because it tunes much fewer parameters (PET modules) than full-parameter fine-tuning (FT) while still stimulating sufficient knowledge from large language models (LLMs) for downstream tasks. Moreover, when PET is employed to serve multiple tasks, different task-specific PET modules can be built on a frozen LLM, avoiding redundant LLM deployments. Although PET significantly reduces the cost of tuning and deploying LLMs, its inference still suffers from the computational bottleneck of LLMs. To address the above issue, we propose an effective PET framework based on compressed LLMs, named "CPET". In CPET, we evaluate the impact of mainstream LLM compression techniques on PET performance and then introduce knowledge inheritance and recovery strategies to restore the knowledge loss caused by these compression techniques. Our experimental results demonstrate that, owing to the restoring strategies of CPET, collaborating task-specific PET modules with a compressed LLM can achieve comparable performance to collaborating PET modules with the original version of the compressed LLM and outperform directly applying vanilla PET methods to the compressed LLM. | 翻訳日:2023-11-16 19:59:10 公開日:2023-11-15 |
# 潜伏拡散モデルによる非アルコール性脂肪肝疾患分類性能の改善 Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models ( http://arxiv.org/abs/2307.06507v2 ) ライセンス: Link先を確認 | Romain Hardy, Joe Klepich, Ryan Mitchell, Steve Hall, Jericho Villareal, Cornelia Ilin | (参考訳) 深層学習と臨床専門知識を統合することは、医療上の課題に対処し、診断ツールの改善によって医療専門家に力を与える大きな可能性を秘めている。
しかし、注釈付き医療画像の必要性は、機械学習モデルのフルパワーを活用する上での障害となることが多い。
本研究は, 拡散モデルを用いて生成した合成画像と実画像を組み合わせることで, 低データ状態でも非アルコール性脂肪肝疾患(NAFLD)分類性能を向上させることができることを示した。
合成画像の画質を, 拡散・生成逆ネットワーク(gan)生成画像上で計算したインセプションスコア(is)とfr\'{e}chetインセプション距離(fid)の2つの指標を比較して評価した。
その結果,拡散生成画像では最大ISスコアが1.90ドル,GANが1.67ドル,FIDスコアが6.9.45ドル,GANが100.05ドルであった。
部分凍結したCNNバックボーン(EfficientNet v1)を用いることで,NAFLD予測タスクで最大画像レベルOC AUCが0.904ドルに達する。 Integrating deep learning with clinical expertise holds great potential for addressing healthcare challenges and empowering medical professionals with improved diagnostic tools. However, the need for annotated medical images is often an obstacle to leveraging the full power of machine learning models. Our research demonstrates that by combining synthetic images, generated using diffusion models, with real images, we can enhance nonalcoholic fatty liver disease (NAFLD) classification performance even in low-data regime settings. We evaluate the quality of the synthetic images by comparing two metrics: Inception Score (IS) and Fr\'{e}chet Inception Distance (FID), computed on diffusion- and generative adversarial network (GAN)-generated images. Our results show superior performance for the diffusion-generated images, with a maximum IS score of $1.90$ compared to $1.67$ for GANs, and a minimum FID score of $69.45$ compared to $100.05$ for GANs. Utilizing a partially frozen CNN backbone (EfficientNet v1), our synthetic augmentation method achieves a maximum image-level ROC AUC of $0.904$ on a NAFLD prediction task. | 翻訳日:2023-11-16 19:58:42 公開日:2023-11-15 |
# Trotter24: ハミルトンシミュレーションのための高精度適応段階化 Trotter24: A precision-guaranteed adaptive stepsize Trotterization for Hamiltonian simulations ( http://arxiv.org/abs/2307.05406v2 ) ライセンス: Link先を確認 | Tatsuhiko N. Ikeda, Hideki Kono, Keisuke Fujii | (参考訳) 最適な時間ステップを$\delta t$を選択することは、トロッター化に基づく効率的なハミルトンシミュレーションには不可欠であるが、トロッター誤差の複雑な構造のため難しい。
ここでは,2階および4階のトロッタ化を数学的誤差境界に照らさずに組み合わせてトロッタ誤差を測定する手法を提案する。
この手法を実装して,約最大段数である$\delta t$ を適応的に使用するために trotter24 というアルゴリズムを構築し,誤差許容値 $\epsilon$ preset 内で量子回路を最も浅く保ちます。
トロッター24は時間依存のハミルトニアンを含む一般のハミルトニアンに適用され、任意のトロッター化の順序に一般化することができる。
量子スピンチェーンでベンチマークすると、適応的に選択された$\delta t$は、既知のトロッター誤差の上限から推定されるものより約10倍大きいことが分かる。
trotter24では、測定コストを支払う代わりに、量子回路をエラー許容範囲内で浅く保つことができます。 Choosing an optimal time step $\delta t$ is crucial for an efficient Hamiltonian simulation based on Trotterization but difficult due to the complex structure of the Trotter error. Here we develop a method measuring the Trotter error by combining the second- and fourth-order Trotterizations rather than consulting with mathematical error bounds. Implementing this method, we construct an algorithm, which we name Trotter24, for adaptively using almost the largest stepsize $\delta t$, which keeps quantum circuits shallowest, within an error tolerance $\epsilon$ preset for our purpose. Trotter24 applies to generic Hamiltonians, including time-dependent ones, and can be generalized to any orders of Trotterization. Benchmarking it in a quantum spin chain, we find the adaptively chosen $\delta t$ to be about ten times larger than that inferred from known upper bounds of Trotter errors. Trotter24 allows us to keep the quantum circuit thus shallower within the error tolerance in exchange for paying the cost of measurements. | 翻訳日:2023-11-16 19:58:19 公開日:2023-11-15 |
# 分極化学におけるパウリ原理 Pauli principle in polaritonic chemistry ( http://arxiv.org/abs/2307.03508v4 ) ライセンス: Link先を確認 | Tam\'as Szidarovszky | (参考訳) キャビティの量子化された放射モードと相互作用する分子アンサンブルの状態空間における、パウリ原理(スピン統計定理)によって要求される置換対称性の強制について論じる。
パウリが許容する集合状態は、群論、すなわち、状態空間を区別不能な分子の置換群の適切な既約表現に射影することによって得られる。
分子数の増加に伴い,パウリが許容する集団状態の比は急速に減少することが示された。
ボゾン状態はフェルミオン状態よりも豊富であり、パウリが許容する状態空間(光子励起状態からの寄与)の明るさは、物質基底(励起)状態多様体のエネルギー準位において微細な構造を増すにつれて増大(減少)する。
数値的な結果は、赤外線キャビティモードと相互作用するH$_2$O分子を緩和する現実的な例を示す。 Consequences of enforcing permutational symmetry, as required by the Pauli principle (spin-statistical theorem), on the state space of molecular ensembles interacting with the quantized radiation mode of a cavity are discussed. The Pauli-allowed collective states are obtained by means of group theory, i.e., by projecting the state space onto the appropriate irreducible representations of the permutation group of the indistinguishable molecules. It is shown that with increasing number of molecules the ratio of Pauli-allowed collective states decreases very rapidly. Bosonic states are more abundant than fermionic states, and the brightness of Pauli-allowed state space (contribution from photon excited states) increases(decreases) with increasing fine structure in the energy levels of the material ground(excited) state manifold. Numerical results are shown for the realistic example of rovibrating H$_2$O molecules interacting with an infrared (IR) cavity mode. | 翻訳日:2023-11-16 19:57:58 公開日:2023-11-15 |
# BraTSデータセットにおけるジェネレーティブ・ディバイザ・ネットワークを用いたモードからの欠落MRI系列の合成 Synthesizing Missing MRI Sequences from Available Modalities using Generative Adversarial Networks in BraTS Dataset ( http://arxiv.org/abs/2310.07250v3 ) ライセンス: Link先を確認 | Ibrahim Ethem Hamamci | (参考訳) グリオ芽腫は、非常に攻撃的で致命的な脳腫瘍である。
mriは,非侵襲的かつ放射線のない性質のため,グリオブラスト腫の診断,治療計画,経過観察において重要な役割を担っている。
国際脳腫瘍セグメンテーション(BraTS)チャレンジは、4つの構造(T1, T1Gd, T2, T2-FLAIR)MRIスキャンを用いてグリオ芽腫のサブコンパートメントを正確かつ効率的に分割するための多数のAIアルゴリズムの生成に貢献した。
しかし、これらの4つのMRIシーケンスは必ずしも利用できない。
この問題を解決するために、GAN(Generative Adversarial Networks)を使用して、欠落したMRIシーケンスを合成する。
本稿では、3つのMRIシーケンスを入力として取り出して、欠落した4番目の構造シーケンスを生成する、オープンソースのGANアプローチの実装と利用を行う。
提案手法は, コミュニティ主導の汎用ディープラーニングフレームワークGaNDLF(General nuanced Deep Learning framework)に寄与し, 高品質で現実的なMRIシークエンスを合成し, 臨床医が診断能力を向上し, 脳腫瘍MRI定量化へのAI手法の適用を支援できることを示す。 Glioblastoma is a highly aggressive and lethal form of brain cancer. Magnetic resonance imaging (MRI) plays a significant role in the diagnosis, treatment planning, and follow-up of glioblastoma patients due to its non-invasive and radiation-free nature. The International Brain Tumor Segmentation (BraTS) challenge has contributed to generating numerous AI algorithms to accurately and efficiently segment glioblastoma sub-compartments using four structural (T1, T1Gd, T2, T2-FLAIR) MRI scans. However, these four MRI sequences may not always be available. To address this issue, Generative Adversarial Networks (GANs) can be used to synthesize the missing MRI sequences. In this paper, we implement and utilize an open-source GAN approach that takes any three MRI sequences as input to generate the missing fourth structural sequence. Our proposed approach is contributed to the community-driven generally nuanced deep learning framework (GaNDLF) and demonstrates promising results in synthesizing high-quality and realistic MRI sequences, enabling clinicians to improve their diagnostic capabilities and support the application of AI methods to brain tumor MRI quantification. | 翻訳日:2023-11-16 19:50:17 公開日:2023-11-15 |
# AdaptNet:物理に基づく文字制御のためのポリシー適応 AdaptNet: Policy Adaptation for Physics-Based Character Control ( http://arxiv.org/abs/2310.00239v3 ) ライセンス: Link先を確認 | Pei Xu, Kaixiang Xie, Sheldon Andrews, Paul G. Kry, Michael Neff, Morgan McGuire, Ioannis Karamouzas, Victor Zordan | (参考訳) そこで本研究では,既存の政策の潜伏空間を改良し,新しい行動がスクラッチから学習するのに比べて,タスクから素早く学習できるようにするアプローチであるAdaptNetを提案する。
AdaptNetは、与えられた強化学習コントローラの上に構築され、元の状態の埋め込みを強化する2層階層を使用して、振る舞いの穏やかな変更をサポートし、さらにポリシーネットワーク層を変更して、より実質的な変更を行う。
この技術は、既存の物理系コントローラを、移動、新しいタスクターゲット、キャラクター形態の変化、環境の変化など、幅広い新しいスタイルに適応させるのに有効であることが示されている。
さらに、スクラッチからのトレーニングや、既存のポリシーを変更する他のアプローチを使用する場合と比較して、トレーニング時間の大幅な短縮が示されるように、学習効率が大幅に向上する。
コードはhttps://motion-lab.github.io/adaptnet。 Motivated by humans' ability to adapt skills in the learning of new ones, this paper presents AdaptNet, an approach for modifying the latent space of existing policies to allow new behaviors to be quickly learned from like tasks in comparison to learning from scratch. Building on top of a given reinforcement learning controller, AdaptNet uses a two-tier hierarchy that augments the original state embedding to support modest changes in a behavior and further modifies the policy network layers to make more substantive changes. The technique is shown to be effective for adapting existing physics-based controllers to a wide range of new styles for locomotion, new task targets, changes in character morphology and extensive changes in environment. Furthermore, it exhibits significant increase in learning efficiency, as indicated by greatly reduced training times when compared to training from scratch or using other approaches that modify existing policies. Code is available at https://motion-lab.github.io/AdaptNet. | 翻訳日:2023-11-16 19:49:49 公開日:2023-11-15 |
# 深部視覚トランスフォーマー拡大のためのマスク画像残差学習 Masked Image Residual Learning for Scaling Deeper Vision Transformers ( http://arxiv.org/abs/2309.14136v3 ) ライセンス: Link先を確認 | Guoxi Huang, Hongtao Fu, Adrian G. Bors | (参考訳) より深度の高いビジョントランスフォーマー(ViT)は、より訓練が難しい。
プリトレーニングにマスク画像モデリング(mim)を使用する場合,vitの深層層では劣化問題が発生する。
より深い ViT のトレーニングを容易にするため,我々はMasked Image Residual Learning (MIRL) と呼ばれる自己教師型学習フレームワークを導入する。
マスク画像の残像を復元するための学習として,ViTの深い層に対する事前学習目標を再構築する。
我々は,深部 ViT を MIRL を用いて効果的に最適化し,深部 ViT の精度向上を図っている。
ViT-Base や ViT-Large と同じ計算量で 4.5$\times$ と 2$\times$ の ViT-S-54 と ViT-B-48 をインスタンス化する。
より深いViT-S-54は3$\times$ ViT-Largeより安く、ViT-Largeと同等のパフォーマンスを実現している。
ViT-B-48は、ImageNetで86.2%のトップ1の精度を達成した。
一方、MIRLで事前訓練された深いViTは、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに優れた一般化能力を示す。
一方、MIRLは事前学習効率が高い。
事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。 Deeper Vision Transformers (ViTs) are more challenging to train. We expose a degradation problem in deeper layers of ViT when using masked image modeling (MIM) for pre-training. To ease the training of deeper ViTs, we introduce a self-supervised learning framework called Masked Image Residual Learning (MIRL), which significantly alleviates the degradation problem, making scaling ViT along depth a promising direction for performance upgrade. We reformulate the pre-training objective for deeper layers of ViT as learning to recover the residual of the masked image. We provide extensive empirical evidence showing that deeper ViTs can be effectively optimized using MIRL and easily gain accuracy from increased depth. With the same level of computational complexity as ViT-Base and ViT-Large, we instantiate 4.5$\times$ and 2$\times$ deeper ViTs, dubbed ViT-S-54 and ViT-B-48. The deeper ViT-S-54, costing 3$\times$ less than ViT-Large, achieves performance on par with ViT-Large. ViT-B-48 achieves 86.2% top-1 accuracy on ImageNet. On one hand, deeper ViTs pre-trained with MIRL exhibit excellent generalization capabilities on downstream tasks, such as object detection and semantic segmentation. On the other hand, MIRL demonstrates high pre-training efficiency. With less pre-training time, MIRL yields competitive performance compared to other approaches. | 翻訳日:2023-11-16 19:49:15 公開日:2023-11-15 |
# 対実的説明のためのテキスト・ツー・イメージモデル:ブラックボックスアプローチ Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach ( http://arxiv.org/abs/2309.07944v2 ) ライセンス: Link先を確認 | Guillaume Jeanneret and Lo\"ic Simon and Fr\'ed\'eric Jurie | (参考訳) 本稿では,ある画像に対する分類器の予測を変更する上で必要となる数少ない特徴の識別と修正を含む,対実説明(CE)の生成という課題に対処する。
提案手法であるText-to-Image Models for Counterfactual Explanations (TIME) は,蒸留に基づくブラックボックス・カウンターファクトリー手法である。
従来の手法とは異なり、このアプローチは画像と予測のみを必要とし、分類器の構造、パラメータ、勾配の必要性を省略する。
反事実を生成する前に、timeはテキスト埋め込みの形で安定した拡散に2つの異なるバイアスを導入する: 画像の構造に関連付けられたコンテキストバイアスと、対象の分類器によって学習されたクラス固有の特徴に関連付けられたクラスバイアスである。
これらのバイアスを学習した後、分類器の予測されたクラストークンを適用し、ターゲット埋め込みを条件付けとして画像を再生成し、反実的説明を生成する。
広範囲な実証研究によって、ブラックボックス設定内で動作しても、同等の効果を説明することができる。 This paper addresses the challenge of generating Counterfactual Explanations (CEs), involving the identification and modification of the fewest necessary features to alter a classifier's prediction for a given image. Our proposed method, Text-to-Image Models for Counterfactual Explanations (TIME), is a black-box counterfactual technique based on distillation. Unlike previous methods, this approach requires solely the image and its prediction, omitting the need for the classifier's structure, parameters, or gradients. Before generating the counterfactuals, TIME introduces two distinct biases into Stable Diffusion in the form of textual embeddings: the context bias, associated with the image's structure, and the class bias, linked to class-specific features learned by the target classifier. After learning these biases, we find the optimal latent code applying the classifier's predicted class token and regenerate the image using the target embedding as conditioning, producing the counterfactual explanation. Extensive empirical studies validate that TIME can generate explanations of comparable effectiveness even when operating within a black-box setting. | 翻訳日:2023-11-16 19:48:21 公開日:2023-11-15 |
# GraspGF: 人為的に補助するデキサス・グラスピングのためのスコアベース・グラッピング・プリミティブ GraspGF: Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping ( http://arxiv.org/abs/2309.06038v3 ) ライセンス: Link先を確認 | Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong | (参考訳) 人間の手が使用できない、あるいは不適当な状況において、個人を支援するための人為的なロボットハンドの使用が重要視されている。
本稿では,ロボットハンドの指制御方針を学習し,対象物の把握を支援することを目的とした,人間支援のデクスタース把持という新しいタスクを提案する。
従来の厳密な把握とは異なり、このタスクは、オブジェクトの幾何学に加えて、ポリシーが多様なユーザ意図に適応する必要があるため、より複雑な課題を示す。
この課題は、2つのサブモジュールからなるアプローチを提案することで解決される: ハンドオブジェクト-条件把握プリミティブであるGrasping Gradient Field~(GraspGF)と履歴条件残余ポリシー。
grabgfは、成功把握例セットから勾配を推定して「どのように」把握するかを学習し、残留ポリシーは、軌道履歴に基づいて、どの速度で「いつ」及びどの速度で把握動作を実行するべきかを決定する。
実験の結果,本手法がベースラインに比べて優れていることを示し,実世界のアプリケーションにおけるユーザ認識と実用性を強調した。
コードとデモは"https://sites.google.com/view/graspgf"で見ることができる。 The use of anthropomorphic robotic hands for assisting individuals in situations where human hands may be unavailable or unsuitable has gained significant importance. In this paper, we propose a novel task called human-assisting dexterous grasping that aims to train a policy for controlling a robotic hand's fingers to assist users in grasping objects. Unlike conventional dexterous grasping, this task presents a more complex challenge as the policy needs to adapt to diverse user intentions, in addition to the object's geometry. We address this challenge by proposing an approach consisting of two sub-modules: a hand-object-conditional grasping primitive called Grasping Gradient Field~(GraspGF), and a history-conditional residual policy. GraspGF learns `how' to grasp by estimating the gradient from a success grasping example set, while the residual policy determines `when' and at what speed the grasping action should be executed based on the trajectory history. Experimental results demonstrate the superiority of our proposed method compared to baselines, highlighting the user-awareness and practicality in real-world applications. The codes and demonstrations can be viewed at "https://sites.google.com/view/graspgf". | 翻訳日:2023-11-16 19:47:58 公開日:2023-11-15 |
# ImitationNet:共有潜在空間による非教師なし人間とロボットのモーションリターゲティング ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space ( http://arxiv.org/abs/2309.05310v2 ) ライセンス: Link先を確認 | Yashuai Yan and Esteve Valls Mascaro and Dongheui Lee | (参考訳) 本稿では,ロボットが人間のポーズを正確に模倣できる,ロボット間動作再ターゲティングのための新しいディープラーニング手法を提案する。
従来のディープラーニングに基づく研究とは対照的に,本手法では,新たなロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。
まず,人間とロボットのポーズのクロスドメイン類似度指標を生かした適応型コントラスト学習を用いて,人間とロボットの共用潜伏空間を構築した。
さらに,姿勢の類似性を高精度に捉えつつ,潜在空間からのロボットの動き制御を可能にする共通潜在空間構築のための一貫性用語を提案する。
例えば、2つの投影された人間のポーズ間の単純な線形補間によって、中間運動を生成することができる。
我々は, 多様なモダリティ(テキスト, RGBビデオ, キーポーズなど)からロボット制御を包括的に評価し, 非専門家のロボット制御を容易にする。
我々のモデルは、効率と精度の観点から、人間からロボットへのリターゲティングに関する既存の研究よりも優れています。
最後に,本手法を実ロボットに実装し,自己協調回避を全身制御で実現し,本手法の有効性を示す。
我々のウェブサイト https://evm7.github.io/UnsH2R/ This paper introduces a novel deep-learning approach for human-to-robot motion retargeting, enabling robots to mimic human poses accurately. Contrary to prior deep-learning-based works, our method does not require paired human-to-robot data, which facilitates its translation to new robots. First, we construct a shared latent space between humans and robots via adaptive contrastive learning that takes advantage of a proposed cross-domain similarity metric between the human and robot poses. Additionally, we propose a consistency term to build a common latent space that captures the similarity of the poses with precision while allowing direct robot motion control from the latent space. For instance, we can generate in-between motion through simple linear interpolation between two projected human poses. We conduct a comprehensive evaluation of robot control from diverse modalities (i.e., texts, RGB videos, and key poses), which facilitates robot control for non-expert users. Our model outperforms existing works regarding human-to-robot retargeting in terms of efficiency and precision. Finally, we implemented our method in a real robot with self-collision avoidance through a whole-body controller to showcase the effectiveness of our approach. More information on our website https://evm7.github.io/UnsH2R/ | 翻訳日:2023-11-16 19:47:36 公開日:2023-11-15 |
# 人工ゼーマン項を用いた平均場コヒーレントイジングマシン Mean-field Coherent Ising Machines with artificial Zeeman terms ( http://arxiv.org/abs/2309.04043v2 ) ライセンス: Link先を確認 | Mastiyage Don Sudeera Hasaranga Gunathilaka, Yoshitaka Inui, Satoshi Kako, Yoshihisa Yamamoto, Toru Aonishi | (参考訳) コヒーレントイジングマシン(Coherent Ising Machine, CIM)は、イジング・ハミルトンの基底状態を見つけることで組合せ最適化問題を解決する光学パラメトリック発振器のネットワークである。
cimsでは、スピンに対応する光パラメトリック発振器パルスの可変振幅による相互作用とゼーマン項の大きさのミスマッチのためにゼーマン項を実現しようとすると問題が発生する。
cimのこの問題に対処するために、絶対平均振幅法、補助スピン法、カオス振幅制御法(cac)法という3つのアプローチが提案されている。
本稿では,量子ノイズのない物理学的なヒューリスティック解法である平均場CIMモデルにおけるゼーマン項の効率的な実装に焦点を当てた。
平均場モデルでは、計算はより物理的に正確なモデルよりも容易であり、フィールドプログラマブルゲートアレイ(FPGA)や大規模シミュレーションの実装に適している。
まず,CAC法を用いてゼーマン項を実現するための平均場CIMモデルの性能と,より物理的に正確なモデルと比較した場合の性能について検討した。
次に、平均場モデルおよびより物理的に正確なモデル上での他のゼーマン項実現手法と比較した。
どちらのモデルでも、CAC法は同様の性能を維持しながら他の手法よりも優れていた。 Coherent Ising Machine (CIM) is a network of optical parametric oscillators that solves combinatorial optimization problems by finding the ground state of an Ising Hamiltonian. In CIMs, a problem arises when attempting to realize the Zeeman term because of the mismatch in size between interaction and Zeeman terms due to the variable amplitude of the optical parametric oscillator pulses corresponding to spins. There have been three approaches proposed so far to address this problem for CIM, including the absolute mean amplitude method, the auxiliary spin method, and the chaotic amplitude control (CAC) method. This paper focuses on the efficient implementation of Zeeman terms within the mean-field CIM model, which is a physics-inspired heuristic solver without quantum noise. With the mean-field model, computation is easier than with more physically accurate models, which makes it suitable for implementation in field programmable gate arrays (FPGAs) and large-scale simulations. Firstly, we examined the performance of the mean-field CIM model for realizing the Zeeman term with the CAC method, as well as their performance when compared to a more physically accurate model. Next, we compared the CAC method to other Zeeman term realization techniques on the mean-field model and a more physically accurate model. In both models, the CAC method outperformed the other methods while retaining similar performance. | 翻訳日:2023-11-16 19:47:16 公開日:2023-11-15 |
# 電磁誘導透過性とオートラータウン分割の識別指標としてのコヒーレンス Coherence as an indicator to discern electromagnetically induced transparency and Autler-Townes splitting ( http://arxiv.org/abs/2309.02321v2 ) ライセンス: Link先を確認 | Arif Warsi Laskar, Pratik Adhikary, Niharika Singh and Saikat Ghosh | (参考訳) 電磁誘導透過(eit)とオートラータウン分割(ats)は、強い制御場の存在下で弱いプローブの吸収プロファイルに生じる透明性の幅によって特徴づけられ、区別される。
どちらの現象も同様の分光図形を生成するため、これはしばしば曖昧性をもたらす。
しかし,Akaike's Information Criterion (AIC) テストに基づく客観的手法は,プローブ吸収プロファイルに適用した場合の2つの条件を定量的に識別する方法を提供する。
その結果, 制御界強度の遷移値は, 対応する非対角密度行列要素の極解析により得られた値よりも高いことがわかった。
対照的に、音の存在下でも予測値の周りで異なる遷移点を生じる基底状態のコヒーレンスと測定されたコヒーレンス量化器にテストを適用する。
このテストは2つのレジーム間の遷移を正確に捉え、そのような区別を行うのに適切なコヒーレンス尺度が不可欠であることを示す。 Electromagnetically induced transparency (EIT) and Autler-Townes splitting (ATS) are generally characterized and distinguished by the width of the transparency created in the absorption profile of a weak probe in presence of a strong control field. This often leads to ambiguities, as both phenomena yield similar spectroscopic signature. However, an objective method based on Akaike's Information Criterion (AIC) test offers a quantitative way to discern the two regimes when applied on the probe absorption profile. The obtained transition value of control field strength was found to be higher than the value given by pole analysis of the corresponding off-diagonal density matrix element. By contrast, we apply the test on ground state coherence and the measured coherence quantifier, which yields a distinct transition point around the predicted value even in presence of noise. Our test accurately captures the transition between two regimes, indicating that a proper measure of coherence is essential for making such distinctions. | 翻訳日:2023-11-16 19:46:53 公開日:2023-11-15 |
# 重力および標準モデル展開における単一光子遷移からの原子回折 Atomic diffraction from single-photon transitions in gravity and Standard-Model extensions ( http://arxiv.org/abs/2309.02051v2 ) ライセンス: Link先を確認 | Alexander Bott, Fabio Di Pumpo, Enno Giese | (参考訳) 単一光子遷移は、地上重力波やダークマター検出に適した非常に長いベースライン原子干渉計を設計し、運用するための重要な技術の1つである。
このようなセットアップは相対論的および超高次モデル物理学の発見を目的としているため、この精度とそれらの効果を含む原子回折と同様に、インターフェロメトリー相の解析を行う必要がある。
対照的に、ほとんどの治療は理想化された回折に焦点を当てている。
ここでは、重力および標準模型拡張における単光子遷移の研究を行い、暗黒物質とアインシュタイン同値原理の破れをモデル化した。
我々は、質量欠陥によって引き起こされる内部から中心への自由度の結合や、回折光パルスの重力赤方偏移といった相対論的効果を考慮する。
この目的のためには、地上で必要とされる光パルスのチャープと、それに伴う単光子遷移の運動量移動も含んでいる。 Single-photon transitions are one of the key technologies for designing and operating very-long-baseline atom interferometers tailored for terrestrial gravitational-wave and dark-matter detection. Since such setups aim at the detection of relativistic and beyond-Standard-Model physics, the analysis of interferometric phases as well as of atomic diffraction must be performed to this precision and including these effects. In contrast, most treatments focused on idealized diffraction so far. Here, we study single-photon transitions, both magnetically-induced and direct ones, in gravity and Standard-Model extensions modeling dark matter as well as Einstein-equivalence-principle violations. We take into account relativistic effects like the coupling of internal to center-of-mass degrees of freedom, induced by the mass defect, as well as the gravitational redshift of the diffracting light pulse. To this end, we also include chirping of the light pulse required by terrestrial setups, as well as its associated modified momentum transfer for single-photon transitions. | 翻訳日:2023-11-16 19:46:34 公開日:2023-11-15 |
# プログラム・オブ・思考は推論のためにいつ働くのか? When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v4 ) ライセンス: Link先を確認 | Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen | (参考訳) 具体化された人工知能の領域では、大規模言語モデル(llm)の推論能力が重要な役割を果たす。
複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。
このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。
具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。
経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。
プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。
次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。
その結果,提案手法の有効性が示された。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。 In the realm of embodied artificial intelligence, the reasoning capabilities of Large Language Models (LLMs) play a pivotal role. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct. | 翻訳日:2023-11-16 19:46:16 公開日:2023-11-15 |
# 時間多重リピータを用いたネットワーク上の絡み合いルーティング Entanglement Routing over Networks with Time Multiplexed Repeaters ( http://arxiv.org/abs/2308.15028v2 ) ライセンス: Link先を確認 | Emily A Van Milligen, Eliana Jacobson, Ashlesha Patil, Gayane Vardoyan, Don Towsley, and Saikat Guha | (参考訳) 量子ネットワークは、リピータノードを使用して、隣人と外部ベルペアを生成でき、確率$p$のiidと、ある程度の確率$q$で成功する内部ベル状態測定(BSM)を実行することで、消費者に長距離の絡み合わせることができる。
これらの確率の実際の値は、問題のネットワークの実験的パラメータに依存する。
グローバルリンク状態の知識は、2つのコンシューマ間の絡み合いの発生率を最大化するために必要だが、ネットワークの動的な性質のため、これは理にかなわない要求である。
この研究は、異なる時間ステップでBSMを実行することができる時間多重リピータで動作する、ローカルリンク状態の知識、マルチパスルーティングプロトコルを評価する。
本研究は、初期遅延も増大するが、時間多重化ブロック長($k$)で平均レートが増加することを示した。
ステップ関数メモリデコヒーレンスモデルを導入し、平均$\mu$で指数関数的に分配された時間において量子メモリに量子ビットを保持すると、最適な$k$$$k_\text{opt}$)値が現れる。
p$が減少するか$\mu$が増加すると、$k_\text{opt}$は増加する。
この値は、時間多重化の利点が、以前に確立された絡み合ったペアを失うリスクの増加とバランスをとれるためである。 Quantum networks will be able to service consumers with long distance entanglement by use of repeater nodes that can both generate external Bell pairs with their neighbors, iid with probability $p$, as well as perform internal Bell State Measurements (BSMs) which succeed with some probability $q$. The actual values of these probabilities is dependent upon the experimental parameters of the network in question. While global link state knowledge is needed to maximize the rate of entanglement generation between any two consumers, this may be an unreasonable request due to the dynamic nature of the network. This work evaluates a local link state knowledge, multi-path routing protocol that works with time multiplexed repeaters that are able to perform BSMs across different time steps. This study shows that the average rate increases with the time multiplexing block length, $k$, although the initial latency also increases. When a step function memory decoherence model is introduced so that qubits are held in the quantum memory for a time exponentially distributed with mean $\mu$, an optimal $k$ ($k_\text{opt}$) value appears. As $p$ decreases or $\mu$ increases the value of $k_\text{opt}$ increases. This value is such that the benefits from time multiplexing are balanced with the increased risk of losing a previously established entangled pair. | 翻訳日:2023-11-16 19:45:56 公開日:2023-11-15 |
# 最小ショットゼロショットシナリオにおける半教師付き学習 Semi-Supervised Learning in the Few-Shot Zero-Shot Scenario ( http://arxiv.org/abs/2308.14119v2 ) ライセンス: Link先を確認 | Noam Fluss, Guy Hacohen, Daphna Weinshall | (参考訳) Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方を利用してモデルパフォーマンスを向上させるフレームワークである。
従来のSSLメソッドは、ラベル付きデータとラベルなしデータが同じラベル空間を共有するという仮定の下で動作する。
しかし、現実のシナリオでは、特にラベル付きトレーニングデータセットがサイズに制限されている場合、ラベル付きデータセットから完全に欠落するクラスもある。
この広いコンテキストに対処するため、既存のSSLメソッドを拡張するための一般的なアプローチを提案し、特定のクラスが欠落している状況に効果的に対処できるようにします。
これは、真のクラス周波数の確率ベクトルと推論されたクラス周波数の間のKL偏差をペナリゼーションする目的関数に追加用語を導入することで達成される。
実験の結果,最先端のSSL,オープンセットのSSL,オープンワールドのSSLメソッドと比較して,精度が大幅に向上した。
CIFAR-100とSTL-10の2つのベンチマーク画像分類データセットを用いてこれらの実験を行った。 Semi-Supervised Learning (SSL) is a framework that utilizes both labeled and unlabeled data to enhance model performance. Conventional SSL methods operate under the assumption that labeled and unlabeled data share the same label space. However, in practical real-world scenarios, especially when the labeled training dataset is limited in size, some classes may be totally absent from the labeled set. To address this broader context, we propose a general approach to augment existing SSL methods, enabling them to effectively handle situations where certain classes are missing. This is achieved by introducing an additional term into their objective function, which penalizes the KL-divergence between the probability vectors of the true class frequencies and the inferred class frequencies. Our experimental results reveal significant improvements in accuracy when compared to state-of-the-art SSL, open-set SSL, and open-world SSL methods. We conducted these experiments on two benchmark image classification datasets, CIFAR-100 and STL-10, with the most remarkable improvements observed when the labeled data is severely limited, with only a few labeled examples per class | 翻訳日:2023-11-16 19:45:31 公開日:2023-11-15 |
# 多要素バンドの固定予算実値組合せ純粋探索 Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit ( http://arxiv.org/abs/2310.15681v2 ) ライセンス: Link先を確認 | Shintaro Nakamura and Masashi Sugiyama | (参考訳) 固定予算設定におけるマルチアームバンディットの実測値について検討した。
まず,動作クラスのサイズがアーム数に対して指数関数的に大きい場合でも,最善の動作を識別できる最初のアルゴリズムであるコンビネートアル・逐次アサイン(csa)アルゴリズムを導入する。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
次に、アクションクラスのサイズが多項式である場合には、minimax combinatorial sequential accepts and rejects(minimax-combsar)アルゴリズムという別のアルゴリズムを導入し、それが最適であることを示し、下界に一致することを示す。
最後に,提案手法を従来の手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。 We study the real-valued combinatorial pure exploration of the multi-armed bandit in the fixed-budget setting. We first introduce the Combinatorial Successive Asign (CSA) algorithm, which is the first algorithm that can identify the best action even when the size of the action class is exponentially large with respect to the number of arms. We show that the upper bound of the probability of error of the CSA algorithm matches a lower bound up to a logarithmic factor in the exponent. Then, we introduce another algorithm named the Minimax Combinatorial Successive Accepts and Rejects (Minimax-CombSAR) algorithm for the case where the size of the action class is polynomial, and show that it is optimal, which matches a lower bound. Finally, we experimentally compare the algorithms with previous methods and show that our algorithm performs better. | 翻訳日:2023-11-16 19:37:00 公開日:2023-11-15 |
# 計画による推論による推論の排除: llmsの非線形思考を導く新しい枠組み Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking ( http://arxiv.org/abs/2310.12342v2 ) ライセンス: Link先を確認 | Yongqi Tong, Yifan Wang, Dawei Li, Sizhe Wang, Zi Lin, Simeng Han, Jingbo Shang | (参考訳) CoT(Chain-of-Thought)の促進と、その変種は、人間のような線形認知と論理をエミュレートすることで、高い推論能力を持つ大規模言語モデル(LLM)の装備を探究する。
しかし、人間の心は複雑で、線形思考と非線形思考の両方と混ざり合っている。
本研究では, LLM の非直線的思考を導くために, 排除原理と推論の原理を組み合わさった小説である \textbf{I}nferential \textbf{E}xclusion \textbf{P}rompting (IEP) を提案する。
IEP は LLM を計画し、自然言語推論 (NLI) を利用して、それぞれの可能なソリューションのコンテキスト、常識、事実との関係を推論する。
この前方計画と後方削除プロセスにより、IEPは、線形認知過程のみを反映する他のCoTベースの方法と比較して、複雑な人間の思考プロセスをシミュレートすることができる。
我々は一連の実証実験を行い、IEPがCoTを一貫して上回っていることを裏付けた。
さらに、IEPとCoTの統合により、特定のタスクにおけるLLMの性能が向上し、混合論理プロセスによるLLMの装備の必要性が強調される。
さらに,人間の論理に固有の包括的特徴をよりよく評価するために,<textbf{M}ental-\textbf{A}bility \textbf{R}easoning \textbf{B}enchmark (MARB)を紹介する。
このベンチマークは6つの新しいサブタスクから成り、合計9,115の質問があり、そのうち1,685は手作りの合理化参照で開発されている。
我々は,「textsc{IEP}」と「textsc{MARB}」の両方が,LLMの論理と言語推論能力を明らかにする上で有望な方向として機能し,さらなる進歩をもたらすと考えている。
もうすぐ ~\texttt{anonymity link} で \textsc{MARB} が利用可能になる。 Chain-of-Thought(CoT) prompting and its variants explore equipping large language models (LLMs) with high-level reasoning abilities by emulating human-like linear cognition and logic. However, the human mind is complicated and mixed with both linear and nonlinear thinking. In this work, we propose \textbf{I}nferential \textbf{E}xclusion \textbf{P}rompting (IEP), a novel prompting that combines the principles of elimination and inference in order to guide LLMs to think non-linearly. IEP guides LLMs to plan and then utilize Natural Language Inference (NLI) to deduce each possible solution's entailment relation with context, commonsense, or facts, therefore yielding a broader perspective by thinking back for inferring. This forward planning and backward eliminating process allows IEP to better simulate the complex human thinking processes compared to other CoT-based methods, which only reflect linear cognitive processes. We conducted a series of empirical studies and have corroborated that IEP consistently outperforms CoT across various tasks. Additionally, we observe that integrating IEP and CoT further improves the LLMs' performance on certain tasks, highlighting the necessity of equipping LLMs with mixed logic processes. Moreover, to better evaluate comprehensive features inherent in human logic, we introduce \textbf{M}ental-\textbf{A}bility \textbf{R}easoning \textbf{B}enchmark (MARB). The benchmark comprises six novel subtasks with a total of 9,115 questions, among which 1,685 are developed with hand-crafted rationale references. We believe both \textsc{IEP} and \textsc{MARB} can serve as a promising direction for unveiling LLMs' logic and verbal reasoning abilities and drive further advancements. \textsc{MARB} will be available at ~\texttt{anonymity link} soon. | 翻訳日:2023-11-16 19:36:46 公開日:2023-11-15 |
# MiniZero: Go, Othello, Atari GamesにおけるAlphaZeroとMuZeroの比較分析 MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games ( http://arxiv.org/abs/2310.11305v2 ) ライセンス: Link先を確認 | Ti-Rong Wu, Hung Guei, Po-Wei Huang, Pei-Chiun Peng, Ting Han Wei, Chung-Chin Shih, Yun-Jui Tsai | (参考訳) 本稿では,AlphaZero,MuZero,Gumbel AlphaZero,Gumbel MuZeroの4つの最先端アルゴリズムをサポートするゼロ知識学習フレームワークであるMiniZeroを提案する。
これらのアルゴリズムは多くのゲームで超人的性能を示しているが、どのアルゴリズムが特定のタスクに最も適しているか、それとも効率的かは定かではない。
minizeroを通じて,2つのボードゲーム,9x9 goと8x8 othelloおよび57のatariゲームにおける各アルゴリズムのパフォーマンスを体系的に評価した。
2つのボードゲームでは、より多くのシミュレーションを使用することでパフォーマンスが向上する。
しかし、AlphaZero と MuZero の選択はゲームの性質によって異なる可能性がある。
Atariのゲームでは、MuZeroとGumbel MuZeroの両方が検討に値する。
各ゲームに固有の特徴があるため、異なるアルゴリズムとシミュレーションが様々な結果をもたらす。
さらに,より効率的に計算を割り当てるため,訓練中のシミュレーション予算を漸進的に増加させるプログレッシブ・シミュレーションという手法を導入する。
実験の結果,プログレッシブシミュレーションは2つのボードゲームにおいて有意に優れた性能が得られることがわかった。
本論文は,我々のフレームワークと学習モデルを公開することにより,ゼロ知識学習アルゴリズムの今後の研究のためのベンチマークを提供し,これらのゼロ知識学習ベースラインに対する研究者のアルゴリズム選択と比較を支援する。
私たちのコードとデータはhttps://rlg.iis.sinica.edu.tw/papers/minizeroで公開されています。 This paper presents MiniZero, a zero-knowledge learning framework that supports four state-of-the-art algorithms, including AlphaZero, MuZero, Gumbel AlphaZero, and Gumbel MuZero. While these algorithms have demonstrated super-human performance in many games, it remains unclear which among them is most suitable or efficient for specific tasks. Through MiniZero, we systematically evaluate the performance of each algorithm in two board games, 9x9 Go and 8x8 Othello, as well as 57 Atari games. For two board games, using more simulations generally results in higher performance. However, the choice of AlphaZero and MuZero may differ based on game properties. For Atari games, both MuZero and Gumbel MuZero are worth considering. Since each game has unique characteristics, different algorithms and simulations yield varying results. In addition, we introduce an approach, called progressive simulation, which progressively increases the simulation budget during training to allocate computation more efficiently. Our empirical results demonstrate that progressive simulation achieves significantly superior performance in two board games. By making our framework and trained models publicly available, this paper contributes a benchmark for future research on zero-knowledge learning algorithms, assisting researchers in algorithm selection and comparison against these zero-knowledge learning baselines. Our code and data are available at https://rlg.iis.sinica.edu.tw/papers/minizero. | 翻訳日:2023-11-16 19:36:05 公開日:2023-11-15 |
# vibe: twitter分類のためのトピック駆動時間適応 VIBE: Topic-Driven Temporal Adaptation for Twitter Classification ( http://arxiv.org/abs/2310.10191v4 ) ライセンス: Link先を確認 | Yuji Zhang, Jing Li, Wenjie Li | (参考訳) 言語機能は現実世界のソーシャルメディアで進化しており、ダイナミックスにおけるテキスト分類のパフォーマンスが低下している。
この課題に対処するために、過去のデータに基づいてトレーニングされたモデルが将来テストされる時間適応について研究する。
以前のほとんどの作業は、事前トレーニングや知識更新の継続に重点を置いており、騒がしいソーシャルメディアデータでのパフォーマンスを損なう可能性がある。
この問題に取り組むために,潜在トピック進化のモデル化を通じて特徴変化を反映し,新しいモデルであるvibe: variational information bottleneck for evolutionsを提案する。
具体的には、まず2つのInformation Bottleneck(IB)レギュレータを使用し、過去と将来のトピックを区別する。
次に,タイムスタンプとクラスラベル予測を用いたマルチタスクトレーニングによる適応機能として機能する。
適応学習では、VIBEは、後進的に生成されたオンラインストリームから取得した未ラベルデータをトレーニングデータ時間に利用する。
twitterによる3つの分類タスクの実験では、データのわずか3%のモデルが、これまでの最先端のトレーニング方法を大きく上回っていることが分かりました。 Language features are evolving in real-world social media, resulting in the deteriorating performance of text classification in dynamics. To address this challenge, we study temporal adaptation, where models trained on past data are tested in the future. Most prior work focused on continued pretraining or knowledge updating, which may compromise their performance on noisy social media data. To tackle this issue, we reflect feature change via modeling latent topic evolution and propose a novel model, VIBE: Variational Information Bottleneck for Evolutions. Concretely, we first employ two Information Bottleneck (IB) regularizers to distinguish past and future topics. Then, the distinguished topics work as adaptive features via multi-task training with timestamp and class label prediction. In adaptive learning, VIBE utilizes retrieved unlabeled data from online streams created posterior to training data time. Substantial Twitter experiments on three classification tasks show that our model, with only 3% of data, significantly outperforms previous state-of-the-art continued-pretraining methods. | 翻訳日:2023-11-16 19:35:41 公開日:2023-11-15 |
# 新しい量子デコーダによる誤差指数の低境界 Lower Bounds on Error Exponents via a New Quantum Decoder ( http://arxiv.org/abs/2310.09014v2 ) ライセンス: Link先を確認 | Salman Beigi and Marco Tomamichel | (参考訳) 我々は、かなり良い測定の変種に基づく新しい量子デコーダを導入するが、代替行列商によって定義される。
我々は、このデコーダを用いて、古典量子および絡み合い支援チャネル符号化問題に対する一発的および漸近的レジームにおける誤差指数の新たな下界を示す。
我々の境界は(ワンショット境界で)測定され、(漸近境界で)チャンネル r\'enyi が1/2から1の順序で相互情報を挟んで表現される。
我々の結果は、いくつかの既定の一般インスタンスの境界値に匹敵するものではないが、基礎となるチャネルが古典的な場合、(キャパシティに近い速度で)厳密である。 We introduce a new quantum decoder based on a variant of the pretty good measurement, but defined via an alternative matrix quotient. We use this decoder to show new lower bounds on the error exponent both in the one-shot and asymptotic regimes for the classical-quantum and the entanglement-assisted channel coding problem. Our bounds are expressed in terms of measured (for the one-shot bounds) and sandwiched (for the asymptotic bounds) channel R\'enyi mutual information of order between 1/2 and 1. Our results are not comparable with some previously established bounds for general instances, yet they are tight (for rates close to capacity) when the underlying channel is classical. | 翻訳日:2023-11-16 19:35:01 公開日:2023-11-15 |
# NISQデバイスにおける量子ゼノ効果の観測 Observation of the Quantum Zeno Effect on a NISQ Device ( http://arxiv.org/abs/2310.08317v2 ) ライセンス: Link先を確認 | Andrea Alessandrini, Carola Ciaramelletti, Simone Paganelli | (参考訳) 量子ゼノ効果(qze)をibm量子体験デバイス上で単一量子ビット上で複数の測定値の影響で検討する。
我々はラビの進化と自由崩壊の2つの可能性を考える。
いずれの場合も、QZEの発生は、測定回数による生存確率の増加として観察される。 We study the Quantum Zeno Effect (QZE) on a single qubit on IBM Quantum Experience devices under the effect of multiple measurements. We consider two possible cases: the Rabi evolution and the free decay. In both cases we observe the occurrence of the QZE as an increasing of the survival probability with the number of measurements. | 翻訳日:2023-11-16 19:34:46 公開日:2023-11-15 |
# 等方的および近位探索によるきめ細かい会話復号 Fine-grained Conversational Decoding via Isotropic and Proximal Search ( http://arxiv.org/abs/2310.08130v4 ) ライセンス: Link先を確認 | Yuxuan Yao, Han Wu, Qiling Xu, Linqi Song | (参考訳) 汎用テキストデコード手法は通常対話応答生成に採用される。
対話固有の符号化法によって生成した応答の品質は向上するが、対話型復号法はまだ未検討である。
良好な対話的特徴空間は局所性と等方性の規則に従うべきだという \citet{wu2023learning} に触発されて、きめ細かな対話的復号法を \textit{isotropic and proximal search (ips)" と呼ぶ。
本手法は,文脈に対して情報性と識別性を維持しつつ,意味集中応答を生成するように設計されている。
実験により,提案手法は,自動評価指標と人間評価指標の両方において,対話分野における既存の復号戦略よりも優れていることが示された。
より詳細な分析は、このアプローチの有効性をさらに確認します。 General-purpose text decoding approaches are usually adopted for dialogue response generation. Although the quality of the generated responses can be improved with dialogue-specific encoding methods, conversational decoding methods are still under-explored. Inspired by \citet{wu2023learning} that a good dialogue feature space should follow the rules of locality and isotropy, we present a fine-grained conversational decoding method, termed \textit{isotropic and proximal search (IPS)}. Our method is designed to generate the semantic-concentrated response, while still maintaining informativeness and discrimination against the context. Experiments show that our approach outperforms existing decoding strategies in the dialogue field across both automatic and human evaluation metrics. More in-depth analyses further confirm the effectiveness of our approach. | 翻訳日:2023-11-16 19:34:41 公開日:2023-11-15 |
# 計算トポロジーのためのChatGPT ChatGPT for Computational Topology ( http://arxiv.org/abs/2310.07570v3 ) ライセンス: Link先を確認 | Jian Liu, Li Shen and Guo-Wei Wei | (参考訳) ChatGPTは、人工知能(AI)分野における重要なマイルストーンであり、多様なドメインにまたがる幅広い応用を見つける。
しかし、数学的文脈におけるその有効性は、概念的誤りに対する感受性に幾らか制約されている。
同時に、比較的新しい分野であるトポロジカルデータ分析(TDA)も近年大きな関心を集めている。
それでも、TDAの進歩は、計算アルゴリズムの限られた理解と理論家間のコーディング能力によって妨げられている。
この研究は、理論トポロジ的概念とそれらの計算トポロジにおける実践的実装のギャップをChatGPTを利用して埋める試みである。
計算経験やコーディングスキルを欠いた純粋理論家が,ChatGPTの助けを借りて,数学的定式化や概念を計算トポロジの関数コードに効果的に変換する方法について紹介する。
我々の戦略は、数学者が純粋な数学的概念に基づいてChatGPTを訓練し、ChatGPTを計算トポロジコードの生成に向けて制御し、確立した例を用いて生成したコードを検証する生産的プロセスの概要である。
我々の特定のケーススタディは、単純複体に対するベッチ数、ラプラシアン行列、ディラック行列の計算と、様々なホモロジーやラプラシアンの持続を包含する。
さらに,近年開発されたハイパーグラフとダイアグラムの位相理論におけるchatgptの応用について検討する。
この研究は、純粋数学理論を実用的な計算ツールに効果的に変換するための最初のステップとなり、様々な分野にまたがる実際の応用を可能にする究極のゴールである。 ChatGPT represents a significant milestone in the field of artificial intelligence (AI), finding widespread applications across diverse domains. However, its effectiveness in mathematical contexts has been somewhat constrained by its susceptibility to conceptual errors. Concurrently, topological data analysis (TDA), a relatively new discipline, has garnered substantial interest in recent years. Nonetheless, the advancement of TDA is impeded by the limited understanding of computational algorithms and coding proficiency among theoreticians. This work endeavors to bridge the gap between theoretical topological concepts and their practical implementation in computational topology through the utilization of ChatGPT. We showcase how a pure theoretician, devoid of computational experience and coding skills, can effectively transform mathematical formulations and concepts into functional code for computational topology with the assistance of ChatGPT. Our strategy outlines a productive process wherein a mathematician trains ChatGPT on pure mathematical concepts, steers ChatGPT towards generating computational topology code, and subsequently validates the generated code using established examples. Our specific case studies encompass the computation of Betti numbers, Laplacian matrices, and Dirac matrices for simplicial complexes, as well as the persistence of various homologies and Laplacians. Furthermore, we explore the application of ChatGPT in computing recently developed topological theories for hypergraphs and digraphs. This work serves as an initial step towards effectively transforming pure mathematical theories into practical computational tools, with the ultimate goal of enabling real applications across diverse fields. | 翻訳日:2023-11-16 19:34:26 公開日:2023-11-15 |
# エルゴードと混合量子チャネル:2量子ビットから多体量子システムへ Ergodic and mixing quantum channels: From two-qubit to many-body quantum systems ( http://arxiv.org/abs/2310.02740v2 ) ライセンス: Link先を確認 | S. Aravinda, Shilpak Banerjee and Ranjan Modak | (参考訳) 古典エルゴード理論の発展は、数学、物理学、そして一般に応用科学の分野で大きな影響を与えた。
ハミルトン力学の量子エルゴード理論は熱力学と統計力学を理解する動機を持ち、現在も多くの議論が続いている。
完全な正のトレース保存写像である量子チャネルは、量子力学の最も一般的な表現であり、量子情報理論と量子計算の重要な側面である。
本研究では, 量子チャネルのエルゴード理論を, エンゴード階層の異なるレベルを積分可能から混合可能に特徴付けることによって研究する。
単一系上の量子チャネルは、二部状態に作用し環境をトレースするユニタリ演算子から構成される。
これらのユニタリ作用素の相互作用強度は、作用素の絡み合いによって測定され、チャネルが混合されるのに十分な条件を提供する。
ブロック対角ユニタリ演算子を用いて、非エルゴードチャネルの集合を構築する。
可積分から混合は、2量子ユニタリ作用素の場合明示的に特徴づけられる。
さらに、有名なsachdev-ye-kitaev(syk)モデルを含む多体量子システムとの相互作用を研究し、量子チャネルの枠組み内で混合を示すことを示した。 The development of classical ergodic theory has had a significant impact in the areas of mathematics, physics, and, in general, applied sciences. The quantum ergodic theory of Hamiltonian dynamics has its motivations to understand thermodynamics and statistical mechanics and is still debated a lot. Quantum channel, a completely positive trace-preserving map, represents a most general representation of quantum dynamics and is an essential aspect of quantum information theory and quantum computation. In this work, we study the ergodic theory of quantum channels by characterizing different levels of ergodic hierarchy from integrable to mixing. The quantum channels on single systems are constructed from the unitary operators acting on bipartite states and tracing out the environment. The interaction strength of these unitary operators measured in terms of operator entanglement provides sufficient conditions for the channel to be mixing. By using block diagonal unitary operators, we construct a set of non-ergodic channels. From integrable to mixing is characterized explicitly in the case of the two-qubit unitary operator. Moreover, we also study interacting many-body quantum systems that include the famous Sachdev-Ye-Kitaev (SYK) model and show that they display mixing within the framework of the quantum channel. | 翻訳日:2023-11-16 19:33:45 公開日:2023-11-15 |
# 空の記号化問題--大規模言語モデルにおける「弁別」操作の明確化に向けて The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment" in Large Language Models ( http://arxiv.org/abs/2310.02457v2 ) ライセンス: Link先を確認 | Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale | (参考訳) 本稿では,大言語モデル(llm)における「無視」の概念を,ポスト構造主義的社会政治理論のレンズを通して解決し,その並列性について考察する。
経験的データセットでアライメントの抽象概念をどのように運用するかに関する共通語彙を確立するために、我々は、分離するフレームワークを提案する。
1)モデル行動のどの次元が重要か
2) 意味や定義がこれらの次元にどのように記述されるか。
既存の経験的文献を配置し、どのパラダイムに従うべきかを決めるためのガイダンスを提供する。
この枠組みを通じて,LLMと人間集団の整合性の複雑さをコミュニティがナビゲートする上で,透明性と批判的評価の文化を育むことを目指す。 In this paper, we address the concept of "alignment" in large language models (LLMs) through the lens of post-structuralist socio-political theory, specifically examining its parallels to empty signifiers. To establish a shared vocabulary around how abstract concepts of alignment are operationalised in empirical datasets, we propose a framework that demarcates: 1) which dimensions of model behaviour are considered important, then 2) how meanings and definitions are ascribed to these dimensions, and by whom. We situate existing empirical literature and provide guidance on deciding which paradigm to follow. Through this framework, we aim to foster a culture of transparency and critical evaluation, aiding the community in navigating the complexities of aligning LLMs with human populations. | 翻訳日:2023-11-16 19:33:24 公開日:2023-11-15 |
# 相互作用する非エルミート準結晶における相関誘起相転移とモビリティエッジ Correlation-induced phase transitions and mobility edges in an interacting non-Hermitian quasicrystal ( http://arxiv.org/abs/2310.01275v2 ) ライセンス: Link先を確認 | Tian Qian, Yongjian Gu, and Longwen Zhou | (参考訳) 非エルミート準結晶は、pt対称性の破断、局在、位相的三重相転移を伴う一意な無秩序開系を構成する。
本研究では,非エルミート準結晶の相転移と絡み合いダイナミクスに対する量子相関の影響を明らかにする。
準周期的に利得と損失を変調したボース・ハバード格子内の2つの相互作用ボソンに着目して,ボゾン間のオンサイト相互作用がptと局在遷移閾値を非相互作用の場合と比較して弱い障害領域へと引きずり込むことができることを見出した。
さらに、相互作用は、非相互作用系における三相転移の臨界点を、相互作用強度を調整してドメインを柔軟に制御できる移動端を持つ臨界相に拡張することを促進する。
スペクトル, 逆成分比, トポロジカル巻線数, ウェーブパケットダイナミクス, 絡み合いエントロピーの系統解析により, 系の相関駆動相と遷移について一貫した予測が導かれる。
我々の発見は、非エルミート量子物質における障害と相互作用の間の相互作用のさらなる研究の道を開く。 Non-Hermitian quasicrystal constitutes a unique class of disordered open system with PT-symmetry breaking, localization and topological triple phase transitions. In this work, we uncover the effect of quantum correlation on phase transitions and entanglement dynamics in non-Hermitian quasicrystals. Focusing on two interacting bosons in a Bose-Hubbard lattice with quasiperiodically modulated gain and loss, we find that the onsite interaction between bosons could drag the PT and localization transition thresholds towards weaker disorder regions compared with the noninteracting case. Moreover, the interaction facilitates the expansion of the critical point of a triple phase transition in the noninteracting system into a critical phase with mobility edges, whose domain could be flexibly controlled by tuning the interaction strength. Systematic analyses of the spectrum, inverse participation ratio, topological winding number, wavepacket dynamics and entanglement entropy lead to consistent predictions about the correlation-driven phases and transitions in our system. Our findings pave the way for further studies of the interplay between disorder and interaction in non-Hermitian quantum matter. | 翻訳日:2023-11-16 19:33:10 公開日:2023-11-15 |
# MobileNVC: モバイルデバイス上のリアルタイム1080pニューラルビデオ圧縮 MobileNVC: Real-time 1080p Neural Video Compression on a Mobile Device ( http://arxiv.org/abs/2310.01258v3 ) ライセンス: Link先を確認 | Ties van Rozendaal, Tushar Singhal, Hoang Le, Guillaume Sautiere, Amir Said, Krishna Buska, Anjuman Raha, Dimitris Kalatzis, Hitarth Mehta, Frank Mayer, Liang Zhang, Markus Nagel, Auke Wiggers | (参考訳) ニューラルビデオコーデックは最近、低遅延設定でHEVCのような標準コーデックと競合している。
しかし、ほとんどのニューラルコーデックは大きな浮動小数点ネットワークであり、時間的モデリングにピクセル密度のワープ操作を使用するため、モバイルデバイスへの展開には計算コストがかかりすぎる。
最近の研究は、モバイルでリアルタイムにニューラルデコーダを走らせることが実証されているが、これは720pのRGBビデオでしか見られない。
この研究は、1080p yuv420ビデオをモバイルデバイス上でリアルタイムにデコードする最初のニューラルビデオコーデックである。
私たちのコーデックは2つの大きな貢献に依存している。
まず,移動加速器のワープコア上で利用可能なブロックベースの動き補償アルゴリズムを用いた効率的なコーデックを設計し,このモデルを整数精度に定量化する方法を示す。
第2に,ニューラルネットワークコンポーネントをニューラルネットワークプロセッサ上で同時実行し,並列エントロピー符号化をモバイルgpu上で実行し,ワーピングコアをウォーピングする高速デコーダパイプラインを実装した。
我々のコーデックは、これまでのデバイス上のコーデックを最大48%のBDレートの節約率で上回り、レシーバ側のMACカウントを10 \times$で下げている。
導入した動作補償スキームの効果を示すために注意深いアブレーションを行い,モデル量子化の効果を緩和する。 Neural video codecs have recently become competitive with standard codecs such as HEVC in the low-delay setting. However, most neural codecs are large floating-point networks that use pixel-dense warping operations for temporal modeling, making them too computationally expensive for deployment on mobile devices. Recent work has demonstrated that running a neural decoder in real time on mobile is feasible, but shows this only for 720p RGB video. This work presents the first neural video codec that decodes 1080p YUV420 video in real time on a mobile device. Our codec relies on two major contributions. First, we design an efficient codec that uses a block-based motion compensation algorithm available on the warping core of the mobile accelerator, and we show how to quantize this model to integer precision. Second, we implement a fast decoder pipeline that concurrently runs neural network components on the neural signal processor, parallel entropy coding on the mobile GPU, and warping on the warping core. Our codec outperforms the previous on-device codec by a large margin with up to 48% BD-rate savings, while reducing the MAC count on the receiver side by $10 \times$. We perform a careful ablation to demonstrate the effect of the introduced motion compensation scheme, and ablate the effect of model quantization. | 翻訳日:2023-11-16 19:32:48 公開日:2023-11-15 |
# VDBを用いた高速スパース3次元畳み込みネットワーク Fast Sparse 3D Convolution Network with VDB ( http://arxiv.org/abs/2311.02762v2 ) ライセンス: Link先を確認 | Fangjun Zhou, Anyong Mao, Eftychios Sifakis | (参考訳) スパース3次元データ推論に最適化された新しい畳み込みニューラルネットワークの実装を提案する。
この実装では、データ構造としてNanoVDBを使用してスパーステンソルを格納する。
パフォーマンスを維持しながら、メモリフットプリントが比較的小さい。
このアーキテクチャは高分解能3dオブジェクト分類ネットワーク上の最先端のcnnモデルよりも約20倍高速であることを示す。 We proposed a new Convolution Neural Network implementation optimized for sparse 3D data inference. This implementation uses NanoVDB as the data structure to store the sparse tensor. It leaves a relatively small memory footprint while maintaining high performance. We demonstrate that this architecture is around 20 times faster than the state-of-the-art dense CNN model on a high-resolution 3D object classification network. | 翻訳日:2023-11-16 19:24:51 公開日:2023-11-15 |
# 協調最適化による自律走行車のインタラクティブモーションプランニング Interactive Motion Planning for Autonomous Vehicles with Joint Optimization ( http://arxiv.org/abs/2310.18301v3 ) ライセンス: Link先を確認 | Yuxiao Chen, Sushant Veer, Peter Karkus, and Marco Pavone | (参考訳) 高度にインタラクティブな運転シナリオでは、あるエージェントの行動は隣人の行動に大きく影響する。
このような対話的な環境で自動運転車の安全な動きを計画するには、エゴの意図した動き計画が近くのエージェントの行動に与える影響を推論する必要がある。
ディープラーニングモデルは最近、軌道予測で大きな成功を収めており、文献の多くのモデルは、自我条件付き予測を可能にしている。
しかしながら、ニューラルネットワークの複雑な性質から、ego条件付き予測の活用は下流計画において依然として困難であり、プランナー構造をサンプリングベースのプランナーのように単純なものに制限している。
細かい粒度の高い運動計画を生成する能力があるにもかかわらず、モデル予測制御(mpc)のような勾配に基づく計画アルゴリズムでは、反復的な性質と勾配の必要性から、エゴ条件付き予測を活用することが困難である。
IJP(Interactive Joint Planning)では、学習した予測モデルでMPCを橋渡し、両者の長所を提供する。
特に、IJPはエゴとその周辺エージェントの挙動を共同で最適化し、結合軌道最適化が近づこうとする事前予測として深層学習予測モデルを活用する。
さらに, ホモトピークラスを活用することで, 局所的なミニマに悩まされるのを避けるために, 多様な動きプランを探索する。
閉ループシミュレーションの結果、IJPは共同最適化やサンプリングベースプランニングを行わないベースラインよりも大幅に優れていた。 In highly interactive driving scenarios, the actions of one agent greatly influences those of its neighbors. Planning safe motions for autonomous vehicles in such interactive environments, therefore, requires reasoning about the impact of the ego's intended motion plan on nearby agents' behavior. Deep-learning-based models have recently achieved great success in trajectory prediction and many models in the literature allow for ego-conditioned prediction. However, leveraging ego-conditioned prediction remains challenging in downstream planning due to the complex nature of neural networks, limiting the planner structure to simple ones, e.g., sampling-based planner. Despite their ability to generate fine-grained high-quality motion plans, it is difficult for gradient-based planning algorithms, such as model predictive control (MPC), to leverage ego-conditioned prediction due to their iterative nature and need for gradient. We present Interactive Joint Planning (IJP) that bridges MPC with learned prediction models in a computationally scalable manner to provide us the best of both the worlds. In particular, IJP jointly optimizes over the behavior of the ego and the surrounding agents and leverages deep-learned prediction models as prediction priors that the join trajectory optimization tries to stay close to. Furthermore, by leveraging homotopy classes, our joint optimizer searches over diverse motion plans to avoid getting stuck at local minima. Closed-loop simulation result shows that IJP significantly outperforms the baselines that are either without joint optimization or running sampling-based planning. | 翻訳日:2023-11-16 19:24:27 公開日:2023-11-15 |
# チャンネル独立戦略は時系列予測に最適か? Is Channel Independent strategy optimal for Time Series Forecasting? ( http://arxiv.org/abs/2310.17658v2 ) ライセンス: Link先を確認 | Yuan Peiwen, Zhu Changsheng | (参考訳) 長期時系列予測のための様々なモデルが出現している。
近年の研究では、チャネル依存(cd)またはチャネル独立(ci)モデリングを用いた単一の線形層が、多数の洗練されたモデルを上回ることさえ証明されている。
しかしながら、現在の研究はCDとCIを2つの補完的かつ相互排他的なアプローチであり、これら2つの極端を同時に利用できないと考えている。
また、CDとCIの両方が静的戦略であり、広範な実験なしに特定のデータセットに最適であると判断できないという課題もある。
本稿では,現在のCI戦略が時系列予測の最適解であるかどうかを再考する。
まず, 線形モデルに対して, 単純かつ効果的な csc 戦略を提案し, 線形モデルに対する $\mathbf{c}$hannel$\mathbf{s}$elf-$\mathbf{c}$lustering strategy を述べる。
我々のチャネル自己クラスタリング(CSC)は、パラメータサイズを減らしながらCI戦略の性能向上を図り、電気データセットを10倍以上に拡大し、トレーニング時間を著しく短縮する。
第2に,自己クラスタリングにインスパイアされたディープモデルのためのChannel Rearrangement (CR)を提案する。
CRはベースラインと競合するパフォーマンスを得る。
最後に、入力と同じチャネルの履歴値を用いて将来の値を予測するのが最善かどうかについても論じる。
われわれの発見と方法がCD/CI以外の新しいソリューションを刺激することを期待している。 There has been an emergence of various models for long-term time series forecasting. Recent studies have demonstrated that a single linear layer, using Channel Dependent (CD) or Channel Independent (CI) modeling, can even outperform a large number of sophisticated models. However, current research primarily considers CD and CI as two complementary yet mutually exclusive approaches, unable to harness these two extremes simultaneously. And it is also a challenging issue that both CD and CI are static strategies that cannot be determined to be optimal for a specific dataset without extensive experiments. In this paper, we reconsider whether the current CI strategy is the best solution for time series forecasting. First, we propose a simple yet effective strategy called CSC, which stands for $\mathbf{C}$hannel $\mathbf{S}$elf-$\mathbf{C}$lustering strategy, for linear models. Our Channel Self-Clustering (CSC) enhances CI strategy's performance improvements while reducing parameter size, for exmpale by over 10 times on electricity dataset, and significantly cutting training time. Second, we further propose Channel Rearrangement (CR), a method for deep models inspired by the self-clustering. CR attains competitive performance against baselines. Finally, we also discuss whether it is best to forecast the future values using the historical values of the same channel as inputs. We hope our findings and methods could inspire new solutions beyond CD/CI. | 翻訳日:2023-11-16 19:23:30 公開日:2023-11-15 |
# Nkoの機械翻訳:ツール、コーパス、ベースライン結果 Machine Translation for Nko: Tools, Corpora and Baseline Results ( http://arxiv.org/abs/2310.15612v3 ) ライセンス: Link先を確認 | Moussa Koulako Bala Doumbouya, Baba Mamadi Dian\'e, Solo Farabado Ciss\'e, Djibrila Dian\'e, Abdoulaye Sow, S\'er\'e Moussa Doumbouya, Daouda Bangoura, Fod\'e Moriba Bayo, Ibrahima Sory 2. Cond\'e, Kalo Mory Dian\'e, Chris Piech, Christopher Manning | (参考訳) 現在、複数の西アフリカ諸国で何千万人もの人々が話している言語であるNkoの機械翻訳システムは存在しない。
この問題に対処するために,現在十分に大きな並列テキストコーパスを持っていないNkoや他の言語向けの機械翻訳システムの開発を目的とした,ツール,リソース,ベースラインの一連の結果を示す。
1) fria$\parallel$el: コピードイットベースのワークフローによる品質管理を組み込んだ新しい共同並列テキストキュレーションソフトウェア。
2) FLoRes-200とNLLB-Seedの2,009,6,193の高品質なNko翻訳を204,40言語と並行して拡張した。
3) nicolingua-0005:130,850の並列セグメントを持つ三言語・二言語コーパスと300万以上のnko単語を含む単言語コーパスのコレクション。
(4) ベースラインバイリンガルおよび多言語ニューラルマシン翻訳の結果、FLoRes-devtest上での英語Nko chrF++のスコアが30.83である。 Currently, there is no usable machine translation system for Nko, a language spoken by tens of millions of people across multiple West African countries, which holds significant cultural and educational value. To address this issue, we present a set of tools, resources, and baseline results aimed towards the development of usable machine translation systems for Nko and other languages that do not currently have sufficiently large parallel text corpora available. (1) Fria$\parallel$el: A novel collaborative parallel text curation software that incorporates quality control through copyedit-based workflows. (2) Expansion of the FLoRes-200 and NLLB-Seed corpora with 2,009 and 6,193 high-quality Nko translations in parallel with 204 and 40 other languages. (3) nicolingua-0005: A collection of trilingual and bilingual corpora with 130,850 parallel segments and monolingual corpora containing over 3 million Nko words. (4) Baseline bilingual and multilingual neural machine translation results with the best model scoring 30.83 English-Nko chrF++ on FLoRes-devtest. | 翻訳日:2023-11-16 19:23:01 公開日:2023-11-15 |
# 量子アルゴリズムによるAgnostic Learningのためのニアクアドラティックサンプル複雑度低減 A Near-Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v5 ) ライセンス: Link先を確認 | Daniel Z. Zanger | (参考訳) 量子アルゴリズムを用いて、一般に無知な学習モデルに対して、精度で$\epsilon>0$ と信頼性 1-\delta,0<\delta <1,$ a new sample complexity upper bound of $o((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ (\epsilon^{-1}$ の多対数因子まで) を得る。
これは漸近順序 $\theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2}) の対応するサンプル複雑性を、有限濃度の仮説集合とともに無依存学習問題に対する古典的(非量子)アルゴリズムによって達成可能であることが文献で知られている(例えば arunachalam と de wolf (2018) を参照)。
したがって、一般的な無依存学習の場合、我々が達成する学習速度の量子スピードアップは、(多対数因子まで)$\epsilon^{-1}$で二次的である。 Using quantum algorithms, we obtain, for accuracy $\epsilon>0$ and confidence $1-\delta,0<\delta <1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ (up to a polylogarithmic factor in $\epsilon^{-1}$) for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve is quadratic in $\epsilon^{-1}$ (up to a polylogarithmic factor). | 翻訳日:2023-11-16 19:22:44 公開日:2023-11-15 |
# フラストレーション磁性における量子状態と位相状態の実験的シグネチャ Experimental signatures of quantum and topological states in frustrated magnetism ( http://arxiv.org/abs/2310.15071v2 ) ライセンス: Link先を確認 | J. Khatua, B. Sana, A. Zorko, M. Gomil\v{s}ek, K. Sethupathi M. S. Ramachandra Rao, M. Baenitz, B. Schmidt, and P. Khuntia | (参考訳) 競合する交換相互作用から生じる磁気材料のフラストレーションは、システムが長距離の磁気秩序を採用するのを防ぎ、代わりにエキゾチックな準粒子励起を持つ様々な新しい量子状態とトポロジカル状態をもたらす。
ここでは,磁気的に不規則で広範囲に縮退したスピンアイスの顕著な例を概観し,創発性単極子励起,分数スピノン励起を伴う高エンタングル量子スピン液体,トポロジカル次数および創発性ゲージ場,およびスカイメリオンとして知られる粒子状トポロジカルスピンテクスチャを特徴とする。
本研究では,3次元ピロクロア格子と2次元三角,カゴメおよびハニカム格子,後者は結合依存性キタエフ相互作用,および位相磁性を支える格子の磁気的不規則候補物質探索の最近の進歩について概観する。
これらの現象の実験的シグネチャを強調し、それらを検出するのに最も適した実験手法を抽出する。
また, 新規なフラストレーション磁性材料を設計・調査するための包括的ガイドの提供を目標とし, 現代凝縮物質物理学における重要な問題に対処する可能性についても検討した。 Frustration in magnetic materials arising from competing exchange interactions can prevent the system from adopting long-range magnetic order and can instead lead to a diverse range of novel quantum and topological states with exotic quasiparticle excitations. Here, we review prominent examples of such emergent phenomena, including magnetically-disordered and extensively degenerate spin ices, which feature emergent magnetic monopole excitations, highly-entangled quantum spin liquids with fractional spinon excitations, topological order and emergent gauge fields, as well as complex particle-like topological spin textures known as skyrmions. We provide an overview of recent advances in the search for magnetically-disordered candidate materials on the three-dimensional pyrochlore lattice and two-dimensional triangular, kagome and honeycomb lattices, the latter with bond-dependent Kitaev interactions, and on lattices supporting topological magnetism. We highlight experimental signatures of these often elusive phenomena and single out the most suitable experimental techniques that can be used to detect them. Our review also aims at providing a comprehensive guide for designing and investigating novel frustrated magnetic materials, with the potential of addressing some important open questions in contemporary condensed matter physics. | 翻訳日:2023-11-16 19:22:02 公開日:2023-11-15 |
# グラデーションフィードバックを伴う強単調,exp-concaveゲームにおける適応的,二重最適no-regret学習 Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback ( http://arxiv.org/abs/2310.14085v3 ) ライセンス: Link先を確認 | Michael I. Jordan, Tianyi Lin and Zhengyuan Zhou | (参考訳) オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では2倍に最適であることがよく知られており、(1)強凸コスト関数に対して$\Theta(\log T)$の最適後悔を達成し、(2)強単調ゲームのマルチエージェント設定において、OGDを用いて、一意的なナッシュ均衡に$\Theta(\frac{1}{T})$の最適な速度で、結合作用の最終的な収束を得る。
これらの有限時間保証はその利点を強調するが、OGDは強い凸性/単調性パラメータを知る必要があるという欠点がある。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズムである \textsf{AdaOGD} を設計する。
単一エージェント設定では、このアルゴリズムは強い凸性の下で$O(\log^2(T))$ regretを達成し、ログ係数まで最適である。
さらに、各エージェントが強い単調ゲームで \textsf{adaogd} を雇うと、ジョイントアクションはラストイテレートな意味で、$o(\frac{\log^3 t}{t})$で一意なnash平衡に収束し、再びログファクターまで最適となる。
従来のnewsvendor問題の学習版では、売上の減少により(ノイズの多い)グラデーションフィードバックのみを観察できる。
その結果、シングルリテラー設定とマルチリテラー設定の両方において、最初の実現可能でほぼ最適なアルゴリズムが得られる。
さらに、オンラインニュートンステップ(ons)アルゴリズムを用いて、exp-concaveコスト関数とゲームをより一般的な設定に拡張した。 Online gradient descent (OGD) is well known to be doubly optimal under strong convexity or monotonicity assumptions: (1) in the single-agent setting, it achieves an optimal regret of $\Theta(\log T)$ for strongly convex cost functions; and (2) in the multi-agent setting of strongly monotone games, with each agent employing OGD, we obtain last-iterate convergence of the joint action to a unique Nash equilibrium at an optimal rate of $\Theta(\frac{1}{T})$. While these finite-time guarantees highlight its merits, OGD has the drawback that it requires knowing the strong convexity/monotonicity parameters. In this paper, we design a fully adaptive OGD algorithm, \textsf{AdaOGD}, that does not require a priori knowledge of these parameters. In the single-agent setting, our algorithm achieves $O(\log^2(T))$ regret under strong convexity, which is optimal up to a log factor. Further, if each agent employs \textsf{AdaOGD} in strongly monotone games, the joint action converges in a last-iterate sense to a unique Nash equilibrium at a rate of $O(\frac{\log^3 T}{T})$, again optimal up to log factors. We illustrate our algorithms in a learning version of the classical newsvendor problem, where due to lost sales, only (noisy) gradient feedback can be observed. Our results immediately yield the first feasible and near-optimal algorithm for both the single-retailer and multi-retailer settings. We also extend our results to the more general setting of exp-concave cost functions and games, using the online Newton step (ONS) algorithm. | 翻訳日:2023-11-16 19:21:14 公開日:2023-11-15 |
# タンパク質リガンド構造予測モデルの可能性を解き放つため, HelixDock を用いた大規模ドッキングコンフォーメーションの事前評価 Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models ( http://arxiv.org/abs/2310.13913v2 ) ライセンス: Link先を確認 | Lihang Liu, Donglong He, Xianbin Ye, Jingbo Zhou, Shanzhuo Zhang, Xiaonan Zhang, Jun Li, Hua Chai, Fan Wang, Jingzhou He, Liang Zheng, Yonghui Li, Xiaomin Fang | (参考訳) タンパク質リガンド構造予測は、小さな分子(リガンド)と標的タンパク質(受容体)の結合相互作用を予測する薬物発見において必須の課題である。
従来の物理ベースのドッキングツールは広く利用されているが、その精度は限定的なコンフォメーションサンプリングと不正確なスコアリング機能によって損なわれている。
近年,構造予測の精度向上に深層学習技術が取り入れられている。
それでもドッキングコンフォーメーションの実験的な検証はコストがかかるままであり、訓練データに制限があるため、これらの深層学習手法の一般化可能性に関する懸念が高まる。
本稿では,従来の物理ベースのドッキングツールによって生成された大規模ドッキングコンフォメーション上で,形状認識型se(3)等価ニューラルネットワークを事前学習し,実験的に検証された受容体-リガンド複合体の限られたセットで微調整することにより,優れた性能が得られることを示す。
このプロセスでは1億のドッキングコンフォメーションが発生し、およそ100万のcpuコア日が消費される。
提案モデルであるHelixDockは,物理ベースのドッキングツールによってカプセル化された物理知識の事前学習段階における獲得を目的としている。
HelixDockは物理ベースのベースラインとディープラーニングベースのベースラインの両方に対してベンチマークされている。
helixdockは、さらに大きな課題となるデータセットのパフォーマンスも向上し、堅牢性を強調している。
さらに,事前学習された構造予測モデルを規定するスケーリング則を明らかにし,モデルパラメータと事前学習データの増加に伴う性能の一貫した向上を示す。
この研究は、AIによる薬物発見のフロンティアを前進させるために、生成データの多様かつ多様なリポジトリを活用するという戦略的利点を照らす。 Protein-ligand structure prediction is an essential task in drug discovery, predicting the binding interactions between small molecules (ligands) and target proteins (receptors). Although conventional physics-based docking tools are widely utilized, their accuracy is compromised by limited conformational sampling and imprecise scoring functions. Recent advances have incorporated deep learning techniques to improve the accuracy of structure prediction. Nevertheless, the experimental validation of docking conformations remains costly, it raises concerns regarding the generalizability of these deep learning-based methods due to the limited training data. In this work, we show that by pre-training a geometry-aware SE(3)-Equivariant neural network on a large-scale docking conformation generated by traditional physics-based docking tools and then fine-tuning with a limited set of experimentally validated receptor-ligand complexes, we can achieve outstanding performance. This process involved the generation of 100 million docking conformations, consuming roughly 1 million CPU core days. The proposed model, HelixDock, aims to acquire the physical knowledge encapsulated by the physics-based docking tools during the pre-training phase. HelixDock has been benchmarked against both physics-based and deep learning-based baselines, showing that it outperforms its closest competitor by over 40% for RMSD. HelixDock also exhibits enhanced performance on a dataset that poses a greater challenge, thereby highlighting its robustness. Moreover, our investigation reveals the scaling laws governing pre-trained structure prediction models, indicating a consistent enhancement in performance with increases in model parameters and pre-training data. This study illuminates the strategic advantage of leveraging a vast and varied repository of generated data to advance the frontiers of AI-driven drug discovery. | 翻訳日:2023-11-16 19:20:29 公開日:2023-11-15 |
# XAIの公正性に関する批判的調査 A Critical Survey on Fairness Benefits of XAI ( http://arxiv.org/abs/2310.13007v2 ) ライセンス: Link先を確認 | Luca Deck, Jakob Schoeffer, Maria De-Arteaga, Niklas K\"uhl | (参考訳) 本稿では,説明可能なai(xai)と公平性の関係に関する典型的な主張を分析し,これら2つの概念間の多次元関係を解消する。
体系的な文献レビューとその後の質的内容分析に基づいて,XAIの公正性に関する175論文から7つの古文書を抽出した。
我々はこれらの主張に関して重要な注意事項を提示し、特定の公正なデシダラタに対するXAIの可能性と限界に関する今後の議論のエントリポイントを提供する。
文献では、XAIがいくつかのフェアネス・デシダラタの有効性を示すことが多いが、これらのデシダラタとXAIの能力の相違に気付く。
我々は,XAIを,アルゴリズムフェアネスの多次元社会技術的課題にアプローチするための多くのツールの1つとして捉え,どのようなXAI手法がどのフェアネス・デシディラトゥムに対処できるかを正確に示すことを推奨する。 In this critical survey, we analyze typical claims on the relationship between explainable AI (XAI) and fairness to disentangle the multidimensional relationship between these two concepts. Based on a systematic literature review and a subsequent qualitative content analysis, we identify seven archetypal claims from 175 papers on the alleged fairness benefits of XAI. We present crucial caveats with respect to these claims and provide an entry point for future discussions around the potentials and limitations of XAI for specific fairness desiderata. While the literature often suggests XAI to be an enabler for several fairness desiderata, we notice a divide between these desiderata and the capabilities of XAI. We encourage to conceive XAI as one of many tools to approach the multidimensional, sociotechnical challenge of algorithmic fairness and to be more specific about how exactly what kind of XAI method enables whom to address which fairness desideratum. | 翻訳日:2023-11-16 19:19:54 公開日:2023-11-15 |
# automix: 言語モデルの自動混合 AutoMix: Automatically Mixing Language Models ( http://arxiv.org/abs/2310.12963v2 ) ライセンス: Link先を確認 | Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui | (参考訳) 大規模言語モデル(LLM)が、クラウドAPIプロバイダからさまざまなサイズと構成で利用可能になった。
この多様性は幅広い選択肢を提供するが、計算コストと性能を最適化するオプションを効果的に活用することは依然として困難である。
本稿では,より小さいlmからの出力の近似正しさに基づいて,クエリをより大きなlmに戦略的にルーティングする手法であるautomixを提案する。
Central to AutoMixは数発の自己検証メカニズムで、トレーニングを必要とせずに出力の信頼性を見積もる。
検証がノイズになりうることを考慮し、これらの評価の精度を向上するためにAutoMixのメタ検証を用いる。
llama2-13/70bを用いた5つのコンテキストに基づく推論データセットによる実験では,automixが確立されたベースラインを上回っており,コストごとのインクリメンタルなメリットを最大89%向上している。
私たちのコードとデータはhttps://github.com/automix-llm/automixで入手できます。 Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix. | 翻訳日:2023-11-16 19:19:27 公開日:2023-11-15 |
# ユビキタスシーケンシャル計算の効率的な並列化 Efficient Parallelization of an Ubiquitous Sequential Computation ( http://arxiv.org/abs/2311.06281v2 ) ライセンス: Link先を確認 | Franz A. Heinsen | (参考訳) x_t = a_t x_{t-1} + b_t$ を2つのプレフィックス和と並行して計算するための簡潔な式を見つけ、$t = (1, 2, \dots, n)$, $a_t \in \mathbb{R}^n$, $b_t \in \mathbb{R}^n$, initial value $x_0 \in \mathbb{R}$とする。
n$並列プロセッサでは、$n$要素の計算は$\mathcal{O}(\log n)$ timeと$\mathcal{O}(n)$ spaceを発生させる。
この形式のシーケンスは科学や工学においてユビキタスであり、効率的な並列化は多数のアプリケーションに有用である。
ソフトウェアで式を実装し、並列ハードウェアでテストし、$\frac{n}{\log n}$という係数でシーケンシャルな計算よりも高速に実行されることを検証します。 We find a succinct expression for computing the sequence $x_t = a_t x_{t-1} + b_t$ in parallel with two prefix sums, given $t = (1, 2, \dots, n)$, $a_t \in \mathbb{R}^n$, $b_t \in \mathbb{R}^n$, and initial value $x_0 \in \mathbb{R}$. On $n$ parallel processors, the computation of $n$ elements incurs $\mathcal{O}(\log n)$ time and $\mathcal{O}(n)$ space. Sequences of this form are ubiquitous in science and engineering, making efficient parallelization useful for a vast number of applications. We implement our expression in software, test it on parallel hardware, and verify that it executes faster than sequential computation by a factor of $\frac{n}{\log n}$. | 翻訳日:2023-11-16 19:11:28 公開日:2023-11-15 |
# ファウショット関係抽出のための明示的エビデンス推論による思考の連鎖 Chain of Thought with Explicit Evidence Reasoning for Few-shot Relation Extraction ( http://arxiv.org/abs/2311.05922v2 ) ライセンス: Link先を確認 | Xilai Ma, Jing Li and Min Zhang | (参考訳) わずかなショット関係抽出は、限られた数の注釈付きサンプルを使用して、テキスト内の2つの特定のエンティティ間の関係のタイプを識別することを含む。
この問題に対する様々な解決策は、メタラーニングとニューラルグラフ技術を適用し、適応のためのトレーニングプロセスを必要としている。
近年,文脈内学習の戦略は,学習を必要とせずに顕著な成果を上げている。
ゼロショット情報抽出にコンテキスト内学習を利用した研究はほとんどない。
不幸なことに、推論の証拠は、チェーン・オブ・ソート・プロンプトの構築中に考慮または暗黙的にモデル化されない。
本稿では,大規模な言語モデルであるcot-erを用いて,明示的な証拠推論をともなう連鎖的思考モデルを用いた,二発的関係抽出のための新しい手法を提案する。
特に、CoT-ERはタスク固有の知識と概念レベルの知識を用いて証拠を生成するために、まず大きな言語モデルを誘導する。
その後、これらの証拠は、関係抽出を促そうとする思考の連鎖に明示的に組み込まれる。
実験結果から,FewRel1.0およびFewRel2.0データセットにおけるCoT-ERアプローチ(トレーニングデータ0%)は,完全教師付き(100%トレーニングデータ)の最先端アプローチと比較して,競争性能が向上することが示された。 Few-shot relation extraction involves identifying the type of relationship between two specific entities within a text, using a limited number of annotated samples. A variety of solutions to this problem have emerged by applying meta-learning and neural graph techniques which typically necessitate a training process for adaptation. Recently, the strategy of in-context learning has been demonstrating notable results without the need of training. Few studies have already utilized in-context learning for zero-shot information extraction. Unfortunately, the evidence for inference is either not considered or implicitly modeled during the construction of chain-of-thought prompts. In this paper, we propose a novel approach for few-shot relation extraction using large language models, named CoT-ER, chain-of-thought with explicit evidence reasoning. In particular, CoT-ER first induces large language models to generate evidences using task-specific and concept-level knowledge. Then these evidences are explicitly incorporated into chain-of-thought prompting for relation extraction. Experimental results demonstrate that our CoT-ER approach (with 0% training data) achieves competitive performance compared to the fully-supervised (with 100% training data) state-of-the-art approach on the FewRel1.0 and FewRel2.0 datasets. | 翻訳日:2023-11-16 19:11:03 公開日:2023-11-15 |
# 医療用ニューラルラジアンスフィールドのための不確かさを意識した単一視容積レンダリング Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v2 ) ライセンス: Link先を確認 | Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang | (参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。
X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。
しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。
本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。
ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。
本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。 In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields. | 翻訳日:2023-11-16 19:10:44 公開日:2023-11-15 |
# 最小固有値を求める平方根高速化 A square-root speedup for finding the smallest eigenvalue ( http://arxiv.org/abs/2311.04379v2 ) ライセンス: Link先を確認 | Alex Kerzner, Vlad Gheorghiu, Michele Mosca, Thomas Guilbaud, Federico Carminati, Fabio Fracas, Luca Dellantonio | (参考訳) エルミート行列の最小固有値を求める量子アルゴリズムについて述べる。
このアルゴリズムは、量子位相推定と量子振幅推定を組み合わせることで、行列次元の最良の古典的アルゴリズム、すなわち、行列を符号化するオラクルに対して、$n$が行列次元であり$\epsilon$が所望の精度である$\widetilde{\mathcal{o}}(\sqrt{n}/\epsilon)$ブラックボックスクエリを実現する。
対照的に、同じタスクに最適な古典的アルゴリズムは$\Omega(N)\text{polylog}(1/\epsilon)$クエリを必要とする。
さらに、このアルゴリズムにより、ユーザは一定の成功確率を選択できる。
また、同じランタイムで同様のアルゴリズムを提供し、行列の低エネルギー部分空間に主に置かれる量子状態の準備を可能にします。
両アルゴリズムのシミュレーションを実装し,量子化学および材料科学における問題への応用を実証する。 We describe a quantum algorithm for finding the smallest eigenvalue of a Hermitian matrix. This algorithm combines Quantum Phase Estimation and Quantum Amplitude Estimation to achieve a quadratic speedup with respect to the best classical algorithm in terms of matrix dimensionality, i.e., $\widetilde{\mathcal{O}}(\sqrt{N}/\epsilon)$ black-box queries to an oracle encoding the matrix, where $N$ is the matrix dimension and $\epsilon$ is the desired precision. In contrast, the best classical algorithm for the same task requires $\Omega(N)\text{polylog}(1/\epsilon)$ queries. In addition, this algorithm allows the user to select any constant success probability. We also provide a similar algorithm with the same runtime that allows us to prepare a quantum state lying mostly in the matrix's low-energy subspace. We implement simulations of both algorithms and demonstrate their application to problems in quantum chemistry and materials science. | 翻訳日:2023-11-16 19:10:02 公開日:2023-11-15 |
# 砂中の透かし:生成モデルにおける強透かしの可能性 Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models ( http://arxiv.org/abs/2311.04378v2 ) ライセンス: Link先を確認 | Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak | (参考訳) 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。
強力な透かしスキームは、計算的に有界な攻撃者が重要な品質劣化を引き起こすことなく透かしを消去できないという特性を満たす。
本稿では,強力な透かし方式の (im) 可能性について検討する。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
これは、ウォーターマーク挿入および検出アルゴリズムが攻撃者に未知の秘密鍵を共有するプライベート検出アルゴリズム設定においても保持される。
この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。
我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価できる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更可能な「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。
我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。
さらに、モデルが能力とモダリティを増すにつれ、私たちの仮定は時間とともに満足しやすくなるでしょう。
我々は,kirchenbauer et al. (2023), kuditipudi et al. (2023), zhao et al. (2023) という,大規模言語モデルのための既存の3つの透かしスキームをインスタンス化することで,攻撃の可能性を示す。
同じ攻撃は、3つのスキームすべてによって植えられた透かしをうまく取り除き、わずかな品質の劣化だけでした。 Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation. | 翻訳日:2023-11-16 19:09:44 公開日:2023-11-15 |
# 光キャビティ内における量子エミッタのパーセル修飾ドップラー冷却 Purcell modified Doppler cooling of quantum emitters inside optical cavities ( http://arxiv.org/abs/2311.04129v2 ) ライセンス: Link先を確認 | Julian Lyne, Nico S. Bassler, Seong eun Park, Guido Pupillo, Claudiu Genes | (参考訳) 原子または誘電体粒子の標準キャビティ冷却は、高精細なキャビティにおける分散光学力の作用に基づいている。
本稿では,標準ドップラー冷却法に類似したキャビティ損失を特徴とする相補的な構造について検討する。
単一2レベルエミッタの場合、大きな協調性限界における自発的エミッタのパーセル増強から冷却速度の修正が得られる。
この機構は、クローズドトランジションのない量子エミッタを冷却することを目的としており、これは分子系の場合であり、パーセル効果は冷却サイクルから集団の損失を緩和することができる。
我々は, 弱い個々のカップリングによって制御される多数の粒子の場合に解析的定式化を拡張し, キャビティモードに集合的に強いパーセル強化を示す。 Standard cavity cooling of atoms or dielectric particles is based on the action of dispersive optical forces in high-finesse cavities. We investigate here a complementary regime characterized by large cavity losses, resembling the standard Doppler cooling technique. For a single two-level emitter a modification of the cooling rate is obtained from the Purcell enhancement of spontaneous emission in the large cooperativity limit. This mechanism is aimed at cooling of quantum emitters without closed transitions, which is the case for molecular systems, where the Purcell effect can mitigate the loss of population from the cooling cycle. We extend our analytical formulation to the many particle case governed by weak individual coupling but exhibiting collective strong Purcell enhancement to a cavity mode. | 翻訳日:2023-11-16 19:08:45 公開日:2023-11-15 |
# ローカルプライバシー下での因果発見 Causal Discovery Under Local Privacy ( http://arxiv.org/abs/2311.04037v2 ) ライセンス: Link先を確認 | R\=uta Binkyt\.e, Carlos Pinz\'on, Szilvia Lesty\'an, Kangsoo Jung, H\'eber H. Arcolezi, Catuscia Palamidessi | (参考訳) 差分プライバシーは、データセット内のデータプロバイダの機密情報を保護するために設計された広く採用されているフレームワークである。
これは、データの保存と処理を行うサーバとデータコンシューマの間のインターフェースにおける制御されたノイズのアプリケーションに基づいている。
ローカル差分プライバシーは、データプロバイダが個別にデータに民営化メカニズムを適用できる変種である。
したがって、サーバやデータコレクタさえ信頼できない状況でも保護を提供する。
しかし、ノイズの導入はデータの有用性に必然的に影響を与え、特に個々のデータコンポーネント間の相関関係を歪ませる。
この歪みは因果発見のようなタスクに有害である。
本稿では,各自のプライバシ間のトレードオフと,それらのメカニズムによって隠蔽されたデータに適用された場合の因果学習のためのアルゴリズムによる因果構造の比較を行う。
本分析は,因果発見タスクに適した局所微分プライベートプロトコルを選択するための貴重な洞察を与える。
我々の発見は、研究者や実践者が局所的な因果発見を行うのに役立つと予測している。 Differential privacy is a widely adopted framework designed to safeguard the sensitive information of data providers within a data set. It is based on the application of controlled noise at the interface between the server that stores and processes the data, and the data consumers. Local differential privacy is a variant that allows data providers to apply the privatization mechanism themselves on their data individually. Therefore it provides protection also in contexts in which the server, or even the data collector, cannot be trusted. The introduction of noise, however, inevitably affects the utility of the data, particularly by distorting the correlations between individual data components. This distortion can prove detrimental to tasks such as causal discovery. In this paper, we consider various well-known locally differentially private mechanisms and compare the trade-off between the privacy they provide, and the accuracy of the causal structure produced by algorithms for causal learning when applied to data obfuscated by these mechanisms. Our analysis yields valuable insights for selecting appropriate local differentially private protocols for causal discovery tasks. We foresee that our findings will aid researchers and practitioners in conducting locally private causal discovery. | 翻訳日:2023-11-16 19:08:32 公開日:2023-11-15 |
# マルチモーダル・縦断データを用いた乳癌分類とリスク評価の改善のためのトランスフォーマーの活用 Leveraging Transformers to Improve Breast Cancer Classification and Risk Assessment with Multi-modal and Longitudinal Data ( http://arxiv.org/abs/2311.03217v2 ) ライセンス: Link先を確認 | Yiqiu Shen, Jungkyu Park, Frank Yeung, Eliana Goldberg, Laura Heacock, Farah Shamout, Krzysztof J. Geras | (参考訳) 乳癌検診は主にマンモグラフィーで行われ、高濃度の乳腺組織を持つ女性に超音波で補充されることが多い。
しかし、既存のディープラーニングモデルは、各モードを独立して分析し、画像のモダリティと時間にまたがる情報を統合する機会を欠いている。
本研究では,マンモグラフィと超音波を相乗的に利用するニューラルネットワークであるMulti-modal Transformer(MMT)を提案する。
MMTは、自己アテンションを通じてマルチモーダルデータを集約し、現在の検査と先行画像を比較して時間的組織変化を追跡する。
1.3百万回の試験で訓練され、MMTは既存のがんの検出において0.943のAUROCを達成した。
5年間のリスク予測では、MMTはAUROCの0.826を達成し、従来のマンモグラフィーベースのリスクモデルより優れている。
本研究は,癌診断とリスク階層化におけるマルチモーダル画像と縦画像の意義を明らかにする。 Breast cancer screening, primarily conducted through mammography, is often supplemented with ultrasound for women with dense breast tissue. However, existing deep learning models analyze each modality independently, missing opportunities to integrate information across imaging modalities and time. In this study, we present Multi-modal Transformer (MMT), a neural network that utilizes mammography and ultrasound synergistically, to identify patients who currently have cancer and estimate the risk of future cancer for patients who are currently cancer-free. MMT aggregates multi-modal data through self-attention and tracks temporal tissue changes by comparing current exams to prior imaging. Trained on 1.3 million exams, MMT achieves an AUROC of 0.943 in detecting existing cancers, surpassing strong uni-modal baselines. For 5-year risk prediction, MMT attains an AUROC of 0.826, outperforming prior mammography-based risk models. Our research highlights the value of multi-modal and longitudinal imaging in cancer diagnosis and risk stratification. | 翻訳日:2023-11-16 19:08:13 公開日:2023-11-15 |
# 可変拡張可逆ネットワークによる脳PETのPETトレーサー変換 PET Tracer Conversion among Brain PET via Variable Augmented Invertible Network ( http://arxiv.org/abs/2311.00735v2 ) ライセンス: Link先を確認 | Bohui Shen, Wei Zhang, Xubiao Liu, Pengfei Yu, Shirui Jiang, Xinchong Shi, Xiangsong Zhang, Xiaoyu Zhou, Weirui Zhang, Bingxuan Li, Qiegen Liu | (参考訳) ポジトロン・エミッション・トモグラフィ(PET)は脳症や脳科学研究の診断に欠かせない道具である。
しかし、トレーサの限定的な選択に苦しむ。
近年, PET画像の神経精神医学的治療への応用により, 6-18F-fluoro-3, 4-dihydroxy-L-phenylalanine (DOPA) はFDG (18F-labeled fluorine-2-deoxyglucose) よりも有効であることが判明している。
しかしながら、その準備の複雑さやその他の制限のため、DOPAはFDGよりもはるかに広く使われていない。
この問題に対処するために,画像投影のためのトレーサ変換インバータブルニューラルネットワーク(tc-inn)を開発し,fdg画像をディープラーニングによりdopa画像にマッピングする。
FDGからDOPAにPET画像を生成することにより、さらなる診断情報を得る。
具体的には、tc-innはトレーサブルデータのトレーニングと新しいデータの再構築の2つのフェーズで構成されている。
参照DOPAPET画像は、トレーサ変換のトレーニング過程において、対応するネットワークの学習ターゲットとして使用される。
一方、可逆ネットワークは、結果のDOPAPETデータを反復的に推定し、基準のDOPAPETデータと比較する。
特に、可逆モデルは、より良い発電を実現するために可変拡張技術を用いる。
さらに、取得したFDGとDOPAデータ情報の角偏差による訓練前に画像登録を行う必要がある。
実験の結果,FDGとDOPAのマッピングでは優れた生成能を示し,PETトレーサ変換はトレーサの限られた応用において大きな可能性を示唆した。 Positron emission tomography (PET) serves as an essential tool for diagnosis of encephalopathy and brain science research. However, it suffers from the limited choice of tracers. Nowadays, with the wide application of PET imaging in neuropsychiatric treatment, 6-18F-fluoro-3, 4-dihydroxy-L-phenylalanine (DOPA) has been found to be more effective than 18F-labeled fluorine-2-deoxyglucose (FDG) in the field. Nevertheless, due to the complexity of its preparation and other limitations, DOPA is far less widely used than FDG. To address this issue, a tracer conversion invertible neural network (TC-INN) for image projection is developed to map FDG images to DOPA images through deep learning. More diagnostic information is obtained by generating PET images from FDG to DOPA. Specifically, the proposed TC-INN consists of two separate phases, one for training traceable data, the other for rebuilding new data. The reference DOPA PET image is used as a learning target for the corresponding network during the training process of tracer conversion. Meanwhile, the invertible network iteratively estimates the resultant DOPA PET data and compares it to the reference DOPA PET data. Notably, the reversible model employs variable enhancement technique to achieve better power generation. Moreover, image registration needs to be performed before training due to the angular deviation of the acquired FDG and DOPA data information. Experimental results exhibited excellent generation capability in mapping between FDG and DOPA, suggesting that PET tracer conversion has great potential in the case of limited tracer applications. | 翻訳日:2023-11-16 19:07:53 公開日:2023-11-15 |
# 変圧器長補間を改善するアライメントとフレキシブル位置埋め込み Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation ( http://arxiv.org/abs/2311.00684v2 ) ライセンス: Link先を確認 | Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky | (参考訳) 理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
このような長期利用能力は、柔軟な位置埋め込み設計に大きく依存している。
既存の大規模トレーニング済みのTransformer言語モデルの柔軟性を調べると、T5ファミリは、その位置埋め込みがリッチでフレキシブルな注意パターンを捉えているため、より深く見るべきであることがわかった。
しかし、T5は分散された注意の問題に悩まされ、入力シーケンスが長ければ長いほど、注意分布が平坦になる。
この問題を軽減するために,温度スケーリングによる注意アライメント戦略を2つ提案する。
本研究は,言語モデリング,検索,マルチドキュメント質問応答,コード補完タスクにおいて,微調整することなくt5の長期利用能力の向上を示す。
これは、フレキシブルな位置埋め込み設計と注意アライメントがトランスフォーマー長の補間に向けて長い道のりを歩むことを示唆している。 An ideal length-extrapolatable Transformer language model can handle sequences longer than the training length without any fine-tuning. Such long-context utilization capability relies heavily on a flexible positional embedding design. Upon investigating the flexibility of existing large pre-trained Transformer language models, we find that the T5 family deserves a closer look, as its positional embeddings capture rich and flexible attention patterns. However, T5 suffers from the dispersed attention issue: the longer the input sequence, the flatter the attention distribution. To alleviate the issue, we propose two attention alignment strategies via temperature scaling. Our findings show improvement on the long-context utilization capability of T5 on language modeling, retrieval, multi-document question answering, and code completion tasks without any fine-tuning. This suggests that a flexible positional embedding design and attention alignment can go a long way toward Transformer length extrapolation. | 翻訳日:2023-11-16 19:07:23 公開日:2023-11-15 |
# 量子クエンチェによる$z_{2}$フロケット位相相の動的キャラクタリゼーション Dynamical characterization of $Z_{2}$ Floquet topological phases via quantum quenches ( http://arxiv.org/abs/2311.00114v2 ) ライセンス: Link先を確認 | Lin Zhang | (参考訳) 一般的なd$-dimensional floquet位相相の完全な特徴付けは、通常、駆動期間全体を通してマイクロモーションに関する情報を必要とする。
最近の研究 (L. Zhang et al., Phys. Lett. 125, 183001 (2020)] において、量子クエンチを用いて整数フロケ位相を特徴づけるために実験的に実現可能な動的検出法が提案された。
しかし、この理論はまだ完成には程遠いもので、特に自由フェルミオン・フロケ位相(英語版)(free-fermion Floquet topological phases)では、状態は$Z_{2}$不変量によって特徴づけられる。
ここでは, 自明かつ静的な初期状態から, パラメータの急激な変更と周期的駆動の切り換えによって, 系をフロケ位相に切り換えることにより, 異なる次元および10倍方向対称性のフロケ位相に対する最初の完全かつ統一的な動的特徴付け理論を開発する。
ストロボスコピック時間平均スピン偏光によるフロケバンドの極小情報を測定することにより、ブリュアンゾーンの離散モーメントに現れるトポロジカルスピンテクスチャパターンである$0$または$$\pi$の高次バンド反転曲面が、対応する準エネルギーギャップにおけるフロケ境界モードを一意に決定し、Z_{2}$フロケ位相を特徴づける、測定可能な力学式Z_{2}$フロケ不変量を与えることを示した。
この理論の応用は、現在の量子シミュレーション実験でアクセスできる1次元モデルと2次元モデルによって示される。
我々の研究は、z_{2}$ floquetトポロジーを非常に実現可能な方法で検出し、フロッケ位相相の10倍クラス全体の動的特徴付けを完結させ、理論と実験の研究を前進させる。 The complete characterization of a generic $d$-dimensional Floquet topological phase is usually hard for the requirement of information about the micromotion throughout the entire driving period. In a recent work [L. Zhang et al., Phys. Rev. Lett. 125, 183001 (2020)], an experimentally feasible dynamical detection scheme was proposed to characterize the integer Floquet topological phases using quantum quenches. However, this theory is still far away from completion, especially for free-fermion Floquet topological phases, where the states can also be characterized by $Z_{2}$ invariants. Here we develop the first full and unified dynamical characterization theory for the $Z_{2}$ Floquet topological phases of different dimensionality and tenfold-way symmetry classes by quenching the system from a trivial and static initial state to the Floquet topological regime through suddenly changing the parameters and turning on the periodic driving. By measuring the minimal information of Floquet bands via the stroboscopic time-averaged spin polarizations, we show that the topological spin texture patterns emerging on certain discrete momenta of Brillouin zone called the $0$ or $\pi$ gap highest-order band-inversion surfaces provide a measurable dynamical $Z_{2}$ Floquet invariant, which uniquely determines the Floquet boundary modes in the corresponding quasienergy gap and characterizes the $Z_{2}$ Floquet topology. The applications of our theory are illustrated via one- and two-dimensional models that are accessible in current quantum simulation experiments. Our work provides a highly feasible way to detect the $Z_{2}$ Floquet topology and completes the dynamical characterization for the full tenfold classes of Floquet topological phases, which shall advance the research in theory and experiments. | 翻訳日:2023-11-16 19:07:06 公開日:2023-11-15 |
# オセロは解決した Othello is Solved ( http://arxiv.org/abs/2310.19387v2 ) ライセンス: Link先を確認 | Hiroki Takizawa | (参考訳) オセロのゲームは世界で最も複雑で人気のあるゲームの1つであり、まだ計算学的に解決されていない。
オセロは、およそ10オクテデシリオン(10から58のパワー)のゲーム記録と10オクテリオン(10から28のパワー)のゲームポジションを持っている。
オセロを解くという課題は、どちらのプレイヤーもミスを起こさずにゲームの結果を決定することであり、長い間コンピュータ科学における大きな挑戦であった。
本稿では、othelloが解決されたという重要なマイルストーンを発表します。
両プレイヤーの完全なプレーが引き分けにつながることは計算的に証明されている。
強力なothelloソフトウェアは、ヒューリスティックに設計された検索技術を使って長い間構築されてきた。
ゲームの解決は、ソフトウェアがゲームを完璧にプレイできるソリューションを提供する。 The game of Othello is one of the world's most complex and popular games that has yet to be computationally solved. Othello has roughly ten octodecillion (10 to the 58th power) possible game records and ten octillion (10 to the 28th power) possible game positions. The challenge of solving Othello, determining the outcome of a game with no mistake made by either player, has long been a grand challenge in computer science. This paper announces a significant milestone: Othello is now solved. It is computationally proved that perfect play by both players lead to a draw. Strong Othello software has long been built using heuristically designed search techniques. Solving a game provides a solution that enables the software to play the game perfectly. | 翻訳日:2023-11-16 19:06:27 公開日:2023-11-15 |
# 構造的説明としての形式的証明:説明可能な自然言語推論のいくつかのタスクの提案 Formal Proofs as Structured Explanations: Proposing Several Tasks on Explainable Natural Language Inference ( http://arxiv.org/abs/2311.08637v1 ) ライセンス: Link先を確認 | Lasha Abzianidze | (参考訳) 本稿では,いくつかの説明可能な自然言語推論(nli)タスクを行うための形式的証明の活用法を提案する。
形式的証明は、信頼性が高く高性能な論理ベースのNLIシステムによって作成される。
生成した形式的証明で得られる詳細な情報を利用して,nliタスクを構造化された説明文で定義する方法を示す。
提案するタスクは,説明の粒度の観点から定義された難易度に応じて順序付けできる。
我々は、既存の説明可能なNLIタスク(またはデータセット)よりも、タスクの欠点が大幅に少なくなることを論じる。 In this position paper, we propose a way of exploiting formal proofs to put forward several explainable natural language inference (NLI) tasks. The formal proofs will be produced by a reliable and high-performing logic-based NLI system. Taking advantage of the in-depth information available in the generated formal proofs, we show how it can be used to define NLI tasks with structured explanations. The proposed tasks can be ordered according to difficulty defined in terms of the granularity of explanations. We argue that the tasks will suffer with substantially fewer shortcomings than the existing explainable NLI tasks (or datasets). | 翻訳日:2023-11-16 17:54:40 公開日:2023-11-15 |
# 準同型暗号に対するセキュアな推論のためのトランスフォーマーの多項式形式への変換 Converting Transformers to Polynomial Form for Secure Inference Over Homomorphic Encryption ( http://arxiv.org/abs/2311.08610v1 ) ライセンス: Link先を確認 | Itamar Zimerman, Moran Baruch, Nir Drucker, Gilad Ezov, Omri Soceanu, Lior Wolf | (参考訳) プライバシー保護のディープラーニングモデルの設計は、ディープラーニングコミュニティにおける大きな課題である。
準同型暗号化(he)は、この領域で最も有望なアプローチの1つとして登場し、モデルオーナーとデータオーナーの間の知識の分離を可能にする。
この技術の広範な研究と応用にもかかわらず、主に畳み込みニューラルネットワークにおいて、HEをトランスフォーマーモデルに組み込むことは、これらのモデルを多項式形式に変換することの難しさから困難である。
我々は、最初の多項式変換器を導入することで、新しい地盤を壊し、トランスフォーマーでheを安全に推論する最初の実演を提供する。
これにはHE用に調整されたトランスフォーマーアーキテクチャと、演算子を多項式同値に変換する新しい方法が含まれる。
この革新により、WikiText-103でLMに対してセキュアな推論を行うことができる。
また、CIFAR-100とTiny-ImageNetで画像分類を行うこともできる。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションにおけるHEの生存可能性を強調する。
最後に,モデルの安定性を評価し,各モデル要素の寄与度を定量化するために一連のアブレーションを行う。 Designing privacy-preserving deep learning models is a major challenge within the deep learning community. Homomorphic Encryption (HE) has emerged as one of the most promising approaches in this realm, enabling the decoupling of knowledge between the model owner and the data owner. Despite extensive research and application of this technology, primarily in convolutional neural networks, incorporating HE into transformer models has been challenging because of the difficulties in converting these models into a polynomial form. We break new ground by introducing the first polynomial transformer, providing the first demonstration of secure inference over HE with transformers. This includes a transformer architecture tailored for HE, alongside a novel method for converting operators to their polynomial equivalent. This innovation enables us to perform secure inference on LMs with WikiText-103. It also allows us to perform image classification with CIFAR-100 and Tiny-ImageNet. Our models yield results comparable to traditional methods, bridging the performance gap with transformers of similar scale and underscoring the viability of HE for state-of-the-art applications. Finally, we assess the stability of our models and conduct a series of ablations to quantify the contribution of each model component. | 翻訳日:2023-11-16 17:54:31 公開日:2023-11-15 |
# 大規模多言語音声における時間的感情変化のモデル化のためのソフトラベリングとデータ拡張 Towards Generalizable SER: Soft Labeling and Data Augmentation for Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech ( http://arxiv.org/abs/2311.08607v1 ) ライセンス: Link先を確認 | Mohamed Osman, Tamer Nadeem, Ghada Khoriba | (参考訳) 音声コミュニケーションにおける感情認識は、高度な人間と機械の相互作用に不可欠である。
現在の感情検出手法は、クロスコープスを施すときにバイアスを表示することが多い。
これに対処するために、研究は16の多様なデータセットを融合させ、英語、中国語、日本語などの言語で375時間分のデータを得る。
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
4つの多言語データセットに対する検証は、顕著なゼロショット一般化を示す。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。 Recognizing emotions in spoken communication is crucial for advanced human-machine interaction. Current emotion detection methodologies often display biases when applied cross-corpus. To address this, our study amalgamates 16 diverse datasets, resulting in 375 hours of data across languages like English, Chinese, and Japanese. We propose a soft labeling system to capture gradational emotional intensities. Using the Whisper encoder and data augmentation methods inspired by contrastive learning, our method emphasizes the temporal dynamics of emotions. Our validation on four multilingual datasets demonstrates notable zero-shot generalization. We publish our open source model weights and initial promising results after fine-tuning on Hume-Prosody. | 翻訳日:2023-11-16 17:54:13 公開日:2023-11-15 |
# バイアスの海をナビゲートする:因果構造による言語モデルにおける政治的バイアスの帰属 Navigating the Ocean of Biases: Political Bias Attribution in Language Models via Causal Structures ( http://arxiv.org/abs/2311.08605v1 ) ライセンス: Link先を確認 | David F. Jenny, Yann Billeter, Mrinmaya Sachan, Bernhard Sch\"olkopf and Zhijing Jin | (参考訳) 大規模言語モデル(llm)の急速な発展は、複雑な社会・政治の風景を知覚し解釈する能力に関する激しい議論を引き起こした。
本研究では、ChatGPTによって実証されたLCMにおける意思決定プロセスと固有のバイアスの探索、特に政治討論における分析の文脈化を行う。
我々は、LLMの価値観を批判したり、検証したりするのではなく、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
活動依存ネットワーク(ADN)を適用して,これらの評価に対するLCMの暗黙的基準を抽出し,規範的価値がこれらの知覚にどのように影響するかを説明する。
我々は、人間とaiの連携とバイアス緩和に関する調査結果の結果について論じる。
コードとデータはhttps://github.com/david-jenny/LLM-Political-Study.comにある。 The rapid advancement of Large Language Models (LLMs) has sparked intense debate regarding their ability to perceive and interpret complex socio-political landscapes. In this study, we undertake an exploration of decision-making processes and inherent biases within LLMs, exemplified by ChatGPT, specifically contextualizing our analysis within political debates. We aim not to critique or validate LLMs' values, but rather to discern how they interpret and adjudicate "good arguments." By applying Activity Dependency Networks (ADNs), we extract the LLMs' implicit criteria for such assessments and illustrate how normative values influence these perceptions. We discuss the consequences of our findings for human-AI alignment and bias mitigation. Our code and data at https://github.com/david-jenny/LLM-Political-Study. | 翻訳日:2023-11-16 17:54:01 公開日:2023-11-15 |
# マルチセット接種:複数のチャレンジセットにわたるモデルロバスト性の評価 Multi-Set Inoculation: Assessing Model Robustness Across Multiple Challenge Sets ( http://arxiv.org/abs/2311.08662v1 ) ライセンス: Link先を確認 | Vatsal Gupta, Pranshu Pandya, Tushar Kataria, Vivek Gupta, Dan Roth | (参考訳) 言語モデルはブラックボックスの性質から、しばしば入力摂動に対する感受性を示し、幻覚による信頼の問題を引き起こす。
信頼を高めるためには、これらのモデルの障害モードを理解し、パフォーマンスを高めるための戦略を考案することが不可欠です。
本研究では,事前学習モデルから大規模言語モデル(llm)まで,様々なスケールの言語モデルに対する入力摂動の影響を研究する枠組みを提案する。
我々は,頑健なモデルを用いて摂動を訓練し,一方の摂動への曝露が他の摂動に対するモデルの性能を改善または劣化させるかどうかを検討する。
多重摂動ロバスト性に対処するために、3つの異なるトレーニング戦略を提案する。
また,思考の連鎖(COT)を通じて,その枠組みをLLMに拡張する。
Tabular-NLIタスクのフレームワークをインスタンス化し、提案した戦略が与えられたデータセットの精度を損なうことなく、異なる摂動に頑健にモデルを訓練することを示す。 Language models, given their black-box nature, often exhibit sensitivity to input perturbations, leading to trust issues due to hallucinations. To bolster trust, it's essential to understand these models' failure modes and devise strategies to enhance their performance. In this study, we propose a framework to study the effect of input perturbations on language models of different scales, from pre-trained models to large language models (LLMs). We use fine-tuning to train a robust model to perturbations, and we investigate whether exposure to one perturbation improves or degrades the model's performance on other perturbations. To address multi-perturbation robustness, we suggest three distinct training strategies. We also extend the framework to LLMs via a chain of thought(COT) prompting with exemplars. We instantiate our framework for the Tabular-NLI task and show that the proposed strategies train the model robust to different perturbations without losing accuracy on a given dataset. | 翻訳日:2023-11-16 17:41:57 公開日:2023-11-15 |
# テキスト分類のための言語モデルにおける概念レベルでのスプリアス相関の検討 Explore Spurious Correlations at the Concept Level in Language Models for Text Classification ( http://arxiv.org/abs/2311.08648v1 ) ライセンス: Link先を確認 | Yuhang Zhou, Paiheng Xu, Xiaoyu Liu, Bang An, Wei Ai, Furong Huang | (参考訳) 言語モデル(LM)は、微調整と文脈内学習(ICL)の両方で様々なNLPタスクにおいて大きな成果を上げている。
その優れた性能にもかかわらず、トレーニングデータ(またはiclのexemplars)におけるラベル分布の不均衡に起因するスプリアス相関が堅牢性の問題に繋がる証拠がある。
しかし、以前の研究は、主に単語や句レベルの特徴に焦点をあて、概念レベルでは取り組まなかったが、概念ラベルの欠如や、テキストにおける概念の微妙で多様な表現が原因である。
本稿では,まずLLMを用いて各テキストの概念をラベル付けし,テストデータ上での微調整やICLのためのモデルの概念バイアスを測定する。
第2に,llm生成の反事実データを追加して各概念のバランスの取れたラベル分布を構築することにより,スプリアス相関を緩和するデータリバランス手法を提案する。
本手法の有効性を検証し,トークン除去法よりも優れていることを示す。
その結果,複数のテキスト分類データセットにラベル分布バイアスが存在することが明らかとなり,LMはこれらのショートカットを用いて微調整法とICL法の両方で予測を行う。 Language models (LMs) have gained great achievement in various NLP tasks for both fine-tuning and in-context learning (ICL) methods. Despite its outstanding performance, evidence shows that spurious correlations caused by imbalanced label distributions in training data (or exemplars in ICL) lead to robustness issues. However, previous studies mostly focus on word- and phrase-level features and fail to tackle it from the concept level, partly due to the lack of concept labels and subtle and diverse expressions of concepts in text. In this paper, we first use the LLM to label the concept for each text and then measure the concept bias of models for fine-tuning or ICL on the test data. Second, we propose a data rebalancing method to mitigate the spurious correlations by adding the LLM-generated counterfactual data to make a balanced label distribution for each concept. We verify the effectiveness of our mitigation method and show its superiority over the token removal method. Overall, our results show that there exist label distribution biases in concepts across multiple text classification datasets, and LMs will utilize these shortcuts to make predictions in both fine-tuning and ICL methods. | 翻訳日:2023-11-16 17:41:39 公開日:2023-11-15 |
# 逆相残差学習による絵画の高調波化 Painterly Image Harmonization via Adversarial Residual Learning ( http://arxiv.org/abs/2311.08646v1 ) ライセンス: Link先を確認 | Xudong Wang, Li Niu, Junyan Cao, Yan Hong, Liqing Zhang | (参考訳) 画像合成は写真編集において重要な役割を果たす。
別の背景画像にフォアグラウンドオブジェクトを挿入すると、合成画像は不自然で不調和に見える。
前景がフォトリアリスティックで背景が芸術的絵画である場合、画像調和は背景画の様式を前景と背景の間に大きな領域ギャップがあるため困難な課題である前景に伝達することを目的としている。
本研究では,前景特徴マップと背景特徴マップとのドメイン間ギャップを埋めるために,逆学習を用いる。
具体的には,残差エンコーダが主エンコーダから前景特徴マップに付加された残差特徴を生成するデュアルエンコーダジェネレータを設計する。
そして、画素単位での判別器がジェネレータと対戦し、洗練されたフォアグラウンド特徴マップが背景特徴マップと区別できないように促す。
広汎な実験により,本手法は従来の方法よりも調和し,視覚的に魅力的な結果が得られることが示された。 Image compositing plays a vital role in photo editing. After inserting a foreground object into another background image, the composite image may look unnatural and inharmonious. When the foreground is photorealistic and the background is an artistic painting, painterly image harmonization aims to transfer the style of background painting to the foreground object, which is a challenging task due to the large domain gap between foreground and background. In this work, we employ adversarial learning to bridge the domain gap between foreground feature map and background feature map. Specifically, we design a dual-encoder generator, in which the residual encoder produces the residual features added to the foreground feature map from main encoder. Then, a pixel-wise discriminator plays against the generator, encouraging the refined foreground feature map to be indistinguishable from background feature map. Extensive experiments demonstrate that our method could achieve more harmonious and visually appealing results than previous methods. | 翻訳日:2023-11-16 17:41:18 公開日:2023-11-15 |
# 設計による解釈: ニューラルネットワークと忠実な説明を組み合わせたラッパーボックス Interpretable by Design: Wrapper Boxes Combine Neural Performance with Faithful Explanations ( http://arxiv.org/abs/2311.08644v1 ) ライセンス: Link先を確認 | Yiheng Su, Juni Jessy Li, Matthew Lease | (参考訳) 忠実な説明を提供しながら、神経モデルの正確さを保てるか?
予測性能を維持しつつ,モデル予測のための忠実なサンプルベース説明を生成する一般的なアプローチであるラッパーボックスを提案する。
神経モデルを通常通りに訓練した後、学習した特徴表現を古典的な解釈可能なモデルに入力して実際の予測を行う。
この単純な戦略は驚くほど効果的で、その結果は、トレーニング済みの大規模な3つの言語モデル、異なるスケールの2つのデータセット、4つの古典モデル、そして4つの評価指標で示されるように、元のニューラルモデルとほぼ同等である。
さらに、これらの古典モデルは設計によって解釈可能であるので、古典モデル予測を決定する訓練例のサブセットをユーザに直接提示することができる。 Can we preserve the accuracy of neural models while also providing faithful explanations? We present wrapper boxes, a general approach to generate faithful, example-based explanations for model predictions while maintaining predictive performance. After training a neural model as usual, its learned feature representation is input to a classic, interpretable model to perform the actual prediction. This simple strategy is surprisingly effective, with results largely comparable to those of the original neural model, as shown across three large pre-trained language models, two datasets of varying scale, four classic models, and four evaluation metrics. Moreover, because these classic models are interpretable by design, the subset of training examples that determine classic model predictions can be shown directly to users. | 翻訳日:2023-11-16 17:41:01 公開日:2023-11-15 |
# 結合ランダム行列におけるモビリティエッジと非エルゴード拡大位相の理論 Theory of mobility edge and non-ergodic extended phase in coupled random matrices ( http://arxiv.org/abs/2311.08643v1 ) ライセンス: Link先を確認 | Xiaoshui Lin, Guang-Can Guo, and Ming Gong | (参考訳) 局所化-非局在化遷移の混乱モデルの中心概念であるモビリティエッジは、ランダム行列理論(RMT)の文脈ではほとんど議論されていない。
本稿では、2つのランダム行列間の直接結合による新しいランダム行列モデルについて報告し、それらの重なり合うスペクトルと重なり合わないスペクトルが全く異なるスケーリング挙動を示すことを示す。
このモデルは、エルゴード、局所化、非エルゴード拡張(nee)位相をホストするローゼンツヴァイク-ポーターモデルの直接一般化である。
これらの相転移の一般的な理論が提示され、これは異なるアンサンブルの密度、スパース、さらには修正されたランダム行列にも等しく当てはまる。
位相図は2つのスケーリング指数で完全に特徴づけられ、様々な条件でマップアウトされることを示す。
本モデルは,rmtにおける移動性エッジと非エルゴード位相を制御可能な方法で実現するための汎用的な枠組みを提供し,rmtの純粋数学と多体モデルにおけるmeの実装,qcdにおけるカイラル対称性の破れ,大規模エコシステムの安定性から,多くの興味深い応用への道を開く。 The mobility edge, as a central concept in disordered models for localization-delocalization transitions, has rarely been discussed in the context of random matrix theory (RMT). Here we report a new class of random matrix model by direct coupling between two random matrices, showing that their overlapped spectra and un-overlapped spectra exhibit totally different scaling behaviors, which can be used to construct tunable mobility edges. This model is a direct generalization of the Rosenzweig-Porter model, which hosts ergodic, localized, and non-ergodic extended (NEE) phases. A generic theory for these phase transitions is presented, which applies equally well to dense, sparse, and even corrected random matrices in different ensembles. We show that the phase diagram is fully characterized by two scaling exponents, and they are mapped out in various conditions. Our model provides a general framework to realize the mobility edges and non-ergodic phases in a controllable way in RMT, which pave avenue for many intriguing applications both from the pure mathematics of RMT and the possible implementations of ME in many-body models, chiral symmetry breaking in QCD and the stability of the large ecosystems. | 翻訳日:2023-11-16 17:40:50 公開日:2023-11-15 |
# 線形光学とパラメトリック増幅器を用いた高変位輝度光の発生に対する基本的限界 Fundamental limits to the generation of highly displaced bright squeezed light using linear optics and parametric amplifiers ( http://arxiv.org/abs/2311.08641v1 ) ライセンス: Link先を確認 | Steve M. Young and Daniel Soh | (参考訳) 高品質の圧縮光は様々な用途において重要な資源である。
圧縮光を生成する複数の方法が知られており、理論的および実験的に証明されている。
しかし、これらの方法の有効性(特に、生成できる信号に固有の制限)はほとんど考慮されていない。
ここでは、線形光学法(圧縮真空と強いコヒーレント状態とを混合したビームスプリッター)から高光度励起光を生成するための比較理論的解析と、光パラメトリック発振器、光パラメトリック増幅器、コヒーレント状態でシードされた散逸性光学式圧縮器を含むパラメトリック増幅方法を提案する。
これらの手法を用いて生成できる高輝度圧縮状態の品質は, 物理的メカニズムによって基本レベルに制限されており, あらゆる方法において, 明るさ, スクイーズ, 全体的な不確実性の間には大きなトレードオフが存在する。
各機構に特有のトレードオフの性質と範囲を調査し,各機構の最適動作モードを特定し,パラメトリックアンプ型スクイーサーではこのようなトレードオフが避けられない理由を議論する。 High quality squeezed light is an important resource for a variety of applications. Multiple methods for generating squeezed light are known, having been demonstrated theoretically and experimentally. However, the effectiveness of these methods -- in particular, the inherent limitations to the signals that can be produced -- has received little consideration. Here we present a comparative theoretical analysis for generating a highly-displaced high-brightness squeezed light from a linear optical method -- a beam-splitter mixing a squeezed vacuum and a strong coherent state -- and parametric amplification methods including an optical parametric oscillator, an optical parametric amplifier, and a dissipative optomechanical squeezer seeded with coherent states. We show that the quality of highly-displaced high-brightness squeeze states that can be generated using these methods is limited on a fundamental level by the physical mechanism utilized; across all methods there are significant tradeoffs between brightness, squeezing, and overall uncertainty. We explore the nature and extent of these tradeoffs specific to each mechanism and identify the optimal operation modes for each, and provide an argument for why this type of tradeoff is unavoidable for parametric amplifier type squeezers. | 翻訳日:2023-11-16 17:40:27 公開日:2023-11-15 |
# 大規模言語モデルによる多段階共同知識蒸留 Multistage Collaborative Knowledge Distillation from Large Language Models ( http://arxiv.org/abs/2311.08640v1 ) ライセンス: Link先を確認 | Jiachen Zhao, Wenlong Zhao, Andrew Drozdov, Benjamin Rozonoyer, Md Arafat Sultan, Jay-Yoon Lee, Mohit Iyyer, Andrew McCallum | (参考訳) 本研究では,ラベル付きデータではモデルを効果的に細粒化できない場合と,大規模言語モデル(llm)の少ないプロンプトが最適ではない場合の半教師付きシーケンス予測タスクについて検討する。
これは、構文解析のようなタスクがアノテートするのに高価であり、事前訓練されたLLMに馴染みのない場合に発生する。
そこで本稿では,llmを駆使した生徒モデルが,教師よりもよく一般化できることを示す。
そこで本研究では, LLM (MCKD) からの多段階共同知識蒸留法である新しい蒸留法を提案する。
MCKDはまず、無ラベルデータのための擬似ラベルを生成するために、少数ショットのインコンテキスト学習を用いてLLMをプロンプトする。
そして、蒸留の各段階で、擬ラベルデータの解離分割について、一対の学生が訓練される。
各生徒はその後、未発見の分割のために新しい改良された擬似ラベルを作成し、次のラウンドの生徒を監督する。
我々は2つの選挙区解析タスクにおいて,多段階間ラベリングの利点を示す。
クラフトバイオメディカル解析では、50個のラベル付きサンプルを持つ3段階のmckdが500例の教師付き微調整の性能と一致し、それぞれ7.5%、バニラkdを3.7%上回った。 We study semi-supervised sequence prediction tasks where labeled data are too scarce to effectively finetune a model and at the same time few-shot prompting of a large language model (LLM) has suboptimal performance. This happens when a task, such as parsing, is expensive to annotate and also unfamiliar to a pretrained LLM. In this paper, we present a discovery that student models distilled from a prompted LLM can often generalize better than their teacher on such tasks. Leveraging this finding, we propose a new distillation method, multistage collaborative knowledge distillation from an LLM (MCKD), for such tasks. MCKD first prompts an LLM using few-shot in-context learning to produce pseudolabels for unlabeled data. Then, at each stage of distillation, a pair of students are trained on disjoint partitions of the pseudolabeled data. Each student subsequently produces new and improved pseudolabels for the unseen partition to supervise the next round of student(s) with. We show the benefit of multistage cross-partition labeling on two constituency parsing tasks. On CRAFT biomedical parsing, 3-stage MCKD with 50 labeled examples matches the performance of supervised finetuning with 500 examples and outperforms the prompted LLM and vanilla KD by 7.5% and 3.7% parsing F1, respectively. | 翻訳日:2023-11-16 17:40:06 公開日:2023-11-15 |
# 時空間データ予測のための周波数正規化による低ランク半負行列分解 Supervised low-rank semi-nonnegative matrix factorization with frequency regularization for forecasting spatio-temporal data ( http://arxiv.org/abs/2311.08636v1 ) ライセンス: Link先を確認 | Keunsu Kim, Hanbaek Lyu, Jinsu Kim and Jae-Hun Jung | (参考訳) 周波数正則化を用いた教師付き半負行列分解(SSNMF)を用いた時空間データの予測手法を提案する。
行列分解は時空間データを時空間成分と時空間成分に分解するために用いられる。
時間パターンの明確性を改善するため,周波数領域の正規化とともに時間領域に非負性制約を導入する。
具体的には、周波数領域の正則化は周波数空間の特徴の選択を伴い、周波数領域の解釈をより便利にする。
周波数領域では,ソフトとハードの正則化という2つの手法を提案し,対応する制約付き最適化問題の1次定常点に対する収束保証を提供する。
我々の主な動機は、GRACE(Gravity Recovery and Climate Experiment)データに基づく物理データ解析にあるが、我々の方法論は幅広い応用の可能性を持っている。
その結果,本手法をGRACEデータに適用すると,提案手法による結果は地球物理学の分野における従来の研究に匹敵するが,より明確な解釈性が得られることがわかった。 We propose a novel methodology for forecasting spatio-temporal data using supervised semi-nonnegative matrix factorization (SSNMF) with frequency regularization. Matrix factorization is employed to decompose spatio-temporal data into spatial and temporal components. To improve clarity in the temporal patterns, we introduce a nonnegativity constraint on the time domain along with regularization in the frequency domain. Specifically, regularization in the frequency domain involves selecting features in the frequency space, making an interpretation in the frequency domain more convenient. We propose two methods in the frequency domain: soft and hard regularizations, and provide convergence guarantees to first-order stationary points of the corresponding constrained optimization problem. While our primary motivation stems from geophysical data analysis based on GRACE (Gravity Recovery and Climate Experiment) data, our methodology has the potential for wider application. Consequently, when applying our methodology to GRACE data, we find that the results with the proposed methodology are comparable to previous research in the field of geophysical sciences but offer clearer interpretability. | 翻訳日:2023-11-16 17:39:41 公開日:2023-11-15 |
# 交通渋滞事象予測のための時空間グラフニューラルポイントプロセス Spatio-Temporal Graph Neural Point Process for Traffic Congestion Event Prediction ( http://arxiv.org/abs/2311.08635v1 ) ライセンス: Link先を確認 | Guangyin Jin, Lingbo Liu, Fuxian Li, Jincai Huang | (参考訳) 交通渋滞の予測は,インテリジェント交通システムにおいて重要な課題である。
トラヒック予測に関する既存の研究の多くは、時空間エンコーダとグラフ畳み込みネットワーク(gcns)を統合しており、時空間グラフベースニューラルネットワーク(spatio-temporal graph-based neural networks)と呼ばれている。
近年,npp(neural point process)が,連続時間シナリオにおけるイベント予測に適したフレームワークとして登場している。
しかし、NPPに関する従来の研究のほとんどは、複雑な時空間依存性と混雑進化パターンをモデル化することはできない。
これらの制約に対処するため,交通渋滞イベント予測のための時空間グラフニューラルポイントプロセスフレームワークSTGNPPを提案する。
具体的には,トラヒック状態データと道路ネットワークとの長距離時空間依存を完全に把握するために,時空間グラフ学習モジュールをまず設計した。
抽出された時空間的隠れ表現と混雑イベント情報は連続ゲート再帰単位に供給され、混雑進化パターンをモデル化する。
特に,周期的な情報を完全に活用するために,周期的なゲート機構を用いて点過程の強度関数計算を改善する。
最後に,本モデルでは,次の渋滞の発生時間と期間を同時に予測する。
2つの実世界のデータセットに関する広範囲な実験により、既存の最先端のアプローチと比較して優れた性能が得られた。 Traffic congestion event prediction is an important yet challenging task in intelligent transportation systems. Many existing works about traffic prediction integrate various temporal encoders and graph convolution networks (GCNs), called spatio-temporal graph-based neural networks, which focus on predicting dense variables such as flow, speed and demand in time snapshots, but they can hardly forecast the traffic congestion events that are sparsely distributed on the continuous time axis. In recent years, neural point process (NPP) has emerged as an appropriate framework for event prediction in continuous time scenarios. However, most conventional works about NPP cannot model the complex spatio-temporal dependencies and congestion evolution patterns. To address these limitations, we propose a spatio-temporal graph neural point process framework, named STGNPP for traffic congestion event prediction. Specifically, we first design the spatio-temporal graph learning module to fully capture the long-range spatio-temporal dependencies from the historical traffic state data along with the road network. The extracted spatio-temporal hidden representation and congestion event information are then fed into a continuous gated recurrent unit to model the congestion evolution patterns. In particular, to fully exploit the periodic information, we also improve the intensity function calculation of the point process with a periodic gated mechanism. Finally, our model simultaneously predicts the occurrence time and duration of the next congestion. Extensive experiments on two real-world datasets demonstrate that our method achieves superior performance in comparison to existing state-of-the-art approaches. | 翻訳日:2023-11-16 17:39:25 公開日:2023-11-15 |
# deed: エンコーダ-デコーダトランスフォーマモデルを高速化するためのデコーダの動的早期出口 DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder Transformer Models ( http://arxiv.org/abs/2311.08623v1 ) ライセンス: Link先を確認 | Peng Tang, Pengkai Zhu, Tian Li, Srikar Appalaraju, Vijay Mahadevan, R. Manmatha | (参考訳) エンコーダ・デコーダ変換モデルは様々な視覚言語(VL)タスクで大きな成功を収めているが、高い推論遅延に悩まされている。
通常、デコーダは自動回帰デコードのため、ほとんどの遅延を処理します。
推論を高速化するため,Decoder (DEED) 上で動的早期実行を行う手法を提案する。
我々は,マルチエクイットエンコーダ・デコーダトランスフォーマモデルを構築し,各デコーダ層が妥当な予測を生成できるように,深い監視を施したトレーニングを行う。
さらに,共有生成ヘッドや適応モジュールなど,単純かつ実用的な手法を活用し,浅いデコーダ層を出る際の精度を維持する。
マルチエクイットモデルに基づき、推論中にステップレベルの動的早期終了を行い、各復号ステップにおける現在のレイヤの信頼度に基づいて、モデルがより少ないデコーダ層を使用することを決定できる。
異なるデコーダ層が異なるデコーダステップで使用される可能性があることを考慮し、以前のデコーダステップの深層デコーダ機能をジャストインタイムで計算し、異なるデコーダ層の機能を意味的にアライメントすることを保証する。
各種VLタスクにおける2つの最先端エンコーダ・デコーダ変換モデルを用いて,本手法の評価を行った。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。 Encoder-decoder transformer models have achieved great success on various vision-language (VL) tasks, but they suffer from high inference latency. Typically, the decoder takes up most of the latency because of the auto-regressive decoding. To accelerate the inference, we propose an approach of performing Dynamic Early Exit on Decoder (DEED). We build a multi-exit encoder-decoder transformer model which is trained with deep supervision so that each of its decoder layers is capable of generating plausible predictions. In addition, we leverage simple yet practical techniques, including shared generation head and adaptation modules, to keep accuracy when exiting at shallow decoder layers. Based on the multi-exit model, we perform step-level dynamic early exit during inference, where the model may decide to use fewer decoder layers based on its confidence of the current layer at each individual decoding step. Considering different number of decoder layers may be used at different decoding steps, we compute deeper-layer decoder features of previous decoding steps just-in-time, which ensures the features from different decoding steps are semantically aligned. We evaluate our approach with two state-of-the-art encoder-decoder transformer models on various VL tasks. We show our approach can reduce overall inference latency by 30%-60% with comparable or even higher accuracy compared to baselines. | 翻訳日:2023-11-16 17:38:59 公開日:2023-11-15 |
# マルチクエスト多重回答テキストVQA Multiple-Question Multiple-Answer Text-VQA ( http://arxiv.org/abs/2311.08622v1 ) ライセンス: Link先を確認 | Peng Tang, Srikar Appalaraju, R. Manmatha, Yusheng Xie, Vijay Mahadevan | (参考訳) 我々は,エンコーダ・デコーダ変換器モデルにおいて,テキストVQAを行う新しい手法であるMultiple-Question Multiple-Answer(MQMA)を提案する。
テキスト-VQAタスクは、複数のモーダルコンテンツ(典型的にはOCRから)と関連するイメージ)を理解することによって、質問に答えるモデルを必要とする。
我々の知る限りでは、テキストVQAに対するこれまでのほとんどすべてのアプローチは、単一の質問とその関連したコンテンツを処理し、1つの回答を予測する。
同じイメージから複数の質問に答えるために、各質問とコンテンツは何度もモデルに送られます。
対照的に,提案するmqmaアプローチでは,エンコーダの入力として複数の質問と内容を取り込み,同時にデコーダの応答を自動回帰的に予測する。
MQMAをサポートする標準的なエンコーダ・デコーダ変換器に対して,新しいアーキテクチャ変更を行った。
また,複数の質問や内容と関連する回答の整合性や記述をモデルに教えることを目的とした,新しいMQMA事前学習タスクを提案する。
MQMA事前トレーニングモデルは、複数のテキスト-VQAデータセット上で、それぞれ強力なベースラインを持つ最先端の結果を達成する。
具体的には、OCR-VQA(+2.5%)、TextVQA(+1.4%)、ST-VQA(+0.6%)、DocVQA(+1.1%)が従来の最先端アプローチよりも絶対的に改善した。 We present Multiple-Question Multiple-Answer (MQMA), a novel approach to do text-VQA in encoder-decoder transformer models. The text-VQA task requires a model to answer a question by understanding multi-modal content: text (typically from OCR) and an associated image. To the best of our knowledge, almost all previous approaches for text-VQA process a single question and its associated content to predict a single answer. In order to answer multiple questions from the same image, each question and content are fed into the model multiple times. In contrast, our proposed MQMA approach takes multiple questions and content as input at the encoder and predicts multiple answers at the decoder in an auto-regressive manner at the same time. We make several novel architectural modifications to standard encoder-decoder transformers to support MQMA. We also propose a novel MQMA denoising pre-training task which is designed to teach the model to align and delineate multiple questions and content with associated answers. MQMA pre-trained model achieves state-of-the-art results on multiple text-VQA datasets, each with strong baselines. Specifically, on OCR-VQA (+2.5%), TextVQA (+1.4%), ST-VQA (+0.6%), DocVQA (+1.1%) absolute improvements over the previous state-of-the-art approaches. | 翻訳日:2023-11-16 17:38:32 公開日:2023-11-15 |
# toucan:トークンを意識した文字レベルの言語モデリング Toucan: Token-Aware Character Level Language Modeling ( http://arxiv.org/abs/2311.08620v1 ) ライセンス: Link先を確認 | William Fleshman and Benjamin Van Durme | (参考訳) 文字レベルの言語モデルは、別々に訓練されたトークン化器の必要性を緩和するが、効率性は長いシーケンス長に悩まされる。
文字表現をトークンに結合する学習は、これらのモデルのトレーニングをより効率的にするが、個々の文字をデコードする必要がある。
toucanは,文字レベルのモデルに「認識」するための拡張である。
本手法と先行作業との比較により,言語モデリング性能を損なうことなく,文字生成の大幅な高速化を示す。
次に、Byte-Pair Encoding や WordPiece などの定型語彙ソリューションを用いた文字列の動的トークン化の学習結果の違いについて検討し、このアプローチが単一項目としてトークン化される長いシーケンスの量の増加につながることを明らかにする。
私たちのプロジェクトとコードはhttps://nlp.jhu.edu/nuggets/で利用可能です。 Character-level language models obviate the need for separately trained tokenizers, but efficiency suffers from longer sequence lengths. Learning to combine character representations into tokens has made training these models more efficient, but they still require decoding characters individually. We propose Toucan, an augmentation to character-level models to make them "token-aware". Comparing our method to prior work, we demonstrate significant speed-ups in character generation without a loss in language modeling performance. We then explore differences between our learned dynamic tokenization of character sequences with popular fixed vocabulary solutions such as Byte-Pair Encoding and WordPiece, finding our approach leads to a greater amount of longer sequences tokenized as single items. Our project and code are available at https://nlp.jhu.edu/nuggets/. | 翻訳日:2023-11-16 17:38:03 公開日:2023-11-15 |
# グラディエントDescenceに対する非均一な平滑化 Non-Uniform Smoothness for Gradient Descent ( http://arxiv.org/abs/2311.08615v1 ) ライセンス: Link先を確認 | Albert S. Berahas, Lindon Roberts, Fred Roosta | (参考訳) 勾配降下型法の解析は、典型的には目的勾配のリプシッツ連続性に依存する。
これは一般に、与えられた問題のステップを適切に調整するために高価なハイパーパラメータチューニングプロセスを必要とする。
本研究では、リプシッツ連続勾配滑らか化条件を一般化する局所一階滑らか度オラクル(LFSO)を導入し、任意の2次微分可能関数に適用する。
このオラクルは、適応的に修正された勾配降下法のためにステップ化をチューニングするための全ての関連する問題情報をエンコードし、大域的および局所的な収束結果を与えることができる。
また,この修正一階法におけるlfsosは,超平坦な極小の非強凸問題に対して大域的線形収束率を生じさせ,一般(加速)一階法で達成可能な下限オンレートを改善できることを示した。 The analysis of gradient descent-type methods typically relies on the Lipschitz continuity of the objective gradient. This generally requires an expensive hyperparameter tuning process to appropriately calibrate a stepsize for a given problem. In this work we introduce a local first-order smoothness oracle (LFSO) which generalizes the Lipschitz continuous gradients smoothness condition and is applicable to any twice-differentiable function. We show that this oracle can encode all relevant problem information for tuning stepsizes for a suitably modified gradient descent method and give global and local convergence results. We also show that LFSOs in this modified first-order method can yield global linear convergence rates for non-strongly convex problems with extremely flat minima, and thus improve over the lower bound on rates achievable by general (accelerated) first-order methods. | 翻訳日:2023-11-16 17:37:47 公開日:2023-11-15 |
# XplainLLM: LLM意思決定を理解するためのQA説明データセット XplainLLM: A QA Explanation Dataset for Understanding LLM Decision-Making ( http://arxiv.org/abs/2311.08614v1 ) ライセンス: Link先を確認 | Zichen Chen, Jianda Chen, Mitali Gaidhani, Ambuj Singh, Misha Sra | (参考訳) 大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。
優れたパフォーマンスにもかかわらず、意思決定プロセスを理解することは依然として大きな課題です。
本稿では,知識グラフ(KG)を新しい方法で統合する質問応答(QA)タスクの新たな説明データセットを導入することにより,このプロセスに透明性を持たせることを検討する。
我々のデータセットには12,102のQAEトリプルが含まれている。
データセットのそれぞれの説明は、LCMの推論とKGの実体と関係を結びつけている。
説明コンポーネントには、理由選択説明、理由選択説明、LCMの決定を下す一連の理由要素が含まれている。
kgとグラフアテンションネットワーク(gat)を利用して、理性要素を見つけ、それを人間に理解しやすい why-choose と why-not-choose に変換します。
量的・質的評価を通じて,llmの文脈内学習を改善するためのデータセットの可能性を示し,その解釈性と説明可能性を高める。
我々の研究は、LLMの意思決定プロセスをより深く理解し、より透明性を高め、研究者や実践者にもより信頼性の高いものにすることで、説明可能なAIの分野に貢献します。
私たちのデータセットは、https://github.com/chen-zichen/XplainLLM_dataset.gitで利用可能です。 Large Language Models (LLMs) have recently made impressive strides in natural language understanding tasks. Despite their remarkable performance, understanding their decision-making process remains a big challenge. In this paper, we look into bringing some transparency to this process by introducing a new explanation dataset for question answering (QA) tasks that integrates knowledge graphs (KGs) in a novel way. Our dataset includes 12,102 question-answer-explanation (QAE) triples. Each explanation in the dataset links the LLM's reasoning to entities and relations in the KGs. The explanation component includes a why-choose explanation, a why-not-choose explanation, and a set of reason-elements that underlie the LLM's decision. We leverage KGs and graph attention networks (GAT) to find the reason-elements and transform them into why-choose and why-not-choose explanations that are comprehensible to humans. Through quantitative and qualitative evaluations, we demonstrate the potential of our dataset to improve the in-context learning of LLMs, and enhance their interpretability and explainability. Our work contributes to the field of explainable AI by enabling a deeper understanding of the LLMs decision-making process to make them more transparent and thereby, potentially more reliable, to researchers and practitioners alike. Our dataset is available at: https://github.com/chen-zichen/XplainLLM_dataset.git | 翻訳日:2023-11-16 17:37:30 公開日:2023-11-15 |
# 人為的一般知性・存在リスク・人的リスク知覚 Artificial General Intelligence, Existential Risk, and Human Risk Perception ( http://arxiv.org/abs/2311.08698v1 ) ライセンス: Link先を確認 | David R. Mandel | (参考訳) agi(artificial general intelligence)はまだ存在していないが、人工知能の技術的発展のペースを考えると、およそ20年以内に人間レベルの知性に到達すると予測されている。
その後、多くの専門家が、人間の知能をはるかに超え、迅速に行うと期待している。
超知能AGIの展望は、AGIの目標が人間の目標と一致し続けることを確実にするための信頼性の高い方法がないため、人間に現実的なリスクをもたらす。
専門家や非専門家がAGIのリスクをどう認識するかを、公開可能な予測データと世論データに基づいて検討する。
この結果は、AGIによる世界大災害や絶滅のリスクが、他の既存のリスクよりも大きいことを示唆している。
昨年における認識されるリスクの増加は、他の既存の脅威(例えば、核戦争や人為的な気候変動)よりもAGIにとって急激である。
AGIは、専門家や非専門家が同意する存在リスクであるが、そのような合意の根拠はいまだ不明である。 Artificial general intelligence (AGI) does not yet exist, but given the pace of technological development in artificial intelligence, it is projected to reach human-level intelligence within roughly the next two decades. After that, many experts expect it to far surpass human intelligence and to do so rapidly. The prospect of superintelligent AGI poses an existential risk to humans because there is no reliable method for ensuring that AGI goals stay aligned with human goals. Drawing on publicly available forecaster and opinion data, the author examines how experts and non-experts perceive risk from AGI. The findings indicate that the perceived risk of a world catastrophe or extinction from AGI is greater than for other existential risks. The increase in perceived risk over the last year is also steeper for AGI than for other existential threats (e.g., nuclear war or human-caused climate change). That AGI is a pressing existential risk is something on which experts and non-experts agree, but the basis for such agreement currently remains obscure. | 翻訳日:2023-11-16 17:29:13 公開日:2023-11-15 |
# Safer-Instruct: 自動推論データによる言語モデルの調整 Safer-Instruct: Aligning Language Models with Automated Preference Data ( http://arxiv.org/abs/2311.08685v1 ) ライセンス: Link先を確認 | Taiwei Shi, Kai Chen, Jieyu Zhao | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、言語モデルにおけるモデルの安全性を高めるための重要な戦略である。
しかし、RLHFの好みデータの注釈付けはリソース集約的で創造性に富むプロセスであり、一方、自動生成手法はデータの多様性と品質の限界に直面している。
そこで本研究では,大規模嗜好データセットを半自動構築する新しいパイプラインであるSafer-Instructを提案する。
提案手法は,人間アノテータを使わずに高品質な嗜好データを生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。
LLaMAによる指導誘導とGPT-4をエキスパートモデルとし,約10Kの選好サンプルを生成する。
このデータセット上でAlpacaモデルを微調整すると、会話や下流タスクの競合性能を維持しながら、無害性が向上する。
Safer-Instructは、プライオリティデータ取得の課題に対処し、より安全で責任のあるAIシステムの開発を進める。
私たちのコードとデータはhttps://github.com/uscnlp-lime/safer-instructで利用可能です。 Reinforcement Learning from Human Feedback (RLHF) is a vital strategy for enhancing model safety in language models. However, annotating preference data for RLHF is a resource-intensive and creativity-demanding process, while automatic generation methods face limitations in data diversity and quality. In response, we present Safer-Instruct, a novel pipeline for semi-automatically constructing large-scale preference datasets. Our approach leverages reversed instruction tuning, instruction induction, and expert model evaluation to efficiently generate high-quality preference data without human annotators. We evaluate Safer-Instruct using LLaMA for instruction induction and GPT-4 as an expert model, generating approximately 10K preference samples. Finetuning an Alpaca model on this dataset demonstrates improved harmlessness while maintaining competitive performance on conversation and downstream tasks. Safer-Instruct addresses the challenges in preference data acquisition, advancing the development of safer and more responsible AI systems. Our code and data are available at https://github.com/uscnlp-lime/safer-instruct | 翻訳日:2023-11-16 17:28:38 公開日:2023-11-15 |
# スパース主成分分析のためのフェデレーション学習 Federated Learning for Sparse Principal Component Analysis ( http://arxiv.org/abs/2311.08677v1 ) ライセンス: Link先を確認 | Sin Cheng Ciou, Pin Jui Chen, Elvin Y. Tseng and Yuh-Jye Lee | (参考訳) 急速に進化する機械学習の領域では、アルゴリズムの有効性はしばしばデータ品質と可用性のために限界に直面します。
従来のアプローチは、法的およびプライバシー上の懸念からデータ共有に苦しむ。
連合学習フレームワークはこの課題に対処する。
フェデレーション学習(federated learning)は、モデルトレーニングがクライアント側で発生し、データのローカライズを維持してプライバシを保護する、分散的なアプローチである。
生データを中央サーバに送る代わりに、モデル更新だけが交換され、データセキュリティが強化される。
本稿では,このフレームワークをSPCA(Sparse principal Component Analysis)に適用する。
SPCAは、解釈可能性を改善するためにデータの分散を最大化しながら、スパースコンポーネントのロードを達成することを目的としている。
従来のSPCAにおけるL1ノルム正規化項の他に、勾配に基づく最適化を容易にするスムージング関数を加える。
さらに,計算効率を向上させるために,最小二乗近似を元のSPCAに導入する。
これにより最適化プロセスの分析ソリューションが実現され、計算精度が大幅に向上する。
本稿では,SPCAをコンセンサス最適化問題として定式化し,ALMM(Alternating Direction Method of Multipliers)を用いて解決する。
IIDと非IIDのランダムな特徴を多種多様なデータ所有者に適用する実験を行った。
合成データと公開データの結果から, spcaのフェデレーション手法の有効性が確認できた。 In the rapidly evolving realm of machine learning, algorithm effectiveness often faces limitations due to data quality and availability. Traditional approaches grapple with data sharing due to legal and privacy concerns. The federated learning framework addresses this challenge. Federated learning is a decentralized approach where model training occurs on client sides, preserving privacy by keeping data localized. Instead of sending raw data to a central server, only model updates are exchanged, enhancing data security. We apply this framework to Sparse Principal Component Analysis (SPCA) in this work. SPCA aims to attain sparse component loadings while maximizing data variance for improved interpretability. Beside the L1 norm regularization term in conventional SPCA, we add a smoothing function to facilitate gradient-based optimization methods. Moreover, in order to improve computational efficiency, we introduce a least squares approximation to original SPCA. This enables analytic solutions on the optimization processes, leading to substantial computational improvements. Within the federated framework, we formulate SPCA as a consensus optimization problem, which can be solved using the Alternating Direction Method of Multipliers (ADMM). Our extensive experiments involve both IID and non-IID random features across various data owners. Results on synthetic and public datasets affirm the efficacy of our federated SPCA approach. | 翻訳日:2023-11-16 17:28:20 公開日:2023-11-15 |
# 複数の目的を優先したコアセット選択 Coreset Selection with Prioritized Multiple Objectives ( http://arxiv.org/abs/2311.08675v1 ) ライセンス: Link先を確認 | Xiaobo Xia, Jiale Liu, Shaokun Zhang, Qingyun Wu, Tongliang Liu | (参考訳) coreset選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に有効である。
大規模なデータから小さなサブセットを識別することに取り組んでいるため、サブセット上のトレーニングのみをフルデータとほぼ同等に実行する。
コアセット選択が現実的な場面で適用されるとき、識別されたコアセットが同等のモデル性能を達成したという前提の下で、実践者は、識別されたコアセットが低コストでより大きなアクセラレーションのために可能な限り小さいサイズを持つことを常に望んでいる。
このデシデラタムに動機づけられ、まず、モデル性能制約の下で最小のコアセットサイズを探求する「優先された複数の目的によるコアセット選択」の問題を提起する。
さらに,この問題を解決するために,モデル性能とコアセットサイズよりも優先順序を最適化し,コアセット選択手順で効率的に最適化する,革新的な手法を提案する。
理論的には,提案手法の収束保証を提供する。
実験的に、広範な実験により、以前の戦略と比べてその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。 Coreset selection is powerful in reducing computational costs and accelerating data processing for deep learning algorithms. It strives to identify a small subset from large-scale data, so that training only on the subset practically performs on par with full data. When coreset selection is applied in realistic scenes, under the premise that the identified coreset has achieved comparable model performance, practitioners regularly desire the identified coreset can have a size as small as possible for lower costs and greater acceleration. Motivated by this desideratum, for the first time, we pose the problem of "coreset selection with prioritized multiple objectives", in which the smallest coreset size under model performance constraints is explored. Moreover, to address this problem, an innovative method is proposed, which maintains optimization priority order over the model performance and coreset size, and efficiently optimizes them in the coreset selection procedure. Theoretically, we provide the convergence guarantee of the proposed method. Empirically, extensive experiments confirm its superiority compared with previous strategies, often yielding better model performance with smaller coreset sizes. | 翻訳日:2023-11-16 17:28:02 公開日:2023-11-15 |
# CP-EB:制御可能なポースとアイリンク埋め込みによる顔生成 CP-EB: Talking Face Generation with Controllable Pose and Eye Blinking Embedding ( http://arxiv.org/abs/2311.08673v1 ) ライセンス: Link先を確認 | Jianzong Wang, Yimin Deng, Ziqi Liang, Xulong Zhang, Ning Cheng, Jing Xiao | (参考訳) 本稿では、音声信号を入力とし、人物画像を参照して、短いビデオクリップと適切な点眼埋め込みによって制御された頭部ポーズで映像を合成する「CP-EB」という話し顔生成手法を提案する。
頭部の姿勢だけでなく、目の点滅も、深いフェイク検出の重要な側面である点に注意が必要だ。
ビデオによるポーズの暗黙的な制御は、最先端の作業によってすでに達成されている。
最近の研究によると、目まきは入力音声と相関が弱いため、音声から目まきを抽出して生成することができる。
そこで本研究では,入力音声と参照映像からそれぞれ視線点滅特徴を抽出し,それらの対比訓練を行い,識別・ポーズの連結特徴に埋め込んで話し顔画像を生成するganベースのアーキテクチャを提案する。
提案手法は, 同時唇運動, 自然な頭部ポーズ, 瞬き眼で, 実写的な発話を生成できることを示す。 This paper proposes a talking face generation method named "CP-EB" that takes an audio signal as input and a person image as reference, to synthesize a photo-realistic people talking video with head poses controlled by a short video clip and proper eye blinking embedding. It's noted that not only the head pose but also eye blinking are both important aspects for deep fake detection. The implicit control of poses by video has already achieved by the state-of-art work. According to recent research, eye blinking has weak correlation with input audio which means eye blinks extraction from audio and generation are possible. Hence, we propose a GAN-based architecture to extract eye blink feature from input audio and reference video respectively and employ contrastive training between them, then embed it into the concatenated features of identity and poses to generate talking face images. Experimental results show that the proposed method can generate photo-realistic talking face with synchronous lips motions, natural head poses and blinking eyes. | 翻訳日:2023-11-16 17:27:41 公開日:2023-11-15 |
# 多言語質問応答モデルに対するキャリブレーションの理解 Understanding Calibration for Multilingual Question Answering Models ( http://arxiv.org/abs/2311.08669v1 ) ライセンス: Link先を確認 | Yahan Yang, Soham Dan, Dan Roth, Insup Lee | (参考訳) 多言語事前学習言語モデルは、自然言語理解のコアタスクである質問回答(QA)において驚くほど効果的であり、複数のマルチ言語ベンチマークで高い精度を達成する。
しかし、どのように校正されているかは分かっていない。
本稿では,複数の事前学習された多言語大言語モデル(LLM)の様々な質問応答課題に対する校正特性について検討する。
抽出型および生成型qaモデル設計と多種多様な言語の両方にまたがる広範な実験を行い、高リソースと低リソースの両方にまたがる。
分布, 分布域外, 言語間移動におけるキャリブレーションの異なる次元について検討し, ポストホック法, 正規化微調整法など, 改善戦略について検討した。
モデルキャリブレーションを改善するための高効率な手法として,自動翻訳データ拡張を示す。
また、モデルサイズがキャリブレーションに与える影響や、多言語モデルが様々なタスクや言語に対するモノリンガルモデルと比較する方法について、多数のアブレーション実験を行った。 Multilingual pre-trained language models are incredibly effective at Question Answering (QA), a core task in Natural Language Understanding, achieving high accuracies on several multilingual benchmarks. However, little is known about how well they are calibrated. In this paper, we study the calibration properties of several pre-trained multilingual large language models (LLMs) on a variety of question-answering tasks. We perform extensive experiments, spanning both extractive and generative QA model designs and diverse languages, spanning both high-resource and low-resource ones. We study different dimensions of calibration in in-distribution, out-of-distribution, and cross-lingual transfer settings, and investigate strategies to improve it, including post-hoc methods and regularized fine-tuning. We demonstrate automatically translated data augmentation as a highly effective technique to improve model calibration. We also conduct a number of ablation experiments to study the effect of model size on calibration and how multilingual models compare with their monolingual counterparts for diverse tasks and languages. | 翻訳日:2023-11-16 17:27:22 公開日:2023-11-15 |
# 交渉には2つ必要:オンラインマルチプレイヤーゲームにおけるソーシャル・チェンジのモデリング It Takes Two to Negotiate: Modeling Social Exchange in Online Multiplayer Games ( http://arxiv.org/abs/2311.08666v1 ) ライセンス: Link先を確認 | Kokil Jaidka and Hansin Ahuja and Lynnette Ng | (参考訳) オンラインゲームは、プレイヤー同士が対話するダイナミックな環境であり、プレイヤーがゲームを通じて究極の勝利に向けてどのように交渉するかを理解するための豊富な設定を提供する。
本研究はターンベースの戦略ゲーム「外交」におけるオンラインプレイヤーのインタラクションを研究する。
交渉戦略に1万以上のチャットメッセージのデータセットをアノテートし、長期および短期のゲーム結果を予測する上での重要性を実証的に検証した。
チャットメッセージの言語的モデリングにより、交渉戦略は合理的に予測できるが、信頼度などの短期的な結果を予測するには、さらに多くのことが必要とされる。
一方,従来の交渉履歴に基づいて,選手の成功などの長期的成果を予測するグラフ認識強化学習手法では,これらの手法が不可欠である。
私たちは、作業の意味と影響に関する議論を締めくくります。
データセットはhttps://github.com/kj2013/claff-diplomacyで入手できる。 Online games are dynamic environments where players interact with each other, which offers a rich setting for understanding how players negotiate their way through the game to an ultimate victory. This work studies online player interactions during the turn-based strategy game, Diplomacy. We annotated a dataset of over 10,000 chat messages for different negotiation strategies and empirically examined their importance in predicting long- and short-term game outcomes. Although negotiation strategies can be predicted reasonably accurately through the linguistic modeling of the chat messages, more is needed for predicting short-term outcomes such as trustworthiness. On the other hand, they are essential in graph-aware reinforcement learning approaches to predict long-term outcomes, such as a player's success, based on their prior negotiation history. We close with a discussion of the implications and impact of our work. The dataset is available at https://github.com/kj2013/claff-diplomacy. | 翻訳日:2023-11-16 17:27:02 公開日:2023-11-15 |
# 深層ニューラルネットワークによるリムノネクトの同定と画像データを用いた新しいクラス検出 Deep Neural Network Identification of Limnonectes Species and New Class Detection Using Image Data ( http://arxiv.org/abs/2311.08661v1 ) ライセンス: Link先を確認 | Li Xu, Yili Hong, Eric P. Smith, David S. McLeod, Xinwei Deng, Laura J. Freeman | (参考訳) 多くの複雑なタスクで当てはまるように、地球上の生命の多様性を発見し、記述し、理解する作業(生物系統学と分類学)には多くの道具が必要である。
この仕事のいくつかは、過去になされたように達成できますが、いくつかの側面は、伝統的な知識やツールが十分に解決できない課題をもたらしてくれます。
このような課題の1つは、グループメンバー間の形態的類似性が既知の種を確実に同定し、新しい種を検出するのを困難にする種複合体によって示される。
この課題は、機械学習の原理を用いて、種複合体に関連する2つの特定の問題を解決する新しいツールを開発することで解決される。
第1の質問は統計と機械学習の分類問題として定式化され、第2の質問はout-of-distribution (ood) detection問題である。
東南アジアのカエル(Limnonectes kuhlii complex)からなる種群にこれらのツールを適用し,伝統的に質的に定量的かつ客観的に処理された形態的特徴(下肢皮膚のテクスチャ)を用いる。
深層ニューラルネットワークは、画像が訓練された既知の種群への分類をうまく自動化できることを実証する。
さらに,既存のクラスに属さない場合には,アルゴリズムが画像を新しいクラスに分類できることを示す。
さらに、より大きなMNISTデータセットを使用して、OOD検出アルゴリズムの性能をテストする。
本論文は,本手法の生物複合体への応用と生物多様性の文書化に向けた取り組みについて考察した。
本論文はオンライン補足資料である。 As is true of many complex tasks, the work of discovering, describing, and understanding the diversity of life on Earth (viz., biological systematics and taxonomy) requires many tools. Some of this work can be accomplished as it has been done in the past, but some aspects present us with challenges which traditional knowledge and tools cannot adequately resolve. One such challenge is presented by species complexes in which the morphological similarities among the group members make it difficult to reliably identify known species and detect new ones. We address this challenge by developing new tools using the principles of machine learning to resolve two specific questions related to species complexes. The first question is formulated as a classification problem in statistics and machine learning and the second question is an out-of-distribution (OOD) detection problem. We apply these tools to a species complex comprising Southeast Asian stream frogs (Limnonectes kuhlii complex) and employ a morphological character (hind limb skin texture) traditionally treated qualitatively in a quantitative and objective manner. We demonstrate that deep neural networks can successfully automate the classification of an image into a known species group for which it has been trained. We further demonstrate that the algorithm can successfully classify an image into a new class if the image does not belong to the existing classes. Additionally, we use the larger MNIST dataset to test the performance of our OOD detection algorithm. We finish our paper with some concluding remarks regarding the application of these methods to species complexes and our efforts to document true biodiversity. This paper has online supplementary materials. | 翻訳日:2023-11-16 17:26:49 公開日:2023-11-15 |
# 不均一時系列の構造推定 Structured Estimation of Heterogeneous Time Series ( http://arxiv.org/abs/2311.08658v1 ) ライセンス: Link先を確認 | Zachary F. Fisher and Younghoon Kim and Vladas Pipiras and Christopher Crawford and Daniel J. Petrie and Michael D. Hunter and Charles F. Geier | (参考訳) 構造的に異質なプロセスをどのようにモデル化するかは、社会、健康、行動科学の基本的な問題である。
近年,fisher et al. (2022) は,ペナライズド推定を用いた共通特徴と個別化特徴を特徴とする多変量時系列の同時推定に多変法を導入した。
このアプローチは、多くの個々人の力学における質的および定量的な違いが十分に受け入れられるマルチサブジェクト時系列に対する多くの一般的なモデリングアプローチと異なる。
現在の作業はマルチVARフレームワークを拡張し、推定性能を大幅に改善する新しい適応重み付けスキームを含んでいる。
少数のシミュレーション研究で、適応型多変数とこれらの新しいペナルティ重みを比較し、経路回復とバイアスの観点から一般的な代替推定器と比較した。
さらに、Rのマルチ変数パッケージを用いて、異なる異種条件下でのマルチVARの有用性を示すおもちゃの例とコードを提供する(Fisher, 2022)。 How best to model structurally heterogeneous processes is a foundational question in the social, health and behavioral sciences. Recently, Fisher et al., (2022) introduced the multi-VAR approach for simultaneously estimating multiple-subject multivariate time series characterized by common and individualizing features using penalized estimation. This approach differs from many popular modeling approaches for multiple-subject time series in that qualitative and quantitative differences in a large number of individual dynamics are well-accommodated. The current work extends the multi-VAR framework to include new adaptive weighting schemes that greatly improve estimation performance. In a small set of simulation studies we compare adaptive multi-VAR with these new penalty weights to common alternative estimators in terms of path recovery and bias. Furthermore, we provide toy examples and code demonstrating the utility of multi-VAR under different heterogeneity regimes using the multivar package for R (Fisher, 2022). | 翻訳日:2023-11-16 17:26:20 公開日:2023-11-15 |
# ConeQuest:火星でのコーンセグメンテーションのベンチマーク ConeQuest: A Benchmark for Cone Segmentation on Mars ( http://arxiv.org/abs/2311.08657v1 ) ライセンス: Link先を確認 | Mirali Purohit, Jacob Adler, Hannah Kerner | (参考訳) 長年にわたり、宇宙科学者は衛星や探査機から火星のデータを収集してきた。
火星の軌道画像で特定された重要な特徴の1つは、かつて水が飽和していた地域(すなわち湖や海)に形成された泥火山と解釈される孔食錐である。
火星で穴を掘った円錐体を同定することは非常に重要だが、専門家の地質学者は全ての例を識別するために巨大な軌道画像アーカイブを分類することはできない。
しかし、このタスクはコンピュータビジョンに適している。
火星関連のタスクにはいくつかのコンピュータビジョンデータセットが存在するが、コーン検出/分離のためのオープンソースデータセットは現在存在しない。
さらに、以前の研究では、単一の領域のデータを使用してモデルを訓練し、グローバルな検出とマッピングの適用性を制限した。
これに触発されたConeQuestは、火星の円錐を識別する最初の専門家による公開データセットである。
conequestは、3つの異なる火星地域から13k以上のサンプルで構成されている。
ConeQuest を用いた2つのベンチマークタスクを提案する。
(i)空間の一般化及び
(二)コーンサイズの一般化
両ベンチマークタスクで広く使われているセグメンテーションモデルを精査し評価する。
その結果、コーンセグメンテーションは既存のセグメンテーションモデルでは解決されない難解なオープン問題であり、タスクの分散データの平均iouは52.52%、42.55%である。
(i)および
(ii)であった。
この新しいベンチマークデータセットは、コーンセグメンテーションのより正確で堅牢なモデルの開発を促進するだろうと考えています。
データとコードはhttps://github.com/kerner-lab/ConeQuestで入手できる。 Over the years, space scientists have collected terabytes of Mars data from satellites and rovers. One important set of features identified in Mars orbital images is pitted cones, which are interpreted to be mud volcanoes believed to form in regions that were once saturated in water (i.e., a lake or ocean). Identifying pitted cones globally on Mars would be of great importance, but expert geologists are unable to sort through the massive orbital image archives to identify all examples. However, this task is well suited for computer vision. Although several computer vision datasets exist for various Mars-related tasks, there is currently no open-source dataset available for cone detection/segmentation. Furthermore, previous studies trained models using data from a single region, which limits their applicability for global detection and mapping. Motivated by this, we introduce ConeQuest, the first expert-annotated public dataset to identify cones on Mars. ConeQuest consists of >13k samples from 3 different regions of Mars. We propose two benchmark tasks using ConeQuest: (i) Spatial Generalization and (ii) Cone-size Generalization. We finetune and evaluate widely-used segmentation models on both benchmark tasks. Results indicate that cone segmentation is a challenging open problem not solved by existing segmentation models, which achieve an average IoU of 52.52% and 42.55% on in-distribution data for tasks (i) and (ii), respectively. We believe this new benchmark dataset will facilitate the development of more accurate and robust models for cone segmentation. Data and code are available at https://github.com/kerner-lab/ConeQuest. | 翻訳日:2023-11-16 17:26:07 公開日:2023-11-15 |
# 医用画像分類のためのAlexNetのレビュー Review of AlexNet for Medical Image Classification ( http://arxiv.org/abs/2311.08655v1 ) ライセンス: Link先を確認 | Wenhao Tang, Junding Sun, Shuihua Wang, Yudong Zhang | (参考訳) 近年, 深層学習の急速な発展が, 医用画像の分類分野に幅広い応用をもたらしている。
オーバーフィッティングの緩和、一般化の改善、勾配の消失と爆発の回避など、常にパフォーマンスが向上しているニューラルネットワークモデルの変種には、いくつかの共通点がある。
AlexNetは最初にドロップアウト技術を使ってオーバーフィッティングを緩和し、ReLUアクティベーション機能を使って勾配の消滅を回避する。
そこで我々は2012年のcnn開発に大きく貢献したalexnetに関する議論に焦点を当てた。
ジャーナル論文やカンファレンス論文を含む40以上の論文をレビューした後、AlexNetの技術的な詳細、利点、応用分野について解説する。 In recent years, the rapid development of deep learning has led to a wide range of applications in the field of medical image classification. The variants of neural network models with ever-increasing performance share some commonalities: to try to mitigate overfitting, improve generalization, avoid gradient vanishing and exploding, etc. AlexNet first utilizes the dropout technique to mitigate overfitting and the ReLU activation function to avoid gradient vanishing. Therefore, we focus our discussion on AlexNet, which has contributed greatly to the development of CNNs in 2012. After reviewing over 40 papers, including journal papers and conference papers, we give a narrative on the technical details, advantages, and application areas of AlexNet. | 翻訳日:2023-11-16 17:25:41 公開日:2023-11-15 |
# 量子ローカル回復コード Quantum Locally Recoverable Codes ( http://arxiv.org/abs/2311.08653v1 ) ライセンス: Link先を確認 | Louis Golowich and Venkatesan Guruswami | (参考訳) 古典的な局所的回復可能なコードは、局所的なエラーから高い効率の回復を可能にするとともに、より大きなエラーからのグローバルな回復を可能にする。
本稿では,量子局所可逆符号 (qLRC) の研究を開始する。
長期的には、古典的なものと同様に、そのようなqLRCは大規模量子データストレージに使用できる。
この結果は,量子誤り訂正に適用可能な量子LDPC符号にも具体的な意味を持つ。
量子局所回復性を定義した上で、(1)最適速度距離のトレードオフ(すなわちシングルトン境界付近)、(2)効率的な復号器、(3)物理実装における良好な空間的局所性を許容するタモとバーグ(2014)の古典的LRCに基づくqLRCの明示的な構成を提供する。
この解析は古典的場合よりもかなり関与するが、量子タモバーグ(qtb)符号の「折り畳み」バージョンを導入することで、最適に近いパラメータを得ることができ、代数的手法の組み合わせを用いて解析する。
さらに、AEL距離増幅から、より基本的な手法であるランダムqLRCとqLRCの2つの追加構造を提示、解析する。
これらの構成にはいくつかの利点があるが、上述した折り畳みqTB符号の3つの特性をすべて達成できない。
これらの構成をシングルトン的な境界で補完し、qlrc構成が至近パラメーターを達成することを示す。
また、これらの結果をqldpc符号のシングルトン的な境界を得るのに応用し、我々の知識の最良のところは斬新である。
さらに,局所的再現性(local correctability)と呼ばれる強い局所性特性の最も弱い形式でさえ,より堅牢な局所的回復が可能であり,特定の古典的符号によって達成されるが,量子的に不可能であることを示す。 Classical locally recoverable codes, which permit highly efficient recovery from localized errors as well as global recovery from larger errors, provide some of the most useful codes for distributed data storage in practice. In this paper, we initiate the study of quantum locally recoverable codes (qLRCs). In the long term, like their classical counterparts, such qLRCs may be used for large-scale quantum data storage. Our results also have concrete implications for quantum LDPC codes, which are applicable to near-term quantum error-correction. After defining quantum local recoverability, we provide an explicit construction of qLRCs based on the classical LRCs of Tamo and Barg (2014), which we show have (1) a close-to-optimal rate-distance tradeoff (i.e. near the Singleton bound), (2) an efficient decoder, and (3) permit good spatial locality in a physical implementation. Although the analysis is significantly more involved than in the classical case, we obtain close-to-optimal parameters by introducing a "folded" version of our quantum Tamo-Barg (qTB) codes, which we then analyze using a combination of algebraic techniques. We furthermore present and analyze two additional constructions using more basic techniques, namely random qLRCs, and qLRCs from AEL distance amplification. Each of these constructions has some advantages, but neither achieves all 3 properties of our folded qTB codes described above. We complement these constructions with Singleton-like bounds that show our qLRC constructions achieve close-to-optimal parameters. We also apply these results to obtain Singleton-like bounds for qLDPC codes, which to the best of our knowledge are novel. We then show that even the weakest form of a stronger locality property called local correctability, which permits more robust local recovery and is achieved by certain classical codes, is impossible quantumly. | 翻訳日:2023-11-16 17:25:28 公開日:2023-11-15 |
# 知覚契約の精査--視覚に基づく安全なオートランディングのケーススタディ Refining Perception Contracts: Case Studies in Vision-based Safe Auto-landing ( http://arxiv.org/abs/2311.08652v1 ) ライセンス: Link先を確認 | Yangge Li, Benjamin C Yang, Yixuan Jia, Daniel Zhuang, Sayan Mitra | (参考訳) 知覚契約は、認識に機械学習を使用する制御システムの安全性を評価する方法を提供する。
知覚契約はMLコンポーネントをテストするための仕様であり、エンドツーエンドのシステムレベルの安全性要件を証明する方法を提供する。
契約ベースのテストと保証は、比較的単純な力学を持つ3次元システムであるストレートレーン維持の文脈において、早くから確立された。
本稿では,多段,異種,ml対応の2種類の飛行制御システムの解析について述べる。
本稿では,データ構築のためのアルゴリズムを導入し,DaRePC(Diceptor Contract)の洗練を要請する手法を提案する。
結果として得られた分析は、航空機が滑走路で安全にタッチダウンでき、ドローンが安全に一連のゲートを通過できる状態と環境の条件を確立するテスト可能な契約を提供する。
また、視覚ベースの制御システムの安全性に反する可能性のある条件(例えば、低水平太陽)を発見できる。 Perception contracts provide a method for evaluating safety of control systems that use machine learning for perception. A perception contract is a specification for testing the ML components, and it gives a method for proving end-to-end system-level safety requirements. The feasibility of contract-based testing and assurance was established earlier in the context of straight lane keeping: a 3-dimensional system with relatively simple dynamics. This paper presents the analysis of two 6 and 12-dimensional flight control systems that use multi-stage, heterogeneous, ML-enabled perception. The paper advances methodology by introducing an algorithm for constructing data and requirement guided refinement of perception contracts (DaRePC). The resulting analysis provides testable contracts which establish the state and environment conditions under which an aircraft can safety touchdown on the runway and a drone can safely pass through a sequence of gates. It can also discover conditions (e.g., low-horizon sun) that can possibly violate the safety of the vision-based control system. | 翻訳日:2023-11-16 17:24:51 公開日:2023-11-15 |
# インテント駆動型モバイルGUIテストを実現する自律型大規模言語モデルエージェント Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing ( http://arxiv.org/abs/2311.08649v1 ) ライセンス: Link先を確認 | Juyeon Yoon, Robert Feldt and Shin Yoo | (参考訳) GUIテストは、ユーザがグラフィカルインターフェース(例えば、特定の機能のテストや関連するユースケースシナリオの検証など)と対話するとき、ソフトウェアシステムが期待通りに振る舞うかどうかをチェックする。
自動GUIテストツールは、構造的コードカバレッジやアクティビティカバレッジといった低レベルなメトリクスをターゲットにしているため、現時点では、このハイレベルでテストするかを決めるのは手作業である。
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
Androidアプリがあると、DroidAgentは関連するタスク目標を設定し、その後、アプリと対話してそれを達成する。
Themisベンチマークによる15のアプリを用いたDroidAgentの実証評価では、より高度な自律性を備えた現実的なタスクの設定と実行が可能であることを示しています。
例えば、メッセージングアプリをテストするとき、DroidAgentは第2のアカウントを作成し、友達として最初のアカウントを追加し、人間の介入なしに現実的なユースケースをテストした。
平均して、DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端GUIテスト技術では51%だった。
さらに、マニュアル分析では、374の自律的なタスクのうち317は、アプリ機能に関連があり、DroidAgentはアプリと深く相互作用し、より多くの機能をカバーしている。 GUI testing checks if a software system behaves as expected when users interact with its graphical interface, e.g., testing specific functionality or validating relevant use case scenarios. Currently, deciding what to test at this high level is a manual task since automated GUI testing tools target lower level adequacy metrics such as structural code coverage or activity coverage. We propose DroidAgent, an autonomous GUI testing agent for Android, for semantic, intent-driven automation of GUI testing. It is based on Large Language Models and support mechanisms such as long- and short-term memory. Given an Android app, DroidAgent sets relevant task goals and subsequently tries to achieve them by interacting with the app. Our empirical evaluation of DroidAgent using 15 apps from the Themis benchmark shows that it can set up and perform realistic tasks, with a higher level of autonomy. For example, when testing a messaging app, DroidAgent created a second account and added a first account as a friend, testing a realistic use case, without human intervention. On average, DroidAgent achieved 61% activity coverage, compared to 51% for current state-of-the-art GUI testing techniques. Further, manual analysis shows that 317 out of the 374 autonomously created tasks are realistic and relevant to app functionalities, and also that DroidAgent interacts deeply with the apps and covers more features. | 翻訳日:2023-11-16 17:24:34 公開日:2023-11-15 |
# 運動量空間における四体有界状態: 2体$t-$行列を持たないヤクボフスキーアプローチ Four-body bound states in momentum space: the Yakubovsky approach without two-body $t-$matrices ( http://arxiv.org/abs/2311.08713v1 ) ライセンス: Link先を確認 | M. Mohammadzadeh, M. Radin, K. Mohseni, M. R. Hadizadeh | (参考訳) 本研究では、運動量空間における四体有界状態に対するヤクボフスキー方程式の解を示し、2体$t-$行列の共通使用を回避した。
典型的には、そのような解は2番目のヤコビモーメントと3番目のヤコビモーメントによって制御される2体サブシステムエネルギーのリップマン・シュウィンガー積分方程式から得られる完全オフシェルの2体 $t-$行列に依存する。
その代わり、Yakubovsky方程式のバージョンを使い、$t-$matricesを必要とせず、2体の相互作用を直接利用する。
このアプローチはプログラミングを合理化し、計算時間を短縮する。
2B相互作用を用いたヤクボフスキー方程式へのこの直接的なアプローチは、従来の$t-$matrix依存のヤクボフスキー方程式から得られる4体結合エネルギーを、分離可能な(山口とガウシアン)相互作用と非分離可能な(Malfliet-Tjon)相互作用の両方に対して生成することを発見した。 This study presents a solution to the Yakubovsky equations for four-body bound states in momentum space, bypassing the common use of two-body $t-$matrices. Typically, such solutions are dependent on the fully-off-shell two-body $t-$matrices, which are obtained from the Lippmann-Schwinger integral equation for two-body subsystem energies controlled by the second and third Jacobi momenta. Instead, we use a version of the Yakubovsky equations that doesn't require $t-$matrices, facilitating the direct use of two-body interactions. This approach streamlines the programming and reduces computational time. Numerically, we found that this direct approach to the Yakubovsky equations, using 2B interactions, produces four-body binding energy results consistent with those obtained from the conventional $t-$matrix dependent Yakubovsky equations, for both separable (Yamaguchi and Gaussian) and non-separable (Malfliet-Tjon) interactions. | 翻訳日:2023-11-16 17:16:19 公開日:2023-11-15 |
# PLUG: 言語間インストラクションチューニングにおけるPivot言語の利用 PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning ( http://arxiv.org/abs/2311.08711v1 ) ライセンス: Link先を確認 | Zhihan Zhang, Dong-Ho Lee, Yuwei Fang, Wenhao Yu, Mengzhao Jia, Meng Jiang, Francesco Barbieri | (参考訳) インストラクションチューニングは、多種多様な人間の指示に対する理解と応答において著しく進歩した大規模言語モデル(LLM)である。
高リソース言語の成功にもかかわらず、低リソース言語におけるその応用は、学習前のデータにおける不均一な言語分布に起因する、異なる言語間でのLLMの基盤能力の不均衡による課題に直面している。
この問題に対処するため、我々は、低リソース言語における命令チューニングを強化するために、高リソース言語(主に英語)を利用するピボット言語ガイド生成(PLUG)を提案する。
モデルをピボット言語で最初に処理し、次にターゲット言語で応答を生成するようにトレーニングする。
提案手法を評価するために,プロの翻訳者による4言語(中国語,韓国語,イタリア語,スペイン語)の指示のベンチマーク,X-AlpacaEvalを導入する。
提案手法は,LLMの命令追従能力が目標言語単独で直接応答した場合と比較して,平均29%向上したことを示す。
さらなる実験では、LLMが習熟度が低い言語を支援するために、英語以外の代替のピボット言語を利用することで、我々のアプローチの汎用性を検証する。 Instruction tuning has remarkably advanced large language models (LLMs) in understanding and responding to diverse human instructions. Despite the success in high-resource languages, its application in lower-resource ones faces challenges due to the imbalanced foundational abilities of LLMs across different languages, stemming from the uneven language distribution in their pre-training data. To tackle this issue, we propose pivot language guided generation (PLUG), an approach that utilizes a high-resource language, primarily English, as the pivot to enhance instruction tuning in lower-resource languages. It trains the model to first process instructions in the pivot language, and then produce responses in the target language. To evaluate our approach, we introduce a benchmark, X-AlpacaEval, of instructions in 4 languages (Chinese, Korean, Italian, and Spanish), each annotated by professional translators. Our approach demonstrates a significant improvement in the instruction-following abilities of LLMs by 29% on average, compared to directly responding in the target language alone. Further experiments validate the versatility of our approach by employing alternative pivot languages beyond English to assist languages where LLMs exhibit lower proficiency. | 翻訳日:2023-11-16 17:15:53 公開日:2023-11-15 |
# フェルミオンステアリングはディラトンブラックホールの背景では非局所的ではない Fermionic steering is not nonlocal in the background of dilaton black hole ( http://arxiv.org/abs/2311.08709v1 ) ライセンス: Link先を確認 | Shu-Min Wu, Jin-Xuan Li, Xiao-Ying Jiang, Xiao-Wei Teng, Xiao-Li Huang, Jianbo Lu | (参考訳) 我々は,ガーフィンクル・ホロウィッツ・ストロミンジャー・ディラトンブラックホールの背景におけるフェルミオンステアリングの再分布とフェルミオンベル非局在性,ステアリングおよび絡み合いの関係について検討した。
曲線時空におけるベル不等式の観点から,フェルミオンステアリングの意味を解析した。
フェルミオンステアリングは、かつては極端ディラトンブラックホールで生存していたと考えられていたが、非局所的とは考えられなかった。
また, ディラトン重力はフェルミオンステアリングを再分配できるが, ベル非局所性は再分配できないことから, 物理的にアクセス不能なステアリングも非局所的ではない。
到達不能な絡み合いとは異なり、到達不能なステアリングはディラトンと非単調に増加する可能性がある。
さらに, ダイラトン時空におけるフェルミオンステアリングと絡み合いの関係について述べる。
さらに,曲線時空におけるフェルミオンとボソニックステアリングの違いを示す。 We study the redistribution of the fermionic steering and the relation among fermionic Bell nonlocality, steering, and entanglement in the background of the Garfinkle-Horowitz-Strominger dilaton black hole. We analyze the meaning of the fermionic steering in terms of the Bell inequality in curved spacetime. We find that the fermionic steering, which is previously found to survive in the extreme dilaton black hole, cannot be considered to be nonlocal. We also find that the dilaton gravity can redistribute the fermionic steering, but cannot redistribute Bell nonlocality, which means that the physically inaccessible steering is also not nonlocal. Unlike the inaccessible entanglement, the inaccessible steering may increase non-monotonically with the dilaton. Furthermore, we obtain some monogamy relations between the fermionic steering and entanglement in dilaton spacetime. In addition, we show the difference between the fermionic and bosonic steering in curved spacetime. | 翻訳日:2023-11-16 17:15:29 公開日:2023-11-15 |
# マルチエージェント強化学習による屋内環境におけるマルチスター型NOMAのユーザペアリングとビームフォーミング設計 Joint User Pairing and Beamforming Design of Multi-STAR-RISs-Aided NOMA in the Indoor Environment via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.08708v1 ) ライセンス: Link先を確認 | Yu Min Park, Yan Kyaw Tun, Choong Seon Hong | (参考訳) 現在の5gネットワークを超える要件を持つ6g/b5gワイヤレスネットワークの開発は、学術的および工業的な関心を集めている。
しかし、6g/b5gネットワークの品質を向上させるため、地上基地局に依存する従来のセルラーネットワークは地理的にも経済的にも制約を受ける。
一方、NOMAでは複数のユーザが同じリソースを共有できるため、システムのスペクトル効率が向上し、より多くのユーザをサポートする利点がある。
さらに、反射信号と伝送信号の両方の位相と振幅をインテリジェントに操作することで、スターrisはカバー率の向上、スペクトル効率の向上、通信信頼性の向上を実現できる。
しかし、スター・リスは反射と透過に対応する振幅と位相シフトを同時に最適化しなければならないため、既存のテラレスタルネットワークはより複雑になり、大きな問題となっている。
以上のことから,室内環境におけるNOMAのユーザペアリングとマルチSTAR-RISのビームフォーミング設計について検討した。
次に、復号順序、ユーザペアリング、アクティブビームフォーミング、受動ビームフォーミングを共同で最適化することにより、MUの総スループットを最大化する目的で最適化問題を定式化する。
しかし、定式化問題は MINLP である。
この課題に対処するために,まずNOMAネットワークのデコード順序を導入する。
次に、元の問題を2つのサブプロブレムに分解する。
1)MUペアリングとMUペアリング
2)最適復号順序でのビームフォーミング最適化
最初の部分問題として,相関型k平均クラスタリングを用いてユーザペアリング問題を解決する。
そこで本研究では,ビームフォーミングベクトル最適化を共同で扱うMAPPOを提案する。 The development of 6G/B5G wireless networks, which have requirements that go beyond current 5G networks, is gaining interest from academic and industrial. However, to increase 6G/B5G network quality, conventional cellular networks that rely on terrestrial base stations are constrained geographically and economically. Meanwhile, NOMA allows multiple users to share the same resources, which improves the spectral efficiency of the system and has the advantage of supporting a larger number of users. Additionally, by intelligently manipulating the phase and amplitude of both the reflected and transmitted signals, STAR-RISs can achieve improved coverage, increased spectral efficiency, and enhanced communication reliability. However, STAR-RISs must simultaneously optimize the Amplitude and Phase-shift corresponding to reflection and transmission, which makes the existing terrestiral networks more complicated and is considered a major challenging issue. Motivated by the above, we study the joint user pairing for NOMA and beamforming design of Multi-STAR-RISs in an indoor environment. Then, we formulate the optimization problem with the objective of maximizing the total throughput of MUs by jointly optimizing the decoding order, user pairing, active beamforming, and passive beamforming. However, the formulated problem is a MINLP. To tackle this challenge, we first introduce the decoding order for NOMA networks. Next, we decompose the original problem into two subproblems namely: 1) MU pairing and 2) Beamforming optimization under the optimal decoding order. For the first subproblem, we employ correlation-based K-means clustering to solve the user pairing problem. Then, to jointly deal with beamforming vector optimizations, we propose MAPPO, which can make quick decisions in the given environment owing to its low complexity. | 翻訳日:2023-11-16 17:15:12 公開日:2023-11-15 |
# Aligned: アライメントのためのプラットフォームベースのプロセス Aligned: A Platform-based Process for Alignment ( http://arxiv.org/abs/2311.08706v1 ) ライセンス: Link先を確認 | Ethan Shaotran, Ido Pesok, Sam Jones, and Emi Liu | (参考訳) 私たちは、グローバルガバナンスとフロンティアモデルのアライメントのためのプラットフォームであるalignedを導入しています。
主要なAI研究所での以前の取り組みは、アライメントのためのインプットを集めようとしたが、それらはしばしばドアの後ろで実行される。
我々は、安全に対するより信頼できる公的なアプローチ、すなわち憲法委員会の枠組みの基盤を確立することを目指している。
680人の参加者による最初のテストでは、全体の支持率93%の30ガイド構成となった。
プラットフォームは自然にスケールし、コミュニティからの信頼と楽しみを植え付けます。
私たちは、Alignedエコシステムにプラグインしてプレイするために、他のAIラボやチームを招待します。 We are introducing Aligned, a platform for global governance and alignment of frontier models, and eventually superintelligence. While previous efforts at the major AI labs have attempted to gather inputs for alignment, these are often conducted behind closed doors. We aim to set the foundation for a more trustworthy, public-facing approach to safety: a constitutional committee framework. Initial tests with 680 participants result in a 30-guideline constitution with 93% overall support. We show the platform naturally scales, instilling confidence and enjoyment from the community. We invite other AI labs and teams to plug and play into the Aligned ecosystem. | 翻訳日:2023-11-16 17:14:43 公開日:2023-11-15 |
# 自然発生変動の存在下での対話要約モデルのロバスト性評価 Evaluating Robustness of Dialogue Summarization Models in the Presence of Naturally Occurring Variations ( http://arxiv.org/abs/2311.08705v1 ) ライセンス: Link先を確認 | Ankita Gupta, Chulaka Gunasekara, Hui Wan, Jatin Ganhotra, Sachindra Joshi, Marina Danilevsky | (参考訳) 対話要約タスクは、最も健全な情報を保持しながら長い会話を要約する。
実生活の対話は、しばしば自然発生のバリエーション(繰り返し、迷信など)と既存の対話要約モデルがそのような会話のパフォーマンス低下に苦しむ。
本研究では,公開データセットを用いた対話要約モデルにおける変動の影響を体系的に検討する。
実生活の変動をシミュレートするため, 発話レベルの摂動は, 誤りや言語の変化で個々の発話を変更するもので, 対話レベルの摂動は非形式的交換(繰り返し, 挨拶など)を付加するものである。
我々は,要約モデルの性能の異なる側面を捉えた3次元のロバスト性(一貫性,敬礼,忠実性)の分析を行う。
微調整モデルと命令調整モデルの両方が入力変動の影響を受けており、後者は特に対話レベルの摂動に対してより感受性が高い。
また,人的評価による評価も行った。
最後に, 微調整モデルのロバスト性が, ごくわずかなデータでトレーニングすることで向上できるかどうかを検証し, このアプローチが現在のモデルでのロバスト性問題に対処するには不十分であることを確認した。
全体としては,対話要約における堅牢性の問題に注目し,今後の研究への洞察を提供する。 Dialogue summarization task involves summarizing long conversations while preserving the most salient information. Real-life dialogues often involve naturally occurring variations (e.g., repetitions, hesitations) and existing dialogue summarization models suffer from performance drop on such conversations. In this study, we systematically investigate the impact of such variations on state-of-the-art dialogue summarization models using publicly available datasets. To simulate real-life variations, we introduce two types of perturbations: utterance-level perturbations that modify individual utterances with errors and language variations, and dialogue-level perturbations that add non-informative exchanges (e.g., repetitions, greetings). We conduct our analysis along three dimensions of robustness: consistency, saliency, and faithfulness, which capture different aspects of the summarization model's performance. We find that both fine-tuned and instruction-tuned models are affected by input variations, with the latter being more susceptible, particularly to dialogue-level perturbations. We also validate our findings via human evaluation. Finally, we investigate if the robustness of fine-tuned models can be improved by training them with a fraction of perturbed data and observe that this approach is insufficient to address robustness challenges with current models and thus warrants a more thorough investigation to identify better solutions. Overall, our work highlights robustness challenges in dialogue summarization and provides insights for future research. | 翻訳日:2023-11-16 17:14:33 公開日:2023-11-15 |
# 大規模言語モデルは概念アノテーションガイドラインに従うことができるか?
科学技術・金融分野の事例研究 Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains ( http://arxiv.org/abs/2311.08704v1 ) ライセンス: Link先を確認 | Marcio Fonseca and Shay B. Cohen | (参考訳) 大規模言語モデル (LLMs) は, 文脈内実演を活用する能力に優れるが, 新たな概念や事実を根本から学べるかどうかは不明である。
この問題に対処するために,文のラベル付け作業における文脈内概念ガイドラインに従うための命令調整LDMの能力を検討する。
我々は,ゼロショット文分類タスクのプロンプトとして使用される,異なる種類の事実的概念定義と反事実的概念定義を示すガイドラインを設計する。
その結果、概念定義はタスク性能に一貫した助けとなるが、大モデル(70Bパラメータ以上)だけが対実的コンテキスト下での作業能力に制限があることがわかった。
重要なことは、GPT-3.5やGPT-4のようなプロプライエタリなモデルだけが、より洗練されたアライメント手法によって、非感覚的なガイドラインを認識できるということだ。
最後に,Llama-2-70B-chatはFalcon-180B-chatよりも優れており,モデルスケールの増加よりも注意深い微調整が有効であることを示す。
さらに,我々の簡易評価手法は,最も有能なオープンソース言語モデルと主要なプロプライエタリAPIの間の概念理解において,大きなギャップを生じさせる。 Although large language models (LLMs) exhibit remarkable capacity to leverage in-context demonstrations, it is still unclear to what extent they can learn new concepts or facts from ground-truth labels. To address this question, we examine the capacity of instruction-tuned LLMs to follow in-context concept guidelines for sentence labeling tasks. We design guidelines that present different types of factual and counterfactual concept definitions, which are used as prompts for zero-shot sentence classification tasks. Our results show that although concept definitions consistently help in task performance, only the larger models (with 70B parameters or more) have limited ability to work under counterfactual contexts. Importantly, only proprietary models such as GPT-3.5 and GPT-4 can recognize nonsensical guidelines, which we hypothesize is due to more sophisticated alignment methods. Finally, we find that Falcon-180B-chat is outperformed by Llama-2-70B-chat is most cases, which indicates that careful fine-tuning is more effective than increasing model scale. Altogether, our simple evaluation method reveals significant gaps in concept understanding between the most capable open-source language models and the leading proprietary APIs. | 翻訳日:2023-11-16 17:14:08 公開日:2023-11-15 |
# ディベートは信頼できない専門家を監督する Debate Helps Supervise Unreliable Experts ( http://arxiv.org/abs/2311.08702v1 ) ライセンス: Link先を確認 | Julian Michael, Salsabila Mahdi, David Rein, Jackson Petty, Julien Dirani, Vishakh Padmakumar, Samuel R. Bowman | (参考訳) AIシステムは、より難しい質問に答え、新しい知識を生み出すのに使用されるため、アウトプットの真偽を判断することがより難しく、より重要になる。
どのようにして信頼できない専門家を監督できるでしょうか。それは、真実にアクセスできても、正確には報告していないのに、制度的に真実であり、単に表面的には真実に思えない答えを与えるにはどうすればいいのでしょうか。
本研究では,信頼できない2人の専門家の議論が,非専門家の裁判官がより確実に真相を判断するのに役立つことを示す。
我々は,専門家の議論や短い引用文を専門家の議論者が選択的に見るだけで,審査員が原文を読まなかった,ハードリーディングの理解に関する質問に関する人間による議論のデータセットを収集する。
私たちの議論では、ある専門家が正しい答えを議論し、もう一方が間違った答えを議論します。
1人の専門家が正解率の半分の1つだけを議論するコンサルタントと呼ぶベースラインと比較すると、議論は極めて良好で、84%の判断精度がコンサルタントの74%よりも高いことがわかった。
議論はより効率的で、相談期間の68%である。
人間とAIの議論者を比較することで、より熟練した(この場合、人間)議論者がいると、議論のパフォーマンスは上がりますが、コンサルタントのパフォーマンスは下がります。
私たちのエラー分析もこの傾向を支持しており、人間の議論における誤りの46%は、正直な議論者による誤りによるもの(スキルの向上による)である。
これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。 As AI systems are used to answer more difficult questions and potentially help create new knowledge, judging the truthfulness of their outputs becomes more difficult and more important. How can we supervise unreliable experts, which have access to the truth but may not accurately report it, to give answers that are systematically true and don't just superficially seem true, when the supervisor can't tell the difference between the two on their own? In this work, we show that debate between two unreliable experts can help a non-expert judge more reliably identify the truth. We collect a dataset of human-written debates on hard reading comprehension questions where the judge has not read the source passage, only ever seeing expert arguments and short quotes selectively revealed by 'expert' debaters who have access to the passage. In our debates, one expert argues for the correct answer, and the other for an incorrect answer. Comparing debate to a baseline we call consultancy, where a single expert argues for only one answer which is correct half of the time, we find that debate performs significantly better, with 84% judge accuracy compared to consultancy's 74%. Debates are also more efficient, being 68% of the length of consultancies. By comparing human to AI debaters, we find evidence that with more skilled (in this case, human) debaters, the performance of debate goes up but the performance of consultancy goes down. Our error analysis also supports this trend, with 46% of errors in human debate attributable to mistakes by the honest debater (which should go away with increased skill); whereas 52% of errors in human consultancy are due to debaters obfuscating the relevant evidence from the judge (which should become worse with increased skill). Overall, these results show that debate is a promising approach for supervising increasingly capable but potentially unreliable AI systems. | 翻訳日:2023-11-16 17:13:44 公開日:2023-11-15 |
# Active-Passive-Decomposition設定による量子同期:オープン量子システム研究 Quantum synchronization via Active-Passive-Decomposition configuration: An open quantum system study ( http://arxiv.org/abs/2311.08701v1 ) ライセンス: Link先を確認 | Nan Yang and Ting Yu | (参考訳) 本稿では,アクティブ-パッシブ分解(apd)構成による量子オープンシステムの枠組みにおける散逸量子調和振動子の同期について検討する。
量子系が散逸した環境に埋め込まれ、共通の古典的システムの影響を受けると、2つ以上の量子系が同期できることを示す。
このような古典的なシステムは一般にコントローラと呼ばれ、(1)異なる状態(例えば周期的な動きからカオス的な動き)を横切るように量子システムを駆動し、(2)考慮中の全ての量子オブジェクトを同期させるいわゆるアクティブ・パッシブ分解構成を構築する。
本稿では,標準量子偏差によって測定された完全同期が,安定なレジーム(量子極限円)と不安定なレジーム(量子カオス運動)の両方において達成可能であることを示す。
一例として,量子機械共振器において完全同期が実現可能であることを示す。 In this paper, we study the synchronization of dissipative quantum harmonic oscillators in the framework of quantum open system via the Active-Passive Decomposition (APD) configuration. We show that two or more quantum systems may be synchronized when the quantum systems of interest are embedded in dissipative environments and influenced by a common classical system. Such a classical system is typically termed as a controller, which (1) can drive quantum systems to cross different regimes (e.g., from periodic to chaotic motions) and (2) constructs the so-called Active-Passive Decomposition configuration such that all the quantum objects under consideration may be synchronized. The main findings of this paper is that we demonstrate that the complete synchronizations measured by the standard quantum deviation may be achieved for both stable regimes (quantum limit circles) and unstable regimes (quantum chaotic motions). As an example, we numerically show in an optomechanical setup that the complete synchronization can be realized in quantum mechanical resonators. | 翻訳日:2023-11-16 17:13:14 公開日:2023-11-15 |
# 単一クトリット回路の合成と気化 Synthesis and Airthmetic of Single Qutrit Circuits ( http://arxiv.org/abs/2311.08696v1 ) ライセンス: Link先を確認 | Amolak Ratan Kalra, Dinesh Valluri, Michele Mosca | (参考訳) 本稿では、Clifford+$\mathcal{D}$ゲート集合上の単語からなる単一量子回路について検討し、$\mathcal{D}$は、$\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c})という形のシクロトミックゲートからなる。
我々は、$\chi := 1 - \xi に対して最小の分母指数(sde)を減少させる可能性に基づいて、$\mathbb{Z}[\xi, \frac{1}{\chi}]$のエントリを持つクォート単位ベクトルのクラス $z$ を Clifford+$\mathcal{D}$ の適切なゲートを作用させることにより特徴づける。
我々は、$\mathbb{Z}[\xi]$ の任意の元の ‘デリバティブ mod $3$' の概念を研究し、それを使って$HDz$ の最小の分母指数を研究し、$H$ は qutrit Hadamard gate と $D \in \mathcal{D} である。
さらに、与えられたスデーのすべての単位ベクトルを見つける問題は、いくつかの追加の制約とともに正定値二次形式の積分解を見つける問題に還元する。
その結果、clifford + $\mathcal{d}$ gates は sde $0$ と sde $ u(3,\mathbb{z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entry in $\mathbb{z}[\xi, \frac{1}{\chi}]$ のゲートとして自然に発生する。 In this paper we study single qutrit quantum circuits consisting of words over the Clifford+ $\mathcal{D}$ gate set, where $\mathcal{D}$ consists of cyclotomic gates of the form $\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c}),$ where $\xi$ is a primitive $9$-th root of unity and integers $a,b,c$. We characterize classes of qutrit unit vectors $z$ with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$ based on the possibility of reducing their smallest denominator exponent (sde) with respect to $\chi := 1 - \xi,$ by acting an appropriate gate in Clifford+$\mathcal{D}$. We do this by studying the notion of `derivatives mod $3$' of an arbitrary element of $\mathbb{Z}[\xi]$ and using it to study the smallest denominator exponent of $HDz$ where $H$ is the qutrit Hadamard gate and $D \in \mathcal{D}.$ In addition, we reduce the problem of finding all unit vectors of a given sde to that of finding integral solutions of a positive definite quadratic form along with some additional constraints. As a consequence we prove that the Clifford + $\mathcal{D}$ gates naturally arise as gates with sde $0$ and $3$ in the group $U(3,\mathbb{Z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$ | 翻訳日:2023-11-16 17:12:55 公開日:2023-11-15 |
# 属性多様性がVQAの体系性ギャップを決定する Attribute Diversity Determines the Systematicity Gap in VQA ( http://arxiv.org/abs/2311.08695v1 ) ライセンス: Link先を確認 | Ian Berlot-Attwell, A. Michael Carrell, Kumar Krishna Agrawal, Yash Sharma, Naomi Saphra | (参考訳) ニューラルネットワークが慣れ親しんだ概念の新たな組み合わせに一般化できる程度と、それが実現可能な条件は、長い間公然の疑問でした。
本研究では,視覚的質問応答における体系性差について検討する。
そこで我々は,新しい診断データセットCLEVR-HOPEを導入する。
訓練データ量の増加は体系性ギャップを減少させるものではないが,未熟な組み合わせにおける属性の訓練データの多様性は増大する。
全体として、我々の実験は、トレーニング中に異なる属性タイプの組み合わせが見られるほど、結果のモデルがより体系的であることを示唆しています。 The degree to which neural networks can generalize to new combinations of familiar concepts, and the conditions under which they are able to do so, has long been an open question. In this work, we study the systematicity gap in visual question answering: the performance difference between reasoning on previously seen and unseen combinations of object attributes. To test, we introduce a novel diagnostic dataset, CLEVR-HOPE. We find that while increased quantity of training data does not reduce the systematicity gap, increased training data diversity of the attributes in the unseen combination does. In all, our experiments suggest that the more distinct attribute type combinations are seen during training, the more systematic we can expect the resulting model to be. | 翻訳日:2023-11-16 17:12:04 公開日:2023-11-15 |
# エキスパートへのルーティング:大規模言語モデルの効率的な報酬誘導アンサンブル Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models ( http://arxiv.org/abs/2311.08692v1 ) ライセンス: Link先を確認 | Keming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan, Chang Zhou, Jingren Zhou | (参考訳) LLM(Large Language Models)の補完的ポテンシャルは、既製のLLMが広範囲のドメインやタスクにおいて不均一な専門知識を持ち、LLMのアンサンブルが一貫してより良いパフォーマンスを達成することができると仮定する。
LLMの既存のアンサンブル法は主に出力の報酬モデルランキングに重点を置いており、計算オーバーヘッドが大きくなった。
この問題に対処するため,我々はllmの補完的な可能性を再検討し,既成の報酬モデルを用いて潜在知識を発掘することでさらに精巧化する。
そこで,我々はzooterを提案する。zooterは,学習クエリの報酬を蒸留してルーティング関数を訓練する手法で,各クエリを専門知識を持ってllmに正確に分散することができる。
また,銀の監督として報酬を用いる場合,不確実性からノイズを緩和するためにタグベースのラベル拡張も統合する。
Zooterは、報酬モデルランキング法と比較して、ルーティング関数の小さな計算オーバーヘッドしか導入しないため、推論における計算効率を示す。
異なるドメインとタスクに26のサブセットを持つ総合ベンチマークコレクションでzooterを評価した。
Zooterは、平均して最高のシングルモデルを上回っ、タスクの44%にランクインし、複数の報酬モデルランキングメソッドを上回ります。 The complementary potential of Large Language Models (LLM) assumes off-the-shelf LLMs have heterogeneous expertise in a wide range of domains and tasks so that an ensemble of LLMs can achieve consistently better performance. Existing ensemble methods for LLMs mainly focus on reward model ranking of outputs, leading to significant computation overhead. To combat this issue, we revisit the complementary potential of LLMs and further elaborate it by mining latent expertise with off-the-shelf reward models. We propose Zooter, a reward-guided routing method distilling rewards on training queries to train a routing function, which can precisely distribute each query to the LLM with expertise about it. We also integrate a tag-based label enhancement to mitigate noise from uncertainty when using rewards as silver supervision. Zooter shows computation efficiency in inference as it introduces only a minor computation overhead of a routing function compared with reward model ranking methods. We evaluate Zooter on a comprehensive benchmark collection with 26 subsets on different domains and tasks. Zooter outperforms the best single model on average and ranks first on 44% of tasks, even surpassing multiple reward model ranking methods. | 翻訳日:2023-11-16 17:11:53 公開日:2023-11-15 |
# データ制約シナリオにおけるcmf推定の有効化:セマンティックエンコード知識マイニングモデル Enabling CMF Estimation in Data-Constrained Scenarios: A Semantic-Encoding Knowledge Mining Model ( http://arxiv.org/abs/2311.08690v1 ) ライセンス: Link先を確認 | Yanlin Qi, Jia Li, Michael Zhang | (参考訳) 事故修正要因(CMF)の精度評価は,道路安全対策の有効性評価とインフラ投資の優先順位付けに重要である。
対策シナリオごとにカスタマイズした研究が望まれるが,従来のCMF推定手法は,所定の地点におけるクラッシュデータの可用性に大きく依存している。
異なる安全対策シナリオ間の本質的類似性は十分に検討されていないため, 推定コストを下げるだけでなく, 結果の移動性も低下する。
そこで本研究では,cmf予測のための知識マイニングフレームワークを提案する。
このフレームワークは、既存の対策の接続を掘り下げ、CMF推定のクラッシュデータ可用性と手動データ収集への依存を減らす。
具体的には、人間の理解プロセスからインスピレーションを得て、既存のCMF知識から複雑なバリエーションやパターンを抽出する高度な自然言語処理(NLP)技術を導入する。
非構造的対策シナリオを機械可読表現に効果的にエンコードし、シナリオとCMF値の間の複雑な関係をモデル化する。
この新たなデータ駆動フレームワークは、CMF推定のケース固有のアプローチを補完する、コスト効率が高く適応可能なソリューションを提供する。
実世界のcmfクリアリングハウスデータを用いた実験的検証は、この新しいアプローチの有効性を示しています。
このアプローチは、様々なアプリケーションで蓄積された輸送知識を活用する新たな可能性に関する洞察を提供する。 Precise estimation of Crash Modification Factors (CMFs) is central to evaluating the effectiveness of various road safety treatments and prioritizing infrastructure investment accordingly. While customized study for each countermeasure scenario is desired, the conventional CMF estimation approaches rely heavily on the availability of crash data at given sites. This not only makes the estimation costly, but the results are also less transferable, since the intrinsic similarities between different safety countermeasure scenarios are not fully explored. Aiming to fill this gap, this study introduces a novel knowledge-mining framework for CMF prediction. This framework delves into the connections of existing countermeasures and reduces the reliance of CMF estimation on crash data availability and manual data collection. Specifically, it draws inspiration from human comprehension processes and introduces advanced Natural Language Processing (NLP) techniques to extract intricate variations and patterns from existing CMF knowledge. It effectively encodes unstructured countermeasure scenarios into machine-readable representations and models the complex relationships between scenarios and CMF values. This new data-driven framework provides a cost-effective and adaptable solution that complements the case-specific approaches for CMF estimation, which is particularly beneficial when availability of crash data or time imposes constraints. Experimental validation using real-world CMF Clearinghouse data demonstrates the effectiveness of this new approach, which shows significant accuracy improvements compared to baseline methods. This approach provides insights into new possibilities of harnessing accumulated transportation knowledge in various applications. | 翻訳日:2023-11-16 17:11:29 公開日:2023-11-15 |
# 臨床用BERT : 糖尿病性眼疾患診断のための言語モデル一般化の検討 An Eye on Clinical BERT: Investigating Language Model Generalization for Diabetic Eye Disease Phenotyping ( http://arxiv.org/abs/2311.08687v1 ) ライセンス: Link先を確認 | Keith Harrigian, Tina Tang, Anthony Gonzales, Cindy X. Cai, Mark Dredze | (参考訳) 糖尿病性眼疾患は世界中の盲目の主な原因である。
関連する臨床経過をモニターし、ケアの経過を検知する能力は、疾患の管理と盲目予防に不可欠である。
残念ながら、これらの目標をサポートするために必要な情報の多くは、電子カルテの無料テキストにのみ見出される。
この情報ギャップを埋めるために,糖尿病性眼疾患に関連する19の臨床概念の臨床テキストからエビデンスを抽出し,関連する属性を推測するシステムを提案する。
この眼科フェノタイピングシステムの開発において、新しい臨床領域に適応するための臨床言語モデルの有効性を評価するためのユニークな機会も与えられている。
複数の訓練パラダイムにおいて,臨床データに事前学習したBERT言語モデルは,我々の領域の非臨床データに事前学習したBERT言語モデルよりも有意な改善は得られない。
本研究は, 臨床NLPタスクにおいて, 臨床データに事前学習した言語モデルは必須であると主張し, 臨床言語データを一様領域として扱わないことの重要性を強調した。 Diabetic eye disease is a major cause of blindness worldwide. The ability to monitor relevant clinical trajectories and detect lapses in care is critical to managing the disease and preventing blindness. Alas, much of the information necessary to support these goals is found only in the free text of the electronic medical record. To fill this information gap, we introduce a system for extracting evidence from clinical text of 19 clinical concepts related to diabetic eye disease and inferring relevant attributes for each. In developing this ophthalmology phenotyping system, we are also afforded a unique opportunity to evaluate the effectiveness of clinical language models at adapting to new clinical domains. Across multiple training paradigms, we find that BERT language models pretrained on out-of-distribution clinical data offer no significant improvement over BERT language models pretrained on non-clinical data for our domain. Our study tempers recent claims that language models pretrained on clinical data are necessary for clinical NLP tasks and highlights the importance of not treating clinical language data as a single homogeneous domain. | 翻訳日:2023-11-16 17:11:05 公開日:2023-11-15 |
# 8kパラメーター125fpsでの4k解像度光露光補正 4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters ( http://arxiv.org/abs/2311.08759v1 ) ライセンス: Link先を確認 | Yijie Zhou, Chao Li, Jin Liang, Tianyi Xu, Xin Liu, Jun Xu | (参考訳) 不適切に露出した写真の照明は、深層畳み込みニューラルネットワークやトランスフォーマーを用いて広く修正されている。
有望な性能にもかかわらず、これらの手法は通常、高解像度写真上で大きなパラメータ量と重い計算FLOPに悩まされる。
本稿では,タイタンrtx gpuを用いて4k解像度のsrgb画像を125フレーム/秒(fps)で処理できる多層知覚アーキテクチャの下で,超軽量(約8kパラメータのみ)マルチスケール線形変換(mslt)ネットワークを提案する。
特に,提案するmsltネットワークは,まず入力画像をラプラシアンピラミッド技術により高周波数層と低周波数層に分解し,その後,効率的な双方向グリッド学習や1x1畳み込みによって実現される画素適応線形変換により,異なる層を順次補正する。
2つのベンチマークデータセットの実験は、写真露出補正の最先端技術に対するMSLTの効率を実証している。
広範なアブレーション研究は、我々の貢献の有効性を検証する。
コードはhttps://github.com/Zhou-Yijie/MSLTNetで公開されている。 The illumination of improperly exposed photographs has been widely corrected using deep convolutional neural networks or Transformers. Despite with promising performance, these methods usually suffer from large parameter amounts and heavy computational FLOPs on high-resolution photographs. In this paper, we propose extremely light-weight (with only ~8K parameters) Multi-Scale Linear Transformation (MSLT) networks under the multi-layer perception architecture, which can process 4K-resolution sRGB images at 125 Frame-Per-Second (FPS) by a Titan RTX GPU. Specifically, the proposed MSLT networks first decompose an input image into high and low frequency layers by Laplacian pyramid techniques, and then sequentially correct different layers by pixel-adaptive linear transformation, which is implemented by efficient bilateral grid learning or 1x1 convolutions. Experiments on two benchmark datasets demonstrate the efficiency of our MSLTs against the state-of-the-arts on photo exposure correction. Extensive ablation studies validate the effectiveness of our contributions. The code is available at https://github.com/Zhou-Yijie/MSLTNet. | 翻訳日:2023-11-16 17:03:42 公開日:2023-11-15 |
# HEVC圧縮ビデオの拡散モデルに基づく品質向上手法 A Diffusion Model Based Quality Enhancement Method for HEVC Compressed Video ( http://arxiv.org/abs/2311.08746v1 ) ライセンス: Link先を確認 | Zheng Liu, Honggang Qi | (参考訳) ビデオ後処理手法はデコーダ側で圧縮ビデオの品質を向上させることができる。
既存の方法の多くは、圧縮ビデオの品質を改善するために、異なる量子化パラメータを持つ圧縮ビデオに対応するモデルを訓練する必要がある。
しかし、ほとんどの場合、デコードされたビデオの量子化パラメータは未知である。
これにより、既存の手法はビデオ品質を改善するのに限界がある。
そこで本研究では,圧縮ビデオの拡散モデルに基づく後処理手法を提案する。
提案手法は,まず圧縮ビデオの特徴ベクトルを推定し,その推定特徴ベクトルを品質向上モデルの先行情報として利用し,異なる量子化パラメータで圧縮ビデオの品質を適応的に向上させる。
実験の結果,提案手法の品質向上効果は既存手法よりも優れていることがわかった。 Video post-processing methods can improve the quality of compressed videos at the decoder side. Most of the existing methods need to train corresponding models for compressed videos with different quantization parameters to improve the quality of compressed videos. However, in most cases, the quantization parameters of the decoded video are unknown. This makes existing methods have their limitations in improving video quality. To tackle this problem, this work proposes a diffusion model based post-processing method for compressed videos. The proposed method first estimates the feature vectors of the compressed video and then uses the estimated feature vectors as the prior information for the quality enhancement model to adaptively enhance the quality of compressed video with different quantization parameters. Experimental results show that the quality enhancement results of our proposed method on mixed datasets are superior to existing methods. | 翻訳日:2023-11-16 17:03:08 公開日:2023-11-15 |
# Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析 Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling ( http://arxiv.org/abs/2311.08745v1 ) ライセンス: Link先を確認 | Naoki Sato and Hideaki Iiduka | (参考訳) 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。
本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。
その結果,ミニバッチ確率勾配を持つ確率勾配勾配(SGD)は,学習速度とバッチサイズによって決定される関数の平滑化効果を示すことがわかった。
この発見は、大規模なバッチサイズがシャープなローカルミニマに陥る理由、学習率の低下とバッチサイズの増加が固定された学習率とバッチサイズよりも優れている理由、最適な学習率スケジューリングがどのようなものであるかに関する、卒業最適化の観点からの理論的な洞察を提供する。
我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。
さらに, 劣化する学習率とバッチサイズを増大させる新たな段階最適化フレームワークを解析し, 理論的結果を支持する画像分類の実験結果について報告する。 The graduated optimization approach is a heuristic method for finding globally optimal solutions for nonconvex functions and has been theoretically analyzed in several studies. This paper defines a new family of nonconvex functions for graduated optimization, discusses their sufficient conditions, and provides a convergence analysis of the graduated optimization algorithm for them. It shows that stochastic gradient descent (SGD) with mini-batch stochastic gradients has the effect of smoothing the function, the degree of which is determined by the learning rate and batch size. This finding provides theoretical insights from a graduated optimization perspective on why large batch sizes fall into sharp local minima, why decaying learning rates and increasing batch sizes are superior to fixed learning rates and batch sizes, and what the optimal learning rate scheduling is. To the best of our knowledge, this is the first paper to provide a theoretical explanation for these aspects. Moreover, a new graduated optimization framework that uses a decaying learning rate and increasing batch size is analyzed and experimental results of image classification that support our theoretical findings are reported. | 翻訳日:2023-11-16 17:02:48 公開日:2023-11-15 |
# 協調フィルタリングのためのグラフ認識拡散モデリングに向けて Towards Graph-Aware Diffusion Modeling for Collaborative Filtering ( http://arxiv.org/abs/2311.08744v1 ) ライセンス: Link先を確認 | Yunqin Zhu, Chao Wang and Hui Xiong | (参考訳) ニューラルモデルによるマスクフィードバックの回復は、レコメンダシステムで人気のあるパラダイムである。
逆問題を解くための拡散モデルの成功を見て,協調フィルタリングのための条件付き拡散フレームワークを紹介し,その歴史的相互作用を導いたユーザの隠れた好みを反復的に再構築する。
暗黙的フィードバックデータの固有特性をよりよく一致させるため,アイテム・アイテムグラフ上の対話信号に合成平滑化フィルタを適用することにより,前方拡散を実現する。
結果として生じる逆拡散は、選好スコアを徐々に洗練するパーソナライズされたプロセスと解釈できる。
グラフフーリエ変換を通じて、このモデルをグラフスペクトル領域における異方性ガウス拡散として同等に特徴づけ、前方および後方の定式化を確立する。
本モデルでは,1つのデータセットに対して高いマージンで最先端の手法を上回り,他のデータセットに対して競争結果を得る。 Recovering masked feedback with neural models is a popular paradigm in recommender systems. Seeing the success of diffusion models in solving ill-posed inverse problems, we introduce a conditional diffusion framework for collaborative filtering that iteratively reconstructs a user's hidden preferences guided by its historical interactions. To better align with the intrinsic characteristics of implicit feedback data, we implement forward diffusion by applying synthetic smoothing filters to interaction signals on an item-item graph. The resulting reverse diffusion can be interpreted as a personalized process that gradually refines preference scores. Through graph Fourier transform, we equivalently characterize this model as an anisotropic Gaussian diffusion in the graph spectral domain, establishing both forward and reverse formulations. Our model outperforms state-of-the-art methods by a large margin on one dataset and yields competitive results on the others. | 翻訳日:2023-11-16 17:02:13 公開日:2023-11-15 |
# squeeze: 量子パルススケジュールの高速化 sQueeze: Accelerated Quantum Pulse Schedules ( http://arxiv.org/abs/2311.08742v1 ) ライセンス: Link先を確認 | Lilian Hunt Alan Robertson | (参考訳) ノイズ中間スケール量子(NISQ)時代の量子デバイスは、高いエラー率と短いデコヒーレンス時間によって制限される。
通常、コンパイラの最適化はゲートレベルでソリューションを提供する。
あるいは、量子制御の最も細かいレベルを活用し、パルスレベルの量子コンパイラの最適化セットを導入する。
不正確な既存のキャリブレーションに頼る代わりに、外部サーバを使用して2つのパラメータ化された基底ゲート $r_{x}(\theta)$ と $r_{zx}(\theta)$ のライブキャリブレーションを行う方法を提供する。
我々は,IBMの量子デバイスとOpenPulseコントロールインターフェースを80億枚以上のショットで検証した。
r_{x}(\theta)$ゲートは、現在のqiskit分解よりも平均52.7%正確であり、r_{zx}(\theta)$は平均22.6%正確である。
これらのより正確なパルスはシングルキュービット操作の4.1$\times$スピードアップと2キュービットゲートの3.1$\times$スピードアップを提供する。
次にsQueezeは、従来の手法と比較して、量子ベンチマークアルゴリズムの忠実度を最大39.6%改善することを示した。 Quantum devices in the Noisy Intermediate-Scale Quantum (NISQ) era are limited by high error rates and short decoherence times. Typically, compiler optimisations have provided solutions at the gate level. Alternatively, we exploit the finest level of quantum control and introduce a set of pulse level quantum compiler optimisations: sQueeze. Instead of relying on existing calibration that may be inaccurate, we provide a method for the live calibration of two new parameterised basis gates $R_{x}(\theta)$ and $R_{zx}(\theta)$ using an external server. We validate our techniques using the IBM quantum devices and the OpenPulse control interface over more than 8 billion shots. The $R_{x}(\theta)$ gates are on average 52.7% more accurate than their current native Qiskit decompositions, while $R_{zx}(\theta)$ are 22.6% more accurate on average. These more accurate pulses also provide up to a 4.1$\times$ speed-up for single-qubit operations and 3.1$\times$ speed-up for two-qubit gates. Then sQueeze demonstrates up to a 39.6% improvement in the fidelity of quantum benchmark algorithms compared to conventional approaches. | 翻訳日:2023-11-16 17:01:26 公開日:2023-11-15 |
# カオス的コンテキストの思考のスレッド Thread of Thought Unraveling Chaotic Contexts ( http://arxiv.org/abs/2311.08734v1 ) ライセンス: Link先を確認 | Yucheng Zhou, Xiubo Geng, Tao Shen, Chongyang Tao, Guodong Long, Jian-Guang Lou, Jianbing Shen | (参考訳) 大規模言語モデル(llm)は自然言語処理の分野で変革期を迎えており、テキスト理解や生成に関連するタスクに優れている。
それでも、混乱した文脈(例えば、長い無関係な文脈ではなく、邪魔者)に直面すると困難に遭遇し、混乱した文脈内で特定の詳細が不注意に省略される。
これらの課題に対応して,人間の認知過程から着想を得た「思考のスレッド」(thot)戦略を導入する。
ThoTは、適切な情報を選択しながら、拡張コンテキストを体系的にセグメントし、分析する。
この戦略は汎用的な"プラグアンドプレイ"モジュールとして機能し、様々なllmやプロンプト技術とシームレスに統合する。
実験では,PopQA と EntityQ のデータセットと,収集した Multi-Turn Conversation Response dataset (MTCR) を用いて,ThoT が他のプロンプト技術と比較して推論性能を著しく向上することを示す。 Large Language Models (LLMs) have ushered in a transformative era in the field of natural language processing, excelling in tasks related to text comprehension and generation. Nevertheless, they encounter difficulties when confronted with chaotic contexts (e.g., distractors rather than long irrelevant context), leading to the inadvertent omission of certain details within the chaotic context. In response to these challenges, we introduce the "Thread of Thought" (ThoT) strategy, which draws inspiration from human cognitive processes. ThoT systematically segments and analyzes extended contexts while adeptly selecting pertinent information. This strategy serves as a versatile "plug-and-play" module, seamlessly integrating with various LLMs and prompting techniques. In the experiments, we utilize the PopQA and EntityQ datasets, as well as a Multi-Turn Conversation Response dataset (MTCR) we collected, to illustrate that ThoT significantly improves reasoning performance compared to other prompting techniques. | 翻訳日:2023-11-16 17:01:03 公開日:2023-11-15 |
# twig edge による位相的自明なバンドギャップにおけるコーナーとヘリカルエッジ状態の実現 Realization of corner and helical edge states in topologically trivial band gap by twig edge ( http://arxiv.org/abs/2311.08733v1 ) ライセンス: Link先を確認 | Jianfei Li, Ying Wang, Zhongxiang Zhou, Jingfeng Yao, Zhihao Lan, and Chengxun Yuan | (参考訳) グラフェン様構造における小枝の縁状態は、ジグザグ、ひげを生やし、アームチェアと相補する4番目の状態と見なされる。
本研究では,外部磁場および格子スケーリング下でのツイッグエッジを有するハニカム格子のロッド・イン・プラズマ系の研究を行い,量子ホール相,量子スピンホール相,絶縁相など,システムの異なる相にツイッグエッジ状態が存在することを示した。
量子ホール相のtwigエッジ状態は、後方散乱に免疫のある強固な一方向伝達特性を示し、プラズマ通信のブラックアウト問題を解決する新しい方法を提供する。
さらに,twigエッジのオンサイト電位を変調することにより,絶縁相の自明なバンドギャップ内にコーナーとエッジ状態が存在することを実証する。
特に, 自明なバンドギャップ内のツウィッチエッジにおいて, キラルソースによって排出される疑似スピン・モーメントロックの特異な特徴を有するヘリカルエッジ状態が実証された。
以上の結果から, 電磁波のトポロジ的挙動の多くは必ずしもシステムの正確なトポロジと結びついておらず, トウィッグエッジとインターフェースエンジニアリングは, より柔軟な電磁波操作の新たな機会をもたらすことが示唆された。 The twig edge states in graphene-like structures are viewed as the fourth states complementary to their zigzag, bearded, and armchair counterparts. In this work, we study a rod-in-plasma system in honeycomb lattice with twig edges under external magnetic fields and lattice scaling and show that twig edge states can exist in different phases of the system, such as quantum Hall phase, quantum spin Hall phase and insulating phase. The twig edge states in the quantum Hall phase exhibit robust one-way transmission property immune to backscattering and thus provide a novel avenue for solving the plasma communication blackout problem. Moreover, we demonstrate that corner and edge states can exist within the trivial band gap of the insulating phase by modulating the on-site potential of the twig edges. Especially, helical edge states with the unique feature of pseudospin-momentum locking that could be exited by chiral sources are demonstrated at the twig edges within the trivial band gap. Our results show that many topological-like behaviors of electromagnetic waves are not necessarily tied to the exact topology of the systems and the twig edges and interface engineering can bring new opportunities for more flexible manipulation of electromagnetic waves. | 翻訳日:2023-11-16 17:00:21 公開日:2023-11-15 |
# 知識グラフと大規模言語モデルによる緊急意思決定の促進 Enhancing Emergency Decision-making with Knowledge Graphs and Large Language Models ( http://arxiv.org/abs/2311.08732v1 ) ライセンス: Link先を確認 | Minze Chen, Zhenxiang Tao, Weitong Tang, Tingxin Qin, Rui Yang, Chunli Zhu | (参考訳) 緊急管理は、個人の認知範囲を超える可能性が高く、包括的知識を必要とする。
そのため、その状況下での意思決定を支援する人工知能(AI)が重要である。
最近の大規模言語モデル(LLM)は、ターゲットマシンインテリジェンスを強化するための新しい方向性を提供する。
しかし、LLMの活用は必然的に、幻覚や推論能力の貧弱な問題に対して、信頼できない出力を導入することになる。
本研究では,知識グラフとllm(e-kell)を併用した緊急意思決定システムを開発し,さまざまな緊急時にエビデンスに基づく意思決定を行う。
この研究は、構造化された緊急知識グラフを構築し、即時連鎖を通してLSMを推論するように誘導する。
実世界の評価では、e-kellは9.06, 9.09, 9.03, 9.09のスコアを受け取り、その理解性、正確性、簡潔さ、指示性が緊急の指揮官や消防士のグループから受けられ、ベースラインモデルと比較して様々な状況で著しい改善が見られた。
本研究は、信頼性の高い緊急意思決定支援のための新しいアプローチを導入する。 Emergency management urgently requires comprehensive knowledge while having a high possibility to go beyond individuals' cognitive scope. Therefore, artificial intelligence(AI) supported decision-making under that circumstance is of vital importance. Recent emerging large language models (LLM) provide a new direction for enhancing targeted machine intelligence. However, the utilization of LLM directly would inevitably introduce unreliable output for its inherent issue of hallucination and poor reasoning skills. In this work, we develop a system called Enhancing Emergency decision-making with Knowledge Graph and LLM (E-KELL), which provides evidence-based decision-making in various emergency stages. The study constructs a structured emergency knowledge graph and guides LLMs to reason over it via a prompt chain. In real-world evaluations, E-KELL receives scores of 9.06, 9.09, 9.03, and 9.09 in comprehensibility, accuracy, conciseness, and instructiveness from a group of emergency commanders and firefighters, demonstrating a significant improvement across various situations compared to baseline models. This work introduces a novel approach to providing reliable emergency decision support. | 翻訳日:2023-11-16 16:59:57 公開日:2023-11-15 |
# 粒子群最適化を用いた配電系統におけるコンデンサの最適配置 Optimal Placement of Capacitor in Distribution System using Particle Swarm Optimization ( http://arxiv.org/abs/2311.08728v1 ) ライセンス: Link先を確認 | Izhar Ul Haq (School of Automation, Central South University, China) | (参考訳) 電力システムでは、コンデンサの組み込みは広範囲の確立された利点を提供する。
これらの利点には、システムパワーファクタの強化、電圧プロファイルの最適化、ケーブルや変圧器を通した電流流の容量の増大、反応電力部品の補償に起因する損失の軽減が含まれる。
系統損失を低減し, 配電系統の性能向上に様々な手法が適用されている。
本稿では,キャパシタの最適配置とサイズによる線路損失の低減に着目する。
ニュートン・ラフソン法による負荷流解析により最適キャパシタ配置を解析した。
コンデンサ最適化の配置は、損失感度因子に依存するバスの感度に関係している。
最適キャパシタサイズは粒子群最適化(pso)により決定される。
解析はMATLABのIEEE 14バスシステムを用いて行われる。
その結果, コンデンサを最も敏感なバスに配置すると, ライン損失が著しく減少することがわかった。
さらに、最適コンデンササイズは電圧プロファイルの改善に大きく影響し、提案手法により電力損失を21.02パーセント削減する。 In power systems, the incorporation of capacitors offers a wide range of established advantages. These benefits encompass the enhancement of the systems power factor, optimization of voltage profiles, increased capacity for current flow through cables and transformers, and the mitigation of losses attributed to the compensation of reactive power components. Different techniques have been applied to enhance the performance of the distribution system by reducing line losses. This paper focuses on reducing line losses through the optimal placement and sizing of capacitors. Optimal capacitor placement is analysed using load flow analysis with the Newton Raphson method. The placement of capacitor optimization is related to the sensitivity of the buses, which depends on the loss sensitivity factor. The optimal capacitor size is determined using Particle Swarm Optimization (PSO). The analysis is conducted using the IEEE 14 bus system in MATLAB. The results reveal that placing capacitors at the most sensitive bus locations leads to a significant reduction in line losses. Additionally, the optimal capacitor size has a substantial impact on improving the voltage profile and the power loss is reduced by 21.02 percent through the proposed method. | 翻訳日:2023-11-16 16:59:38 公開日:2023-11-15 |
# 不確かさ伝達による逐次ラベリングの不確かさ推定 Uncertainty Estimation on Sequential Labeling via Uncertainty Transmission ( http://arxiv.org/abs/2311.08726v1 ) ライセンス: Link先を確認 | Jianfeng He, Linlin Yu, Shuo Lei, Chang-Tien Lu, Feng Chen | (参考訳) シーケンシャルラベリング(Sequential labeling)は、名前付きエンティティ認識(NER)のようなシーケンス内の各トークンのラベルを予測するタスクである。
NERタスクは、エンティティを抽出し、テキストが与えられたラベルを予測することを目的としている。
これまでのNERの性能向上には大きな進歩があったが,NER(UE-NER)の不確実性評価はいまだに未検討だが必須である。
本研究は,NER予測の不確実性スコアを推定することを目的としたUE-NERに焦点を当てる。
従来の不確実性推定モデルは、エンティティ間の接続(すなわち、他のエンティティに基づいて1つのエンティティ埋め込みが学習される)とエンティティ抽出サブタスクにおける間違ったスパンケースという、NERの2つのユニークな特徴を見落としていることが多い。
そこで,他のトークンから送信される不確かさを考慮して,抽出されたエンティティに対する不確かさスコアを推定するための逐次ラベル付き後続ネットワーク(slpn)を提案する。
さらに,誤診事例の特異性に対処するための評価戦略を定義した。
当社のslpnは,mit-restaurantデータセット上のauprの5.54ポイントの改善など,2つのデータセットで大幅な改善を達成しています。 Sequential labeling is a task predicting labels for each token in a sequence, such as Named Entity Recognition (NER). NER tasks aim to extract entities and predict their labels given a text, which is important in information extraction. Although previous works have shown great progress in improving NER performance, uncertainty estimation on NER (UE-NER) is still underexplored but essential. This work focuses on UE-NER, which aims to estimate uncertainty scores for the NER predictions. Previous uncertainty estimation models often overlook two unique characteristics of NER: the connection between entities (i.e., one entity embedding is learned based on the other ones) and wrong span cases in the entity extraction subtask. Therefore, we propose a Sequential Labeling Posterior Network (SLPN) to estimate uncertainty scores for the extracted entities, considering uncertainty transmitted from other tokens. Moreover, we have defined an evaluation strategy to address the specificity of wrong-span cases. Our SLPN has achieved significant improvements on two datasets, such as a 5.54-point improvement in AUPR on the MIT-Restaurant dataset. | 翻訳日:2023-11-16 16:59:19 公開日:2023-11-15 |
# 配電ネットワーク知識グラフを指向した配電スケジューリングにおけるテキストエンティティリンクの方法 Method for Text Entity Linking in Power Distribution Scheduling Oriented to Power Distribution Network Knowledge Graph ( http://arxiv.org/abs/2311.08724v1 ) ライセンス: Link先を確認 | Xiang Li, Che Wang, Bing Li, Hao Chen, Sizhe Li | (参考訳) 配電系統におけるエンティティを配電系統の知識グラフにリンクする手法は,これらのネットワークの深い理解に基づいて提案される。
本手法は,電力分配ネットワークの知識グラフとディスパッチテキストの両方において,その意味的,音声的,統語的特徴に着目したエンティティの特徴を利用する。
拡張モデルである語彙意味的特徴に基づくスキップ畳み込みニューラルネットワーク(lsf-scnn)を用いて、知識グラフ内のテキストエンティティを効果的にマッチングする。
本モデルの有効性を制御モデルと比較し,実世界の配電シナリオにおけるクロスバリデーション手法を用いて評価した。
その結果, LSF-SCNNモデルでは, 様々なエンティティタイプを正確にリンクし, プロセスが英語で実行されると, エンティティリンクの精度が高くなることがわかった。 The proposed method for linking entities in power distribution dispatch texts to a power distribution network knowledge graph is based on a deep understanding of these networks. This method leverages the unique features of entities in both the power distribution network's knowledge graph and the dispatch texts, focusing on their semantic, phonetic, and syntactic characteristics. An enhanced model, the Lexical Semantic Feature-based Skip Convolutional Neural Network (LSF-SCNN), is utilized for effectively matching dispatch text entities with those in the knowledge graph. The efficacy of this model, compared to a control model, is evaluated through cross-validation methods in real-world power distribution dispatch scenarios. The results indicate that the LSF-SCNN model excels in accurately linking a variety of entity types, demonstrating high overall accuracy in entity linking when the process is conducted in English. | 翻訳日:2023-11-16 16:58:58 公開日:2023-11-15 |
# LLM生成テキストの同定に必須な分類としてのトークン予測 Token Prediction as Implicit Classification to Identify LLM-Generated Text ( http://arxiv.org/abs/2311.08723v1 ) ライセンス: Link先を確認 | Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Raj | (参考訳) 本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、次のトーケン予測タスクとして分類タスクを再構成し、ベースLMを直接微調整して実行します。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
我々は、隠れた状態を分類に利用するより直接的なアプローチと比較した。
評価は,テキスト分類タスクにおいて,その単純さと効率性を強調した例外的な性能を示す。
さらに,本モデルにより抽出された特徴の解釈可能性研究により,明示的分類器が存在しない場合でも,様々な LLM の異なる書体スタイルを区別する能力を明らかにした。
また, GPT3.5, PaLM, LLaMA, GPT2など, 人およびLLMの約340kテキストサンプルを含むOpenLLMTextというデータセットも収集した。 This paper introduces a novel approach for identifying the possible large language models (LLMs) involved in text generation. Instead of adding an additional classification layer to a base LM, we reframe the classification task as a next-token prediction task and directly fine-tune the base LM to perform it. We utilize the Text-to-Text Transfer Transformer (T5) model as the backbone for our experiments. We compared our approach to the more direct approach of utilizing hidden states for classification. Evaluation shows the exceptional performance of our method in the text classification task, highlighting its simplicity and efficiency. Furthermore, interpretability studies on the features extracted by our model reveal its ability to differentiate distinctive writing styles among various LLMs even in the absence of an explicit classifier. We also collected a dataset named OpenLLMText, containing approximately 340k text samples from human and LLMs, including GPT3.5, PaLM, LLaMA, and GPT2. | 翻訳日:2023-11-16 16:58:35 公開日:2023-11-15 |
# think-in-memory: 長期記憶を持つllmの実現とリコール Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory ( http://arxiv.org/abs/2311.08719v1 ) ライセンス: Link先を確認 | Lei Liu and Xiaoyan Yang and Yue Shen and Binbin Hu and Zhiqiang Zhang and Jinjie Gu and Guannan Zhang | (参考訳) memory-augmented large language model (llms) は、人間と機械の長期的な相互作用において顕著な性能を示している。
しかし、このような繰り返しリコール・推論のステップは、異なる質問に対して同じ歴史を思い出す際に矛盾する推論結果である「textit{i.e.}」というバイアスのある思考を容易に生成する。
逆に、人間は思考を記憶に残し、繰り返し推論することなく記憶を思い出すことができる。
この人間の能力に感化されて,LLMが会話ストリームに沿って歴史的思考を記憶するための進化したメモリを維持できる,TiM(Think-in-Memory)と呼ばれる新しいメモリ機構を提案する。
TiMフレームワークは、(1)応答を生成する前に、LCMエージェントがメモリから関連する思考をリコールし、(2)応答を生成した後、LSMエージェントは、履歴と新しい思考の両方をポスト思考し、メモリを更新する。
このため、TiMはポスト思考を歴史として保存することで、繰り返し推論の問題を取り除くことができる。
さらに、確立された操作 (\textit{i.e.}, insert, forget, and merge operations) に基づいて思考をメモリに整理する基本的な原則を定式化し、思考の動的更新と進化を可能にする。
さらに,TiMに局所感性ハッシュを導入し,長期会話の効率的な検索を実現する。
我々は,TiMで既存のLLMを組み込むことで,長時間の対話に応答する際の性能が著しく向上することが実証された,多種多様な話題をカバーした実世界の対話とシミュレーション対話の質的定量的実験を行った。 Memory-augmented Large Language Models (LLMs) have demonstrated remarkable performance in long-term human-machine interactions, which basically relies on iterative recalling and reasoning of history to generate high-quality responses. However, such repeated recall-reason steps easily produce biased thoughts, \textit{i.e.}, inconsistent reasoning results when recalling the same history for different questions. On the contrary, humans can keep thoughts in the memory and recall them without repeated reasoning. Motivated by this human capability, we propose a novel memory mechanism called TiM (Think-in-Memory) that enables LLMs to maintain an evolved memory for storing historical thoughts along the conversation stream. The TiM framework consists of two crucial stages: (1) before generating a response, a LLM agent recalls relevant thoughts from memory, and (2) after generating a response, the LLM agent post-thinks and incorporates both historical and new thoughts to update the memory. Thus, TiM can eliminate the issue of repeated reasoning by saving the post-thinking thoughts as the history. Besides, we formulate the basic principles to organize the thoughts in memory based on the well-established operations, (\textit{i.e.}, insert, forget, and merge operations), allowing for dynamic updates and evolution of the thoughts. Furthermore, we introduce Locality-Sensitive Hashing into TiM to achieve efficient retrieval for the long-term conversations. We conduct qualitative and quantitative experiments on real-world and simulated dialogues covering a wide range of topics, demonstrating that equipping existing LLMs with TiM significantly enhances their performance in generating responses for long-term interactions. | 翻訳日:2023-11-16 16:58:11 公開日:2023-11-15 |
# 入力の明確化による大規模言語モデルの不確かさの解消 Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling ( http://arxiv.org/abs/2311.08718v1 ) ライセンス: Link先を確認 | Bairu Hou, Yujian Liu, Kaizhi Qian, Jacob Andreas, Shiyu Chang, Yang Zhang | (参考訳) 不確実性分解とは、モデルの全不確実性をデータ(アーキテクチャ)の不確実性(データ固有の複雑さまたは曖昧さ)とモデル(エピステミック)の不確実性(モデル内の知識の欠如)に分解するタスクを指す。
大規模言語モデル(LLM)における不確実性分解の実現は, LLMの信頼性, 信頼性, 解釈可能性の向上に向けた重要なステップであるが, この研究課題は非常に困難であり, 未解決のままである。
既存の標準的手法であるベイズニューラルネットワーク(bnn)は、複数のモデルのトレーニングとセンスを必要とするため、llmには適用できない。
本稿では,新たなモデルの学習の必要性を回避し,入力明確化アンサンブルと呼ばれるLCMの不確実性分解フレームワークを提案する。
異なるパラメータを持つモデルをセンセンシングするのではなく、入力の一連の明確化を生成し、固定されたllmに入力し、対応する予測をアンサンブルする。
我々のフレームワークはbnnと対称分解構造を共有している。
実証的評価により,提案手法が様々なタスクに対する正確で信頼性の高い不確実性定量化をもたらすことが示された。
コードはhttps://github.com/UCSB-NLP-Chang/llm_uncertaintyで公開される。 Uncertainty decomposition refers to the task of decomposing the total uncertainty of a model into data (aleatoric) uncertainty, resulting from the inherent complexity or ambiguity of the data, and model (epistemic) uncertainty, resulting from the lack of knowledge in the model. Performing uncertainty decomposition for large language models (LLMs) is an important step toward improving the reliability, trustworthiness, and interpretability of LLMs, but this research task is very challenging and remains unresolved. The existing canonical method, Bayesian Neural Network (BNN), cannot be applied to LLMs, because BNN requires training and ensembling multiple variants of models, which is infeasible or prohibitively expensive for LLMs. In this paper, we introduce an uncertainty decomposition framework for LLMs, called input clarifications ensemble, which bypasses the need to train new models. Rather than ensembling models with different parameters, our approach generates a set of clarifications for the input, feeds them into the fixed LLMs, and ensembles the corresponding predictions. We show that our framework shares a symmetric decomposition structure with BNN. Empirical evaluations demonstrate that the proposed framework provides accurate and reliable uncertainty quantification on various tasks. Code will be made publicly available at https://github.com/UCSB-NLP-Chang/llm_uncertainty . | 翻訳日:2023-11-16 16:57:39 公開日:2023-11-15 |
# 入力画像サイズと出力カテゴリ数が異なるクライアントのためのスケーラブルなフェデレーション学習 Scalable Federated Learning for Clients with Different Input Image Sizes and Numbers of Output Categories ( http://arxiv.org/abs/2311.08716v1 ) ライセンス: Link先を確認 | Shuhei Nitta, Taiji Suzuki, Albert Rodr\'iguez Mulet, Atsushi Yaguchi and Ryusuke Hirai | (参考訳) フェデレートラーニング(Federated Learning)とは、複数のクライアントからトレーニングを受けるが、機密データを共有しないプライバシー保護トレーニング手法である。
しかし、フェデレーション学習に関する以前の研究は、入力画像のサイズや出力カテゴリの異なるクライアントに適したニューラルネットワークアーキテクチャを探求していない。
本稿では,クライアントの入力画像サイズと出力カテゴリの数に応じて,クライアント毎の局所モデルの深さと幅を調整した, scalablefl という効果的なフェデレーション学習手法を提案する。
さらに,連合学習の一般化ギャップに対する新たな境界を提案する。
特に、この境界は、スケーラブルなニューラルネットワークアプローチの有効性を説明するのに役立ちます。
画像分類とオブジェクト検出の両タスクにおいて,複数の異種クライアント設定において ScalableFL の有効性を示す。 Federated learning is a privacy-preserving training method which consists of training from a plurality of clients but without sharing their confidential data. However, previous work on federated learning do not explore suitable neural network architectures for clients with different input images sizes and different numbers of output categories. In this paper, we propose an effective federated learning method named ScalableFL, where the depths and widths of the local models for each client are adjusted according to the clients' input image size and the numbers of output categories. In addition, we provide a new bound for the generalization gap of federated learning. In particular, this bound helps to explain the effectiveness of our scalable neural network approach. We demonstrate the effectiveness of ScalableFL in several heterogeneous client settings for both image classification and object detection tasks. | 翻訳日:2023-11-16 16:57:15 公開日:2023-11-15 |
# German FinBERT: ドイツの事前訓練型言語モデル German FinBERT: A German Pre-trained Language Model ( http://arxiv.org/abs/2311.08793v1 ) ライセンス: Link先を確認 | Moritz Scherrmann | (参考訳) 本研究は,財務テキストデータに適したドイツ語モデルである German FinBERT を提示する。
このモデルは、総合的な事前トレーニングプロセスを通じてトレーニングされ、財務報告、アドホックな発表、ドイツの企業に関するニュースを含む実質的なコーパスを活用する。
コーパスサイズは、標準的なBERTモデルのトレーニングに一般的に使用されるデータセットに匹敵する。
ダウンストリームタスク,特に感情予測,話題認識,および一般的なドイツ語モデルに対する質問応答におけるドイツ語FinBERTの性能を評価する。
以上の結果から,金融特化データの性能が向上し,ドイツフィンベルトがドメイン特化ニュアンスを捕捉する効果が示された。
以上の結果から,ドイツFinBERTは財務テキスト分析の有用なツールとして有望であり,金融分野における様々な応用に有用である可能性が示唆された。 This study presents German FinBERT, a novel pre-trained German language model tailored for financial textual data. The model is trained through a comprehensive pre-training process, leveraging a substantial corpus comprising financial reports, ad-hoc announcements and news related to German companies. The corpus size is comparable to the data sets commonly used for training standard BERT models. I evaluate the performance of German FinBERT on downstream tasks, specifically sentiment prediction, topic recognition and question answering against generic German language models. My results demonstrate improved performance on finance-specific data, indicating the efficacy of German FinBERT in capturing domain-specific nuances. The presented findings suggest that German FinBERT holds promise as a valuable tool for financial text analysis, potentially benefiting various applications in the financial domain. | 翻訳日:2023-11-16 16:49:54 公開日:2023-11-15 |
# x-eval:補助評価を考慮した拡張命令チューニングによる一般化マルチスペクトルテキスト評価 X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects ( http://arxiv.org/abs/2311.08788v1 ) ライセンス: Link先を確認 | Minqian Liu, Ying Shen, Zhiyang Xu, Yixin Cao, Eunah Cho, Vaibhav Kumar, Reza Ghanadan, Lifu Huang | (参考訳) 自然言語生成(NLG)は通常、様々な側面(例えば一貫性と自然性)で生成されたテキストを評価し、包括的な評価を得る。
しかし、訓練中に欠席している場合でも、評価者が任意の評価面に一般化する必要があるため、マルチアスペクト評価は依然として困難である。
本稿では,エンドユーザーがカスタマイズした2段階のインストラクション・チューニング・フレームワークであるX-Evalを紹介する。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
X-Evalのトレーニングを支援するために,65のタスクで27の異なる評価側面にまたがるマルチアスペクトNLG評価に適した,最初のインストラクションチューニングデータセットであるAspectInstructを収集した。
タスクの多様性を高めるため,評価アノテーションをスコアリング,比較,ランキング,ブール質問応答など,多種多様なNLG評価タスクに変換する拡張戦略を考案した。
NLGタスクの3つの重要なカテゴリ(対話生成、要約、データ・トゥ・テキスト)にメタ評価の21の側面が組み合わさった実験により、我々のX-Evalは、GPT-4のような最先端のNLG評価器と比較して、人間の判断に匹敵する相関性のない軽量言語モデルでも達成できることを示した。 Natural Language Generation (NLG) typically involves evaluating the generated text in various aspects (e.g., consistency and naturalness) to obtain a comprehensive assessment. However, multi-aspect evaluation remains challenging as it may require the evaluator to generalize to any given evaluation aspect even if it's absent during training. In this paper, we introduce X-Eval, a two-stage instruction tuning framework to evaluate the text in both seen and unseen aspects customized by end users. X-Eval consists of two learning stages: the vanilla instruction tuning stage that improves the model's ability to follow evaluation instructions, and an enhanced instruction tuning stage that exploits the connections between fine-grained evaluation aspects to better assess text quality. To support the training of X-Eval, we collect AspectInstruct, the first instruction tuning dataset tailored for multi-aspect NLG evaluation spanning 27 diverse evaluation aspects with 65 tasks. To enhance task diversity, we devise an augmentation strategy that converts human rating annotations into diverse forms of NLG evaluation tasks, including scoring, comparison, ranking, and Boolean question answering. Extensive experiments across three essential categories of NLG tasks: dialogue generation, summarization, and data-to-text coupled with 21 aspects in meta-evaluation, demonstrate that our X-Eval enables even a lightweight language model to achieve a comparable if not higher correlation with human judgments compared to the state-of-the-art NLG evaluators, such as GPT-4. | 翻訳日:2023-11-16 16:49:39 公開日:2023-11-15 |
# HFORD: 顔のプライバシー保護のための高忠実性と排他的不正識別 HFORD: High-Fidelity and Occlusion-Robust De-identification for Face Privacy Protection ( http://arxiv.org/abs/2311.08786v1 ) ライセンス: Link先を確認 | Dongxin Chen, Mingrui Zhu, Nannan Wang, Xinbo Gao | (参考訳) スマートデバイスの人気とコンピュータビジョン技術の発展により、顔のプライバシー保護に対する懸念が高まっている。
顔識別技術は、識別保護問題を解決するための実用的な方法である。
既存の顔不特定化手法では, 咬合を受けた場合の匿名化結果のリアリズムへの影響や, 匿名化結果における身元不明な詳細保持能力の欠如など, 様々な問題点が指摘されている。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
このアプローチは、背景、顔の特徴(例えば、しわ)、照明などの画像固有の詳細を保持しながら、身元や属性を分離することができる。
GAN逆転空間の潜伏符号をアンタングル化するため、IDM(ID Disentanglement Module)を導入する。
このモジュールは、アイデンティティに密接に関連する潜在コードを選択する。
さらに、潜伏したコードはアイデンティティ関連コードと属性関連コードに分離し、ネットワークが属性を保存でき、IDを変更するだけでよい。
画像の保存を確実にし,ネットワークの閉塞に対する堅牢性を高めるために,属性保持モジュール(ARM)を提案する。
このモジュールは、アイデンティティ非関連の詳細と顔の閉塞を適応的に保存し、それらが生成された結果に変調された方法でブレンドする。
広範な実験により,本手法は他の顔識別法よりも高い品質,精細度,強い咬合頑健性を示した。 With the popularity of smart devices and the development of computer vision technology, concerns about face privacy protection are growing. The face de-identification technique is a practical way to solve the identity protection problem. The existing facial de-identification methods have revealed several problems, including the impact on the realism of anonymized results when faced with occlusions and the inability to maintain identity-irrelevant details in anonymized results. We present a High-Fidelity and Occlusion-Robust De-identification (HFORD) method to deal with these issues. This approach can disentangle identities and attributes while preserving image-specific details such as background, facial features (e.g., wrinkles), and lighting, even in occluded scenes. To disentangle the latent codes in the GAN inversion space, we introduce an Identity Disentanglement Module (IDM). This module selects the latent codes that are closely related to the identity. It further separates the latent codes into identity-related codes and attribute-related codes, enabling the network to preserve attributes while only modifying the identity. To ensure the preservation of image details and enhance the network's robustness to occlusions, we propose an Attribute Retention Module (ARM). This module adaptively preserves identity-irrelevant details and facial occlusions and blends them into the generated results in a modulated manner. Extensive experiments show that our method has higher quality, better detail fidelity, and stronger occlusion robustness than other face de-identification methods. | 翻訳日:2023-11-16 16:49:07 公開日:2023-11-15 |
# ICRA Roboethics Challenge 2023 : 高齢者ホームにおける知的不服従 ICRA Roboethics Challenge 2023: Intelligent Disobedience in an Elderly Care Home ( http://arxiv.org/abs/2311.08783v1 ) ライセンス: Link先を確認 | Sveta Paster, Kantwon Rogers, Gordon Briggs, Peter Stone, Reuth Mirsky | (参考訳) 高齢者の急増が予想される中、サービスロボットは高齢者ホームでの幸福感を高めるための有望な道を提供する。
このようなロボットは複雑なシナリオに遭遇し、倫理的な結果で決定を下す必要がある。
本稿では,知的不服従の枠組みを活用して,倫理的意味のある決定に対して,ロボットに検討プロセスを実行する能力を与えることを提案する。
我々は、このフレームワークが支援できる課題をリストアップし、特定の高齢者ホームシナリオの文脈で正式に定義し、知的に不服従なロボットを実装するための要件を記述した。
本報告は,今後の課題に対する批判的分析と提案とともに結論づける。 With the projected surge in the elderly population, service robots offer a promising avenue to enhance their well-being in elderly care homes. Such robots will encounter complex scenarios which will require them to perform decisions with ethical consequences. In this report, we propose to leverage the Intelligent Disobedience framework in order to give the robot the ability to perform a deliberation process over decisions with potential ethical implications. We list the issues that this framework can assist with, define it formally in the context of the specific elderly care home scenario, and delineate the requirements for implementing an intelligently disobeying robot. We conclude this report with some critical analysis and suggestions for future work. | 翻訳日:2023-11-16 16:48:40 公開日:2023-11-15 |
# 言語意味グラフ誘導データ効率学習 Language Semantic Graph Guided Data-Efficient Learning ( http://arxiv.org/abs/2311.08782v1 ) ライセンス: Link先を確認 | Wenxuan Ma and Shuang Li and Lincan Cai and Jingxuan Kang | (参考訳) 限られたデータから効果的に学習し、人間の監督への依存を最小限に抑えた一般化可能なモデルを開発することは、機械学習コミュニティ、特にディープニューラルネットワークの時代において重要な目標である。
したがって、データ効率の学習を実現するため、研究者は通常、セミスーパービジョンラーニング(SSL)、トランスファーラーニング(TL)、データ拡張(DA)といった追加のマニュアルラベリング作業を必要とせずに、関連データやラベルなしデータを活用できるアプローチを模索する。
SSLはトレーニングプロセスでラベルのないデータを活用するが、TLは関連するデータディストリビューションからの専門知識の転送を可能にする。
DAは既存の例から新しいデータを合成することでデータセットを広げる。
しかし、ラベルに含まれる追加の知識の重要性は、主に研究で見過ごされている。
本稿では,利用可能なデータのラベルに含まれる意味情報を活用し,データ効率に関する新たな視点を提案する。
具体的には,ラベルを自然言語記述として表現した言語意味グラフ(lsg)を提案する。
このグラフでは、補助グラフニューラルネットワークを訓練して、高レベルの意味関係を抽出し、プライマリモデルのトレーニングをガイドし、ラベル知識をより適切に活用できるようにする。
画像, ビデオ, オーディオのモダリティ全体にわたって, LSG法をTLとSSLの両方のシナリオで使用し, その他のデータ効率の学習手法と比較して, 性能の大幅な向上を図っている。
さらに,本研究では,lsg法がトレーニングプロセスを高速化することを示す。 Developing generalizable models that can effectively learn from limited data and with minimal reliance on human supervision is a significant objective within the machine learning community, particularly in the era of deep neural networks. Therefore, to achieve data-efficient learning, researchers typically explore approaches that can leverage more related or unlabeled data without necessitating additional manual labeling efforts, such as Semi-Supervised Learning (SSL), Transfer Learning (TL), and Data Augmentation (DA). SSL leverages unlabeled data in the training process, while TL enables the transfer of expertise from related data distributions. DA broadens the dataset by synthesizing new data from existing examples. However, the significance of additional knowledge contained within labels has been largely overlooked in research. In this paper, we propose a novel perspective on data efficiency that involves exploiting the semantic information contained in the labels of the available data. Specifically, we introduce a Language Semantic Graph (LSG) which is constructed from labels manifest as natural language descriptions. Upon this graph, an auxiliary graph neural network is trained to extract high-level semantic relations and then used to guide the training of the primary model, enabling more adequate utilization of label knowledge. Across image, video, and audio modalities, we utilize the LSG method in both TL and SSL scenarios and illustrate its versatility in significantly enhancing performance compared to other data-efficient learning approaches. Additionally, our in-depth analysis shows that the LSG method also expedites the training process. | 翻訳日:2023-11-16 16:48:27 公開日:2023-11-15 |
# gitor: グローバルサンプル構築によるスケーラブルなコードクローン検出 Gitor: Scalable Code Clone Detection by Building Global Sample ( http://arxiv.org/abs/2311.08778v1 ) ライセンス: Link先を確認 | Junjie Shan, Shihan Dou, Yueming Wu, Hairu Wu, Yang Liu | (参考訳) コードのクローン検出は、同様のコードフラグメントを見つけることであり、ソフトウェアメンテナンスと進化にとって重要であるため、ソフトウェア工学において多くの注目を集めている。
研究者は、ソースコードクローン検出のための多くの技術やツールを提案しているが、現在の検出方法は、コードサンプル間の基盤となる接続を探索することなく、コードサンプルを個別に分析または処理することに集中している。
本稿では、異なるコードサンプル間の基盤となる接続をキャプチャするgitorを提案する。
具体的には、ソースコードデータベースが与えられた場合、事前に定義された個々の情報を抽出するために、まずすべてのコードサンプルをトークン化する。
すべてのサンプル情報を収集した後、それらを利用して、各ノードがコードサンプルまたは個々の情報のタイプである大規模なグローバルなサンプルグラフを構築する。
次に,グローバルなサンプルグラフ上にノード埋め込み手法を適用し,すべてのサンプルベクトル表現を抽出する。
すべてのコードサンプルベクトルを収集した後、任意の2つのサンプル間の類似性を比較してクローンペアを検出する。
さらに重要なのは、得られたサンプルベクトルはグローバルなサンプルグラフから得られるため、コードクローン検出性能を改善するために、コード機能と組み合わせることができます。
Gitorの有効性を実証するため、広く使われているBigCloneBenchというデータセットで評価した。
実験の結果,Gitorはコードクローン検出の精度が高く,既存の最先端ツールと比較して,さまざまなサイズの入力の実行時間に優れていた。
さらに、Gitorと従来のベクトルベースのクローン検出手法の組み合わせを評価し、その結果、Gitorを使うことで、より高いF1でより多くのコードクローンを検出できることがわかった。 Code clone detection is about finding out similar code fragments, which has drawn much attention in software engineering since it is important for software maintenance and evolution. Researchers have proposed many techniques and tools for source code clone detection, but current detection methods concentrate on analyzing or processing code samples individually without exploring the underlying connections among code samples. In this paper, we propose Gitor to capture the underlying connections among different code samples. Specifically, given a source code database, we first tokenize all code samples to extract the pre-defined individual information. After obtaining all samples individual information, we leverage them to build a large global sample graph where each node is a code sample or a type of individual information. Then we apply a node embedding technique on the global sample graph to extract all the samples vector representations. After collecting all code samples vectors, we can simply compare the similarity between any two samples to detect possible clone pairs. More importantly, since the obtained vector of a sample is from a global sample graph, we can combine it with its own code features to improve the code clone detection performance. To demonstrate the effectiveness of Gitor, we evaluate it on a widely used dataset namely BigCloneBench. Our experimental results show that Gitor has higher accuracy in terms of code clone detection and excellent execution time for inputs of various sizes compared to existing state-of-the-art tools. Moreover, we also evaluate the combination of Gitor with other traditional vector-based clone detection methods, the results show that the use of Gitor enables them detect more code clones with higher F1. | 翻訳日:2023-11-16 16:48:00 公開日:2023-11-15 |
# Nuclei Segmentation のための2段階共同学習と誘導学習 Two-stage Joint Transductive and Inductive learning for Nuclei Segmentation ( http://arxiv.org/abs/2311.08774v1 ) ライセンス: Link先を確認 | Hesham Ali, Idriss Tondji, Mennatullah Siam | (参考訳) 病理組織像におけるAIによる核分割は、癌疾患の診断と治療において重要な課題である。
手動による顕微鏡組織像のスクリーニングに必要な時間を短縮し、診断中の病理医間の衝突を解決することができる。
ディープラーニングはそのようなタスクで有効であることが証明されている。
しかし、ラベル付きデータの欠如は、ディープラーニングベースのアプローチにとって重要な障壁である。
本研究では, 利用可能なラベル付きおよび非ラベル付きデータを活用する, 核セグメンテーションへの新しいアプローチを提案する。
提案手法は,従来個別に試みてきたトランスダクティブ学習とインダクティブ学習の両方の強みを1つの枠組みに統合するものである。
インダクティブ・ラーニングは、一般関数を近似し、未発見のテストデータに一般化することを目的としているが、トランスダクティブ・ラーニングは、ラベルなしのテストデータを利用して分類を改善する可能性を秘めている。
本研究は, 医用画像セグメンテーションのためのハイブリッドアプローチを提案する最初の研究である。
さらに, 新たな2段階トランスダクティブ推論スキームを提案する。
提案手法の有効性と可能性を実証するために,MoNuSegベンチマークに対するアプローチを評価した。 AI-assisted nuclei segmentation in histopathological images is a crucial task in the diagnosis and treatment of cancer diseases. It decreases the time required to manually screen microscopic tissue images and can resolve the conflict between pathologists during diagnosis. Deep Learning has proven useful in such a task. However, lack of labeled data is a significant barrier for deep learning-based approaches. In this study, we propose a novel approach to nuclei segmentation that leverages the available labelled and unlabelled data. The proposed method combines the strengths of both transductive and inductive learning, which have been previously attempted separately, into a single framework. Inductive learning aims at approximating the general function and generalizing to unseen test data, while transductive learning has the potential of leveraging the unlabelled test data to improve the classification. To the best of our knowledge, this is the first study to propose such a hybrid approach for medical image segmentation. Moreover, we propose a novel two-stage transductive inference scheme. We evaluate our approach on MoNuSeg benchmark to demonstrate the efficacy and potential of our method. | 翻訳日:2023-11-16 16:47:32 公開日:2023-11-15 |
# adf: 広告によるwebフィンガープリントの新しい測定システム adF: A Novel System for Measuring Web Fingerprinting through Ads ( http://arxiv.org/abs/2311.08769v1 ) ライセンス: Link先を確認 | Miguel A. Bermejo-Agueda (1), Patricia Callejo (1 and 2), Rub\'en Cuevas (1 and 2), \'Angel Cuevas (1 and 2) ((1) Universidad Carlos III de Madrid, (2) uc3m-Santander Big Data Institute) | (参考訳) 本稿では,異なるデバイス,オペレーティングシステム(OS),ブラウザのWebフィンガープリントに対する脆弱性を解析する新しいシステムであるadFを紹介する。
adFは広告に挿入されたコードから測定を行う。
われわれはこのシステムを5億4000万回の広告インプレッションを配信する広告キャンペーンで利用してきた。
収集したデータにより、現在のデスクトップとモバイルデバイスの脆弱性をWebフィンガープリントで評価することができます。
以上の結果から,デスクトップ端末の64%,モバイルデバイスの40%がWeb指紋認証システムで一意に指紋認証を行うことができると推定した。
しかし、Webフィンガープリントに対するレジリエンスはブラウザやデバイスタイプによって大きく異なり、デスクトップ上のChromeは最も脆弱な設定である。 This paper introduces adF, a novel system for analyzing the vulnerability of different devices, Operating Systems (OSes), and browsers to web fingerprinting. adF performs its measurements from code inserted in ads. We have used our system in several ad campaigns that delivered 5,40 million ad impressions. The collected data enable us to assess the vulnerability of current desktop and mobile devices to web fingerprinting. Based on our results, we estimate that 64% of desktop devices and 40% of mobile devices can be uniquely fingerprinted with our web fingerprinting system. However, the resilience to web fingerprinting varies significantly across browsers and device types, with Chrome on desktops being the most vulnerable configuration. | 翻訳日:2023-11-16 16:47:14 公開日:2023-11-15 |
# 予期せぬ3つの概念 Three Conjectures on Unexpectedeness ( http://arxiv.org/abs/2311.08768v1 ) ライセンス: Link先を確認 | Giovanni Sileno, Jean-Louis Dessalles | (参考訳) 予期せぬ性は単純性理論の中心的な概念であり、様々な推論過程とコルモゴロフ複数体の計算を確率よりも関連づけた認知理論である。
その予測力は、人間の被験者によるいくつかの実験によって確認されているが、理論上の基礎はほとんど解明されていない。
本稿では,3つの理論予想の土台となる。
まず、予期せぬことはベイズの規則の一般化と見なすことができる。
第2に、予期せぬ頻繁なコアは、世界のエルゴード的特性を追跡する機能に関連付けられる。
第三に、予期せぬことは、世界のエントロピー(環境)と観測者の多様性(システム)の間の様々なばらつきの尺度を構成するものと見なすことができる。
結果として得られた枠組みは、確率的アプローチと論理的アプローチの区分を超えた研究方向を示唆し、因果関係の抽出や学習における記述的メカニズムの役割に新たな洞察をもたらす可能性がある。 Unexpectedness is a central concept in Simplicity Theory, a theory of cognition relating various inferential processes to the computation of Kolmogorov complexities, rather than probabilities. Its predictive power has been confirmed by several experiments with human subjects, yet its theoretical basis remains largely unexplored: why does it work? This paper lays the groundwork for three theoretical conjectures. First, unexpectedness can be seen as a generalization of Bayes' rule. Second, the frequentist core of unexpectedness can be connected to the function of tracking ergodic properties of the world. Third, unexpectedness can be seen as constituent of various measures of divergence between the entropy of the world (environment) and the variety of the observer (system). The resulting framework hints to research directions that go beyond the division between probabilistic and logical approaches, potentially bringing new insights into the extraction of causal relations, and into the role of descriptive mechanisms in learning. | 翻訳日:2023-11-16 16:47:02 公開日:2023-11-15 |
# 過去、現在、未来を組み合わせる:授業インクリメンタル学習のための自己教師付きアプローチ Combining Past, Present and Future: A Self-Supervised Approach for Class Incremental Learning ( http://arxiv.org/abs/2311.08764v1 ) ライセンス: Link先を確認 | Xiaoshuang Chen, Zhongyi Sun, Ke Yan, Shouhong Ding, Hongtao Lu | (参考訳) クラスインクリメンタル学習(cil)は、新しいクラスのデータが継続的に連続的に発生するシナリオを扱うことを目的としている。
モデルは、破滅的な忘れを緩和しながら、シーケンシャルな新しいクラスを認識するべきである。
自己監督的な方法では、新しいクラスの特徴埋め込み空間と、クラスラベルなしで古いものとの衝突を避けることがより困難になる。
そこで本研究では,過去,現在,未来を組み合わせた自己管理型CILフレームワークCPPFを提案する。
詳しくは、CPPFは、プロトタイプのクラスタリングモジュール(PC)、埋め込みスペース保存モジュール(ESR)、マルチ教師蒸留モジュール(MTD)から構成される。
1)PCとESRモジュールはそれぞれプロトタイプレベルと特徴レベルにおける後続フェーズの埋め込みスペースを予備し,将来学習される知識に備えた。
2)MTDモジュールは過去の知識の干渉なしに現在のフェーズの表現を維持する。
教師ネットワークの1つは過去のフェーズの表現を保持し、もう1つの教師ネットワークは、現在のフェーズと学生ネットワークの関係情報を蒸留する。
cifar100とimagenet100データセットに関する広範囲な実験により,提案手法が自己教師付きクラスインクリメンタル学習の性能を高めることを実証した。
近い将来、コードをリリースします。 Class Incremental Learning (CIL) aims to handle the scenario where data of novel classes occur continuously and sequentially. The model should recognize the sequential novel classes while alleviating the catastrophic forgetting. In the self-supervised manner, it becomes more challenging to avoid the conflict between the feature embedding spaces of novel classes and old ones without any class labels. To address the problem, we propose a self-supervised CIL framework CPPF, meaning Combining Past, Present and Future. In detail, CPPF consists of a prototype clustering module (PC), an embedding space reserving module (ESR) and a multi-teacher distillation module (MTD). 1) The PC and the ESR modules reserve embedding space for subsequent phases at the prototype level and the feature level respectively to prepare for knowledge learned in the future. 2) The MTD module maintains the representations of the current phase without the interference of past knowledge. One of the teacher networks retains the representations of the past phases, and the other teacher network distills relation information of the current phase to the student network. Extensive experiments on CIFAR100 and ImageNet100 datasets demonstrate that our proposed method boosts the performance of self-supervised class incremental learning. We will release code in the near future. | 翻訳日:2023-11-16 16:46:45 公開日:2023-11-15 |
# XAI-Explanationsの理解形態 Forms of Understanding of XAI-Explanations ( http://arxiv.org/abs/2311.08760v1 ) ライセンス: Link先を確認 | Hendrik Buschmeier, Heike M. Buhl, Friederike Kern, Angela Grimminger, Helen Beierling, Josephine Fisher, Andr\'e Gro{\ss}, Ilona Horwath, Nils Klowait, Stefan Lazarov, Michael Lenke, Vivien Lohmer, Katharina Rohlfing, Ingrid Scharlau, Amit Singh, Lutz Terfloth, Anna-Lisa Vollmer, Yu Wang, Annedore Wilmes, Britta Wrede | (参考訳) 説明可能性(Explainability)は、コンピュータ科学と人工知能において重要なトピックとなり、説明可能な人工知能(XAI)と呼ばれるサブフィールドへとつながった。
説明を提供したり、求めたりする目的は、説明者の部分で「理解」を達成することである。
しかし、「理解」の意味はまだ明確に定義されておらず、概念そのものが科学的調査の対象となることは滅多にない。
この概念的論文は、XAI以降の文脈における理解形態のモデル提示を目的とする。
コンピュータ科学、言語学、社会学、心理学を融合した学際的な視点から、日常的な説明を行う過程における理解とその形態、評価、ダイナミクスの定義を探求する。
2つのタイプの理解は、説明の可能な結果として、すなわち「有効性」、すなわち「方法を知る」、または「それを知る」という2つの方法が考えられる。
説明は、特定のドメインの浅い理解から始まり、説明文の深い理解と有効性につながる可能性がある。
この過程において、理解と有効性の増大は非常に相互依存的である。
この体系化の背景には、XAIにおける理解に関する特別な課題が議論されている。 Explainability has become an important topic in computer science and artificial intelligence, leading to a subfield called Explainable Artificial Intelligence (XAI). The goal of providing or seeking explanations is to achieve (better) 'understanding' on the part of the explainee. However, what it means to 'understand' is still not clearly defined, and the concept itself is rarely the subject of scientific investigation. This conceptual article aims to present a model of forms of understanding in the context of XAI and beyond. From an interdisciplinary perspective bringing together computer science, linguistics, sociology, and psychology, a definition of understanding and its forms, assessment, and dynamics during the process of giving everyday explanations are explored. Two types of understanding are considered as possible outcomes of explanations, namely enabledness, 'knowing how' to do or decide something, and comprehension, 'knowing that' -- both in different degrees (from shallow to deep). Explanations regularly start with shallow understanding in a specific domain and can lead to deep comprehension and enabledness of the explanandum, which we see as a prerequisite for human users to gain agency. In this process, the increase of comprehension and enabledness are highly interdependent. Against the background of this systematization, special challenges of understanding in XAI are discussed. | 翻訳日:2023-11-16 16:46:23 公開日:2023-11-15 |
# 定常時間推定複雑性を持つtoeplitzニューラルネットワークの高速化 Accelerating Toeplitz Neural Network with Constant-time Inference Complexity ( http://arxiv.org/abs/2311.08756v1 ) ライセンス: Link先を確認 | Zhen Qin, Yiran Zhong | (参考訳) Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れている。
一方、状態空間モデル(SSM)は、言語モデリングにおいてTNNよりも低い性能を達成するが、一定の推論複雑性の利点を提供する。
本稿では,tnnをssmに変換することで,tnnとssmsの強みを組み合わせることにより,tnnがssmsと同じ定数推論の複雑さを実現することを目的とする。
これを実現するため、変換プロセスを最適化問題として定式化し、閉形式解を提供する。
本稿では,対象方程式を離散フーリエ変換(DFT)を用いて効率的に解けるVandermonde線形系問題に変換する方法を示す。
特に,本手法ではトレーニングを必要とせず,数値安定性を維持している。
任意のLongConvベースのモデルにも適用可能だ。
その効果を評価するために、様々な設定で言語モデリングタスクを広範囲に実験する。
さらに,本手法を他の勾配差解と比較し,より優れた数値安定性を示す。
ソースコードはhttps://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversionで公開されている。 Toeplitz Neural Networks (TNNs) have exhibited outstanding performance in various sequence modeling tasks. They outperform commonly used Transformer-based models while benefiting from log-linear space-time complexities. On the other hand, State Space Models (SSMs) achieve lower performance than TNNs in language modeling but offer the advantage of constant inference complexity. In this paper, we aim to combine the strengths of TNNs and SSMs by converting TNNs to SSMs during inference, thereby enabling TNNs to achieve the same constant inference complexities as SSMs. To accomplish this, we formulate the conversion process as an optimization problem and provide a closed-form solution. We demonstrate how to transform the target equation into a Vandermonde linear system problem, which can be efficiently solved using the Discrete Fourier Transform (DFT). Notably, our method requires no training and maintains numerical stability. It can be also applied to any LongConv-based model. To assess its effectiveness, we conduct extensive experiments on language modeling tasks across various settings. Additionally, we compare our method to other gradient-descent solutions, highlighting the superior numerical stability of our approach. The source code is available at https://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversion. | 翻訳日:2023-11-16 16:46:00 公開日:2023-11-15 |
# 干渉多重モデルによる環境非依存mm波落下検出 Environment-independent mmWave Fall Detection with Interacting Multiple Model ( http://arxiv.org/abs/2311.08755v1 ) ライセンス: Link先を確認 | Xuyao Yu, Jiazhao Wang and Wenchao Jiang | (参考訳) 高齢化社会は、センシング技術を通じて日常生活の介護に注意を向ける。
スマートホームの将来は、高齢者が非侵襲的で非協力的で非接触的な方法で、転倒検知などの家庭内日々の監視を可能にすることが期待されている。
mmwave radarは、プライバシ保護および非接触方式の有望な候補技術である。
しかしながら、既存のソリューションは、環境に依存する機能のため、精度と堅牢性が低下する。
本稿では,実世界のシナリオにおいて精度と堅牢性を向上した実用的な落下検知レーダであるFADE(\underline{FA}ll \underline{DE}tection)を提案する。
fadeの基盤となるキーイネーブラは、環境に依存しない機能を抽出し、高精度かつ瞬時にフォール検出を行う対話型マルチモデル(imm)状態推定器である。
さらに,環境や人体からの騒音に対処するためのロバストなマルチユーザトラッキングシステムを提案する。
我々は,データフロントエンド,DSP,ARMプロセッサからなる低消費電力・低消費電力システム(SoC)にアルゴリズムをデプロイし,実世界での性能試験を行った。
実験の結果,落下検出の精度は最大95%であることがわかった。 The ageing society brings attention to daily elderly care through sensing technologies. The future smart home is expected to enable in-home daily monitoring, such as fall detection, for seniors in a non-invasive, non-cooperative, and non-contact manner. The mmWave radar is a promising candidate technology for its privacy-preserving and non-contact manner. However, existing solutions suffer from low accuracy and robustness due to environment dependent features. In this paper, we present FADE (\underline{FA}ll \underline{DE}tection), a practical fall detection radar system with enhanced accuracy and robustness in real-world scenarios. The key enabler underlying FADE is an interacting multiple model (IMM) state estimator that can extract environment-independent features for highly accurate and instantaneous fall detection. Furthermore, we proposed a robust multiple-user tracking system to deal with noises from the environment and other human bodies. We deployed our algorithm on low computing power and low power consumption system-on-chip (SoC) composed of data front end, DSP, and ARM processor, and tested its performance in real-world. The experiment shows that the accuracy of fall detection is up to 95\%. | 翻訳日:2023-11-16 16:45:40 公開日:2023-11-15 |
# 赤外線小ターゲット検出用変圧器を用いた高密度ネスト注意ネットワークの改良 Improved Dense Nested Attention Network Based on Transformer for Infrared Small Target Detection ( http://arxiv.org/abs/2311.08747v1 ) ライセンス: Link先を確認 | Chun Bao, Jie Cao, Yaqian Ning, Tianhua Zhao, Zhijun Li, Zechen Wang, Li Zhang, and Qun Hao | (参考訳) ディープラーニングに基づく赤外線小目標検出は、小目標を複雑でダイナミックな背景から分離するユニークな利点を提供する。
しかし、畳み込みニューラルネットワーク(CNN)の深さが増加するにつれて、赤外線小ターゲットの特徴は徐々に弱まる。
そこで本研究では,このトランスフォーマアーキテクチャに基づく高密度ネストアテンションネットワーク (IDNANet) と呼ばれる赤外線小ターゲット検出手法を提案する。
我々は,高密度ネステッドアテンションネットワーク(DNANet)の高密度ネスト構造を保持し,特徴抽出段階においてスウィン変換器を導入し,特徴の連続性を高める。
さらに,acmixアテンション構造を密集したネスト構造に統合し,中間層の特徴を高める。
さらに,重み付きダイス二元クロスエントロピー(wd-bce)損失関数の設計を行い,試料中の前後不均衡の負の影響を緩和した。
さらに、BIT-SIRSTと呼ばれる、赤外線小ターゲット専用のデータセットを開発する。
データセットには、大量の現実世界のターゲットと手動で注釈付けされたラベル、合成データと対応するラベルが含まれている。
提案手法の有効性を,公開データセットを用いた実験により評価した。
他の最先端手法と比較して、我々の手法は検出の確率(P_d)、偽アラーム率(F_a)、および結合の平均交叉(mIoU$)において優れている。
mIoU$はNUDT-SIRSTデータセットで90.89ドル、NUAA-SIRSTデータセットで79.72ドルに達する。 Infrared small target detection based on deep learning offers unique advantages in separating small targets from complex and dynamic backgrounds. However, the features of infrared small targets gradually weaken as the depth of convolutional neural network (CNN) increases. To address this issue, we propose a novel method for detecting infrared small targets called improved dense nested attention network (IDNANet), which is based on the transformer architecture. We preserve the dense nested structure of dense nested attention network (DNANet) and introduce the Swin-transformer during feature extraction stage to enhance the continuity of features. Furthermore, we integrate the ACmix attention structure into the dense nested structure to enhance the features of intermediate layers. Additionally, we design a weighted dice binary cross-entropy (WD-BCE) loss function to mitigate the negative impact of foreground-background imbalance in the samples. Moreover, we develop a dataset specifically for infrared small targets, called BIT-SIRST. The dataset comprises a significant amount of real-world targets and manually annotated labels, as well as synthetic data and corresponding labels. We have evaluated the effectiveness of our method through experiments conducted on public datasets. In comparison to other state-of-the-art methods, our approach outperforms in terms of probability of detection (P_d), false-alarm rate (F_a), and mean intersection of union ($mIoU$). The $mIoU$ reaches 90.89 on the NUDT-SIRST dataset and 79.72 on the NUAA-SIRST dataset. | 翻訳日:2023-11-16 16:45:17 公開日:2023-11-15 |
# スパースディープニューラルネットワークによる統計的学習 Statistical learning by sparse deep neural networks ( http://arxiv.org/abs/2311.08845v1 ) ライセンス: Link先を確認 | Felix Abramovich | (参考訳) 我々は,l_1-regularizationによる経験的リスク最小化に基づくディープニューラルネットワーク推定器を検討する。
回帰と分類(マルチクラスを含む)における過大なリスクについて一般化し、様々な関数クラスの全範囲にわたって、適応的にほぼ最小(ログファクタまで)であることを示す。 We consider a deep neural network estimator based on empirical risk minimization with l_1-regularization. We derive a general bound for its excess risk in regression and classification (including multiclass), and prove that it is adaptively nearly-minimax (up to log-factors) simultaneously across the entire range of various function classes. | 翻訳日:2023-11-16 16:38:42 公開日:2023-11-15 |
# 大規模言語モデルの識別能力 Disinformation Capabilities of Large Language Models ( http://arxiv.org/abs/2311.08838v1 ) ライセンス: Link先を確認 | Ivan Vykopal, Mat\'u\v{s} Pikuliak, Ivan Srba, Robert Moro, Dominik Macko, Maria Bielikova | (参考訳) 自動偽情報生成は、しばしば大きな言語モデル(LLM)のリスクの1つとして挙げられる。
情報空間を偽情報コンテンツで溢れさせる理論的能力は、世界中の民主主義社会に劇的な影響を与える可能性がある。
本稿では,英語で偽ニュース記事を生成するための現世代のllmの誤情報機能に関する包括的研究を行う。
本研究では,20種類の偽情報を用いた10 llmの能力評価を行った。
我々は,LLMのいくつかの側面を評価した:ニュース記事の生成がいかに優れているか,偽情報物語に強く同意するか,反対する傾向があるか,安全警告の発生頻度など。
また,これらの項目をllm生成として検出する検出モデルの能力についても評価した。
LLMは、危険な偽情報の物語に一致する説得力のあるニュース記事を生成することができると結論付けている。 Automated disinformation generation is often listed as one of the risks of large language models (LLMs). The theoretical ability to flood the information space with disinformation content might have dramatic consequences for democratic societies around the world. This paper presents a comprehensive study of the disinformation capabilities of the current generation of LLMs to generate false news articles in English language. In our study, we evaluated the capabilities of 10 LLMs using 20 disinformation narratives. We evaluated several aspects of the LLMs: how well they are at generating news articles, how strongly they tend to agree or disagree with the disinformation narratives, how often they generate safety warnings, etc. We also evaluated the abilities of detection models to detect these articles as LLM-generated. We conclude that LLMs are able to generate convincing news articles that agree with dangerous disinformation narratives. | 翻訳日:2023-11-16 16:38:35 公開日:2023-11-15 |
# ジェンダーニュートラル語の英語翻訳におけるジェンダーバイアスの評価 Evaluating Gender Bias in the Translation of Gender-Neutral Languages into English ( http://arxiv.org/abs/2311.08836v1 ) ライセンス: Link先を確認 | Spencer Rarrick, Ranjita Naik, Sundar Poudel, Vishal Chowdhary | (参考訳) 機械翻訳(mt)は品質と採用率の向上を続けているが、性別バイアスの不用意な持続性は依然として重要な関心事である。
トルコ語のようなジェンダーニュートラル言語から英語のような強くジェンダー化された言語への翻訳におけるジェンダーバイアスに関する多くの研究にもかかわらず、この現象を評価したり緩和戦略を評価するためのベンチマークはない。
このギャップに対処するため、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATE(Rarrick et al., 2023)コーパスの拡張であるGATE X-Eを導入する。
それぞれの翻訳には女性、男性、中立の変種が伴い、性別の解釈が可能である。
4つの言語ペアごとに1250から1850のインスタンスを含むこのデータセットは、幅広い文の長さと領域を持つ自然な文を特徴とし、様々な言語現象に関する翻訳書き換えに挑戦する。
さらに、GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
我々は、ジェンダーデバイアスに関するさらなる研究を促進するために、コントリビューションをオープンソースにしています。 Machine Translation (MT) continues to improve in quality and adoption, yet the inadvertent perpetuation of gender bias remains a significant concern. Despite numerous studies into gender bias in translations from gender-neutral languages such as Turkish into more strongly gendered languages like English, there are no benchmarks for evaluating this phenomenon or for assessing mitigation strategies. To address this gap, we introduce GATE X-E, an extension to the GATE (Rarrick et al., 2023) corpus, that consists of human translations from Turkish, Hungarian, Finnish, and Persian into English. Each translation is accompanied by feminine, masculine, and neutral variants for each possible gender interpretation. The dataset, which contains between 1250 and 1850 instances for each of the four language pairs, features natural sentences with a wide range of sentence lengths and domains, challenging translation rewriters on various linguistic phenomena. Additionally, we present an English gender rewriting solution built on GPT-3.5 Turbo and use GATE X-E to evaluate it. We open source our contributions to encourage further research on gender debiasing. | 翻訳日:2023-11-16 16:38:22 公開日:2023-11-15 |
# 時間的接地のためのビデオ表現学習における相関誘導クエリ依存性の校正 Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding ( http://arxiv.org/abs/2311.08835v1 ) ライセンス: Link先を確認 | WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo | (参考訳) 映像の時間的接地における最近の取り組みは,映像とテキストの問合せ間のモーダリティギャップを克服するために,注意機構を通じて強いクロスモーダルインタラクションを強制する。
しかしながら、以前の作品では、アテンションモジュールのテキストクエリと意味的関連性に関係なく、すべてのビデオクリップを等しく扱っている。
本稿では,クロスモーダル符号化プロセスにおいて,クエリ関連ビデオクリップの手がかりを提供する。
相関誘導型検出トランスー(cg-detr)を用いて,クロスモーダル相互作用の適切なクリップ回りの程度と,その程度を予測に利用する方法について検討した。
まず,ダミートークンを用いた適応型クロスアテンション層を設計する。
テキストクエリによって条件付けられたダミートークンは注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されないようにする。
しかし、すべての単語トークンがビデオクリップに対するテキストクエリの相関を等しく継承しているわけではない。
そこで,ビデオクリップと単語の細粒度相関を推定し,クロスアテンションマップを導出する。
これを実現するために,ハイレベル概念,すなわちモーメントと文レベルの合同埋め込み空間を学習し,クリップワード相関を推定する。
最後に、各ビデオクリップのテキストエンゲージメントの度合いを利用するために、モーメント適応型サリエンシ検出器を使用します。
モーメント検索とハイライト検出の両ベンチマークにおいて,cg-detrの優位性を最先端の結果で検証した。
コードはhttps://github.com/wjun0830/cgdetrで入手できる。 Recent endeavors in video temporal grounding enforce strong cross-modal interactions through attention mechanisms to overcome the modality gap between video and text query. However, previous works treat all video clips equally regardless of their semantic relevance with the text query in attention modules. In this paper, our goal is to provide clues for query-associated video clips within the crossmodal encoding process. With our Correlation-Guided Detection Transformer~(CG-DETR), we explore the appropriate clip-wise degree of cross-modal interactions and how to exploit such degrees for prediction. First, we design an adaptive cross-attention layer with dummy tokens. Dummy tokens conditioned by text query take a portion of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all word tokens equally inherit the text query's correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we use a moment-adaptive saliency detector to exploit each video clip's degrees of text engagement. We validate the superiority of CG-DETR with the state-of-the-art results on various benchmarks for both moment retrieval and highlight detection. Codes are available at https://github.com/wjun0830/CGDETR. | 翻訳日:2023-11-16 16:38:01 公開日:2023-11-15 |
# 車両共有システムにおける最適投資問題に対するA*探索アルゴリズム A* search algorithm for an optimal investment problem in vehicle-sharing systems ( http://arxiv.org/abs/2311.08834v1 ) ライセンス: Link先を確認 | Ba Luat Le, Layla Martin, Emrah Demir, and Duc Minh Vu | (参考訳) 車両共有システムの文脈で発生する最適投資問題について検討する。
駅を建てる場所のセットを考えると、私たちは決める必要があります
一 すべての駅が建設されている目標状態を得るため、建設すべき駅数及び取得すべき車両数
二 一部の駅又は全駅が開業したときのシステムの運用により返却した総利益を最大化するため、取得すべき車両の数及びその割り当て
特定の期間にわたって測定されたオープンステーションの動作に伴う利益性は、オープンステーションの集合に適用される線形最適化問題として表される。
運用資本により、システムの所有者は新たなステーションを開設することができる。
この特性は、新しい駅を開設するために必要な期間に設定依存的な側面を導入し、最適投資問題は、設定依存コストを伴う旅行セールスマン問題(TSP)の変種と見なすことができる。
本稿では,このTSPの特定の変種に対処するA*探索アルゴリズムを提案する。
計算実験では,広く認識されているdijkstraアルゴリズムと比較して,提案アルゴリズムの利点を強調し,a*アルゴリズムおよび近似アルゴリズムの新たな可能性と応用を探求する今後の研究を提案する。 We study an optimal investment problem that arises in the context of the vehicle-sharing system. Given a set of locations to build stations, we need to determine i) the sequence of stations to be built and the number of vehicles to acquire in order to obtain the target state where all stations are built, and ii) the number of vehicles to acquire and their allocation in order to maximize the total profit returned by operating the system when some or all stations are open. The profitability associated with operating open stations, measured over a specific time period, is represented as a linear optimization problem applied to a collection of open stations. With operating capital, the owner of the system can open new stations. This property introduces a set-dependent aspect to the duration required for opening a new station, and the optimal investment problem can be viewed as a variant of the Traveling Salesman Problem (TSP) with set-dependent cost. We propose an A* search algorithm to address this particular variant of the TSP. Computational experiments highlight the benefits of the proposed algorithm in comparison to the widely recognized Dijkstra algorithm and propose future research to explore new possibilities and applications for both exact and approximate A* algorithms. | 翻訳日:2023-11-16 16:37:34 公開日:2023-11-15 |
# 対話型エージェント設計の課題と学際的コラボレーションの関係を探る Exploring Links between Conversational Agent Design Challenges and Interdisciplinary Collaboration ( http://arxiv.org/abs/2311.08832v1 ) ライセンス: Link先を確認 | Malak Sadek, C\'eline Mougenot | (参考訳) 近年では、大規模言語モデルが直接的に影響する前に、さまざまなアプリケーションに対する会話エージェント(CA)の人気と利用が着実に上昇している。
この上昇は、会話型エージェントの設計と作成の課題に関する広範な調査とドキュメントが伴っている。
近年のCA創造における社会技術的課題のスコーピングレビューに焦点をあてて、学際的コラボレーション(IDC)課題が社会技術的CA設計課題にどの程度貢献するかを検討する。
本稿では、ICCをレンズとするCA設計課題の分類法を提案し、既存の設計原則を補完する実践的戦略を提案する。
本論文は,提案する概念的リンクを実証的に検証し,提案手法をca設計の領域に適用し,その効果を評価する。 Recent years have seen a steady rise in the popularity and use of Conversational Agents (CA) for different applications, well before the more immediate impact of large language models. This rise has been accompanied by an extensive exploration and documentation of the challenges of designing and creating conversational agents. Focusing on a recent scoping review of the socio-technical challenges of CA creation, this opinion paper calls for an examination of the extent to which interdisciplinary collaboration (IDC) challenges might contribute towards socio-technical CA design challenges. The paper proposes a taxonomy of CA design challenges using IDC as a lens, and proposes practical strategies to overcome them which complement existing design principles. The paper invites future work to empirically verify suggested conceptual links and apply the proposed strategies within the space of CA design to evaluate their effectiveness. | 翻訳日:2023-11-16 16:37:15 公開日:2023-11-15 |
# 道路ランプ計測のためのモデル予測制御による強化学習 Reinforcement Learning with Model Predictive Control for Highway Ramp Metering ( http://arxiv.org/abs/2311.08820v1 ) ライセンス: Link先を確認 | Filippo Airaldi and Bart De Schutter and Azita Dabiri | (参考訳) 本研究は、効果的な都市・高速道路交通システムの必要性の高まりを背景に、モデル予測制御フレームワークに強化学習手法を組み込んだハイウェイランプ計測制御の問題に対する革新的なアプローチを用いて、モデルベースと学習ベースの交通フロー管理を強化するための戦略の相乗効果を探求する。
制御問題は、交通条件、制御動作のばらつき、および待ち行列中の車両の最大数に対する安全クリティカル制約違反を表す適切なステージコスト関数を構築することにより、RLタスクとして定式化される。
MPC ベースの RL アプローチは,各フレームワークの欠点を克服するために,両パラダイムの利点を融合して,オンランプの効率よく制御し,システムモデルや変数要求の不確実性にもかかわらず,その制約を満たすことを学ぶ。
最後に、小規模高速道路網からなる文献から得られたベンチマークでシミュレーションを行う。
提案手法は,不正確なモデルを持ち,調整が不十分なMPCコントローラから,ネットワーク内の混雑が減少し制約が満たされるような制御ポリシーを効果的に学習し,初期コントローラと比較して性能が向上したことを示す。 In the backdrop of an increasingly pressing need for effective urban and highway transportation systems, this work explores the synergy between model-based and learning-based strategies to enhance traffic flow management by use of an innovative approach to the problem of highway ramp metering control that embeds Reinforcement Learning techniques within the Model Predictive Control framework. The control problem is formulated as an RL task by crafting a suitable stage cost function that is representative of the traffic conditions, variability in the control action, and violations of a safety-critical constraint on the maximum number of vehicles in queue. An MPC-based RL approach, which merges the advantages of the two paradigms in order to overcome the shortcomings of each framework, is proposed to learn to efficiently control an on-ramp and to satisfy its constraints despite uncertainties in the system model and variable demands. Finally, simulations are performed on a benchmark from the literature consisting of a small-scale highway network. Results show that, starting from an MPC controller that has an imprecise model and is poorly tuned, the proposed methodology is able to effectively learn to improve the control policy such that congestion in the network is reduced and constraints are satisfied, yielding an improved performance compared to the initial controller. | 翻訳日:2023-11-16 16:36:55 公開日:2023-11-15 |
# 周波数領域に基づくデータセット蒸留 Frequency Domain-based Dataset Distillation ( http://arxiv.org/abs/2311.08819v1 ) ライセンス: Link先を確認 | Donghyeok Shin, Seungjae Shin, Il-Chul Moon | (参考訳) 本稿では,この周波数領域を利用して,大規模なオリジナルデータセットから小型合成データセットを抽出する,データセット蒸留の新しいパラメータ化手法FreDを提案する。
空間領域にフォーカスする従来のアプローチとは異なり、FreDは各データインスタンスの周波数表現を最適化するために周波数ベースの変換を使用する。
特定の周波数成分に対する空間領域情報の集中を利用して、FreDは最適化のための周波数次元のサブセットをインテリジェントに選択し、インスタンスの合成に必要な予算を大幅に削減する。
説明分散に基づく周波数次元の選択を通じて、FreDは、その限られた予算内で効率的に動作できることの理論的および実証的な証拠の両方を示し、従来のパラメータ化法と比較して元のデータセットの情報を保存する。
さらに,FreDと既存手法との直交的整合性から,FreDは異なるベンチマークデータセットを用いた評価シナリオよりも既存の蒸留法の性能を一貫して改善することを確認した。
コードはhttps://github.com/sdh0818/fredでリリースします。 This paper presents FreD, a novel parameterization method for dataset distillation, which utilizes the frequency domain to distill a small-sized synthetic dataset from a large-sized original dataset. Unlike conventional approaches that focus on the spatial domain, FreD employs frequency-based transforms to optimize the frequency representations of each data instance. By leveraging the concentration of spatial domain information on specific frequency components, FreD intelligently selects a subset of frequency dimensions for optimization, leading to a significant reduction in the required budget for synthesizing an instance. Through the selection of frequency dimensions based on the explained variance, FreD demonstrates both theoretical and empirical evidence of its ability to operate efficiently within a limited budget, while better preserving the information of the original dataset compared to conventional parameterization methods. Furthermore, based on the orthogonal compatibility of FreD with existing methods, we confirm that FreD consistently improves the performances of existing distillation methods over the evaluation scenarios with different benchmark datasets. We release the code at https://github.com/sdh0818/FreD. | 翻訳日:2023-11-16 16:36:16 公開日:2023-11-15 |
# MAPはまだ死んでいない:縮退を条件づけて真の言語モデルモードを発見する MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy ( http://arxiv.org/abs/2311.08817v1 ) ライセンス: Link先を確認 | Davis Yoshida, Kartik Goyal, Kevin Gimpel | (参考訳) 自然言語生成(NLG)モデルからの正確なMAPデコード(モード探索)が一貫して退化する(Stahlberg and Byrne, 2019, Holtzman et al., 2019)ことが広く知られている。
これは一般的に、モデルにおけるモードの基本的な不備または言語モデリングの弱点に起因する。
対照的に,本研究では,トレーニングデータの汚染により,モデルエラーがない場合にも縮退モードが発生することを強調する。
具体的には、少量の低エントロピーノイズと人口分布の混合であっても、データ分布のモードが縮退する可能性があることを示し、その上でトレーニングされたモデルも同様であることを示す。
NLGモデルの非条件モードはしばしば退化するので、特定の退化を避けるためにMAPデコーディングをモデルの分散条件に適用することを提案する。
精密検索を用いて,機械翻訳モデルと言語モデルの長条件モードが,非条件モードよりもはるかに流動的かつ話題的であることを実証的に検証した。
はじめて、これらのモデルとLLaMA-7Bモデルのいくつかの変種から、正確なモーダル列の多くの例を共有した。
特に、LLaMAモデルのモードは依然として退化しており、モデリングの改善がこの問題を修正していないことを示している。
厳密なモード探索アルゴリズムのコストのため、我々は近似モード探索手法であるacbsを開発し、高品位かつ高品質なシーケンスを探索する。
このアプローチを、命令追従の訓練を受けていないモデルであるllama-7bに適用し、微調整なしで合理的なアウトプットを導出できることを見出した。 It has been widely observed that exact or approximate MAP (mode-seeking) decoding from natural language generation (NLG) models consistently leads to degenerate outputs (Stahlberg and Byrne, 2019, Holtzman et al., 2019). This has generally been attributed to either a fundamental inadequacy of modes in models or weaknesses in language modeling. Contrastingly in this work, we emphasize that degenerate modes can even occur in the absence of any model error, due to contamination of the training data. Specifically, we show that mixing even a tiny amount of low-entropy noise with a population text distribution can cause the data distribution's mode to become degenerate, implying that any models trained on it will be as well. As the unconditional mode of NLG models will often be degenerate, we therefore propose to apply MAP decoding to the model's distribution conditional on avoiding specific degeneracies. Using exact-search, we empirically verify that the length-conditional modes of machine translation models and language models are indeed more fluent and topical than their unconditional modes. For the first time, we also share many examples of exact modal sequences from these models, and from several variants of the LLaMA-7B model. Notably, the modes of the LLaMA models are still degenerate, showing that improvements in modeling have not fixed this issue. Because of the cost of exact mode finding algorithms, we develop an approximate mode finding approach, ACBS, which finds sequences that are both high-likelihood and high-quality. We apply this approach to LLaMA-7B, a model which was not trained for instruction following, and find that we are able to elicit reasonable outputs without any finetuning. | 翻訳日:2023-11-16 16:35:45 公開日:2023-11-15 |
# 赤外画像超解像のためのターゲット指向領域適応 Target-oriented Domain Adaptation for Infrared Image Super-Resolution ( http://arxiv.org/abs/2311.08816v1 ) ライセンス: Link先を確認 | Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Yafei Dong, Shinichiro Omachi | (参考訳) 近年、赤外(IR)超解像におけるテクスチャの詳細を豊かにするために可視光画像を活用する研究が進められている。
しかし、この直接適応方式は、ノイズやぼやけたアーティファクトを犠牲にしてテクスチャを改善するため、二重刃の刀となることが多い。
これらの課題に対処するため、我々は、堅牢なIR超解像モデル適応に特化して設計された革新的なフレームワークであるターゲット指向のドメイン適応SRGAN(DASRGAN)を提案する。
DASRGANは2つのキーコンポーネントのシナジーで動作する。
1)テクスチャ指向適応(toa)によるテクスチャの詳細の精細化、及び
2)騒音伝達の最小化を目的としたノイズ指向適応(NOA)
具体的には、特殊識別器を独自に統合し、先行抽出枝を組み込み、ソーベル誘導対向損失を用いてテクスチャ分布を効果的に整列させる。
同時に、NOAはノイズ対向損失を利用して、対向訓練中に生成的およびガウス的雑音パターン分布を明瞭に分離する。
広範囲な実験により,DASRGANの優位性が確認された。
複数のベンチマークとアップサンプリングの要素をまたいだリードメソッドの比較分析により、dasrganは新しい最先端のパフォーマンス基準を設定できることが判明した。
コードは \url{https://github.com/yongsongh/dasrgan} で入手できる。 Recent efforts have explored leveraging visible light images to enrich texture details in infrared (IR) super-resolution. However, this direct adaptation approach often becomes a double-edged sword, as it improves texture at the cost of introducing noise and blurring artifacts. To address these challenges, we propose the Target-oriented Domain Adaptation SRGAN (DASRGAN), an innovative framework specifically engineered for robust IR super-resolution model adaptation. DASRGAN operates on the synergy of two key components: 1) Texture-Oriented Adaptation (TOA) to refine texture details meticulously, and 2) Noise-Oriented Adaptation (NOA), dedicated to minimizing noise transfer. Specifically, TOA uniquely integrates a specialized discriminator, incorporating a prior extraction branch, and employs a Sobel-guided adversarial loss to align texture distributions effectively. Concurrently, NOA utilizes a noise adversarial loss to distinctly separate the generative and Gaussian noise pattern distributions during adversarial training. Our extensive experiments confirm DASRGAN's superiority. Comparative analyses against leading methods across multiple benchmarks and upsampling factors reveal that DASRGAN sets new state-of-the-art performance standards. Code are available at \url{https://github.com/yongsongH/DASRGAN}. | 翻訳日:2023-11-16 16:34:21 公開日:2023-11-15 |
# データ拡張における構造レバレッジによる自己監督的絡み合い Self-Supervised Disentanglement by Leveraging Structure in Data Augmentations ( http://arxiv.org/abs/2311.08815v1 ) ライセンス: Link先を確認 | Cian Eastwood, Julius von K\"ugelgen, Linus Ericsson, Diane Bouchacourt, Pascal Vincent, Bernhard Sch\"olkopf, Mark Ibrahim | (参考訳) 自己教師付き表現学習は、しばしばデータの「スタイル」属性に対する不変性を引き起こすためにデータ拡張を用いる。
しかしながら、トレーニング時に下流タスクが一般的に不明なため、データの属性が実際に"スタイル"であり、安全に破棄できる優先順位を推測することは困難である。
この問題に対処するため、私たちはスタイル機能を破棄するよりも、より原則化されたアプローチを導入しました。
鍵となるアイデアは、複数のスタイルの埋め込み空間を追加することです。
i) それぞれが全対一増分に不変であること、及び
(ii)ジョイントエントロピーを最大化する。
因果的潜在変数モデルの観点から、構造化データ提供手順を定式化し、コンテンツと(複数ブロックの)スタイル変数の両方の識別可能性を証明する。
我々は、合成データセットに対するアプローチの利点を実証し、imagenetに有望だが限定的な結果を提示する。 Self-supervised representation learning often uses data augmentations to induce some invariance to "style" attributes of the data. However, with downstream tasks generally unknown at training time, it is difficult to deduce a priori which attributes of the data are indeed "style" and can be safely discarded. To address this, we introduce a more principled approach that seeks to disentangle style features rather than discard them. The key idea is to add multiple style embedding spaces where: (i) each is invariant to all-but-one augmentation; and (ii) joint entropy is maximized. We formalize our structured data-augmentation procedure from a causal latent-variable-model perspective, and prove identifiability of both content and (multiple blocks of) style variables. We empirically demonstrate the benefits of our approach on synthetic datasets and then present promising but limited results on ImageNet. | 翻訳日:2023-11-16 16:33:53 公開日:2023-11-15 |
# 手術ビデオセグメンテーションのための相関対応能動学習 Correlation-aware active learning for surgery video segmentation ( http://arxiv.org/abs/2311.08811v1 ) ライセンス: Link先を確認 | Fei Wu, Pablo Marquez-Neila, Mingyi Zheng, Hedyeh Rafii-Tari, Raphael Sznitman | (参考訳) セマンティックセグメンテーションは、大量の注釈付き画像データに大きく依存する複雑なタスクである。
しかし、そのようなデータを注釈付けすることは、特に医療領域において、時間とリソースを消費する可能性がある。
アクティブラーニング(AL)は、アノテーションのイメージを反復的に選択してモデルのパフォーマンスを向上させることで、この負担を軽減するのに役立つ一般的なアプローチである。
ビデオデータの場合、アノテーションのための画像を選択する際に、シーケンスのモデル不確かさと時間的性質を考慮することが重要である。
本研究は手術ビデオセグメンテーションのための新しいAL戦略である \COALSamp{}, COrrelation-aWare Active Learningを提案する。
私たちのアプローチでは、コントラスト学習で微調整された潜在空間に画像を投影し、ビデオフレームのローカルクラスタから一定数の代表画像を選択します。
本手法の有効性を手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットで実証する。
データセットとコードは、必要な承認を受けると公開されます。 Semantic segmentation is a complex task that relies heavily on large amounts of annotated image data. However, annotating such data can be time-consuming and resource-intensive, especially in the medical domain. Active Learning (AL) is a popular approach that can help to reduce this burden by iteratively selecting images for annotation to improve the model performance. In the case of video data, it is important to consider the model uncertainty and the temporal nature of the sequences when selecting images for annotation. This work proposes a novel AL strategy for surgery video segmentation, \COALSamp{}, COrrelation-aWare Active Learning. Our approach involves projecting images into a latent space that has been fine-tuned using contrastive learning and then selecting a fixed number of representative images from local clusters of video frames. We demonstrate the effectiveness of this approach on two video datasets of surgical instruments and three real-world video datasets. The datasets and code will be made publicly available upon receiving necessary approvals. | 翻訳日:2023-11-16 16:33:22 公開日:2023-11-15 |
# SparseSpikformer:スパイキングトランスにおけるトーケンおよびウェイトプルーニングの共同設計フレームワーク SparseSpikformer: A Co-Design Framework for Token and Weight Pruning in Spiking Transformer ( http://arxiv.org/abs/2311.08806v1 ) ライセンス: Link先を確認 | Yue Liu, Shanlin Xiao, Bo Li, Zhiyi Yu | (参考訳) 第3世代のニューラルネットワークとして、スパイキングニューラルネットワーク(SNN)は低消費電力と高エネルギー効率の利点があり、エッジデバイスの実装に適している。
最近では、最も先進的なSNNであるSpikformerが、Transformerの自己保持モジュールとSNNを組み合わせて、優れたパフォーマンスを実現している。
しかし、mlp層でより大きなチャネル次元を採用し、冗長なモデルパラメータの数を増やしている。
モデルの計算複雑性と重みパラメータを効果的に低減するために、抽選チケット仮説(lth)を探求し、元のネットワークに匹敵する性能を達成する非常にスパースな(約90%)サブネットワークを発見する。
さらに,ニューロンの平均スパイク発火率に基づいて画像から重要でない背景情報を除去できる軽量なトークンセレクタモジュールを設計し,アテンション計算に必須のフォアグラウンド画像トークンのみを選択する。
sparsespikformerはトークンと重みの刈り込み技術によってspikformerのスパース性を達成することを目的としたコデザインフレームワークである。
実験により,本フレームワークはモデルパラメータの90%を大幅に削減し,Giga Floating-Point Operations (GFLOPs) を20%削減し,元のモデルの精度を維持した。 As the third-generation neural network, the Spiking Neural Network (SNN) has the advantages of low power consumption and high energy efficiency, making it suitable for implementation on edge devices. More recently, the most advanced SNN, Spikformer, combines the self-attention module from Transformer with SNN to achieve remarkable performance. However, it adopts larger channel dimensions in MLP layers, leading to an increased number of redundant model parameters. To effectively decrease the computational complexity and weight parameters of the model, we explore the Lottery Ticket Hypothesis (LTH) and discover a very sparse ($\ge$90%) subnetwork that achieves comparable performance to the original network. Furthermore, we also design a lightweight token selector module, which can remove unimportant background information from images based on the average spike firing rate of neurons, selecting only essential foreground image tokens to participate in attention calculation. Based on that, we present SparseSpikformer, a co-design framework aimed at achieving sparsity in Spikformer through token and weight pruning techniques. Experimental results demonstrate that our framework can significantly reduce 90% model parameters and cut down Giga Floating-Point Operations (GFLOPs) by 20% while maintaining the accuracy of the original model. | 翻訳日:2023-11-16 16:33:04 公開日:2023-11-15 |
# StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving ( http://arxiv.org/abs/2311.08803v1 ) ライセンス: Link先を確認 | Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam | (参考訳) 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。
これらの制約に対処するために,LLMの能力を利用して様々なタスクに対処する総合的なフレームワークであるStrategyLLMを提案する。
このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を高め、これらの戦略を用いて一貫したソリューションを作成することによって一貫性を高める。
strategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、特定のタスクに対して有望な戦略を自動的に生成、評価、選択する。
実験の結果、StrategyLLMは、数学推論(39.2%$\rightarrow$ 43.3%)、コモンセンス推論(70.3%$\rightarrow$ 72.5%)、アルゴリズム推論(51.7%$\rightarrow$ 62.0%)、記号推論(30.0%$\rightarrow$ 79.2%)を含む、4つの挑戦的なタスクにわたる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。 Most existing chain-of-thought (CoT) prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other cases and lack task-level consistency in their reasoning steps. To address these limitations, we propose a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to tackle various tasks. The framework improves generalizability by formulating general problem-solving strategies and enhances consistency by producing consistent solutions using these strategies. StrategyLLM employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task automatically. The experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (39.2% $\rightarrow$ 43.3%), commonsense reasoning (70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%), and symbolic reasoning (30.0% $\rightarrow$ 79.2%). | 翻訳日:2023-11-16 16:32:35 公開日:2023-11-15 |
# eyels : ロボット眼手術における眼内目標接近のための陰影誘導装置着陸システム EyeLS: Shadow-Guided Instrument Landing System for Intraocular Target Approaching in Robotic Eye Surgery ( http://arxiv.org/abs/2311.08799v1 ) ライセンス: Link先を確認 | Junjie Yang, Zhihao Zhao, Siyuan Shen, Daniel Zapp, Mathias Maier, Kai Huang, Nassir Navab and M. Ali Nasseri | (参考訳) ロボット眼手術は、顕微鏡や術中oct(術中oct)などの入力画像モードに応じて、網膜下注射における網膜の浸透や網膜剥離における浮遊組織除去などの高精度な介入を促進する新しい技術である。
iOCTは、針先端を範囲限定ROIの範囲内で見つけるために探索されているが、特に初期目標到達段階において、針の動きを針と調整することは依然として困難である。
一方,2次元視線投影と深度情報の欠如により,現在の画像ベース手法では網膜と浮動目標の両方に対して針先端の軌跡を効果的に推定することはできない。
この制限に対処するために、ターゲットと機器先端の影位置を用いて相対深度位置を推定し、それに応じて機器先端の挿入軌跡をiOCTの走査領域内のターゲットに近づくまで最適化することを提案する。
本手法は, 網膜モデルに対する目標接近に成功し, 手術シミュレータにおいて, 平均深度0.0127mmおよび0.3473mmの浮動小径誤差を網膜を傷つけることなく達成する。 Robotic ophthalmic surgery is an emerging technology to facilitate high-precision interventions such as retina penetration in subretinal injection and removal of floating tissues in retinal detachment depending on the input imaging modalities such as microscopy and intraoperative OCT (iOCT). Although iOCT is explored to locate the needle tip within its range-limited ROI, it is still difficult to coordinate iOCT's motion with the needle, especially at the initial target-approaching stage. Meanwhile, due to 2D perspective projection and thus the loss of depth information, current image-based methods cannot effectively estimate the needle tip's trajectory towards both retinal and floating targets. To address this limitation, we propose to use the shadow positions of the target and the instrument tip to estimate their relative depth position and accordingly optimize the instrument tip's insertion trajectory until the tip approaches targets within iOCT's scanning area. Our method succeeds target approaching on a retina model, and achieves an average depth error of 0.0127 mm and 0.3473 mm for floating and retinal targets respectively in the surgical simulator without damaging the retina. | 翻訳日:2023-11-16 16:32:01 公開日:2023-11-15 |
# 量子過程における因果関係の同定 Identification of Causal Influences in Quantum Processes ( http://arxiv.org/abs/2311.08882v1 ) ライセンス: Link先を確認 | Isaac Friend (University of Oxford), Aleks Kissinger (University of Oxford) | (参考訳) 因果推論のトピックは、典型的には古典統計モデルの文脈で考慮されるが、近年は因果推論技法を量子および一般化理論に拡張することに大きな関心が寄せられている。
因果同定(causal identification)は、観測データからの回復と定性的な仮定に関連する因果的推論問題の一種であり、データを生成する因果的メカニズムであり、仮定的介入の効果である。
量子環境における因果同定の理論に対する大きな障害は、「観測データ」の役割をどう果たすべきかという問題である。
したがって、量子測定が既に介入に酷似しているという先入観が考えられ、因果同定の問題が自明になる。
これはそうではない。
限られた種類の量子機器(つまり全ての射影測定のクラス)を「観測」の役割を果たすように固定すると、古典的な設定のように因果同定が不可能なシナリオが存在することに留意する。
次に、量子因果同定のための十分な条件を提示し、よく知られた「フロントドア基準」の量子アナログから始まり、単一の介入の効果が識別可能なより広範なシナリオのクラスで終了する。
これらの結果は、マルコフ圏の設定を超えたヤコブ、キッシンジャー、ザナシによる古典因果推論の過程論的説明を一般化し、古典的および量子的問題を一様に扱うことによって生じる。 Though the topic of causal inference is typically considered in the context of classical statistical models, recent years have seen great interest in extending causal inference techniques to quantum and generalized theories. Causal identification is a type of causal inference problem concerned with recovering from observational data and qualitative assumptions the causal mechanisms generating the data, and hence the effects of hypothetical interventions. A major obstacle to a theory of causal identification in the quantum setting is the question of what should play the role of "observational data," as any means of extracting data at a certain locus will almost certainly disturb the system. Hence, one might think a priori that quantum measurements are already too much like interventions, so that the problem of causal identification trivializes. This is not the case. Fixing a limited class of quantum instruments (namely the class of all projective measurements) to play the role of "observations," we note that as in the classical setting, there exist scenarios for which causal identification is not possible. We then present sufficient conditions for quantum causal identification, starting with a quantum analogue of the well-known "front-door criterion" and finishing with a broader class of scenarios for which the effect of a single intervention is identifiable. These results emerge from generalizing the process-theoretic account of classical causal inference due to Jacobs, Kissinger, and Zanasi beyond the setting of Markov categories, and thereby treating the classical and quantum problems uniformly. | 翻訳日:2023-11-16 16:25:03 公開日:2023-11-15 |
# LlamasがGPTが示さないものを知る:信頼推定モデル Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation ( http://arxiv.org/abs/2311.08877v1 ) ライセンス: Link先を確認 | Vaishnavi Shrivastava, Percy Liang, Ananya Kumar | (参考訳) ユーザ信頼を維持するために、大きな言語モデル(LLM)は、ユーザを誤解させることなく、それらが正しくない場合の信頼性を低くするべきである。
信頼度を推定する標準的なアプローチは、これらのモデルのソフトマックス確率を使用するが、2023年11月現在、GPT-4やClaude-v1.3のような最先端のLCMはこれらの確率にアクセスできない。
まず、言語学的に信頼度を求める ― 回答に対する信頼度を求める ― GPT-4の80.5% AUCは、12の質問回答データセットの平均値 -- ランダムベースラインより7%高い) を合理的に実行するが、改善の余地は残っていない。次に、元のモデルの信頼度を評価する確率のあるモデルを用いて、代理信頼モデルを用いて検討する。
驚くべきことに、これらの確率は異なる、しばしば弱いモデルから来るが、この方法は12のデータセットのうち9つの言語的信頼度よりも高いAUCをもたらす。
言語的信頼度と代理モデル確率を構成する最良の手法は、全12データセット(GPT-4の平均AUCは84.6%)について最先端の信頼度を推定する。 To maintain user trust, large language models (LLMs) should signal low confidence on examples where they are incorrect, instead of misleading the user. The standard approach of estimating confidence is to use the softmax probabilities of these models, but as of November 2023, state-of-the-art LLMs such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We first study eliciting confidence linguistically -- asking an LLM for its confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4 averaged across 12 question-answering datasets -- 7% above a random baseline) but leaves room for improvement. We then explore using a surrogate confidence model -- using a model where we do have probabilities to evaluate the original model's confidence in a given question. Surprisingly, even though these probabilities come from a different and often weaker model, this method leads to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best method composing linguistic confidences and surrogate model probabilities gives state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on GPT-4). | 翻訳日:2023-11-16 16:24:36 公開日:2023-11-15 |
# ラベル埋め込みに向けて -- 分類困難の測定 Towards Label Embedding -- Measuring classification difficulty ( http://arxiv.org/abs/2311.08874v1 ) ライセンス: Link先を確認 | Katharina Hechinger, Christoph Koller, Xiao Xiang Zhu, G\"oran Kauermann | (参考訳) 機械学習における不確かさの定量化は、タイムリーで広大な研究分野である。
教師付き学習では、トレーニングプロセスのごく最初の段階であるラベル付けステップでは、すでに不確実性が発生する可能性がある。
特に、全てのインスタンスが明確に分類できない場合である。
問題は、クラスがオーバーラップしたり、インスタンスが明確に分類できない場合のインスタンスの分類に発生する。
言い換えれば、アノテーションのステップには必然的に曖昧さがあり、必ずしも「根拠の真理」ではない。
衛星画像の分類を例に挙げる。
各画像は複数のラベラーによって独立に注釈され、地域気候区分 (lczs) に分類される。
各インスタンスには複数の投票があり、単一の値ではなくラベルの分布につながります。
この研究の主な考え方は、基底真理ラベルを仮定するのではなく、K を可算圏の個数とする K 次元空間に票を埋め込むことである。
埋め込みは、ディリクレ-多項モデルによってモデル化されたベイズ設定における投票分布に由来する。
マルコフ連鎖モンテカルロステップを用いた確率的期待最大化アルゴリズムを用いてモデルと後方推定を行った。
LCZ分類の特定の例に着目しながら,本論文で開発された手法は,テキストや画像に独立してアノテータをラベル付けする他の状況にも容易に適用できる。
また、画像分類のための他の2つのベンチマークデータセットにもアプローチを適用し、これを実証する。
埋め込み自体の他に、一般化された混乱行列と見なすことができる相関行列を調べ、元のクラスのセマンティックな類似性を3つの例データセットすべてによく反映することができる。
得られた洞察は価値があり、観測毎に単一の真実を保証できない場合、一般的なラベル埋め込みとして機能する。 Uncertainty quantification in machine learning is a timely and vast field of research. In supervised learning, uncertainty can already occur in the very first stage of the training process, the labelling step. In particular, this is the case when not every instance can be unambiguously classified. The problem occurs for classifying instances, where classes may overlap or instances can not be clearly categorised. In other words, there is inevitable ambiguity in the annotation step and not necessarily a 'ground truth'. We look exemplary at the classification of satellite images. Each image is annotated independently by multiple labellers and classified into local climate zones (LCZs). For each instance we have multiple votes, leading to a distribution of labels rather than a single value. The main idea of this work is that we do not assume a ground truth label but embed the votes into a K-dimensional space, with K as the number of possible categories. The embedding is derived from the voting distribution in a Bayesian setup, modelled via a Dirichlet-Multinomial model. We estimate the model and posteriors using a stochastic Expectation Maximisation algorithm with Markov Chain Monte Carlo steps. While we focus on the particular example of LCZ classification, the methods developed in this paper readily extend to other situations where multiple annotators independently label texts or images. We also apply our approach to two other benchmark datasets for image classification to demonstrate this. Besides the embeddings themselves, we can investigate the resulting correlation matrices, which can be seen as generalised confusion matrices and reflect the semantic similarities of the original classes very well for all three exemplary datasets. The insights gained are valuable and can serve as general label embedding if a single ground truth per observation cannot be guaranteed. | 翻訳日:2023-11-16 16:24:09 公開日:2023-11-15 |
# 分類器誘導拡散モデルを用いたワンショットフェデレート学習 One-Shot Federated Learning with Classifier-Guided Diffusion Models ( http://arxiv.org/abs/2311.08870v1 ) ライセンス: Link先を確認 | Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue | (参考訳) ワンショット・フェデレーション・ラーニング(OSFL)は通信コストの低さから近年注目されている。
しかし、既存の手法のほとんどは補助的なデータセットやトレーニングジェネレータを必要としており、現実のシナリオにおける現実性を妨げている。
本稿では,拡散モデルがOSFLにもたらす新たな機会を探求し,クライアント分類器からのガイダンスを利用してクライアントの分布に対応するデータを生成し,その後サーバ上で集約モデルを訓練するFedCADOを提案する。
具体的には,ターゲット最適化を2つの側面から行う。
一方、ランダムにサンプリングされた初期ノイズを条件付きで編集し、特定のセマンティクスと分布を組み込むことにより、生成の品質と安定性が大幅に向上した。
一方,分類器からのbn統計を用いて,世代間における詳細な指導を行う。
これらの最適化により、元のクライアントデータセットの分散と品質によく似たデータセットを無制限に生成できます。
本手法は異種クライアントモデルと非iid特徴やラベルの問題を効果的に処理する。
プライバシ保護の観点からは,クライアントへの補助情報転送やジェネレータのトレーニングを回避し,追加のプライバシ漏洩リスクを排除している。
事前訓練された拡散モデルに格納された広範な知識を活用することで、合成データセットは、クライアントサンプルの知識制限を克服するのに役立つ。その結果、いくつかのケースにおいて集中トレーニングのパフォーマンス天井を上回り、大規模な3つの画像データセットで実施された十分な定量化および可視化実験で確実に実証される集約モデルが得られる。 One-shot federated learning (OSFL) has gained attention in recent years due to its low communication cost. However, most of the existing methods require auxiliary datasets or training generators, which hinders their practicality in real-world scenarios. In this paper, we explore the novel opportunities that diffusion models bring to OSFL and propose FedCADO, utilizing guidance from client classifiers to generate data that complies with clients' distributions and subsequently training the aggregated model on the server. Specifically, our method involves targeted optimizations in two aspects. On one hand, we conditionally edit the randomly sampled initial noises, embedding them with specified semantics and distributions, resulting in a significant improvement in both the quality and stability of generation. On the other hand, we employ the BN statistics from the classifiers to provide detailed guidance during generation. These tailored optimizations enable us to limitlessly generate datasets, which closely resemble the distribution and quality of the original client dataset. Our method effectively handles the heterogeneous client models and the problems of non-IID features or labels. In terms of privacy protection, our method avoids training any generator or transferring any auxiliary information on clients, eliminating any additional privacy leakage risks. Leveraging the extensive knowledge stored in the pre-trained diffusion model, the synthetic datasets can assist us in surpassing the knowledge limitations of the client samples, resulting in aggregation models that even outperform the performance ceiling of centralized training in some cases, which is convincingly demonstrated in the sufficient quantification and visualization experiments conducted on three large-scale multi-domain image datasets. | 翻訳日:2023-11-16 16:23:40 公開日:2023-11-15 |
# Toulouse Hyperspectral Data Set: 半教師付きスペクトル表現学習と画素ワイズ分類技術を評価するベンチマークデータセット Toulouse Hyperspectral Data Set: a benchmark data set to assess semi-supervised spectral representation learning and pixel-wise classification techniques ( http://arxiv.org/abs/2311.08863v1 ) ライセンス: Link先を確認 | Romain Thoreau, Laurent Risser, V\'eronique Achard, B\'eatrice Berthelot, Xavier Briottet | (参考訳) 空中ハイパースペクトル画像は、広いスペクトル領域の非常に高い空間分解能とスペクトル分解能のおかげで、大都市の土地被覆のマッピングに使用できる。
ハイパースペクトル画像のスペクトル次元は、土地表面の化学組成に非常に有益であるが、土地被覆をマッピングするための最先端機械学習アルゴリズムの使用は、トレーニングデータの利用によって劇的に制限されている。
アノテーションの不足に対処するために、半教師と自己監督のテクニックが最近コミュニティに大きな関心を集めている。
しかし、機械学習モデルのベンチマークに一般的に使用されるハイパースペクトルデータセットは、制限された地理的範囲(大都市圏のスペクトル多様性を反映しない)、少数の土地被覆クラス、半教師付き学習と自己教師付き学習のための適切な標準トレイン/テスト分割の欠如といった特性から、その一般化性能を評価するのに完全に適していない。
そこで,本稿では,ラベル付き画素の少ない大規模ハイパースペクトル画像におけるスペクトル表現学習と分類の重要な課題を満たすため,上述の点において,他のデータセットとは際立っているトゥールーズ超スペクトルデータセットをリリースする。
さらに,マスク付きオートエンコーダの自己監督タスクについて検討し,従来のオートエンコーダとRandom Forest分類器を併用した画素ワイド分類のベースラインを構築し,総合精度を82%,F1スコアを74%とした。
Toulouse Hyperspectral Data Setと私たちのコードは、https://www.toulouse-hyperspectral-data-set.comとhttps://www.github.com/Romain3Ch216/tlse-experimentsで公開されています。 Airborne hyperspectral images can be used to map the land cover in large urban areas, thanks to their very high spatial and spectral resolutions on a wide spectral domain. While the spectral dimension of hyperspectral images is highly informative of the chemical composition of the land surface, the use of state-of-the-art machine learning algorithms to map the land cover has been dramatically limited by the availability of training data. To cope with the scarcity of annotations, semi-supervised and self-supervised techniques have lately raised a lot of interest in the community. Yet, the publicly available hyperspectral data sets commonly used to benchmark machine learning models are not totally suited to evaluate their generalization performances due to one or several of the following properties: a limited geographical coverage (which does not reflect the spectral diversity in metropolitan areas), a small number of land cover classes and a lack of appropriate standard train / test splits for semi-supervised and self-supervised learning. Therefore, we release in this paper the Toulouse Hyperspectral Data Set that stands out from other data sets in the above-mentioned respects in order to meet key issues in spectral representation learning and classification over large-scale hyperspectral images with very few labeled pixels. Besides, we discuss and experiment the self-supervised task of Masked Autoencoders and establish a baseline for pixel-wise classification based on a conventional autoencoder combined with a Random Forest classifier achieving 82% overall accuracy and 74% F1 score. The Toulouse Hyperspectral Data Set and our code are publicly available at https://www.toulouse-hyperspectral-data-set.com and https://www.github.com/Romain3Ch216/tlse-experiments, respectively. | 翻訳日:2023-11-16 16:23:12 公開日:2023-11-15 |
# ACL2におけるGossipSubの検証 Verification of GossipSub in ACL2s ( http://arxiv.org/abs/2311.08859v1 ) ライセンス: Link先を確認 | Ankit Kumar (Northeastern University), Max von Hippel (Northeastern University), Panagiotis Manolios (Northeastern University), Cristina Nita-Rotaru (Northeastern University) | (参考訳) GossipSubは、メッセージの完全な内容を近隣のピア(mesh neighbors)の動的に選択されたサブセットにのみ転送し、メッセージの拡散を迅速かつ効率的に行うように設計された、人気のあるピアツーピアネットワークプロトコルである。
ピアは、自分のメッシュから隣人のどれをグラフトするか、あるいはプルーンするかを決め、各隣人のスコアを定期的に使用する。
スコアは、ネットワーク内のピアのパフォーマンスに関連するメッシュ固有のパラメータ、重み、カウンタに依存するスコア関数を使って計算される。
ゴシップサブネットワークのパフォーマンスは最終的にピアのパフォーマンスに依存するため、重要な疑問が生まれている。
私たちは、公式、公式、実行可能なACL2sモデルを使用して、GossipSubについて推論することで、この疑問に答えました。
我々は,GossipSub,FileCoin,Eth2.0の開発者によって確認され,MITRE CVE-2022-47547で公開されたGossipSubに対する攻撃を合成,シミュレーションした。
本稿では,本モデルの詳細について述べる。
設計判断,gossipsubのセキュリティ特性,モデルのコンテキストにおけるセキュリティ特性の推論,アタック生成,記述時に学んだ教訓について論じる。 GossipSub is a popular new peer-to-peer network protocol designed to disseminate messages quickly and efficiently by allowing peers to forward the full content of messages only to a dynamically selected subset of their neighboring peers (mesh neighbors) while gossiping about messages they have seen with the rest. Peers decide which of their neighbors to graft or prune from their mesh locally and periodically using a score for each neighbor. Scores are calculated using a score function that depends on mesh-specific parameters, weights and counters relating to a peer's performance in the network. Since a GossipSub network's performance ultimately depends on the performance of its peers, an important question arises: Is the score calculation mechanism effective in weeding out non-performing or even intentionally misbehaving peers from meshes? We answered this question in the negative in our companion paper by reasoning about GossipSub using our formal, official and executable ACL2s model. Based on our findings, we synthesized and simulated attacks against GossipSub which were confirmed by the developers of GossipSub, FileCoin, and Eth2.0, and publicly disclosed in MITRE CVE-2022-47547. In this paper, we present a detailed description of our model. We discuss design decisions, security properties of GossipSub, reasoning about the security properties in context of our model, attack generation and lessons we learnt when writing it. | 翻訳日:2023-11-16 16:22:38 公開日:2023-11-15 |
# ACL2 Proof Debuggingツールの進歩 Advances in ACL2 Proof Debugging Tools ( http://arxiv.org/abs/2311.08856v1 ) ライセンス: Link先を確認 | Matt Kaufmann (UT Austin, retired), J Strother Moore (UT Austin, retired) | (参考訳) ACL2ユーザの経験には、一般的に多くの失敗する証明の試みが含まれている。
ACL2証明を成功させる鍵は、これらの障害をデバッグするツールを効果的に利用することである。
ACL2バージョン8.5以降の変更 - 改良されたブレークリライトユーティリティと新しいユーティリティであるwith-brr-data。 The experience of an ACL2 user generally includes many failed proof attempts. A key to successful use of the ACL2 prover is the effective use of tools to debug those failures. We focus on changes made after ACL2 Version 8.5: the improved break-rewrite utility and the new utility, with-brr-data. | 翻訳日:2023-11-16 16:22:11 公開日:2023-11-15 |
# bcs領域における非分極捕獲フェルミオン原子の非開裂相互作用と温度寄与 Unravelling Interaction and Temperature Contributions in Unpolarized Trapped Fermionic Atoms in the BCS Regime ( http://arxiv.org/abs/2311.08853v1 ) ライセンス: Link先を確認 | Sejung Yong, Sian Barbosa, Jennifer Koch, Felix Lang, Axel Pelster, Artur Widera | (参考訳) BCSの制限密度プロファイルでは、非偏極に閉じ込められた原子のフェルミオン雲は、ほとんど特徴を持たない。
したがって、それぞれの相互作用と温度寄与を定量化するためにそれらを分析することは微妙な作業である。
これまでのところ、温度測定はBCSからBECの限界まで、間接的な方法で行われると考えられてきた。
代わりに、カラム密度を測定し、得られたデータを局所密度近似と組み合わせたHartree-Bogoliubov平均場理論と比較する直接熱測定法を提案する。
3軸高調波閉じ込めに閉じ込められた2成分の$^{6}$li原子間の魅力的な相互作用の場合、実験-理論のコラボレーションにおける誤差を最小化することは、詳細な測定密度を分析し、最終的に試料温度を決定する合理的な基準であることが示されている。
本研究は,様々な誤りの原因について考察した。 In the BCS limit density profiles for unpolarized trapped fermionic clouds of atoms are largely featureless. Therefore, it is a delicate task to analyze them in order to quantify their respective interaction and temperature contributions. Temperature measurements have so far been mostly considered in an indirect way, where one sweeps isentropically from the BCS to the BEC limit. Instead we suggest here a direct thermometry, which relies on measuring the column density and comparing the obtained data with a Hartree-Bogoliubov mean-field theory combined with a local density approximation. In case of an attractive interaction between two-components of $^{6}$Li atoms trapped in a tri-axial harmonic confinement we show that minimizing the error within such an experiment-theory collaboration turns out to be a reasonable criterion for analyzing in detail measured densities and, thus, for ultimately determining the sample temperatures. The findings are discussed in view of various possible sources of errors. | 翻訳日:2023-11-16 16:22:06 公開日:2023-11-15 |
# 深度重み空間におけるデータ拡張 Data Augmentations in Deep Weight Spaces ( http://arxiv.org/abs/2311.08851v1 ) ライセンス: Link先を確認 | Aviv Shamsian, David W. Zhang, Aviv Navon, Yan Zhang, Miltiadis Kofinas, Idan Achituve, Riccardo Valperga, Gertjan J. Burghouts, Efstratios Gavves, Cees G. M. Snoek, Ethan Fetaya, Gal Chechik, Haggai Maron | (参考訳) ニューラルネットワークが他のディープニューラルネットワークの重みを処理する重み空間での学習は、ニューラルネットワークの分析と編集、暗黙のニューラル表現、ネットワークプルーニングと量子化など、さまざまな分野の応用において有望な研究方向として現れている。
最近の作品は、そのユニークな置換同変構造を考慮した、その空間における効果的な学習のためのアーキテクチャを設計した。
残念なことに、これらのアーキテクチャは厳しい過剰フィッティングに苦しめられ、大規模なデータセットの恩恵を受けることが示された。
それぞれのデータサンプルはトレーニングが必要なネットワーク重みの完全なセットであるため、この学習セットアップのためのデータ生成には手間がかかり、時間を要するため、これは大きな課題となる。
本稿では,入力重み空間要素を訓練することなく,新しいデータ例をフライで生成できる一連の手法である重み空間のデータ拡張について検討することで,この課題に対処する。
まず、最近提案されたデータ拡張スキーム % をレビューし、それらをカテゴリに分類した。
次に,Mixup法に基づく新しい拡張手法を提案する。
我々は,これらの手法を既存のベンチマークや新しいベンチマークで評価し,今後の研究に有用であることを示す。 Learning in weight spaces, where neural networks process the weights of other deep neural networks, has emerged as a promising research direction with applications in various fields, from analyzing and editing neural fields and implicit neural representations, to network pruning and quantization. Recent works designed architectures for effective learning in that space, which takes into account its unique, permutation-equivariant, structure. Unfortunately, so far these architectures suffer from severe overfitting and were shown to benefit from large datasets. This poses a significant challenge because generating data for this learning setup is laborious and time-consuming since each data sample is a full set of network weights that has to be trained. In this paper, we address this difficulty by investigating data augmentations for weight spaces, a set of techniques that enable generating new data examples on the fly without having to train additional input weight space elements. We first review several recently proposed data augmentation schemes %that were proposed recently and divide them into categories. We then introduce a novel augmentation scheme based on the Mixup method. We evaluate the performance of these techniques on existing benchmarks as well as new benchmarks we generate, which can be valuable for future studies. | 翻訳日:2023-11-16 16:21:49 公開日:2023-11-15 |
# 潜在特徴ベクトルシフトによる生成モデルの出力制御 Controlling the Output of a Generative Model by Latent Feature Vector Shifting ( http://arxiv.org/abs/2311.08850v1 ) ライセンス: Link先を確認 | R\'obert Belanec, Peter Lacko, Krist\'ina Malinovsk\'a | (参考訳) 最先端生成モデル(例えばstylegan3 \cite{karras2021alias})は、しばしば潜在空間からサンプリングされたベクトルに基づいてフォトリアリスティックな画像を生成する。
しかし、出力を制御する能力は限られている。
本稿では,生成画像の意味的特徴を利用した制御出力画像修正のための潜在ベクトルシフト手法を提案する。
提案手法では,比較的高解像度で現実的な人間の顔の画像を生成するStyleGAN3の事前学習モデルを用いる。
本稿では,生成した画像をcelebaデータセットからバイナリな顔特徴で分類するように訓練した畳み込みニューラルネットワーク分類器resnet34を用いて生成モデルを補完する。
我々の潜在特徴シフト器は、生成モデルの潜在ベクトルを特定の特徴方向にシフトさせるタスクを備えたニューラルネットワークモデルである。
我々は,複数の顔特徴に対して潜在機能シフタを訓練し,所望の機能を持つ生成画像数においてベースライン法を上回った。
潜在機能シフターニューラルネットワークをトレーニングするために、特定の特徴の有無に関わらず、潜在ベクトルのペアのデータセットを設計しました。
評価の結果,我々は,StyleGAN3ジェネレータの制御生成において,潜在機能シフト器のアプローチが成功したと結論した。 State-of-the-art generative models (e.g. StyleGAN3 \cite{karras2021alias}) often generate photorealistic images based on vectors sampled from their latent space. However, the ability to control the output is limited. Here we present our novel method for latent vector shifting for controlled output image modification utilizing semantic features of the generated images. In our approach we use a pre-trained model of StyleGAN3 that generates images of realistic human faces in relatively high resolution. We complement the generative model with a convolutional neural network classifier, namely ResNet34, trained to classify the generated images with binary facial features from the CelebA dataset. Our latent feature shifter is a neural network model with a task to shift the latent vectors of a generative model into a specified feature direction. We have trained latent feature shifter for multiple facial features, and outperformed our baseline method in the number of generated images with the desired feature. To train our latent feature shifter neural network, we have designed a dataset of pairs of latent vectors with and without a certain feature. Based on the evaluation, we conclude that our latent feature shifter approach was successful in the controlled generation of the StyleGAN3 generator. | 翻訳日:2023-11-16 16:21:28 公開日:2023-11-15 |
# OFA: 大規模多言語継続事前学習のための未知語埋め込み初期化フレームワーク OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining ( http://arxiv.org/abs/2311.08849v1 ) ライセンス: Link先を確認 | Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Sch\"utze | (参考訳) スクラッチから多言語モデルの事前学習には、かなりの計算資源とかなりのトレーニングデータが必要である。
したがって、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させるのがより効率的な方法である。
しかし、この手法は通常、新しいサブワードの埋め込みをランダムに初期化し、言語モデルにかなり多くの埋め込みパラメータを導入し、効率を弱める。
これらの問題に対処するために、新しいフレームワークを提案する: \textbf{O}ne \textbf{F}or \textbf{A}ll (\textbf{\textsc{Ofa}})。
\textsc{ofa} は、外部に整列した多言語単語埋め込みを活用し、新しい組込みにアライメント知識を注入する。
さらに、textsc{Ofa} は行列分解を適用し、2つの低次元行列にカンサム埋め込みを置き換え、性能を犠牲にすることなくパラメータの数を著しく削減する。
広範な実験を通じて, \textsc{ofa} によって初期化されるモデルが,複数のベースラインよりも効率的であることを示す。
\textsc{ofa} は、限られた計算予算に優しい、継続前訓練の収束を加速するだけでなく、幅広い下流タスクにおけるゼロショットクロスリンガル転送を改善する。
コードとモデルを公開しています。 Pretraining multilingual language models from scratch requires considerable computational resources and substantial training data. Therefore, a more efficient method is to adapt existing pretrained language models (PLMs) to new languages via vocabulary extension and continued pretraining. However, this method usually randomly initializes the embeddings of new subwords and introduces substantially more embedding parameters to the language model, thus weakening the efficiency. To address these issues, we propose a novel framework: \textbf{O}ne \textbf{F}or \textbf{A}ll (\textbf{\textsc{Ofa}}), which wisely initializes the embeddings of unseen subwords from target languages and thus can adapt a PLM to multiple languages efficiently and effectively. \textsc{Ofa} takes advantage of external well-aligned multilingual word embeddings and injects the alignment knowledge into the new embeddings. In addition, \textsc{Ofa} applies matrix factorization and replaces the cumbersome embeddings with two lower-dimensional matrices, which significantly reduces the number of parameters while not sacrificing the performance. Through extensive experiments, we show models initialized by \textsc{Ofa} are efficient and outperform several baselines. \textsc{Ofa} not only accelerates the convergence of continued pretraining, which is friendly to a limited computation budget, but also improves the zero-shot crosslingual transfer on a wide range of downstream tasks. We make our code and models publicly available. | 翻訳日:2023-11-16 16:21:06 公開日:2023-11-15 |
# Violet:Gemini Decoderを使ったアラビア語画像キャプチャのための視覚言語モデル Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder ( http://arxiv.org/abs/2311.08844v1 ) ライセンス: Link先を確認 | Abdelrahman Mohamed, Fakhraddin Alwajih, El Moatez Billah Nagoudi, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed | (参考訳) 画像キャプションには膨大な応用があるが、英語以外の言語ではまだ十分に活用されていない。
例えば、アラビア語は4億人以上の住民の母国語であるが、この地域では多くが少数派である。
これはラベル付きデータと強力なアラビア語生成モデルがないためである。
我々は、アラビア語に特化した新しいビジョン言語モデル、 \textit{violet} を提示してこの問題を緩和する。
我々のモデルは、視覚と言語コンポーネントの融合を可能としつつ、生成の流速を維持する視覚エンコーダとジェミニテキストデコーダに基づいている。
モデルをトレーニングするために,利用可能な英語データセットからデータを自動的に取得する新しい手法を提案する。
評価のための新しいデータセットも手作業で準備します。
\textit{Violet} は、評価データセットのすべてのベースラインよりも大幅にパフォーマンスが向上します。
例えば、手動でアノテートしたデータセットでCIDErスコアが61.2ドルに達し、Flickr8kで13ドルポイントの改善を実現しています。 Although image captioning has a vast array of applications, it has not reached its full potential in languages other than English. Arabic, for instance, although the native language of more than 400 million people, remains largely underrepresented in this area. This is due to the lack of labeled data and powerful Arabic generative models. We alleviate this issue by presenting a novel vision-language model dedicated to Arabic, dubbed \textit{Violet}. Our model is based on a vision encoder and a Gemini text decoder that maintains generation fluency while allowing fusion between the vision and language components. To train our model, we introduce a new method for automatically acquiring data from available English datasets. We also manually prepare a new dataset for evaluation. \textit{Violet} performs sizeably better than our baselines on all of our evaluation datasets. For example, it reaches a CIDEr score of $61.2$ on our manually annotated dataset and achieves an improvement of $13$ points on Flickr8k. | 翻訳日:2023-11-16 16:20:39 公開日:2023-11-15 |
# カジュアルライトステージを用いたパーソナライズされたビデオリライト Personalized Video Relighting Using Casual Light Stage ( http://arxiv.org/abs/2311.08843v1 ) ライセンス: Link先を確認 | Jun Myeong Choi, Max Christman, Roni Sengupta | (参考訳) 本稿では,リアルタイムなポーズ,表現,照明条件下で高品質かつ時間的に一貫した映像を生成するパーソナライズされたビデオリライティングアルゴリズムを開発する。
既存のリライトアルゴリズムは一般的に、公開可能な合成データに頼っているため、低照度結果が得られるか、アクセス不能で公開されていないライトステージデータに頼っている。
モニタでYouTubeビデオを見ているユーザのビデオをカジュアルにキャプチャすることで、任意の条件下で高品質なリライティングを生成できるパーソナライズされたアルゴリズムをトレーニングできることを示す。
我々の重要な貢献は、固有の外観特徴、幾何学、反射性を効果的に分離し、ターゲットの照明と組み合わせて、信頼された画像を生成する、新しい神経リライティングアーキテクチャである。
このニューラルアーキテクチャは、時間的に安定したビデオリライトにつながる固有の外観特徴の滑らか化を可能にする。
定性的かつ定量的な評価から,我々のリライトアーキテクチャは,机(lsyd)データのカジュアルにキャプチャされた光ステージと,一度に1つの光をキャプチャした光ステージの両方において,最先端のアプローチよりも,ポートレート画像のリライト品質と時間的一貫性を改善していることが示された。 In this paper, we develop a personalized video relighting algorithm that produces high-quality and temporally consistent relit video under any pose, expression, and lighting conditions in real-time. Existing relighting algorithms typically rely either on publicly available synthetic data, which yields poor relighting results, or instead on Light Stage data which is inaccessible and is not publicly available. We show that by casually capturing video of a user watching YouTube videos on a monitor we can train a personalized algorithm capable of producing high-quality relighting under any condition. Our key contribution is a novel neural relighting architecture that effectively separates the intrinsic appearance features, geometry and reflectance, from the source lighting and then combines it with the target lighting to generate a relit image. This neural architecture enables smoothing of intrinsic appearance features leading to temporally stable video relighting. Both qualitative and quantitative evaluations show that our relighting architecture improves portrait image relighting quality and temporal consistency over state-of-the-art approaches on both casually captured Light Stage at Your Desk (LSYD) data and Light Stage captured One Light At a Time (OLAT) datasets. | 翻訳日:2023-11-16 16:20:23 公開日:2023-11-15 |
# 引抜きイオン鎖における自然界状絡み合い資源 A Natural Field-like Entanglement Resource in Trapped-Ion Chains ( http://arxiv.org/abs/2311.08842v1 ) ライセンス: Link先を確認 | Natalie Klco and D. H. Beck | (参考訳) イオン鎖の電磁トラップは、局所軸運動モードのヒルベルト空間内での非自明な量子状態準備の過程と見なすことができる。
従来のイオントラップ量子情報処理の副産物として生成されたこの絡み合い資源の特性を明らかにするために、量子連続変数形式を用いて、二次トラップポテンシャルの存在下での局所運動モードの前次絡み基底状態に焦点を当てる。
局所モードの解離部分集合間の絡み合いの減衰は、絡み合い構造の特徴と、自由質量のスカラー場真空を想起させる部分的な測定応答を示す。
2つの大きなシステムサイズでさえも、大きなフィディティを持ち、数体の絡み合い演算子の深い回路を通して相関を構築するのではなく、自然ソースから「画像化」された拡張絡み合い状態を通じて量子場のシミュレーションを初期化する枠組みが確立されている。
局所運動モードの離散フォック部分空間における確率を計算することにより、これらの分散した絡み合い資源をイオン内部エネルギー準位のクォーディットに局所的に移動させることにより、この手順が期待される実験可能性を改善する。 The electromagnetic trapping of ion chains can be regarded as a process of non-trivial entangled quantum state preparation within Hilbert spaces of the local axial motional modes. To begin uncovering properties of this entanglement resource produced as a byproduct of conventional ion-trap quantum information processing, the quantum continuous-variable formalism is herein utilized to focus on the leading-order entangled ground state of local motional modes in the presence of a quadratic trapping potential. The decay of entanglement between disjoint subsets of local modes is found to exhibit features of entanglement structure and response to partial measurement reminiscent of the free massless scalar field vacuum. With significant fidelities between the two, even for large system sizes, a framework is established for initializing quantum field simulations via "imaging" extended entangled states from natural sources, rather than building correlations through deep circuits of few-body entangling operators. By calculating probabilities in discrete Fock subspaces of the local motional modes, considerations are presented for locally transferring these pre-distributed entanglement resources to the qudits of ion internal energy levels, improving this procedure's anticipated experimental viability. | 翻訳日:2023-11-16 16:19:58 公開日:2023-11-15 |
# 航空制御における人間-AI連携の安全・信頼・倫理的考察 Safety, Trust, and Ethics Considerations for Human-AI Teaming in Aerospace Control ( http://arxiv.org/abs/2311.08943v1 ) ライセンス: Link先を確認 | Kerianne L. Hobbs and Bernard Li | (参考訳) しかし、安全で信頼性があり倫理的なAIを念頭に置いて設計することは可能であり、航空宇宙のような安全でミッションクリティカルな領域において必要である。
安全で、信頼され、倫理的なaiの使用は、しばしば交換的に使用されるが、システムは、安全でも、信頼でも、倫理的でもなく、安全でも、倫理的でもない、倫理的使用を持つことができる。
この写本は、これらの概念の微妙な違いを明るみに出す原動力となり、人間とAIのチームによる航空宇宙システム制御の応用に特に焦点をあてている。 Designing a safe, trusted, and ethical AI may be practically impossible; however, designing AI with safe, trusted, and ethical use in mind is possible and necessary in safety and mission-critical domains like aerospace. Safe, trusted, and ethical use of AI are often used interchangeably; however, a system can be safely used but not trusted or ethical, have a trusted use that is not safe or ethical, and have an ethical use that is not safe or trusted. This manuscript serves as a primer to illuminate the nuanced differences between these concepts, with a specific focus on applications of Human-AI teaming in aerospace system control, where humans may be in, on, or out-of-the-loop of decision-making. | 翻訳日:2023-11-16 16:13:26 公開日:2023-11-15 |
# 衛星画像中の自然領域のパターン認識と説明のための活性化最大化とジェネレーティブ・アドバイザリ・トレーニングの活用 Leveraging Activation Maximization and Generative Adversarial Training to Recognize and Explain Patterns in Natural Areas in Satellite Imagery ( http://arxiv.org/abs/2311.08923v1 ) ライセンス: Link先を確認 | Ahmed Emam, Timo T. Stomberg, Ribana Roscher | (参考訳) 自然保護地域は生物多様性、気候変動の緩和、生態学的プロセスのサポートに不可欠である。
その重要性にもかかわらず、包括的なマッピングはそれらの特性の理解の欠如と土地被覆クラスの定義の欠如によって妨げられている。
本稿では,保護地域と野生地域を形成する指定パターンの説明を進めることを目的とする。
そこで本研究では,アクティベーション最大化と生成的敵モデルを用いた新しい枠組みを提案する。
これにより、領域知識と組み合わせて、これらの領域の自然な真正性を定義する空間的およびスペクトル的パターンについて、完全かつ有効な説明を提供することができる衛星画像を作成することを目指している。
提案手法は,保護区域の自然真正性を形成する識別パターンを,より精密な帰属地図を作成する。
このアプローチは,保護された自然地域の生態的完全性を理解し,今後のモニタリングと保全に寄与する可能性がある。 Natural protected areas are vital for biodiversity, climate change mitigation, and supporting ecological processes. Despite their significance, comprehensive mapping is hindered by a lack of understanding of their characteristics and a missing land cover class definition. This paper aims to advance the explanation of the designating patterns forming protected and wild areas. To this end, we propose a novel framework that uses activation maximization and a generative adversarial model. With this, we aim to generate satellite images that, in combination with domain knowledge, are capable of offering complete and valid explanations for the spatial and spectral patterns that define the natural authenticity of these regions. Our proposed framework produces more precise attribution maps pinpointing the designating patterns forming the natural authenticity of protected areas. Our approach fosters our understanding of the ecological integrity of the protected natural areas and may contribute to future monitoring and preservation efforts. | 翻訳日:2023-11-16 16:13:11 公開日:2023-11-15 |
# 大規模言語モデルを用いたゼロショット型エンティティ認識の自己改善 Self-Improving for Zero-Shot Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2311.08921v1 ) ライセンス: Link先を確認 | Tingyu Xie, Qi Li, Yan Zhang, Zuozhu Liu, Hongwei Wang | (参考訳) 近年,強力な大規模言語モデル(LLM)の基本的な名前付きエンティティ認識(NER)タスクへの適用が注目されている。
本研究は,ゼロショットナーとllmの境界をトレーニングフリーの自己改善戦略で押し上げる可能性を検討することを目的とする。
NER上でのLLMの自己学習能力を刺激するためにラベルのないコーパスを利用する自己改善フレームワークを提案する。
まず LLM を用いてラベルなしコーパスの予測を行い,自己注釈付きデータを取得する。
次に,実演の類似性,多様性,信頼性を考慮して,自己注釈データセットから信頼できるサンプルを選択するための様々な戦略を検討する。
最後に、選択した自己アノテートされたデモを用いて、コンテキスト内学習によるテストクエリの推論を行う。
包括的実験分析により,(1)自己改善フレームワークがさらにゼロショットナーの境界をllmsで押し進め,明らかな性能向上を実現すること,(2)反復的自己改善やラベルなしコーパスのサイズ拡大は改善を保証しないこと,(3)信頼性の高いエンティティ選択のためのより高度な戦略による改善の余地がある可能性があること,の結論を得た。 Exploring the application of powerful large language models (LLMs) on the fundamental named entity recognition (NER) task has drawn much attention recently. This work aims to investigate the possibilities of pushing the boundary of zero-shot NER with LLM via a training-free self-improving strategy. We propose a self-improving framework, which utilize an unlabeled corpus to stimulate the self-learning ability of LLMs on NER. First, we use LLM to make predictions on the unlabeled corpus and obtain the self-annotated data. Second, we explore various strategies to select reliable samples from the self-annotated dataset as demonstrations, considering the similarity, diversity and reliability of demonstrations. Finally, we conduct inference for the test query via in-context learning with the selected self-annotated demonstrations. Through comprehensive experimental analysis, our study yielded the following findings: (1) The self-improving framework further pushes the boundary of zero-shot NER with LLMs, and achieves an obvious performance improvement; (2) Iterative self-improving or naively increasing the size of unlabeled corpus does not guarantee improvements; (3) There might still be space for improvement via more advanced strategy for reliable entity selection. | 翻訳日:2023-11-16 16:12:56 公開日:2023-11-15 |
# 非凸政策最適化のための効率的なサドルポイントの抽出 Efficiently Escaping Saddle Points for Non-Convex Policy Optimization ( http://arxiv.org/abs/2311.08914v1 ) ライセンス: Link先を確認 | Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Niao He, Matthias Grossglauser | (参考訳) ポリシーグラデーション(pg)はそのスケーラビリティと優れたパフォーマンスのために強化学習で広く使われている。
近年では、O(\epsilon^{-3})$のサンプル複雑性を持つ近似一階定常点(FOSP)に収束する理論的保証として、分散還元PG法がいくつか提案されている。
しかし、FOSPはローカルの最適点やサドルポイントが悪いかもしれない。
さらに、これらのアルゴリズムは、分散還元の統計効果を損なう重要なサンプリング(is)重みを用いることが多い。
本稿では, Hessian ベクトル積 (HVP) の形で二階情報を用い, サンプル複雑性$\tilde{O}(\epsilon^{-3})$で近似二階定常点 (SOSP) に収束する分散還元二階法を提案する。
この速度は、近似SOSPを$O(\epsilon^{-0.5})$とすることで、最もよく知られたサンプル複雑性を改善する。
さらに、提案手法は、HVP項を用いてIS重みをバイパスする。
実験結果から,提案アルゴリズムは技術状況よりも優れ,無作為な種子の変化に対してより堅牢であることがわかった。 Policy gradient (PG) is widely used in reinforcement learning due to its scalability and good performance. In recent years, several variance-reduced PG methods have been proposed with a theoretical guarantee of converging to an approximate first-order stationary point (FOSP) with the sample complexity of $O(\epsilon^{-3})$. However, FOSPs could be bad local optima or saddle points. Moreover, these algorithms often use importance sampling (IS) weights which could impair the statistical effectiveness of variance reduction. In this paper, we propose a variance-reduced second-order method that uses second-order information in the form of Hessian vector products (HVP) and converges to an approximate second-order stationary point (SOSP) with sample complexity of $\tilde{O}(\epsilon^{-3})$. This rate improves the best-known sample complexity for achieving approximate SOSPs by a factor of $O(\epsilon^{-0.5})$. Moreover, the proposed variance reduction technique bypasses IS weights by using HVP terms. Our experimental results show that the proposed algorithm outperforms the state of the art and is more robust to changes in random seeds. | 翻訳日:2023-11-16 16:12:34 公開日:2023-11-15 |
# 画像偽造定位のためのプログレッシブフィードバックエンハンスドトランス Progressive Feedback-Enhanced Transformer for Image Forgery Localization ( http://arxiv.org/abs/2311.08910v1 ) ライセンス: Link先を確認 | Haochen Zhu, Gang Cao, Xianglin Huang | (参考訳) デジタル画像における偽領域の盲検検出は、ローカル画像編集技術の悪用に対抗する効果的な認証手段である。
既存のエンコーダ・デコーダ法定ネットワークは、複雑で微妙な改ざんされた領域を検出するには、通常より多くのフィードバック情報を必要とするという事実を無視する。
本稿では,画像偽造ローカライズを実現するために,progressive feedback-enhanced transformer (profact) ネットワークを提案する。
具体的には、初期分岐ネットワークによって生成された粗い局所化マップを初期変圧器エンコーダ層に適応的に送り戻し、干渉因子を抑えつつ正の特徴の表現を高める。
カスケードトランスフォーマーネットワークは、文脈的空間ピラミッドモジュールと組み合わせて、偽造のローカライズ精度と信頼性を向上させるための識別法医学的特徴を洗練するように設計されている。
さらに,実世界の法医学的シナリオ,特に現実的かつコヒーレントな処理において,大規模な画像サンプルを自動的に生成する効果的な戦略を提案する。
このようなサンプルを活用して、ProFactネットワークにプログレッシブでコスト効率のよい2段階トレーニングプロトコルを適用する。
9つの公衆法医学データセットの広範な実験結果から,提案するローカライザは,画像偽造ローカライゼーションの一般化能力とロバスト性において,最先端のものを大幅に上回っていることが示された。
コードはhttps://github.com/multimediaFor/ProFact.comで公開される。 Blind detection of the forged regions in digital images is an effective authentication means to counter the malicious use of local image editing techniques. Existing encoder-decoder forensic networks overlook the fact that detecting complex and subtle tampered regions typically requires more feedback information. In this paper, we propose a Progressive FeedbACk-enhanced Transformer (ProFact) network to achieve coarse-to-fine image forgery localization. Specifically, the coarse localization map generated by an initial branch network is adaptively fed back to the early transformer encoder layers for enhancing the representation of positive features while suppressing interference factors. The cascaded transformer network, combined with a contextual spatial pyramid module, is designed to refine discriminative forensic features for improving the forgery localization accuracy and reliability. Furthermore, we present an effective strategy to automatically generate large-scale forged image samples close to real-world forensic scenarios, especially in realistic and coherent processing. Leveraging on such samples, a progressive and cost-effective two-stage training protocol is applied to the ProFact network. The extensive experimental results on nine public forensic datasets show that our proposed localizer greatly outperforms the state-of-the-art on the generalization ability and robustness of image forgery localization. Code will be publicly available at https://github.com/multimediaFor/ProFact. | 翻訳日:2023-11-16 16:12:16 公開日:2023-11-15 |
# DLAS: ディープラーニング加速スタックの探索と評価 DLAS: An Exploration and Assessment of the Deep Learning Acceleration Stack ( http://arxiv.org/abs/2311.08909v1 ) ライセンス: Link先を確認 | Perry Gibson, Jos\'e Cano, Elliot J. Crowley, Amos Storkey, Michael O'Boyle | (参考訳) ディープニューラルネットワーク(DNN)は非常に計算的に要求されているため、リソース制約のあるデバイスへのデプロイメントに大きな障壁が生じる。
このようなデバイスは、多くの深層学習アプリケーション(ドローン、ビジョンベースの医療技術など)が存在しているため、マシンラーニングとシステムコミュニティの両方の作業が、dnnを加速するための最適化を提供しようと試みている。
本稿では,これら2つの視点を統合するために,Deep Learning Acceleration Stack (DLAS)内の機械学習とシステム技術を組み合わせる。
2つのデータセット,7つのDNNアーキテクチャ,4つのDNN圧縮技術,疎密な3つのアルゴリズムプリミティブ,未チューニングおよび自動スケジューリングコード生成,4つのハードウェアプラットフォームにおいて,DLASのパラメータが異なる場合の精度と推定時間への影響を評価する。
評価では,DLASパラメータ間の摂動が,大きな変動やスタック間相互作用を引き起こすかを強調した。
評価から得られた最も高いレベルの観測は、モデルのサイズ、精度、推測時間が相関しないことである。
全体としては、圧縮技術が提供するスピードアップはハードウェアに依存しており、コンパイラの自動チューニングは、与えられた構成に最適なアルゴリズムが何であるかを著しく変えることができる、など、13の重要な観察を行います。
DLASでは、機械学習やシステム実践者がそれぞれのDNNアクセラレーションソリューションが存在する状況について推論する上で、参照フレームワークを提供することを目指している。
我々の評価は共同設計の必要性を強く動機付けており、DLASは次世代の加速学習ソリューションを探求する上で価値のある概念であると考えている。 Deep Neural Networks (DNNs) are extremely computationally demanding, which presents a large barrier to their deployment on resource-constrained devices. Since such devices are where many emerging deep learning applications lie (e.g., drones, vision-based medical technology), significant bodies of work from both the machine learning and systems communities have attempted to provide optimizations to accelerate DNNs. To help unify these two perspectives, in this paper we combine machine learning and systems techniques within the Deep Learning Acceleration Stack (DLAS), and demonstrate how these layers can be tightly dependent on each other with an across-stack perturbation study. We evaluate the impact on accuracy and inference time when varying different parameters of DLAS across two datasets, seven popular DNN architectures, four DNN compression techniques, three algorithmic primitives with sparse and dense variants, untuned and auto-scheduled code generation, and four hardware platforms. Our evaluation highlights how perturbations across DLAS parameters can cause significant variation and across-stack interactions. The highest level observation from our evaluation is that the model size, accuracy, and inference time are not guaranteed to be correlated. Overall we make 13 key observations, including that speedups provided by compression techniques are very hardware dependent, and that compiler auto-tuning can significantly alter what the best algorithm to use for a given configuration is. With DLAS, we aim to provide a reference framework to aid machine learning and systems practitioners in reasoning about the context in which their respective DNN acceleration solutions exist in. With our evaluation strongly motivating the need for co-design, we believe that DLAS can be a valuable concept for exploring the next generation of co-designed accelerated deep learning solutions. | 翻訳日:2023-11-16 16:11:49 公開日:2023-11-15 |
# SIBOW-SVMを用いたロバスト脳MRI画像分類 Robust Brain MRI Image Classification with SIBOW-SVM ( http://arxiv.org/abs/2311.08908v1 ) ライセンス: Link先を確認 | Liyun Zeng and Hao Helen Zhang | (参考訳) 脳の中枢神経系(cns)腫瘍の大部分は、ヒトに影響を与える最も攻撃的な疾患である。
脳腫瘍の早期発見(良性、悪性、グリア、非グリア)は、がんの予防と治療に重要であり、究極的にはヒトの寿命を向上させる。
磁気共鳴イメージング(MRI)は、スキャンを通して包括的な脳画像を生成することで脳腫瘍を検出する最も効果的な技術である。
しかし、人間の検査は脳腫瘍の複雑さ、大きさ、位置変動のため、エラーを起こしやすく、非効率である。
近年,畳み込みニューラルネットワーク(cnn)などの機械学習(ml)手法を用いた自動分類手法が,計算コストを低く抑えつつ,手動スクリーニングよりも高い精度を示している。
それにもかかわらず、CNNを含むディープラーニングに基づく画像分類手法は、適切なモデルキャリブレーションなしでクラス確率を推定する際の課題に直面している。
本稿では,Bag-of-Features(BoF)モデルとSIFT特徴抽出と重み付きサポートベクトルマシン(wSVM)を統合した新しい脳腫瘍画像分類手法であるSIBOW-SVMを提案する。
この新しいアプローチは、隠れた画像の特徴を効果的に捉え、様々な腫瘍タイプの分化と正確なラベル予測を可能にする。
さらに、SIBOW-SVMは、各クラスに属する画像の確率を推定することができ、高い信頼性の分類決定を提供する。
また,大規模画像に対するSIBOW-SVMの実装を容易にするために,スケーラブルで並列性の高いアルゴリズムを開発した。
ベンチマークとして,sibw-svmをグリオーマ,髄膜腫,下垂体,正常の4クラスを含む脳腫瘍mri画像の公開データセットに適用した。
その結果,新しい手法はcnnを含む最先端手法よりも優れていることがわかった。 The majority of primary Central Nervous System (CNS) tumors in the brain are among the most aggressive diseases affecting humans. Early detection of brain tumor types, whether benign or malignant, glial or non-glial, is critical for cancer prevention and treatment, ultimately improving human life expectancy. Magnetic Resonance Imaging (MRI) stands as the most effective technique to detect brain tumors by generating comprehensive brain images through scans. However, human examination can be error-prone and inefficient due to the complexity, size, and location variability of brain tumors. Recently, automated classification techniques using machine learning (ML) methods, such as Convolutional Neural Network (CNN), have demonstrated significantly higher accuracy than manual screening, while maintaining low computational costs. Nonetheless, deep learning-based image classification methods, including CNN, face challenges in estimating class probabilities without proper model calibration. In this paper, we propose a novel brain tumor image classification method, called SIBOW-SVM, which integrates the Bag-of-Features (BoF) model with SIFT feature extraction and weighted Support Vector Machines (wSVMs). This new approach effectively captures hidden image features, enabling the differentiation of various tumor types and accurate label predictions. Additionally, the SIBOW-SVM is able to estimate the probabilities of images belonging to each class, thereby providing high-confidence classification decisions. We have also developed scalable and parallelable algorithms to facilitate the practical implementation of SIBOW-SVM for massive images. As a benchmark, we apply the SIBOW-SVM to a public data set of brain tumor MRI images containing four classes: glioma, meningioma, pituitary, and normal. Our results show that the new method outperforms state-of-the-art methods, including CNN. | 翻訳日:2023-11-16 16:11:17 公開日:2023-11-15 |
# 不均一臨床時系列におけるステップワイズ埋め込みの重要性について On the Importance of Step-wise Embeddings for Heterogeneous Clinical Time-Series ( http://arxiv.org/abs/2311.08902v1 ) ライセンス: Link先を確認 | Rita Kuznetsova, Aliz\'ee Pace, Manuel Burger, Hugo Y\`eche, Gunnar R\"atsch | (参考訳) シーケンスモデリングのためのディープラーニングアーキテクチャの最近の進歩は、電子健康記録から時系列を扱うタスクに完全に移行していない。
特に、ICU(Intensive Care Unit)に関わる問題では、木に基づく手法で表形式でシーケンス分類に取り組むことが現状である。
表型データの深層学習における最近の知見は、データ入力特徴の重大不均一性をよりよく扱うことによって、これらの古典的手法を超越している。
icu時系列で示される類似した特徴の多様性を考慮し,これらの知見に動機づけられて,これらの新しい手法が臨床シーケンスモデリングタスクに与える影響について検討した。
表型データに対する深層学習の進歩を共同で活用することにより,臨床データに対する機械学習手法では未検討の時系列モデリングにおける段階的埋め込みの重要性を明らかにすることを目的とする。
大規模ICUデータセットMIMIC-IIIとHIRIDの多種多様な臨床的タスクについて,時間段階埋め込みモデルとして表型時系列の最先端手法を網羅的に分析し,全体的な性能改善を示す。
特に, ステップワイド埋め込みモジュールにおいて, 予め定義されたセマンティックグループ内の特徴を考慮すると, 臨床時系列における特徴グループ化の重要性が顕著に証明される。 Recent advances in deep learning architectures for sequence modeling have not fully transferred to tasks handling time-series from electronic health records. In particular, in problems related to the Intensive Care Unit (ICU), the state-of-the-art remains to tackle sequence classification in a tabular manner with tree-based methods. Recent findings in deep learning for tabular data are now surpassing these classical methods by better handling the severe heterogeneity of data input features. Given the similar level of feature heterogeneity exhibited by ICU time-series and motivated by these findings, we explore these novel methods' impact on clinical sequence modeling tasks. By jointly using such advances in deep learning for tabular data, our primary objective is to underscore the importance of step-wise embeddings in time-series modeling, which remain unexplored in machine learning methods for clinical data. On a variety of clinically relevant tasks from two large-scale ICU datasets, MIMIC-III and HiRID, our work provides an exhaustive analysis of state-of-the-art methods for tabular time-series as time-step embedding models, showing overall performance improvement. In particular, we evidence the importance of feature grouping in clinical time-series, with significant performance gains when considering features within predefined semantic groups in the step-wise embedding module. | 翻訳日:2023-11-16 16:10:49 公開日:2023-11-15 |
# 駆動散逸量子系における自己組織化時間結晶 Self-Organized Time Crystal in Driven-Dissipative Quantum System ( http://arxiv.org/abs/2311.08899v1 ) ライセンス: Link先を確認 | Ya-Xin Xiang, Qun-Li Lei, Zhengyang Bai, Yu-Qiang Ma | (参考訳) 連続時間結晶(CTC)は、時間変換対称性を破る持続振動によって特徴づけられる。
ノーゴー定理による平衡CTCの排除以来、このような動的位相の出現は様々な駆動散逸量子プラットフォームで観測されてきた。
現在のCTCの理解は主に平均場(MF)理論に基づいており、全ての結合を保護することなく、ノイズの多い空間的に拡張されたシステムに長距離時間結晶秩序が存在するかどうかという問題に対処できない。
本稿では,自己組織的不安定性(SOB)を通じて量子接触モデルで実現された新しいCTCを提案する。
エキゾチックCTCは、第1次吸収相転移(APT)によって誘導される集合散逸と、非コヒーレントポンプによって提供される緩やかな定速駆動との相互作用に由来する。
固有量子揺らぎの作用下での有限次元の振動位相の安定性は、関数的再正規化群法と数値シミュレーションによって検証される。
量子同期のエッジで発生し、ctc位相は、系サイズで分岐するコヒーレンス時間とともに固有周期と振幅を示し、したがって境界時間結晶(btc)を構成する。
我々の結果は、強く相互作用するオープンシステムにおいて、自己保護型CTCへの確かな経路として機能する。 Continuous time crystals (CTCs) are characterized by sustained oscillations that break the time translation symmetry. Since the ruling out of equilibrium CTCs by no-go theorems, the emergence of such dynamical phases has been observed in various driven-dissipative quantum platforms. The current understanding of CTCs is mainly based on mean-field (MF) theories, which fail to address the problem of whether the long-range time crystalline order exists in noisy, spatially extended systems without the protection of all-to-all couplings. Here, we propose a new kind of CTC realized in a quantum contact model through self-organized bistability (SOB). The exotic CTCs stem from the interplay between collective dissipation induced by the first-order absorbing phase transitions (APTs) and slow constant driving provided by an incoherent pump. The stability of such oscillatory phases in finite dimensions under the action of intrinsic quantum fluctuations is scrutinized by the functional renormalization group method and numerical simulations. Occurring at the edge of quantum synchronization, the CTC phase exhibits an inherent period and amplitude with a coherence time diverging with system size, thus also constituting a boundary time crystal (BTC). Our results serve as a solid route towards self-protected CTCs in strongly interacting open systems. | 翻訳日:2023-11-16 16:10:24 公開日:2023-11-15 |
# HELLaMA:重要なエビデンスをハイライトしたLLaMAベースのテキスト生成テーブル HELLaMA: LLaMA-based Table to Text Generation by Highlighting the Important Evidence ( http://arxiv.org/abs/2311.08896v1 ) ライセンス: Link先を確認 | Junyi Bian, Xiaolei Qin, Wuhe Zou, Mengzuo Huang, Weidong Zhang | (参考訳) 大規模モデルは、特にテキスト生成に関連するタスクにおいて、様々なドメインで著しく進歩している。
Table to Textのドメインでは、多くのLarge Language Model(LLM)ベースのメソッドが、公開APIを呼び出すプロンプトを変更し、潜在的なコストと情報漏洩を引き起こす。
オープンソースの大規模モデルが出現すると、微調整 LLM が実現可能になった。
本研究ではLLaMA2モデルを用いてパラメータ効率の良い微調整を行った。
従来の微調整ベースのテーブル・ツー・テキスト法と区別して,テーブル固有の行データを強調することで,入力に推論情報を注入する手法を提案する。
私たちのモデルは2つのモジュールで構成されています。
1)関係する行証拠を識別する表推論者,及び
2) 強調された表に基づいて文を生成する表要約器。
そこで本研究では,テーブル推論者の学習のための推論ラベルを構築するための探索戦略を提案する。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
さらに,入力テーブルの強調表示により,モデルの性能が著しく向上し,有用な解釈性が期待できることがわかった。 Large models have demonstrated significant progress across various domains, particularly in tasks related to text generation. In the domain of Table to Text, many Large Language Model (LLM)-based methods currently resort to modifying prompts to invoke public APIs, incurring potential costs and information leaks. With the advent of open-source large models, fine-tuning LLMs has become feasible. In this study, we conducted parameter-efficient fine-tuning on the LLaMA2 model. Distinguishing itself from previous fine-tuning-based table-to-text methods, our approach involves injecting reasoning information into the input by emphasizing table-specific row data. Our model consists of two modules: 1) a table reasoner that identifies relevant row evidence, and 2) a table summarizer that generates sentences based on the highlighted table. To facilitate this, we propose a search strategy to construct reasoning labels for training the table reasoner. On both the FetaQA and QTSumm datasets, our approach achieved state-of-the-art results. Additionally, we observed that highlighting input tables significantly enhances the model's performance and provides valuable interpretability. | 翻訳日:2023-11-16 16:09:45 公開日:2023-11-15 |
# ゼロショット知識ベース質問応答のためのBlackbox LLMを用いたトランスファー学習とインコンテキスト学習の併用 Combining Transfer Learning with In-context Learning using Blackbox LLMs for Zero-shot Knowledge Base Question Answering ( http://arxiv.org/abs/2311.08894v1 ) ライセンス: Link先を確認 | Mayur Patidar, Avinash Singh, Riya Sawhney, Indrajit Bhattacharya, Mausam | (参考訳) 本稿では,知識ベース質問応答(KBQA)問題に対するゼロショット転送学習の設定について述べる。そこでは,大量のラベル付きトレーニングデータがソースドメインで利用可能であるが,そのようなラベル付きサンプルは対象ドメインでは利用できない。
KBQAの転送学習では、ソース内のラベル付きデータに加えて、ターゲット内のラベル付けされていない大量のデータを利用する。
最近では、BLLM(Black-box Large Language Models)を用いたテキスト内学習がKBQAに適用されている。
本稿では、KBQAにこれらの2つのパラダイムを有意義に組み合わせて、それらのメリットを積み上げる方法を示す。
具体的には、教師付きKBQAの2段階検索生成パイプラインを保存し、BLLMを用いたテキスト内学習とソースからの転送学習の相互作用を導入する。
さらに,転送設定から切り離されたBLLMを用いた実行誘導自己抑制を提案する。
ベンチマークデータセットGrailQAをソースとし、WebQSPをターゲットとする実験により、提案された組み合わせにより、両方のステージに大幅な改善がもたらされ、また、ソース上でトレーニングされた最先端のKBQAモデルによって性能が向上することを示した。
また、ドメイン内設定では、BLLM拡張はラベル付きデータのボリュームが制限されている場合、最先端の教師付きモデルよりも大幅に優れており、また、大規模なトレーニングデータセット全体を用いても、これらのモデルよりもはるかに優れていることを示す。 We address the zero-shot transfer learning setting for the knowledge base question answering (KBQA) problem, where a large volume of labeled training data is available for the source domain, but no such labeled examples are available for the target domain. Transfer learning for KBQA makes use of large volumes of unlabeled data in the target in addition to the labeled data in the source. More recently, few-shot in-context learning using Black-box Large Language Models (BLLMs) has been adapted for KBQA without considering any source domain data. In this work, we show how to meaningfully combine these two paradigms for KBQA so that their benefits add up. Specifically, we preserve the two stage retrieve-then-generate pipeline of supervised KBQA and introduce interaction between in-context learning using BLLMs and transfer learning from the source for both stages. In addition, we propose execution-guided self-refinement using BLLMs, decoupled from the transfer setting. With the help of experiments using benchmark datasets GrailQA as the source and WebQSP as the target, we show that the proposed combination brings significant improvements to both stages and also outperforms by a large margin state-of-the-art supervised KBQA models trained on the source. We also show that in the in-domain setting, the proposed BLLM augmentation significantly outperforms state-of-the-art supervised models, when the volume of labeled data is limited, and also outperforms these marginally even when using the entire large training dataset. | 翻訳日:2023-11-16 16:09:18 公開日:2023-11-15 |
# adaptershadow: シャドー検出にsegment anythingモデルを適用する AdapterShadow: Adapting Segment Anything Model for Shadow Detection ( http://arxiv.org/abs/2311.08891v1 ) ライセンス: Link先を確認 | Leiping Jie and Hui Zhang | (参考訳) Segment Any Model (SAM)は、特に精巧なプロンプトが提供されるとき、普遍オブジェクトのセグメンテーションにおいて、その素晴らしいパフォーマンスを示している。
しかし、SAMの欠点は2つある。
第一に、医療画像中のシャドウ画像や病変など、特定のターゲットを区分することができない。
一方、手動でプロンプトを指定するのは非常に時間がかかる。
そこで本研究では,影検出にSAMモデルを適用するAdapterShadowを提案する。
影画像にSAMを適用するために、SAMの凍結画像エンコーダにトレーニング可能なアダプタを挿入する。
さらに,手動による介入を伴わずにシャドウを自動的に分割する高密度点プロンプトを生成する新しいグリッドサンプリング手法を提案する。
提案手法の優れた性能を示すために,4つのベンチマークデータセットを用いて広範な実験を行った。
コードはhttps://github.com/LeipingJie/AdapterShadow.comで公開されている。 Segment anything model (SAM) has shown its spectacular performance in segmenting universal objects, especially when elaborate prompts are provided. However, the drawback of SAM is twofold. On the first hand, it fails to segment specific targets, e.g., shadow images or lesions in medical images. On the other hand, manually specifying prompts is extremely time-consuming. To overcome the problems, we propose AdapterShadow, which adapts SAM model for shadow detection. To adapt SAM for shadow images, trainable adapters are inserted into the frozen image encoder of SAM, since the training of the full SAM model is both time and memory consuming. Moreover, we introduce a novel grid sampling method to generate dense point prompts, which helps to automatically segment shadows without any manual interventions. Extensive experiments are conducted on four widely used benchmark datasets to demonstrate the superior performance of our proposed method. Codes will are publicly available at https://github.com/LeipingJie/AdapterShadow. | 翻訳日:2023-11-16 16:08:34 公開日:2023-11-15 |
# 大規模言語モデルは合法だが、そうではない - 強力な合法性のために Large Language Models are legal but they are not: Making the case for a powerful LegalLLM ( http://arxiv.org/abs/2311.08890v1 ) ライセンス: Link先を確認 | Thanmay Jayakumar, Fauzan Farooqui, Luqman Farooqui | (参考訳) 自然言語処理(nlp)の法的な分野への最近の進歩は、非常に長いシーケンス長、法律専門家によってのみ理解される特殊な語彙、大量のデータ不均衡といった困難な問題を引き起こす。
最近のLarge Language Models (LLMs)の急増は、長く複雑なシーケンスを扱う能力のために、法域にNLPを適用する新たな機会を提供し始めている。
さらに、ドメイン固有のLSMの出現は、様々なタスクにおいて非常に有望な結果を示している。
本研究では,LLM が法領域モデル(LLM など)と比較して,一般 LLM がどのように機能するかを定量化することを目的とする。
具体的には、LexGLUEベンチマークのLEDGARサブセットにおける3つの汎用LCM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較して、契約条件分類を行う。
LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することができる。
しかし、mic-f1/mac-f1の性能は、法律領域で微調整された小型モデルよりも最大19.2/26.8\%低いため、より強力な法域llmの必要性が強調された。 Realizing the recent advances in Natural Language Processing (NLP) to the legal sector poses challenging problems such as extremely long sequence lengths, specialized vocabulary that is usually only understood by legal professionals, and high amounts of data imbalance. The recent surge of Large Language Models (LLMs) has begun to provide new opportunities to apply NLP in the legal domain due to their ability to handle lengthy, complex sequences. Moreover, the emergence of domain-specific LLMs has displayed extremely promising results on various tasks. In this study, we aim to quantify how general LLMs perform in comparison to legal-domain models (be it an LLM or otherwise). Specifically, we compare the zero-shot performance of three general-purpose LLMs (ChatGPT-20b, LLaMA-2-70b, and Falcon-180b) on the LEDGAR subset of the LexGLUE benchmark for contract provision classification. Although the LLMs were not explicitly trained on legal data, we observe that they are still able to classify the theme correctly in most cases. However, we find that their mic-F1/mac-F1 performance is up to 19.2/26.8\% lesser than smaller models fine-tuned on the legal domain, thus underscoring the need for more powerful legal-domain LLMs. | 翻訳日:2023-11-16 16:08:04 公開日:2023-11-15 |
# CLIMB:幼児モデル構築のためのカリキュラム学習 CLIMB: Curriculum Learning for Infant-inspired Model Building ( http://arxiv.org/abs/2311.08886v1 ) ライセンス: Link先を確認 | Richard Diehl Martinez, Zebulon Goriely, Hope McGovern, Christopher Davis, Andrew Caines, Paula Buttery, Lisa Beinborn | (参考訳) 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万語の比較的小さなトレーニングデータセットのみを使用して、スクラッチから言語モデルをトレーニングすることである。
認知的動機のあるカリキュラム学習の3つのバリエーションを実験し、そのモデルの性能が言語評価タスクに与える影響を分析する。
語彙カリキュラムでは、学習の初期段階で語彙を制約する手法を分析し、認知的に読みやすい学習曲線をシミュレートする。
データカリキュラムの実験では、トレーニングインスタンスの順序が異なります。
一 幼児に触発された期待及び
二 モデルの学習行動
目的とするカリキュラムでは,従来のマスク付き言語モデリングタスクとより粗い単語クラス予測タスクを組み合わせることで,言語一般化能力の強化を図る。
本研究の結果は, 言語ベンチマークにおいて, 非カリキュラム学習ベースラインに対して一貫した改善は得られなかったが, 特定のタスクに対して, 限界的な利得が得られた。
分析では,提案するカリキュラムの恩恵を受けるタスクと設定の具体的組み合わせに関する要点を強調した。
さらに、モデルアーキテクチャの慎重に選択し、ハイパーパラメータをトレーニングすることで、BabyLMチャレンジが提供するデフォルトベースラインよりも大幅に改善できると判断する。 We describe our team's contribution to the STRICT-SMALL track of the BabyLM Challenge. The challenge requires training a language model from scratch using only a relatively small training dataset of ten million words. We experiment with three variants of cognitively-motivated curriculum learning and analyze their effect on the performance of the model on linguistic evaluation tasks. In the vocabulary curriculum, we analyze methods for constraining the vocabulary in the early stages of training to simulate cognitively more plausible learning curves. In the data curriculum experiments, we vary the order of the training instances based on i) infant-inspired expectations and ii) the learning behavior of the model. In the objective curriculum, we explore different variations of combining the conventional masked language modeling task with a more coarse-grained word class prediction task to reinforce linguistic generalization capabilities. Our results did not yield consistent improvements over our own non-curriculum learning baseline across a range of linguistic benchmarks; however, we do find marginal gains on select tasks. Our analysis highlights key takeaways for specific combinations of tasks and settings which benefit from our proposed curricula. We moreover determine that careful selection of model architecture, and training hyper-parameters yield substantial improvements over the default baselines provided by the BabyLM challenge. | 翻訳日:2023-11-16 16:07:31 公開日:2023-11-15 |
# ルールから学ぶための大規模言語モデルの実現 Enabling Large Language Models to Learn from Rules ( http://arxiv.org/abs/2311.08883v1 ) ライセンス: Link先を確認 | Wenkai Yang, Yankai Lin, Jie Zhou, Jirong Wen | (参考訳) 大規模言語モデル(LLM)は、様々な現実世界のタスクを完了させるのに素晴らしいパフォーマンスを示している。
LLMの現在の知識学習パラダイムは主に、LLMが一定の数の教師付き例から暗黙的に内部ルールを学ぶ例から学ぶことに基づいている。
しかし、学習パラダイムは、特にトレーニング例が限定されている場合、これらの複雑なルールを十分に学ばないかもしれない。
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
つまり、人間が新しいタスクや知識を素早く把握し、詳細なルールといくつかのオプションの例だけをうまく一般化することができる。
そこで本稿では,ルールに基づく知識をllmにエンコードする新しい学習パラダイムの実現可能性について検討する。
まず, LLMの強いコンテキスト内能力を用いて, テキストルールから知識を抽出し, モデル内で生成したコンテキスト内信号から学習することで, LLMのパラメータに明示的に知識をエンコードするルール蒸留を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。 Large language models (LLMs) have shown incredible performance in completing various real-world tasks. The current knowledge learning paradigm of LLMs is mainly based on learning from examples, in which LLMs learn the internal rule implicitly from a certain number of supervised examples. However, the learning paradigm may not well learn those complicated rules, especially when the training examples are limited. We are inspired that humans can learn the new tasks or knowledge in another way by learning from rules. That is, humans can grasp the new tasks or knowledge quickly and generalize well given only a detailed rule and a few optional examples. Therefore, in this paper, we aim to explore the feasibility of this new learning paradigm, which encodes the rule-based knowledge into LLMs. We propose rule distillation, which first uses the strong in-context abilities of LLMs to extract the knowledge from the textual rules and then explicitly encode the knowledge into LLMs' parameters by learning from the above in-context signals produced inside the model. Our experiments show that making LLMs learn from rules by our method is much more efficient than example-based learning in both the sample size and generalization ability. | 翻訳日:2023-11-16 16:07:07 公開日:2023-11-15 |
# 重力の量子性を明らかにする保存法則 Conservation Laws Reveal the Quantumness of Gravity ( http://arxiv.org/abs/2311.08971v1 ) ライセンス: Link先を確認 | Tianfeng Feng, Chiara Marletto and Vlatko Vedral | (参考訳) 情報理論に基づく量子古典力学の普遍的枠組みを提案する。
これに基づいて,量子物質と古典的重力場との相互作用を解析する。
運動量やエネルギーの保存という仮定の下では、古典的重力場は量子系の運動量やエネルギーの変化を引き起こすことはできないが、これは既存の実験(例えば自由落下実験)の観測と一致しない。
本解析は,保存則と物体の量子特性との間の基礎的な関係を明らかにし,量子重力の研究に新たな視点を提供する。 A universal framework for quantum-classical dynamics based on information-theoretic approaches is presented. Based on this, we analyze the interaction between quantum matter and a classical gravitational field. We point out that, under the assumption of conservation of momentum or energy, the classical gravitational field cannot cause the change of the momentum or energy of the quantum system, which is not consistent with the observation of existing experiments (e.g. the free fall experiment), while on the contrary the quantum gravitational field can do so. Our analysis exposes the fundamental relationship between conservation laws and the quantum properties of objects, offering new perspectives for the study of quantum gravity. | 翻訳日:2023-11-16 15:58:05 公開日:2023-11-15 |
# 大規模言語モデルにおける線形関係概念の同定 Identifying Linear Relational Concepts in Large Language Models ( http://arxiv.org/abs/2311.08968v1 ) ライセンス: Link先を確認 | David Chanin, Anthony Hunter, Oana-Maria Camburu | (参考訳) トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。
しかし、どんな解釈可能な概念であっても、潜在空間でその方向を見出すにはどうすればよいのか?
本稿では、まず、対象物と対象物の関係を線形リレーショナル埋め込み(LRE)としてモデル化し、トランスフォーマLMにおいて、人間の解釈可能な概念に対応する概念方向を求めるリニアリレーショナル概念(LRC)と呼ばれる手法を提案する。
LREの作業は主にモデル表現を理解するための演習として行われたが、初期のオブジェクト層を用いてLREを反転させることによって、分類器や因果的モデル出力の両方がうまく機能する概念方向を見つけるための強力なテクニックが得られた。 Transformer language models (LMs) have been shown to represent concepts as directions in the latent space of hidden activations. However, for any given human-interpretable concept, how can we find its direction in the latent space? We present a technique called linear relational concepts (LRC) for finding concept directions corresponding to human-interpretable concepts at a given hidden layer in a transformer LM by first modeling the relation between subject and object as a linear relational embedding (LRE). While the LRE work was mainly presented as an exercise in understanding model representations, we find that inverting the LRE while using earlier object layers results in a powerful technique to find concept directions that both work well as a classifier and causally influence model outputs. | 翻訳日:2023-11-16 15:57:55 公開日:2023-11-15 |
# ストリーミングトランスデューサにおける音素特徴とテキストのみデータを用いた大規模深部バイアスの改善 Improving Large-scale Deep Biasing with Phoneme Features and Text-only Data in Streaming Transducer ( http://arxiv.org/abs/2311.08966v1 ) ライセンス: Link先を確認 | Jin Qiu, Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma | (参考訳) Transducerのディープバイアスは、特にASR(Automatic Speech Recognition)のストリーミングに不可欠な、稀な単語やコンテキストエンティティの認識性能を改善することができる。
しかし、より注意をそらせば性能が大幅に低下し、バイアスリストに類似したグラフ列を持つ単語が存在するため、大規模な稀な単語による深いバイアスは依然として困難である。
本稿では,トランスデューサにおけるレアワードの音素情報とテキスト情報を組み合わせて,類似した発音や綴りで単語を区別する。
さらに、より希少な単語を含むテキストのみのデータによるトレーニングの導入は、大規模な深層バイアスの恩恵を受ける。
LibriSpeech corpus の実験により,提案手法は,異なるスケールとバイアスリストのレベルに対して,稀な単語誤り率に対する最先端性能を実現することを示した。 Deep biasing for the Transducer can improve the recognition performance of rare words or contextual entities, which is essential in practical applications, especially for streaming Automatic Speech Recognition (ASR). However, deep biasing with large-scale rare words remains challenging, as the performance drops significantly when more distractors exist and there are words with similar grapheme sequences in the bias list. In this paper, we combine the phoneme and textual information of rare words in Transducers to distinguish words with similar pronunciation or spelling. Moreover, the introduction of training with text-only data containing more rare words benefits large-scale deep biasing. The experiments on the LibriSpeech corpus demonstrate that the proposed method achieves state-of-the-art performance on rare word error rate for different scales and levels of bias lists. | 翻訳日:2023-11-16 15:57:38 公開日:2023-11-15 |
# 2次元および3次元格子上のブロック拘束スピンモデルの基底状態の変分多様体とスカーレッドダイナミクス Variational manifolds for ground states and scarred dynamics of blockade-constrained spin models on two and three dimensional lattices ( http://arxiv.org/abs/2311.08965v1 ) ライセンス: Link先を確認 | Joey Li, Giuliano Giudici, Hannes Pichler | (参考訳) 我々は、Rydberg atom array によって実現されたスピン-1/2系を記述する制約付きモデルの族を研究するために、単純なテンソルネットワーク状態の変分多様体を導入する。
本多様体は、任意の空間次元における1点および2点関数の摂動拡大による解析計算を可能にし、変分エネルギー最小化および変分時間発展に必要な行列要素を最大3次元で効率的な計算を可能にする。
この枠組みを1D, 2D, 3Dの超立方体格子上のPXPモデルに適用し、それぞれの場合において、平衡の格子下対称性を破る量子相転移を示し、平衡から多くの天体の傷を負うことを示す。
本手法は,全ての現象を定性的に捉え,格子の次元によって増加する精度で重要な量を予測し,制約されたスピンモデルに対する平均場理論の一般化として解釈できることを示す。 We introduce a variational manifold of simple tensor network states for the study of a family of constrained models that describe spin-1/2 systems as realized by Rydberg atom arrays. Our manifold permits analytical calculation via perturbative expansion of one- and two-point functions in arbitrary spatial dimensions and allows for efficient computation of the matrix elements required for variational energy minimization and variational time evolution in up to three dimensions. We apply this framework to the PXP model on the hypercubic lattice in 1D, 2D, and 3D, and show that, in each case, it exhibits quantum phase transitions breaking the sub-lattice symmetry in equilibrium, and hosts quantum many body scars out of equilibrium. We demonstrate that our variational ansatz qualitatively captures all these phenomena and predicts key quantities with an accuracy that increases with the dimensionality of the lattice, and conclude that our method can be interpreted as a generalization of mean-field theory to constrained spin models. | 翻訳日:2023-11-16 15:57:24 公開日:2023-11-15 |
# DBJoules:データベース管理システムのためのエネルギー測定ツール DBJoules: An Energy Measurement Tool for Database Management Systems ( http://arxiv.org/abs/2311.08961v1 ) ライセンス: Link先を確認 | Hemasri Sai Lella, Kurra Manasa, Rajrupa Chattaraj and Sridhar Chimalakonda | (参考訳) 現代のデータ駆動技術の急速に発展する状況において、ソフトウェアは計算集約的なタスクをサポートするために様々なデータベースシステムを使用する大規模なデータセットと一定のデータセンター操作に依存している。
ソフトウェアシステムのエネルギー消費が増大するにつれ、エネルギー効率の観点から適切なデータベースを選択することも重要である。
これに対処するために、データベースシステムにおけるアクティビティのエネルギー消費を測定するツールである \textbf{\textit{dbjoules}} を導入する。
\textit{DBJoules} は4つの人気データベースのCRUD操作のエネルギー測定をサポートする。
広く使われている2つのデータセットの評価を通して、これらのデータベースのエネルギー消費量の7-%から38-%の差を識別する。
したがって、エネルギー消費の観点から異なるデータベースでクエリを実行することの効果に関する開発者の意識を高め、持続可能な利用のために適切なデータベースを選択できるようにすることが目標だ。
ツールのデモは \url{https://youtu.be/D1MTZum0jok} で、関連するアーティファクトは \url{https://rishalab.github.io/DBJoules/} で公開されている。 In the rapidly evolving landscape of modern data-driven technologies, software relies on large datasets and constant data center operations using various database systems to support computation-intensive tasks. As energy consumption in software systems becomes a growing concern, selecting the right database from energy-efficiency perspective is also critical. To address this, we introduce \textbf{\textit{DBJoules}}, a tool that measures the energy consumption of activities in database systems. \textit{DBJoules} supports energy measurement of CRUD operations for four popular databases. Through evaluations on two widely-used datasets, we identify disparities of 7\% to 38\% in the energy consumption of these databases. Hence, the goal is to raise developer awareness about the effect of running queries in different databases from an energy consumption perspective, enabling them to select appropriate database for sustainable usage. The tool's demonstration is available at \url{https://youtu.be/D1MTZum0jok} and related artifacts at \url{https://rishalab.github.io/DBJoules/}. | 翻訳日:2023-11-16 15:57:05 公開日:2023-11-15 |
# ぼくは盲目だったけど、今はわかった:ソーシャルロボットの視覚的対話の実装 I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in Social Robots ( http://arxiv.org/abs/2311.08957v1 ) ライセンス: Link先を確認 | Giulio Antonio Abbo and Tony Belpaeme | (参考訳) 人間とコンピュータの相互作用が急速に進化する中で、視覚能力の対話エージェントへの統合は重要な進歩である。
本稿では,大規模な言語モデル(gpt-4,ideficsなど)の最新の進歩を活用して,従来のテキストベースのプロンプトをリアルタイム視覚入力で拡張する対話マネージャの初期実装について述べる。
LLMは、テキストプロンプトと視覚刺激の両方を解釈するために使用され、より文脈的に認識された会話エージェントを生成する。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
このシステムによって駆動されるフルハットロボットとの6つのインタラクションが報告され、その結果を図解し、議論している。
この視覚対応対話システムを実装することで、会話エージェントがテキストと視覚をシームレスにブレンドし、よりリッチでコンテキスト対応な対話を可能にする未来を構想する。 In the rapidly evolving landscape of human-computer interaction, the integration of vision capabilities into conversational agents stands as a crucial advancement. This paper presents an initial implementation of a dialogue manager that leverages the latest progress in Large Language Models (e.g., GPT-4, IDEFICS) to enhance the traditional text-based prompts with real-time visual input. LLMs are used to interpret both textual prompts and visual stimuli, creating a more contextually aware conversational agent. The system's prompt engineering, incorporating dialogue with summarisation of the images, ensures a balance between context preservation and computational efficiency. Six interactions with a Furhat robot powered by this system are reported, illustrating and discussing the results obtained. By implementing this vision-enabled dialogue system, the paper envisions a future where conversational agents seamlessly blend textual and visual modalities, enabling richer, more context-aware dialogues. | 翻訳日:2023-11-16 15:56:48 公開日:2023-11-15 |
# ハイパースペクトル画像の超解像に先立つスペクトル拡散 A Spectral Diffusion Prior for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2311.08955v1 ) ライセンス: Link先を確認 | Jianjun Liu, Zebin Wu, Liang Xiao | (参考訳) 核融合型ハイパースペクトル像(HSI)は,低空間分解能HSIと高空間分解能マルチスペクトル像を融合させて高空間分解能HSIを作成することを目的としている。
このようなHSI超解法プロセスは、所望の解を得るためには、事前知識が不可欠である逆問題としてモデル化することができる。
拡散モデルの成功により,融合型HSI超解像に先立つ新しいスペクトル拡散法を提案する。
具体的には,まずスペクトル生成問題を調査し,スペクトルデータ分布をモデル化するスペクトル拡散モデルを設計する。
そして、最大1つの後続の枠組みにおいて、逆生成過程において隣り合う2つの状態間の遷移情報を保持し、訓練されたスペクトル拡散モデルの知識を正規化項の形で融合問題に組み込む。
最後に、最終的な最適化問題の各生成ステップを部分問題として扱い、adamを用いてこれらの部分問題を逆列で解く。
合成データと実データの両方で行った実験の結果,提案手法の有効性が示された。
提案されたアプローチのコードはhttps://github.com/liuofficial/SDPで公開される。 Fusion-based hyperspectral image (HSI) super-resolution aims to produce a high-spatial-resolution HSI by fusing a low-spatial-resolution HSI and a high-spatial-resolution multispectral image. Such a HSI super-resolution process can be modeled as an inverse problem, where the prior knowledge is essential for obtaining the desired solution. Motivated by the success of diffusion models, we propose a novel spectral diffusion prior for fusion-based HSI super-resolution. Specifically, we first investigate the spectrum generation problem and design a spectral diffusion model to model the spectral data distribution. Then, in the framework of maximum a posteriori, we keep the transition information between every two neighboring states during the reverse generative process, and thereby embed the knowledge of trained spectral diffusion model into the fusion problem in the form of a regularization term. At last, we treat each generation step of the final optimization problem as its subproblem, and employ the Adam to solve these subproblems in a reverse sequence. Experimental results conducted on both synthetic and real datasets demonstrate the effectiveness of the proposed approach. The code of the proposed approach will be available on https://github.com/liuofficial/SDP. | 翻訳日:2023-11-16 15:56:32 公開日:2023-11-15 |
# 免疫組織化学を基準とした無注釈深層学習による自動容積補正mitotic index計算 Automated Volume Corrected Mitotic Index Calculation Through Annotation-Free Deep Learning using Immunohistochemistry as Reference Standard ( http://arxiv.org/abs/2311.08949v1 ) ライセンス: Link先を確認 | Jonas Ammeling, Moritz Hecker, Jonathan Ganz, Taryn A. Donovan, Christof A. Bertram, Katharina Breininger, Marc Aubreville | (参考訳) 浸潤乳癌では, 容積補正ミトーシス指数 (M/V-Index) が有用であった。
しかし、その予後の意義にもかかわらず、上皮の比率を決定することに伴う高い追加作業負荷のため、攻撃的な生物学的行動を評価する標準的な方法として確立されていない。
本研究は, 犬乳癌の上皮分画の正確な推定を行うため, 注記のない免疫組織化学的手法でのみ訓練した深層学習パイプラインを用いて検討した。
手動で注釈を付したM/V-Indexを3名の病理医に比較検討した。
その結果,ディープラーニングに基づくパイプラインは,時間効率と再現性を提供しながら,専門家レベルのパフォーマンスを示すことがわかった。 The volume-corrected mitotic index (M/V-Index) was shown to provide prognostic value in invasive breast carcinomas. However, despite its prognostic significance, it is not established as the standard method for assessing aggressive biological behaviour, due to the high additional workload associated with determining the epithelial proportion. In this work, we show that using a deep learning pipeline solely trained with an annotation-free, immunohistochemistry-based approach, provides accurate estimations of epithelial segmentation in canine breast carcinomas. We compare our automatic framework with the manually annotated M/V-Index in a study with three board-certified pathologists. Our results indicate that the deep learning-based pipeline shows expert-level performance, while providing time efficiency and reproducibility. | 翻訳日:2023-11-16 15:56:12 公開日:2023-11-15 |
# 分散二レベル最適化のための単一ループアルゴリズム A Single-Loop Algorithm for Decentralized Bilevel Optimization ( http://arxiv.org/abs/2311.08945v1 ) ライセンス: Link先を確認 | Youran Dong, Shiqian Ma, Junfeng Yang, Chao Yin | (参考訳) バイレベル最適化は、機械学習の幅広い応用により、近年ますます注目を集めている。
本稿では,分散ネットワークにおけるバイレベル最適化について検討する。
特に, 強凸低レベル問題を用いて分散二値最適化を解くための新しい単一ループアルゴリズムを提案する。
本アルゴリズムは完全に単一ループであり,超次数近似時の重行列ベクトル乗算は不要である。
さらに,分散二レベル最適化とフェデレート二レベル最適化の既存手法とは異なり,アルゴリズムは勾配不均一性仮定を必要としない。
提案手法は,二段階最適化アルゴリズムにおいて最もよく知られた収束率が得られることを示す。 Bilevel optimization has received more and more attention recently due to its wide applications in machine learning. In this paper, we consider bilevel optimization in decentralized networks. In particular, we propose a novel single-loop algorithm for solving decentralized bilevel optimization with strongly convex lower level problem. Our algorithm is fully single-loop and does not require heavy matrix-vector multiplications when approximating the hypergradient. Moreover, unlike existing methods for decentralized bilevel optimization and federated bilevel optimization, our algorithm does not require any gradient heterogeneity assumption. Our analysis shows that the proposed algorithm achieves the best known convergence rate for bilevel optimization algorithms. | 翻訳日:2023-11-16 15:55:59 公開日:2023-11-15 |
# トランスフォーマーを用いた記述論理に基づく文脈の推論 Reasoning over Description Logic-based Contexts with Transformers ( http://arxiv.org/abs/2311.08941v1 ) ライセンス: Link先を確認 | Angelos Poulis, Eleni Tsalapati, Manolis Koubarakis | (参考訳) 現在の技術がトランスフォーマーベースのモデルの推論能力を測定する方法の1つは、自然言語で表現された合成文脈よりも論理的質問応答や証明生成のような下流タスクの精度を評価することである。
しかし、ほとんどの文脈は実際には非常に単純であり、ほとんどの場合、論理演算子と量化子しか持たない短い一階述語論理文から生成される。
本研究では,トランスフォーマーに基づくモデルが,表現的文脈に対する推論をどの程度うまく行うかという疑問に答える。
そこで我々は,記述論理知識ベースから生成した合成自然言語質問応答データセットを構築した。
知識ベースの生成には、表現力のある言語$\mathcal{alcq}$を使用します。
結果として得られたデータセットには、384kのサンプルが含まれ、2次元で増加する。
一 推論の深さ、及び
ii)文の長さ。
DELTA$_M$のDeBERTaモデルの性能は、推論深度が大きくなると影響を受けなくなり、文の長さが大きくなると全く影響しないことを示す。
また,モデルの一般化能力について,学習時に見つからない推論深度,増大と減少の両面から評価し,モデルの適応的一般化能力に関する興味深い洞察を明らかにした。 One way that the current state of the art measures the reasoning ability of transformer-based models is by evaluating accuracy in downstream tasks like logical question answering or proof generation over synthetic contexts expressed in natural language. However, most of the contexts used are in practice very simple; in most cases, they are generated from short first-order logic sentences with only a few logical operators and quantifiers. In this work, we seek to answer the question how well a transformer-based model will perform reasoning over expressive contexts. For this purpose, we construct a synthetic natural language question-answering dataset, generated by description logic knowledge bases. For the generation of the knowledge bases, we use the expressive language $\mathcal{ALCQ}$. The resulting dataset contains 384K examples, and increases in two dimensions: i) reasoning depth, and ii) length of sentences. We show that the performance of our DeBERTa-based model, DELTA$_M$, is marginally affected when the reasoning depth is increased and it is not affected at all when the length of the sentences is increasing. We also evaluate the generalization ability of the model on reasoning depths unseen at training, both increasing and decreasing, revealing interesting insights into the model's adaptive generalization abilities. | 翻訳日:2023-11-16 15:55:49 公開日:2023-11-15 |
# CNE(Confident Naturalness Explanation) : 自然性を形成するパターンの説明と評価のためのフレームワーク Confident Naturalness Explanation (CNE): A Framework to Explain and Assess Patterns Forming Naturalness ( http://arxiv.org/abs/2311.08936v1 ) ライセンス: Link先を確認 | Ahmed Emam, Mohamed Farag, Ribana Roscher | (参考訳) 保護された自然地域は、都市化、農業、その他の人間の介入といった人間の活動によって最小限の影響を受ける地域である。
これらの領域の自然性を理解しマップするために、機械学習モデルを使用して衛星画像を分析することができる。
具体的には、説明可能な機械学習手法は、これらの保護された環境における自然性の概念に寄与するパターンを明らかにすることに有望である。
さらに、機械学習モデルに内在する不確実性に対処することは、この概念の包括的理解に不可欠である。
しかし、既存のアプローチには制限がある。
彼らは、正当かつ客観的な説明を提供しなかったり、特定のパターンの自然性への寄与を正確に測定し、関連する信頼度を測定する量的指標の提供に苦慮した。
本稿では,自信自然性説明(cne)フレームワークという新しい枠組みを提案する。
このフレームワークは、自然性の評価と説明のために説明可能な機械学習と不確実性定量化を組み合わせる。
自然性の概念に対するパターンの確実な寄与を記述した新しい定量的指標を導入する。
さらに,各入力サンプルに対して不確実性対応セグメンテーションマスクを生成し,モデルに知識が欠けている領域を強調する。
本フレームワークの有効性を実証するため,Fennoscandiaの2つのオープンソースの衛星データセットを用いて研究現場に適用した。 Protected natural areas are regions that have been minimally affected by human activities such as urbanization, agriculture, and other human interventions. To better understand and map the naturalness of these areas, machine learning models can be used to analyze satellite imagery. Specifically, explainable machine learning methods show promise in uncovering patterns that contribute to the concept of naturalness within these protected environments. Additionally, addressing the uncertainty inherent in machine learning models is crucial for a comprehensive understanding of this concept. However, existing approaches have limitations. They either fail to provide explanations that are both valid and objective or struggle to offer a quantitative metric that accurately measures the contribution of specific patterns to naturalness, along with the associated confidence. In this paper, we propose a novel framework called the Confident Naturalness Explanation (CNE) framework. This framework combines explainable machine learning and uncertainty quantification to assess and explain naturalness. We introduce a new quantitative metric that describes the confident contribution of patterns to the concept of naturalness. Furthermore, we generate an uncertainty-aware segmentation mask for each input sample, highlighting areas where the model lacks knowledge. To demonstrate the effectiveness of our framework, we apply it to a study site in Fennoscandia using two open-source satellite datasets. | 翻訳日:2023-11-16 15:55:27 公開日:2023-11-15 |
# オフライン強化学習のための信頼領域最適化支援 Supported Trust Region Optimization for Offline Reinforcement Learning ( http://arxiv.org/abs/2311.08935v1 ) ライセンス: Link先を確認 | Yixiu Mao, Hongchang Zhang, Chen Chen, Yi Xu, Xiangyang Ji | (参考訳) オフライン強化学習は配布外問題と外挿誤差に悩まされる。
ほとんどの政策制約手法は、訓練された政策の行動方針に対する密度を規則化するが、ほとんどの場合、あまりに制限的すぎる。
本稿では,信頼地域政策最適化を行動政策の支持範囲内で制約し,制約の少ないサポート制約を享受する,信頼地域政策最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
さらに、両方のエラーが組み込まれているため、STRはステップ毎に安全なポリシー改善を保証します。
実験的な結果はSTRの理論を検証し、MuJoCoの移動領域における最先端のパフォーマンスとより挑戦的なAntMazeドメインを実証する。 Offline reinforcement learning suffers from the out-of-distribution issue and extrapolation error. Most policy constraint methods regularize the density of the trained policy towards the behavior policy, which is too restrictive in most cases. We propose Supported Trust Region optimization (STR) which performs trust region policy optimization with the policy constrained within the support of the behavior policy, enjoying the less restrictive support constraint. We show that, when assuming no approximation and sampling error, STR guarantees strict policy improvement until convergence to the optimal support-constrained policy in the dataset. Further with both errors incorporated, STR still guarantees safe policy improvement for each step. Empirical results validate the theory of STR and demonstrate its state-of-the-art performance on MuJoCo locomotion domains and much more challenging AntMaze domains. | 翻訳日:2023-11-16 15:55:07 公開日:2023-11-15 |
# 解剖学的尺度における深層学習における構造的不確実性:ホワイトマター病変セグメンテーションの分析 Structural-Based Uncertainty in Deep Learning Across Anatomical Scales: Analysis in White Matter Lesion Segmentation ( http://arxiv.org/abs/2311.08931v1 ) ライセンス: Link先を確認 | Nataliia Molchanova, Vatsal Raina, Andrey Malinin, Francesco La Rosa, Adrien Depeursinge, Mark Gales, Cristina Granziera, Henning Muller, Mara Graziani, Meritxell Bach Cuadra | (参考訳) 多発性硬化症(MS)患者のMRI(MRI)による白質病変(WML)セグメンテーションの文脈における自動ディープラーニング(DL)ツールの信頼性の指標として不確実性定量化(UQ)を検討する。
本研究は,構造的出力セグメンテーションタスクにおける不確実性の2つの主要な側面に焦点を当てた。
まず,良質な不確実性尺度は,高い不確実性値で不正確になる可能性のある予測を示すべきであると仮定する。
第2に、異なる解剖学的尺度(ボクセル、病変、患者)における不確かさを定量化する利点について検討する。
各スケールにおける不確実性は、特定のタイプのエラーと関連していると仮定する。
本研究の目的は,ドメイン内設定とドメイン外設定を別々に分析することで,この関係を確かめることである。
私たちの主な方法論的貢献は
一 構造的予測の相違から発生した、病変及び患者規模の不確かさの定量化のための新しい尺度の開発
(ii) 病変および患者のスケールにおけるuq性能の評価を容易にするためのエラー保持曲線解析フレームワークの拡張。
症例172例の多心MRIデータから, 平均ボキセルスケール不確かさ値と比較して, 病変や患者スケールのモデル誤差をより効果的に捉えた結果が得られた。
uqプロトコルコードはhttps://github.com/medical-image- analysis-laboratory/ms_wml_uncsで提供します。 This paper explores uncertainty quantification (UQ) as an indicator of the trustworthiness of automated deep-learning (DL) tools in the context of white matter lesion (WML) segmentation from magnetic resonance imaging (MRI) scans of multiple sclerosis (MS) patients. Our study focuses on two principal aspects of uncertainty in structured output segmentation tasks. Firstly, we postulate that a good uncertainty measure should indicate predictions likely to be incorrect with high uncertainty values. Second, we investigate the merit of quantifying uncertainty at different anatomical scales (voxel, lesion, or patient). We hypothesize that uncertainty at each scale is related to specific types of errors. Our study aims to confirm this relationship by conducting separate analyses for in-domain and out-of-domain settings. Our primary methodological contributions are (i) the development of novel measures for quantifying uncertainty at lesion and patient scales, derived from structural prediction discrepancies, and (ii) the extension of an error retention curve analysis framework to facilitate the evaluation of UQ performance at both lesion and patient scales. The results from a multi-centric MRI dataset of 172 patients demonstrate that our proposed measures more effectively capture model errors at the lesion and patient scales compared to measures that average voxel-scale uncertainty values. We provide the UQ protocols code at https://github.com/Medical-Image-Analysis-Laboratory/MS_WML_uncs. | 翻訳日:2023-11-16 15:54:54 公開日:2023-11-15 |
# 衝突騒音による工学輸送:生物学システムのためのツールボックス Engineering Transport via Collisional Noise: a Toolbox for Biology Systems ( http://arxiv.org/abs/2311.08924v1 ) ライセンス: Link先を確認 | Alessandro Civolani, Vittoria Stanzione, Maria Luisa Chiofalo, Jorge Yago Malo | (参考訳) 量子システムにおけるノイズアシスト輸送の研究は、NISQデバイスから量子生物学のモデルまで幅広い応用において不可欠である。
本稿では,確率的衝突雑音の存在下での一般XXZモデルについて検討し,標準マルコフの定式化を超えて環境を記述する。
局所磁化, 逆参加比 (IPR) あるいはその一般化, 逆エルゴディニティ比 (IER) を用いて解析した結果, 輸送速度とコヒーレンス時間を一貫した方法で制御できることが明らかとなった。
また,複数の励振を考慮した場合,初期分離励振の場合であっても,衝突速度を増加させる際に移動が直観的に強化される状態を特定するシステム相互作用と衝突の相互作用を特徴付ける。
これらの結果は、構造化ノイズと温かい乱れ環境における量子輸送の理解に不可欠な構成要素の例である。 The study of noise assisted transport in quantum systems is essential in a wide range of applications from near-term NISQ devices to models for quantum biology. Here, we study a generalised XXZ model in the presence of stochastic collision noise, which allows to describe environments beyond the standard Markovian formulation. Our analysis through the study of the local magnetization, the inverse participation ratio (IPR) or its generalisation, the Inverse Ergodicity Ratio (IER), showed clear regimes where the transport rate and coherence time can be controlled by the dissipation in a consistent manner. In addition, when considering several excitations, we characterize the interplay between collisions and system interactions identifying regimes in which transport is counterintuitively enhanced when increasing the collision rate, even in the case of initially separated excitations. These results constitute an example of the essential building blocks for the understanding of quantum transport in structured noisy and warm disordered environments. | 翻訳日:2023-11-16 15:54:33 公開日:2023-11-15 |
# 分布的ロバストな強化学習の基礎について On the Foundation of Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2311.09018v1 ) ライセンス: Link先を確認 | Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou | (参考訳) トレーニングと展開の環境変化に直面した堅牢な政策の必要性から,我々は,分散的堅牢な強化学習(DRRL)の理論的基盤に寄与する。
これは、分布的に堅牢なマルコフ決定プロセス(DRMDP)を中心とした包括的なモデリングフレームワークによって達成される。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
既存の定式化を統一・拡張することにより、意思決定者および敵双方に様々なモデリング属性を取り入れたDRMDPを厳格に構築する。
これらの特性には、適応性粒度、歴史に依存した探索、マルコフ、マルコフ時間均質な意思決定者、敵対的ダイナミクスが含まれる。
さらに, 逆転によって引き起こされる変化の柔軟性を探索し, SAとSの正方性を検討した。
このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。
アルゴリズムの観点からは、既存のデータの大半と計算効率のRLアルゴリズムがDPPに依存しているため、DPPの存在は重大な意味を持つ。
本研究は, コントローラと逆属性の組み合わせを包括的に検討し, 統一手法に基づく合理化証明を提供する。
また、完全な汎用性を持つdppが存在しない設定の逆例も提供します。 Motivated by the need for a robust policy in the face of environment shifts between training and the deployment, we contribute to the theoretical foundation of distributionally robust reinforcement learning (DRRL). This is accomplished through a comprehensive modeling framework centered around distributionally robust Markov decision processes (DRMDPs). This framework obliges the decision maker to choose an optimal policy under the worst-case distributional shift orchestrated by an adversary. By unifying and extending existing formulations, we rigorously construct DRMDPs that embraces various modeling attributes for both the decision maker and the adversary. These attributes include adaptability granularity, exploring history-dependent, Markov, and Markov time-homogeneous decision maker and adversary dynamics. Additionally, we delve into the flexibility of shifts induced by the adversary, examining SA and S-rectangularity. Within this DRMDP framework, we investigate conditions for the existence or absence of the dynamic programming principle (DPP). From an algorithmic standpoint, the existence of DPP holds significant implications, as the vast majority of existing data and computationally efficiency RL algorithms are reliant on the DPP. To study its existence, we comprehensively examine combinations of controller and adversary attributes, providing streamlined proofs grounded in a unified methodology. We also offer counterexamples for settings in which a DPP with full generality is absent. | 翻訳日:2023-11-16 15:47:03 公開日:2023-11-15 |
# データ類似性は言語モデルのパフォーマンスを説明できない Data Similarity is Not Enough to Explain Language Model Performance ( http://arxiv.org/abs/2311.09006v1 ) ライセンス: Link先を確認 | Gregory Yauney and Emily Reif and David Mimno | (参考訳) 大規模な言語モデルは、下流のタスクの多くで高いパフォーマンスを達成する。
事前学習データとタスクデータの相互作用は、この分散を決定するために一般的に仮定される:モデルの事前学習データとより類似したデータを持つタスクは、そのモデルにとって容易であると仮定される。
我々は,pillとc4プリトレーニングデータセットとダウンストリームベンチマークを大規模に比較して,分布的および例固有の類似度尺度(embedding-,token-,model-based)が言語モデル性能と相関するかどうかを検証した。
類似度は多言語データセットのパフォーマンスと相関するが、他のベンチマークでは、類似度メトリクスが正確性や相互に相関していないことが驚くべき。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。 Large language models achieve high performance on many but not all downstream tasks. The interaction between pretraining data and task data is commonly assumed to determine this variance: a task with data that is more similar to a model's pretraining data is assumed to be easier for that model. We test whether distributional and example-specific similarity measures (embedding-, token- and model-based) correlate with language model performance through a large-scale comparison of the Pile and C4 pretraining datasets with downstream benchmarks. Similarity correlates with performance for multilingual datasets, but in other benchmarks, we surprisingly find that similarity metrics are not correlated with accuracy or even each other. This suggests that the relationship between pretraining data and downstream tasks is more complex than often assumed. | 翻訳日:2023-11-16 15:46:43 公開日:2023-11-15 |
# フィードバックループを用いたインクリメンタルオブジェクトベースノベルティ検出 Incremental Object-Based Novelty Detection with Feedback Loop ( http://arxiv.org/abs/2311.09004v1 ) ライセンス: Link先を確認 | Simone Caldarella, Elisa Ricci, Rahaf Aljundi | (参考訳) オブジェクトベースノベルティ検出(ND)は、オブジェクト検出モデルによってトレーニング中に見られるクラスに属さない未知のオブジェクトを識別することを目的としている。
このタスクは、例えば自動運転車や自律ロボットで採用されている物体検出モデルのように、潜在的に有害な振る舞いを避けることができるため、現実世界のアプリケーションでは特に重要である。
従来のndアプローチでは、事前トレーニングされたオブジェクト検出出力のオフラインポスト処理に重点を置いており、トレーニング後のモデルの堅牢性を改善して、デプロイ中に大量の分散データを捨てることはできない。
本研究では,オブジェクト検出性能に悪影響を及ぼすことなく,予測出力に対して人間のフィードバックを要求できることを前提として,オブジェクトベースNDの新しいフレームワークを提案する。
この改善操作は、新しいフィードバックが利用できるたびに繰り返される。
物体検出問題の新たな定式化に取り組むために,事前学習された物体検出モデル上に,フィードバックループを通じて漸進的に更新される軽量ndモジュールを提案する。
また,この新たな設定の手法を評価し,ベースラインに対するNDアプローチを広範囲に検証する新たなベンチマークを提案し,ロバスト性の向上とフィードバックの取り込みに成功していることを示す。 Object-based Novelty Detection (ND) aims to identify unknown objects that do not belong to classes seen during training by an object detection model. The task is particularly crucial in real-world applications, as it allows to avoid potentially harmful behaviours, e.g. as in the case of object detection models adopted in a self-driving car or in an autonomous robot. Traditional approaches to ND focus on one time offline post processing of the pretrained object detection output, leaving no possibility to improve the model robustness after training and discarding the abundant amount of out-of-distribution data encountered during deployment. In this work, we propose a novel framework for object-based ND, assuming that human feedback can be requested on the predicted output and later incorporated to refine the ND model without negatively affecting the main object detection performance. This refinement operation is repeated whenever new feedback is available. To tackle this new formulation of the problem for object detection, we propose a lightweight ND module attached on top of a pre-trained object detection model, which is incrementally updated through a feedback loop. We also propose a new benchmark to evaluate methods on this new setting and test extensively our ND approach against baselines, showing increased robustness and a successful incorporation of the received feedback. | 翻訳日:2023-11-16 15:46:30 公開日:2023-11-15 |
# イソペリメトリー下でのタンピング Taming under isoperimetry ( http://arxiv.org/abs/2311.09003v1 ) ライセンス: Link先を確認 | Iosif Lytras and Sotirios Sabanis | (参考訳) 本稿では,log-Sobolevの不等式を満たす超線形に成長する対数次数を持つ分布のサンプルとして,$\mathbf{sTULA}$というランゲヴィンに基づく新しいスキームを提案する。
我々は、kl$ の非漸近収束境界から導出し、その結果、目標測度から全変動とwasserstein-$2$ の距離を求める。
非漸近収束保証は、新しいアルゴリズムを最適化器としての性能のために提供される。
最後に、超線形に成長する勾配を持つ分布に対する等長不等式に関する理論的結果を与える。
主な発見は、温度と次元に一定の独立性を持つ対数ソボレフ不等式が、新しい非凸理論の枠組みの下で高次正規化とポアンカレの不等式が存在することである。 In this article we propose a novel taming Langevin-based scheme called $\mathbf{sTULA}$ to sample from distributions with superlinearly growing log-gradient which also satisfy a Log-Sobolev inequality. We derive non-asymptotic convergence bounds in $KL$ and consequently total variation and Wasserstein-$2$ distance from the target measure. Non-asymptotic convergence guarantees are provided for the performance of the new algorithm as an optimizer. Finally, some theoretical results on isoperimertic inequalities for distributions with superlinearly growing gradients are provided. Key findings are a Log-Sobolev inequality with constant independent of the dimension, in the presence of a higher order regularization and a Poincare inequality with constant independent of temperature and dimension under a novel non-convex theoretical framework. | 翻訳日:2023-11-16 15:46:07 公開日:2023-11-15 |
# Factcheck-GPT:LLM出力のFact-Checkingと補正 Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output ( http://arxiv.org/abs/2311.09000v1 ) ライセンス: Link先を確認 | Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora, Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan, Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav Nakov | (参考訳) 様々な実世界のアプリケーションで大規模言語モデル(llm)の使用が増加すると、出力の事実的正確性を検証するメカニズムが要求される。
本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性を注釈する総合的なエンドツーエンドソリューションを提案する。
ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。
任意の段階で自動結果を柔軟に組み込むことができる。
我々はさらに,クレーム,文,文書という3段階の粒度で,オープンドメインの文書レベルの事実度ベンチマークを構築する。
予備実験の結果、factool、factscore、perplexity.aiは最良のf1=0.53で偽のクレームを特定するのに苦労している。
アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。 The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. In this work, we present a holistic end-to-end solution for annotating the factuality of LLM-generated responses, which encompasses a multi-stage annotation scheme designed to yield detailed labels concerning the verifiability and factual inconsistencies found in LLM outputs. We design and build an annotation tool to speed up the labelling procedure and ease the workload of raters. It allows flexible incorporation of automatic results in any stage, e.g. automatically-retrieved evidence. We further construct an open-domain document-level factuality benchmark in three-level granularity: claim, sentence and document. Preliminary experiments show that FacTool, FactScore and Perplexity.ai are struggling to identify false claims with the best F1=0.53. Annotation tool, benchmark and code are available at https://github.com/yuxiaw/Factcheck-GPT. | 翻訳日:2023-11-16 15:45:51 公開日:2023-11-15 |
# 自然災害管理のためのAIの活用 : モロッコ地震の教訓 Leveraging AI for Natural Disaster Management : Takeaways From The Moroccan Earthquake ( http://arxiv.org/abs/2311.08999v1 ) ライセンス: Link先を確認 | Morocco Solidarity Hackathon (Organizers, Speakers, Mentors and Participant teams) | (参考訳) 2023年、モロッコのアル・ハウズで発生したマグニチュード6.8の地震は、世界的な災害管理戦略に重大な反省を呼び起こし、人工知能(AI)を用いた災害対策、対応、復旧のためのハッカソンを引き起こした。
この論文は
(i)総合的な文献レビュー
(ii)勝利プロジェクトの概観
(iii)オープンソースのリアルタイムデータ、データ不足、学際的コラボレーション障壁といった重要な洞察と課題
(iv)さらなる行動を求めるコミュニティコール。 The devastating 6.8-magnitude earthquake in Al Haouz, Morocco in 2023 prompted critical reflections on global disaster management strategies, resulting in a post-disaster hackathon, using artificial intelligence (AI) to improve disaster preparedness, response, and recovery. This paper provides (i) a comprehensive literature review, (ii) an overview of winning projects, (iii) key insights and challenges, namely real-time open-source data, data scarcity, and interdisciplinary collaboration barriers, and (iv) a community-call for further action. | 翻訳日:2023-11-16 15:45:33 公開日:2023-11-15 |
# 特定領域画像の単純かつ効果的な教師なし分類:真菌画像の事例研究 Simple but Effective Unsupervised Classification for Specified Domain Images: A Case Study on Fungi Images ( http://arxiv.org/abs/2311.08995v1 ) ライセンス: Link先を確認 | Zhaocong liu, Fa Zhang, Lin Cheng, Huanxi Deng, Xiaoyan Yang, Zhenyu Zhang, and Chichun Zhou | (参考訳) 高品質なラベル付きデータセットはディープラーニングに不可欠である。
従来の手動アノテーションメソッドはコストと非効率だけでなく、専門家の知識が必要な専門分野にも課題をもたらす。
自己教師付き手法は、特徴抽出にラベル付きデータを活用するが、効果的な特殊画像分類のためのモデルを導くには、数百から数千のラベル付きインスタンスが必要である。
現在の教師なし学習法は、事前アノテーションなしで自動分類を提供するが、精度を損なうことが多い。
結果として、高品質なラベル付きデータセットを効率的に取得することは、注釈付きデータを持たない特殊なドメインイメージにとって、依然として困難な課題である。
これに対処するために,3つの重要なアイデアを用いた教師なし分類法を提案する。
1)事前学習モデルと多様体学習を用いた二段階特徴量次元削減
2)複数のクラスタリングアルゴリズムによる投票機構,及び
3) 以前のマニュアルアノテーションの代わりにポストホック。
このアプローチは、公開データセットとプライベートデータセットでそれぞれ94.1%と96.7%を達成した真菌画像データで示されているように、教師ありの分類精度の方法よりも優れている。
提案する教師なし分類法は,事前注釈付きデータセットへの依存性を低減し,データ分類のためのクローズドループを実現する。
この手法のシンプルさと使いやすさは、データセットの構築、専門領域の画像に対するAIアプリケーションの促進など、さまざまな分野の研究者に利便性をもたらす。 High-quality labeled datasets are essential for deep learning. Traditional manual annotation methods are not only costly and inefficient but also pose challenges in specialized domains where expert knowledge is needed. Self-supervised methods, despite leveraging unlabeled data for feature extraction, still require hundreds or thousands of labeled instances to guide the model for effective specialized image classification. Current unsupervised learning methods offer automatic classification without prior annotation but often compromise on accuracy. As a result, efficiently procuring high-quality labeled datasets remains a pressing challenge for specialized domain images devoid of annotated data. Addressing this, an unsupervised classification method with three key ideas is introduced: 1) dual-step feature dimensionality reduction using a pre-trained model and manifold learning, 2) a voting mechanism from multiple clustering algorithms, and 3) post-hoc instead of prior manual annotation. This approach outperforms supervised methods in classification accuracy, as demonstrated with fungal image data, achieving 94.1% and 96.7% on public and private datasets respectively. The proposed unsupervised classification method reduces dependency on pre-annotated datasets, enabling a closed-loop for data classification. The simplicity and ease of use of this method will also bring convenience to researchers in various fields in building datasets, promoting AI applications for images in specialized domains. | 翻訳日:2023-11-16 15:45:20 公開日:2023-11-15 |
# 文脈内学習はいつ短くなるのか?
仕様ヘビータスクに関する研究 When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks ( http://arxiv.org/abs/2311.08993v1 ) ライセンス: Link先を確認 | Hao Peng, Xiaozhi Wang, Jianhui Chen, Weikai Li, Yunjia Qi, Zimu Wang, Zhili Wu, Kaisheng Zeng, Bin Xu, Lei Hou, Juanzi Li | (参考訳) In-context Learning (ICL) は、大きな言語モデル(LLM)を使用するデフォルトメソッドとなり、その限界を探索し、根本原因を理解する。
本稿では,従来の情報抽出タスクなど,一般人が習得するのに数時間を要する,複雑で広範なタスク仕様を持つタスクである,仕様量の多いタスクにICLが不足していることを明らかにする。
これらのタスクにおけるICLの性能はほとんどが最先端の結果の半分に到達できない。
この失敗の原因を探るために,様々なllmを用いた18の仕様に富んだタスクに関する包括的な実験を行い,コンテキストを具体的に理解できないこと,タスクスキーマを人間と理解できないこと,長文理解能力が不十分であることの3つの主な理由を特定した。
さらに、細調整により、ICLの故障はLCMの固有の欠陥ではなく、ICLによる複雑な仕様重大タスクの処理が不可能な既存のアライメント手法の欠点であることを示す。
そこで本研究では,これらのタスクに対するLLMの専用指導チューニングを行い,顕著な改善点を観察する。
本稿では,LLMがより高度な人的要求を満たすためのアライメント手法の進歩を促進することを期待する。 In-context learning (ICL) has become the default method for using large language models (LLMs), making the exploration of its limitations and understanding the underlying causes crucial. In this paper, we find that ICL falls short of handling specification-heavy tasks, which are tasks with complicated and extensive task specifications, requiring several hours for ordinary humans to master, such as traditional information extraction tasks. The performance of ICL on these tasks mostly cannot reach half of the state-of-the-art results. To explore the reasons behind this failure, we conduct comprehensive experiments on 18 specification-heavy tasks with various LLMs and identify three primary reasons: inability to specifically understand context, misalignment in task schema comprehension with humans, and inadequate long-text understanding ability. Furthermore, we demonstrate that through fine-tuning, LLMs can achieve decent performance on these tasks, indicating that the failure of ICL is not an inherent flaw of LLMs, but rather a drawback of existing alignment methods that renders LLMs incapable of handling complicated specification-heavy tasks via ICL. To substantiate this, we perform dedicated instruction tuning on LLMs for these tasks and observe a notable improvement. We hope the analyses in this paper could facilitate advancements in alignment methods enabling LLMs to meet more sophisticated human demands. | 翻訳日:2023-11-16 15:44:59 公開日:2023-11-15 |
# squlearn $\unicode{x2013}$ 量子機械学習のためのpythonライブラリ sQUlearn $\unicode{x2013}$ A Python Library for Quantum Machine Learning ( http://arxiv.org/abs/2311.08990v1 ) ライセンス: Link先を確認 | David A. Kreplin, Moritz Willmann, Jan Schnabel, Frederic Rapp, and Marco Roth | (参考訳) sQUlearnは、Scikit-learnのような古典的な機械学習ツールとシームレスに統合するために設計された、QML(Quantum Machine Learning)用のユーザフレンドリーなNISQ対応Pythonライブラリを導入した。
ライブラリの二重層アーキテクチャはQML研究者と実践者の両方に役立ち、効率的なプロトタイピング、実験、パイプライニングを可能にする。
sQUlearnは、カスタマイズ可能なデータエンコーディング戦略、自動実行処理、特別なカーネル正規化テクニックなどの機能とともに、量子カーネルメソッドと量子ニューラルネットワークの両方を含む包括的なツールセットを提供する。
NISQ互換性とエンドツーエンドの自動化に焦点を当てることで、sQUlearnは現在の量子コンピューティング能力と実用的な機械学習アプリケーションとのギャップを埋めることを目指している。 sQUlearn introduces a user-friendly, NISQ-ready Python library for quantum machine learning (QML), designed for seamless integration with classical machine learning tools like scikit-learn. The library's dual-layer architecture serves both QML researchers and practitioners, enabling efficient prototyping, experimentation, and pipelining. sQUlearn provides a comprehensive toolset that includes both quantum kernel methods and quantum neural networks, along with features like customizable data encoding strategies, automated execution handling, and specialized kernel regularization techniques. By focusing on NISQ-compatibility and end-to-end automation, sQUlearn aims to bridge the gap between current quantum computing capabilities and practical machine learning applications. | 翻訳日:2023-11-16 15:44:36 公開日:2023-11-15 |
# 第5回自律システムのための形式的手法に関する国際ワークショップ Proceedings Fifth International Workshop on Formal Methods for Autonomous Systems ( http://arxiv.org/abs/2311.08987v1 ) ライセンス: Link先を確認 | Marie Farrell (University of Manchester, UK), Matt Luckcuck (University of Nottingham, UK), Mario Gleirscher (University of Bremen, Germany), Maike Schwammberger (Karlsruhe Institute of Technology, Germany) | (参考訳) EPTCSの巻には、2023年11月15日と16日に開催されたFMAS 2023の第5回国際自律システムの形式的方法に関するワークショップの手続きが含まれている。
FMAS 2023はライデン大学のLeiden Institute of Advanced Computer Scienceによって組織されたIFM (iFM'22)の第18回国際会議と共同で設立された。
ワークショップ自体は、運河と並んで19世紀の毛布工場であるシュルテマ・ライデンで行われた。
FMAS 2023は25の応募を受けた。
11の定期論文,3つの経験レポート,6つの研究プレビュー,5つのビジョン論文を受け取った。
fmas 2023に論文を提出した研究者は、オーストラリア、カナダ、コロンビア、フランス、ドイツ、アイルランド、イタリア、オランダ、スウェーデン、イギリス、アメリカ合衆国などの機関から来ていた。
3年連続の申請数の増加は、FMASが、自律システムの形式的モデリングと検証に関する研究のための信頼できる出版場所としての地位を確立したことを示す兆候である。
それぞれの論文がプログラム委員会のメンバー3人によってレビューされた後、私たちは合計15の論文を受理しました。 This EPTCS volume contains the proceedings for the Fifth International Workshop on Formal Methods for Autonomous Systems (FMAS 2023), which was held on the 15th and 16th of November 2023. FMAS 2023 was co-located with 18th International Conference on integrated Formal Methods (iFM) (iFM'22), organised by Leiden Institute of Advanced Computer Science of Leiden University. The workshop itself was held at Scheltema Leiden, a renovated 19th Century blanket factory alongside the canal. FMAS 2023 received 25 submissions. We received 11 regular papers, 3 experience reports, 6 research previews, and 5 vision papers. The researchers who submitted papers to FMAS 2023 were from institutions in: Australia, Canada, Colombia, France, Germany, Ireland, Italy, the Netherlands, Sweden, the United Kingdom, and the United States of America. Increasing our number of submissions for the third year in a row is an encouraging sign that FMAS has established itself as a reputable publication venue for research on the formal modelling and verification of autonomous systems. After each paper was reviewed by three members of our Programme Committee we accepted a total of 15 papers: 8 long papers and 7 short papers. | 翻訳日:2023-11-16 15:44:20 公開日:2023-11-15 |
# SentAlign: 正確でスケーラブルな文のアライメント SentAlign: Accurate and Scalable Sentence Alignment ( http://arxiv.org/abs/2311.08982v1 ) ライセンス: Link先を確認 | Stein{\th}\'or Steingr\'imsson, Hrafn Loftsson, Andy Way | (参考訳) 我々は,非常に大きな並列文書ペアを扱うための正確な文アライメントツールであるsentialignを提案する。
ユーザ定義パラメータが与えられた場合、アライメントアルゴリズムは、数千の文からなるかなり大きなドキュメントで可能なアライメントパスをすべて評価し、数万の文を含むドキュメントのアライメントに分割・コンカレントアプローチを使用する。
スコアリング関数はLaBSEバイリンガル文表現に基づいている。
SentAlignは2つの異なる評価セット、ドイツ語と英語とアイスランド語、下流の機械翻訳タスクで評価すると、他の5つの文アライメントツールより優れている。 We present SentAlign, an accurate sentence alignment tool designed to handle very large parallel document pairs. Given user-defined parameters, the alignment algorithm evaluates all possible alignment paths in fairly large documents of thousands of sentences and uses a divide-and-conquer approach to align documents containing tens of thousands of sentences. The scoring function is based on LaBSE bilingual sentence representations. SentAlign outperforms five other sentence alignment tools when evaluated on two different evaluation sets, German-French and English-Icelandic, and on a downstream machine translation task. | 翻訳日:2023-11-16 15:43:57 公開日:2023-11-15 |
# 投機的コントラスト復号 Speculative Contrastive Decoding ( http://arxiv.org/abs/2311.08981v1 ) ライセンス: Link先を確認 | Hongyi Yuan, Keming Lu, Fei Huang, Zheng Yuan, Chang Zhou | (参考訳) 大規模言語モデル(LLM)は、様々な言語タスクにおいて異常な性能を示したが、高い計算要求は、その広範な展開を妨げる。
LLM推論を高速化する手段として、アマチュアモデルを用いて専門家モデルの生成を予測する投機的復号法が提案されている。
しかし、投機的復号化は、アマチュアモデルからトークン分布を最大限に活用する代わりに、加速度に焦点を当てている。
我々は,投機的復号法において,専門家とアマチュアモデル間の自然なコントラストを利用した高速化復号法である投機的コントラスト復号法(scd)を提案する。
4つのベンチマークの総合的な評価は、SCDが投機的復号化と同様の加速係数を達成できると同時に、対照的な復号化として生成品質をさらに向上できることを示している。
トークン確率の解析は、投機的デコードと対比的デコードとの互換性をさらに示している。
全体として、SCDは計算資源を節約しながらLLMの復号品質を高める効果的なアプローチを提供する。 Large language models (LLMs) have shown extraordinary performance in various language tasks, but high computational requirements hinder their widespread deployment. Speculative decoding, which uses amateur models to predict the generation of expert models, has been proposed as a way to accelerate LLM inference. However, speculative decoding focuses on acceleration instead of making the best use of the token distribution from amateur models. We proposed Speculative Contrastive Decoding (SCD), an accelerated decoding method leveraging the natural contrast between expert and amateur models in speculative decoding. Comprehensive evaluations on four benchmarks show that SCD can achieve similar acceleration factors as speculative decoding while further improving the generation quality as the contrastive decoding. The analysis of token probabilities further demonstrates the compatibility between speculative and contrastive decoding. Overall, SCD provides an effective approach to enhance the decoding quality of LLMs while saving computational resources. | 翻訳日:2023-11-16 15:43:41 公開日:2023-11-15 |
# 21,412日のマルチモーダルデータセットによる睡眠・呼吸研究 A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research ( http://arxiv.org/abs/2311.08979v1 ) ライセンス: Link先を確認 | Alon Diament (1), Maria Gorodetski (1), Adam Jankelow (1), Ayya Keshet (2), Tal Shor (1), Daphna Weissglas-Volkov (1), Hagai Rossman (1) and Eran Segal (2) ((1) Pheno.AI, Tel-Aviv, Israel, (2) Weizmann Institute of Science, Rehovot, Israel) | (参考訳) 本研究では,fdaが承認したwatchpat-300デバイスを用いた在宅睡眠時無呼吸テストから得られた,21,412夜の7,077名の参加者から得られた新しいリッチデータセットを提案する。
データセットは、センサーからの生のマルチチャネル時系列、注釈付き睡眠イベント、および計算された要約統計の3つのレベルの睡眠データから成り、睡眠アーキテクチャ、睡眠時無呼吸、心拍変動(hrv)に関連する447の特徴を含む。
ahi(apnea/hypopnea index)、睡眠効率(sleep efficiency)、waso(wake after sleep onset)、hrvサンプルエントロピー(hrv sample entropy)の基準値について検討した。
さらに,本データセットは, 体組成, 骨密度, 血糖値, 心血管健康など, 種々の健康関連特性の予測能力を向上させることを実証した。
これらの結果は、睡眠研究、パーソナライズされた医療、およびバイオメディシンにおける機械学習応用を進めるためのデータセットの可能性を示している。 This study introduces a novel, rich dataset obtained from home sleep apnea tests using the FDA-approved WatchPAT-300 device, collected from 7,077 participants over 21,412 nights. The dataset comprises three levels of sleep data: raw multi-channel time-series from sensors, annotated sleep events, and computed summary statistics, which include 447 features related to sleep architecture, sleep apnea, and heart rate variability (HRV). We present reference values for Apnea/Hypopnea Index (AHI), sleep efficiency, Wake After Sleep Onset (WASO), and HRV sample entropy, stratified by age and sex. Moreover, we demonstrate that the dataset improves the predictive capability for various health related traits, including body composition, bone density, blood sugar levels and cardiovascular health. These results illustrate the dataset's potential to advance sleep research, personalized healthcare, and machine learning applications in biomedicine. | 翻訳日:2023-11-16 15:43:14 公開日:2023-11-15 |
# 短期衝突における衛星と宇宙デブリの衝突確率:再帰と高速・高速上・下界境界 Probability of Collision of satellites and space debris for short-term encounters: Rederivation and fast-to-compute upper and lower bounds ( http://arxiv.org/abs/2311.08978v1 ) ライセンス: Link先を確認 | Ricardo Ferreira, Cl\'audia Soares and Marta Guimar\~aes | (参考訳) LEOにおける宇宙ゴミの拡散は、宇宙産業にとって大きな関心事となっている。
宇宙探査への関心が高まる中、軌道上の物体間の潜在的な衝突の予測は重要な問題となっている。
軌道上には、数百万の破片が数ミリメートル、何千もの非手術衛星と捨てられたロケットステージがあると推定されている。
これらの破片が到達できる速度を考えると、数ミリの大きさの破片でさえも、衛星の船体に亀裂を引き起こしたり、スペースシャトルの窓に深刻な亀裂を生じさせる可能性がある。
Akella と Alfriend が2000年に提案した手法は、短期的な衝突の確率を推定するために広く使われている。
出会いの短い期間を考えると、(1)軌道が一定速度の直線で表される、(2)速度の不確かさがなく、その位置が出会いを通じて定常分布を示す、(3)位置不確実性は独立してガウス分布で表される、という仮定である。
本研究は、衝突の確率に対して、自然に強固で高速な上下境界を許容する第一原理に基づく新しい導出を導入する。
我々はESAのCollision Avoidance Challengeで使用した実CDMデータセットにおいて,確率計算と有界計算の両方を原式と定式化で実装した。
提案手法は, 確率計算を2つの1次元積分に還元し, 従来手法に比べて処理時間を80%からほぼリアルタイムに大幅に短縮する可能性を秘めている。 The proliferation of space debris in LEO has become a major concern for the space industry. With the growing interest in space exploration, the prediction of potential collisions between objects in orbit has become a crucial issue. It is estimated that, in orbit, there are millions of fragments a few millimeters in size and thousands of inoperative satellites and discarded rocket stages. Given the high speeds that these fragments can reach, even fragments a few millimeters in size can cause fractures in a satellite's hull or put a serious crack in the window of a space shuttle. The conventional method proposed by Akella and Alfriend in 2000 remains widely used to estimate the probability of collision in short-term encounters. Given the small period of time, it is assumed that, during the encounter: (1) trajectories are represented by straight lines with constant velocity; (2) there is no velocity uncertainty and the position exhibits a stationary distribution throughout the encounter; and (3) position uncertainties are independent and represented by Gaussian distributions. This study introduces a novel derivation based on first principles that naturally allows for tight and fast upper and lower bounds for the probability of collision. We tested implementations of both probability and bound computations with the original and our formulation on a real CDM dataset used in ESA's Collision Avoidance Challenge. Our approach reduces the calculation of the probability to two one-dimensional integrals and has the potential to significantly reduce the processing time compared to the traditional method, from 80% to nearly real-time. | 翻訳日:2023-11-16 15:42:42 公開日:2023-11-15 |
# 画像の逆問題に対する最適輸送と凸解析に基づく教師なしアプローチ Unsupervised approaches based on optimal transport and convex analysis for inverse problems in imaging ( http://arxiv.org/abs/2311.08972v1 ) ライセンス: Link先を確認 | Marcello Carioni, Subhadip Mukherjee, Hong Ye Tan, Junqi Tang | (参考訳) 教師なしの深層学習アプローチは, 高品質の訓練データがほとんど入手できない場合でも, 表現力と強力な再構成演算子を学習する能力から, 画像化における重要な研究領域の1つとなっている。
本章では,画像逆問題を解くための理論的に原理的な教師なし学習スキームについて検討し,特に最適移動解析と凸解析に根ざした手法に着目した。
まず,サイクル整合性に基づくモデルや,確率論的解釈が明確な逆正則化法などの,最適輸送に基づく教師なしアプローチを概観することから始める。
次に,画像逆問題に対する解法を高速化するために適用した有理収束学習最適化アルゴリズムに関する最近の研究の概要と,教師なしの学習手法について述べる。
また,画像問題に対して最も重要かつ広く適用されている非教師なしアプローチの一つである,収束可能なプラグ・アンド・プレイアルゴリズム(勾配ステップの深いデノイザに基づく)についても検討した。
この調査の最後には、集中型スキームを補完するいくつかの非教師なし学習フレームワークの概要を紹介します。
詳細な調査とともに,議論の自己完結性を維持するために,章で検討した手法を裏付ける重要な数学的結果の概要を述べる。 Unsupervised deep learning approaches have recently become one of the crucial research areas in imaging owing to their ability to learn expressive and powerful reconstruction operators even when paired high-quality training data is scarcely available. In this chapter, we review theoretically principled unsupervised learning schemes for solving imaging inverse problems, with a particular focus on methods rooted in optimal transport and convex analysis. We begin by reviewing the optimal transport-based unsupervised approaches such as the cycle-consistency-based models and learned adversarial regularization methods, which have clear probabilistic interpretations. Subsequently, we give an overview of a recent line of works on provably convergent learned optimization algorithms applied to accelerate the solution of imaging inverse problems, alongside their dedicated unsupervised training schemes. We also survey a number of provably convergent plug-and-play algorithms (based on gradient-step deep denoisers), which are among the most important and widely applied unsupervised approaches for imaging problems. At the end of this survey, we provide an overview of a few related unsupervised learning frameworks that complement our focused schemes. Together with a detailed survey, we provide an overview of the key mathematical results that underlie the methods reviewed in the chapter to keep our discussion self-contained. | 翻訳日:2023-11-16 15:41:38 公開日:2023-11-15 |
# 大規模言語モデルによるゼロショット視覚的質問応答の改善 Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts ( http://arxiv.org/abs/2311.09050v1 ) ライセンス: Link先を確認 | Yunshi Lan, Xiang Li, Xin Liu, Yang Li, Wei Qin and Weining Qian | (参考訳) ゼロショット視覚質問応答(Zero-shot Visual Question Answering, VQA)は、訓練データがない場合のシステムの視覚的およびテキスト的理解能力を調べる視覚言語タスクである。
近年,画像をキャプションに変換することで,複数のモダリティにまたがる情報を橋渡しし,Large Language Models (LLMs) の強力なゼロショット一般化能力を疑問視できる。
llmsを介してvqaを解決するための理想的なプロンプトを設計するために、いくつかの研究は、質問と回答のペアを選択または生成するための異なる戦略を検討してきた。
しかし、質問プロンプトの役割を完全に無視する。
VQAタスクの最初の質問は通常、中間的推論を必要とする楕円と曖昧さに遭遇する。
この目的のために、ゼロショットシナリオにおけるLLMの可能性をさらに活性化できるVQAタスクに対する推論質問応答を提案する。
具体的には,各質問に対して,文の流動性,意味的完全性,構文的不変性を考慮した教師なし質問版モジュールを用いて,質問プロンプトとして自己完結型質問を生成する。
各推論質問は、元の質問の意図を明確に示す。
この結果、一連の回答が得られた。
そして、回答ヒューリスティックとして機能する信頼スコアに関連する候補回答をLSMに入力し、最終回答を生成する。
我々は,3つのVQA課題に対する推論質問のプロンプトを評価し,実験結果から,ゼロショット設定におけるLCMの結果を大幅に改善し,既存の最先端ゼロショット手法を4つのデータセットのうち3つで上回ることを示す。
ソースコードは \url{https://github.com/ECNU-DASE-NLP/RQP} で公開されています。 Zero-shot Visual Question Answering (VQA) is a prominent vision-language task that examines both the visual and textual understanding capability of systems in the absence of training data. Recently, by converting the images into captions, information across multi-modalities is bridged and Large Language Models (LLMs) can apply their strong zero-shot generalization capability to unseen questions. To design ideal prompts for solving VQA via LLMs, several studies have explored different strategies to select or generate question-answer pairs as the exemplar prompts, which guide LLMs to answer the current questions effectively. However, they totally ignore the role of question prompts. The original questions in VQA tasks usually encounter ellipses and ambiguity which require intermediate reasoning. To this end, we present Reasoning Question Prompts for VQA tasks, which can further activate the potential of LLMs in zero-shot scenarios. Specifically, for each question, we first generate self-contained questions as reasoning question prompts via an unsupervised question edition module considering sentence fluency, semantic integrity and syntactic invariance. Each reasoning question prompt clearly indicates the intent of the original question. This results in a set of candidate answers. Then, the candidate answers associated with their confidence scores acting as answer heuristics are fed into LLMs and produce the final answer. We evaluate reasoning question prompts on three VQA challenges, experimental results demonstrate that they can significantly improve the results of LLMs on zero-shot setting and outperform existing state-of-the-art zero-shot methods on three out of four data sets. Our source code is publicly released at \url{https://github.com/ECNU-DASE-NLP/RQP}. | 翻訳日:2023-11-16 15:33:45 公開日:2023-11-15 |
# GRASP:マルチモーダル言語モデルにおける言語GRoundingとSituated Physics Understandingの評価のための新しいベンチマーク GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models ( http://arxiv.org/abs/2311.09048v1 ) ライセンス: Link先を確認 | Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer, Elia Bruni | (参考訳) 本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。
この評価は、Unityシミュレーションを利用する2層アプローチによって達成される。
モデルが単純なテキスト記述と視覚情報とを関連付ける能力を評価することで、言語接地の初期レベルテストを行う。
第2のレベルは、オブジェクトの永続性や連続性といった「直観的物理学」原理に対するモデルの理解を評価する。
ベンチマークの公開に加えて、いくつかの最先端マルチモーダルLCMの評価にも使用しています。
評価の結果,現在のモデルにおける言語接地と直観的物理の重大な欠点が明らかになった。
これらの制限は、これらの能力の開発における将来のモデルの進捗を監視するためのGRASPのようなベンチマークの重要性の基盤となっている。 This paper presents GRASP, a novel benchmark to evaluate the language grounding and physical understanding capabilities of video-based multimodal large language models (LLMs). This evaluation is accomplished via a two-tier approach leveraging Unity simulations. The initial level tests for language grounding by assessing a model's ability to relate simple textual descriptions with visual information. The second level evaluates the model's understanding of 'Intuitive Physics' principles, such as object permanence and continuity. In addition to releasing the benchmark, we use it to evaluate several state-of-the-art multimodal LLMs. Our evaluation reveals significant shortcomings in current models' language grounding and intuitive physics. These identified limitations underline the importance of benchmarks like GRASP to monitor the progress of future models in developing these competencies. | 翻訳日:2023-11-16 15:33:16 公開日:2023-11-15 |
# ガウス性を超えた測定誘起遷移:単一粒子記述 Measurement-induced transitions beyond Gaussianity: a single particle description ( http://arxiv.org/abs/2311.09043v1 ) ライセンス: Link先を確認 | Luca Lumia, Emanuele Tirrito, Rosario Fazio and Mario Collura | (参考訳) 繰り返し測定は、量子系の力学における絡み合い相転移を誘発することができる。
相互作用モデル(カオスモデルと可積分モデルの両方)は、より低い測定速度で安定な体積則エンタングル位相を示し、自由ガウスフェルミオンでは消滅する。
相互作用はそのユニタリ部分における力学写像のガウス性を破壊するが、非ガウス性は測定によっても導入できる。
異なるプロトコルの絡み合いと非ガウス性構造を比較することで、測定誘起相転移の新たな単粒子指標を提案し、非ガウス性が純粋に測定によって提供される場合の遷移の安定性を主張する。 Repeated measurements can induce entanglement phase transitions in the dynamics of quantum systems. Interacting models, both chaotic and integrable, generically show a stable volume-law entangled phase at low measurement rates which disappears for free, Gaussian fermions. Interactions break the Gaussianity of a dynamical map in its unitary part, but non-Gaussianity can be introduced through measurements as well. By comparing the entanglement and non-Gaussianity structure of different protocols, we propose a new single-particle indicator of the measurement-induced phase transition and we use it to argue in favour of the stability of the transition when non-Gaussianity is purely provided by measurements | 翻訳日:2023-11-16 15:33:02 公開日:2023-11-15 |
# MELA:言語学的アクセプティビリティの多言語評価 MELA: Multilingual Evaluation of Linguistic Acceptability ( http://arxiv.org/abs/2311.09033v1 ) ライセンス: Link先を確認 | Ziyin Zhang and Yikang Liu and Weifang Huang and Junyu Mao and Rui Wang and Hai Hu | (参考訳) 最近の大規模言語モデル(llm)のベンチマークは、主に複雑な推論やコード生成といったアプリケーション駆動のタスクに焦点が当てられている。
この背景に対して,言語受容性に関する多言語評価 - melaは,言語受容性に関する最初の多言語ベンチマークであり,多様な言語ファミリーから10言語をカバーする48kサンプルがある。
我々は、教師付きモデルとともによく使われるLLMのベースラインを確立し、XLM-Rを用いて言語間移動およびマルチタスク学習実験を行う。
言語間の伝達難易度を同定する可能性を探るために, 微調整xlm-rの重みを解析した。
GPT-4はゼロショット設定でも微調整されたXLM-Rに匹敵する性能を示した。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容可能性判断に不可欠であることを示す。
層別調査の結果, xlm-rの上層層は多言語アクセシビリティ判断のタスク固有だが言語非依存領域となった。
また,言語間の言語間移動の困難さを示す指標として,競合重みの概念も導入する。
私たちのデータはhttps://github.com/sjtu-compling/melaで入手できます。 Recent benchmarks for Large Language Models (LLMs) have mostly focused on application-driven tasks such as complex reasoning and code generation, and this has led to a scarcity in purely linguistic evaluation of LLMs. Against this background, we introduce Multilingual Evaluation of Linguistic Acceptability -- MELA, the first multilingual benchmark on linguistic acceptability with 48K samples covering 10 languages from a diverse set of language families. We establish baselines of commonly used LLMs along with supervised models, and conduct cross-lingual transfer and multi-task learning experiments with XLM-R. In pursuit of multilingual interpretability, we analyze the weights of fine-tuned XLM-R to explore the possibility of identifying transfer difficulty between languages. Our results show that ChatGPT benefits much from in-context examples but still lags behind fine-tuned XLM-R, while the performance of GPT-4 is on par with fine-tuned XLM-R even in zero-shot setting. Cross-lingual and multi-task learning experiments show that unlike semantic tasks, in-language training data is crucial in acceptability judgements. Results in layerwise probing indicate that the upper layers of XLM-R become a task-specific but language-agnostic region for multilingual acceptability judgment. We also introduce the concept of conflicting weight, which could be a potential indicator for the difficulty of cross-lingual transfer between languages. Our data will be available at https://github.com/sjtu-compling/MELA. | 翻訳日:2023-11-16 15:32:50 公開日:2023-11-15 |
# Smeared Points 除去のための自己アノテーション付き3次元幾何学習 Self-Annotated 3D Geometric Learning for Smeared Points Removal ( http://arxiv.org/abs/2311.09029v1 ) ライセンス: Link先を確認 | Miaowei Wang and Daniel Morris | (参考訳) 消費者レベルの高密度センサの精度と品質の改善には大きな進歩があった。
それでも、スミアドポイントと呼ばれる共通の深度画素アーティファクトが残っている。
これらは任意の3d表面上にない点であり、通常は前景と背景オブジェクトの補間として発生する。
それらは架空の表面を引き起こすので、これらの点は深度マップに依存するアプリケーションを傷つける可能性がある。
統計的外れ値除去法は、実際の表面点も取り除く傾向があるため、これらの点を取り除くのに不利である。
訓練されたネットワークベースのポイント削除は、十分な注釈付きデータを得るのが困難である。
そこで本研究では,スミア点除去分類器を訓練するための完全自己注釈法を提案する。
本手法は,複数の視点から3次元幾何学的証拠を収集し,スメア点と有効点を自動的に検出・注釈する。
本手法の有効性を検証するため,新しいベンチマークデータセットであるReal Azure-Kinectデータセットを提案する。
実験結果とアブレーション実験の結果,従来のフィルタや他の自己注釈法よりも優れていた。
私たちの仕事はhttps://github.com/wangmiaowei/wacv2024_smearedremover.gitで公開されています。 There has been significant progress in improving the accuracy and quality of consumer-level dense depth sensors. Nevertheless, there remains a common depth pixel artifact which we call smeared points. These are points not on any 3D surface and typically occur as interpolations between foreground and background objects. As they cause fictitious surfaces, these points have the potential to harm applications dependent on the depth maps. Statistical outlier removal methods fare poorly in removing these points as they tend also to remove actual surface points. Trained network-based point removal faces difficulty in obtaining sufficient annotated data. To address this, we propose a fully self-annotated method to train a smeared point removal classifier. Our approach relies on gathering 3D geometric evidence from multiple perspectives to automatically detect and annotate smeared points and valid points. To validate the effectiveness of our method, we present a new benchmark dataset: the Real Azure-Kinect dataset. Experimental results and ablation studies show that our method outperforms traditional filters and other self-annotated methods. Our work is publicly available at https://github.com/wangmiaowei/wacv2024_smearedremover.git. | 翻訳日:2023-11-16 15:32:21 公開日:2023-11-15 |
# インテリジェンス駆動強化学習のロバスト性の評価 Assessing the Robustness of Intelligence-Driven Reinforcement Learning ( http://arxiv.org/abs/2311.09027v1 ) ライセンス: Link先を確認 | Lorenzo Nodari and Federico Cerutti | (参考訳) 雑音に対するロバスト性は強化学習システム、特に高利害と不確定な環境が優勢な軍事的文脈において最も重要である。
騒音と不確実性は軍事作戦の本質的な特徴であり、不完全な情報、敵対行動、予測不能な戦場条件などの要因から生じる。
RLでは、ノイズは意思決定、ミッションの成功、人員の安全に重大な影響を与える。
リワードマシンは、RLタスクにおける複雑な報酬構造を表現する強力なツールを提供し、ミッション目標に沿った調整された強化信号の設計を可能にする。
本稿では,報奨機に基づくインテリジェンス駆動型強化学習の堅牢性の問題について考察する。
その結果, 実証的推論と学習において, ミッションクリティカルな学習に先立って, 最先端の強化学習アプローチを強固にするためのさらなる研究が必要であることが示唆された。 Robustness to noise is of utmost importance in reinforcement learning systems, particularly in military contexts where high stakes and uncertain environments prevail. Noise and uncertainty are inherent features of military operations, arising from factors such as incomplete information, adversarial actions, or unpredictable battlefield conditions. In RL, noise can critically impact decision-making, mission success, and the safety of personnel. Reward machines offer a powerful tool to express complex reward structures in RL tasks, enabling the design of tailored reinforcement signals that align with mission objectives. This paper considers the problem of the robustness of intelligence-driven reinforcement learning based on reward machines. The preliminary results presented suggest the need for further research in evidential reasoning and learning to harden current state-of-the-art reinforcement learning approaches before being mission-critical-ready. | 翻訳日:2023-11-16 15:32:02 公開日:2023-11-15 |
# 増分ランダム化平滑化による視覚言語モデルの高速認証 Fast Certification of Vision-Language Models Using Incremental Randomized Smoothing ( http://arxiv.org/abs/2311.09024v1 ) ライセンス: Link先を確認 | A K Nirala (1), A Joshi (2), C Hegde (2), S Sarkar (1) ((1) Iowa State University, (2) New York University) | (参考訳) CLIPのような深い視覚言語モデルの大きな利点は、ゼロショットのオープン語彙分類を可能にすることである。
しかし、CLIPベースのゼロショット分類器は、さまざまなドメインシフトで競合性能を示しているが、敵攻撃に対して非常に脆弱である。
したがって、そのようなモデルの堅牢性を保証することは、その信頼性の高いデプロイに不可欠である。
本稿では,CLIP などのオープン語彙モデルを対象とした高速認証手法である Open Vocabulary Certification (OVC) を紹介する。
プロンプトのベース"トレーニング"セットとそれに対応するCLIP分類器が与えられた場合、OVCは、新しいプロンプトを持つ分類器がベーストレーニングセット内の近くの分類器の摂動バージョンと見なせるという観察に依存している。
したがって、OVCは漸進的ランダム化スムーシングのバリエーションを用いて、新しい分類器を迅速に認証することができる。
キャッシング手法を用いて,新規プロンプトの認証プロセスにおいて,約2桁の高速化を実現する。
さらに(ヒューリスティックな)スピードアップを達成するために、OVCは視覚バックボーンを通る前方通過によるサンプリングの必要性を回避し、多変量正規分布を用いて与えられた入力における埋め込み空間を近似する。
CIFAR-10およびImageNetテストデータセット上で、複数の視覚言語バックボーンを用いて実験評価を行い、OVCの有効性を示す。 A key benefit of deep vision-language models such as CLIP is that they enable zero-shot open vocabulary classification; the user has the ability to define novel class labels via natural language prompts at inference time. However, while CLIP-based zero-shot classifiers have demonstrated competitive performance across a range of domain shifts, they remain highly vulnerable to adversarial attacks. Therefore, ensuring the robustness of such models is crucial for their reliable deployment in the wild. In this work, we introduce Open Vocabulary Certification (OVC), a fast certification method designed for open-vocabulary models like CLIP via randomized smoothing techniques. Given a base "training" set of prompts and their corresponding certified CLIP classifiers, OVC relies on the observation that a classifier with a novel prompt can be viewed as a perturbed version of nearby classifiers in the base training set. Therefore, OVC can rapidly certify the novel classifier using a variation of incremental randomized smoothing. By using a caching trick, we achieve approximately two orders of magnitude acceleration in the certification process for novel prompts. To achieve further (heuristic) speedups, OVC approximates the embedding space at a given input using a multivariate normal distribution bypassing the need for sampling via forward passes through the vision backbone. We demonstrate the effectiveness of OVC on through experimental evaluation using multiple vision-language backbones on the CIFAR-10 and ImageNet test datasets. | 翻訳日:2023-11-16 15:31:50 公開日:2023-11-15 |
# 計算論における大規模言語モデルの可能性を探る Exploring the Potential of Large Language Models in Computational Argumentation ( http://arxiv.org/abs/2311.09022v1 ) ライセンス: Link先を確認 | Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing | (参考訳) 計算的議論は、人工知能、法、公共政策など様々な分野において必須の道具となっている。
自然言語処理(NLP)における新たな研究分野であり、注目を集めている。
計算的議論の研究は、主に引数マイニングと引数生成の2つのタイプのタスクを含む。
大規模言語モデル (LLM) は文脈の理解と自然言語生成に強い能力を発揮しているため, 様々な計算議論タスクにおいて, LLMの性能を評価することは重要である。
本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。
既存のタスクを6つのメインクラスに整理し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。
また,計算的議論の評価における限界を強調し,この分野における今後の研究方向性について提案する。 Computational argumentation has become an essential tool in various fields, including artificial intelligence, law, and public policy. It is an emerging research field in natural language processing (NLP) that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models (LLMs) have demonstrated strong abilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on various computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under zero-shot and few-shot settings within the realm of computational argumentation. We organize existing tasks into 6 main classes and standardise the format of 14 open-sourced datasets. In addition, we present a new benchmark dataset on counter speech generation, that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of these datasets, demonstrating their capabilities in the field of argumentation. We also highlight the limitations in evaluating computational argumentation and provide suggestions for future research directions in this field. | 翻訳日:2023-11-16 15:31:22 公開日:2023-11-15 |
# 説明の説明:コードレビューにおける説明の実証的研究 Explaining Explanation: An Empirical Study on Explanation in Code Reviews ( http://arxiv.org/abs/2311.09020v1 ) ライセンス: Link先を確認 | Ratnadira Widyasari, Ting Zhang, Abir Bouraffa, David Lo | (参考訳) コードレビューは、ソフトウェア開発における品質保証の重要なプロセスである。
効果的なコードレビューのために、レビュアーはフィードバックを説明して、コード変更の著者が彼らに対して行動できるようにしなければならない。
しかし、この説明は、異なるタイプの説明を必要とする開発者の間で異なるかもしれない。
したがって、コードレビューでレビュアーが一般的に使用する説明の種類を理解することが重要です。
私たちの知る限りでは、コードレビューで使用される説明のタイプを分析した研究は、これまで行われていない。
本研究では,コードレビューにおける説明の初回分析について述べる。
我々は,それらの有用性に基づいてコードレビューを抽出し,それらに説明,解決,あるいは提案された解と説明の両方が含まれているかに基づいてラベル付けした。
分析の結果,コードレビューコメントのかなりの部分(46%)には,説明書を使わずにソリューションが含まれていることが分かりました。
さらに、説明を含むコードレビューコメントの残りの54%を調査し、レビュアーの説明を分類するためにオープンカードソートを行った。
使用する表現形式に基づいて,7つの異なる説明カテゴリを蒸留した。
次に、大規模な言語モデル、特にChatGPTを使用して、開発者が好みに合ったコードレビュー説明を得るのを支援します。
具体的には、コードレビューの説明を特定のタイプの説明に変換するプロンプトを作成しました。
以上の結果から,ChatGPTは88/90例の特定タイプの説明を正しく生成し,89/90例の正しい説明が得られた。
全体として、コードレビューで開発者が使用する説明の種類に関する洞察を提供し、コードレビュープロセス中にChatGPTをどのように活用して、特定のタイプの説明を生成するかを示す。 Code review is an important process for quality assurance in software development. For an effective code review, the reviewers must explain their feedback to enable the authors of the code change to act on them. However, the explanation needs may differ among developers, who may require different types of explanations. It is therefore crucial to understand what kind of explanations reviewers usually use in code reviews. To the best of our knowledge, no study published to date has analyzed the types of explanations used in code review. In this study, we present the first analysis of explanations in useful code reviews. We extracted a set of code reviews based on their usefulness and labeled them based on whether they contained an explanation, a solution, or both a proposed solution and an explanation thereof. Based on our analysis, we found that a significant portion of the code review comments (46%) only include solutions without providing an explanation. We further investigated the remaining 54% of code review comments containing an explanation and conducted an open card sorting to categorize the reviewers' explanations. We distilled seven distinct categories of explanations based on the expression forms developers used. Then, we utilize large language models, specifically ChatGPT, to assist developers in getting a code review explanation that suits their preferences. Specifically, we created prompts to transform a code review explanation into a specific type of explanation. Our evaluation results show that ChatGPT correctly generated the specified type of explanation in 88/90 cases and that 89/90 of the cases have the correct explanation. Overall, our study provides insights into the types of explanations that developers use in code review and showcases how ChatGPT can be leveraged during the code review process to generate a specific type of explanation. | 翻訳日:2023-11-16 15:31:06 公開日:2023-11-15 |
# 近似メッセージパッシングをロバストにシミュレートする半定値プログラム Semidefinite programs simulate approximate message passing robustly ( http://arxiv.org/abs/2311.09017v1 ) ライセンス: Link先を確認 | Misha Ivkov, Tselil Schramm | (参考訳) 近似メッセージパッシング (AMP) は、行列パワーの反復を一般化する反復アルゴリズムの一群である。
AMPアルゴリズムは、多くの平均ケース最適化問題を最適に解くことが知られている。
本稿では,測度1/\mathrm{polylog}(\mathrm{dimension})$の未知のプリンシパルマイナーが逆向きに分解された場合でも,大規模なAMPアルゴリズムを多項式時間で半定値プログラム(SDP)でシミュレートできることを示す。
これらの問題の多くに対する最初の堅牢な保証です。
さらに,max-cut-gain平均値(すなわち「シェリントン・カークパトリック・ハミルトニアンを最適化する」)に対する制約の少ないsdp緩和に対する,強い下界に対する興味深い反点を示す。 Approximate message passing (AMP) is a family of iterative algorithms that generalize matrix power iteration. AMP algorithms are known to optimally solve many average-case optimization problems. In this paper, we show that a large class of AMP algorithms can be simulated in polynomial time by \emph{local statistics hierarchy} semidefinite programs (SDPs), even when an unknown principal minor of measure $1/\mathrm{polylog}(\mathrm{dimension})$ is adversarially corrupted. Ours are the first robust guarantees for many of these problems. Further, our results offer an interesting counterpoint to strong lower bounds against less constrained SDP relaxations for average-case max-cut-gain (a.k.a. "optimizing the Sherrington-Kirkpatrick Hamiltonian") and other problems. | 翻訳日:2023-11-16 15:30:40 公開日:2023-11-15 |
# 非無視欠落データの同定と推定:データ融合アプローチ Identification and Estimation for Nonignorable Missing Data: A Data Fusion Approach ( http://arxiv.org/abs/2311.09015v1 ) ライセンス: Link先を確認 | Zixiao Wang, AmirEmad Ghassami, Ilya Shpitser | (参考訳) 我々は、データがランダムでない設定(mnar)において、興味のあるパラメータを同定し、推定するタスクについて検討する。
一般に、そのようなパラメータは、欠落したデータモデルに強い仮定なしでは識別されない。
本稿では、mnarデータセットの情報は、ランダム(mar)における欠落の対象となる補助データセットの情報によって拡張されるデータ融合に着想を得た手法を提案する。
いずれかのデータセットのみから興味のあるパラメータを識別できない場合でも、2つの相補的な仮定の下でプールデータとして識別できることを示す。
同定されたパラメータに対する逆確率重み付き (IPW) 推定器を導出し, シミュレーションによる評価手法の性能評価を行った。 We consider the task of identifying and estimating a parameter of interest in settings where data is missing not at random (MNAR). In general, such parameters are not identified without strong assumptions on the missing data model. In this paper, we take an alternative approach and introduce a method inspired by data fusion, where information in an MNAR dataset is augmented by information in an auxiliary dataset subject to missingness at random (MAR). We show that even if the parameter of interest cannot be identified given either dataset alone, it can be identified given pooled data, under two complementary sets of assumptions. We derive an inverse probability weighted (IPW) estimator for identified parameters, and evaluate the performance of our estimation strategies via simulation studies. | 翻訳日:2023-11-16 15:30:22 公開日:2023-11-15 |
# Reward Machine-based Reinforcement Learning に対する逆攻撃 Adversarial Attacks to Reward Machine-based Reinforcement Learning ( http://arxiv.org/abs/2311.09014v1 ) ライセンス: Link先を確認 | Lorenzo Nodari | (参考訳) 近年、Reward Machines (RM) は、強化学習環境におけるタスク構造を公開・活用するための、シンプルで効果的なオートマトンベースのフォーマリズムとして際立っている。
関連があるにも拘わらず、最近の文献の出現により、その安全保障的意義と敵対的シナリオに対する堅牢性の研究にほとんど注意が向けられていない。
本稿では,この分野におけるさらなる研究の動機づけを目的として,rmベース強化学習技術の安全性に関する最初の分析を行い,rmベースの手法に対する新たな攻撃クラスであるブラインドアタックを提案し,評価する。 In recent years, Reward Machines (RMs) have stood out as a simple yet effective automata-based formalism for exposing and exploiting task structure in reinforcement learning settings. Despite their relevance, little to no attention has been directed to the study of their security implications and robustness to adversarial scenarios, likely due to their recent appearance in the literature. With my thesis, I aim to provide the first analysis of the security of RM-based reinforcement learning techniques, with the hope of motivating further research in the field, and I propose and evaluate a novel class of attacks on RM-based techniques: blinding attacks. | 翻訳日:2023-11-16 15:30:08 公開日:2023-11-15 |
# 量子ロータモデルにおける2乗和緩和の解析 Analysis of sum-of-squares relaxations for the quantum rotor model ( http://arxiv.org/abs/2311.09010v1 ) ライセンス: Link先を確認 | Sujit Rao | (参考訳) noncommutative sum-of-squares (ncsos) 階層はnavascu\'{e}s-pironio-ac\'{i}nによって、非局所ゲームの量子値の一般化を意図した非可換多項式最適化問題の値近似のための半定義型プログラミング緩和の列として導入された。
最近の研究は、まず量子マックスカットに適用された次数2 ncSoSの積状態を出力する丸いアルゴリズムを用いて、局所ハミルトンの基底エネルギーを近似する階層を解析し始めた。
いくつかの丸め法は、出力の絡み合った状態が知られているが、次数-4 ncSoS を用いる。
これに基づいて、Hwang-Neeman-Parekh-Thompson-Wright は、次数 2 ncSoS が量子マックス・カットの積状態近似に勝ることができないと推測し、ボレルの不等式を導出した。
この研究において、無限次元局所ヒルベルト空間 $L^{2}(S^{k - 1})$ を持つハミルトニアンの族(凝縮物質文学における量子ローターモデルまたは量子場理論における格子 $O(k)$ベクトルモデル)を考えると、次数 2 ncSoS 緩和は任意の積状態よりも基底状態エネルギーを近似することを示す。 The noncommutative sum-of-squares (ncSoS) hierarchy was introduced by Navascu\'{e}s-Pironio-Ac\'{i}n as a sequence of semidefinite programming relaxations for approximating values of noncommutative polynomial optimization problems, which were originally intended to generalize quantum values of nonlocal games. Recent work has started to analyze the hierarchy for approximating ground energies of local Hamiltonians, initially through rounding algorithms which output product states for degree-2 ncSoS applied to Quantum Max-Cut. Some rounding methods are known which output entangled states, but they use degree-4 ncSoS. Based on this, Hwang-Neeman-Parekh-Thompson-Wright conjectured that degree-2 ncSoS cannot beat product state approximations for Quantum Max-Cut and gave a partial proof relying on a conjectural generalization of Borrell's inequality. In this work we consider a family of Hamiltonians (called the quantum rotor model in condensed matter literature or lattice $O(k)$ vector model in quantum field theory) with infinite-dimensional local Hilbert space $L^{2}(S^{k - 1})$, and show that a degree-2 ncSoS relaxation approximates the ground state energy better than any product state. | 翻訳日:2023-11-16 15:29:56 公開日:2023-11-15 |
# エンドツーエンドのタスク指向対話:タスク,方法,今後の方向性に関する調査 End-to-end Task-oriented Dialogue: A Survey of Tasks, Methods, and Future Directions ( http://arxiv.org/abs/2311.09008v1 ) ライセンス: Link先を確認 | Libo Qin, Wenbo Pan, Qiguang Chen, Lizi Liao, Zhou Yu, Yue Zhang, Wanxiang Che, Min Li | (参考訳) エンドツーエンドのタスク指向対話(EToD)は、モジュラートレーニングなしでエンドツーエンドで応答を直接生成できるため、人気が高まる。
ディープニューラルネットワークの進歩、特に大規模な事前訓練モデルの使用の成功は、近年のEToD研究の著しい進歩につながっている。
本稿では,etod研究の発展を進めるために,既存のアプローチと最近のトレンドをまとめるべく,徹底したレビューを行い,統一的な視点を提供する。
本論文のコントリビューションは以下にまとめる: (1) \textbf{\textit{First survey}}: 我々の知識に対して、我々はこの研究分野の徹底的な調査を行うための第一歩を踏み出した; (2) \textbf{\textit{New taxonomy}}: 最初にEToDの統一的な視点を導入する。
i) \textit{Modularly EToD} および
(ii) \textit{fully etod}; (3) \textbf{\textit{new frontiers}}: いくつかの潜在的なフロンティア領域と対応する課題について議論し、etodフィールドにおける画期的な研究を促進することを望んでいる; (4) \textbf{\textit{abundant resources}}: 公開ウェブサイト\footnote{we collect the related papers, baseline projects, and leaderboards for the community at \url{https://etods.net/} を構築する。
EToDの研究者たちは、最近の進歩に直接アクセスできる。
この研究がEToD研究コミュニティの徹底的な参考になることを期待しています。 End-to-end task-oriented dialogue (EToD) can directly generate responses in an end-to-end fashion without modular training, which attracts escalating popularity. The advancement of deep neural networks, especially the successful use of large pre-trained models, has further led to significant progress in EToD research in recent years. In this paper, we present a thorough review and provide a unified perspective to summarize existing approaches as well as recent trends to advance the development of EToD research. The contributions of this paper can be summarized: (1) \textbf{\textit{First survey}}: to our knowledge, we take the first step to present a thorough survey of this research field; (2) \textbf{\textit{New taxonomy}}: we first introduce a unified perspective for EToD, including (i) \textit{Modularly EToD} and (ii) \textit{Fully EToD}; (3) \textbf{\textit{New Frontiers}}: we discuss some potential frontier areas as well as the corresponding challenges, hoping to spur breakthrough research in EToD field; (4) \textbf{\textit{Abundant resources}}: we build a public website\footnote{We collect the related papers, baseline projects, and leaderboards for the community at \url{https://etods.net/}.}, where EToD researchers could directly access the recent progress. We hope this work can serve as a thorough reference for the EToD research community. | 翻訳日:2023-11-16 15:29:27 公開日:2023-11-15 |
# 大規模言語モデルにおける幻覚のリアルタイム検証と再現 Ever: Mitigating Hallucination in Large Language Models through Real-Time Verification and Rectification ( http://arxiv.org/abs/2311.09114v1 ) ライセンス: Link先を確認 | Haoqiang Kang, Juntong Ni, Huaxiu Yao | (参考訳) 大規模言語モデル(llm)は、流麗なテキストの生成に著しく熟練している。
しかし、しばしば不正確なあるいは幻覚的なコンテンツを生成するという課題に遭遇する。
この問題は、非リトライバル型世代と検索型世代の両方で一般的であり、既存のポストホック整流法は、特に推論タスクにおいて「雪玉」問題によって引き起こされる可能性のある累積幻覚エラーに対応できない可能性がある。
これらの課題に取り組むために,我々はリアルタイム検証と修正(ever)と呼ばれる新しいアプローチを導入する。
幻覚を正すための生成プロセスの終わりまで待つ代わりに、everはリアルタイム、ステップワイズ、幻覚正す戦略を採用している。
主な目的は、テキスト生成プロセス中に発生する幻覚を検出し、修正することである。
検索ベースと非検索ベースの両方と比較して、Everは、ショートフォームのQA、伝記生成、マルチホップ推論など、さまざまなタスクにおいて、信頼性と現実的に正確なテキストを生成する上で、大幅な改善を示している。 Large Language Models (LLMs) have demonstrated remarkable proficiency in generating fluent text. However, they often encounter the challenge of generating inaccurate or hallucinated content. This issue is common in both non-retrieval-based generation and retrieval-augmented generation approaches, and existing post-hoc rectification methods may not address the accumulated hallucination errors that may be caused by the "snowballing" issue, especially in reasoning tasks. To tackle these challenges, we introduce a novel approach called Real-time Verification and Rectification (Ever). Instead of waiting until the end of the generation process to rectify hallucinations, Ever employs a real-time, step-wise generation and hallucination rectification strategy. The primary objective is to detect and rectify hallucinations as they occur during the text generation process. When compared to both retrieval-based and non-retrieval-based baselines, Ever demonstrates a significant improvement in generating trustworthy and factually accurate text across a diverse range of tasks, including short-form QA, biography generation, and multi-hop reasoning. | 翻訳日:2023-11-16 15:21:51 公開日:2023-11-15 |
# 自律走行車におけるコンピュータビジョンの応用:手法,課題,今後の展開 Applications of Computer Vision in Autonomous Vehicles: Methods, Challenges and Future Directions ( http://arxiv.org/abs/2311.09093v1 ) ライセンス: Link先を確認 | Xingshuai Dong and Massimiliano L. Cappuccio | (参考訳) 自律走行車(autonomous vehicle)とは、周囲の環境を感知し、人間の運転者の入力をほとんどあるいは全く必要としない車両を指す。
知覚システムは、自律車両がデータを収集し、環境から関連する情報を抽出して安全に運転できるようにする基本的な構成要素である。
コンピュータビジョンの最近の進歩に特化して、カメラ、LiDAR、レーダー、超音波センサーなどのセンサーを使用することで、知覚タスクを実現することができる。
本稿では,過去10年間に出版されたコンピュータビジョンと自動運転に関する論文をレビューする。
特に、まず自律運転システムの開発について検討し、各国の主要自動車メーカーによって開発されたこれらのシステムを要約する。
次に,自律運転によく利用されるセンサとベンチマークデータセットについて検討する。
次に, 深度推定, 物体検出, 車線検出, 交通信号認識などの自律運転におけるコンピュータビジョン応用の概要について述べる。
さらに、自動運転車に関する世論や懸念についても検討する。
この議論に基づいて、自動運転車が直面する現在の技術的課題を分析する。
最後に、我々の洞察を示し、今後の研究に有望な方向性を指摘する。
本論文は,学術・産業の観点から,自動運転車の理解を支援するものである。 Autonomous vehicle refers to a vehicle capable of perceiving its surrounding environment and driving with little or no human driver input. The perception system is a fundamental component which enables the autonomous vehicle to collect data and extract relevant information from the environment to drive safely. Benefit from the recent advances in computer vision, the perception task can be achieved by using sensors, such as camera, LiDAR, radar, and ultrasonic sensor. This paper reviews publications on computer vision and autonomous driving that are published during the last ten years. In particular, we first investigate the development of autonomous driving systems and summarize these systems that are developed by the major automotive manufacturers from different countries. Second, we investigate the sensors and benchmark data sets that are commonly utilized for autonomous driving. Then, a comprehensive overview of computer vision applications for autonomous driving such as depth estimation, object detection, lane detection, and traffic sign recognition are discussed. Additionally, we review public opinions and concerns on autonomous vehicles. Based on the discussion, we analyze the current technological challenges that autonomous vehicles meet with. Finally, we present our insights and point out some promising directions for future research. This paper will help the reader to understand autonomous vehicles from the perspectives of academia and industry. | 翻訳日:2023-11-16 15:21:30 公開日:2023-11-15 |
# 社会的バイアス調査: 言語モデルの公平性ベンチマーク Social Bias Probing: Fairness Benchmarking for Language Models ( http://arxiv.org/abs/2311.09090v1 ) ライセンス: Link先を確認 | Marta Marchiori Manerba, Karolina Sta\'nczak, Riccardo Guidotti, Isabelle Augenstein | (参考訳) 大規模言語モデルは、下流の危害のリスクを負う様々な社会バイアスを符号化することが示されている。
これらのバイアスの影響は認識されているが、以前のバイアス評価手法は小さなデータセット上でのバイナリアソシエーションテストに限られており、言語モデルにおける社会的バイアスの性質の制約されたビューを提供する。
本稿では,社会バイアスに対する言語モデル探索のためのフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
この目的のために、我々は新しいパープレキシティに基づくフェアネススコアを利用する。
我々は、既存のフェアネスコレクションの欠点や制限に対処する大規模なベンチマークデータセットをキュレートし、さまざまなアイデンティティやステレオタイプに拡張する。
我々の方法論を先行研究と比較すると、言語モデル内のバイアスは以前認められたよりもニュアンスが強いことが分かる。
最近の研究結果と一致して、より大きなモデル変種はより高いバイアスを示すことが判明した。
さらに,異なる宗教を表わすアイデンティティが,どのモデルにおいても最も明瞭な異質な治療につながることを明らかにする。 Large language models have been shown to encode a variety of social biases, which carries the risk of downstream harms. While the impact of these biases has been recognized, prior methods for bias evaluation have been limited to binary association tests on small datasets, offering a constrained view of the nature of societal biases within language models. In this paper, we propose an original framework for probing language models for societal biases. We collect a probing dataset to analyze language models' general associations, as well as along the axes of societal categories, identities, and stereotypes. To this end, we leverage a novel perplexity-based fairness score. We curate a large-scale benchmarking dataset addressing drawbacks and limitations of existing fairness collections, expanding to a variety of different identities and stereotypes. When comparing our methodology with prior work, we demonstrate that biases within language models are more nuanced than previously acknowledged. In agreement with recent findings, we find that larger model variants exhibit a higher degree of bias. Moreover, we expose how identities expressing different religions lead to the most pronounced disparate treatments across all models. | 翻訳日:2023-11-16 15:21:11 公開日:2023-11-15 |
# Uli Dataset:oGBVの注釈付きエクスペリエンスのエクササイズ The Uli Dataset: An Exercise in Experience Led Annotation of oGBV ( http://arxiv.org/abs/2311.09086v1 ) ライセンス: Link先を確認 | Arnav Arora, Maha Jinadoss, Cheshta Arora, Denny George, Brindaalakshmi, Haseena Dawood Khan, Kirti Rawat, Div, Ritash, Seema Mathur, Shivani Yadav, Shehla Rashid Shora, Rie Raut, Sumit Pawar, Apurva Paithane, Sonia, Vivek, Dharini Priscilla, Khairunnisha, Grace Banu, Ambika Tandon, Rishav Thakker, Rahul Dev Korra, Aatman Vaidya, Tarunima Prabhakar | (参考訳) オンラインのジェンダーベースの暴力は、インターネットやソーシャルメディアの普及とともに成長してきた。
その影響は、多くのユーザーが英語以外の言語でソーシャルメディアを使っている世界の大多数で悪化している。
インターネット上の会話の規模とボリュームは、ヘイトスピーチの自動検出の必要性、特に性別による虐待を必要としている。
しかし、そのような自動化ツールを構築するための言語固有のデータやコンテキストデータがない。
本稿では,ヒンディー語,タミル語,インド英語の3言語における性虐待に関するデータセットを提案する。
このデータセットは、南アジアのlgbtqiaコミュニティの一員または女性として特定される専門家によって、性虐待の経験に関する3つの質問に注釈を付されたツイートで構成されている。
このデータセットを通じて、AIシステムを駆動するデータセットを作成するための参加型アプローチを示します。 Online gender based violence has grown concomitantly with adoption of the internet and social media. Its effects are worse in the Global majority where many users use social media in languages other than English. The scale and volume of conversations on the internet has necessitated the need for automated detection of hate speech, and more specifically gendered abuse. There is, however, a lack of language specific and contextual data to build such automated tools. In this paper we present a dataset on gendered abuse in three languages- Hindi, Tamil and Indian English. The dataset comprises of tweets annotated along three questions pertaining to the experience of gender abuse, by experts who identify as women or a member of the LGBTQIA community in South Asia. Through this dataset we demonstrate a participatory approach to creating datasets that drive AI systems. | 翻訳日:2023-11-16 15:20:51 公開日:2023-11-15 |
# テキストに基づく人物探索のための近接データ生成を用いたコントラストトランスフォーマ学習 Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search ( http://arxiv.org/abs/2311.09084v1 ) ライセンス: Link先を確認 | Hefeng Wu, Weifeng Chen, Zhibin Liu, Tianshui Chen, Zhiguang Chen, Liang Lin | (参考訳) テキストベースの人物検索(TBPS)は画像ギャラリーから最適な人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
この2つのモダリティをよりよく整えるために、既存の作品のほとんどは、複雑で実装が難しい高度なネットワーク構造と補助タスクの導入に焦点を当てている。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
ハードネスを意識したコントラスト学習戦略を活用し,局所特徴のアライメントやサイド情報に対して特別な設計をすることなく,最先端のパフォーマンスを実現する。
さらに,より多様なデータを自動的に生成する近接データ生成(PDG)モジュールを提案する。
pdgモジュールはまずテキストから画像への拡散モデルに基づく自動生成アルゴリズムを導入する。
そして、トレーニング中に近似テキスト生成と特徴レベルのミックスアップを組み合わせて、データの多様性をさらに強化する。
PDGモジュールは、人間のノイズ拒絶検査なしで直接訓練に使用される生成されたサンプルの推論可能性を大幅に保証することができる。
モデルの性能を大幅に改善し、このようなきめ細かい視覚言語タスクが直面するデータ不足問題に対して、実現可能な解決策を提供する。
TBPSタスクの2つの一般的なデータセット(CUHK-PEDESとICFG-PEDES)に対する大規模な実験は、提案手法が最先端のアプローチ、例えば、CUHK-PEDESのTop1、Top5、Top10の3.88%、4.02%、2.92%を明らかに上回っていることを示している。
コードはhttps://github.com/HCPLab-SYSU/PersonSearch-CTLGで入手できる。 Given a descriptive text query, text-based person search (TBPS) aims to retrieve the best-matched target person from an image gallery. Such a cross-modal retrieval task is quite challenging due to significant modality gap, fine-grained differences and insufficiency of annotated data. To better align the two modalities, most existing works focus on introducing sophisticated network structures and auxiliary tasks, which are complex and hard to implement. In this paper, we propose a simple yet effective dual Transformer model for text-based person search. By exploiting a hardness-aware contrastive learning strategy, our model achieves state-of-the-art performance without any special design for local feature alignment or side information. Moreover, we propose a proximity data generation (PDG) module to automatically produce more diverse data for cross-modal training. The PDG module first introduces an automatic generation algorithm based on a text-to-image diffusion model, which generates new text-image pair samples in the proximity space of original ones. Then it combines approximate text generation and feature-level mixup during training to further strengthen the data diversity. The PDG module can largely guarantee the reasonability of the generated samples that are directly used for training without any human inspection for noise rejection. It improves the performance of our model significantly, providing a feasible solution to the data insufficiency problem faced by such fine-grained visual-linguistic tasks. Extensive experiments on two popular datasets of the TBPS task (i.e., CUHK-PEDES and ICFG-PEDES) show that the proposed approach outperforms state-of-the-art approaches evidently, e.g., improving by 3.88%, 4.02%, 2.92% in terms of Top1, Top5, Top10 on CUHK-PEDES. The codes will be available at https://github.com/HCPLab-SYSU/PersonSearch-CTLG | 翻訳日:2023-11-16 15:20:38 公開日:2023-11-15 |
# スパイキングNeRF:不連続表現による実世界幾何の表現 Spiking NeRF: Representing the Real-World Geometry by a Discontinuous Representation ( http://arxiv.org/abs/2311.09077v1 ) ライセンス: Link先を確認 | Zhanfeng Liao, Qian Zheng, Yan Liu, Gang Pan | (参考訳) 既存のNeRFベースの手法が成功した重要な理由は、複数のパーセプトロン層(MLP)を介して幾何学表現のための神経密度場を構築することである。
MLPは連続関数であるが、実際の幾何学や密度場は空気と表面の界面においてしばしば不連続である。
このような逆は不利な幾何学表現の問題をもたらす。
そこで本研究では, スパイキングニューロンとハイブリッドニューラルネットワーク(ANN)-スパイキングニューラルネットワーク(SNN)を用いて, 忠実な幾何表現のための不連続密度場を構築するためのスパイキングNeRFを提案する。
具体的には、連続密度場が不正確をもたらす理由を最初に示す。
次に、スパイキングニューロンを用いて不連続密度場を構築することを提案する。
本研究では,既存のスパイキングニューロンモデルの問題に対する包括的解析を行い,スパイキングニューロンのパラメータと幾何学的精度との数値的関係を考察し,不連続密度場を構築するための境界スパイキングニューロンを提案する。
我々の結果はSOTA性能を達成する。
私たちのコードとデータは一般公開されます。 A crucial reason for the success of existing NeRF-based methods is to build a neural density field for the geometry representation via multiple perceptron layers (MLPs). MLPs are continuous functions, however, real geometry or density field is frequently discontinuous at the interface between the air and the surface. Such a contrary brings the problem of unfaithful geometry representation. To this end, this paper proposes spiking NeRF, which leverages spiking neuron and a hybrid Artificial Neural Network (ANN)-Spiking Neural Network (SNN) framework to build a discontinuous density field for faithful geometry representation. Specifically, we first demonstrate the reason why continuous density fields will bring inaccuracy. Then, we propose to use the spiking neurons to build a discontinuous density field. We conduct comprehensive analysis for the problem of existing spiking neuron models and then provide the numerical relationship between the parameter of spiking neuron and the theoretical accuracy of geometry, Based on this, we propose a bounded spiking neuron to build the discontinuous density field. Our results achieve SOTA performance. Our code and data will be released to the public. | 翻訳日:2023-11-16 15:20:04 公開日:2023-11-15 |
# マルチ言語LLMとは何でしょう? How Multilingual is Multilingual LLM? ( http://arxiv.org/abs/2311.09071v1 ) ライセンス: Link先を確認 | Fei Yuan, Shuai Yuan, Zhiyong Wu, Lei Li | (参考訳) 大きな言語モデル (LLMs) は、主に英語のデータに基づいて訓練され、しばしば他の言語に適用された場合の制限を示す。
現在の研究は主に、様々なチューニング戦略を用いて、これらのモデルの多言語能力の向上に重点を置いている。
特定の言語での有効性にもかかわらず、LLMの多言語能力の理解はいまだに不完全である。
本研究では,LLMの多言語能力を評価するために,101言語にまたがる徹底的な分析を行い,類似した特徴を持つ言語を4つの四分詞に分類する。
それぞれのクアドラントを掘り下げることで、分類の背後にある理論的根拠を明らかにし、これらの言語をチューニングするための実行可能なガイドラインを提供します。
大規模実験により,既存のLLMは期待を超える多言語機能を有しており,これらの特徴に着目してLLMの多言語性能を著しく向上させることができることがわかった。 Large Language Models (LLMs), trained predominantly on extensive English data, often exhibit limitations when applied to other languages. Current research is primarily focused on enhancing the multilingual capabilities of these models by employing various tuning strategies. Despite their effectiveness in certain languages, the understanding of the multilingual abilities of LLMs remains incomplete. This study endeavors to evaluate the multilingual capacity of LLMs by conducting an exhaustive analysis across 101 languages, and classifies languages with similar characteristics into four distinct quadrants. By delving into each quadrant, we shed light on the rationale behind their categorization and offer actionable guidelines for tuning these languages. Extensive experiments reveal that existing LLMs possess multilingual capabilities that surpass our expectations, and we can significantly improve the multilingual performance of LLMs by focusing on these distinct attributes present in each quadrant. | 翻訳日:2023-11-16 15:19:47 公開日:2023-11-15 |
# 大規模な言語モデルが本当に優れているのか? How Well Do Large Language Models Truly Ground? ( http://arxiv.org/abs/2311.09069v1 ) ライセンス: Link先を確認 | Hyunji Lee, Sejune Joo, Chaeeun Kim, Joel Jang, Doyoung Kim, Kyoung-Woon On, Minjoon Seo | (参考訳) 大規模言語モデル(llm)の固有知識への依存は、幻覚、制御の欠如、可変知識の統合の困難といった問題を引き起こす可能性がある。
これを軽減するために、llmは、しばしば入力として与えられる外部のコンテキストに基づいて、応答を生成するために調査することができる(知識モデル)。
しかし、以前の研究はしばしば「接地」という用語の狭い視野に限られており、応答が正しい答えを含むかどうかにのみ焦点を絞っているため、応答全体の信頼性が保証されない。
この制限に対処するために、我々は厳密なグラウンド化の定義を導入する: モデルはその応答(1)提供された文脈から必要な知識を十分に活用し、(2)コンテキスト内の知識を超えないときに真にグラウンド化されると考えられる。
我々は,この新しい定義を評価し,13 llmの異なるサイズで実験を行うための新しいデータセットと接地指標を導入し,接地性能に影響を与える要因に関する洞察を提供する。
本研究は,より信頼性が高く制御可能なLLMアプリケーションに向けた改良領域を提案するとともに,基礎機能の改善方法の理解に寄与する。 Reliance on the inherent knowledge of Large Language Models (LLMs) can cause issues such as hallucinations, lack of control, and difficulties in integrating variable knowledge. To mitigate this, LLMs can be probed to generate responses by grounding on external context, often given as input (knowledge-augmented models). Yet, previous research is often confined to a narrow view of the term "grounding", often only focusing on whether the response contains the correct answer or not, which does not ensure the reliability of the entire response. To address this limitation, we introduce a strict definition of grounding: a model is considered truly grounded when its responses (1) fully utilize necessary knowledge from the provided context, and (2) don't exceed the knowledge within the contexts. We introduce a new dataset and a grounding metric to assess this new definition and perform experiments across 13 LLMs of different sizes and training methods to provide insights into the factors that influence grounding performance. Our findings contribute to a better understanding of how to improve grounding capabilities and suggest an area of improvement toward more reliable and controllable LLM applications. | 翻訳日:2023-11-16 15:19:31 公開日:2023-11-15 |
# バンドフィードバックによるフェアディビジョンの学習 Learning Fair Division from Bandit Feedback ( http://arxiv.org/abs/2311.09068v1 ) ライセンス: Link先を確認 | Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki | (参考訳) 中央プランナーがエージェントの価値やユーティリティの正確な知識を必要とせず、順次アイテムを割り当てる不確実性の下でオンラインフェア分割を学ぶ。
従来のオンラインアルゴリズムから外れたプランナーは、アイテムを割り当てた後に得られるノイズの多い推定値に依存している。
本稿では,着信アイテムの型分布と,バンディットフィードバックによるエージェントの値の段階的学習を可能にする,\textit{dual averaging}を用いたラッパーアルゴリズムを提案する。
このアプローチにより, 補助効用を有するエージェントを用いて, リニアフィッシャー市場でのnash社会福祉を漸近的に達成することができる。
我々はナッシュ社会福祉における後悔の限界を確立し、人工的および経験的データセット間で提案アルゴリズムの優れた性能を実証的に検証する。 This work addresses learning online fair division under uncertainty, where a central planner sequentially allocates items without precise knowledge of agents' values or utilities. Departing from conventional online algorithm, the planner here relies on noisy, estimated values obtained after allocating items. We introduce wrapper algorithms utilizing \textit{dual averaging}, enabling gradual learning of both the type distribution of arriving items and agents' values through bandit feedback. This approach enables the algorithms to asymptotically achieve optimal Nash social welfare in linear Fisher markets with agents having additive utilities. We establish regret bounds in Nash social welfare and empirically validate the superior performance of our proposed algorithms across synthetic and empirical datasets. | 翻訳日:2023-11-16 15:19:11 公開日:2023-11-15 |
# コミュニティ・ベースのソーシャルメディア投稿における利用・誤用・依存の自己開示 Identifying Self-Disclosures of Use, Misuse and Addiction in Community-based Social Media Posts ( http://arxiv.org/abs/2311.09066v1 ) ライセンス: Link先を確認 | Chenghao Yang, Tuhin Chakrabarty, Karli R Hochstatter, Melissa N Slavin, Nabila El-Bassel, Smaranda Muresan | (参考訳) この10年間で、米国は、処方薬と違法オピオイド(https://www.cdc.gov/drugoverdose/epidemic/index.html)を含む過剰摂取で50万人以上を失った。
意図しないオピオイドの過剰摂取をより効果的に防止するため、医師はリスクの高い患者を効果的に特定できる堅牢でタイムリーなツールが必要である。
redditのようなコミュニティベースのソーシャルメディアプラットフォームは、ユーザーが他のセンシティブな薬物関連行動について自己開示することを可能にし、しばしばオピオイド使用障害の指標として機能する。
そこで本研究では,オピオイド使用の6段階(医療用,誤用,添加,回復,再発,使用しない)にまたがる,2500個のオピオイド関連ポストの適度なサイズコーパスを提示する。
すべての投稿で、私たちは、スパンレベルの抽出説明に注釈を付け、アノテーションの品質とモデル開発の両方において、その役割を重要視しています。
我々は,教師付き,少数ショット,ゼロショットの設定において,最先端のモデルをいくつか評価する。
実験結果と誤差解析の結果,オピオイド使用障害の位相の同定は非常に文脈的かつ困難であることがわかった。
しかし,モデリングにおける説明の活用は,オピオイド乱用障害連続体の研究などの高用量領域における有効性を示す分類精度を著しく向上させることがわかった。
データセットは、公式バージョンでgithubで研究することができる。 In the last decade, the United States has lost more than 500,000 people from an overdose involving prescription and illicit opioids (https://www.cdc.gov/drugoverdose/epidemic/index.html) making it a national public health emergency (USDHHS, 2017). To more effectively prevent unintentional opioid overdoses, medical practitioners require robust and timely tools that can effectively identify at-risk patients. Community-based social media platforms such as Reddit allow self-disclosure for users to discuss otherwise sensitive drug-related behaviors, often acting as indicators for opioid use disorder. Towards this, we present a moderate size corpus of 2500 opioid-related posts from various subreddits spanning 6 different phases of opioid use: Medical Use, Misuse, Addiction, Recovery, Relapse, Not Using. For every post, we annotate span-level extractive explanations and crucially study their role both in annotation quality and model development. We evaluate several state-of-the-art models in a supervised, few-shot, or zero-shot setting. Experimental results and error analysis show that identifying the phases of opioid use disorder is highly contextual and challenging. However, we find that using explanations during modeling leads to a significant boost in classification accuracy demonstrating their beneficial role in a high-stakes domain such as studying the opioid use disorder continuum. The dataset will be made available for research on Github in the formal version. | 翻訳日:2023-11-16 15:18:58 公開日:2023-11-15 |
# 凸制約付き弱凸問題に対する減衰近距離ラグランジアン法 Damped Proximal Augmented Lagrangian Method for weakly-Convex Problems with Convex Constraints ( http://arxiv.org/abs/2311.09065v1 ) ライセンス: Link先を確認 | Hari Dahal, Wei Liu, Yangyang Xu | (参考訳) 我々は、弱凸目的と凸線型・非線形制約の問題を解くために、減衰した近似ラグランジアン法(DPALM)を提案する。
完全なステップサイズを取る代わりに、DPALMは二重反復の有界性を保証するためにダンプされた双対ステップサイズを採用する。
DPALMは、各DPALMサブプロブレムが適切な精度で解ける場合、$O(\vareps^{-2})$外反復で(ほぼ)$\vareps$-KKTの点を生成できることを示す。
さらに, 目的が正規化された滑らかな関数か正規化された構成形式である場合, DPALMの全体的な反復複雑性を確立する。
前者の場合、DPALM は $\widetilde{\mathcal{O}}\left(\varepsilon^{-2.5} \right)$ の複雑さを達成し、各 DPALM サブプロブレムに加速された近位勾配 (APG) 法を適用して $\varepsilon$-KKT 点を生成する。
後者の場合、DPALMの複雑さは$\widetilde{\mathcal{O}}\left(\varepsilon^{-3} \right)$で、各サブプロブレムのモロー・エンベロープ滑らかなバージョンを解くためにAPGを用いて、ほぼ$\varepsilon$-KKT点を生成する。
外部のイテレーションの複雑さと全体的な複雑さは、制約のない問題や線形制約のある問題から凸制約のある問題へと、既存のベストを一般化するか、あるいは同じ構造の問題を解決する上で最もよく知られた結果よりも改善するかのどちらかです。
さらに, 線形/四進法制約の非凸二乗計画と線形制約の頑健な非線形最小二乗の数値実験を行い, 提案手法によるDPALMの実証的効率を示す。 We give a damped proximal augmented Lagrangian method (DPALM) for solving problems with a weakly-convex objective and convex linear/nonlinear constraints. Instead of taking a full stepsize, DPALM adopts a damped dual stepsize to ensure the boundedness of dual iterates. We show that DPALM can produce a (near) $\vareps$-KKT point within $O(\vareps^{-2})$ outer iterations if each DPALM subproblem is solved to a proper accuracy. In addition, we establish overall iteration complexity of DPALM when the objective is either a regularized smooth function or in a regularized compositional form. For the former case, DPALM achieves the complexity of $\widetilde{\mathcal{O}}\left(\varepsilon^{-2.5} \right)$ to produce an $\varepsilon$-KKT point by applying an accelerated proximal gradient (APG) method to each DPALM subproblem. For the latter case, the complexity of DPALM is $\widetilde{\mathcal{O}}\left(\varepsilon^{-3} \right)$ to produce a near $\varepsilon$-KKT point by using an APG to solve a Moreau-envelope smoothed version of each subproblem. Our outer iteration complexity and the overall complexity either generalize existing best ones from unconstrained or linear-constrained problems to convex-constrained ones, or improve over the best-known results on solving the same-structured problems. Furthermore, numerical experiments on linearly/quadratically constrained non-convex quadratic programs and linear-constrained robust nonlinear least squares are conducted to demonstrate the empirical efficiency of the proposed DPALM over several state-of-the art methods. | 翻訳日:2023-11-16 15:18:24 公開日:2023-11-15 |
# 見えない世界:ビジュアルワールドモデルにおけるシステム一般化のベンチマーク Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models ( http://arxiv.org/abs/2311.09064v1 ) ライセンス: Link先を確認 | Yeongbin Kim, Gautam Singh, Junyeong Park, Caglar Gulcehre, Sungjin Ahn | (参考訳) 体系的な構成性、または、再利用可能な知識を使って世界のメンタルモデルを作成することによって、新しい状況に適応する能力は、機械学習において重要な課題である。
言語領域にはかなりの進歩があったが、体系的な視覚的想像力への取り組みや、視覚的観察のダイナミックな影響を想像する努力は、その初期段階にある。
本稿では,この問題を解決するために設計された最初のベンチマークであるSVIB(Systematic Visual Imagination Benchmark)を紹介する。
svibは最小限の世界モデリング問題のための新しいフレームワークを提供し、潜在世界力学の下で1段階の画像から画像への変換を生成する能力に基づいてモデルを評価する。
このフレームワークは、システマティックな知覚と想像力を共同で最適化する可能性、難易度の範囲、トレーニング中に使用される要因の組み合わせの分断を制御する能力などの利点を提供する。
svibの様々なベースラインモデルの包括的評価を行い、システマティック・ビジュアル・イマジネーションにおける現在の最先端の知見を提供する。
このベンチマークが視覚的に体系的な構成性を促進することを願っています。 Systematic compositionality, or the ability to adapt to novel situations by creating a mental model of the world using reusable pieces of knowledge, remains a significant challenge in machine learning. While there has been considerable progress in the language domain, efforts towards systematic visual imagination, or envisioning the dynamical implications of a visual observation, are in their infancy. We introduce the Systematic Visual Imagination Benchmark (SVIB), the first benchmark designed to address this problem head-on. SVIB offers a novel framework for a minimal world modeling problem, where models are evaluated based on their ability to generate one-step image-to-image transformations under a latent world dynamics. The framework provides benefits such as the possibility to jointly optimize for systematic perception and imagination, a range of difficulty levels, and the ability to control the fraction of possible factor combinations used during training. We provide a comprehensive evaluation of various baseline models on SVIB, offering insight into the current state-of-the-art in systematic visual imagination. We hope that this benchmark will help advance visual systematic compositionality. | 翻訳日:2023-11-16 15:17:40 公開日:2023-11-15 |
# LLMにおける記憶データのローカライズ手法は実際に存在するか? Do Localization Methods Actually Localize Memorized Data in LLMs? ( http://arxiv.org/abs/2311.09060v1 ) ライセンス: Link先を確認 | Ting-Yun Chang, Jesse Thomason, and Robin Jia | (参考訳) 大規模言語モデル(llm)は多くの事前学習されたシーケンスを記憶することができる。
本研究は, 特定の配列を記憶する責任を負う小ニューロン群をLLM内に発見できるかどうかを考察する。
ローカライゼーションの概念は以前の研究でしばしば言及されるが、ローカライゼーションの手法は体系的に直接評価されることはなかった。
我々のINJベンチマークでは、LLM重みの小さなサブセットに新しい情報を積極的に注入し、ローカライゼーション手法がこれらの「基底真理」重みを識別できるかどうかを測定する。
DELベンチマークでは、LLMが既に記憶している事前学習データの局所化について検討し、この設定には基礎的な事実が欠けているが、位置を外れたニューロンがモデルから記憶されたシーケンスを消去するかどうかを測定することで、依然として位置化を評価することができる。
2つのベンチマークで5つのローカライズ手法を評価し、同様のランキングを示す。
いずれの方法も有望な局所化能力を示し、特にプルーニングベースの方法では、それらが識別するニューロンは必ずしも単一の記憶配列に特有ではない。 Large language models (LLMs) can memorize many pretrained sequences verbatim. This paper studies if we can locate a small set of neurons in LLMs responsible for memorizing a given sequence. While the concept of localization is often mentioned in prior work, methods for localization have never been systematically and directly evaluated; we address this with two benchmarking approaches. In our INJ Benchmark, we actively inject a piece of new information into a small subset of LLM weights and measure whether localization methods can identify these "ground truth" weights. In the DEL Benchmark, we study localization of pretrained data that LLMs have already memorized; while this setting lacks ground truth, we can still evaluate localization by measuring whether dropping out located neurons erases a memorized sequence from the model. We evaluate five localization methods on our two benchmarks, and both show similar rankings. All methods exhibit promising localization ability, especially for pruning-based methods, though the neurons they identify are not necessarily specific to a single memorized sequence. | 翻訳日:2023-11-16 15:17:22 公開日:2023-11-15 |
# パラメータ正規化の新しいホライズン:制約的アプローチ New Horizons in Parameter Regularization: A Constraint Approach ( http://arxiv.org/abs/2311.09058v1 ) ライセンス: Link先を確認 | J\"org K.H. Franke, Michael Hefenbrock, Gregor Koehler, Frank Hutter | (参考訳) この研究は、伝統的な重み減衰に代わる制約パラメータ正規化(CPR)を示す。
すべてのパラメータに一定のペナルティを適用する代わりに、個々のパラメータ群の統計的測度(例えば、l$_2$-norm)の上界を強制する。
これは制約付き最適化問題として学習を再構成する。
これを解決するために、拡張ラグランジアン法の適応を利用する。
提案手法は, パラメータ群毎に異なる正規化強度を付与し, 正規化項の明示的なペナルティ係数を除去する。
CPRは2つのハイパーパラメータしか必要とせず、測定可能なランタイムオーバーヘッドを導入しない。
我々は,「グローキング」現象,画像分類,言語モデリングの実験を通して,cprの有効性を実証的に証明する。
以上の結果から,CPRはグルーキングの効果を抑えることができ,従来の重量減少性能と一貫して一致または上回っていることが明らかとなった。 This work presents constrained parameter regularization (CPR), an alternative to traditional weight decay. Instead of applying a constant penalty uniformly to all parameters, we enforce an upper bound on a statistical measure (e.g., the L$_2$-norm) of individual parameter groups. This reformulates learning as a constrained optimization problem. To solve this, we utilize an adaptation of the augmented Lagrangian method. Our approach allows for varying regularization strengths across different parameter groups, removing the need for explicit penalty coefficients in the regularization terms. CPR only requires two hyperparameters and introduces no measurable runtime overhead. We offer empirical evidence of CPR's effectiveness through experiments in the "grokking" phenomenon, image classification, and language modeling. Our findings show that CPR can counteract the effects of grokking, and it consistently matches or surpasses the performance of traditional weight decay. | 翻訳日:2023-11-16 15:16:50 公開日:2023-11-15 |
# リレーショナルパースペクティブによる言語モデルにおける知識編集の評価 Assessing Knowledge Editing in Language Models via Relation Perspective ( http://arxiv.org/abs/2311.09053v1 ) ライセンス: Link先を確認 | Yifan Wei, Xiaoyan Yu, Huanhuan Ma, Fangyu Lei, Yixuan Weng, Ran Song, Kang Liu | (参考訳) 大規模言語モデル(LLM)における事実知識の修正のための知識編集(KE)が注目されている。
しかし、既存の知識編集手法はエンティティ中心であり、このアプローチが関係中心の観点に適しているかどうかは不明である。
このギャップに対処するため,本稿では,関係ベースの知識編集に焦点を当てたrakeという新しいベンチマークを構築した。
本稿では,様々な知識編集ベースラインを含む総合的な実験を評価・実施するための,革新的な指標のセットを確立する。
既存の知識編集手法は、関係を編集する能力において潜在的な困難を示す。
そこで本研究では, 変圧器内の実物三重項における関係性の役割をさらに探求する。
本研究結果は,関係に関する知識がFFNネットワークだけでなく,注目層にも蓄積されていることを確認する。
これは、将来の関係に基づく知識編集方法に対する実験的サポートを提供する。 Knowledge Editing (KE) for modifying factual knowledge in Large Language Models (LLMs) has been receiving increasing attention. However, existing knowledge editing methods are entity-centric, and it is unclear whether this approach is suitable for a relation-centric perspective. To address this gap, this paper constructs a new benchmark named RaKE, which focuses on Relation based Knowledge Editing. In this paper, we establish a suite of innovative metrics for evaluation and conduct comprehensive experiments involving various knowledge editing baselines. We notice that existing knowledge editing methods exhibit the potential difficulty in their ability to edit relations. Therefore, we further explore the role of relations in factual triplets within the transformer. Our research results confirm that knowledge related to relations is not only stored in the FFN network but also in the attention layers. This provides experimental support for future relation-based knowledge editing methods. | 翻訳日:2023-11-16 15:16:27 公開日:2023-11-15 |
# マルチタスク学習による位相遷移の高速検出 Fast Detection of Phase Transitions with Multi-Task Learning-by-Confusion ( http://arxiv.org/abs/2311.09128v1 ) ライセンス: Link先を確認 | Julian Arnold, Frank Sch\"afer, Niels L\"orch | (参考訳) 機械学習は相転移の研究に成功している。
基礎となるフェーズに関する事前知識のないデータから臨界点を識別する最も一般的なアプローチの1つは、ラーニング・バイ・コンフュージョン・スキームである。
入力として、変化が電位相転移と関連しているパラメータのグリッドから引き出されたシステムサンプルが必要である。
これまで、このスキームでは、グリッドを2つの側面に分割するごとに異なるバイナリ分類器を訓練しなければならなかったため、計算コストはグリッドポイントの数と線形にスケールする。
本稿では,単一のマルチクラス化器のトレーニングのみを必要とする代替実装の提案と紹介を行う。
理想的には、このようなマルチタスク学習は、グリッドポイントの数に関してスケーリングをなくす。
イジングモデルと安定拡散で生成された画像データセットの応用において、理想的な場合と密接に対応し、わずかな偏差しか持たない大きなスピードアップを見出す。 Machine learning has been successfully used to study phase transitions. One of the most popular approaches to identifying critical points from data without prior knowledge of the underlying phases is the learning-by-confusion scheme. As input, it requires system samples drawn from a grid of the parameter whose change is associated with potential phase transitions. Up to now, the scheme required training a distinct binary classifier for each possible splitting of the grid into two sides, resulting in a computational cost that scales linearly with the number of grid points. In this work, we propose and showcase an alternative implementation that only requires the training of a single multi-class classifier. Ideally, such multi-task learning eliminates the scaling with respect to the number of grid points. In applications to the Ising model and an image dataset generated with Stable Diffusion, we find significant speedups that closely correspond to the ideal case, with only minor deviations. | 翻訳日:2023-11-16 15:08:21 公開日:2023-11-15 |
# システムプロンプトによる自己逆攻撃によるGPT-4Vの脱獄 Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts ( http://arxiv.org/abs/2311.09127v1 ) ライセンス: Link先を確認 | Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou and Lichao Sun | (参考訳) 既存のJailbreak Multimodal Large Language Models (MLLM)の研究は、主にモデルインプットの逆例に焦点を当てており、モデルAPIの脆弱性にはあまり注目していない。
研究のギャップを埋めるために,1) GPT-4Vでシステムに侵入する脆弱性を発見する。
慎重に設計された対話を通して、GPT-4Vの内部システムプロンプトを盗むことに成功した。
2) 取得したシステムプロンプトに基づき,sasp(self-adversarial attack via system prompt)と呼ばれる新しいmllm脱獄攻撃手法を提案する。
gpt-4をレッドチームツールとして利用することで、盗難システムプロンプトを利用したジェイルブレイクプロンプトの可能性を探そうとしている。
さらに, GPT-4の分析に基づく人為的な修正を加え, 攻撃成功率を98.7\%に向上させるとともに, システムプロンプトの変更による脱獄攻撃に対する防御効果を評価した。
その結果、適切に設計されたシステムプロンプトはジェイルブレイクの成功率を大幅に削減できることがわかった。
全体として、我々の研究はmllmのセキュリティ強化に関する新たな洞察を提供し、脱獄におけるシステムプロンプトの重要な役割を実証している。 Existing work on jailbreak Multimodal Large Language Models (MLLMs) has focused primarily on adversarial examples in model inputs, with less attention to vulnerabilities in model APIs. To fill the research gap, we carry out the following work: 1) We discover a system prompt leakage vulnerability in GPT-4V. Through carefully designed dialogue, we successfully steal the internal system prompts of GPT-4V. This finding indicates potential exploitable security risks in MLLMs; 2)Based on the acquired system prompts, we propose a novel MLLM jailbreaking attack method termed SASP (Self-Adversarial Attack via System Prompt). By employing GPT-4 as a red teaming tool against itself, we aim to search for potential jailbreak prompts leveraging stolen system prompts. Furthermore, in pursuit of better performance, we also add human modification based on GPT-4's analysis, which further improves the attack success rate to 98.7\%; 3) We evaluated the effect of modifying system prompts to defend against jailbreaking attacks. Results show that appropriately designed system prompts can significantly reduce jailbreak success rates. Overall, our work provides new insights into enhancing MLLM security, demonstrating the important role of system prompts in jailbreaking, which could be leveraged to greatly facilitate jailbreak success rates while also holding the potential for defending against jailbreaks. | 翻訳日:2023-11-16 15:08:05 公開日:2023-11-15 |
# universal ner: ゴールド標準の多言語名エンティティ認識ベンチマーク Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark ( http://arxiv.org/abs/2311.09122v1 ) ライセンス: Link先を確認 | Stephen Mayhew, Terra Blevins, Shuheng Liu, Marek \v{S}uppa, Hila Gonen, Joseph Marvin Imperial, B\"orje F. Karlsson, Peiqin Lin, Nikola Ljube\v{s}i\'c, LJ Miranda, Barbara Plank, Arij Riabi, Yuval Pinter | (参考訳) オープンなコミュニティ主導プロジェクトであるUniversal NER(UNER)を紹介し,多くの言語でゴールドスタンダードなNERベンチマークを開発する。
UNERの包括的な目標は、多言語NER研究を容易にし、標準化するための高品質で言語横断的なアノテーションを提供することである。
UNER v1には、12の異なる言語にまたがる言語間一貫性のあるスキーマで、名前付きエンティティで注釈付けされた18のデータセットが含まれている。
本稿では、UNERのデータセット作成と構成について詳述し、言語内と言語間の両方の学習環境において、初期モデルベースラインを提供する。
データ、コード、および適合したモデルを一般に公開しています。 We introduce Universal NER (UNER), an open, community-driven project to develop gold-standard NER benchmarks in many languages. The overarching goal of UNER is to provide high-quality, cross-lingually consistent annotations to facilitate and standardize multilingual NER research. UNER v1 contains 18 datasets annotated with named entities in a cross-lingual consistent schema across 12 diverse languages. In this paper, we detail the dataset creation and composition of UNER; we also provide initial modeling baselines on both in-language and cross-lingual learning settings. We release the data, code, and fitted models to the public. | 翻訳日:2023-11-16 15:07:41 公開日:2023-11-15 |
# wildlifedatasets: 動物の再識別のためのオープンソースツールキット WildlifeDatasets: An open-source toolkit for animal re-identification ( http://arxiv.org/abs/2311.09118v1 ) ライセンス: Link先を確認 | Vojt\v{e}ch \v{C}erm\'ak, Lukas Picek, Luk\'a\v{s} Adam, Kostas Papafitsoros | (参考訳) 本稿では,野生生物データセット(https://github.com/wildlifedatasets/wildlife-datasets)について述べる。
wildlifeデータセットはpythonで記述されており、一般公開されている野生生物データセットへの簡単なアクセスを可能にし、データセットのプリプロセッシング、パフォーマンス分析、モデルの微調整のためのさまざまな方法を提供する。
我々は,このツールキットを様々なシナリオやベースライン実験で紹介し,私たちの知る限り,局所記述子と深層学習アプローチの両方を含む,野生生物の再同定のためのデータセットと方法の最も包括的な比較実験を行った。
さらに,動物再識別データセット上での最先端のパフォーマンスを提供し,CLIPやDINOv2などの事前訓練モデルを上回る性能を示す,幅広い種(MegaDescriptor)における個人再識別のための最初の基礎モデルを提供する。
モデルを一般向けに公開し、既存の野生生物モニタリングアプリケーションと簡単に統合できるようにするため、HuggingFaceハブ(https://huggingface.co/BVRA)を通じて複数のMegaDescriptorフレーバー(Small, Medium, Large)を提供する。 In this paper, we present WildlifeDatasets (https://github.com/WildlifeDatasets/wildlife-datasets) - an open-source toolkit intended primarily for ecologists and computer-vision / machine-learning researchers. The WildlifeDatasets is written in Python, allows straightforward access to publicly available wildlife datasets, and provides a wide variety of methods for dataset pre-processing, performance analysis, and model fine-tuning. We showcase the toolkit in various scenarios and baseline experiments, including, to the best of our knowledge, the most comprehensive experimental comparison of datasets and methods for wildlife re-identification, including both local descriptors and deep learning approaches. Furthermore, we provide the first-ever foundation model for individual re-identification within a wide range of species - MegaDescriptor - that provides state-of-the-art performance on animal re-identification datasets and outperforms other pre-trained models such as CLIP and DINOv2 by a significant margin. To make the model available to the general public and to allow easy integration with any existing wildlife monitoring applications, we provide multiple MegaDescriptor flavors (i.e., Small, Medium, and Large) through the HuggingFace hub (https://huggingface.co/BVRA). | 翻訳日:2023-11-16 15:07:31 公開日:2023-11-15 |
# R-Spin:高能率話者と雑音不変表現学習 R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces ( http://arxiv.org/abs/2311.09117v1 ) ライセンス: Link先を確認 | Heng-Jui Chang, James Glass | (参考訳) 本稿では、話者不変クラスタリング(Spin)を用いた離散音響単位の学習により、話者および雑音不変言語表現のためのデータ効率の高い自己教師型微調整フレームワークRobust Spin(R-Spin)を紹介する。
R-SpinはSpinの問題を解決し、音響部品の予測を学習することでコンテンツ表現を強化する。
R-Spinは、従来の最先端手法と比較して計算資源を12倍に削減し、高度に歪んだ音声シナリオでは性能を向上する。
本稿では,個々の単位が音声エンコーダの訓練にどう貢献するかを詳細に分析し,様々な音響環境におけるロバスト性の向上について述べる。 This paper introduces Robust Spin (R-Spin), a data-efficient self-supervised fine-tuning framework for speaker and noise-invariant speech representations by learning discrete acoustic units with speaker-invariant clustering (Spin). R-Spin resolves Spin's issues and enhances content representations by learning to predict acoustic pieces. R-Spin offers a 12X reduction in computational resources compared to previous state-of-the-art methods while outperforming them in severely distorted speech scenarios. This paper provides detailed analyses to show how discrete units contribute to speech encoder training and improving robustness in diverse acoustic environments. | 翻訳日:2023-11-16 15:07:03 公開日:2023-11-15 |
# healnet -- 異種生物医学データのためのハイブリッドマルチモーダル融合 HEALNet -- Hybrid Multi-Modal Fusion for Heterogeneous Biomedical Data ( http://arxiv.org/abs/2311.09115v1 ) ライセンス: Link先を確認 | Konstantin Hemker, Nikola Smidjievski, Mateja Jamnik | (参考訳) 高解像度の病理組織学や高スループットゲノムシークエンシングなどの医療データ収集の技術進歩は、画像、表、グラフデータなど、多要素バイオメディカルモデリングの要件の増大に寄与している。
多くのマルチモーダルディープラーニングアプローチでは、分離してトレーニングされたモダリティ固有のアーキテクチャを使用しており、異なるデータソースの統合を動機付ける重要なクロスモーダル情報をキャプチャできない。
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるhybrid early-fusion attention learning network (healnet)を提案する。
a) モダリティ固有の構造情報を保存すること
b) 共有潜在空間における異種間相互作用及び構造情報の取得
c)訓練及び推論中に欠落したモダリティを効果的に処理することができ、
d)不透明な埋め込みの代わりに生データ入力を学習することで直感的なモデル検査を可能にする。
The Cancer Genome Atlas (TCGA) の4つの癌コホートにおける全スライド画像と多モードデータの多モード生存解析を行った。
HEALNetは最先端のパフォーマンスを実現し、ユニモーダルと最近のマルチモーダルベースラインの両方よりも大幅に改善されている。 Technological advances in medical data collection such as high-resolution histopathology and high-throughput genomic sequencing have contributed to the rising requirement for multi-modal biomedical modelling, specifically for image, tabular, and graph data. Most multi-modal deep learning approaches use modality-specific architectures that are trained separately and cannot capture the crucial cross-modal information that motivates the integration of different data sources. This paper presents the Hybrid Early-fusion Attention Learning Network (HEALNet): a flexible multi-modal fusion architecture, which a) preserves modality-specific structural information, b) captures the cross-modal interactions and structural information in a shared latent space, c) can effectively handle missing modalities during training and inference, and d) enables intuitive model inspection by learning on the raw data input instead of opaque embeddings. We conduct multi-modal survival analysis on Whole Slide Images and Multi-omic data on four cancer cohorts of The Cancer Genome Atlas (TCGA). HEALNet achieves state-of-the-art performance, substantially improving over both uni-modal and recent multi-modal baselines, whilst being robust in scenarios with missing modalities. | 翻訳日:2023-11-16 15:06:51 公開日:2023-11-15 |
# 事前学習された言語モデルは、実際には知識グラフ補完において見当たらないリンクを推測しているのか? Does Pre-trained Language Model Actually Infer Unseen Links in Knowledge Graph Completion? ( http://arxiv.org/abs/2311.09109v1 ) ライセンス: Link先を確認 | Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe | (参考訳) 知識グラフ(KG)は、エンティティ間の関係を記述するリンクである。
エンティティ間のすべての関係を手動で列挙することが難しいため、自動補完はkgsにとって不可欠である。
知識グラフ補完(英: Knowledge Graph Completion、KGC)は、KG内のエンティティ間の見えない関係を推論するタスクである。
RESCAL、TransE、DistMult、ComplEx、RotatE、HAKE、HousEなどの従来の埋め込みベースのKGCメソッドは、トレーニングデータからの知識のみを使用して、リンク不足を推測する。
対照的に、最近のプレトレーニング言語モデル(PLM)ベースのKGCは、事前トレーニング中に得られた知識を利用する。
したがって、PLMベースのKGCは、推論なしで事前学習から記憶された知識を再利用することで、エンティティ間の欠落リンクを推定することができる。
KGCモデルの構築は、エンティティ間の見えないリンクを推測することを目的としているため、このアプローチは問題となる。
しかし、kgcの従来の評価では推論と記憶能力は別々に考慮されていない。
したがって、現在の KGC 評価において高い性能を達成する PLM ベースの KGC 法は、実用上は有効ではない。
この問題に対処するために, PLM ベースの KGC 手法が推論を行うか,あるいは単に記憶された知識にアクセスするかを分析する。
そこで本研究では,本解析で特定された合成データセットを構築する手法を提案し,その性能改善は主にエンティティと関係のテキスト情報によるものであるにもかかわらず,事前学習によってkgcに必要な推論能力をplmが獲得することを示す。 Knowledge graphs (KGs) consist of links that describe relationships between entities. Due to the difficulty of manually enumerating all relationships between entities, automatically completing them is essential for KGs. Knowledge Graph Completion (KGC) is a task that infers unseen relationships between entities in a KG. Traditional embedding-based KGC methods, such as RESCAL, TransE, DistMult, ComplEx, RotatE, HAKE, HousE, etc., infer missing links using only the knowledge from training data. In contrast, the recent Pre-trained Language Model (PLM)-based KGC utilizes knowledge obtained during pre-training. Therefore, PLM-based KGC can estimate missing links between entities by reusing memorized knowledge from pre-training without inference. This approach is problematic because building KGC models aims to infer unseen links between entities. However, conventional evaluations in KGC do not consider inference and memorization abilities separately. Thus, a PLM-based KGC method, which achieves high performance in current KGC evaluations, may be ineffective in practical applications. To address this issue, we analyze whether PLM-based KGC methods make inferences or merely access memorized knowledge. For this purpose, we propose a method for constructing synthetic datasets specified in this analysis and conclude that PLMs acquire the inference abilities required for KGC through pre-training, even though the performance improvements mostly come from textual information of entities and relations. | 翻訳日:2023-11-16 15:06:30 公開日:2023-11-15 |
# 『正義を要求!』:社会的文脈における政治的テキストの基盤を目指して "We Demand Justice!": Towards Grounding Political Text in Social Context ( http://arxiv.org/abs/2311.09106v1 ) ライセンス: Link先を確認 | Rajkumar Pujari and Chengfei Wu and Dan Goldwasser | (参考訳) 米国の政治家からのソーシャルメディアの談話は、しばしば「政治的スペクトルの反対側によって使われる見事に類似した言語」で構成されている。
しかし多くの場合、現実のアクションとは全く対照的だ。
例えば、「学生が銃乱射事件から安全を守る必要がある」ということは、「銃乱射事件を止めるために教師を武装させる」か、「銃乱射事件を減らすために銃を止める」かのどちらかだ。
本稿では,そのような曖昧な文を計算環境において完全に理解し,現実の実体,行動,態度に根ざすために必要な文脈を定義し,特徴付ける。
そこで本研究では,テキストの現実的コンテキストを効果的に理解する必要がある2つの課題データセットを提案する。
BERT,RoBERTa,GPT-3など,トレーニング済みの大きなモデル上に構築されたベースラインに対して,これらのデータセットをベンチマークする。
さらに,既存の「談話文脈化フレームワーク」と「政治アクター表現」モデルに基づいて,より構造化されたベースラインを構築し,ベンチマークする。
提案するソーシャルグラウンドタスクによって生じる実用的言語理解課題に対するさらなる洞察を得るために,データセットとベースライン予測の分析を行う。 Social media discourse from US politicians frequently consists of 'seemingly similar language used by opposing sides of the political spectrum'. But often, it translates to starkly contrasting real-world actions. For instance, "We need to keep our students safe from mass shootings" may signal either "arming teachers to stop the shooter" or "banning guns to reduce mass shootings" depending on who says it and their political stance on the issue. In this paper, we define and characterize the context that is required to fully understand such ambiguous statements in a computational setting and ground them in real-world entities, actions, and attitudes. To that end, we propose two challenging datasets that require an understanding of the real-world context of the text to be solved effectively. We benchmark these datasets against baselines built upon large pre-trained models such as BERT, RoBERTa, GPT-3, etc. Additionally, we develop and benchmark more structured baselines building upon existing 'Discourse Contextualization Framework' and 'Political Actor Representation' models. We perform analysis of the datasets and baseline predictions to obtain further insights into the pragmatic language understanding challenges posed by the proposed social grounding tasks. | 翻訳日:2023-11-16 15:06:03 公開日:2023-11-15 |
# MAVEN-Arg: イベント引数アノテーションによるオールインワンイベント理解データセットのパズルの補完 MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation ( http://arxiv.org/abs/2311.09105v1 ) ライセンス: Link先を確認 | Xiaozhi Wang, Hao Peng, Yong Guan, Kaisheng Zeng, Jianhui Chen, Lei Hou, Xu Han, Yankai Lin, Zhiyuan Liu, Ruobing Xie, Jie Zhou, Juanzi Li | (参考訳) テキストにおけるイベントの理解は、自然言語理解の中心的な目的であり、イベント発生の検出、イベント引数の抽出、イベント間の関係の分析を必要とする。
しかし、タスクの複雑さによって引き起こされるアノテーションの課題のため、イベント理解の全プロセスをカバーする大規模データセットは長い間欠落していた。
本稿では、MAVENデータセットにイベント引数アノテーションを付加し、イベント検出、イベント引数抽出(EAE)、イベント関係抽出をサポートする最初のオールインワンデータセットを作成するMAVEN-Argを紹介する。
EAEベンチマークとして、MAVEN-Argは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)文書レベルでエンティティと非エンティティのイベント引数の両方をアノテートするEAEの全タスク変種をサポートする包括的なアノテーション、の3つの利点を提供している。
実験の結果、MAVEN-Argは細調整されたEAEモデルとプロプライエタリな大規模言語モデル(LLM)の両方でかなり難しいことが示されている。
さらに、オールインワンデータセットの利点を実証するために、LLMによる潜在的なアプリケーション、将来のイベント予測を予備的に検討する。
MAVEN-Argとそのコードはhttps://github.com/THU-KEG/MAVEN-Argumentから取得できます。 Understanding events in texts is a core objective of natural language understanding, which requires detecting event occurrences, extracting event arguments, and analyzing inter-event relationships. However, due to the annotation challenges brought by task complexity, a large-scale dataset covering the full process of event understanding has long been absent. In this paper, we introduce MAVEN-Arg, which augments MAVEN datasets with event argument annotations, making the first all-in-one dataset supporting event detection, event argument extraction (EAE), and event relation extraction. As an EAE benchmark, MAVEN-Arg offers three main advantages: (1) a comprehensive schema covering 162 event types and 612 argument roles, all with expert-written definitions and examples; (2) a large data scale, containing 98,591 events and 290,613 arguments obtained with laborious human annotation; (3) the exhaustive annotation supporting all task variants of EAE, which annotates both entity and non-entity event arguments in document level. Experiments indicate that MAVEN-Arg is quite challenging for both fine-tuned EAE models and proprietary large language models (LLMs). Furthermore, to demonstrate the benefits of an all-in-one dataset, we preliminarily explore a potential application, future event prediction, with LLMs. MAVEN-Arg and our code can be obtained from https://github.com/THU-KEG/MAVEN-Argument. | 翻訳日:2023-11-16 15:05:43 公開日:2023-11-15 |
# 3次元理解のためのクロスビューとクロスポーズ補完 Cross-view and Cross-pose Completion for 3D Human Understanding ( http://arxiv.org/abs/2311.09104v1 ) ライセンス: Link先を確認 | Matthieu Armando, Salma Galaaoui, Fabien Baradel, Thomas Lucas, Vincent Leroy, Romain Br\'egier, Philippe Weinzaepfel, Gr\'egory Rogez | (参考訳) 人間の知覚と理解はコンピュータビジョンの主要な領域であり、近年の他の視覚サブドメインと同様に、大規模なデータセットで事前訓練された大きなモデルを使用することで得られる。
我々は、ImageNetのような汎用のオブジェクト中心の画像データセットに依存する、最も一般的な事前学習戦略は、重要なドメインシフトによって制限される、と仮定する。
一方、2Dラベルや3Dラベルのようなドメイン固有の基底真理の収集は不十分である。
そこで本稿では,画像のみを用いて人間中心のデータを扱う自己教師型学習に基づく事前学習手法を提案する。
本手法では,1枚目が部分的にマスクされ,もう1枚目と2枚目がマスクされた部分の再構築を訓練する。
ビデオから撮影した立体視(クロスビュー)ペアと時間的(クロスプレース)ペアの両方に依存して、人間の動きだけでなく3Dに関する事前知識を学習する。
身体中心のタスクと手中心のタスクのモデルを事前トレーニングします。
汎用トランスフォーマーアーキテクチャでは、モデルベースおよびモデルフリーのヒューマンメッシュリカバリのための微調整を行う場合、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の教師付き事前学習方法よりも優れ、最先端のパフォーマンスが得られる。 Human perception and understanding is a major domain of computer vision which, like many other vision subdomains recently, stands to gain from the use of large models pre-trained on large datasets. We hypothesize that the most common pre-training strategy of relying on general purpose, object-centric image datasets such as ImageNet, is limited by an important domain shift. On the other hand, collecting domain specific ground truth such as 2D or 3D labels does not scale well. Therefore, we propose a pre-training approach based on self-supervised learning that works on human-centric data using only images. Our method uses pairs of images of humans: the first is partially masked and the model is trained to reconstruct the masked parts given the visible ones and a second image. It relies on both stereoscopic (cross-view) pairs, and temporal (cross-pose) pairs taken from videos, in order to learn priors about 3D as well as human motion. We pre-train a model for body-centric tasks and one for hand-centric tasks. With a generic transformer architecture, these models outperform existing self-supervised pre-training methods on a wide set of human-centric downstream tasks, and obtain state-of-the-art performance for instance when fine-tuning for model-based and model-free human mesh recovery. | 翻訳日:2023-11-16 15:05:13 公開日:2023-11-15 |
# 線形構造検出のための誘導スケール空間ラドン変換 Guided Scale Space Radon Transform for linear structures detection ( http://arxiv.org/abs/2311.09103v1 ) ライセンス: Link先を確認 | Aicha Baya Goumeidane, Djemel Ziou, and Nafaa Nacereddine | (参考訳) 複雑な背景を持つ画像の行検出の終端に積分変換を用いると、検出を管理するために追加の処理が必要となる。
積分変換として、スケール・スペース・ラドン変換(SSRT)は、厚い線の検出に優れた能力を持つにもかかわらず、そのような欠点に悩まされる。
そこで本研究では,SSRTを用いて,グレースケールの厚みのある線形構造を自動的に検出する手法を提案する。
この方法は、SSRT空間において線形構造が強調されるように、SSRTを計算しながら、解析された画像のヘシアン配向を含む。
その結果、SSRT空間における次の最大値の検出は、不要な部分から解放された変換空間上で行われ、その結果、通常はラインを表すピークが溺れてしまう。
また,ssrt空間の線形構造に着目し,合成画像や実画像における厚さの異なる線を効率的に検出するために,雑音や複雑な背景に対するロバスト性を示す実験を行った。 Using integral transforms to the end of lines detection in images with complex background, makes the detection a hard task needing additional processing to manage the detection. As an integral transform, the Scale Space Radon Transform (SSRT) suffers from such drawbacks, even with its great abilities for thick lines detection. In this work, we propose a method to address this issue for automatic detection of thick linear structures in gray scale and binary images using the SSRT, whatever the image background content. This method involves the calculated Hessian orientations of the investigated image while computing its SSRT, in such a way that linear structures are emphasized in the SSRT space. As a consequence, the subsequent maxima detection in the SSRT space is done on a modified transform space freed from unwanted parts and, consequently, from irrelevant peaks that usually drown the peaks representing lines. Besides, highlighting the linear structure in the SSRT space permitting, thus, to efficiently detect lines of different thickness in synthetic and real images, the experiments show also the method robustness against noise and complex background. | 翻訳日:2023-11-16 15:04:49 公開日:2023-11-15 |
# マルチステップ推論における解答校正の一考察 Towards A Unified View of Answer Calibration for Multi-Step Reasoning ( http://arxiv.org/abs/2311.09101v1 ) ライセンス: Link先を確認 | Shumin Deng, Ningyu Zhang, Nay Oo, Bryan Hooi | (参考訳) CoT(Chain-of-Thought)をプロンプトする大規模言語モデル(LLM)は、多段階推論機能の改善の範囲を広げた。
通常、ステップレベルのキャリブレーションやパスレベルのキャリブレーションのような答えのキャリブレーション戦略は、多段階推論において重要な役割を果たす。
効果はあるものの、成功を導く重要な要因に対する私たちの理解には大きなギャップがあります。
本稿では,近年の解答校正戦略を概説し,それら間の接続を確立する統一的な視点を示す。
次に,複数の経路にまたがるステップレベルおよびパスレベルの応答校正を体系的に精査し,統一的な視点からこれらの戦略を徹底的に評価する。
本研究は,解答校正による多段階推論を最適化するための重要な洞察を照らす可能性を持っている。 Large Language Models (LLMs) employing Chain-of-Thought (CoT) prompting have broadened the scope for improving multi-step reasoning capabilities. Usually, answer calibration strategies such as step-level or path-level calibration play a vital role in multi-step reasoning. While effective, there remains a significant gap in our understanding of the key factors that drive their success. In this paper, we break down the design of recent answer calibration strategies and present a unified view which establishes connections between them. We then conduct a thorough evaluation on these strategies from a unified view, systematically scrutinizing step-level and path-level answer calibration across multiple paths. Our study holds the potential to illuminate key insights for optimizing multi-step reasoning with answer calibration. | 翻訳日:2023-11-16 15:04:30 公開日:2023-11-15 |
# ゴール優先化による大規模言語モデルの脱獄攻撃対策 Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization ( http://arxiv.org/abs/2311.09096v1 ) ライセンス: Link先を確認 | Zhexin Zhang, Junxiao Yang, Pei Ke, Minlie Huang | (参考訳) 大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。
脱獄攻撃によってLLMの弱点を悪用することには大きな注意が払われているが、これらの攻撃から守るための調査はいまだに行われている。
我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。
ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
推論中のゴール優先化を実装することで、ジェイルブレイク攻撃のアタック成功率(ASR)が大幅に低下し、ChatGPTでは66.4%から2.0%に、Vicuna-33Bでは68.2%から19.4%に低下する。
さらに、目標優先順位付けの概念をトレーニングフェーズに統合することで、LLama2-13BのASRを71.0%から6.6%に削減できる。
注目すべきは、トレーニング中にジェイルブレイクサンプルを含まないシナリオでも、我々のアプローチはASRを半分に減らし、それを71.0%から34.0%に減らします。
さらに,より強固なllmはより安全性の高いリスクに直面しているが,そのような攻撃に対して防御する能力も高いことが判明した。
われわれの努力が、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てることを願っている。
私たちのコードは \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority} で利用可能になります。 Large Language Models (LLMs) continue to advance in their capabilities, yet this progress is accompanied by a growing array of safety risks. While significant attention has been dedicated to exploiting weaknesses in LLMs through jailbreaking attacks, there remains a paucity of exploration into defending against these attacks. We point out a pivotal factor contributing to the success of jailbreaks: the inherent conflict between the goals of being helpful and ensuring safety. To counter jailbreaking attacks, we propose to integrate goal prioritization at both training and inference stages. Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking attacks, reducing it from 66.4% to 2.0% for ChatGPT and from 68.2% to 19.4% for Vicuna-33B, without compromising general performance. Furthermore, integrating the concept of goal prioritization into the training phase reduces the ASR from 71.0% to 6.6% for LLama2-13B. Remarkably, even in scenarios where no jailbreaking samples are included during training, our approach slashes the ASR by half, decreasing it from 71.0% to 34.0%. Additionally, our findings reveal that while stronger LLMs face greater safety risks, they also possess a greater capacity to be steered towards defending against such attacks. We hope our work could contribute to the comprehension of jailbreaking attacks and defenses, and shed light on the relationship between LLMs' capability and safety. Our code will be available at \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority}. | 翻訳日:2023-11-16 15:04:17 公開日:2023-11-15 |
# MusicGenはMIRタスクのためのトレーニングデータを作成することができるか? Can MusicGen Create Training Data for MIR Tasks? ( http://arxiv.org/abs/2311.09094v1 ) ライセンス: Link先を確認 | Nadine Kroher, Helena Cuesta, Aggelos Pikrakis | (参考訳) 我々は,音楽情報検索(MIR)タスクのトレーニングデータを生成するために,AIベースの生成音楽システムを使用するというより広い概念について検討している。
この一連の研究を始めるために、私たちはmusicgenで作成した完全に人工的な音楽データセットでジャンル分類器をトレーニングする最初の実験を行いました。
5万以上のジャンル条件付きテキスト記述を作成し,5つのジャンルをカバーする音楽抜粋集を作成した。
提案手法は,実世界の録音によく適用できる人工的な楽曲からジャンル特有の特徴を学習できることを示す。 We are investigating the broader concept of using AI-based generative music systems to generate training data for Music Information Retrieval (MIR) tasks. To kick off this line of work, we ran an initial experiment in which we trained a genre classifier on a fully artificial music dataset created with MusicGen. We constructed over 50 000 genre- conditioned textual descriptions and generated a collection of music excerpts that covers five musical genres. Our preliminary results show that the proposed model can learn genre-specific characteristics from artificial music tracks that generalise well to real-world music recordings. | 翻訳日:2023-11-16 15:03:45 公開日:2023-11-15 |
# 社会的デジタルトランスフォーメーションのためのデザイン理論:デジタルグローバルヘルスの事例 Design Theory for Societal Digital Transformation: The Case of Digital Global Health ( http://arxiv.org/abs/2311.09173v1 ) ライセンス: Link先を確認 | Jorn Braa, Sundeep Sahay, Eric Monteiro | (参考訳) 社会レベルでのデジタルトランスフォーメーション(sdt:societal-level digital transformation)は、人間開発、公平性、社会正義、気候変動に限らず、社会的な課題である。
局所レベルの努力に基づく一方で、社会レベルの変換は局所レベルの非線形拡張である。
残念ながら、デジタルトランスフォーメーションに関するアカデミックな議論は、sdtをほとんど考慮していない。
グローバル・サウスの80か国以上における公衆医療情報管理とデリバリーのデジタルトランスフォーメーションに25年以上の集中的かつ介入主義的な研究活動を行い、sdtを6つの相互に結びついた設計原理からなる設計理論の形で理論化することに貢献した。
これらの設計原則は、デジタルソリューションの多様性と柔軟性を増すとともに、地域、全国、地域、世界的な取り組みを結びつける、相互の相互作用と緊張を特徴づけている。 With societal challenges, including but not limited to human development, equity, social justice, and climate change, societal-level digital transformation (SDT) is of imminent relevance and theoretical interest. While building on local-level efforts, societal-level transformation is a nonlinear extension of the local level. Unfortunately, academic discourse on digital transformation has largely left SDT unaccounted for. Drawing on more than 25 years of intensive, interventionist research engagement with the digital transformation of public healthcare information management and delivery in more than 80 countries in the Global South, we contribute to theorizing SDT in the form of a design theory consisting of six interconnected design principles. These design principles articulate the interplay and tensions of accommodating over time increased diversity and flexibility in digital solutions, while simultaneously connecting local, national, and regional/ global efforts. | 翻訳日:2023-11-16 14:55:21 公開日:2023-11-15 |
# 両部量子ビット系におけるベル不等式振動に対する有限状態の最適化 Optimizing Fictitious States for Bell Inequality Violation in Bipartite Qubit Systems ( http://arxiv.org/abs/2311.09166v1 ) ライセンス: Link先を確認 | Kun Cheng, Tao Han, Matthew Low | (参考訳) 高エネルギー実験における量子エンタングルメントとベルの不等式違反のテストには大きな関心がある。
高エネルギー実験における解析は、位相空間上で統計的に平均化された事象と共に行われるため、観測可能な状態を決定するために用いられる状態は、事象に依存した座標の選択に依存するため、真の量子状態ではなく、むしろ「劇的な状態」である。
ベルの不等式違反が虚数状態で観測された場合、量子準状態も同様であることが証明される。
さらに、スピンスピン相関を対角化する基礎は、架空の状態を構築し、ベルの不等式を最大化するのに最適であることを示す。 There is a significant interest in testing quantum entanglement and Bell inequality violation in high-energy experiments. Since the analyses in high-energy experiments are performed with events statistically averaged over phase space, the states used to determine observables depend on the choice of coordinates through an event-dependent basis and are thus not genuine quantum states, but rather "fictitious states." We prove that if Bell inequality violation is observed with a fictitious state, then it implies the same for a quantum sub-state. We further show analytically that the basis which diagonalizes the spin-spin correlations is optimal for constructing fictitious states, and for maximizing the violation of Bell's inequality. | 翻訳日:2023-11-16 14:55:01 公開日:2023-11-15 |
# 臨床時系列における変圧器を用いた有害事象検出へのアプローチ Approaching adverse event detection utilizing transformers on clinical time-series ( http://arxiv.org/abs/2311.09165v1 ) ライセンス: Link先を確認 | Helge Fredriksen (1), Per Joel Burman (2), Ashenafi Woldaregay (2), Karl {\O}yvind Mikalsen (2), St{\aa}le Nymo (3) ((1) UiT - The Arctic University of Norway, (2) The Norwegian Centre for Clinical Artificial Intelligence, (3) Nordland Hospital Trust) | (参考訳) 病院に入院している患者は、滞在中に特定の臨床開発に関係していることが多い。
しかし、患者が間違った診断を受けたり、望まれる効果に関係しない特定の治療を受けたりするリスクは常にあり、有害な事象につながる可能性がある。
本研究の目的は,期待される臨床軌跡から逸脱を識別する異常検出システムを開発することである。
この目標を達成するため,北ランド病院トラスト(NHT)から得られた16ヶ月のバイタルサイン記録を分析した。
我々はSTraTSトランスフォーマーアーキテクチャに基づく自己教師型フレームワークを用いて,遅延空間における時系列データを表現した。
これらの表現は、臨床経過に基づいて潜在的な患者の表現型を探索するために、様々なクラスタリング技術が適用された。
この研究の予備的な成果は有望であるが、患者からのさらなる人口統計情報を用いてデータセットを強化することの重要性を強調している。
この追加データは、メソッドのパフォーマンスをより包括的に評価するために重要である。 Patients being admitted to a hospital will most often be associated with a certain clinical development during their stay. However, there is always a risk of patients being subject to the wrong diagnosis or to a certain treatment not pertaining to the desired effect, potentially leading to adverse events. Our research aims to develop an anomaly detection system for identifying deviations from expected clinical trajectories. To address this goal we analyzed 16 months of vital sign recordings obtained from the Nordland Hospital Trust (NHT). We employed an self-supervised framework based on the STraTS transformer architecture to represent the time series data in a latent space. These representations were then subjected to various clustering techniques to explore potential patient phenotypes based on their clinical progress. While our preliminary results from this ongoing research are promising, they underscore the importance of enhancing the dataset with additional demographic information from patients. This additional data will be crucial for a more comprehensive evaluation of the method's performance. | 翻訳日:2023-11-16 14:54:47 公開日:2023-11-15 |
# 通信複雑度からのハイブリッド量子暗号 Hybrid Quantum Cryptography from Communication Complexity ( http://arxiv.org/abs/2311.09164v1 ) ライセンス: Link先を確認 | Francesco Mazzoncini, Balthazar Bauer, Peter Brown, Romain All\'eaume | (参考訳) 本稿では、量子コンピュータ・タイムロック(QCT)セキュリティモデルにおいて、量子メモリのコヒーレンス時間よりもはるかに長い時間で、計算的にセキュアな暗号化が破られると仮定する鍵分散プロトコルを明示的に構築する。
QCTの仮定を生かして,古典的戦略と量子戦略の一方的な通信複雑性に指数的なギャップが存在するHdden Matching問題から,HM-QCTと呼ばれる鍵分布プロトコルを構築した。
任意の攻撃に対するHM-QCTの安全性は、古典情報を用いた隠れマッチング問題の解決の難しさに還元できる。
一方、正当なユーザーは量子通信を利用することができ、情報の利点を保ちながら同じ量子状態の複数のコピーを送信することができる。
これにより、$n$ボソニックモード上でのキー分散スキームが持続する。
このようなセキュリティレベルは、純粋に古典的な技術では達成できない。
注目すべきは、このスキームは、各チャネルの使用に対して最大$\mathcal{O}\big( \frac{\sqrt{n}}{\log(n)}\big)$の入力光子で安全であり、機能を拡張し、QKDレートを数桁上回る可能性があることである。 We introduce an explicit construction for a key distribution protocol in the Quantum Computational Timelock (QCT) security model, where one assumes that computationally secure encryption may only be broken after a time much longer than the coherence time of available quantum memories. Taking advantage of the QCT assumptions, we build a key distribution protocol called HM-QCT from the Hidden Matching problem for which there exists an exponential gap in one-way communication complexity between classical and quantum strategies. We establish that the security of HM-QCT against arbitrary i.i.d. attacks can be reduced to the difficulty of solving the underlying Hidden Matching problem with classical information. Legitimate users, on the other hand, can use quantum communication, which gives them the possibility of sending multiple copies of the same quantum state while retaining an information advantage. This leads to an everlasting secure key distribution scheme over $n$ bosonic modes. Such a level of security is unattainable with purely classical techniques. Remarkably, the scheme remains secure with up to $\mathcal{O}\big( \frac{\sqrt{n}}{\log(n)}\big)$ input photons for each channel use, extending the functionalities and potentially outperforming QKD rates by several orders of magnitudes. | 翻訳日:2023-11-16 14:54:32 公開日:2023-11-15 |
# CLEAN-EVAL:汚染された大規模言語モデルのクリーンな評価 CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models ( http://arxiv.org/abs/2311.09154v1 ) ライセンス: Link先を確認 | Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang, Hanxu Hu, Yiran Wei, Rui Wang, Hongyuan Lu | (参考訳) 現在、さまざまな大規模言語モデル(LLM)の激しい競争が、ベンチマークパフォーマンスの境界を継続的に押し付けています。
しかし、これらのLSMの能力を真に評価することは、潜在的なデータ汚染のために困難で重要な問題となり、研究者やエンジニアがそれらの汚染されたモデルをダウンロードして試すのに何十年もの時間と労力を浪費している。
貴重な時間を節約するために,データ汚染の問題を軽減し,LLMをよりクリーンに評価する,新規で有用な方法であるClean-Evalを提案する。
clean-Eval は LLM を用いて、汚染されたデータを候補セットに逆変換し、同じ意味を持つ式を生成する。
次にセマンティック検出器を使用して生成した低品質サンプルをフィルタリングし、候補セットを絞り込む。
ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。
人間の評価によれば、この最良の候補は元々の汚染データと意味的に似ているが、異なる表現をしている。
すべての候補はモデルを評価するために新しいベンチマークを作成できる。
本実験は, 汚染されたLLMの実際の評価結果を, 数発の学習シナリオと微調整シナリオの両方で大幅に復元することを示した。 We are currently in an era of fierce competition among various large language models (LLMs) continuously pushing the boundaries of benchmark performance. However, genuinely assessing the capabilities of these LLMs has become a challenging and critical issue due to potential data contamination, and it wastes dozens of time and effort for researchers and engineers to download and try those contaminated models. To save our precious time, we propose a novel and useful method, Clean-Eval, which mitigates the issue of data contamination and evaluates the LLMs in a cleaner manner. Clean-Eval employs an LLM to paraphrase and back-translate the contaminated data into a candidate set, generating expressions with the same meaning but in different surface forms. A semantic detector is then used to filter the generated low-quality samples to narrow down this candidate set. The best candidate is finally selected from this set based on the BLEURT score. According to human assessment, this best candidate is semantically similar to the original contamination data but expressed differently. All candidates can form a new benchmark to evaluate the model. Our experiments illustrate that Clean-Eval substantially restores the actual evaluation results on contaminated LLMs under both few-shot learning and fine-tuning scenarios. | 翻訳日:2023-11-16 14:54:06 公開日:2023-11-15 |
# 最適量子リセットプロトコルの探求 Quest for optimal quantum resetting protocols ( http://arxiv.org/abs/2311.09150v1 ) ライセンス: Link先を確認 | Pallabi Chatterjee, S. Aravinda, Ranjan Modak | (参考訳) 古典的な文脈では、検索がターゲットを見つけられない場合、リセットとして知られるプロセスを再起動する方がよいことがよく知られている。
リセットの量子対向はまた、暗黒状態、すなわち粒子が検出を避けている状況を取り除くことによって、検出プロセスのスピードアップを示す。
そこで本研究では, 粒子を最大にすることができる位置リセット (mpr) プロトコルを導入し, 与えられた時間窓内で一元的にシステムを進化させることにより, 粒子を最大にすることができる位置リセットする手法を提案する。
強結合格子モデルでは、最大確率の位置の2倍縮退(左と右)が存在する。
最適再起動率の生存確率は、粒子が両側で等しい確率でリセットされたときにゼロに近づく(検出確率は1に近づく)。
このプロトコルは、粒子が初期位置に戻される通常のリセットプロトコルと比べて、検出器が遠く離れていても、最適な平均第1検出通過時間(fdt)を大幅に削減し、より良く動作する。
そこで我々は,修正されたプロトコルである適応的MPRを提案し,それに関連するリセットの確率をステップの関数として右と左に設定する。
このプロトコルでは、検出器が遠く離れている場合、最適な平均FDTがさらに削減され、探索プロセスが改善される。 In the classical context, it is well known that, sometimes, if the search does not find its target, it is better to start the process anew again, known as resetting. The quantum counterpart of resetting also indicates speeding up the detection process by eliminating the dark states, i.e., situations where the particle avoids detection. In this work, we introduce a most probable position resetting (MPR) protocol in which we reset the particle in a position where the probability of finding the particle could have been maximum, provided one would let the system evolve unitarily in a given time window. In a tight-binding lattice model, there exists a 2-fold degeneracy (left and right) of the positions of maximum probability. The survival probability with optimal restart rate approaches zero (detection probability approaches one) when the particle is reset with equal probability on both sides. This protocol significantly reduces the optimal mean first-detected-passage time (FDT) and performs better even if the detector is far apart compared to the usual resetting protocols where the particle is brought back to the initial position. We propose a modified protocol, adaptive MPR, by making the associated probabilities of resetting to the right and left a function of resetting steps. In this protocol, we see a further reduction of the optimal mean FDT and improvement in the search process when the detector is far apart. | 翻訳日:2023-11-16 14:53:43 公開日:2023-11-15 |
# 抽象推論による時間的知識質問応答 Temporal Knowledge Question Answering via Abstract Reasoning Induction ( http://arxiv.org/abs/2311.09149v1 ) ライセンス: Link先を確認 | Ziyang Chen, Dongfang Li, Xiang Zhao, Baotian Hu, Min Zhang | (参考訳) 本稿では,このようなモデルがしばしば困難に直面する分野である大規模言語モデル(llms)において,時間的知識推論の重大な課題に取り組む。
これらの困難は、主に進化する事実知識と複雑な時間論理を処理する能力に制限があるため、しばしば誤った情報や誤った情報を生み出す。
そこで本研究では,LLM学習におけるパラダイムシフトを,知識合成とカスタマイズの活発なプロセスへと導く,新しい構成主義に基づくアプローチを提案する。
我々の提案の中心は抽象推論誘導ARIフレームワークであり、時間的推論は知識に依存しないものと知識に基づく2つの段階に分けられる。
本研究は, 幻覚の事例を減らし, 歴史資料から抽出した抽象的方法論を統合するLLMの能力を向上させることを目的とする。
提案手法は,2つの時間的QAデータセットに対して29.7\%と9.27\%の相対的な向上を達成し,LLMにおける時間的推論の促進効果を裏付けるものである。
コードはhttps://github.com/czy1999/ariでリリースされる。 In this paper, we tackle the significant challenge of temporal knowledge reasoning in Large Language Models (LLMs), an area where such models frequently encounter difficulties. These difficulties often result in the generation of misleading or incorrect information, primarily due to their limited capacity to process evolving factual knowledge and complex temporal logic. In response, we propose a novel, constructivism-based approach that advocates for a paradigm shift in LLM learning towards an active, ongoing process of knowledge synthesis and customization. At the heart of our proposal is the Abstract Reasoning Induction ARI framework, which divides temporal reasoning into two distinct phases: Knowledge-agnostic and Knowledge-based. This division aims to reduce instances of hallucinations and improve LLMs' capacity for integrating abstract methodologies derived from historical data. Our approach achieves remarkable improvements, with relative gains of 29.7\% and 9.27\% on two temporal QA datasets, underscoring its efficacy in advancing temporal reasoning in LLMs. The code will be released at https://github.com/czy1999/ARI. | 翻訳日:2023-11-16 14:53:22 公開日:2023-11-15 |
# 不確実性推定によるモデル非依存的説明可能な選択回帰 Model Agnostic Explainable Selective Regression via Uncertainty Estimation ( http://arxiv.org/abs/2311.09145v1 ) ライセンス: Link先を確認 | Andrea Pugnana, Carlos Mougan, Dan Saattrup Nielsen | (参考訳) 機械学習技術が広範に採用されると、要求は高いパフォーマンスを超えて進化し、しばしばモデルが信頼できるように要求される。
このようなシステムの信頼性を高める一般的なアプローチは、予測を控えることである。
このような枠組みは選択的予測として知られている。
分類タスクの選択的予測は広く分析されているが,選択的回帰の問題が検討されている。
本稿では,モデル非依存な非パラメトリック不確実性推定を用いた選択的回帰法を提案する。
提案フレームワークは,69データセットの総合的なベンチマークにより,最先端の選択的回帰器と比較して優れた性能を示す。
最後に、説明可能なAI技術を使用して、選択回帰の背後にあるドライバの理解を得ます。
オープンソースPythonパッケージに選択的回帰法を実装し、実験を再現するために使用するコードをリリースする。 With the wide adoption of machine learning techniques, requirements have evolved beyond sheer high performance, often requiring models to be trustworthy. A common approach to increase the trustworthiness of such systems is to allow them to refrain from predicting. Such a framework is known as selective prediction. While selective prediction for classification tasks has been widely analyzed, the problem of selective regression is understudied. This paper presents a novel approach to selective regression that utilizes model-agnostic non-parametric uncertainty estimation. Our proposed framework showcases superior performance compared to state-of-the-art selective regressors, as demonstrated through comprehensive benchmarking on 69 datasets. Finally, we use explainable AI techniques to gain an understanding of the drivers behind selective regression. We implement our selective regression method in the open-source Python package doubt and release the code used to reproduce our experiments. | 翻訳日:2023-11-16 14:53:03 公開日:2023-11-15 |
# 接地か推測か?
大規模言語モデルは予備的なグラウンドである Grounding or Guesswork? Large Language Models are Presumptive Grounders ( http://arxiv.org/abs/2311.09144v1 ) ライセンス: Link先を確認 | Omar Shaikh, Kristina Gligori\'c, Ashna Khetan, Matthias Gerstgrasser, Diyi Yang, Dan Jurafsky | (参考訳) 効果的な会話には共通の基盤が必要である。
しかし、会話の中で自然発生することはない。
話者と聞き手は、誤解を避けながら共通の基盤を識別し、構築するために協力する。
接地を達成するために、人間は明確化(どういう意味か?)や認識(私は理解している)といった様々な対話行為に依存している。
教養や情緒的支援といった領域では、接地を慎重に構築することは誤解を防ぐ。
しかし、大言語モデル(llm)がこれらの対話を共通基盤構築に活用しているかどうかは不明である。
この目的のために, 接地行動の集合をキュレートし, 接地の試みを定量化する対応する指標を提案する。
我々は,LLMがこれらの接地行動を用いて,複数の対話データセットから交互に行うことをシミュレーションし,その結果を人間と比較する。
現状のLLMは, 接地行為を使わずに, 共通グラウンドの仮定に偏りがあることが判明した。
この行動のルーツを理解するため,RLHFによる指導指導と強化学習の役割を人間のフィードバック(RLHF)を用いて検討し,RLHFが基礎を弱めることを発見した。
我々の研究は、人間とAIの相互作用の土台調査の必要性を強調している。 Effective conversation requires common ground: a shared understanding between the participants. Common ground, however, does not emerge spontaneously in conversation. Speakers and listeners work together to both identify and construct a shared basis while avoiding misunderstanding. To accomplish grounding, humans rely on a range of dialogue acts, like clarification (What do you mean?) and acknowledgment (I understand.). In domains like teaching and emotional support, carefully constructing grounding prevents misunderstanding. However, it is unclear whether large language models (LLMs) leverage these dialogue acts in constructing common ground. To this end, we curate a set of grounding acts and propose corresponding metrics that quantify attempted grounding. We study whether LLMs use these grounding acts, simulating them taking turns from several dialogue datasets, and comparing the results to humans. We find that current LLMs are presumptive grounders, biased towards assuming common ground without using grounding acts. To understand the roots of this behavior, we examine the role of instruction tuning and reinforcement learning with human feedback (RLHF), finding that RLHF leads to less grounding. Altogether, our work highlights the need for more research investigating grounding in human-AI interaction. | 翻訳日:2023-11-16 14:52:48 公開日:2023-11-15 |
# 部分状態観測による機械学習パラメータ追跡 Machine-learning parameter tracking with partial state observation ( http://arxiv.org/abs/2311.09142v1 ) ライセンス: Link先を確認 | Zheng-Meng Zhai, Mohammadamin Moradi, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai | (参考訳) 複雑で非線形な力学系は、時間とともに変化するパラメータ、状態推定、予測、制御といったタスクに不可欠な正確な追跡を含むことが多い。
既存の機械学習手法は、基礎となるシステムの完全な状態観察を必要とし、パラメータの断熱的変化を暗黙的に仮定する。
逆問題と貯水池計算を応用したモデルフリーで完全なデータ駆動型フレームワークを開発し,部分状態観測からリアルタイムに時間変化パラメータを正確に追跡する。
特に、少数の既知のパラメータ値に対するシステムの動的変数のサブセットからのデータをトレーニングすることで、フレームワークは、時間のパラメータ変動を正確に予測することができる。
低次元および高次元、マルコフ的および非マルコフ的非線形力学系は、機械学習に基づくパラメータ追跡フレームワークのパワーを示すために用いられる。
トラッキングパフォーマンスに影響を及ぼす問題に対処する。 Complex and nonlinear dynamical systems often involve parameters that change with time, accurate tracking of which is essential to tasks such as state estimation, prediction, and control. Existing machine-learning methods require full state observation of the underlying system and tacitly assume adiabatic changes in the parameter. Formulating an inverse problem and exploiting reservoir computing, we develop a model-free and fully data-driven framework to accurately track time-varying parameters from partial state observation in real time. In particular, with training data from a subset of the dynamical variables of the system for a small number of known parameter values, the framework is able to accurately predict the parameter variations in time. Low- and high-dimensional, Markovian and non-Markovian nonlinear dynamical systems are used to demonstrate the power of the machine-learning based parameter-tracking framework. Pertinent issues affecting the tracking performance are addressed. | 翻訳日:2023-11-16 14:52:28 公開日:2023-11-15 |
# 薬物安全性モニタリングのための因果予測モデル:バンコマイシンによる急性腎障害の診断 Causal prediction models for medication safety monitoring: The diagnosis of vancomycin-induced acute kidney injury ( http://arxiv.org/abs/2311.09137v1 ) ライセンス: Link先を確認 | Izak Yasrebi-de Kom, Joanna Klopotowska, Dave Dongelmans, Nicolette De Keizer, Kitty Jager, Ameen Abu-Hanna, Giovanni Cin\`a | (参考訳) 入院患者の有害薬物事象(ades)の振り返り診断の現在のベストプラクティスは、完全な患者チャートレビューと、複数の医療専門家による正式な因果関係評価に依存している。
この評価は、薬物が有害事象の必要な原因であった可能性(pc)を定性的に推定するのに役立つ。
このプラクティスは手動で、リソース集約的で、人間のバイアスになりやすいため、データ駆動の意思決定サポートの恩恵を受ける可能性がある。
ここでは、観測データを用いた因果モデリング手法を考案し、PCの下位境界(PC$_{low}$)を推定する。
本手法は,(1)対象のエミュレーションフレームワークと(2)機械学習を用いた個別化処理効果の推定の2つの主要な因果推論成分を含む。
本手法は集中治療患者におけるバンコマイシン誘発急性腎障害の臨床応用例に適用し, 原因モデルに基づくPC$_{low}$推定値と, 医療専門家が提供したPCの質的評価値とを比較した。
今後改良された因果モデルが,入院患者の医療安全モニタリングに不可欠なデータ駆動型サポートを提供できると結論づける。 The current best practice approach for the retrospective diagnosis of adverse drug events (ADEs) in hospitalized patients relies on a full patient chart review and a formal causality assessment by multiple medical experts. This evaluation serves to qualitatively estimate the probability of causation (PC); the probability that a drug was a necessary cause of an adverse event. This practice is manual, resource intensive and prone to human biases, and may thus benefit from data-driven decision support. Here, we pioneer a causal modeling approach using observational data to estimate a lower bound of the PC (PC$_{low}$). This method includes two key causal inference components: (1) the target trial emulation framework and (2) estimation of individualized treatment effects using machine learning. We apply our method to the clinically relevant use-case of vancomycin-induced acute kidney injury in intensive care patients, and compare our causal model-based PC$_{low}$ estimates to qualitative estimates of the PC provided by a medical expert. Important limitations and potential improvements are discussed, and we conclude that future improved causal models could provide essential data-driven support for medication safety monitoring in hospitalized patients. | 翻訳日:2023-11-16 14:52:13 公開日:2023-11-15 |
# RRescue: LLMレスポンスのランク付けによってコンテキストに対する推論が強化 RRescue: Ranking LLM Responses to Enhance Reasoning Over Context ( http://arxiv.org/abs/2311.09136v1 ) ライセンス: Link先を確認 | Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and Fei Liu | (参考訳) 与えられたコンテキストを効果的に使用することは、大きな言語モデルにとって最重要である。
コンテキストウィンドウには、タスク仕様、検索されたドキュメント、以前の会話、さらにはエピソードメモリと同様に機能する自己回帰のモデルを含めることができる。
コンテキストウィンドウを拡張する努力が続けられている一方で、LLMは応答生成に最適にコンテキストを使用していないことが研究で示されている。
そこで本稿では,LLMの文脈的評価基準を用いてLLMを最適化する手法を提案する。
従来の完全な順序ではなく、部分的な順序を提唱します。
これは、システムレスポンスの完全な順序についてのコンセンサスを達成することが難しいためです。
部分的な順序付けはより堅牢で、ノイズに対する感度が低く、人間のラベルやヒューリスティック関数、モデル蒸留によって得られる。
我々は,新しいマルチドキュメント質問応答データセットを含む最新のベンチマークを用いて,システムの改善された文脈理解をテストする。
我々は, 候補応答の収集方法, 最適な順序の決定方法, 教師付き微調整とランキング指標のバランスなど, 重要な要素を理解するためにアブレーション研究を行う。
我々のアプローチはRRescueと呼ばれ、応答ランキングによるLLMの文脈理解を高めるための有望な道のりを示唆している。 Effectively using a given context is paramount for large language models. A context window can include task specifications, retrieved documents, previous conversations, and even model self-reflections, functioning similarly to episodic memory. While efforts are being made to expand the context window, studies indicate that LLMs do not use their context optimally for response generation. In this paper, we present a novel approach to optimize LLMs using ranking metrics, which teaches LLMs to rank a collection of contextually-grounded candidate responses. Rather than a traditional full ordering, we advocate for a partial ordering. This is because achieving consensus on the perfect order for system responses can be challenging. Our partial ordering is more robust, less sensitive to noise, and can be acquired through human labelers, heuristic functions, or model distillation. We test our system's improved contextual understanding using the latest benchmarks, including a new multi-document question answering dataset. We conduct ablation studies to understand crucial factors, such as how to gather candidate responses, determine their most suitable order, and balance supervised fine-tuning with ranking metrics. Our approach, named RRescue, suggests a promising avenue for enhancing LLMs' contextual understanding via response ranking. | 翻訳日:2023-11-16 14:51:48 公開日:2023-11-15 |
# ニューラルネットワーク翻訳モデルの調整:トレーニングと推論における人間のフィードバック Aligning Neural Machine Translation Models: Human Feedback in Training and Inference ( http://arxiv.org/abs/2311.09132v1 ) ライセンス: Link先を確認 | Miguel Moura Ramos, Patrick Fernandes, Ant\'onio Farinhas, Andr\'e F. T. Martins | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルによって生成されたテキストの品質を改善するための最近の技術であり、人間が生成するものに近いものになっている。
RLHFが大規模言語モデル(LLM)の整合と改善に成功した中核となる要素は、モデル出力に対する人間のフィードバックを用いてトレーニングされた報酬モデルである。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた最近の手法が最終品質の向上に成功している。
本研究では,報奨モデルとして品質指標を統合する手法をMTパイプラインに包括的に検討し,比較する。
これには、データフィルタリング、RLによるトレーニング段階での報酬モデル、再ランク付け手法による推論時間の利用が含まれており、それらを統一的なアプローチで組み合わせることの効果を評価する。
複数の翻訳タスクにまたがって実施した実験結果は、MT品質向上におけるRLの潜在能力を最大限に活用する上で、推定品質に基づいて効果的なデータフィルタリングの重要性を浮き彫りにした。
さらに,RLトレーニングとリグレード技術を組み合わせることで,翻訳品質が大幅に向上したことを示す。 Reinforcement learning from human feedback (RLHF) is a recent technique to improve the quality of the text generated by a language model, making it closer to what humans would generate. A core ingredient in RLHF's success in aligning and improving large language models (LLMs) is its reward model, trained using human feedback on model outputs. In machine translation (MT), where metrics trained from human annotations can readily be used as reward models, recent methods using minimum Bayes risk decoding and reranking have succeeded in improving the final quality of translation. In this study, we comprehensively explore and compare techniques for integrating quality metrics as reward models into the MT pipeline. This includes using the reward model for data filtering, during the training phase through RL, and at inference time by employing reranking techniques, and we assess the effects of combining these in a unified approach. Our experimental results, conducted across multiple translation tasks, underscore the crucial role of effective data filtering, based on estimated quality, in harnessing the full potential of RL in enhancing MT quality. Furthermore, our findings demonstrate the effectiveness of combining RL training with reranking techniques, showcasing substantial improvements in translation quality. | 翻訳日:2023-11-16 14:51:28 公開日:2023-11-15 |
# ソーシャルミーム--ミームにおける言語的変化の測定 Social Meme-ing: Measuring Linguistic Variation in Memes ( http://arxiv.org/abs/2311.09130v1 ) ライセンス: Link先を確認 | Naitian Zhou, David Jurgens and David Bamman | (参考訳) NLPの分野における多くの研究は、社会言語学的テキストの変化を探索するために計算手法を用いてきた。
本稿では,視覚的テンプレートとテキストからなる多モーダル言語としてのミームが,意味のある社会的変動を示すことを論じる。
我々は,メメの個々のインスタンスをテンプレートやセマンティック変数にクラスタリングする計算パイプラインを構築し,それらのマルチモーダル構造を活用する。
この手法をredditのミーム画像の大規模なコレクションに適用し,その意味関数によってクラスタ化された3.8m画像からなる,結果の \textsc{semanticmemes} データセットを利用可能にする。
我々はこれらのクラスターを用いて、ミームの言語的変化を分析し、サブレディット間でのミーム使用の社会的意義のある変動が存在するだけでなく、これらのコミュニティにおけるミームの革新と文化のパターンが、以前の文献言語での発見と一致していることを発見した。 Much work in the space of NLP has used computational methods to explore sociolinguistic variation in text. In this paper, we argue that memes, as multimodal forms of language comprised of visual templates and text, also exhibit meaningful social variation. We construct a computational pipeline to cluster individual instances of memes into templates and semantic variables, taking advantage of their multimodal structure in doing so. We apply this method to a large collection of meme images from Reddit and make available the resulting \textsc{SemanticMemes} dataset of 3.8M images clustered by their semantic function. We use these clusters to analyze linguistic variation in memes, discovering not only that socially meaningful variation in meme usage exists between subreddits, but that patterns of meme innovation and acculturation within these communities align with previous findings on written language. | 翻訳日:2023-11-16 14:51:06 公開日:2023-11-15 |
# 有効パウリ雑音モデルについての一考察 A short note on effective Pauli noise models ( http://arxiv.org/abs/2311.09129v1 ) ライセンス: Link先を確認 | Michael A. Perlin | (参考訳) 単一ゲートに対するノイズ実験プロトコルの古典的シミュレーションから,有効パウリ雑音モデルを抽出するための簡易な処方法を提案する。
この処方は、量子チャネル間のフロベニウス距離によって測定されるように、ゲート実装に関連するエラーチャネルに最も近いポーリチャネル近似を与える。
これらの結果から,コヒーレントエラーの定量的処理に関する謎を浮き彫りにする。 We provide a simple prescription to extract an effective Pauli noise model from classical simulations of a noisy experimental protocol for a unitary gate. This prescription yields the closest Pauli channel approximation to the error channel associated with the gate implementation, as measured by the Frobenius distance between quantum channels. Informed by these results, we highlight some puzzles regarding the quantitative treatment of coherent errors. | 翻訳日:2023-11-16 14:50:48 公開日:2023-11-15 |
# 学習イジングモデルへの統一的アプローチ:独立性と境界幅を超えて A Unified Approach to Learning Ising Models: Beyond Independence and Bounded Width ( http://arxiv.org/abs/2311.09197v1 ) ライセンス: Link先を確認 | Jason Gaitonde and Elchanan Mossel | (参考訳) 我々はIsingモデルの基本パラメータをデータから効率的に学習する問題を再考する。
現在のアルゴリズムアプローチは、定常測度から与えられたサンプルと基礎となるモデルが各ノード間の合計$\ell_1$相互作用の「幅」境界を満たす場合に、本質的に最適なサンプル複雑性を達成する。
1)ブロックやラウンドロビンダイナミクスなど、様々な局所マルコフ連鎖から動的に生成されたデータによって、ロジスティック回帰は最適なサンプル複雑性を持つパラメータを最大$\log\log n$ factorまで回復する。
これは、グラスバー力学から有界次数グラフの構造回復のためのbresler, gamarnik, shah [ieee trans. inf. theory'18] の特殊アルゴリズムを一般化する。
2) スピングラスのシェリントン・カークパトリックモデルに対して、$\mathsf{poly}(n)$ 独立サンプルが与えられた場合、ロジスティック回帰は、測定値のより弱い構造特性への単純な還元により、既知の高温状態のほとんどのパラメータを復元する。
これは、Anari、Jain、Koehler、Pham、Vuong(ArXiv'23)の最近の研究を改善し、より高い温度で分布学習を行う。
3)本手法の単純な副産物として,Dutt,Lokhov,Vuffray,Misra(ICML'21)が検討したデータM-レジムからの学習が指数関数的に向上し,また,Cin,Moitra,Mossel,Sandon(ArXiv'23)の対角グラウバー力学から学習するための新たな保証が得られた。
この手法は, アルゴリズムを改良することなく, Wu, Sanghavi, Dimakis [Neurips'19] のエレガントな解析を著しく一般化する。 We revisit the problem of efficiently learning the underlying parameters of Ising models from data. Current algorithmic approaches achieve essentially optimal sample complexity when given i.i.d. samples from the stationary measure and the underlying model satisfies "width" bounds on the total $\ell_1$ interaction involving each node. We show that a simple existing approach based on node-wise logistic regression provably succeeds at recovering the underlying model in several new settings where these assumptions are violated: (1) Given dynamically generated data from a wide variety of local Markov chains, like block or round-robin dynamics, logistic regression recovers the parameters with optimal sample complexity up to $\log\log n$ factors. This generalizes the specialized algorithm of Bresler, Gamarnik, and Shah [IEEE Trans. Inf. Theory'18] for structure recovery in bounded degree graphs from Glauber dynamics. (2) For the Sherrington-Kirkpatrick model of spin glasses, given $\mathsf{poly}(n)$ independent samples, logistic regression recovers the parameters in most of the known high-temperature regime via a simple reduction to weaker structural properties of the measure. This improves on recent work of Anari, Jain, Koehler, Pham, and Vuong [ArXiv'23] which gives distribution learning at higher temperature. (3) As a simple byproduct of our techniques, logistic regression achieves an exponential improvement in learning from samples in the M-regime of data considered by Dutt, Lokhov, Vuffray, and Misra [ICML'21] as well as novel guarantees for learning from the adversarial Glauber dynamics of Chin, Moitra, Mossel, and Sandon [ArXiv'23]. Our approach thus significantly generalizes the elegant analysis of Wu, Sanghavi, and Dimakis [Neurips'19] without any algorithmic modification. | 翻訳日:2023-11-16 14:43:52 公開日:2023-11-15 |
# タスク特化知識のない自己強化学習のための自己監督型カリキュラム生成 Self-Supervised Curriculum Generation for Autonomous Reinforcement Learning without Task-Specific Knowledge ( http://arxiv.org/abs/2311.09195v1 ) ライセンス: Link先を確認 | Sang-Hyun Lee and Seung-Woo Seo | (参考訳) 現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
このリセットプロセスは人間の介入を必要とするため、エージェントが継続的に自律的に学習することは困難である。
いくつかの最近の研究は、リセットとフォワードを共同でトレーニングするためのカリキュラムを生成する自律強化学習(ARL)アルゴリズムを導入している。
彼らのカリキュラムは、エージェントの学習の進捗を考慮して、必要な手動リセットの数を減らすことができるが、事前定義された初期状態やリセット報酬関数のようなタスク固有の知識に依存している。
本稿では,タスク固有の知識を使わずに,エージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
我々のカリキュラムは、エージェントが多様かつ情報的な初期状態に自律的にリセットする権限を与えます。
これを実現するために,エージェントがフォワードポリシーに従うと,各初期状態から成功確率を推定する成功判別器を導入する。
成功判別器は自己監督的な方法で可逆遷移で訓練される。
実験の結果, arlアルゴリズムは適応型カリキュラムを生成でき, エージェントのブートストラップにより, スパース・リワードの迷路ナビゲーションタスクを効率的に解くことができ, 手動リセットの少ないベースラインよりも優れていた。 A significant bottleneck in applying current reinforcement learning algorithms to real-world scenarios is the need to reset the environment between every episode. This reset process demands substantial human intervention, making it difficult for the agent to learn continuously and autonomously. Several recent works have introduced autonomous reinforcement learning (ARL) algorithms that generate curricula for jointly training reset and forward policies. While their curricula can reduce the number of required manual resets by taking into account the agent's learning progress, they rely on task-specific knowledge, such as predefined initial states or reset reward functions. In this paper, we propose a novel ARL algorithm that can generate a curriculum adaptive to the agent's learning progress without task-specific knowledge. Our curriculum empowers the agent to autonomously reset to diverse and informative initial states. To achieve this, we introduce a success discriminator that estimates the success probability from each initial state when the agent follows the forward policy. The success discriminator is trained with relabeled transitions in a self-supervised manner. Our experimental results demonstrate that our ARL algorithm can generate an adaptive curriculum and enable the agent to efficiently bootstrap to solve sparse-reward maze navigation tasks, outperforming baselines with significantly fewer manual resets. | 翻訳日:2023-11-16 14:42:59 公開日:2023-11-15 |
# 多言語言語モデルにおける構造プライミングの抽象文法表現 Structural Priming Demonstrates Abstract Grammatical Representations in Multilingual Language Models ( http://arxiv.org/abs/2311.09194v1 ) ライセンス: Link先を確認 | James A. Michaelov, Catherine Arnett, Tyler A. Chang, Benjamin K. Bergen | (参考訳) 抽象文法知識 (abstract grammatical knowledge) - 音声と文法パターンの一部 - は、人間の言語一般化能力の鍵である。
しかし、大きな言語モデルにおける文法的知識はどの程度抽象的か?
人間の文学では、文法的抽象の説得力のある証拠は構造的プライミングに由来する。
前文と同じ文法構造を共有する文を処理し、より容易に生成する。
一つの言語で刺激を使う際には、矛盾があるため、抽象の証拠は、ある言語における構文構造を使用することが他の言語における類似構造を素とする言語横断的な構造プライミングによってさらに説得力がある。
大規模言語モデルにおける言語間構造プライミングの測定を行い,6言語を対象とした8つの言語間実験および3つの非英語言語における4つの単言語構造プライミング実験の結果と比較した。
ヒトに見られるものと同様に機能するモデルにおいて,抽象単言語およびクロス言語文法表現の証拠を見いだす。
これらの結果から,多言語モデルにおける文法表現は言語間で類似するだけでなく,異なる言語で生成されたテキストに因果的に影響を及ぼすことが示された。 Abstract grammatical knowledge - of parts of speech and grammatical patterns - is key to the capacity for linguistic generalization in humans. But how abstract is grammatical knowledge in large language models? In the human literature, compelling evidence for grammatical abstraction comes from structural priming. A sentence that shares the same grammatical structure as a preceding sentence is processed and produced more readily. Because confounds exist when using stimuli in a single language, evidence of abstraction is even more compelling from crosslingual structural priming, where use of a syntactic structure in one language primes an analogous structure in another language. We measure crosslingual structural priming in large language models, comparing model behavior to human experimental results from eight crosslingual experiments covering six languages, and four monolingual structural priming experiments in three non-English languages. We find evidence for abstract monolingual and crosslingual grammatical representations in the models that function similarly to those found in humans. These results demonstrate that grammatical representations in multilingual language models are not only similar across languages, but they can causally influence text produced in different languages. | 翻訳日:2023-11-16 14:42:34 公開日:2023-11-15 |
# 複雑な視覚言語推論タスクにおける思考連鎖の役割 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task ( http://arxiv.org/abs/2311.09193v1 ) ライセンス: Link先を確認 | Yifan Wu, Pengchuan Zhang, Wenhan Xiong, Barlas Oguz, James C. Gee, Yixin Nie | (参考訳) この研究は、高度な知覚と推論を必要とする視覚言語タスクを改善するために、サブタスクと中間ステップに分割することで、言語タスクの習熟度で知られるChain-of-Thoughtアプローチの有効性を探求する。
我々は,人間の信号処理方法に触発された「記述と決定」戦略を提案する。
この戦略はタスクの探索性能を50%向上させ、複雑な視覚言語タスクにおける推論パラダイムの研究の基盤を確立する。 The study explores the effectiveness of the Chain-of-Thought approach, known for its proficiency in language tasks by breaking them down into sub-tasks and intermediate steps, in improving vision-language tasks that demand sophisticated perception and reasoning. We present the "Description then Decision" strategy, which is inspired by how humans process signals. This strategy significantly improves probing task performance by 50%, establishing the groundwork for future research on reasoning paradigms in complex vision-language tasks. | 翻訳日:2023-11-16 14:42:16 公開日:2023-11-15 |
# ファウショット分類のためのドメインアライメントCLIP Domain Aligned CLIP for Few-shot Classification ( http://arxiv.org/abs/2311.09191v1 ) ライセンス: Link先を確認 | Muhammad Waleed Gondal, Jochen Gast, Inigo Alonso Ruiz, Richard Droste, Tommaso Macri, Suren Kumar, Luitpold Staudigl | (参考訳) CLIPのような大規模な視覚言語表現学習モデルは、対照的な目的を通じてモーダル間(画像テキスト)アライメントの恩恵を受けながら、下流タスクへのゼロショット転送の素晴らしいパフォーマンスを示している。
このダウンストリーム性能は、しばしば計算集約され、大きなラベル付きデータを必要とするフルスケールの微調整によってさらに向上し、アウト・オブ・ディストリビューション(OOD)の堅牢性を低減することができる。
さらに、モーダル間のアライメントへの唯一の依存は、個々のモーダル内に埋め込まれた豊富な情報を見落としてしまう可能性がある。
本研究では,主モデルに微調整を加えることなく,対象分布のモード内アライメント(イメージ画像)とモード間アライメントを改良した,dac(domain aligned clip)というクリップのサンプル効率の高いドメイン適応戦略を提案する。
モーダル内アライメントには、モーダル内コントラスト目的で特別に訓練された軽量アダプタを導入する。
モーダル間のアライメントを改善するために,事前計算されたクラステキスト埋め込みを変調するシンプルなフレームワークを提案する。
提案するマイナショット微調整フレームワークは計算効率が高く,分散シフトに頑健であり,クリップのパラメータは変更しない。
我々は,16ショットの分類を強いベースラインで一貫した改良を施した11種類の画像分類タスクにおいて,DACの有効性を約2.3%向上させ,OODロバストネスベンチマーク上での競合性能を実証した。 Large vision-language representation learning models like CLIP have demonstrated impressive performance for zero-shot transfer to downstream tasks while largely benefiting from inter-modal (image-text) alignment via contrastive objectives. This downstream performance can further be enhanced by full-scale fine-tuning which is often compute intensive, requires large labelled data, and can reduce out-of-distribution (OOD) robustness. Furthermore, sole reliance on inter-modal alignment might overlook the rich information embedded within each individual modality. In this work, we introduce a sample-efficient domain adaptation strategy for CLIP, termed Domain Aligned CLIP (DAC), which improves both intra-modal (image-image) and inter-modal alignment on target distributions without fine-tuning the main model. For intra-modal alignment, we introduce a lightweight adapter that is specifically trained with an intra-modal contrastive objective. To improve inter-modal alignment, we introduce a simple framework to modulate the precomputed class text embeddings. The proposed few-shot fine-tuning framework is computationally efficient, robust to distribution shifts, and does not alter CLIP's parameters. We study the effectiveness of DAC by benchmarking on 11 widely used image classification tasks with consistent improvements in 16-shot classification upon strong baselines by about 2.3% and demonstrate competitive performance on 4 OOD robustness benchmarks. | 翻訳日:2023-11-16 14:42:06 公開日:2023-11-15 |
# ガウス速度歪み知覚関数の計算について On the Computation of the Gaussian Rate-Distortion-Perception Function ( http://arxiv.org/abs/2311.09190v1 ) ライセンス: Link先を確認 | Giuseppe Serra, Photios A. Stavrou, and Marios Kountouris | (参考訳) 本稿では,平均二乗誤差(mse)歪み下での多変量ガウス音源に対するレートゆらぎ-知覚関数(rdpf)の計算と,それぞれkullback-leibler divergence,gemetry jensen-shannon divergence,squared hellinger distance,squared wasserstein-2 distance perception metricsについて検討した。
この目的のために、まず、上記の発散関数に対するスカラーガウス RDPF の解析的境界を特徴付けるとともに、RDPF が前進する「テストチャネル」の実現を提供する。
多変量の場合に焦点をあてて、テンソル化可能な歪みと知覚のメトリクスに対して、最適解は、ソース共分散行列の固有ベクトルにまたがるベクトル空間上に存在することを立証する。
したがって、多変量最適化問題は、大域的歪みと知覚レベルに制約されたソース境界のスカラーガウス RDPF の関数として表現できる。
この特徴を利用してブロック非線形ガウス・セイデル法に基づく交互最小化スキームを設計し,ガウス型rdpf-アキエビング実現を同定しながら問題を最適に解く。
さらに、関連するアルゴリズムの具体化と収束率と収束率とを提供する。
最後に、「完全現実主義」体制では、多変量ガウス RDPF の解析解が得られる。
数値シミュレーションで結果を相関させ,既存の結果に関連付ける。 In this paper, we study the computation of the rate-distortion-perception function (RDPF) for a multivariate Gaussian source under mean squared error (MSE) distortion and, respectively, Kullback-Leibler divergence, geometric Jensen-Shannon divergence, squared Hellinger distance, and squared Wasserstein-2 distance perception metrics. To this end, we first characterize the analytical bounds of the scalar Gaussian RDPF for the aforementioned divergence functions, also providing the RDPF-achieving forward "test-channel" realization. Focusing on the multivariate case, we establish that, for tensorizable distortion and perception metrics, the optimal solution resides on the vector space spanned by the eigenvector of the source covariance matrix. Consequently, the multivariate optimization problem can be expressed as a function of the scalar Gaussian RDPFs of the source marginals, constrained by global distortion and perception levels. Leveraging this characterization, we design an alternating minimization scheme based on the block nonlinear Gauss-Seidel method, which optimally solves the problem while identifying the Gaussian RDPF-achieving realization. Furthermore, the associated algorithmic embodiment is provided, as well as the convergence and the rate of convergence characterization. Lastly, for the "perfect realism" regime, the analytical solution for the multivariate Gaussian RDPF is obtained. We corroborate our results with numerical simulations and draw connections to existing results. | 翻訳日:2023-11-16 14:41:37 公開日:2023-11-15 |
# PsyEval: メンタルヘルスのための総合的な大規模言語モデル評価ベンチマーク PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health ( http://arxiv.org/abs/2311.09189v1 ) ライセンス: Link先を確認 | Haoan Jin, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu | (参考訳) 近年,精神保健研究における大規模言語モデル(LLM)の利用に対する関心が高まっており,疾患検出などの顕著な能力を示す研究が行われている。
しかし、現時点では、この領域でLLMの能力を評価するための包括的なベンチマークがない。
そこで本研究では,メンタルヘルス領域の特徴に合わせた,最初の総合的なベンチマークを導入することで,このギャップに対処する。
このベンチマークは、メンタルヘルスの領域におけるLSMの能力を体系的に評価するために、3次元をカバーする合計6つのサブタスクを含んでいる。
サブタスクごとに対応する簡潔なプロンプトを設計した。
また,このベンチマークを用いて,合計8つの高度なLCMを総合的に評価した。
実験の結果、メンタルヘルスに関する現在のllmの改善の余地が明らかになるだけでなく、将来のモデル最適化の可能性も明らかにされた。 Recently, there has been a growing interest in utilizing large language models (LLMs) in mental health research, with studies showcasing their remarkable capabilities, such as disease detection. However, there is currently a lack of a comprehensive benchmark for evaluating the capability of LLMs in this domain. Therefore, we address this gap by introducing the first comprehensive benchmark tailored to the unique characteristics of the mental health domain. This benchmark encompasses a total of six sub-tasks, covering three dimensions, to systematically assess the capabilities of LLMs in the realm of mental health. We have designed corresponding concise prompts for each sub-task. And we comprehensively evaluate a total of eight advanced LLMs using our benchmark. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization. | 翻訳日:2023-11-16 14:41:08 公開日:2023-11-15 |
# 記号参照による検証可能なテキスト生成に向けて Towards Verifiable Text Generation with Symbolic References ( http://arxiv.org/abs/2311.09188v1 ) ライセンス: Link先を確認 | Lucas Torroba Hennigen, Shannon Shen, Aniruddha Nrusimha, Bernhard Gapp, David Sontag, Yoon Kim | (参考訳) 大規模言語モデル (LLM) は、可塑性で流動的なテキストを合成する素晴らしい能力を示している。
しかし、彼らは幻覚に弱いままなので、その出力は一般的に高用量アプリケーションに対して手動による検証を必要とする。
本稿では,LLMの出力の検証を容易にするシンプルなアプローチとして,記号的基底生成(SymGen)を提案する。
SymGen は LLM に対して,特定の条件データ(JSON 形式のテーブルなど)に存在するフィールドへの明示的なシンボル参照で,通常の出力テキストをインターリーブするように促す。
参照は、生成中のテキストの異なるスパンの出所を表示するために使用することができ、手動検証に必要な労力を削減できる。
データ・トゥ・テキストと質問応答実験全体で、LLMは、流速と精度を維持しつつシンボル参照を利用するテキストを直接出力できることがわかった。 Large language models (LLMs) have demonstrated an impressive ability to synthesize plausible and fluent text. However they remain vulnerable to hallucinations, and thus their outputs generally require manual human verification for high-stakes applications, which can be time-consuming and difficult. This paper proposes symbolically grounded generation (SymGen) as a simple approach for enabling easier validation of an LLM's output. SymGen prompts an LLM to interleave its regular output text with explicit symbolic references to fields present in some conditioning data (e.g., a table in JSON format). The references can be used to display the provenance of different spans of text in the generation, reducing the effort required for manual verification. Across data-to-text and question answering experiments, we find that LLMs are able to directly output text that makes use of symbolic references while maintaining fluency and accuracy. | 翻訳日:2023-11-16 14:40:54 公開日:2023-11-15 |
# 命令制御可能な要約のための大規模言語モデルのベンチマーク生成と評価能力 Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization ( http://arxiv.org/abs/2311.09184v1 ) ライセンス: Link先を確認 | Yixin Liu, Alexander R. Fabbri, Jiawen Chen, Yilun Zhao, Simeng Han, Shafiq Joty, Pengfei Liu, Dragomir Radev, Chien-Sheng Wu, Arman Cohan | (参考訳) 大規模言語モデル(llms)は、標準のジェネリック要約ベンチマークですでに強力なパフォーマンスを達成しているが、より複雑な要約タスク設定におけるパフォーマンスは、あまり研究されていない。
そこで,所望の要約特性に対して,モデル入力はソース記事と自然言語要求の両方からなる命令制御可能なテキスト要約のLCMをベンチマークする。
この目的のために,評価専用データセットを収集し,5つのllmに基づく要約システム上でヒューマン評価を行う。
次に,4つの異なる評価プロトコルと11個のLCMを用いてLCMに基づく自動評価をベンチマークし,合計40個の評価方法を得た。
本研究は,(1) 評価された全てのLCMは,その要約において事実的および他の種類の誤りを犯しているため,命令制御可能なテキスト要約は依然として困難な課題であり,(2) 候補要約の質を判断する上では,すべてのLCM評価手法は人間の注釈との強い整合性を達成できないこと,(3) 異なるLCMは要約生成と評価において大きなパフォーマンスギャップを示すこと,などを明らかにする。
当社は収集したベンチマークであるinstrusumを公開して、この方向の今後の研究を支援しています。 While large language models (LLMs) already achieve strong performance on standard generic summarization benchmarks, their performance on more complex summarization task settings is less studied. Therefore, we benchmark LLMs on instruction controllable text summarization, where the model input consists of both a source article and a natural language requirement for the desired summary characteristics. To this end, we curate an evaluation-only dataset for this task setting and conduct human evaluation on 5 LLM-based summarization systems. We then benchmark LLM-based automatic evaluation for this task with 4 different evaluation protocols and 11 LLMs, resulting in 40 evaluation methods in total. Our study reveals that instruction controllable text summarization remains a challenging task for LLMs, since (1) all LLMs evaluated still make factual and other types of errors in their summaries; (2) all LLM-based evaluation methods cannot achieve a strong alignment with human annotators when judging the quality of candidate summaries; (3) different LLMs show large performance gaps in summary generation and evaluation. We make our collected benchmark, InstruSum, publicly available to facilitate future research in this direction. | 翻訳日:2023-11-16 14:40:37 公開日:2023-11-15 |
# contradoc: 大きな言語モデルを持つ文書における自己矛盾の理解 ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models ( http://arxiv.org/abs/2311.09182v1 ) ライセンス: Link先を確認 | Jierui Li, Vipul Raheja, Dhruv Kumar | (参考訳) 近年,大規模言語モデル (LLM) は文書分類,要約,質問応答など,様々な文書レベルのタスクにおいて顕著な性能を示している。
しかし,長期文書における自己矛盾作業における能力の理解に関する研究は非常に限られている。
本稿では,複数ドメインにわたる長文文書の自己結合性,文書長,自己結合型,スコープなどを研究する最初の人間注釈データセットであるcontradocを紹介する。
次に、このデータセット上で、GPT3.5、GPT4、PaLM2、LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。
GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、まだ信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労しています。
データセットと実験に関連するすべてのコードをリリースします。 In recent times, large language models (LLMs) have shown impressive performance on various document-level tasks such as document classification, summarization, and question-answering. However, research on understanding their capabilities on the task of self-contradictions in long documents has been very limited. In this work, we introduce ContraDoc, the first human-annotated dataset to study self-contradictions in long documents across multiple domains, varying document lengths, self-contradictions types, and scope. We then analyze the current capabilities of four state-of-the-art open-source and commercially available LLMs: GPT3.5, GPT4, PaLM2, and LLaMAv2 on this dataset. While GPT4 performs the best and can outperform humans on this task, we find that it is still unreliable and struggles with self-contradictions that require more nuance and context. We release the dataset and all the code associated with the experiments. | 翻訳日:2023-11-16 14:40:13 公開日:2023-11-15 |
# PEARL:ジェネレーションキャリヤを用いた大規模言語モデル記述アシスタント PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers ( http://arxiv.org/abs/2311.09180v1 ) ライセンス: Link先を確認 | Sheshera Mysore, Zhuoran Lu, Mengting Wan, Longqi Yang, Steve Menezes, Tina Baghaee, Emmanuel Barajas Gonzalez, Jennifer Neville, Tara Safavi | (参考訳) 強力な大規模言語モデルは、作曲とコミュニケーションの質と効率を大幅に改善することを約束する筆記アシスタントの開発を促進する。
しかし、効果的な支援の障壁は、著者のコミュニケーションスタイルや専門知識へのLLM出力のパーソナライゼーションの欠如である。
本稿では, 検索強化LLM書込みアシスタントであるPEARLを提案することで, この課題に対処する。
ユーザからの要望に応じてLDM世代をパーソナライズすることが最善であるような,ユーザ登録履歴文書の選定を指導する。
我々は、レトリバーを訓練するための2つの重要なノベルティを提案する。
1)その利益を提供する個人化及び文書の恩恵を受ける可能性のあるユーザ要求を特定する訓練データ選択方法
2) kl-divergenceの目的は,個人化生成のための文書の利点を,レトリバーが密接に追跡することにある。
我々は、パーソナライズされた職場のソーシャルメディア投稿やRedditコメントの生成におけるPEARLの有効性を示す。
最後に, llm連鎖による低品質世代をさらに向上させる性能予測器として, 世代調整型レトリバーの可能性を示す。 Powerful large language models have facilitated the development of writing assistants that promise to significantly improve the quality and efficiency of composition and communication. However, a barrier to effective assistance is the lack of personalization in LLM outputs to the author's communication style and specialized knowledge. In this paper, we address this challenge by proposing PEARL, a retrieval-augmented LLM writing assistant personalized with a generation-calibrated retriever. Our retriever is trained to select historic user-authored documents for prompt augmentation, such that they are likely to best personalize LLM generations for a user request. We propose two key novelties for training our retriever: 1) A training data selection method that identifies user requests likely to benefit from personalization and documents that provide that benefit; and 2) A scale-calibrating KL-divergence objective that ensures that our retriever closely tracks the benefit of a document for personalized generation. We demonstrate the effectiveness of PEARL in generating personalized workplace social media posts and Reddit comments. Finally, we showcase the potential of a generation-calibrated retriever to double as a performance predictor and further improve low-quality generations via LLM chaining. | 翻訳日:2023-11-16 14:39:56 公開日:2023-11-15 |
# SiRA: 低ランク適応のスパース混合 SiRA: Sparse Mixture of Low Rank Adaptation ( http://arxiv.org/abs/2311.09179v1 ) ライセンス: Link先を確認 | Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng | (参考訳) パラメータ効率のよいチューニングは、下流タスクに大規模言語モデルを適用するための顕著なアプローチである。
以前のほとんどの作業では、すべてのパラメータが特定のタスクに適応するために使用される、高密度なトレーニング可能なパラメータの追加を検討していた。
よりトレーニング可能なパラメータを導入しても役に立たない,というLoRAの例を例に挙げた。
そこで本研究では,「スパース」計算の活用の重要性を考察し,低ランク適応のスパース混合を提案する。
SiRAはSmoE(Sparse Mixture of Expert)を活用してLoRAの性能を向上させる。
具体的には、各専門家が処理できるトークンの最大数を制限するキャパシティ制限付きの、トップ$k$専門家ルーティングを強制する。
本稿では,ゲーティングネットワーク上に新たな,かつシンプルな専門家によるドロップアウトを提案する。
広範囲な実験を通じて、SiRAはLoRAや、異なる単一タスクとマルチタスク設定をまたいだ他の専門家アプローチよりも優れた性能を示す。 Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging "sparse" computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top $k$ experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings. | 翻訳日:2023-11-16 14:39:34 公開日:2023-11-15 |
# RBPGAN:ビデオスーパーレゾリューションのためのリカレントバックプロジェクションGAN RBPGAN: Recurrent Back-Projection GAN for Video Super Resolution ( http://arxiv.org/abs/2311.09178v1 ) ライセンス: Link先を確認 | Dareen Hussein, Hesham Eraqi, Israa Fahmy, Marwah Sulaiman, Mohammed Barakat, Mohammed El-Naggar, Moustafa Youssef, Zahraa Shehabeldin | (参考訳) 近年,ビデオスーパーレゾリューション (VSR) はコンピュータビジョンの領域において,様々な用途で非常に影響力のある課題となっている。
本稿では,空間的詳細を保ちながら時間的コヒーレントな解を生成するために,vsrのためのバックプロジェクション生成逆ネットワーク(rbpgan)を提案する。
RBPGANは2つの最先端モデルを統合して、生成されたビデオの精度を損なうことなく、両方の世界で最高のものを得る。
モデルのジェネレータはRDPNシステムにインスパイアされ、識別器はTecoGANにインスパイアされている。
また,Ping-Pong損失を利用して時間とともに時間的整合性を高める。
我々のコントリビューションは、異なるデータセットを使用して定性的かつ定量的に示すように、時間的に一貫した詳細の観点から、初期の作業より優れているモデルをもたらす。 Recently, video super resolution (VSR) has become a very impactful task in the area of Computer Vision due to its various applications. In this paper, we propose Recurrent Back-Projection Generative Adversarial Network (RBPGAN) for VSR in an attempt to generate temporally coherent solutions while preserving spatial details. RBPGAN integrates two state-of-the-art models to get the best in both worlds without compromising the accuracy of produced video. The generator of the model is inspired by RBPN system, while the discriminator is inspired by TecoGAN. We also utilize Ping-Pong loss to increase temporal consistency over time. Our contribution together results in a model that outperforms earlier work in terms of temporally consistent details, as we will demonstrate qualitatively and quantitatively using different datasets. | 翻訳日:2023-11-16 14:39:19 公開日:2023-11-15 |
# ゼロショットニューラルランサーのためのマルチステップキーワード生成によるクエリ拡張 Generate, Filter, and Fuse: Query Expansion via Multi-Step Keyword Generation for Zero-Shot Neural Rankers ( http://arxiv.org/abs/2311.09175v1 ) ライセンス: Link先を確認 | Minghan Li, Honglei Zhuang, Kai Hui, Zhen Qin, Jimmy Lin, Rolf Jagerman, Xuanhui Wang, Michael Bendersky | (参考訳) クエリ拡張は、第1ステージレトリバーのリコールと精度向上に効果的であることが証明されているが、複雑で最先端のクロスエンコーダランチャーへの影響は未検討のままである。
まず,現在の文献に拡張技術を直接適用することにより,ゼロショット性能が劣化することを示す。
そこで我々は,ndcg@10のようなゼロショットランキング指標を改善するために,クエリ拡張の生成,フィルタリング,ヒューズをより効果的に行うための,大規模言語モデルとニューラルネットワークランカを備えたパイプラインであるgffを提案する。
特に、GFFはまず命令追従言語モデルを呼び出し、推論チェーンを通じてクエリ関連キーワードを生成する。
自己整合性と相互ランク重み付けを活用して、GFFはさらにフィルタし、各拡張クエリのランキング結果を動的に組み合わせる。
このパイプラインを利用することで、GFFはBEIRおよびTREC DL 2019/2020におけるゼロショットnDCG@10を改善することができることを示す。
また,gffパイプラインにおける異なるモデリング選択を分析し,ゼロショットニューラルランカのクエリ拡張における今後の方向性を明らかにした。 Query expansion has been proved to be effective in improving recall and precision of first-stage retrievers, and yet its influence on a complicated, state-of-the-art cross-encoder ranker remains under-explored. We first show that directly applying the expansion techniques in the current literature to state-of-the-art neural rankers can result in deteriorated zero-shot performance. To this end, we propose GFF, a pipeline that includes a large language model and a neural ranker, to Generate, Filter, and Fuse query expansions more effectively in order to improve the zero-shot ranking metrics such as nDCG@10. Specifically, GFF first calls an instruction-following language model to generate query-related keywords through a reasoning chain. Leveraging self-consistency and reciprocal rank weighting, GFF further filters and combines the ranking results of each expanded query dynamically. By utilizing this pipeline, we show that GFF can improve the zero-shot nDCG@10 on BEIR and TREC DL 2019/2020. We also analyze different modelling choices in the GFF pipeline and shed light on the future directions in query expansion for zero-shot neural rankers. | 翻訳日:2023-11-16 14:39:03 公開日:2023-11-15 |
# abspyramid:unified entailment graphによる言語モデルの抽象化能力をベンチマークする AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph ( http://arxiv.org/abs/2311.09174v1 ) ライセンス: Link先を確認 | Zhaowei Wang, Haochen Shi, Weiqi Wang, Tianqing Fang, Hongming Zhang, Sehyun Choi, Xin Liu, Yangqiu Song | (参考訳) 認知研究は、抽象能力が人間の知性に不可欠であることを示している。
本稿では,抽象知識の221Kテキスト記述を統一化したものであるAbsPyramidについて述べる。
既存のリソースは単純なイベントや特定のドメイン内の名詞や動詞にのみ触れるが、abspyramidは多様なイベントの3つのコンポーネントの抽象知識を収集し、オープンドメインにおける言語モデルの抽象化能力を包括的に評価する。
実験の結果,現在のllmでは,ゼロショットと少数ショット設定の抽象化知識の理解が困難であることがわかった。
豊かな抽象知識を訓練することで、LLMは基本的な抽象能力を獲得し、目に見えない事象に一般化することができる。
その間、我々のベンチマークは2つの従来の抽象タスクにまたがるLLMを強化するために包括的であることを実証的に示す。 Cognitive research indicates that abstraction ability is essential in human intelligence, which remains under-explored in language models. In this paper, we present AbsPyramid, a unified entailment graph of 221K textual descriptions of abstraction knowledge. While existing resources only touch nouns or verbs within simplified events or specific domains, AbsPyramid collects abstract knowledge for three components of diverse events to comprehensively evaluate the abstraction ability of language models in the open domain. Experimental results demonstrate that current LLMs face challenges comprehending abstraction knowledge in zero-shot and few-shot settings. By training on our rich abstraction knowledge, we find LLMs can acquire basic abstraction abilities and generalize to unseen events. In the meantime, we empirically show that our benchmark is comprehensive to enhance LLMs across two previous abstraction tasks. | 翻訳日:2023-11-16 14:38:41 公開日:2023-11-15 |
# 形状誘導拡散を用いた1画像3次元デジタル化 Single-Image 3D Human Digitization with Shape-Guided Diffusion ( http://arxiv.org/abs/2311.09221v1 ) ライセンス: Link先を確認 | Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang | (参考訳) 単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
モノクルインプットを取り入れる既存のアプローチは、監督のために地上の3Dスキャンに依存するか、3D一貫性が欠如している。
近年の3次元生成モデルでは3次元一貫したデジタル化が期待できるが、これらの手法は多様な衣服の外観に適せず、フォトリアリズムが欠如している。
既存の研究と異なり,一般画像合成タスクに事前訓練された高容量2次元拡散モデルを用いて,被衣人間に先行して出現する。
入力アイデンティティを保ちつつ、より優れた3次元一貫性を実現するために、シルエットおよび表面正常に形状誘導拡散条件を付与した欠落領域を入力画像中の人間の複数のビューを段階的に合成する。
次に、合成されたマルチビュー画像を逆レンダリングで融合し、その人物の完全なテクスチャ化された高解像度3dメッシュを得る。
実験により,本手法は従来手法よりも優れており,単一の画像から複雑なテクスチャを持つ多種多様な衣服の360度合成を実現する。 We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image. | 翻訳日:2023-11-16 14:31:19 公開日:2023-11-15 |
# 量子力学と重力のインターフェイスとしての巨大量子システム Massive quantum systems as interfaces of quantum mechanics and gravity ( http://arxiv.org/abs/2311.09218v1 ) ライセンス: Link先を確認 | Sougato Bose, Ivette Fuentes, Andrew A. Geraci, Saba Mehsar Khan, Sofia Qvarfort, Markus Rademacher, Muddassar Rashid, Hendrik Ulbricht, Clara C. Wanjura | (参考訳) 粒子物理学からの伝統的な見解では、量子重力効果は極端に高いエネルギーと小さな長さのスケールでしか検出できない。
技術的に重大な課題が伴うため、近い将来にアクセス可能な実験的に検出可能な効果を識別する能力は限られている。
しかし、近年では、実験室で制御できる量子システムのサイズと質量は前例のない規模に達しており、地上冷却と量子制御技術の進歩によって実現されている。
量子状態における大規模システムの準備は、重力を量子系によって引き起こし、探査できる低エネルギー状態の探索の道を開く。
このようなアプローチは、加速器ベースの、レーザー干渉計、ねじれバランス、重力の宇宙論的なテストの代替となる。
本稿では,大規模量子システムが量子力学と重力の界面として機能する提案の概要を紹介する。
本稿では,重力存在下での量子系の理論的記述における概念的困難について論じるとともに,実験室における大規模量子系モデリングツールについて概観する。
このレビューで取り上げられた提案には、重力の精密テスト、重力によって引き起こされる波動関数の崩壊とデコヒーレンスのテスト、重力による絡み合いなどが含まれる。
我々は、今後の質問の見通しと議論でレビューを締めくくります。 The traditional view from particle physics is that quantum gravity effects should only become detectable at extremely high energies and small length scales. Due to the significant technological challenges involved, there has been limited progress in identifying experimentally detectable effects that can be accessed in the foreseeable future. However, in recent decades, the size and mass of quantum systems that can be controlled in the laboratory have reached unprecedented scales, enabled by advances in ground-state cooling and quantum-control techniques. Preparations of massive systems in quantum states paves the way for the explorations of a low-energy regime in which gravity can be both sourced and probed by quantum systems. Such approaches constitute an increasingly viable alternative to accelerator-based, laser-interferometric, torsion-balance, and cosmological tests of gravity. In this review, we provide an overview of proposals where massive quantum systems act as interfaces between quantum mechanics and gravity. We discuss conceptual difficulties in the theoretical description of quantum systems in the presence of gravity, review tools for modeling massive quantum systems in the laboratory, and provide an overview of the current state-of-the-art experimental landscape. Proposals covered in this review include, among others, precision tests of gravity, tests of gravitationally-induced wavefunction collapse and decoherence, as well as gravity-mediated entanglement. We conclude the review with an outlook and discussion of future questions. | 翻訳日:2023-11-16 14:31:01 公開日:2023-11-15 |
# DMV3D:3次元大規模再構成モデルによる多視点拡散の可視化 DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model ( http://arxiv.org/abs/2311.09217v1 ) ライセンス: Link先を確認 | Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang | (参考訳) 本稿では,トランスフォーマーを用いた3次元大規模再構成モデルを用いて多視点拡散を解消する,新しい3次元生成手法である \textbf{dmv3d} を提案する。
再構成モデルでは, 3平面のNeRF表現を組み込んで, ノイズの多いマルチビュー画像をNeRF再構成とレンダリングによりノイズを除去し, 単一A100 GPU上で1段3D生成を$\sim$30sで達成する。
3dアセットにアクセスせずに,多彩なオブジェクトの大規模マルチビュー画像データセット上で,画像再構成損失のみを使用して, \textbf{dmv3d}をトレーニングする。
シャープなテクスチャを持つ多種多様な再構成を生成するためには、未確認物体部品の確率的モデリングが必要である。
また,従来の3次元拡散モデルよりも高品質なテキスト対3d生成結果を示す。
私たちのプロジェクトwebサイトは、https://justimyhxu.github.io/projects/dmv3d/です。 We propose \textbf{DMV3D}, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in $\sim$30s on single A100 GPU. We train \textbf{DMV3D} on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ . | 翻訳日:2023-11-16 14:30:37 公開日:2023-11-15 |
# 英語とインド語を含む大規模言語モデルの翻訳能力の評価 Assessing Translation capabilities of Large Language Models involving English and Indian Languages ( http://arxiv.org/abs/2311.09216v1 ) ライセンス: Link先を確認 | Vandan Mujadia, Ashok Urlana, Yash Bhaskar, Penumalla Aditya Pavani, Kukkapalli Shravya, Parameswari Krishnamurthy and Dipti Misra Sharma | (参考訳) 生成型大規模言語モデル(LLM)は様々なNLPタスクにおいて顕著な進歩を遂げている。
本研究の目的は、英語と22のインド語を含むタスクとして機械翻訳を用いて、大規模言語モデルの多言語機能を検討することである。
まず,原語モデルの翻訳能力について検討し,その後,原語モデルの文脈内学習能力について検討した。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整により,これらの大規模言語モデルを微調整する。
そこで本研究では,LLaMAに基づくLLMを含む翻訳タスクにおいて,最も優れた大規模言語モデルを同定した。
BLEUスコアは13.42, 15.93, 12.13, 12.30, 12.07, CHRFスコアは43.98, 46.99, 42.55, 42.42, 45.39で, IN22 (会話), IN22 (一般), flores200-dev, flores200-devtest, ニューステスト2019 では2段階の微調整 LLaMA-13b を用いた。
同様に、インド語から英語への平均BLEUスコアは14.03, 16.65, 16.17, 15.35, 12.55, chrFスコアは36.71, 40.44, 40.26, 39.51, 36.20, IN22 (会話)、IN22 (一般)、flores200-dev,flores200-devtest,およびNewstest2019テストセットを使用してそれぞれ達成した。
全体としては,現在llmで過小評価されている言語を含む,機械翻訳機能に対する大規模言語モデルの潜在性と強みに注目した。 Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. In this work, our aim is to explore the multilingual capabilities of large language models by using machine translation as a task involving English and 22 Indian languages. We first investigate the translation capabilities of raw large language models, followed by exploring the in-context learning capabilities of the same raw models. We fine-tune these large language models using parameter efficient fine-tuning methods such as LoRA and additionally with full fine-tuning. Through our study, we have identified the best performing large language model for the translation task involving LLMs, which is based on LLaMA. Our results demonstrate significant progress, with average BLEU scores of 13.42, 15.93, 12.13, 12.30, and 12.07, as well as CHRF scores of 43.98, 46.99, 42.55, 42.42, and 45.39, respectively, using 2-stage fine-tuned LLaMA-13b for English to Indian languages on IN22 (conversational), IN22 (general), flores200-dev, flores200-devtest, and newstest2019 testsets. Similarly, for Indian languages to English, we achieved average BLEU scores of 14.03, 16.65, 16.17, 15.35 and 12.55 along with chrF scores of 36.71, 40.44, 40.26, 39.51, and 36.20, respectively, using fine-tuned LLaMA-13b on IN22 (conversational), IN22 (general), flores200-dev, flores200-devtest, and newstest2019 testsets. Overall, our findings highlight the potential and strength of large language models for machine translation capabilities, including for languages that are currently underrepresented in LLMs. | 翻訳日:2023-11-16 14:30:18 公開日:2023-11-15 |
# ConvNet vs Transformer, Supervised vs CLIP: イメージネットの精度を超える ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy ( http://arxiv.org/abs/2311.09215v1 ) ライセンス: Link先を確認 | Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu | (参考訳) 現代のコンピュータビジョンは実践者には様々なモデルを提供しており、特定のアプリケーションに対して複数のオプションからモデルを選択することは困難である。
従来、競合するモデルアーキテクチャとトレーニングプロトコルは、ImageNetの分類精度によって比較される。
しかし、この単一のメトリクスは、特別なタスクにとって重要なパフォーマンスニュアンスを完全に捉えていない。
本研究では,ConvNetアーキテクチャとVision Transformerアーキテクチャの両方を対象として,教師付きおよびCLIPトレーニングパラダイム間のモデル動作の詳細な比較分析を行う。
選択したモデルには、ImageNetの精度と計算要件が類似しているが、誤りの種類、出力キャリブレーション、転送可能性、特徴不変性など、多くの点で異なることが判明している。
このモデル特性の多様性は、従来のメトリクスでは捉えられていないが、異なるモデルを選択する際に、より微妙な分析の必要性を強調している。
私たちのコードはhttps://github.com/kirill-vish/beyond-inetで利用可能です。 Modern computer vision offers a great variety of models to practitioners, and selecting a model from multiple options for specific applications can be challenging. Conventionally, competing model architectures and training protocols are compared by their classification accuracy on ImageNet. However, this single metric does not fully capture performance nuances critical for specialized tasks. In this work, we conduct an in-depth comparative analysis of model behaviors beyond ImageNet accuracy, for both ConvNet and Vision Transformer architectures, each across supervised and CLIP training paradigms. Although our selected models have similar ImageNet accuracies and compute requirements, we find that they differ in many other aspects: types of mistakes, output calibration, transferability, and feature invariance, among others. This diversity in model characteristics, not captured by traditional metrics, highlights the need for more nuanced analysis when choosing among different models. Our code is available at https://github.com/kirill-vish/Beyond-INet. | 翻訳日:2023-11-16 14:29:34 公開日:2023-11-15 |
# Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解 Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models ( http://arxiv.org/abs/2311.09214v1 ) ライセンス: Link先を確認 | Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu, Hongxia Xu, Jintai Chen, Jian Wu | (参考訳) 大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
しかし、これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題である。
チェーン・オブ・ソート (CoT) 蒸留のような技術は、LLMを小言語モデル (SLM) に蒸留する可能性を示しているが、蒸留したSLMがLLMから受け継いだ欠陥のある理由や幻覚を乗り越えるリスクがある。
まず, LLM に固有の自己評価能力を SLM に蒸留する方法を提案し, 誤った推論の悪影響を軽減し, 幻覚の低減を図る。
第2に,複数の異なる連鎖・自己評価パラダイムを取り入れた総合的な蒸留プロセスを提案し,より包括的で堅牢な知識伝達を実現する。
3つのNLPベンチマーク実験により, 蒸留したSLMの性能は大幅に向上し, 人間の認知と密に整合した小型モデル開発への道筋に光を当てた。 Large language models (LLMs) have achieved remarkable advancements in the field of natural language processing. However, the sheer scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained contexts. While techniques such as chain-of-thought (CoT) distillation have displayed promise in distilling LLMs into small language models (SLMs), there is a risk that distilled SLMs may still carry over flawed reasoning or hallucinations inherited from their LLM counterparts. To address these issues, we propose a twofold methodology: First, we introduce a novel method for distilling the self-evaluation capability inherent in LLMs into SLMs, which aims to mitigate the adverse effects of erroneous reasoning and reduce hallucinations. Second, we advocate for a comprehensive distillation process that incorporates multiple distinct chain-of-thought and self-evaluation paradigms and ensures a more holistic and robust knowledge transfer into SLMs. Experiments on three NLP benchmarks demonstrate that our method significantly improves the performance of distilled SLMs and sheds light on the path towards developing smaller models closely aligned with human cognition. | 翻訳日:2023-11-16 14:29:17 公開日:2023-11-15 |
# GRIM:gaMesのためのGRaphベースのインタラクティブな物語可視化 GRIM: GRaph-based Interactive narrative visualization for gaMes ( http://arxiv.org/abs/2311.09213v1 ) ライセンス: Link先を確認 | Jorge Leandro, Sudha Rao, Michael Xu, Weijia Xu, Nebosja Jojic, Chris Brockett, and Bill Dolan | (参考訳) 対話型ロールプレイングゲーム(RPG)は強力なストーリーテリングを必要とする。
これらの物語は書くのに何年もかかり、典型的には大きな創造的なチームを伴う。
本研究では,このプロセスを支援する大規模生成テキストモデルの可能性を示す。
Ga\textbf{M}esのためのプロトタイプ \textbf{GR}aph-based \textbf{I}nteractive narrative visualization system である \textbf{GRIM} は、高レベルな物語記述とデザイナが提供する制約にマッチする分岐ストーリーラインを備えたリッチな物語グラフを生成する。
ゲームデザイナは、オリジナルの物語や制約に適合する新しいサブグラフを自動的に生成することで、インタラクティブにグラフを編集することができる。
本稿では,gpt-4と組み合わせて,コンテキスト制約の異なる4つのよく知られたストーリの分岐ナラティブを生成する,\textbf{grim} の使用例を示す。 Dialogue-based Role Playing Games (RPGs) require powerful storytelling. The narratives of these may take years to write and typically involve a large creative team. In this work, we demonstrate the potential of large generative text models to assist this process. \textbf{GRIM}, a prototype \textbf{GR}aph-based \textbf{I}nteractive narrative visualization system for ga\textbf{M}es, generates a rich narrative graph with branching storylines that match a high-level narrative description and constraints provided by the designer. Game designers can interactively edit the graph by automatically generating new sub-graphs that fit the edits within the original narrative and constraints. We illustrate the use of \textbf{GRIM} in conjunction with GPT-4, generating branching narratives for four well-known stories with different contextual constraints. | 翻訳日:2023-11-16 14:28:52 公開日:2023-11-15 |
# 制御可能なテキスト要約: 難解な挑戦、アプローチ、展望 -- 調査 Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospects -- A Survey ( http://arxiv.org/abs/2311.09212v1 ) ライセンス: Link先を確認 | Ashok Urlana, Pruthwik Mishra, Tathagato Roy, Rahul Mishra | (参考訳) ジェネリックテキスト要約アプローチは、個々のユーザの特定の意図やニーズに対処できないことが多い。
近年,特定の目的やユーザニーズに合わせて,より密に調整・制御された要約手法の開発に学術的な注目が集まっている。
研究のコーパスの増大は、より制御可能な要約に向けられているが、この文脈で使用される様々な制御可能な側面や属性を徹底的に調査し、関連する課題を掘り下げ、既存のソリューションを調査する包括的な調査はない。
本研究では,制御可能なテキスト要約(cts)タスクを定式化し,その共有特徴と目的に応じて制御可能な側面を分類し,各カテゴリにおける既存手法とデータセットを徹底的に検討する。
さらに,本研究の結果から限界や研究ギャップを明らかにするとともに,CTSの潜在的な解決策や今後の方向性を探求する。 Generic text summarization approaches often fail to address the specific intent and needs of individual users. Recently, scholarly attention has turned to the development of summarization methods that are more closely tailored and controlled to align with specific objectives and user needs. While a growing corpus of research is devoted towards a more controllable summarization, there is no comprehensive survey available that thoroughly explores the diverse controllable aspects or attributes employed in this context, delves into the associated challenges, and investigates the existing solutions. In this survey, we formalize the Controllable Text Summarization (CTS) task, categorize controllable aspects according to their shared characteristics and objectives, and present a thorough examination of existing methods and datasets within each category. Moreover, based on our findings, we uncover limitations and research gaps, while also delving into potential solutions and future directions for CTS. | 翻訳日:2023-11-16 14:28:34 公開日:2023-11-15 |
# Chain-of-Note:Retrieval-Augmented Language Modelにおけるロバスト性向上 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models ( http://arxiv.org/abs/2311.09210v1 ) ライセンス: Link先を確認 | Wenhao Yu, Hongming Zhang, Xiaoman Pan, Kaixin Ma, Hongwei Wang, Dong Yu | (参考訳) Retrieval-augmented Language Model (RALMs) は、大規模な言語モデルの能力、特に外部の知識源を活用することで幻覚を減らし、大幅に進歩した言語モデルである。
しかし、検索された情報の信頼性は必ずしも保証されない。
無関係なデータの検索は、誤った応答をもたらし、クエリに対処する十分な情報を持っている場合でも、モデルが固有の知識を見落としてしまう可能性がある。
さらに、標準的なALMは、内在的にも回収的にも十分な知識を持っているかどうかを評価するのに苦労することが多い。
知識が不足している状況では、これらのシステムは、答えが到達できない場合、理想的には"未知"で応答すべきである。
これらの課題に対応するために、我々は、ノイズ、無関係な文書、未知のシナリオの処理において、ALMの堅牢性を改善するための新しいアプローチであるChain-of-Noting(CoN)を紹介した。
CoNの中核となる考え方は、取得した文書のシーケンシャルな読解ノートを生成し、与えられた質問に対するそれらの関連性を徹底的に評価し、この情報を統合して最終回答を定式化することである。
我々はChatGPTを用いてCoNのトレーニングデータを作成し、その後LLaMa-2 7Bモデルでトレーニングを行った。
オープンドメインQAベンチマークによる実験の結果,CoNを実装したRALMは標準のRALMよりも有意に優れていた。
特に、CoNは、完全にノイズの多い検索された文書が与えられたEMスコアの+7.9と、事前学習された知識の範囲外にあるリアルタイム質問に対する拒絶率+10.5の平均的な改善を達成している。 Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope. | 翻訳日:2023-11-16 14:28:17 公開日:2023-11-15 |
# 効率的で正確な非可換量子ギブスサンプリング器 An efficient and exact noncommutative quantum Gibbs sampler ( http://arxiv.org/abs/2311.09207v1 ) ライセンス: Link先を確認 | Chi-Fang Chen, Michael J. Kastoryano, Andr\'as Gily\'en | (参考訳) 温度状態と基底状態の準備は、量子シミュレーションに不可欠な量子アルゴリズムの課題である。
本研究では、任意の非可換ハミルトニアンのギブス状態に対して、初めて効率的に実装可能かつ正確に平衡したリンドブラジアンを構築する。
我々の構成は、メトロポリス・ハスティングスアルゴリズムの連続時間量子アナログと見なすこともできる。
量子ギブス状態を作成するために、本アルゴリズムは混合時間と逆温度$\beta$ に比例する時間に対して、多対数因子までハミルトンシミュレーションを起動する。
さらに、ゲート複雑性は、対応するリンドブラッド作用素が(準-)局所(半径$\sim\beta$)であり、局所ハミルトンパッチにのみ依存するため、格子ハミルトン多様体に対して著しく減少する。
一方、我々のリンドブラジアンを清めると、フラストレーションのない「親ハミルトニアン」の温度依存族となり、標準純化ギブス状態(すなわち熱場二重状態)の断熱経路を規定する。
これらの好ましい特徴は、古典マルコフ連鎖モンテカルロサンプリングの理想的な量子アルゴリズムであることを示唆している。 Preparing thermal and ground states is an essential quantum algorithmic task for quantum simulation. In this work, we construct the first efficiently implementable and exactly detailed-balanced Lindbladian for Gibbs states of arbitrary noncommutative Hamiltonians. Our construction can also be regarded as a continuous-time quantum analog of the Metropolis-Hastings algorithm. To prepare the quantum Gibbs state, our algorithm invokes Hamiltonian simulation for a time proportional to the mixing time and the inverse temperature $\beta$, up to polylogarithmic factors. Moreover, the gate complexity reduces significantly for lattice Hamiltonians as the corresponding Lindblad operators are (quasi-) local (with radius $\sim\beta$) and only depend on local Hamiltonian patches. Meanwhile, purifying our Lindbladians yields a temperature-dependent family of frustration-free "parent Hamiltonians", prescribing an adiabatic path for the canonical purified Gibbs state (i.e., the Thermal Field Double state). These favorable features suggest that our construction is the ideal quantum algorithmic counterpart of classical Markov chain Monte Carlo sampling. | 翻訳日:2023-11-16 14:27:48 公開日:2023-11-15 |
# tablellama: テーブルのオープン大きなジェネラリストモデルに向けて TableLlama: Towards Open Large Generalist Models for Tables ( http://arxiv.org/abs/2311.09206v1 ) ライセンス: Link先を確認 | Tianshu Zhang, Xiang Yue, Yifei Li, Huan Sun | (参考訳) 半構造化テーブルはユビキタスである。
テーブルを自動解釈、拡張、クエリすることを目的とした様々なタスクがあった。
現在のメソッドは、しばしばテーブルや特別なモデルアーキテクチャ設計の事前訓練を必要とし、特定のテーブルタイプに制限されるか、テーブルやタスクに関する仮定を単純化する。
本稿では,多種多様なテーブルベースタスクのジェネラリストとして,オープンソースの大規模言語モデル(LLM)の開発に向けた第一歩を示す。
そこで我々は,様々な現実的なテーブルやタスクを備えた新しいデータセットであるTableInstructを構築し,LLMのチューニングと評価を行う。
さらに,LongLoRAを用いてLlama 2 (7B) を微調整することで,テーブル用の最初のオープンソースジェネラリストモデルであるTableLlamaを開発した。
ドメイン内設定とドメイン外設定の両方で実験する。
ドメイン内の8つのタスクのうち7つで、TableLlamaはタスクごとにSOTAと同等かそれ以上のパフォーマンスを実現している。
6つのドメイン外のデータセットでは、ベースモデルと比較して6-48の絶対点ゲインを実現しており、TableInstructでのトレーニングがモデルの一般化性を高めることを示している。
私たちはデータセットとトレーニングされたモデルをオープンソース化し、テーブルのためのオープンなジェネラリストモデルの開発を後押しします。 Semi-structured tables are ubiquitous. There has been a variety of tasks that aim to automatically interpret, augment, and query tables. Current methods often require pretraining on tables or special model architecture design, are restricted to specific table types, or have simplifying assumptions about tables and tasks. This paper makes the first step towards developing open-source large language models (LLMs) as generalists for a diversity of table-based tasks. Towards that end, we construct TableInstruct, a new dataset with a variety of realistic tables and tasks, for instruction tuning and evaluating LLMs. We further develop the first open-source generalist model for tables, TableLlama, by fine-tuning Llama 2 (7B) with LongLoRA to address the long context challenge. We experiment under both in-domain setting and out-of-domain setting. On 7 out of 8 in-domain tasks, TableLlama achieves comparable or better performance than the SOTA for each task, despite the latter often has task-specific design. On 6 out-of-domain datasets, it achieves 6-48 absolute point gains compared with the base model, showing that training on TableInstruct enhances the model's generalizability. We will open-source our dataset and trained model to boost future work on developing open generalist models for tables. | 翻訳日:2023-11-16 14:27:27 公開日:2023-11-15 |
# 複数言語性はいつ呪われたのか?
250の高低リソース言語のための言語モデリング When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages ( http://arxiv.org/abs/2311.09205v1 ) ライセンス: Link先を確認 | Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen | (参考訳) マルチ言語モデルは低リソース言語へのNLPシステムの拡張に広く利用されている。
しかし,言語モデリング性能に対する多言語性の影響を示す具体的な証拠は乏しい。
ここでは,NLPで未研究の複数の言語ファミリーを含む,250以上の言語を対象とした1万以上の単言語および多言語言語モデルを事前訓練する。
我々は,(1)単言語データセットサイズ,(2)多言語データセットサイズ,(3)追加言語の言語的類似度,(4)モデルサイズ(最大45Mパラメータ)の関数として,各言語の言語モデリング性能がどのように変化するかを評価する。
モデレーションでは、マルチリンガルデータを追加することで、低リソースの言語モデリングのパフォーマンスが向上し、低リソースのデータセットサイズが最大33%向上する。
改良は、追加の多言語データの構文的類似性に依存し、語彙重なりの限界的な追加効果がある。
しかし、高リソース言語は、多言語事前学習シナリオにおいて一貫して悪化する。
データセットのサイズが大きくなるにつれて、多言語データの追加は低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
これらの結果から,多言語事前学習はどの言語にも適さないが,よりターゲットを絞ったモデルによって性能が著しく向上する可能性が示唆された。 Multilingual language models are widely used to extend NLP systems to low-resource languages. However, concrete evidence for the effects of multilinguality on language modeling performance in individual languages remains scarce. Here, we pre-train over 10,000 monolingual and multilingual language models for over 250 languages, including multiple language families that are under-studied in NLP. We assess how language modeling performance in each language varies as a function of (1) monolingual dataset size, (2) added multilingual dataset size, (3) linguistic similarity of the added languages, and (4) model size (up to 45M parameters). We find that in moderation, adding multilingual data improves low-resource language modeling performance, similar to increasing low-resource dataset sizes by up to 33%. Improvements depend on the syntactic similarity of the added multilingual data, with marginal additional effects of vocabulary overlap. However, high-resource languages consistently perform worse in multilingual pre-training scenarios. As dataset sizes increase, adding multilingual data begins to hurt performance for both low-resource and high-resource languages, likely due to limited model capacity (the "curse of multilinguality"). These results suggest that massively multilingual pre-training may not be optimal for any languages involved, but that more targeted models can significantly improve performance. | 翻訳日:2023-11-16 14:27:03 公開日:2023-11-15 |
# Fusion-Eval: LLMと評価器の統合 Fusion-Eval: Integrating Evaluators with LLMs ( http://arxiv.org/abs/2311.09204v1 ) ライセンス: Link先を確認 | Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng | (参考訳) 大規模言語モデル (LLM) の評価は複雑な作業であり、特に自然言語理解の複雑さと高いレベルの推論に対する期待を考えると難しい。
従来の評価は、通常、人間ベース、モデルベース、または自動メトリクスベースのパラダイムに依存しており、それぞれ独自の利点と欠点がある。
我々は,LLMを直接評価だけでなく,多様な評価者からの洞察を巧みに統合するシステムであるFusion-Evalを紹介する。
これによりFusion-Evalの柔軟性が向上し、多様なタスクを効果的に扱えるようになり、複数の参照を最適に利用できる。
SummEvalデータセットのテストでは、Fusion-EvalはSpearmanの相関を0.96で達成し、他の評価値よりも優れていた。
Fusion-Evalの成功は、LLMが人間の視点を密に整合させる評価を作成する可能性を強調し、LLM評価の分野で新しい標準を確立している。 Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation. | 翻訳日:2023-11-16 14:26:40 公開日:2023-11-15 |
# ExpM+NF: DPSGDを超越した微分プライベート機械学習 ExpM+NF: Differentially Private Machine Learning that Surpasses DPSGD ( http://arxiv.org/abs/2311.09200v1 ) ライセンス: Link先を確認 | Robert A. Bridges, Vandy J. Tombs, Christopher B. Stanley | (参考訳) この先駆的な研究において、ExpM+NFは、Exponential Mechanism(ExpM)と補助正規化フロー(NF)を使用して、事前定義された差分プライバシー保証$\varepsilon>0, \delta=0$でプライベートデータ上で機械学習(ML)をトレーニングする方法である。
We articulate theoretical benefits of ExpM+NF over Differentially Private Stochastic Gradient Descent (DPSGD), the state-of-the-art (SOTA) and de facto method for differentially private ML, and we empirically test ExpM+NF against DPSGD using the SOTA implementation (Opacus with PRV accounting) in multiple classification tasks on the Adult Dataset (census data) and MIMIC-III Dataset (electronic healthcare records) using Logistic Regression and GRU-D, a deep learning recurrent neural network with ~20K-100K parameters.
すべての実験においてExpM+NFは、$\varepsilon \in [1\mathrm{e}{-3}, 1]$の非プライベートトレーニング精度(AUC)の93%以上を獲得し、DPSGDよりも高い精度(より高いAUC)とプライバシー(より低い$\varepsilon$と$\delta=0$)を示す。
差分的にプライベートなMLは通常、適切な精度を維持するために$\varepsilon \in [1,10]$を考える。
expm+nf が dpsgd と同等であることを示すトレーニング時間結果が提示される。
これらの実験のコードはレビュー後に提供される。
制限と今後の方向性が提供される。 In this pioneering work we formulate ExpM+NF, a method for training machine learning (ML) on private data with pre-specified differentially privacy guarantee $\varepsilon>0, \delta=0$, by using the Exponential Mechanism (ExpM) and an auxiliary Normalizing Flow (NF). We articulate theoretical benefits of ExpM+NF over Differentially Private Stochastic Gradient Descent (DPSGD), the state-of-the-art (SOTA) and de facto method for differentially private ML, and we empirically test ExpM+NF against DPSGD using the SOTA implementation (Opacus with PRV accounting) in multiple classification tasks on the Adult Dataset (census data) and MIMIC-III Dataset (electronic healthcare records) using Logistic Regression and GRU-D, a deep learning recurrent neural network with ~20K-100K parameters. In all experiments, ExpM+NF achieves greater than 93% of the non-private training accuracy (AUC) for $\varepsilon \in [1\mathrm{e}{-3}, 1]$, exhibiting greater accuracy (higher AUC) and privacy (lower $\varepsilon$ with $\delta=0$) than DPSGD. Differentially private ML generally considers $\varepsilon \in [1,10]$ to maintain reasonable accuracy; hence, ExpM+NF's ability to provide strong accuracy for orders of magnitude better privacy (smaller $\varepsilon$) substantially pushes what is currently possible in differentially private ML. Training time results are presented showing ExpM+NF is comparable to (slightly faster) than DPSGD. Code for these experiments will be provided after review. Limitations and future directions are provided. | 翻訳日:2023-11-16 14:26:22 公開日:2023-11-15 |
# never lost in the middle: 注意力強化による大規模言語モデルの改善 Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering ( http://arxiv.org/abs/2311.09198v1 ) ライセンス: Link先を確認 | He Junqing, Pan Kunhao, Dong Xiaoqun, Song Zhuoyang, Liu Yibo, Liang Yuxin, Wang Hao, Sun Qianguo, Zhang Songxin, Xie Zejian, Zhang Jiaxing | (参考訳) 大きな言語モデル(LLM)は、以前よりも長いテキスト入力機能を備えているが、長いコンテキストで正しい情報を求めるのに苦労している。
中間のロスト」問題は、正しい情報が中央にある場合の精度の劇的な低下に言及して、ほとんどのLCMに挑戦する。
この課題を克服するために,ASM QA (Atentionening Multi-doc QA) と呼ばれる特別に設計されたタスクを通じて,LLMの長期的コンテキストにおける情報探索と反射能力を向上させることを提案する。
これらのタスクの後、我々のモデルはより正確に所望の情報に集中することに長けている。
実験の結果、マルチドックQAやその他のベンチマークは、最先端モデルよりも13.7%、シャッフル設定では21.5%向上した。
我々は,コミュニティにおける関連研究を促進するために,モデルziya-readerをリリースする。 While large language models (LLMs) are equipped with longer text input capabilities than before, they are struggling to seek correct information in long contexts. The "lost in the middle" problem challenges most LLMs, referring to the dramatic decline in accuracy when correct information is located in the middle. To overcome this crucial issue, this paper proposes to enhance the information searching and reflection ability of LLMs in long contexts via specially designed tasks called Attention Strengthening Multi-doc QA (ASM QA). Following these tasks, our model excels in focusing more precisely on the desired information. Experimental results show substantial improvement in Multi-doc QA and other benchmarks, superior to state-of-the-art models by 13.7% absolute gain in shuffled settings, by 21.5% in passage retrieval task. We release our model, Ziya-Reader to promote related research in the community. | 翻訳日:2023-11-16 14:25:46 公開日:2023-11-15 |
# 合唱団:意見の連鎖による人間の意見の特徴づけと予測 ChOiRe: Characterizing and Predicting Human Opinions with Chain of Opinion Reasoning ( http://arxiv.org/abs/2311.08385v2 ) ライセンス: Link先を確認 | Xuan Long Do, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen | (参考訳) 人間の意見による言語モデル(LM)の調整は、人間の価値観、嗜好、信念の把握を高めるために不可欠である。
筆者らは, ユーザの明示的な人格(人口的・イデオロギー的属性)と, ユーザの歴史的意見から推測される暗黙的な人格とを区別した, 人間の意見を予測する4段階の枠組みであるChOiReを提案する。
具体的には
(i)ユーザの明示的な人格を分析し、無関係な属性をフィルターするlm
二 暗黙のペルソナの意見を優先リストにランク付けすること。
(iii)チェーン・オブ・オピニオン(coo)の推論。lmは、明示的な人格及び最も関連する暗黙の人格を順次分析し、意見の予測を行う。
(iv)ChOiReがStepを実行する場所
(iii) 人格情報の不足を克服して最終結果を推測するために、暗黙の人格の一覧をますます大きくして何度もcooする。
ChOiReは、限られた推論呼び出しで新しい最先端の有効性を実現し、従来のLCMベースの技術を3.22%大幅に改善した。 Aligning language models (LMs) with human opinion is challenging yet vital to enhance their grasp of human values, preferences, and beliefs. We present ChOiRe, a four-step solution framework to predict human opinion that differentiates between the user explicit personae (i.e. demographic or ideological attributes) that are manually declared and implicit personae inferred from user historical opinions. Specifically, it consists of (i) an LM analyzing the user explicit personae to filter out irrelevant attributes; (ii) the LM ranking the implicit persona opinions into a preferential list; (iii) Chain-of-Opinion (CoO) reasoning, where the LM sequentially analyzes the explicit personae and the most relevant implicit personae to perform opinion prediction; (iv) and where ChOiRe executes Step (iii) CoO multiple times with increasingly larger lists of implicit personae to overcome insufficient personae information to infer a final result. ChOiRe achieves new state-of-the-art effectiveness with limited inference calls, improving previous LLM-based techniques significantly by 3.22%. | 翻訳日:2023-11-16 12:40:21 公開日:2023-11-15 |
# Scheming AIs: AIは、パワーを得るためにトレーニング中に偽のアライメントを行うか? Scheming AIs: Will AIs fake alignment during training in order to get power? ( http://arxiv.org/abs/2311.08379v2 ) ライセンス: Link先を確認 | Joe Carlsmith | (参考訳) このレポートは、トレーニングでうまく機能する先進的なAIが、後にパワーを得るためにそうするかどうかを調査する。
スケジューリングは、ベースライン機械学習手法を使用して、計画に十分洗練された目標指向のAIを訓練する、という、厄介なほど確実な結果である、と私は結論付けます(これらの条件からすると、私の主観的な確率は約25%)。
特に、トレーニングでうまくパフォーマンスを発揮すれば、(おそらくはそうであると思いますが)力を得るための優れた戦略であるならば、非常に幅広い目標が計画の動機となり、それゆえ、優れたトレーニングパフォーマンスが得られます。
これにより、トレーニングが自然にそのような目標に当てはまり、それを補強するか、あるいはパフォーマンスを改善するための簡単な方法として、モデルのモチベーションを積極的に目標に向けて押し上げることができる。
さらに、計画者はモチベーションを明らかにするために設計されたテストに一致しているふりをしているので、これが起こっているかどうかを判断するのは非常に難しいかもしれません。
しかし、快適な理由もあると思います。
トレーニングにおける様々な選択プレッシャーは、スキーマーのような目標(例えば、非スキーマーに対して、スキーマーは余分な道具的推論を行う必要があり、トレーニングパフォーマンスに悪影響を与える可能性がある)に対して作用しうるし、故意にそのようなプレッシャーを増大させることができる。
本報告では,これらと,他の様々な考察を詳細に論じ,さらに議論を進めるための実証研究の方向性を提示する。 This report examines whether advanced AIs that perform well in training will be doing so in order to gain power later -- a behavior I call "scheming" (also sometimes called "deceptive alignment"). I conclude that scheming is a disturbingly plausible outcome of using baseline machine learning methods to train goal-directed AIs sophisticated enough to scheme (my subjective probability on such an outcome, given these conditions, is roughly 25%). In particular: if performing well in training is a good strategy for gaining power (as I think it might well be), then a very wide variety of goals would motivate scheming -- and hence, good training performance. This makes it plausible that training might either land on such a goal naturally and then reinforce it, or actively push a model's motivations towards such a goal as an easy way of improving performance. What's more, because schemers pretend to be aligned on tests designed to reveal their motivations, it may be quite difficult to tell whether this has occurred. However, I also think there are reasons for comfort. In particular: scheming may not actually be such a good strategy for gaining power; various selection pressures in training might work against schemer-like goals (for example, relative to non-schemers, schemers need to engage in extra instrumental reasoning, which might harm their training performance); and we may be able to increase such pressures intentionally. The report discusses these and a wide variety of other considerations in detail, and it suggests an array of empirical research directions for probing the topic further. | 翻訳日:2023-11-16 12:39:59 公開日:2023-11-15 |
# 変圧器における創発的文脈学習の過渡的性質 The Transient Nature of Emergent In-Context Learning in Transformers ( http://arxiv.org/abs/2311.08360v2 ) ライセンス: Link先を確認 | Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant, Andrew M. Saxe, Felix Hill | (参考訳) トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。
しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。
ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。
iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。
まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。
iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。
l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。
最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。 Transformer neural networks can exhibit a surprising capacity for in-context learning (ICL) despite not being explicitly trained for it. Prior work has provided a deeper understanding of how ICL emerges in transformers, e.g. through the lens of mechanistic interpretability, Bayesian inference, or by examining the distributional properties of training data. However, in each of these cases, ICL is treated largely as a persistent phenomenon; namely, once ICL emerges, it is assumed to persist asymptotically. Here, we show that the emergence of ICL during transformer training is, in fact, often transient. We train transformers on synthetic data designed so that both ICL and in-weights learning (IWL) strategies can lead to correct predictions. We find that ICL first emerges, then disappears and gives way to IWL, all while the training loss decreases, indicating an asymptotic preference for IWL. The transient nature of ICL is observed in transformers across a range of model sizes and datasets, raising the question of how much to "overtrain" transformers when seeking compact, cheaper-to-run models. We find that L2 regularization may offer a path to more persistent ICL that removes the need for early stopping based on ICL-style validation tasks. Finally, we present initial evidence that ICL transience may be caused by competition between ICL and IWL circuits. | 翻訳日:2023-11-16 12:39:25 公開日:2023-11-15 |
# KTRL+F:知識強化インドキュメント検索 KTRL+F: Knowledge-Augmented In-Document Search ( http://arxiv.org/abs/2311.08329v2 ) ライセンス: Link先を確認 | Hanseok Oh, Haebin Shin, Miyoung Ko, Hyunji Lee, Minjoon Seo | (参考訳) KTRL+Fは、ドキュメント内のすべてのセマンティックターゲットのリアルタイムな識別と、単一の自然言語クエリによる外部ソースの認識を必要とする知識強化された文書内検索タスクである。
このタスクはドキュメント内検索のユニークな課題に対処します。
1)クエリとターゲット間の意味的ギャップを橋渡しするためのターゲットに関する追加情報の拡張利用のために,ドキュメント外の知識を活用すること,及び
2)リアルタイム適用性とパフォーマンスのバランス。
我々はktrl+fの様々なベースラインを分析し、幻覚、低レイテンシ、外部知識の活用の困難といった既存のモデルの制限があることを見出した。
そこで本研究では,単語の埋め込みに外部知識を埋め込むだけで,速度と性能の相違が期待できることを示す知識強調句検索モデルを提案する。
さらに,KTRL+Fの解決がユーザの検索体験を向上できるかどうかを検証するために,ユーザスタディを実施している。
単純なモデルであっても、クエリを少なくして検索する時間を短縮し、エビデンスを集めるために他のソースへの余分な訪問を減らすことができる。
我々は,ktrl+fの研究コミュニティに対して,ドキュメント内情報アクセスの効率化を図る。 We introduce a new problem KTRL+F, a knowledge-augmented in-document search task that necessitates real-time identification of all semantic targets within a document with the awareness of external sources through a single natural query. This task addresses following unique challenges for in-document search: 1) utilizing knowledge outside the document for extended use of additional information about targets to bridge the semantic gap between the query and the targets, and 2) balancing between real-time applicability with the performance. We analyze various baselines in KTRL+F and find there are limitations of existing models, such as hallucinations, low latency, or difficulties in leveraging external knowledge. Therefore we propose a Knowledge-Augmented Phrase Retrieval model that shows a promising balance between speed and performance by simply augmenting external knowledge embedding in phrase embedding. Additionally, we conduct a user study to verify whether solving KTRL+F can enhance search experience of users. It demonstrates that even with our simple model users can reduce the time for searching with less queries and reduced extra visits to other sources for collecting evidence. We encourage the research community to work on KTRL+F to enhance more efficient in-document information access. | 翻訳日:2023-11-16 12:38:59 公開日:2023-11-15 |
# アンロック科学:新しいデータセットとクロスモダリティ科学情報抽出ベンチマーク Unlocking Science: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction ( http://arxiv.org/abs/2311.08189v2 ) ライセンス: Link先を確認 | Yuhan Li and Jian Wu and Zhiwei Yu and B\"orje F. Karlsson and Wei Shen and Manabu Okumura and Chin-Yew Lin | (参考訳) 科学論文から重要な情報を抽出することは、研究者がより効率的に研究し、科学的進歩のペースを加速するのに役立つ可能性がある。
ここ数年、科学情報抽出(SciIE)の研究は、いくつかの新しいシステムとベンチマークのリリースを目撃した。
しかし、既存の論文中心のデータセットは主に原稿の特定の部分(抽象文など)のみに焦点を当てており、複雑な処理と高価なアノテーションのために単一のモダリティ(テキストやテーブルのみ)である。
さらに、コア情報はテキストやテーブル、あるいはその両方に存在することができる。
このデータ可用性のギャップを埋めて、モダリティ間のIEを実現するため、テキスト中のエンティティやテーブル内のエンティティやリレーションを反復的にアノテートするための半教師付きパイプラインを提案する。
このパイプラインに基づいて,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
さらに,提案するベンチマークデータセットにおける最先端ieモデルの性能をベースラインとして報告する。
最後に,ChatGPTのような大規模言語モデルの現在の課題に対する可能性について検討する。
我々の新しいデータセット、結果、分析は、半教師付きパイプラインの有効性と効率を検証し、残りの制限について論じる。 Extracting key information from scientific papers has the potential to help researchers work more efficiently and accelerate the pace of scientific progress. Over the last few years, research on Scientific Information Extraction (SciIE) witnessed the release of several new systems and benchmarks. However, existing paper-focused datasets mostly focus only on specific parts of a manuscript (e.g., abstracts) and are single-modality (i.e., text- or table-only), due to complex processing and expensive annotations. Moreover, core information can be present in either text or tables or across both. To close this gap in data availability and enable cross-modality IE, while alleviating labeling costs, we propose a semi-supervised pipeline for annotating entities in text, as well as entities and relations in tables, in an iterative procedure. Based on this pipeline, we release novel resources for the scientific community, including a high-quality benchmark, a large-scale corpus, and a semi-supervised annotation pipeline. We further report the performance of state-of-the-art IE models on the proposed benchmark dataset, as a baseline. Lastly, we explore the potential capability of large language models such as ChatGPT for the current task. Our new dataset, results, and analysis validate the effectiveness and efficiency of our semi-supervised pipeline, and we discuss its remaining limitations. | 翻訳日:2023-11-16 12:38:40 公開日:2023-11-15 |
# 海中無人航空機画像における深層学習に基づく物体検出:レビューと実験的比較 Deep Learning-Based Object Detection in Maritime Unmanned Aerial Vehicle Imagery: Review and Experimental Comparisons ( http://arxiv.org/abs/2311.07955v2 ) ライセンス: Link先を確認 | Chenjie Zhao, Ryan Wen Liu, Jingxiang Qu, Ruobin Gao | (参考訳) 海上無人航空機(UAV)と深層学習技術の進歩により、海洋産業や海洋工学の分野において、UAVに基づく物体検出の応用がますます重要になっている。
インテリジェントなセンシング能力を備えた海洋uavは、効果的で効率的な海上監視を可能にする。
海上におけるUAVによる物体検出の開発をさらに促進するために,課題,相対的手法,UAV航空データセットの総合的なレビューを行う。
具体的には,まず,海洋uavにおける物体検出に関する4つの課題,すなわち,物体特徴の多様性,デバイス制限,海洋環境変動性,データセット不足について概説する。
次に, 海洋uavに基づく物体検出性能を向上させるために, スケールアウェア, 小型物体検出, ビューアウェア, 回転物体検出, 軽量手法などの計算手法に注目した。
次に,UAVの航空画像・映像データセットを概観し,MS2ship という海中UAV航空データセットを提案する。
さらに,海洋データセット上でのオブジェクト検出手法の性能評価とロバスト性解析を行うために,一連の実験を行った。
最終的に、海上UAVによる物体検出の今後の課題と展望について述べる。
MS2shipデータセットは、 \href{https://github.com/zcj234/MS2ship}{https://github.com/zcj234/MS2ship}で入手できる。 With the advancement of maritime unmanned aerial vehicles (UAVs) and deep learning technologies, the application of UAV-based object detection has become increasingly significant in the fields of maritime industry and ocean engineering. Endowed with intelligent sensing capabilities, the maritime UAVs enable effective and efficient maritime surveillance. To further promote the development of maritime UAV-based object detection, this paper provides a comprehensive review of challenges, relative methods, and UAV aerial datasets. Specifically, in this work, we first briefly summarize four challenges for object detection on maritime UAVs, i.e., object feature diversity, device limitation, maritime environment variability, and dataset scarcity. We then focus on computational methods to improve maritime UAV-based object detection performance in terms of scale-aware, small object detection, view-aware, rotated object detection, lightweight methods, and others. Next, we review the UAV aerial image/video datasets and propose a maritime UAV aerial dataset named MS2ship for ship detection. Furthermore, we conduct a series of experiments to present the performance evaluation and robustness analysis of object detection methods on maritime datasets. Eventually, we give the discussion and outlook on future works for maritime UAV-based object detection. The MS2ship dataset is available at \href{https://github.com/zcj234/MS2ship}{https://github.com/zcj234/MS2ship}. | 翻訳日:2023-11-16 12:38:17 公開日:2023-11-15 |
# TREC 2023製品探索トラックの概要 Overview of the TREC 2023 Product Product Search Track ( http://arxiv.org/abs/2311.07861v2 ) ライセンス: Link先を確認 | Daniel Campos, Surya Kallumadi, Corby Rosset, Cheng Xiang Zhai, Alessandro Magnani | (参考訳) 今年はTREC製品サーチトラックの最初の年だ。
今年の焦点は、再利用可能なコレクションの作成と、メタデータとマルチモーダルデータの利用が検索精度に与える影響の評価である。
今年は、コンテキストメタデータを含む新しい製品検索コーパスを活用しています。
本分析は,製品検索領域において,従来の検索システムは,汎用的な事前学習型埋め込みモデルよりも効率的で,一般的に優れていることを示す。
また, 簡易・メタデータ強化コレクションの利用による影響も評価し, 拡張コレクションの影響について明確な傾向は見つからなかった。
他のタスクで広く採用され、競争性能が向上しているにもかかわらず、シングルステージの高密度検索は一般的に非競合的であり、ゼロショットドメインと微調整ドメインの両方で低品質の結果を生成することができる。 This is the first year of the TREC Product search track. The focus this year was the creation of a reusable collection and evaluation of the impact of the use of metadata and multi-modal data on retrieval accuracy. This year we leverage the new product search corpus, which includes contextual metadata. Our analysis shows that in the product search domain, traditional retrieval systems are highly effective and commonly outperform general-purpose pretrained embedding models. Our analysis also evaluates the impact of using simplified and metadata-enhanced collections, finding no clear trend in the impact of the expanded collection. We also see some surprising outcomes; despite their widespread adoption and competitive performance on other tasks, we find single-stage dense retrieval runs can commonly be noncompetitive or generate low-quality results both in the zero-shot and fine-tuned domain. | 翻訳日:2023-11-16 12:37:52 公開日:2023-11-15 |
# コンテキスト内学習と勾配降下再訪 In-context Learning and Gradient Descent Revisited ( http://arxiv.org/abs/2311.07772v2 ) ライセンス: Link先を確認 | Tomer Bar Natan, Gilad Deutch, Nadav Magar, Guy Dar | (参考訳) in-context learning (icl) は、数少ない学習タスクで印象的な結果を示したが、その基本的なメカニズムはまだ完全には理解されていない。
近年の研究では、iclは勾配降下(gd)に基づく最適化プロセスと考えられる。
これらの結果は主にICLの簡易な設定に焦点が当てられ、両者の類似性を予備評価するのみである。
本研究では, icl と gd による微調整の比較検討を行い, 等価なプロセスに従わなければならない icl の特性について検討する。
ICLと標準微調整における情報フローの大きな違いを強調した。
すなわち、ICLは各点で下位層からの情報のみに頼ることができ、微調整は深い層からの損失勾配に依存する。
この違いをレイヤ因果性(Layer Causality)と呼び、ファインタニングプロセスの層因果変異が、バニラファインタニングと同等のICLと整合し、関連するメトリクスのほとんどの場合においてさらに優れていることを示す。
私たちの知る限りでは、この違いを明示的に議論し、最小限の変更でこの問題に取り組むソリューションを提案するのはこれが初めてです。 In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. Recent works suggest that ICL can be thought of as a gradient descent (GD) based optimization process. While promising, these results mainly focus on simplified settings of ICL and provide only a preliminary evaluation of the similarities between the two methods. In this work, we revisit the comparison between ICL and GD-based finetuning and study what properties of ICL an equivalent process must follow. We highlight a major difference in the flow of information between ICL and standard finetuning. Namely, ICL can only rely on information from lower layers at every point, while finetuning depends on loss gradients from deeper layers. We refer to this discrepancy as Layer Causality and show that a layer causal variant of the finetuning process aligns with ICL on par with vanilla finetuning and is even better in most cases across relevant metrics. To the best of our knowledge, this is the first work to discuss this discrepancy explicitly and suggest a solution that tackles this problem with minimal changes. | 翻訳日:2023-11-16 12:37:39 公開日:2023-11-15 |
# ベースエディタ結果予測のための注意に基づくマルチタスク学習 Attention-based Multi-task Learning for Base Editor Outcome Prediction ( http://arxiv.org/abs/2311.07636v2 ) ライセンス: Link先を確認 | Amina Mollaysa, Ahmed Allam, Michael Krauthammer | (参考訳) ヒトの遺伝病はしばしば点突然変異から生じ、正確なゲノム編集技術の必要性を強調する。
これらのうち、塩基編集は単一のヌクレオチドレベルで標的となる改変を可能にするため際立っている。
しかし、その臨床応用は編集効率の低下と意図しない突然変異によって妨げられ、実験室での広範囲な試行錯誤実験が必要となる。
この過程を高速化するために、あるゲノム標的配列に対する全ての編集結果の可能性を予測するために、注目に基づく2段階機械学習モデルを提案する。
さらに,複数のベースエディタ(変種)を同時に学習するためのマルチタスク学習スキーマを提案する。
本モデルの予測は,複数のデータセットおよびベースエディタの実際の実験結果と一貫して強い相関を示した。
これらの結果は、ベース編集設計を改良するプロセスを強化し、加速するためのモデルの能力のさらなる検証を提供する。 Human genetic diseases often arise from point mutations, emphasizing the critical need for precise genome editing techniques. Among these, base editing stands out as it allows targeted alterations at the single nucleotide level. However, its clinical application is hindered by low editing efficiency and unintended mutations, necessitating extensive trial-and-error experimentation in the laboratory. To speed up this process, we present an attention-based two-stage machine learning model that learns to predict the likelihood of all possible editing outcomes for a given genomic target sequence. We further propose a multi-task learning schema to jointly learn multiple base editors (i.e. variants) at once. Our model's predictions consistently demonstrated a strong correlation with the actual experimental results on multiple datasets and base editor variants. These results provide further validation for the models' capacity to enhance and accelerate the process of refining base editing designs. | 翻訳日:2023-11-16 12:37:16 公開日:2023-11-15 |
# 自動脳-コンピュータインタフェースのための非パラメトリック推定によるサンプルドミナンス認識フレームワーク Sample Dominance Aware Framework via Non-Parametric Estimation for Spontaneous Brain-Computer Interface ( http://arxiv.org/abs/2311.07079v2 ) ライセンス: Link先を確認 | Byeong-Hoo Lee, Byoung-Hee Kwon, and Seong-Whan Lee | (参考訳) 深層学習は脳波(EEG)などの脳波を脳-コンピュータインタフェース(BCI)の分野で復号する可能性を示している。
しかし、脳波信号の非定常特性は、適切な知識を得るためにニューラルネットワークを訓練する上での課題となる。
これらの非定常特性から生じる不整合脳波信号は、性能を低下させる可能性がある。
したがって, 自発性BCIにおいて, サンプルの不整合を調査, 対処することが重要である。
本研究では,脳波信号の不整合の尺度としてサンプル支配の概念を導入し,そのネットワークトレーニングへの影響を変調する方法を提案する。
サンプル不一致による性能低下を補償する2段階支配スコア推定手法を提案する。
提案手法は,非パラメトリック推定を用いてサンプルの不整合を推定し,各サンプルに支配スコアを割り当てる。
このスコアはトレーニング中の損失関数で集計され、サンプルの不一致の影響を変調する。
さらに,学習中の不整合信号の影響を徐々に増加させ,全体的なパフォーマンスを向上させるカリキュラム学習手法を考案する。
提案手法を自発的bciデータセットを用いて評価する。
実験の結果,自発的bcisにおけるロバスト性能を達成する上で,サンプル優位に対処することが重要であることが明らかとなった。 Deep learning has shown promise in decoding brain signals, such as electroencephalogram (EEG), in the field of brain-computer interfaces (BCIs). However, the non-stationary characteristics of EEG signals pose challenges for training neural networks to acquire appropriate knowledge. Inconsistent EEG signals resulting from these non-stationary characteristics can lead to poor performance. Therefore, it is crucial to investigate and address sample inconsistency to ensure robust performance in spontaneous BCIs. In this study, we introduce the concept of sample dominance as a measure of EEG signal inconsistency and propose a method to modulate its effect on network training. We present a two-stage dominance score estimation technique that compensates for performance degradation caused by sample inconsistencies. Our proposed method utilizes non-parametric estimation to infer sample inconsistency and assigns each sample a dominance score. This score is then aggregated with the loss function during training to modulate the impact of sample inconsistency. Furthermore, we design a curriculum learning approach that gradually increases the influence of inconsistent signals during training to improve overall performance. We evaluate our proposed method using public spontaneous BCI dataset. The experimental results confirm that our findings highlight the importance of addressing sample dominance for achieving robust performance in spontaneous BCIs. | 翻訳日:2023-11-16 12:36:45 公開日:2023-11-15 |
# オープンボキャブラリビデオ異常検出 Open-Vocabulary Video Anomaly Detection ( http://arxiv.org/abs/2311.07042v2 ) ライセンス: Link先を確認 | Peng Wu, Xuerong Zhou, Guansong Pang, Yujia Sun, Jing Liu, Peng Wang, Yanning Zhang | (参考訳) ビデオフレームが正常であるか異常であるかを判別するためにビデオレベルラベルを活用することで,監視の弱いビデオ異常検出(vad)が著しく向上した。
しかしながら、現在のアプローチは本質的にクローズドセットの設定に限られており、トレーニング中に見つからないテストデータに異常なカテゴリが存在する場合、オープンワールドアプリケーションで苦労する可能性がある。
いくつかの最近の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオを見れば、目に見えない異常を検出することを目的としている。
しかし、このような設定は、より情報のあるビデオ監視システムを構築するのに欠かせないにもかかわらず、フレーム異常スコアの予測、特定のカテゴリの異常を認識する能力を持たないことに焦点を当てている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
そこで本研究では,OVVADを相互補完的な2つのタスク – クラス非依存検出とクラス固有分類 – に分解し,両タスクを協調的に最適化するモデルを提案する。
特に,検出タスクに大言語モデルから意味知識を導入するための意味知識注入モジュールを考案し,分類タスクのための大視野生成モデルの助けを借りて疑似未知覚映像を生成する新しい異常合成モジュールを設計した。
これらの意味的知識と合成異常は、様々な目に見えない異常の検出と分類における我々のモデルの能力を大幅に拡張する。
広範に使用されている3つのベンチマーク実験により,OVVADタスクの最先端性能が得られた。 Video anomaly detection (VAD) with weak supervision has achieved remarkable performance in utilizing video-level labels to discriminate whether a video frame is normal or abnormal. However, current approaches are inherently limited to a closed-set setting and may struggle in open-world applications where there can be anomaly categories in the test data unseen during training. A few recent studies attempt to tackle a more realistic setting, open-set VAD, which aims to detect unseen anomalies given seen anomalies and normal videos. However, such a setting focuses on predicting frame anomaly scores, having no ability to recognize the specific categories of anomalies, despite the fact that this ability is essential for building more informed video surveillance systems. This paper takes a step further and explores open-vocabulary video anomaly detection (OVVAD), in which we aim to leverage pre-trained large models to detect and categorize seen and unseen anomalies. To this end, we propose a model that decouples OVVAD into two mutually complementary tasks -- class-agnostic detection and class-specific classification -- and jointly optimizes both tasks. Particularly, we devise a semantic knowledge injection module to introduce semantic knowledge from large language models for the detection task, and design a novel anomaly synthesis module to generate pseudo unseen anomaly videos with the help of large vision generation models for the classification task. These semantic knowledge and synthesis anomalies substantially extend our model's capability in detecting and categorizing a variety of seen and unseen anomalies. Extensive experiments on three widely-used benchmarks demonstrate our model achieves state-of-the-art performance on OVVAD task. | 翻訳日:2023-11-16 12:36:10 公開日:2023-11-15 |
# 生体神経力学からの因果関係発見への注意 Attention for Causal Relationship Discovery from Biological Neural Dynamics ( http://arxiv.org/abs/2311.06928v2 ) ライセンス: Link先を確認 | Ziyu Lu, Anika Tabassum, Shruti Kulkarni, Lu Mi, J. Nathan Kutz, Eric Shea-Brown, Seung-Hwan Lim | (参考訳) 本稿では,神経生物学的および生体物理ネットワークのように,各ノードに複雑な非線形ダイナミクスを持つネットワークにおけるグランガー因果関係を学習するためのトランスフォーマーモデルの可能性について検討する。
本研究は主に、基礎となる接続マトリックスを介して基底的因果関係が知られているシミュレーションニューラルネットワークに基づく概念実証研究に焦点をあてた。
神経集団動態を予測するために訓練されたトランスフォーマーモデルに対し、クロスアテンションモジュールはニューロン間の因果関係を効果的に捉え、最も一般的なグランガー因果解析法と同等かそれ以上の精度で得ることを示した。
現実の神経生物学のデータは、動的接続性や観測されていない変動性など、さらなる課題をもたらすことを認めていますが、この研究は、神経科学における因果表現学習のためのトランスフォーマーモデルの有用性について、前向きな予見を与えてくれます。 This paper explores the potential of the transformer models for learning Granger causality in networks with complex nonlinear dynamics at every node, as in neurobiological and biophysical networks. Our study primarily focuses on a proof-of-concept investigation based on simulated neural dynamics, for which the ground-truth causality is known through the underlying connectivity matrix. For transformer models trained to forecast neuronal population dynamics, we show that the cross attention module effectively captures the causal relationship among neurons, with an accuracy equal or superior to that for the most popular Granger causality analysis method. While we acknowledge that real-world neurobiology data will bring further challenges, including dynamic connectivity and unobserved variability, this research offers an encouraging preliminary glimpse into the utility of the transformer model for causal representation learning in neuroscience. | 翻訳日:2023-11-16 12:35:39 公開日:2023-11-15 |
# ヘイトスピーチ検出のためのテキストの自動正規化 Automatic Textual Normalization for Hate Speech Detection ( http://arxiv.org/abs/2311.06851v2 ) ライセンス: Link先を確認 | Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen | (参考訳) ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。
これらの不規則さはNLPツールの効果的な操作を妨げる。
ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。
対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。
本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。
テキスト正規化にseq2seqモデルを用いることで,精度が70%弱であることが判明した。
それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。
私たちのデータセットは研究目的で利用できます。 Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes. | 翻訳日:2023-11-16 12:35:21 公開日:2023-11-15 |
# AI分類器に対する対向ロバストネス尺度の存在, 独自性, 拡張性について On existence, uniqueness and scalability of adversarial robustness measures for AI classifiers ( http://arxiv.org/abs/2310.14421v4 ) ライセンス: Link先を確認 | Illia Horenko | (参考訳) 一般化線形モデル(GLM)およびエントロピーAI(EAI)に対して、(局所的に)一意的に可逆な分類器に対する最小逆経路(MAP)と最小逆距離(MAD)の単純な検証可能な数学的条件を定式化し、証明する。
MAPとMADの実際的な計算、そして、様々な種類のAIツールの比較と解釈(神経ネットワーク、強化ランダムフォレスト、GLM、EAI)は、一般的な合成ベンチマーク(二重スイスロールスパイラルとその拡張、および2つのバイオメディカルデータ問題(健康保険請求の予測、心臓発作の致死性分類)で示される。
生体医学的応用において、MAPは、アクセス可能な制御変数の予め定義されたサブセットにおいて、患者固有のリスク軽減のユニークな介入を提供する。 Simply-verifiable mathematical conditions for existence, uniqueness and explicit analytical computation of minimal adversarial paths (MAP) and minimal adversarial distances (MAD) for (locally) uniquely-invertible classifiers, for generalized linear models (GLM), and for entropic AI (EAI) are formulated and proven. Practical computation of MAP and MAD, their comparison and interpretations for various classes of AI tools (for neuronal networks, boosted random forests, GLM and EAI) are demonstrated on the common synthetic benchmarks: on a double Swiss roll spiral and its extensions, as well as on the two biomedical data problems (for the health insurance claim predictions, and for the heart attack lethality classification). On biomedical applications it is demonstrated how MAP provides unique minimal patient-specific risk-mitigating interventions in the predefined subsets of accessible control variables. | 翻訳日:2023-11-16 12:35:02 公開日:2023-11-15 |
# アノテーションの少ないグループロバスト性のためのラストレイヤリトレーニングに向けて Towards Last-layer Retraining for Group Robustness with Fewer Annotations ( http://arxiv.org/abs/2309.08534v3 ) ライセンス: Link先を確認 | Tyler LaBonte, Vidya Muthukumar, Abhishek Kumar | (参考訳) ニューラルネットワークの経験的リスク最小化(ERM)は、急激な相関と少数集団の一般化の低さに過度に依存する傾向がある。
最近のdeep feature reweighting(dfr)テクニックは、単純なラストレイヤリトレーニングによって最先端のグループロバスト性を実現しているが、グループバランスのリウェイトデータセットを構築するには、ホールドアウトグループとクラスアノテーションが必要である。
本研究では,この非現実的要件を検証し,グループアノテーション(モデル選択以外のもの)や少数のクラスアノテーションを使わずに,最終層再学習が驚くほど効果的であることを示す。
まず,ラスト層リトレーニングによって,再重み付けデータセットが最悪のグループデータの割合が少ない場合にも,最悪のグループ精度が大幅に向上することを示す。
これは、トレーニングデータのサブセットを保持して最後のレイヤを再トレーニングする"フリーランチ"を意味し、追加のデータやアノテーションなしでデータセット全体のEMMを大幅に上回る。
グループロバスト性をさらに向上するために,不一致や誤分類を用いてデータセットの再重み付けを行う,選択的ラストレイヤーファインチューニング(self)と呼ばれる軽量な手法を導入する。
我々の経験的および理論的結果は、モデル不一致が最悪のグループデータを増幅する最初の証拠を示し、SELFはグループアノテーションなしで、グループアノテーションの3%以下で、視覚と言語タスクの4つの確立されたベンチマークでDFRにほぼ一致する。
私たちのコードはhttps://github.com/tmlabonte/last-layer-retrainingで利用可能です。 Empirical risk minimization (ERM) of neural networks is prone to over-reliance on spurious correlations and poor generalization on minority groups. The recent deep feature reweighting (DFR) technique achieves state-of-the-art group robustness via simple last-layer retraining, but it requires held-out group and class annotations to construct a group-balanced reweighting dataset. In this work, we examine this impractical requirement and find that last-layer retraining can be surprisingly effective with no group annotations (other than for model selection) and only a handful of class annotations. We first show that last-layer retraining can greatly improve worst-group accuracy even when the reweighting dataset has only a small proportion of worst-group data. This implies a "free lunch" where holding out a subset of training data to retrain the last layer can substantially outperform ERM on the entire dataset with no additional data or annotations. To further improve group robustness, we introduce a lightweight method called selective last-layer finetuning (SELF), which constructs the reweighting dataset using misclassifications or disagreements. Our empirical and theoretical results present the first evidence that model disagreement upsamples worst-group data, enabling SELF to nearly match DFR on four well-established benchmarks across vision and language tasks with no group annotations and less than 3% of the held-out class annotations. Our code is available at https://github.com/tmlabonte/last-layer-retraining. | 翻訳日:2023-11-16 12:34:42 公開日:2023-11-15 |